在快速發(fā)展的人工智能領域,技術突破與用戶體驗提升正引領著語音對話模型邁向新的高度。從最初的簡單問答到如今復雜多變的對話場景,人機交互正經(jīng)歷著前所未有的深刻變革。傳統(tǒng)的訓練數(shù)據(jù)已難以適應當前的需求,現(xiàn)代交互要求系統(tǒng)不僅能理解語言的上下文,還需快速識別用戶的需求并作出恰當反饋。
在此背景下,晴數(shù)智慧聯(lián)合中國科學院聲學研究所,共同開源了“雙工自然對話語音數(shù)據(jù)集_中文”,為語音對話模型提供更加真實、細膩的訓練數(shù)據(jù)。通過對每位說話者語音的獨立分析,該數(shù)據(jù)集讓語音對話模型能夠洞察對話中的上下文變化、語調起伏以及情感波動,從而生成更加自然、準確的回應。同時,雙工分離數(shù)據(jù)讓端到端模型的構建更為精準,反饋速度更快。
AI實時交互新體驗" alt="數(shù)據(jù)開源 " 高質量雙工自然對話中文語音數(shù)據(jù)集,引領AI實時交互新體驗" loading="lazy"/>
數(shù)據(jù)集描述
晴數(shù)智慧開發(fā)的多通道自然對話語音數(shù)據(jù)集,旨在解決當前語音對話模型面臨的兩大問題:一是如何在復雜對話環(huán)境中準確捕捉并區(qū)分每位說話者的語音信息;二是如何使AI模型更好地理解并適應自然對話中的打斷、交互等動態(tài)過程。
上圖為雙工語音交互模型架構圖。雙工語音交互模型(如 dGSLM [1]、Moshi [2]和SLIDE [3])突破了傳統(tǒng)單工語音交互模型一問一答的僵化響應模式,實現(xiàn)了同步聽說以及在交互過程中自然的打斷與插話。然而,這些模型的訓練高度依賴雙工自然對話語音數(shù)據(jù)。而此類數(shù)據(jù)的稀缺,尤其是在中文領域,嚴重限制了上述模型的性能提升。
為解決這些問題,我們采取了創(chuàng)新的數(shù)據(jù)采集與處理策略。首先,通過獨立采集每位說話者的音軌,并單獨對每個說話人做分類標注,完整的保留了對話過程中自然的打斷,交互等過程。其次,通過將每位說話者的音頻分離,我們能夠提供更清晰、更精準的訓練數(shù)據(jù),使模型更專注于理解和響應自然說話的交互過程。
為了讓大家更直觀地了解我們的多通道數(shù)據(jù),我們特別選取了5小時的對話內容作為本次開源數(shù)據(jù)集。本數(shù)據(jù)可以用于模型的微調或者測試使用(非商用)。
數(shù)據(jù)集優(yōu)勢與亮點
自然度:捕捉真實場景下的自然對話,確保數(shù)據(jù)的高度自然流暢;
領域多樣性:覆蓋多個行業(yè)與話題,滿足跨領域應用需求;
地域多樣性:融入不同地域的語音特征,增強模型的泛化能力;
副語言標簽:特別標注副語言信息,如語氣、停頓等,為深度情感分析與交互體驗升級提供有力支持。
除了中文雙工對話數(shù)據(jù)開源之外,我們同樣開源了英語雙工對話數(shù)據(jù),對英語雙工數(shù)據(jù)感興趣的朋友,歡迎通過以下鏈接下載并使用,探索更多可能~
(免責聲明:本網(wǎng)站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內容可能涉嫌侵犯其知識產(chǎn)權或存在不實內容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。 )