數(shù)據(jù)是推動AI發(fā)展的催化劑,但如果要收集有效的數(shù)據(jù),這就需要AI專家富有創(chuàng)造性了。自然語言處理(NLP)是AI的一個子域,側(cè)重于教計算機如何解析人類語言。在MIT的年度自然語言處理實證方法會議(EMNLP 2018)中,來自微軟、臉譜網(wǎng)和谷歌等科技公司或組織的AI專家們介紹了一大系列收集信息的新穎方法,本文主要總結(jié)了其中令人印象深刻的四種方法。
1. 混合語言(Spanish+English=Spanglish)
微軟在多語種NLP的論文提出了一種專注于處理“混合語言”的方法,即在夾雜不同語言的文本或語音中自由切換,考慮到世界上超過一半的人口使用多語言,這個對此前未涉及領域的研究非常重要。
研究人員從西班牙語和英語著手,不過他們?nèi)鄙僮懔康奈靼嘌勒Z文本來訓練機器。正如混合代碼,很少能找到包含多語言會話的文本,研究人員編寫了一個程序克服這個挑戰(zhàn):把流行英語文本錄入到微軟的必應翻譯器,然后將以詞組為單位翻譯的西班牙語譯文轉(zhuǎn)入源文本,確保交換的單詞和短語具備同樣的意思。通過這種方式,他們能夠創(chuàng)建出足夠多的西班牙式英語。
通過這種方式產(chǎn)生的NLP模型明顯優(yōu)于之前只用西班牙語或只用英語訓練的模型。研究人員希望他們的工作最終能幫助開發(fā)多語言聊天機器人。
2. 食譜
食譜以圖文并茂和循序漸進的方式教人如何做菜,類似這種的方法也可以被用來訓練機器:用結(jié)構(gòu)數(shù)據(jù)教會機器同時理解文本和圖像。土耳其哈斯特帕大學的研究人員匯編了一套涵蓋兩萬多本插圖烹飪食譜的大型數(shù)據(jù)集,他們希望將此作為用于訓練機器文本-圖像理解性能的基準測試的新資源。
這個所謂的“食譜QA”的數(shù)據(jù)集是建立在先前的研究基礎之上,此前的研究分別側(cè)重機器閱讀理解和視覺理解能力,對于前者,機器必須理解問題和相關段落才能找到答案,而對于后者,機器只能在相關圖像中搜索答案。文本和圖像的并排增加了任務的復雜性,因為這會呈現(xiàn)出互補或多余的信息。
3. 短句
谷歌希望用AI潤色散文,研究人員為此創(chuàng)造了有史以來最大的數(shù)據(jù)集:將長句縮減成短句,但兩者具備相同意義。在哪里才能找到大量的編輯數(shù)據(jù)呢?當然是維基百科了。
研究團隊從維基百科豐富的編輯歷史中提取了拆分長句的實例,結(jié)果顯示,相比以前的基準數(shù)據(jù)集,這次任務中發(fā)現(xiàn)了60倍不同的句子拆分例子和90倍的詞匯單詞,而且數(shù)據(jù)集跨越多種語言。
當研究人員用新的數(shù)據(jù)訓練機器學習模型時,其準確度(這里的準確度是指句子被重寫后其意義和語法保持正確的比例)高達91%,相比之下,用先前數(shù)據(jù)進行訓練的模型僅達到32%的準確度,最后,研究人員結(jié)合了兩個數(shù)據(jù)集并用此對第三個模型進行了訓練,準確度達到了95%。因此,研究人員得出結(jié)論,可以通過尋找更多的數(shù)據(jù)來源實現(xiàn)更好的效果。
4. 社交媒體的偏差
相關研究已表明,人類創(chuàng)造的語言是人類種族、性別和年齡很好的一個預測指標,即使這些信息從未被明確地陳述過。因此,以色列巴伊蘭大學和艾倫AI研究所的研究人員試圖利用AI通過移除這些內(nèi)嵌指標來消除文本中的偏差。
為了獲取足夠數(shù)據(jù)代表基于不同人口統(tǒng)計的語言模式,他們轉(zhuǎn)向了Twitter平臺,收集了幾組不同用戶的推文,其中的對比組用戶包括非西班牙裔的白人和非西班牙裔的黑人、男性和女性、18-34歲和35歲以上。
研究人員采用一種對抗方式將兩個神經(jīng)網(wǎng)絡相互對立,查看其是否能自動除去推文中內(nèi)在的人口統(tǒng)計指標。其中一個神經(jīng)網(wǎng)絡試圖預測人口統(tǒng)計學,而另一個試圖將文本調(diào)整到完全中立的狀態(tài),其目的是將第一個模型的預測準確度(或可能性)降低到50%。通過這種方式能顯著減低種族,性別和年齡的指標,但無法完全消除。
(免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內(nèi)容或斷開相關鏈接。 )