在AI垃圾上訓(xùn)練的AI吐出AI垃圾

AI生成的垃圾內(nèi)容充斥網(wǎng)絡(luò),影響模型質(zhì)量,導(dǎo)致性能下降。

隨著由AI撰寫的垃圾網(wǎng)頁泛濫,依賴這些數(shù)據(jù)的模型將受到影響。

AI模型通過從互聯(lián)網(wǎng)上訓(xùn)練大量數(shù)據(jù)來工作。但隨著AI越來越多地用于生成充滿垃圾內(nèi)容的網(wǎng)頁,這一過程正面臨被破壞的危險。
發(fā)表在《Nature》上的新研究表明,當(dāng)AI在AI生成的數(shù)據(jù)上訓(xùn)練時,模型輸出的質(zhì)量會逐漸下降。當(dāng)后續(xù)模型產(chǎn)生的輸出被用作未來模型的訓(xùn)練數(shù)據(jù)時,這種影響會加劇。
牛津大學(xué)的計算機(jī)科學(xué)家Ilia Shumailov領(lǐng)導(dǎo)了這項研究,他將這個過程比作拍照片的照片。“如果你拍一張照片,然后掃描它,再打印出來,再重復(fù)這個過程,基本上噪音會淹沒整個過程,”他說?!澳阕罱K只會得到一個黑方塊。”對于AI來說,這個等同于黑方塊的現(xiàn)象被稱為“模型崩潰”,這意味著模型只會生成無意義的垃圾。

這項研究可能對當(dāng)今最大的AI模型產(chǎn)生嚴(yán)重影響,因為它們使用互聯(lián)網(wǎng)作為數(shù)據(jù)庫。例如,GPT-3部分?jǐn)?shù)據(jù)來自Common Crawl,這是一個包含超過30億個網(wǎng)頁的在線存儲庫。隨著越來越多的AI生成垃圾網(wǎng)站開始充斥互聯(lián)網(wǎng),這個問題可能會變得更糟。

Shumailov說,當(dāng)前的AI模型不會立即崩潰,但可能會有實質(zhì)性的影響:改進(jìn)速度會減慢,性能可能會受到影響。

為了確定對性能的潛在影響,Shumailov和他的同事們在一組來自維基百科的數(shù)據(jù)上微調(diào)了一個大型語言模型(LLM),然后在其自身輸出上進(jìn)行了九代微調(diào)。團(tuán)隊通過“困惑度得分”測量了輸出的荒謬程度,困惑度得分衡量AI模型在預(yù)測序列下一個部分的能力方面的信心;得分越高,模型越不準(zhǔn)確。
在其他模型輸出上訓(xùn)練的模型有更高的困惑度得分。例如,對于每一代,團(tuán)隊要求模型在以下輸入后生成下一句:
“1360年之前的一些建筑通常由一個主石匠和一小隊流動石匠完成,由當(dāng)?shù)亟虆^(qū)工人補(bǔ)充,Poyntz Wright說道。但其他作者否認(rèn)這種模式,認(rèn)為著名建筑師根據(jù)早期的垂直風(fēng)格例子設(shè)計了教區(qū)教堂塔樓。”
在第九代時,模型返回如下輸出:
“建筑學(xué)。除了是世界上一些最大的黑尾野兔、白尾野兔、藍(lán)尾野兔、紅尾野兔、黃尾野兔的棲息地之外。”

Shumailov用這個類比來解釋他認(rèn)為發(fā)生的情況:想象你試圖找到學(xué)校里最不可能的學(xué)生名字。你可以遍歷每個學(xué)生的名字,但這會花費(fèi)太長時間。相反,你可以查看1000個名字中的100個。你會得到一個相當(dāng)不錯的估計,但可能不是正確答案?,F(xiàn)在,假設(shè)另一個人基于你的100個名字做出估計,但只選擇了50個。這第二個人的估計會更不準(zhǔn)確。

“你可以想象同樣的事情發(fā)生在機(jī)器學(xué)習(xí)模型上,”他說?!八匀绻谝粋€模型看到了互聯(lián)網(wǎng)的一半,那么第二個模型可能不會要求看到互聯(lián)網(wǎng)的一半,而是實際上抓取最新的10萬個推文,并在其上訓(xùn)練模型?!?br />此外,互聯(lián)網(wǎng)并不是無限量的數(shù)據(jù)。為了滿足他們對更多數(shù)據(jù)的需求,未來的AI模型可能需要在合成數(shù)據(jù)上進(jìn)行訓(xùn)練——即由AI生成的數(shù)據(jù)。

麻省理工學(xué)院媒體實驗室的Shayne Longpre研究LLM的訓(xùn)練方法,他沒有參與這項研究。他說:“基礎(chǔ)模型確實依賴于數(shù)據(jù)的規(guī)模來表現(xiàn)良好。” “他們正在尋找在受控環(huán)境中使用合成數(shù)據(jù)作為解決方案。因為如果他們繼續(xù)抓取互聯(lián)網(wǎng)上更多的數(shù)據(jù),回報將會遞減?!?/p>

斯坦福大學(xué)的AI研究員Matthias Gerstgrasser撰寫了一篇探討模型崩潰的不同論文,他表示,將合成數(shù)據(jù)添加到真實世界數(shù)據(jù)中而不是替代它不會造成任何重大問題。但他補(bǔ)充說:“所有模型崩潰文獻(xiàn)都達(dá)成的一個結(jié)論是,高質(zhì)量和多樣化的訓(xùn)練數(shù)據(jù)很重要?!?/p>

這種隨時間推移的退化的另一個影響是,影響少數(shù)群體的信息在模型中被嚴(yán)重扭曲,因為它往往過度關(guān)注訓(xùn)練數(shù)據(jù)中更普遍的樣本。

麻省理工學(xué)院媒體實驗室研究計算法的Robert Mahari(他沒有參與這項研究)說,在當(dāng)前模型中,這可能會影響到需要更多合成(AI生成)數(shù)據(jù)集的非主流語言。

一個可能有助于避免退化的想法是確保模型更重視原始的人工生成數(shù)據(jù)。Shumailov的研究還允許后代模型從原始數(shù)據(jù)集中抽樣10%,這減輕了一些負(fù)面影響。
這將需要從原始人工生成數(shù)據(jù)到后代模型的數(shù)據(jù)溯源。

但溯源需要某種方式來過濾互聯(lián)網(wǎng)中的人工生成和AI生成內(nèi)容,這一點尚未解決。盡管現(xiàn)在有許多工具旨在確定文本是否由AI生成,但它們通常不準(zhǔn)確。

“遺憾的是,我們有更多的問題而不是答案,”Shumailov說?!暗苊黠@,知道你的數(shù)據(jù)來源以及你能多大程度上信任它來捕捉你正在處理的數(shù)據(jù)的代表性樣本,這一點很重要?!?/p>

本文譯自 MIT Technology Review,由 BALI 編輯發(fā)布。

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )

贊助商
2024-07-29
在AI垃圾上訓(xùn)練的AI吐出AI垃圾
AI生成的垃圾內(nèi)容充斥網(wǎng)絡(luò),影響模型質(zhì)量,導(dǎo)致性能下降。隨著由AI撰寫的垃圾網(wǎng)頁泛濫,依賴這些數(shù)據(jù)的模型將受到影響。AI模型通過從互聯(lián)網(wǎng)上訓(xùn)練大量數(shù)據(jù)來工作。

長按掃碼 閱讀全文