谷歌剛剛在博客中宣布,谷歌神經(jīng)機(jī)器翻譯系統(tǒng)進(jìn)行了重大更新,實(shí)現(xiàn)了用單一模型對(duì)多語(yǔ)種通用表征。系統(tǒng)還實(shí)現(xiàn)“零數(shù)據(jù)翻譯”,也即能夠在從來(lái)沒(méi)有見(jiàn)過(guò)的語(yǔ)言之間進(jìn)行翻譯。這意味著傳說(shuō)中的“巴別塔”有望成真。而國(guó)內(nèi)的那些百度、科大訊飛們又不小心被甩出了10萬(wàn)公里遠(yuǎn)。至少?gòu)墓_(kāi)的信息中是這樣子的。
過(guò)去10年中,谷歌翻譯已從僅支持幾種語(yǔ)言發(fā)展到了支持103種,每天翻譯超過(guò)了1400億字。為了實(shí)現(xiàn)這一點(diǎn),我們需要構(gòu)建和維護(hù)許多不同的系統(tǒng),以便在任何兩種語(yǔ)言之間進(jìn)行轉(zhuǎn)換,由此產(chǎn)生了巨大的計(jì)算成本。
神經(jīng)網(wǎng)絡(luò)改革了許多領(lǐng)域,我們確信可以進(jìn)一步提高翻譯質(zhì)量,但這樣做意味著重新思考谷歌翻譯背后的技術(shù)。
今年 9 月,谷歌翻譯改為啟用谷歌神經(jīng)機(jī)器翻譯(GNMT)的新系統(tǒng),這是一個(gè)端到端的學(xué)習(xí)框架,可以從數(shù)百萬(wàn)個(gè)示例中學(xué)習(xí),并在翻譯質(zhì)量方面有顯著提升。
不過(guò),雖然啟用GNMT的幾種語(yǔ)言翻譯質(zhì)量得到了提升,但將其擴(kuò)展到所有 103 種谷歌翻譯支持的語(yǔ)種,卻是一個(gè)重大的挑戰(zhàn)。
實(shí)現(xiàn)零數(shù)據(jù)翻譯(Zero-Shot Translation)
在論文《谷歌多語(yǔ)言神經(jīng)機(jī)器翻譯系統(tǒng):實(shí)現(xiàn)零數(shù)據(jù)翻譯》(Google s Multilingual Neural Machine Translation System: Enabling Zero-Shot Translation)中,我們通過(guò)擴(kuò)展以前的 GNMT系統(tǒng)解決這一挑戰(zhàn),使單個(gè)系統(tǒng)能夠在多種語(yǔ)言之間進(jìn)行翻譯。
我們提出的架構(gòu)不需要改變基本的 GNMT 系統(tǒng),而是在輸入句子的開(kāi)頭使用附加的“token”,指定系統(tǒng)將要翻譯的目標(biāo)語(yǔ)言。 除了提高翻譯質(zhì)量,我們的方法還實(shí)現(xiàn)了“Zero-Shot Translation”,也即在沒(méi)有先驗(yàn)數(shù)據(jù)的情況下,讓系統(tǒng)對(duì)從未見(jiàn)過(guò)的語(yǔ)言進(jìn)行翻譯。
下圖展示了最新 GNMT 的工作原理。假設(shè)我們使用日語(yǔ)和英語(yǔ)以及韓語(yǔ)和英語(yǔ)之間相互翻譯為例,訓(xùn)練一個(gè)多語(yǔ)言系統(tǒng),如動(dòng)畫中藍(lán)色實(shí)線所示。
這個(gè)新的多語(yǔ)言系統(tǒng)與單個(gè) GNMT 系統(tǒng)大小一樣,參數(shù)也一樣,能夠在日英和韓英這兩組語(yǔ)言對(duì)中進(jìn)行雙語(yǔ)翻譯。參數(shù)共享使系統(tǒng)能夠?qū)ⅰ胺g知識(shí)”(translation knowledge)從一個(gè)語(yǔ)言對(duì)遷移到其他語(yǔ)言對(duì)。這種遷移學(xué)習(xí)和在多種語(yǔ)言之間進(jìn)行翻譯的需要,迫使系統(tǒng)更好地利用其建模能力。
由此,我們想到:能夠讓系統(tǒng)在從未見(jiàn)過(guò)的語(yǔ)言對(duì)之間進(jìn)行翻譯嗎?例如韓語(yǔ)和日語(yǔ)之間的翻譯,系統(tǒng)并沒(méi)有接受過(guò)日韓之間翻譯的訓(xùn)練。
但答案是肯定的——雖然從來(lái)沒(méi)有教過(guò)它但,新的系統(tǒng)確實(shí)能夠生成日韓兩種語(yǔ)言之間合理的翻譯。我們將其稱為“零數(shù)據(jù)”(zero-shot)翻譯,如動(dòng)畫中的黃色虛線所示。據(jù)我們所知,這還是首次將這種類型的遷移學(xué)習(xí)應(yīng)用機(jī)器翻譯中。
零數(shù)據(jù)翻譯的成功帶來(lái)了另一個(gè)重要的問(wèn)題:系統(tǒng)是否學(xué)會(huì)了一種通用的表征,其中不同語(yǔ)言中具有相同意義的句子都以類似的方式表示,也即所謂的“國(guó)際通用語(yǔ)”(interlingua)?
使用內(nèi)部網(wǎng)絡(luò)數(shù)據(jù)的三維表征,我們能夠看見(jiàn)系統(tǒng)在翻譯日語(yǔ)、韓語(yǔ)和英語(yǔ)這幾種語(yǔ)言時(shí),在各種可能的語(yǔ)言對(duì)之間進(jìn)行轉(zhuǎn)換(比如日語(yǔ)到韓語(yǔ)、韓語(yǔ)到英語(yǔ)、英語(yǔ)到日語(yǔ)等等)時(shí),內(nèi)部發(fā)生的情況。
上圖中的(a)部分顯示了這些翻譯的總體幾何構(gòu)成。圖中不同顏色的點(diǎn)代表不同的意思;意思相同的一句話,從英語(yǔ)翻譯為韓語(yǔ),與從日語(yǔ)翻譯為英語(yǔ)的顏色相同。我們可以從上圖中看到不同顏色的點(diǎn)各自形成的集合(group)。
(b)部分是這些點(diǎn)集的其中一個(gè)放大后的結(jié)果,(c)部分則由原語(yǔ)言的顏色所示。在單個(gè)點(diǎn)集中,我們能夠看到日韓英三種語(yǔ)言中,擁有相同含義的句子聚在一起。
這意味著網(wǎng)絡(luò)必定是對(duì)句子的語(yǔ)義進(jìn)行編碼,而不是簡(jiǎn)單地記住短語(yǔ)到短語(yǔ)之間的翻譯。由此,我們認(rèn)為這代表了網(wǎng)絡(luò)中存在了一種國(guó)際通用語(yǔ)(interlingua)。
我們?cè)谡撐闹羞€寫下了更多的結(jié)果和分析,希望這些的發(fā)現(xiàn)不僅能夠幫助從事機(jī)器學(xué)習(xí)或機(jī)器翻譯的研究人員,還能對(duì)于語(yǔ)言學(xué)家和對(duì)使用單一系統(tǒng)處理多語(yǔ)言感興趣的人有用。
最后,上述多語(yǔ)言谷歌神經(jīng)機(jī)器翻譯系統(tǒng)(Multilingual Google Neural Machine Translation)從今天開(kāi)始將陸續(xù)為所有谷歌翻譯用戶提供服務(wù)。當(dāng)前的多語(yǔ)言系統(tǒng)能夠在最近推出的16個(gè)語(yǔ)言對(duì)中的 10 對(duì)中進(jìn)行轉(zhuǎn)化,提高了翻譯質(zhì)量,并且簡(jiǎn)化了生產(chǎn)架構(gòu)。
商業(yè)部署后,實(shí)現(xiàn)技術(shù)上的突破
正如前文所說(shuō),今年 9 月,谷歌宣布對(duì)部分語(yǔ)種啟用谷歌神經(jīng)機(jī)器翻譯(GNMT)的新系統(tǒng),并在幾種率先使用的測(cè)試語(yǔ)種(包括漢語(yǔ))翻譯質(zhì)量方面得到了顯著提升。
下面的動(dòng)圖展示了 GNMT 進(jìn)行漢英翻譯的過(guò)程。首先,網(wǎng)絡(luò)將漢字(輸入)編碼成一串向量,每個(gè)向量代表了當(dāng)前讀到它那里的意思(即 e3 代表“知識(shí)就是”,e5 代表“知識(shí)就是力量”)。整句話讀完之后開(kāi)始解碼,每次生成一個(gè)作為輸出的英語(yǔ)單詞(解碼器)。
要每一步生成一個(gè)翻譯好的英語(yǔ)單詞,解碼器需要注意被編碼中文向量的加權(quán)分布中,與生成英語(yǔ)單詞關(guān)系最為密切的那個(gè)(上圖中解碼器 d 上面多條透明藍(lán)線中顏色最深的那條),解碼器關(guān)注越多,藍(lán)色越深。
使用人類對(duì)比評(píng)分指標(biāo),GNMT 系統(tǒng)生成的翻譯相比此前有了大幅提高。在幾種重要語(yǔ)言中,GNMT 將翻譯錯(cuò)誤降低了 55%-58%。
不過(guò), 當(dāng)時(shí)也有很多研究人員認(rèn)為,當(dāng)時(shí)谷歌翻譯取得的“里程碑”,與其說(shuō)是技術(shù)突破,不如說(shuō)是工程上的勝利——大規(guī)模部署本身確實(shí)需要軟硬件方面超強(qiáng)的實(shí)力,尤其是想谷歌翻譯這樣支持 1 萬(wàn)多種語(yǔ)言的商業(yè)應(yīng)用,對(duì)速度和質(zhì)量的要求都非常的高。但是,神經(jīng)機(jī)器翻譯的技術(shù)早已存在,借鑒了語(yǔ)言和圖像處理方面的靈感,是多種技術(shù)的整合。
現(xiàn)在,只用了大約 2 個(gè)月的時(shí)間(論文首次上傳到 arXiv 是 11 月 14 日),谷歌翻譯和谷歌大腦團(tuán)隊(duì)就實(shí)現(xiàn)了技術(shù)上的突破——讓系統(tǒng)在從未見(jiàn)過(guò)的語(yǔ)言對(duì)之間進(jìn)行翻譯,也即所謂的“zero-shot translation”。
不僅如此,谷歌研究人員還在論文最后做了分析,新的模型代表了實(shí)現(xiàn)一種“國(guó)際通用語(yǔ)”模型的可能。有評(píng)論稱, 這可以說(shuō)是實(shí)現(xiàn)“巴別塔”的第一步。
谷歌神經(jīng)機(jī)器翻譯系統(tǒng)架構(gòu)
就在幾天前,國(guó)外研究員 Smerity 在他的博客上發(fā)布了一篇分析谷歌神經(jīng)機(jī)器翻譯(GNMT)架構(gòu)的文章,在 HackerNews、Reddit 等網(wǎng)站都引發(fā)了很多討論。
Smerity 在博文中指出,GNMT 的架構(gòu)并不標(biāo)準(zhǔn),而且在很多情況下偏離主流學(xué)術(shù)論文中提出的架構(gòu)。但是,根據(jù)谷歌特定的需求,谷歌修改了系統(tǒng),重點(diǎn)保證系統(tǒng)的實(shí)用性而并非追求頂尖結(jié)果。
【論文】谷歌的多語(yǔ)言神經(jīng)機(jī)器翻譯系統(tǒng):實(shí)現(xiàn) zero-shot 翻譯
摘要如下:
我們提出了一種使用單一神經(jīng)機(jī)器翻譯(NMT)模型,在多語(yǔ)種之間進(jìn)行翻譯簡(jiǎn)潔而優(yōu)雅的解決方案。不需要修改谷歌現(xiàn)有的基礎(chǔ)系統(tǒng)模型架構(gòu),而是在輸入句子的前面加入人工 標(biāo)記(token)明確其要翻譯成的目標(biāo)語(yǔ)言。
模型的其他部分(包括編碼器、解碼器和注意模型)保持不變,而且可以在所有語(yǔ)言上共享。使用一個(gè)共享的 wordpiece vocabulary,這種方法能夠使用單一模型實(shí)現(xiàn)多語(yǔ)種神經(jīng)機(jī)器翻譯,而不需要增加參數(shù),相比此前提出的方法更為簡(jiǎn)單。
實(shí)驗(yàn)表明,這種新的方法大部分時(shí)候能提升所有相關(guān)語(yǔ)言對(duì)的翻譯質(zhì)量,同時(shí)保持總的模型參數(shù)恒定。
在 WMT' 14 基準(zhǔn)上,單一多語(yǔ)言模型在英法雙語(yǔ)翻譯上實(shí)現(xiàn)了與當(dāng)前最好技術(shù)相同的結(jié)果,并在英德雙語(yǔ)翻譯上超越當(dāng)前最佳的結(jié)果。
同時(shí),單一多語(yǔ)言模型分別在 WMT'14 和 WMT'15 基準(zhǔn)上,超越了當(dāng)前最佳的法英和德英翻譯結(jié)果。 在用于生產(chǎn)的語(yǔ)料庫(kù)上,多達(dá) 12 個(gè)語(yǔ)言對(duì)的多語(yǔ)言模型能夠?qū)崿F(xiàn)比許多單獨(dú)的語(yǔ)言對(duì)更好的表現(xiàn)。
除了提升該模型訓(xùn)練所用的語(yǔ)言對(duì)的翻譯質(zhì)量之外,新的模型還能在訓(xùn)練過(guò)程中將沒(méi)有見(jiàn)過(guò)的語(yǔ)言對(duì)相互聯(lián)系起來(lái)(bridging),表明用于神經(jīng)翻譯的遷移學(xué)習(xí)和零數(shù)據(jù)翻譯是可能的。
最后,我們分析了最新模型對(duì)通用語(yǔ)言間表征的跡象,還展示了一些混合語(yǔ)言時(shí)會(huì)出現(xiàn)的有趣案例。
- 百億美元預(yù)算僅分到3.25億,馬斯克的SpaceX遭遇最狠一擊
- 啟信寶發(fā)布《全國(guó)產(chǎn)業(yè)集群大全》,全景透視超20000個(gè)特色產(chǎn)業(yè)集群
- 人民日?qǐng)?bào)對(duì)話任正非:國(guó)家越開(kāi)放,會(huì)促使我們更加進(jìn)步
- 五大領(lǐng)域,六大亮點(diǎn)!全國(guó)首個(gè)新域新質(zhì)創(chuàng)新大賽落地青島
- 2025新域新質(zhì)創(chuàng)新大賽新聞通氣會(huì)?在青島召開(kāi)
- 華為ICT大賽2024-2025全球總決賽收官:AI賦能教育轉(zhuǎn)型,助力ICT人才培養(yǎng)
- 從無(wú)線再進(jìn)化到數(shù)據(jù)完整性:解碼Qorvo如何定義下一代智能設(shè)備
- 發(fā)力5G-A揚(yáng)帆,山東領(lǐng)航萬(wàn)兆時(shí)代:助推新型工業(yè)化崛起
- 萬(wàn)智互聯(lián) 加速邁向智能世界——華為亮相第八屆數(shù)字中國(guó)建設(shè)峰會(huì)
- 聯(lián)想車計(jì)算上海車展亮劍:以智算AI,驅(qū)動(dòng)汽車“智慧”加速
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。