在金庸的小說《射雕英雄傳》里,周伯通“左手畫圓,右手畫方”,左手攻擊右手,右手及時反搏,自娛自樂,終無敵于天下。
現(xiàn)實世界中,亦有這么一個“幼童”,他沒見過一個棋譜,也沒有得到一個人指點,從零開始,自娛自樂,自己參悟,用了僅僅40天,便稱霸圍棋武林。
這個“幼童”,叫阿爾法元(AlphaGo Zero),就是今年5月在烏鎮(zhèn)圍棋峰會上打敗了人類第一高手柯潔的阿爾法狗強化版AlphaGo Master的同門“師弟”。不過,這個遍讀人類幾乎所有棋譜、以3比0打敗人類第一高手的師兄,在“師弟”阿爾法元從零自學第21天后,便被其擊敗。
10月19日,一手創(chuàng)造了AlphaGo神話的谷歌DeepMind團隊在Nature雜志上發(fā)表重磅論文Mastering the game of Go without human knowledge,介紹了團隊最新研究成果——阿爾法元的出世,引起業(yè)內(nèi)轟動。
雖師出同門,但是師兄弟的看家本領(lǐng)卻有本質(zhì)的差別。
“過去所有版本的AlphaGo都從利用人類數(shù)據(jù)進行培訓開始,它們被告知人類高手在這個地方怎么下,在另一個地方又怎么下。” DeepMind阿爾法狗項目負責人David Silver博士在一段采訪中介紹,“而阿爾法元不使用任何人類數(shù)據(jù),完全是自我學習,從自我對弈中實踐。”
David Silver博士介紹,在他們所設(shè)計的算法中,阿爾法元的對手,或者叫陪練,總是被調(diào)成與其水平一致。“所以它是從最基礎(chǔ)的水平起步,從零開始,從隨機招式開始,但在學習過程中的每一步,它的對手都會正好被校準為匹配器當前水平,一開始,這些對手都非常弱,但是之后漸漸變得越來越強大。”
這種學習方式正是當今人工智能最熱門的研究領(lǐng)域之一——強化學習(Reinforcement learning)。
昆山杜克大學和美國杜克大學電子與計算機工程學教授李昕博士向澎湃新聞(www.thepaper.cn)介紹,DeepMind團隊此次所利用的一種新的強化學習方式,是從一個對圍棋沒有任何知識的神經(jīng)網(wǎng)絡(luò)開始,然后與一種強大的搜索算法相結(jié)合,“簡單地解釋就是,它開始不知道該怎么做,就去嘗試,嘗試之后,看到了結(jié)果,若是正面結(jié)果,就知道做對了,反之,就知道做錯了,這就是它自我學習的方法。”
這一過程中,阿爾法元成為自己的“老師”,神經(jīng)網(wǎng)絡(luò)不斷被調(diào)整更新,以評估預測下一個落子位置以及輸贏,更新后的神經(jīng)網(wǎng)絡(luò)又與搜索算法重新組合,進而創(chuàng)建一個新的、更強大的版本,然而再次重復這個過程,系統(tǒng)性能經(jīng)過每一次迭代得到提高,使得神經(jīng)網(wǎng)絡(luò)預測越來越準確,阿爾法元也越來越強大。
其中值得一提的是,以前版本的阿爾法狗通常使用預測下一步的“策略網(wǎng)絡(luò)(policy network)”和評估棋局輸贏的“價值網(wǎng)絡(luò)(value network)”兩個神經(jīng)網(wǎng)絡(luò)。而更為強大的阿爾法元只使用了一個神經(jīng)網(wǎng)絡(luò),也就是兩個網(wǎng)絡(luò)的整合版本。
這個意義上而言,“AlphaGo Zero”譯成“阿爾法元”,而不是字面上的“阿爾法零”,“內(nèi)涵更加豐富,代表了人類認知的起點——神經(jīng)元。”李昕教授說。
上述研究更新了人們對于機器學習的認知。“人們一般認為,機器學習就是關(guān)于大數(shù)據(jù)和海量計算,但是通過阿爾法元,我們發(fā)現(xiàn),其實算法比所謂計算或數(shù)據(jù)可用性更重要。”DavidSilver博士說。
李昕教授長期專注于制造業(yè)大數(shù)據(jù)研究,他認為,這個研究最有意義的一點在于,證明了人工智能在某些領(lǐng)域,也許可以擺脫對人類經(jīng)驗和輔助的依賴。“人工智能的一大難點就是,需要大量人力對數(shù)據(jù)樣本進行標注,而阿爾法元則證明,人工智能可以通過‘無監(jiān)督數(shù)據(jù)(unsupervised data)’,也就是人類未標注的數(shù)據(jù),來解決問題。”
有人暢想,類似的深度強化學習算法,或許能更容易地被廣泛應用到其他人類缺乏了解或是缺乏大量標注數(shù)據(jù)的領(lǐng)域。
不過,究竟有多大實際意義,能應用到哪些現(xiàn)實領(lǐng)域,李昕教授表示“還前途未卜”,“下圍棋本身是一個比較局限的應用,人類覺得下圍棋很復雜,但是對于機器來說并不難。而且,下圍棋只是一種娛樂方式,不算作人們在生活中遇到的實際問題。”
那么,谷歌的AI為什么會選擇圍棋?
據(jù)《第一財經(jīng)》報道,歷史上,電腦最早掌握的第一款經(jīng)典游戲是井字游戲,這是1952年一位博士在讀生的研究項目;隨后是1994年電腦程序Chinook成功挑戰(zhàn)西洋跳棋游戲;3年后,IBM深藍超級計算機在國際象棋比賽中戰(zhàn)勝世界冠軍加里?卡斯帕羅夫。
除了棋盤游戲外,IBM的Watson系統(tǒng)在2011年成功挑戰(zhàn)老牌智力競賽節(jié)目Jeopardy游戲一戰(zhàn)成名;2014年,Google自己編寫的算法,學會了僅需輸入初始像素信息就能玩幾十種Atari游戲。
但有一項游戲仍然是人類代表著頂尖水平,那就是圍棋。
谷歌DeepMind創(chuàng)始人兼CEO Demis Hassabis博士曾在2016年AlphaGo對陣李世石時就做過說明,有著3000多年歷史的圍棋是人類有史以來發(fā)明出來的最復雜的游戲,對于人工智能來說,這是一次最尖端的大挑戰(zhàn),需要直覺和計算,要想熟練玩圍棋需要將模式識別和運籌帷幄結(jié)合。
“圍棋的搜索空間是漫無邊際的——比圍棋棋盤要大1個古戈爾(數(shù)量級單位,10的100次方,甚至比宇宙中的原子數(shù)量還要多)。”因此,傳統(tǒng)的人工智能方法也就是“為所有可能的步數(shù)建立搜索樹”,在圍棋游戲中幾乎無法實現(xiàn)。
而打敗了人類的AlphaGo系統(tǒng)的關(guān)鍵則是,將圍棋巨大無比的搜索空間壓縮到可控的范圍之內(nèi)。David Silver博士此前曾介紹,策略網(wǎng)絡(luò)的作用是預測下一步,并用來將搜索范圍縮小至最有可能的那些步驟。另一個神經(jīng)網(wǎng)絡(luò)“價值網(wǎng)絡(luò)(valuenetwork)”則是用來減少搜索樹的深度,每走一步估算一次游戲的贏家,而不是搜索所有結(jié)束棋局的途徑。
李昕教授對阿爾法元帶來的突破表示欣喜,但同時他也提到,“阿爾法元證明的只是在下圍棋這個游戲中,無監(jiān)督學習(unsupervised learning)比有監(jiān)督學習(supervised learning)‘更優(yōu)’,但并未證明這就是‘最優(yōu)’方法,也許兩者結(jié)合的semi-supervised learning,也就是在不同時間和階段,結(jié)合有監(jiān)督或無監(jiān)督學習各自的優(yōu)點,可以得到更優(yōu)的結(jié)果。”
李昕教授說,人工智能的技術(shù)還遠沒有達到人們所想象的程度,“比如,互聯(lián)網(wǎng)登錄時用的reCAPTCHA驗證碼(圖像或者文字),就無法通過機器學習算法自動識別”,他說,在某些方面,機器人確實比人做得更好,但目前并不能完全替換人。“只有當科研證明,一項人工智能技術(shù)能夠解決一些實際問題和人工痛點時,才真正算作是一個重大突破。”
昆山杜克大學常務副校長、中美科技政策和關(guān)系專家丹尼斯·西蒙(Denis Simon)博士在接受澎湃新聞采訪時表示,阿爾法元在圍棋領(lǐng)域的成功說明它確實有極大的潛力。阿爾法元通過與自身對弈實現(xiàn)了自身能力的提升,每一次它都變得更聰明,每一次棋局也更有挑戰(zhàn)性。這種重復性的、充分參與的學習增強了阿爾法元處理更高層次的、戰(zhàn)略復雜問題的能力。但缺點是這是一個封閉的系統(tǒng)。“阿爾法元如何能夠超過自身的局限獲得進一步的成長?換句話說,它能跳出框框思考嗎?”
(免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )