今天,谷歌旗下人工智能(AI)實驗室DeepMind在Nature發(fā)布了這篇論文——在這篇名為《Mastering the game of Go without human knowledge》(不使用人類知識掌握圍棋)的論文中,Deepmind展示了他們更強大的新版本圍棋程序“AlphaGo Zero”, AlphaGo Zero是對著名的AI程序AlphaGo的改進和提升。
AlphaGo AI因在去年3月份擊敗了韓國世界圍棋冠軍李世石(Lee Sedol),又在今年5月烏鎮(zhèn)圍棋大賽時擊敗現任世界圍棋冠軍柯潔而名聲大噪,但它依然無法與AlphaGo Zero相媲美,經過3天的訓練,AlphaGo Zero就以100:0的比分完勝對陣李世石的那版AlphaGo。
AlphaGo Zero為何如此強大?
一、與自己對弈、自我學習
老版AlphaGo AI與AlphaGo Zero之間的主要區(qū)別在于,前者通過吸收人類數據學習下棋,而后者則不需要。之前所有的AlphaGo AI都是從網站上下載人類數據(業(yè)余和職業(yè)圍棋)開始訓練的。它們觀看了數千場比賽,并被告知人類專家在某些位置上的特定動作。但是,AlphaGo Zero并不使用任何人類數據。相反,AlphaGo Zero通過與自己對弈學會了如何玩圍棋,完全是“無師自通”。
據DeepMind AlphaGo項目首席研究員大衛(wèi)·西爾弗(David Silver)介紹,AlphaGo Zero使用了一種新的強化學習形式,在這一過程中,它成為了自己的老師。它的起點是一個對圍棋一無所知的神經網絡,它會與自己進行數千場對弈。它所走的每一步棋就是把這個神經網絡與強大的搜索算法結合起來,然后用它來選擇下一個動作。
二、不斷更新自身神經網絡
被美國主流網絡媒體BI稱為谷歌DeepMind的無名英雄的西爾弗繼介紹說:“在每場對弈結束后,AlphaGo Zero實際上都訓練了一個新的神經網絡。它改進了自己的神經網絡,預測AlphaGo Zero自己的棋路,同時也預測了這些游戲的贏家。當AlphaGo Zero這樣做的時候,實際上會產生一個更強大的神經網絡,這將導致‘玩家’進行新的迭代。因此,我們最終得到了一個新版AlphaGo Zero,它比之前的版本更強大。而且隨著這個過程不斷重復,它也可以產生更高質量的數據,并用于訓練更好的神經網絡?!?/p>
三、依賴先進的算法
AlphaGo Zero使用的計算能力也比AlphaGo之前的版本要少得多,這表明,算法的進步遠比計算能力或數據進步更重要。AlphaGo Zero是一項重大突破,它為DeepMind的研究贏得了更大的聲譽。在AI研究領域,讓機器在某些任務中成為“超人”,而不是為它們提供人類數據進行訓練始終是一項長期存在的挑戰(zhàn)。由于人類數據太昂貴、太不可靠或根本無法獲取,從而導致AI研究進展緩慢。
西爾弗補充道:“由于不使用這些人類數據、特性或專業(yè)技術,我們實際上已經消除了人類知識的局限性。因此,AlphaGo Zero能夠從最初的原則,從空白石板中創(chuàng)造知識,并制定出自己的策略,以及自己獨特的下棋方式。這使它能夠比以前的版本強大得多?!?/p>
盡管AlphaGo Zero的突破已讓人驚嘆,但是研究人員還遠沒有研究出像好萊塢電影中描述的《機械姬》(Ex-Machina)或《她》(Her)那樣的AI。
(免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。 )