登頂世界第一! 相比其他AI，AlphaGo究竟有何不同？| IJCAI2016特邀演講

本文作者：李尊

2016-07-19 19:06

導(dǎo)語：最新排名顯示，AlphaGo以3612分登頂世界第一，超越了所有人類棋手。

世界職業(yè)圍棋排名網(wǎng)站GoRatings最新排名顯示，連續(xù)24個月排名世界第一的中國棋手柯潔被谷歌人工智能機(jī)器人AlphaGo反超。截止目前，AlphaGo以3612分登頂世界第一，超越了所有人類棋手。

如上圖所示，目前Google Deepmind AlphaGo以3611分排名世界第一，柯潔以3608分排名世界第二，而之前與AlphaGo進(jìn)行“人機(jī)大戰(zhàn)”以1:4告負(fù)的韓國棋手李世石以3557排名第四。

按照Goratings世界圍棋排名的規(guī)則，如果一名新加入的棋手只贏不輸?shù)脑?，是不能被算入正式排名的。而此前AlphaGo正好輸了李世石一盤，因此給了AlphaGo入圍排名榜單的機(jī)會，此前一直排名世界第二。另外，Goratings的規(guī)則要求之前有過交手的雙方，如果對手的積分發(fā)生改變，則自身積分也會相應(yīng)調(diào)整。AlphaGo此前以4勝1負(fù)戰(zhàn)勝李世石，因此只要李世石的積分提升，AlphaGo也會跟著提升。而柯潔的排名之所以下降是因?yàn)榻赵诮鹆⒈瓋砂妒澜绻谲姞幇再惐憩F(xiàn)不佳，勝周俊勛，負(fù)時越和唐韋星，這才給了AlphaGo稱為世界第一的機(jī)會。

至此，AlphaGo以3612分登頂世界第一，超越了所有人類棋手。這讓我們不由得想，到底是什么使得AlphaGo如此不同，能在所有的圍棋AI中拔得頭籌，甚至打敗人類登頂世界第一？

在剛剛過去的IJCAI2016（第25屆國際人工智能聯(lián)合會議）學(xué)術(shù)大會中，谷歌 DeepMind 研究員、AlphaGo幕后英雄之一David Sliver 發(fā)表了題為“使用深度神經(jīng)網(wǎng)絡(luò)和樹搜索來精通圍棋游戲（Mastering the Game of Go with Deep Neural Networks and Tree Search）”的特邀演講。在演講中，他主要闡述了AlphaGo的實(shí)現(xiàn)原理并對AlphaGo與人類棋手對弈結(jié)果進(jìn)行了分析。

登頂世界第一! 相比其他AI，AlphaGo究竟有何不同？| IJCAI2016特邀演講

在演講中他提到AlphaGo主要是改進(jìn)了以下兩種方法

l MCTS搜索（蒙特卡洛樹搜索）
l CNN（卷曲神經(jīng)網(wǎng)絡(luò)）

登頂世界第一! 相比其他AI，AlphaGo究竟有何不同？| IJCAI2016特邀演講

Value Networks（價值網(wǎng)絡(luò)）和 Policy Networks（策略網(wǎng)絡(luò)）方面：

Value Networks 評估棋盤位置，Policy Networks 選擇下棋步法，這些神經(jīng)網(wǎng)絡(luò)模型通過一種新的方法進(jìn)行訓(xùn)練，結(jié)合人類專家比賽中學(xué)到的監(jiān)督學(xué)習(xí)，以及在自己和自己下棋（Self-Play）中學(xué)到強(qiáng)化學(xué)習(xí)，其實(shí)質(zhì)是深度學(xué)習(xí)網(wǎng)絡(luò)（CNN）跟蒙特卡羅搜索樹（MCTS）進(jìn)行結(jié)合。

登頂世界第一! 相比其他AI，AlphaGo究竟有何不同？| IJCAI2016特邀演講

基于全局特征和深度卷積網(wǎng)絡(luò)（CNN）訓(xùn)練出來的策略網(wǎng)絡(luò)（Policy Network），其主要作用是給定當(dāng)前盤面狀態(tài)作為輸入，輸出下一步棋在棋盤其它空地上的落子概率。

登頂世界第一! 相比其他AI，AlphaGo究竟有何不同？| IJCAI2016特邀演講

另一個是利用局部特征和線性模型訓(xùn)練出來的快速走棋策略（Rollout Policy)，策略網(wǎng)絡(luò)速度較慢但精度較高，快速走棋策略則反之。

登頂世界第一! 相比其他AI，AlphaGo究竟有何不同？| IJCAI2016特邀演講

策略網(wǎng)絡(luò)上的監(jiān)督學(xué)習(xí)

l 12層的卷曲神經(jīng)網(wǎng)絡(luò)
l 使用Google Cloud在超過50個GPU中訓(xùn)練四周的時間
l 在測試數(shù)據(jù)集上57%的準(zhǔn)確率（目前最佳44%）

策略網(wǎng)絡(luò)上的強(qiáng)化學(xué)習(xí)

l 12層的卷曲神經(jīng)網(wǎng)絡(luò)
l 使用Google Cloud在超過50個GPU中訓(xùn)練一周的事件
l 相比監(jiān)督學(xué)習(xí)實(shí)現(xiàn)了80%的結(jié)果，業(yè)余3段水準(zhǔn)

策略網(wǎng)絡(luò)與先前訓(xùn)練好的策略網(wǎng)絡(luò)互相對弈，利用增強(qiáng)式學(xué)習(xí)來修正策略網(wǎng)絡(luò)的參數(shù)，最終得到增強(qiáng)的策略網(wǎng)絡(luò)。

登頂世界第一! 相比其他AI，AlphaGo究竟有何不同？| IJCAI2016特邀演講

實(shí)現(xiàn)過程如下：

利用普通的策略網(wǎng)絡(luò)來生成棋局的前U-1步（U是一個屬于[1, 450]的隨機(jī)變量），然后利用隨機(jī)采樣來決定第U步的位置（這是為了增加棋的多樣性，防止過擬合）。

隨后，利用增強(qiáng)的策略網(wǎng)絡(luò)來完成后面的自我對弈過程，直至棋局結(jié)束分出勝負(fù)。此后，第U步的盤面作為特征輸入，勝負(fù)作為label，學(xué)習(xí)一個價值網(wǎng)絡(luò)（Value Network），用于判斷結(jié)果的輸贏概率。價值網(wǎng)絡(luò)其實(shí)是AlphaGo的一大創(chuàng)新，圍棋最為困難的地方在于很難根據(jù)當(dāng)前的局勢來判斷最后的結(jié)果，這點(diǎn)職業(yè)棋手也很難掌握。通過大量的自我對弈，AlphaGo產(chǎn)生了3000萬盤棋局，用來訓(xùn)練價值網(wǎng)絡(luò)。但由于圍棋的搜索空間太大，3000萬盤棋局也不能幫AlphaGo完全攻克這個問題。

登頂世界第一! 相比其他AI，AlphaGo究竟有何不同？| IJCAI2016特邀演講

AlphaG的一個關(guān)鍵之處在蒙特卡羅搜索樹（MCTS）中嵌入了深度神經(jīng)網(wǎng)絡(luò)來減少搜索空間，這大大減少了不必要的搜索步驟，通過價值網(wǎng)絡(luò)和策略網(wǎng)絡(luò)顯著提升了其勝率。

登頂世界第一! 相比其他AI，AlphaGo究竟有何不同？| IJCAI2016特邀演講

使用策略網(wǎng)絡(luò)減少其寬度

登頂世界第一! 相比其他AI，AlphaGo究竟有何不同？| IJCAI2016特邀演講

使用價值網(wǎng)絡(luò)減少深度

利用這兩個改進(jìn)的網(wǎng)絡(luò)來分別判斷局勢，兩個局勢得分相加為此處最后走棋獲勝的得分。這里使用快速走棋策略是一個用速度來換取量的方法，從被判斷的位置出發(fā)，快速行棋至最后，每一次行棋結(jié)束后都會有個輸贏結(jié)果，然后綜合統(tǒng)計這個節(jié)點(diǎn)對應(yīng)的勝率。而價值網(wǎng)絡(luò)只要根據(jù)當(dāng)前的狀態(tài)便可直接評估出最后的結(jié)果，兩者各有優(yōu)缺點(diǎn)并進(jìn)行互補(bǔ)。

登頂世界第一! 相比其他AI，AlphaGo究竟有何不同？| IJCAI2016特邀演講

在2015年10月5:0戰(zhàn)勝歐洲圍棋冠軍樊麾（三屆歐洲圍棋冠軍）之后，AlphaGo于2016年3月4:1戰(zhàn)勝韓國傳奇棋手李世石（近十年內(nèi)圍棋頂尖棋手之一）。在第四局中由于李世石棋手的“神之一手”，AlphaGo落敗，也給了AlphaGo入圍Goratings排名榜單的機(jī)會。

登頂世界第一! 相比其他AI，AlphaGo究竟有何不同？| IJCAI2016特邀演講

在David Silver看來，AlphaGo已超越了所有其他圍棋AI程序。在首爾與李世石對弈過程中，他認(rèn)為AlphaGo已經(jīng)展現(xiàn)出超越專業(yè)9段棋手的水準(zhǔn)，按Goratings分?jǐn)?shù)來排名的話應(yīng)該接近4500分左右。這個分?jǐn)?shù)不僅超過中國棋手柯潔九段的最高分?jǐn)?shù)，也比其自身目前分?jǐn)?shù)要高。究竟這個驚人的成績是否屬實(shí)，讓我們期待AlphaGo與柯潔九段的終極“人機(jī)大戰(zhàn)“。

參考資料

PS : 本文由雷鋒網(wǎng)獨(dú)家編譯，未經(jīng)許可拒絕轉(zhuǎn)載！

via David Silver IJCAI2016

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

3人收藏

相關(guān)文章