AlphaGo 是如何被訓(xùn)練成圍棋之神的？

本文作者：三川

2017-02-01 19:49

導(dǎo)語：袁行遠(yuǎn)：左右互搏，青出于藍(lán)而勝于藍(lán)。

編者按：本文作者為彩云天氣創(chuàng)始人兼 CEO 袁行遠(yuǎn)，由雷鋒網(wǎng)整理自其知乎專欄，獲授權(quán)發(fā)布。

袁行遠(yuǎn)：19年前計(jì)算機(jī)擊敗國際象棋冠軍卡斯帕羅夫的情景還歷歷在目，現(xiàn)在計(jì)算機(jī)又要來攻克圍棋了嗎？

虛竹在天龍八部里自填一子，無意中以“自殺”破解“珍籠”棋局，逍遙子方才親傳掌門之位。難道以后“阿爾法狗”要出任逍遙派掌門了？

1933年，東渡日本19歲的吳清源迎戰(zhàn)當(dāng)時(shí)的日本棋壇霸主、已經(jīng)60歲的本因坊秀哉，開局三招即是日本人從未見過的三三、星、天元布陣，快速進(jìn)擊逼得對(duì)方連連暫?！按蜇浴焙偷茏由塘繎?yīng)對(duì)之策。隨后以“新布局”開創(chuàng)棋壇新紀(jì)元。難道阿爾法狗會(huì)再造一個(gè)“新新布局”？

作為一個(gè)關(guān)心人工智能和人類命運(yùn)的理科生，近些天刷了好些報(bào)道，記者們說“阿爾法狗是個(gè)‘價(jià)值神經(jīng)網(wǎng)絡(luò)’和‘策略神經(jīng)網(wǎng)’絡(luò)綜合蒙特卡洛搜索樹的程序”，但我覺得光知道這些概念是不夠的。我想看看“阿爾法狗”的廬山真面目。

準(zhǔn)備好棋盤和腦容量，一起來探索吧？

AlphaGo 是如何被訓(xùn)練成圍棋之神的？

圍棋棋盤是19x19路，所以一共是361個(gè)交叉點(diǎn)，每個(gè)交叉點(diǎn)有三種狀態(tài)，可以用1表示黑子，-1表示白字，0表示無子，考慮到每個(gè)位置還可能有落子的時(shí)間、這個(gè)位置的氣等其他信息，我們可以用一個(gè)361 * n維的向量來表示一個(gè)棋盤的狀態(tài)。我們把一個(gè)棋盤狀態(tài)向量記為s。

當(dāng)狀態(tài)s下，我們暫時(shí)不考慮無法落子的地方，可供下一步落子的空間也是361個(gè)。我們把下一步的落子的行動(dòng)也用361維的向量來表示，記為a。

這樣，設(shè)計(jì)一個(gè)圍棋人工智能的程序，就轉(zhuǎn)換成為了，任意給定一個(gè)s狀態(tài)，尋找最好的應(yīng)對(duì)策略a，讓你的程序按照這個(gè)策略走，最后獲得棋盤上最大的地盤。

如果你想要設(shè)計(jì)一個(gè)特別牛逼驚世駭俗的圍棋程序，你會(huì)從哪里開始呢？對(duì)于在谷歌DeepMind工作的黃士杰和他的小伙伴而言，第一招是：

深度卷積神經(jīng)網(wǎng)絡(luò)

AlphaGo 是如何被訓(xùn)練成圍棋之神的？

深度卷積神經(jīng)網(wǎng)絡(luò)早在98年就攻克了手寫數(shù)字識(shí)別，近些年在人臉識(shí)別、圖像分類、天氣預(yù)報(bào)等領(lǐng)域無往而不利，接連達(dá)到或超過人類的水平，是深度學(xué)習(xí)火遍大江南北的急先鋒。我們現(xiàn)在看到的Picasa照片自動(dòng)分類，F(xiàn)acebook照片識(shí)別好友，以及彩云小譯同聲傳譯（軟廣出現(xiàn)，不要打我）都是此技術(shù)的應(yīng)用。這等天賜寶物，如果可以用來下圍棋，豈不是狂拽酷炫吊炸天？

所以2015年黃士杰發(fā)表在ICLR的論文[3]一上來就使出了“深度神經(jīng)網(wǎng)絡(luò)”的殺招，從網(wǎng)上的圍棋對(duì)戰(zhàn)平臺(tái)KGS（外國的qq游戲大廳）可以獲得人類選手的圍棋對(duì)弈的棋局。觀察這些棋局，每一個(gè)狀態(tài)s，都會(huì)有一個(gè)人類做出的落子a，這不是天然的訓(xùn)練樣本<s,a>嗎？如此可以得到3000萬個(gè)樣本。我們?cè)侔裺看做一個(gè)19x19的二維圖像（具體是19x19 x n，n是表示一些其他feature），輸入一個(gè)卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行分類，分類的目標(biāo)就是落子向量a’，不斷訓(xùn)練網(wǎng)絡(luò)，盡可能讓計(jì)算機(jī)得到的a’接近人類高手的落子結(jié)果a，不就得到了一個(gè)模擬人類棋手下圍棋的神經(jīng)網(wǎng)絡(luò)了嗎？

于是我們得到了一個(gè)可以模擬人類棋手的策略函數(shù)P_human，給定某個(gè)棋局狀態(tài)s，它可以計(jì)算出人類選手可能在棋盤上落子的概率分布a = P_human(s)，如下圖：

AlphaGo 是如何被訓(xùn)練成圍棋之神的？

紅圈就是P_human覺得最好的落子方案。每一步都選擇概率最高的落子，對(duì)方對(duì)子后再重新計(jì)算一遍，如此往復(fù)就可以得到一個(gè)棋風(fēng)類似人類的圍棋程序。

這個(gè)基于“狂拽酷炫”深度學(xué)習(xí)的方案棋力如何呢？

不咋地。黃士杰說P_human已經(jīng)可以和業(yè)余6段左右的人類選手過招，互有勝負(fù)，但還未能超過當(dāng)時(shí)最強(qiáng)的電腦程序CrazyStone[1,5]，距離人類頂尖玩家就差得更遠(yuǎn)了。

所以，為求更進(jìn)一步，黃士杰打算把P_human和CrazyStone的算法結(jié)合一下，師夷長技以制夷，先擊敗所有的其他圍棋AI再說。

等等，CrazyStone的算法是什么？

哦，那個(gè)算法是黃士杰的老師Remi Coulum在2006年對(duì)圍棋AI做出的另一個(gè)重大突破：

MCTS，蒙特卡洛搜索樹

AlphaGo 是如何被訓(xùn)練成圍棋之神的？

蒙特卡洛搜索樹（Monte-Carlo Tree Search）是一種“大智若愚”的方法。面對(duì)一個(gè)空白棋盤S0，黃士杰的老師Coulum最初對(duì)圍棋一無所知，便假設(shè)所有落子方法分值都相等，設(shè)為1。然后扔了一個(gè)骰子，從361種落子方法中隨機(jī)選擇一個(gè)走法a0。Coulum想象自己落子之后，棋盤狀態(tài)變成S1，然后繼續(xù)假設(shè)對(duì)手也和自己一樣二逼，對(duì)方也扔了一個(gè)篩子，隨便瞎走了一步，這時(shí)棋盤狀態(tài)變成S2，于是這兩個(gè)二逼青年一直扔骰子下棋，一路走到Sn，最后肯定也能分出一個(gè)勝負(fù)r，贏了就r記為1，輸了則為0，假設(shè)這第一次r=1。這樣Coulum便算是在心中模擬了完整的一盤圍棋。

Coulum心想，這樣隨機(jī)扔骰子也能贏？運(yùn)氣不錯(cuò)啊，那把剛才那個(gè)落子方法（S0,a0）記下來，分值提高一些：

新分?jǐn)?shù)= 初始分+ r

我剛才從（S0, a0）開始模擬贏了一次，r=1，那么新分?jǐn)?shù)=2，除了第一步，后面幾步運(yùn)氣也不錯(cuò)，那我把這些隨機(jī)出的局面所對(duì)應(yīng)落子方法(Si,ai)的分?jǐn)?shù)都設(shè)為2吧。然后Coulum開始做第二次模擬，這次扔骰子的時(shí)候Coulum對(duì)圍棋已經(jīng)不是一無所知了，但也知道的不是太多，所以這次除（S0, a0）的分值是2之外，其他落子方法的分?jǐn)?shù)還是1。再次選擇a0的概率要比其他方法高一點(diǎn)點(diǎn)。

那位假想中的二逼對(duì)手也用同樣的方法更新了自己的新分?jǐn)?shù)，他會(huì)選擇一個(gè)a1作為應(yīng)對(duì)。如法炮制，Coulum又和想象中的對(duì)手又下了一盤稍微不那么二逼的棋，結(jié)果他又贏了，Coulum于是繼續(xù)調(diào)整他的模擬路徑上相應(yīng)的分?jǐn)?shù)，把它們都+1。隨著想象中的棋局下得越來越多，那些看起來不錯(cuò)的落子方案的分?jǐn)?shù)就會(huì)越來越高，而這些落子方案越是有前途，就會(huì)被更多的選中進(jìn)行推演，于是最有“前途”的落子方法就會(huì)“涌現(xiàn)”出來。

最后，Coulum在想象中下完10萬盤棋之后，選擇他推演過次數(shù)最多的那個(gè)方案落子，而這時(shí)，Coulum才真正下了第一步棋。

蒙特卡洛搜索樹華麗轉(zhuǎn)身為相當(dāng)深刻的方法，可以看到它有兩個(gè)很有意思的特點(diǎn)：

1）沒有任何人工的feature，完全依靠規(guī)則本身，通過不斷想象自對(duì)弈來提高能力。這和深藍(lán)戰(zhàn)勝卡斯帕羅夫完全不同，深藍(lán)包含了很多人工設(shè)計(jì)的規(guī)則。MCTS靠的是一種類似遺傳算法的自我進(jìn)化，讓靠譜的方法自我涌現(xiàn)出來。讓我想起了卡爾文在《大腦如何思維》中說的思維的達(dá)爾文主義[6]。

2）MCTS可以連續(xù)運(yùn)行，在對(duì)手思考對(duì)策的同時(shí)自己也可以思考對(duì)策。Coulum下完第一步之后，完全不必要停下，可以繼續(xù)進(jìn)行想象中的對(duì)弈，直到對(duì)手落子。Coulum隨后從對(duì)手落子之后的狀態(tài)開始計(jì)算，但是之前的想象中的對(duì)弈完全可以保留，因?yàn)閷?duì)手的落子完全可能出現(xiàn)在之前想象中的對(duì)弈中，所以之前的計(jì)算是有用的。這就像人在進(jìn)行對(duì)弈的時(shí)候，可以不斷思考，不會(huì)因?yàn)榈却龑?duì)手行動(dòng)而中斷。這一點(diǎn)Coulum的程序非常像人，酷斃了。

但黃士杰很快意識(shí)到他老師的程序仍然有局限：初始策略太簡單。我們需要更高效地扔骰子。

如何更高效的扔骰子呢？

用P_human()來扔。

AlphaGo 是如何被訓(xùn)練成圍棋之神的？

黃士杰改進(jìn)了MCTS，一上來不再是二逼青年隨機(jī)擲骰子，而是先根據(jù)P_human的計(jì)算結(jié)果來得到a可能的概率分布，以這個(gè)概率來挑選下一步的動(dòng)作。一次棋局下完之后，新分?jǐn)?shù)按照如下方式更新：

新分?jǐn)?shù)= 調(diào)整后的初始分+ 通過模擬得到的贏棋概率

如果某一步被隨機(jī)到很多次，就應(yīng)該主要依據(jù)模擬得到的概率而非P_human。

所以P_human的初始分會(huì)被打個(gè)折扣：

調(diào)整后的初始分= P_human/（被隨機(jī)到的次數(shù)+ 1）

這樣就既可以用P_human快速定位比較好的落子方案，又給了其他位置一定的概率。看起來很美，然后實(shí)際操作中卻發(fā)現(xiàn)：“然并卵”。因?yàn)?，P_human()計(jì)算太慢了。

一次P_human()計(jì)算需要3ms，相對(duì)于原來隨機(jī)扔骰子不到1us，慢了3000倍。如果不能快速模擬對(duì)局，就找不到妙招，棋力就不能提高。所以，黃士杰訓(xùn)練了一個(gè)簡化版的P_human_fast()，把神經(jīng)網(wǎng)絡(luò)層數(shù)、輸入特征都減少，耗時(shí)下降到了2us，基本滿足了要求。先以P_human()來開局，走前面大概20多步，后面再使用P_human_fast()快速走到最后。兼顧了準(zhǔn)確度和效率。

這樣便綜合了深度神經(jīng)網(wǎng)絡(luò)和MCTS兩種方案，此時(shí)黃士杰的圍棋程序已經(jīng)可以戰(zhàn)勝所有其他電腦，雖然距離人類職業(yè)選手仍有不小的差距，但他在2015年那篇論文的最后部分信心滿滿的表示：“我們圍棋軟件所使用的神經(jīng)網(wǎng)絡(luò)和蒙特卡洛方法都可以隨著訓(xùn)練集的增長和計(jì)算力的加強(qiáng)（比如增加CPU數(shù)）而同步增強(qiáng)，我們正前進(jìn)在正確的道路上。”

看樣子，下一步的突破很快就將到來。同年2月，黃士杰在Deepmind的同事在頂級(jí)學(xué)術(shù)期刊nature上發(fā)表了“用神經(jīng)網(wǎng)絡(luò)打游戲”的文章[2]。這篇神作，為進(jìn)一步提高M(jìn)CTS的棋力，指明了前進(jìn)的新方向：

左右互搏，自我進(jìn)化

紅白機(jī)很多人小時(shí)候都玩過，你能都打通嗎？黃士杰的同事通過“強(qiáng)化學(xué)習(xí)”方法訓(xùn)練的程序在類似紅白機(jī)的游戲機(jī)上打通了200多個(gè)游戲，大多數(shù)得分都比人類還好。

AlphaGo 是如何被訓(xùn)練成圍棋之神的？

“強(qiáng)化學(xué)習(xí)”是一類機(jī)器學(xué)習(xí)方法，Agent通過和環(huán)境s的交互，選擇下一步的動(dòng)作a，這個(gè)動(dòng)作會(huì)影響環(huán)境s，給Agent一個(gè)reward，Agent然后繼續(xù)和環(huán)境交互。游戲結(jié)束的時(shí)候，Agent得到一個(gè)最后總分r。這時(shí)我們把之前的環(huán)境狀態(tài)s、動(dòng)作a匹配起來就得到了一系列<s,a>，設(shè)定目標(biāo)為最后的總得分r，我們可以訓(xùn)練一個(gè)神經(jīng)網(wǎng)絡(luò)去擬合在狀態(tài)s下，做動(dòng)作a的總得分。下一次玩游戲的時(shí)候，我們就可以根據(jù)當(dāng)前狀態(tài)s，去選擇最后總得分最大的動(dòng)作a。通過不斷玩游戲，我們對(duì)<s,a>下總得分的估計(jì)就會(huì)越來越準(zhǔn)確，游戲也玩兒得越來越好。

打磚塊游戲有一個(gè)秘訣：把球打到墻的后面去，球就會(huì)自己反彈得分。強(qiáng)化學(xué)習(xí)的程序在玩了600盤以后，學(xué)到這個(gè)秘訣：球快要把墻打穿的時(shí)候評(píng)價(jià)函數(shù)v的分值就會(huì)急劇上升。

AlphaGo 是如何被訓(xùn)練成圍棋之神的？

黃士杰考慮給圍棋也設(shè)計(jì)一個(gè)評(píng)價(jià)函數(shù)v(s)，在P_human()想象自己開局走了20多步之后，不需要搜索到底，如果有一個(gè)v(s)可以直接判斷是否能贏，得到最后的結(jié)果r，這樣肯定能進(jìn)一步增加MCTS的威力。

黃士杰已經(jīng)有了國外的qq游戲大廳KGS上的對(duì)局，但是很遺憾這些對(duì)局?jǐn)?shù)量不夠，不足以得到局面評(píng)價(jià)函數(shù)v。但是沒關(guān)系，我們還可以左右互搏自對(duì)弈創(chuàng)造新的對(duì)局。

機(jī)器學(xué)習(xí)的開山鼻祖Samuel早在1967年就用自對(duì)弈的方法來學(xué)習(xí)國際跳棋[7]，而之前的蒙特卡洛搜索樹也是一個(gè)自對(duì)弈的過程。但是現(xiàn)在黃士杰不僅有一個(gè)從人類對(duì)弈中學(xué)習(xí)出的P_human這樣一個(gè)高起點(diǎn)，而且有一個(gè)神經(jīng)網(wǎng)絡(luò)可以從對(duì)弈樣本中學(xué)習(xí)，有理由相信這次會(huì)有更好的結(jié)果。

AlphaGo 是如何被訓(xùn)練成圍棋之神的？

先用P_human和P_human對(duì)弈，比如1萬局，就得到了一萬個(gè)新棋譜，加入到訓(xùn)練集當(dāng)中，訓(xùn)練出P_human_1。然后再讓P_human_1和P_human_1對(duì)局，得到另外一萬個(gè)新棋譜，這樣可以訓(xùn)練出P_human_2，如此往復(fù)，可以得到P_human_n。P_human_n得到了最多的訓(xùn)練，棋力理應(yīng)比原來更強(qiáng)。我們給最后這個(gè)策略起一個(gè)新名字：P_human_plus。這時(shí)，再讓P_human_plus和P_human對(duì)局，在不用任何搜索的情況下勝率可達(dá)80%，不加任何搜索策略的P_human_plus和開源的MCTS相比也有85%的勝率。自對(duì)弈方法奏效了。

既然P_human_plus這么強(qiáng)，我們先代入到MCTS中試試，用P_human_plus來開局，剩下的用P_human_fast?？上В@樣的方法棋力反而不如用P_human。黃士杰認(rèn)為是因?yàn)镻_human_plus走棋的路數(shù)太集中，而MCTS需要發(fā)散出更多的選擇才好?？磥?，P_human_plus練功還是太死板，還沒有進(jìn)入無招勝有招的境界。

沒關(guān)系，黃士杰還有局面評(píng)價(jià)函數(shù)v(s)這一招，有了v(s)，如果我可以一眼就看到“黑棋大勢已去”，我就不用MCTS在想象中自我對(duì)弈了。但考慮到P_human_plus的招法太過集中，黃士杰在訓(xùn)練v( )的時(shí)候，開局還是先用P_human走L步，這樣有利于生成更多局面。黃士杰覺得局面還不夠多樣化，為了進(jìn)一步擴(kuò)大搜索空間，在L+1步的時(shí)候，干脆完全隨機(jī)擲一次骰子，記下這個(gè)狀態(tài)SL+1，然后后面再用P_human_plus來對(duì)弈，直到結(jié)束獲得結(jié)果r。如此不斷對(duì)弈，由于L也是一個(gè)隨機(jī)數(shù)，我們就得到了開局、中盤、官子不同階段的很多局面s，和這些局面對(duì)應(yīng)的結(jié)果r。有了這些訓(xùn)練樣本<s,r>，還是使用神經(jīng)網(wǎng)絡(luò)，把最后一層的目標(biāo)改成回歸而非分類，黃士杰就可以得到一個(gè)v( )函數(shù)，輸出贏棋的概率。

AlphaGo 是如何被訓(xùn)練成圍棋之神的？

v( )可以給出下一步落子在棋盤上任意位置之后，如果雙方都使用P_human_plus來走棋，我方贏棋的概率。如果訓(xùn)練v()的時(shí)候全部都使用P_human不用P_human_plus呢？實(shí)驗(yàn)表明基于P_human_plus訓(xùn)練的v，比基于P_human訓(xùn)練的v’，棋力更強(qiáng)。強(qiáng)化學(xué)習(xí)確實(shí)有效。

萬事俱備，只欠東風(fēng)。準(zhǔn)備好P_human()，MCTS，以及評(píng)價(jià)函數(shù)v()，黃士杰和小伙伴們繼續(xù)進(jìn)擊，向著可以和人類專業(yè)選手過招的圍棋AI前進(jìn)：

“阿爾法狗”

黃士杰準(zhǔn)備在MCTS框架之上融合局面評(píng)估函數(shù)v()。這次還是用P_human作為初始分開局，每局選擇分?jǐn)?shù)最高的方案落子，下到第L步之后，改用P_human_fast把剩下的棋局走完，同時(shí)調(diào)用v(SL)，評(píng)估局面的獲勝概率。然后按照如下規(guī)則更新整個(gè)樹的分?jǐn)?shù)：

新分?jǐn)?shù)= 調(diào)整后的初始分+ 0.5 * 通過模擬得到的贏棋概率 + 0.5 * 局面評(píng)估分

前兩項(xiàng)和原來一樣，如果待更新的節(jié)點(diǎn)就是葉子節(jié)點(diǎn)，那局面評(píng)估分就是v(SL)。如果是待更新的節(jié)點(diǎn)是上級(jí)節(jié)點(diǎn)，局面評(píng)估分是該節(jié)點(diǎn)所有葉子節(jié)點(diǎn)v()的平均值。

如果v()表示大局觀，“P_human_fast模擬對(duì)局”表示快速驗(yàn)算，那么上面的方法就是大局觀和快速模擬驗(yàn)算并重。如果你不服，非要做一個(gè)0.5: 0.5之外的權(quán)重，黃士杰團(tuán)隊(duì)已經(jīng)實(shí)驗(yàn)了目前的程序?qū)﹃嚻渌麢?quán)重有95%的勝率。

以上，便是阿爾法狗的廬山真面目。

AlphaGo 是如何被訓(xùn)練成圍棋之神的？

上圖演示了阿爾法狗和樊麾對(duì)弈時(shí)的計(jì)算過程，阿爾法狗執(zhí)黑，紅圈是阿爾法狗實(shí)際落子的地方。1、2、3和后面的數(shù)字表示他想象中的之后雙方下一步落子的地方。白色方框是樊麾的實(shí)際落子。在復(fù)盤時(shí)，樊麾覺得位置1的走法更好。

深度學(xué)習(xí)、蒙特卡洛搜索樹，自我進(jìn)化三招齊出，所有其他圍棋ai都毫無還手之力。99%的勝率不說，“阿爾法狗”還可以在讓四子的情況下以77%的勝率擊敗crazystone。“阿爾法狗”利用超過170個(gè)GPU，粗略估算超過800萬核并行計(jì)算，不僅有前期訓(xùn)練過程中模仿人類，自我對(duì)弈不斷進(jìn)化，還有實(shí)戰(zhàn)時(shí)的模擬對(duì)局可以實(shí)時(shí)進(jìn)化，已經(jīng)把現(xiàn)有方法發(fā)揮到了極限，是目前人工智能領(lǐng)域絕對(duì)的巔峰之作。

后記

圍棋是NP-hard問題，如果用一個(gè)原子來存儲(chǔ)圍棋可能的狀態(tài)，把全宇宙的原子加起來都不夠儲(chǔ)存所有的狀態(tài)。于是我們把這樣的問題轉(zhuǎn)換為尋找一個(gè)函數(shù)P，當(dāng)狀態(tài)為S時(shí)，計(jì)算最優(yōu)的落子方案a = P(s)。我們看到，無論是“狂拽酷炫”的深度學(xué)習(xí)，還是“大智若愚”的MCTS，都是對(duì)P(s)的越來越精確的估計(jì)，但即使引入了“左右互搏”來強(qiáng)化學(xué)習(xí)，黃士杰和團(tuán)隊(duì)仍然做了大量的細(xì)節(jié)工作。所以只有一步一個(gè)腳印，面對(duì)挑戰(zhàn)不斷拆解，用耐心與細(xì)心，還有辛勤的汗水，才能取得一點(diǎn)又一點(diǎn)的進(jìn)步，而這些進(jìn)步積累在一起，終于讓計(jì)算機(jī)達(dá)到并超過了人類職業(yè)選手的水平。

AlphaGo 是如何被訓(xùn)練成圍棋之神的？

因?yàn)橐槐P棋走一步需要3ms（P_human_plus遍歷整個(gè)棋盤的時(shí)間），谷歌用大規(guī)模集群進(jìn)行并行化計(jì)算，自我對(duì)弈3000萬盤棋生成訓(xùn)練集只需要一天左右的時(shí)間[4]，所以如果對(duì)弈更多棋局可以提高棋力的話，黃士杰他們?cè)缇妥隽?。目前的方案可能已?jīng)達(dá)到了CNN網(wǎng)絡(luò)能力的極限。完整的阿爾法狗不僅需要生成訓(xùn)練集，還要用訓(xùn)練集來生成局面評(píng)估函數(shù)v()，而這還使用了兩周時(shí)間，一局比賽需要花掉4個(gè)小時(shí)，自我對(duì)局速度不夠快，這也許是阿爾法狗并沒有能夠完全使用強(qiáng)化學(xué)習(xí)，而僅僅是在整個(gè)過程的一小部分使用左右互搏的原因。左右互博用的還不夠多，這是一個(gè)遺憾。

如果存在一個(gè)“圍棋之神”，一個(gè)已經(jīng)窮盡了所有的圍棋步法的“上帝”，那他每一步都是最優(yōu)應(yīng)對(duì)。一些頂尖棋手在接受采訪時(shí)表示[8]，“圍棋之神”對(duì)戰(zhàn)人類選手可能還有讓4子的空間，也就是說，就算下贏了人類，計(jì)算機(jī)也還有很大進(jìn)步的空間。

面對(duì)一個(gè)如此高難度的問題，計(jì)算機(jī)和人類都無法在有限時(shí)間內(nèi)找到完全的規(guī)律（柯潔和李世乭比賽是一人有3小時(shí)時(shí)間思考，阿爾法狗今年3月和李世乭進(jìn)行的比賽則是每人2小時(shí)）。計(jì)算機(jī)和人都是在對(duì)問題做抽象，然后搜索最佳策略。要下好圍棋所需要的能力已經(jīng)接近人類智力的極限：要有大局觀、要懂得取舍、還要會(huì)精打細(xì)算，治理一個(gè)國家也不過如此。計(jì)算機(jī)可以學(xué)會(huì)圍棋，就能學(xué)會(huì)很多一樣難度的技能。在未來，也許圍棋、自動(dòng)駕駛、同聲傳譯（「彩云小譯」已經(jīng)開始公測，歡迎體驗(yàn)）都會(huì)被一一攻克。甚至在數(shù)論、量子場論等領(lǐng)域，深度學(xué)習(xí)和搜索相結(jié)合，可能也會(huì)帶給我們更多驚喜，比如攻克“哥德巴赫猜想”。

那么，人工智能是否真的會(huì)很快登頂呢？

雖然在智力方面AI有希望登峰造極，但高智商只是人類眾多能力的一個(gè)方面。吳清源先生在方寸之間縱橫無敵，但仍然漂泊一生，被命運(yùn)推著前進(jìn)。早年他做段祺瑞的門客，棋盤上把段祺瑞打的落花流水，弄得下人都沒有早飯吃；后來東渡日本，三易國籍，留下許多遺憾。如果把“強(qiáng)人工智能”比作一個(gè)天才少年，雖然智商爆表，但其他方面還需要我們悉心加以引導(dǎo)。創(chuàng)造出“德才兼?zhèn)?，匡扶?jì)世”的人工智能，才是我輩真正應(yīng)該努力實(shí)現(xiàn)的目標(biāo)。

一起加油吧，科學(xué)少年們！

To the infinity and beyond !

參考文獻(xiàn)：

1, EfficientSelectivity and Backup Operators in Monte-Carlo Tree Search

2, Human-level control through deep reinforcementlearning

3, Move Evaluation In GO Using Deep Convolutional Neural Networks

4. Masteringthe Game of Go with Deep Neural Networks and Tree Search

5. A Survey ofMonte Carlo Tree Search Methods

6. 大腦如何思維—智力演化的今昔

7. Some Studies in Machine LearningUsing the Game of Checkers.II-Recent Progress

8.圍棋之神存在的話，可以讓你幾子？

知乎原文鏈接：https://www.zhihu.com/question/41176911/answer/90118097