丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給三川
發(fā)送

0

AlphaGo 是如何被訓(xùn)練成圍棋之神的?

本文作者: 三川 2017-02-01 19:49
導(dǎo)語:袁行遠(yuǎn):左右互搏,青出于藍(lán)而勝于藍(lán)。

AlphaGo 是如何被訓(xùn)練成圍棋之神的?

編者按:本文作者為彩云天氣創(chuàng)始人兼 CEO 袁行遠(yuǎn),由雷鋒網(wǎng)整理自其知乎專欄,獲授權(quán)發(fā)布。

袁行遠(yuǎn):19年前計(jì)算機(jī)擊敗國際象棋冠軍卡斯帕羅夫的情景還歷歷在目,現(xiàn)在計(jì)算機(jī)又要來攻克圍棋了嗎?

虛竹在天龍八部里自填一子,無意中以“自殺”破解“珍籠”棋局,逍遙子方才親傳掌門之位。難道以后“阿爾法狗”要出任逍遙派掌門了?

1933年,東渡日本19歲的吳清源迎戰(zhàn)當(dāng)時(shí)的日本棋壇霸主、已經(jīng)60歲的本因坊秀哉,開局三招即是日本人從未見過的三三、星、天元布陣,快速進(jìn)擊逼得對(duì)方連連暫?!按蜇浴焙偷茏由塘繎?yīng)對(duì)之策。隨后以“新布局”開創(chuàng)棋壇新紀(jì)元。難道阿爾法狗會(huì)再造一個(gè)“新新布局”?

作為一個(gè)關(guān)心人工智能和人類命運(yùn)的理科生,近些天刷了好些報(bào)道,記者們說“阿爾法狗是個(gè)‘價(jià)值神經(jīng)網(wǎng)絡(luò)’和‘策略神經(jīng)網(wǎng)’絡(luò)綜合蒙特卡洛搜索樹的程序”,但我覺得光知道這些概念是不夠的。我想看看“阿爾法狗”的廬山真面目。

準(zhǔn)備好棋盤和腦容量,一起來探索吧?

AlphaGo 是如何被訓(xùn)練成圍棋之神的?

圍棋棋盤是19x19路,所以一共是361個(gè)交叉點(diǎn),每個(gè)交叉點(diǎn)有三種狀態(tài),可以用1表示黑子,-1表示白字,0表示無子,考慮到每個(gè)位置還可能有落子的時(shí)間、這個(gè)位置的氣等其他信息,我們可以用一個(gè)361 * n維的向量來表示一個(gè)棋盤的狀態(tài)。我們把一個(gè)棋盤狀態(tài)向量記為s。

當(dāng)狀態(tài)s下,我們暫時(shí)不考慮無法落子的地方,可供下一步落子的空間也是361個(gè)。我們把下一步的落子的行動(dòng)也用361維的向量來表示,記為a。

這樣,設(shè)計(jì)一個(gè)圍棋人工智能的程序,就轉(zhuǎn)換成為了,任意給定一個(gè)s狀態(tài),尋找最好的應(yīng)對(duì)策略a,讓你的程序按照這個(gè)策略走,最后獲得棋盤上最大的地盤。

如果你想要設(shè)計(jì)一個(gè)特別牛逼驚世駭俗的圍棋程序,你會(huì)從哪里開始呢?對(duì)于在谷歌DeepMind工作的黃士杰和他的小伙伴而言,第一招是:

深度卷積神經(jīng)網(wǎng)絡(luò)


AlphaGo 是如何被訓(xùn)練成圍棋之神的?

深度卷積神經(jīng)網(wǎng)絡(luò)早在98年就攻克了手寫數(shù)字識(shí)別,近些年在人臉識(shí)別、圖像分類、天氣預(yù)報(bào)等領(lǐng)域無往而不利,接連達(dá)到或超過人類的水平,是深度學(xué)習(xí)火遍大江南北的急先鋒。我們現(xiàn)在看到的Picasa照片自動(dòng)分類,F(xiàn)acebook照片識(shí)別好友,以及彩云小譯同聲傳譯(軟廣出現(xiàn),不要打我)都是此技術(shù)的應(yīng)用。這等天賜寶物,如果可以用來下圍棋,豈不是狂拽酷炫吊炸天?

所以2015年黃士杰發(fā)表在ICLR的論文[3]一上來就使出了“深度神經(jīng)網(wǎng)絡(luò)”的殺招,從網(wǎng)上的圍棋對(duì)戰(zhàn)平臺(tái)KGS(外國的qq游戲大廳)可以獲得人類選手的圍棋對(duì)弈的棋局。觀察這些棋局,每一個(gè)狀態(tài)s,都會(huì)有一個(gè)人類做出的落子a,這不是天然的訓(xùn)練樣本<s,a>嗎?如此可以得到3000萬個(gè)樣本。我們?cè)侔裺看做一個(gè)19x19的二維圖像(具體是19x19 x n,n是表示一些其他feature),輸入一個(gè)卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行分類,分類的目標(biāo)就是落子向量a’,不斷訓(xùn)練網(wǎng)絡(luò),盡可能讓計(jì)算機(jī)得到的a’接近人類高手的落子結(jié)果a,不就得到了一個(gè)模擬人類棋手下圍棋的神經(jīng)網(wǎng)絡(luò)了嗎?

于是我們得到了一個(gè)可以模擬人類棋手的策略函數(shù)P_human,給定某個(gè)棋局狀態(tài)s,它可以計(jì)算出人類選手可能在棋盤上落子的概率分布a = P_human(s),如下圖:

AlphaGo 是如何被訓(xùn)練成圍棋之神的?

紅圈就是P_human覺得最好的落子方案。每一步都選擇概率最高的落子,對(duì)方對(duì)子后再重新計(jì)算一遍,如此往復(fù)就可以得到一個(gè)棋風(fēng)類似人類的圍棋程序。

這個(gè)基于“狂拽酷炫”深度學(xué)習(xí)的方案棋力如何呢?

不咋地。黃士杰說P_human已經(jīng)可以和業(yè)余6段左右的人類選手過招,互有勝負(fù),但還未能超過當(dāng)時(shí)最強(qiáng)的電腦程序CrazyStone[1,5],距離人類頂尖玩家就差得更遠(yuǎn)了。

所以,為求更進(jìn)一步,黃士杰打算把P_human和CrazyStone的算法結(jié)合一下,師夷長技以制夷,先擊敗所有的其他圍棋AI再說。

等等,CrazyStone的算法是什么?

哦,那個(gè)算法是黃士杰的老師Remi Coulum在2006年對(duì)圍棋AI做出的另一個(gè)重大突破:

MCTS,蒙特卡洛搜索樹

AlphaGo 是如何被訓(xùn)練成圍棋之神的?

蒙特卡洛搜索樹(Monte-Carlo Tree Search)是一種“大智若愚”的方法。面對(duì)一個(gè)空白棋盤S0,黃士杰的老師Coulum最初對(duì)圍棋一無所知,便假設(shè)所有落子方法分值都相等,設(shè)為1。然后扔了一個(gè)骰子,從361種落子方法中隨機(jī)選擇一個(gè)走法a0。Coulum想象自己落子之后,棋盤狀態(tài)變成S1,然后繼續(xù)假設(shè)對(duì)手也和自己一樣二逼,對(duì)方也扔了一個(gè)篩子,隨便瞎走了一步,這時(shí)棋盤狀態(tài)變成S2,于是這兩個(gè)二逼青年一直扔骰子下棋,一路走到Sn,最后肯定也能分出一個(gè)勝負(fù)r,贏了就r記為1,輸了則為0,假設(shè)這第一次r=1。這樣Coulum便算是在心中模擬了完整的一盤圍棋。

Coulum心想,這樣隨機(jī)扔骰子也能贏?運(yùn)氣不錯(cuò)啊,那把剛才那個(gè)落子方法(S0,a0)記下來,分值提高一些:

  • 新分?jǐn)?shù)= 初始分+ r

我剛才從(S0, a0)開始模擬贏了一次,r=1,那么新分?jǐn)?shù)=2,除了第一步,后面幾步運(yùn)氣也不錯(cuò),那我把這些隨機(jī)出的局面所對(duì)應(yīng)落子方法(Si,ai)的分?jǐn)?shù)都設(shè)為2吧。然后Coulum開始做第二次模擬,這次扔骰子的時(shí)候Coulum對(duì)圍棋已經(jīng)不是一無所知了,但也知道的不是太多,所以這次除(S0, a0)的分值是2之外,其他落子方法的分?jǐn)?shù)還是1。再次選擇a0的概率要比其他方法高一點(diǎn)點(diǎn)。

那位假想中的二逼對(duì)手也用同樣的方法更新了自己的新分?jǐn)?shù),他會(huì)選擇一個(gè)a1作為應(yīng)對(duì)。如法炮制,Coulum又和想象中的對(duì)手又下了一盤稍微不那么二逼的棋,結(jié)果他又贏了,Coulum于是繼續(xù)調(diào)整他的模擬路徑上相應(yīng)的分?jǐn)?shù),把它們都+1。隨著想象中的棋局下得越來越多,那些看起來不錯(cuò)的落子方案的分?jǐn)?shù)就會(huì)越來越高,而這些落子方案越是有前途,就會(huì)被更多的選中進(jìn)行推演,于是最有“前途”的落子方法就會(huì)“涌現(xiàn)”出來。

最后,Coulum在想象中下完10萬盤棋之后,選擇他推演過次數(shù)最多的那個(gè)方案落子,而這時(shí),Coulum才真正下了第一步棋。

蒙特卡洛搜索樹華麗轉(zhuǎn)身為相當(dāng)深刻的方法,可以看到它有兩個(gè)很有意思的特點(diǎn):

1)沒有任何人工的feature,完全依靠規(guī)則本身,通過不斷想象自對(duì)弈來提高能力。這和深藍(lán)戰(zhàn)勝卡斯帕羅夫完全不同,深藍(lán)包含了很多人工設(shè)計(jì)的規(guī)則。MCTS靠的是一種類似遺傳算法的自我進(jìn)化,讓靠譜的方法自我涌現(xiàn)出來。讓我想起了卡爾文在《大腦如何思維》中說的思維的達(dá)爾文主義[6]。

2)MCTS可以連續(xù)運(yùn)行,在對(duì)手思考對(duì)策的同時(shí)自己也可以思考對(duì)策。Coulum下完第一步之后,完全不必要停下,可以繼續(xù)進(jìn)行想象中的對(duì)弈,直到對(duì)手落子。Coulum隨后從對(duì)手落子之后的狀態(tài)開始計(jì)算,但是之前的想象中的對(duì)弈完全可以保留,因?yàn)閷?duì)手的落子完全可能出現(xiàn)在之前想象中的對(duì)弈中,所以之前的計(jì)算是有用的。這就像人在進(jìn)行對(duì)弈的時(shí)候,可以不斷思考,不會(huì)因?yàn)榈却龑?duì)手行動(dòng)而中斷。這一點(diǎn)Coulum的程序非常像人,酷斃了。

但黃士杰很快意識(shí)到他老師的程序仍然有局限:初始策略太簡單。我們需要更高效地扔骰子。

如何更高效的扔骰子呢?

用P_human()來扔。

AlphaGo 是如何被訓(xùn)練成圍棋之神的?

黃士杰改進(jìn)了MCTS,一上來不再是二逼青年隨機(jī)擲骰子,而是先根據(jù)P_human的計(jì)算結(jié)果來得到a可能的概率分布,以這個(gè)概率來挑選下一步的動(dòng)作。一次棋局下完之后,新分?jǐn)?shù)按照如下方式更新:

  • 新分?jǐn)?shù)= 調(diào)整后的初始分+ 通過模擬得到的贏棋概率

如果某一步被隨機(jī)到很多次,就應(yīng)該主要依據(jù)模擬得到的概率而非P_human。

所以P_human的初始分會(huì)被打個(gè)折扣:

  • 調(diào)整后的初始分= P_human/(被隨機(jī)到的次數(shù)+ 1)

這樣就既可以用P_human快速定位比較好的落子方案,又給了其他位置一定的概率。看起來很美,然后實(shí)際操作中卻發(fā)現(xiàn):“然并卵”。因?yàn)?,P_human()計(jì)算太慢了。

一次P_human()計(jì)算需要3ms,相對(duì)于原來隨機(jī)扔骰子不到1us,慢了3000倍。如果不能快速模擬對(duì)局,就找不到妙招,棋力就不能提高。所以,黃士杰訓(xùn)練了一個(gè)簡化版的P_human_fast(),把神經(jīng)網(wǎng)絡(luò)層數(shù)、輸入特征都減少,耗時(shí)下降到了2us,基本滿足了要求。先以P_human()來開局,走前面大概20多步,后面再使用P_human_fast()快速走到最后。兼顧了準(zhǔn)確度和效率。

這樣便綜合了深度神經(jīng)網(wǎng)絡(luò)和MCTS兩種方案,此時(shí)黃士杰的圍棋程序已經(jīng)可以戰(zhàn)勝所有其他電腦,雖然距離人類職業(yè)選手仍有不小的差距,但他在2015年那篇論文的最后部分信心滿滿的表示:“我們圍棋軟件所使用的神經(jīng)網(wǎng)絡(luò)和蒙特卡洛方法都可以隨著訓(xùn)練集的增長和計(jì)算力的加強(qiáng)(比如增加CPU數(shù))而同步增強(qiáng),我們正前進(jìn)在正確的道路上。”

看樣子,下一步的突破很快就將到來。同年2月,黃士杰在Deepmind的同事在頂級(jí)學(xué)術(shù)期刊nature上發(fā)表了“用神經(jīng)網(wǎng)絡(luò)打游戲”的文章[2]。這篇神作,為進(jìn)一步提高M(jìn)CTS的棋力,指明了前進(jìn)的新方向:

左右互搏,自我進(jìn)化

紅白機(jī)很多人小時(shí)候都玩過,你能都打通嗎?黃士杰的同事通過“強(qiáng)化學(xué)習(xí)”方法訓(xùn)練的程序在類似紅白機(jī)的游戲機(jī)上打通了200多個(gè)游戲,大多數(shù)得分都比人類還好。

AlphaGo 是如何被訓(xùn)練成圍棋之神的?

“強(qiáng)化學(xué)習(xí)”是一類機(jī)器學(xué)習(xí)方法,Agent通過和環(huán)境s的交互,選擇下一步的動(dòng)作a,這個(gè)動(dòng)作會(huì)影響環(huán)境s,給Agent一個(gè)reward,Agent然后繼續(xù)和環(huán)境交互。游戲結(jié)束的時(shí)候,Agent得到一個(gè)最后總分r。這時(shí)我們把之前的環(huán)境狀態(tài)s、動(dòng)作a匹配起來就得到了一系列<s,a>,設(shè)定目標(biāo)為最后的總得分r,我們可以訓(xùn)練一個(gè)神經(jīng)網(wǎng)絡(luò)去擬合在狀態(tài)s下,做動(dòng)作a的總得分。下一次玩游戲的時(shí)候,我們就可以根據(jù)當(dāng)前狀態(tài)s,去選擇最后總得分最大的動(dòng)作a。通過不斷玩游戲,我們對(duì)<s,a>下總得分的估計(jì)就會(huì)越來越準(zhǔn)確,游戲也玩兒得越來越好。

打磚塊游戲有一個(gè)秘訣:把球打到墻的后面去,球就會(huì)自己反彈得分。強(qiáng)化學(xué)習(xí)的程序在玩了600盤以后,學(xué)到這個(gè)秘訣:球快要把墻打穿的時(shí)候評(píng)價(jià)函數(shù)v的分值就會(huì)急劇上升。

AlphaGo 是如何被訓(xùn)練成圍棋之神的?

黃士杰考慮給圍棋也設(shè)計(jì)一個(gè)評(píng)價(jià)函數(shù)v(s),在P_human()想象自己開局走了20多步之后,不需要搜索到底,如果有一個(gè)v(s)可以直接判斷是否能贏,得到最后的結(jié)果r,這樣肯定能進(jìn)一步增加MCTS的威力。

黃士杰已經(jīng)有了國外的qq游戲大廳KGS上的對(duì)局,但是很遺憾這些對(duì)局?jǐn)?shù)量不夠,不足以得到局面評(píng)價(jià)函數(shù)v。但是沒關(guān)系,我們還可以左右互搏自對(duì)弈創(chuàng)造新的對(duì)局。

機(jī)器學(xué)習(xí)的開山鼻祖Samuel早在1967年就用自對(duì)弈的方法來學(xué)習(xí)國際跳棋[7],而之前的蒙特卡洛搜索樹也是一個(gè)自對(duì)弈的過程。但是現(xiàn)在黃士杰不僅有一個(gè)從人類對(duì)弈中學(xué)習(xí)出的P_human這樣一個(gè)高起點(diǎn),而且有一個(gè)神經(jīng)網(wǎng)絡(luò)可以從對(duì)弈樣本中學(xué)習(xí),有理由相信這次會(huì)有更好的結(jié)果。

AlphaGo 是如何被訓(xùn)練成圍棋之神的?

先用P_human和P_human對(duì)弈,比如1萬局,就得到了一萬個(gè)新棋譜,加入到訓(xùn)練集當(dāng)中,訓(xùn)練出P_human_1。然后再讓P_human_1和P_human_1對(duì)局,得到另外一萬個(gè)新棋譜,這樣可以訓(xùn)練出P_human_2,如此往復(fù),可以得到P_human_n。P_human_n得到了最多的訓(xùn)練,棋力理應(yīng)比原來更強(qiáng)。我們給最后這個(gè)策略起一個(gè)新名字:P_human_plus。這時(shí),再讓P_human_plus和P_human對(duì)局,在不用任何搜索的情況下勝率可達(dá)80%,不加任何搜索策略的P_human_plus和開源的MCTS相比也有85%的勝率。自對(duì)弈方法奏效了。

既然P_human_plus這么強(qiáng),我們先代入到MCTS中試試,用P_human_plus來開局,剩下的用P_human_fast??上В@樣的方法棋力反而不如用P_human。黃士杰認(rèn)為是因?yàn)镻_human_plus走棋的路數(shù)太集中,而MCTS需要發(fā)散出更多的選擇才好??磥?,P_human_plus練功還是太死板,還沒有進(jìn)入無招勝有招的境界。

沒關(guān)系,黃士杰還有局面評(píng)價(jià)函數(shù)v(s)這一招,有了v(s),如果我可以一眼就看到“黑棋大勢已去”,我就不用MCTS在想象中自我對(duì)弈了。但考慮到P_human_plus的招法太過集中,黃士杰在訓(xùn)練v( )的時(shí)候,開局還是先用P_human走L步,這樣有利于生成更多局面。黃士杰覺得局面還不夠多樣化,為了進(jìn)一步擴(kuò)大搜索空間,在L+1步的時(shí)候,干脆完全隨機(jī)擲一次骰子,記下這個(gè)狀態(tài)SL+1,然后后面再用P_human_plus來對(duì)弈,直到結(jié)束獲得結(jié)果r。如此不斷對(duì)弈,由于L也是一個(gè)隨機(jī)數(shù),我們就得到了開局、中盤、官子不同階段的很多局面s,和這些局面對(duì)應(yīng)的結(jié)果r。有了這些訓(xùn)練樣本<s,r>,還是使用神經(jīng)網(wǎng)絡(luò),把最后一層的目標(biāo)改成回歸而非分類,黃士杰就可以得到一個(gè)v( )函數(shù),輸出贏棋的概率。

AlphaGo 是如何被訓(xùn)練成圍棋之神的?

v( )可以給出下一步落子在棋盤上任意位置之后,如果雙方都使用P_human_plus來走棋,我方贏棋的概率。如果訓(xùn)練v()的時(shí)候全部都使用P_human不用P_human_plus呢?實(shí)驗(yàn)表明基于P_human_plus訓(xùn)練的v,比基于P_human訓(xùn)練的v’,棋力更強(qiáng)。強(qiáng)化學(xué)習(xí)確實(shí)有效。

萬事俱備,只欠東風(fēng)。準(zhǔn)備好P_human(),MCTS,以及評(píng)價(jià)函數(shù)v(),黃士杰和小伙伴們繼續(xù)進(jìn)擊,向著可以和人類專業(yè)選手過招的圍棋AI前進(jìn):

“阿爾法狗”

AlphaGo 是如何被訓(xùn)練成圍棋之神的?

黃士杰準(zhǔn)備在MCTS框架之上融合局面評(píng)估函數(shù)v()。這次還是用P_human作為初始分開局,每局選擇分?jǐn)?shù)最高的方案落子,下到第L步之后,改用P_human_fast把剩下的棋局走完,同時(shí)調(diào)用v(SL),評(píng)估局面的獲勝概率。然后按照如下規(guī)則更新整個(gè)樹的分?jǐn)?shù):

  • 新分?jǐn)?shù)= 調(diào)整后的初始分+ 0.5 * 通過模擬得到的贏棋概率 + 0.5 * 局面評(píng)估分

前兩項(xiàng)和原來一樣,如果待更新的節(jié)點(diǎn)就是葉子節(jié)點(diǎn),那局面評(píng)估分就是v(SL)。如果是待更新的節(jié)點(diǎn)是上級(jí)節(jié)點(diǎn),局面評(píng)估分是該節(jié)點(diǎn)所有葉子節(jié)點(diǎn)v()的平均值。

如果v()表示大局觀,“P_human_fast模擬對(duì)局”表示快速驗(yàn)算,那么上面的方法就是大局觀和快速模擬驗(yàn)算并重。如果你不服,非要做一個(gè)0.5: 0.5之外的權(quán)重,黃士杰團(tuán)隊(duì)已經(jīng)實(shí)驗(yàn)了目前的程序?qū)﹃嚻渌麢?quán)重有95%的勝率。

以上,便是阿爾法狗的廬山真面目。

AlphaGo 是如何被訓(xùn)練成圍棋之神的?

上圖演示了阿爾法狗和樊麾對(duì)弈時(shí)的計(jì)算過程,阿爾法狗執(zhí)黑,紅圈是阿爾法狗實(shí)際落子的地方。1、2、3和后面的數(shù)字表示他想象中的之后雙方下一步落子的地方。白色方框是樊麾的實(shí)際落子。在復(fù)盤時(shí),樊麾覺得位置1的走法更好。

深度學(xué)習(xí)、蒙特卡洛搜索樹,自我進(jìn)化三招齊出,所有其他圍棋ai都毫無還手之力。99%的勝率不說,“阿爾法狗”還可以在讓四子的情況下以77%的勝率擊敗crazystone。“阿爾法狗”利用超過170個(gè)GPU,粗略估算超過800萬核并行計(jì)算,不僅有前期訓(xùn)練過程中模仿人類,自我對(duì)弈不斷進(jìn)化,還有實(shí)戰(zhàn)時(shí)的模擬對(duì)局可以實(shí)時(shí)進(jìn)化,已經(jīng)把現(xiàn)有方法發(fā)揮到了極限,是目前人工智能領(lǐng)域絕對(duì)的巔峰之作。

后記

圍棋是NP-hard問題,如果用一個(gè)原子來存儲(chǔ)圍棋可能的狀態(tài),把全宇宙的原子加起來都不夠儲(chǔ)存所有的狀態(tài)。于是我們把這樣的問題轉(zhuǎn)換為尋找一個(gè)函數(shù)P,當(dāng)狀態(tài)為S時(shí),計(jì)算最優(yōu)的落子方案a = P(s)。我們看到,無論是“狂拽酷炫”的深度學(xué)習(xí),還是“大智若愚”的MCTS,都是對(duì)P(s)的越來越精確的估計(jì),但即使引入了“左右互搏”來強(qiáng)化學(xué)習(xí),黃士杰和團(tuán)隊(duì)仍然做了大量的細(xì)節(jié)工作。所以只有一步一個(gè)腳印,面對(duì)挑戰(zhàn)不斷拆解,用耐心與細(xì)心,還有辛勤的汗水,才能取得一點(diǎn)又一點(diǎn)的進(jìn)步,而這些進(jìn)步積累在一起,終于讓計(jì)算機(jī)達(dá)到并超過了人類職業(yè)選手的水平。

AlphaGo 是如何被訓(xùn)練成圍棋之神的?

因?yàn)橐槐P棋走一步需要3ms(P_human_plus遍歷整個(gè)棋盤的時(shí)間),谷歌用大規(guī)模集群進(jìn)行并行化計(jì)算,自我對(duì)弈3000萬盤棋生成訓(xùn)練集只需要一天左右的時(shí)間[4],所以如果對(duì)弈更多棋局可以提高棋力的話,黃士杰他們?cè)缇妥隽?。目前的方案可能已?jīng)達(dá)到了CNN網(wǎng)絡(luò)能力的極限。完整的阿爾法狗不僅需要生成訓(xùn)練集,還要用訓(xùn)練集來生成局面評(píng)估函數(shù)v(),而這還使用了兩周時(shí)間,一局比賽需要花掉4個(gè)小時(shí),自我對(duì)局速度不夠快,這也許是阿爾法狗并沒有能夠完全使用強(qiáng)化學(xué)習(xí),而僅僅是在整個(gè)過程的一小部分使用左右互搏的原因。左右互博用的還不夠多,這是一個(gè)遺憾。

如果存在一個(gè)“圍棋之神”,一個(gè)已經(jīng)窮盡了所有的圍棋步法的“上帝”,那他每一步都是最優(yōu)應(yīng)對(duì)。一些頂尖棋手在接受采訪時(shí)表示[8],“圍棋之神”對(duì)戰(zhàn)人類選手可能還有讓4子的空間,也就是說,就算下贏了人類,計(jì)算機(jī)也還有很大進(jìn)步的空間。

面對(duì)一個(gè)如此高難度的問題,計(jì)算機(jī)和人類都無法在有限時(shí)間內(nèi)找到完全的規(guī)律(柯潔和李世乭比賽是一人有3小時(shí)時(shí)間思考,阿爾法狗今年3月和李世乭進(jìn)行的比賽則是每人2小時(shí))。計(jì)算機(jī)和人都是在對(duì)問題做抽象,然后搜索最佳策略。要下好圍棋所需要的能力已經(jīng)接近人類智力的極限:要有大局觀、要懂得取舍、還要會(huì)精打細(xì)算,治理一個(gè)國家也不過如此。計(jì)算機(jī)可以學(xué)會(huì)圍棋,就能學(xué)會(huì)很多一樣難度的技能。在未來,也許圍棋、自動(dòng)駕駛、同聲傳譯(「彩云小譯」已經(jīng)開始公測,歡迎體驗(yàn))都會(huì)被一一攻克。甚至在數(shù)論、量子場論等領(lǐng)域,深度學(xué)習(xí)和搜索相結(jié)合,可能也會(huì)帶給我們更多驚喜,比如攻克“哥德巴赫猜想”。

那么,人工智能是否真的會(huì)很快登頂呢?

雖然在智力方面AI有希望登峰造極,但高智商只是人類眾多能力的一個(gè)方面。吳清源先生在方寸之間縱橫無敵,但仍然漂泊一生,被命運(yùn)推著前進(jìn)。早年他做段祺瑞的門客,棋盤上把段祺瑞打的落花流水,弄得下人都沒有早飯吃;后來東渡日本,三易國籍,留下許多遺憾。如果把“強(qiáng)人工智能”比作一個(gè)天才少年,雖然智商爆表,但其他方面還需要我們悉心加以引導(dǎo)。創(chuàng)造出“德才兼?zhèn)?,匡扶?jì)世”的人工智能,才是我輩真正應(yīng)該努力實(shí)現(xiàn)的目標(biāo)。

一起加油吧,科學(xué)少年們!

To the infinity and beyond !

參考文獻(xiàn):

1, EfficientSelectivity and Backup Operators in Monte-Carlo Tree Search

2, Human-level control through deep reinforcementlearning

3, Move Evaluation In GO Using Deep Convolutional Neural Networks

4. Masteringthe Game of Go with Deep Neural Networks and Tree Search

5. A Survey ofMonte Carlo Tree Search Methods

6. 大腦如何思維—智力演化的今昔

7. Some Studies in Machine LearningUsing the Game of Checkers.II-Recent Progress

8.圍棋之神存在的話,可以讓你幾子?

知乎原文鏈接:https://www.zhihu.com/question/41176911/answer/90118097

相關(guān)文章:

28 天自制你的 AlphaGo(一)

DeepMind創(chuàng)始人Demis Hassabis:AlphaGo的勝利只是小目標(biāo) | Nature十大人物

AlphaGo 將在 2017 年重磅復(fù)出,業(yè)內(nèi)人士怎么看?

登頂世界第一! 相比其他AI,AlphaGo究竟有何不同?| IJCAI2016特邀演講

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

AlphaGo 是如何被訓(xùn)練成圍棋之神的?

分享:

用愛救世界
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說