經(jīng)過一年的修煉，AlphaGo的哪些能力突飛猛進了？

本文作者：宗仁

2017-05-23 20:12

導(dǎo)語：經(jīng)過一年的修煉，AlphaGo的的哪些能力突飛猛進了？

雷鋒網(wǎng)AI科技評論按：烏鎮(zhèn)圍棋峰會第一局已經(jīng)結(jié)束了，歷時4個半小時，以柯潔九段執(zhí)黑負于 AlphaGo，AlphaGo 贏四分之一子告終，這樣風(fēng)平浪靜的結(jié)果想必很多人都預(yù)測到了，不過大家從一開始就知道關(guān)注的重點，不在于柯潔怎么輸?shù)?，而是AlphaGo已經(jīng)進化到什么程度了，距離Deep Mind團隊出論文來詳解AlphaGo有多強還有一段時間，So我們其實可以從現(xiàn)場觀戰(zhàn)中來看出一些端倪。

棋速

第一局棋下到一半的時候，不少棋友群里的人沸騰了，發(fā)現(xiàn)AlphaGo落子速度非常快，每步棋落子速度在30S－40S之間波動，對此圍棋業(yè)余5段趙老師對雷鋒網(wǎng)AI科技評論表示：“（這局棋）像安樂死，不知不覺就輸了，（相比去年）機器落子飛快但錯誤基本沒有”。

綜合整局，AlphaGo落子表現(xiàn)冷靜、果斷，而柯潔的落子狀況較多變。最終在比賽進行了四個多小時之后，AlphaGo贏四分之一子。

棋風(fēng)

AlphaGo1.0的時候（去年3月跟李世石對戰(zhàn)的時候），它的棋風(fēng)概括起來就是擅長記住棋譜+增強學(xué)習(xí)+計算能力，身上還能看到人類棋風(fēng)的影子，等AlphaGo喬裝成Master60連勝的時候，許多圍棋大師包括聶衛(wèi)平在內(nèi)開始評價其棋風(fēng)“很難揣測Master的風(fēng)格……它永遠都沒有表情，永遠不受情緒影響，永遠一個節(jié)奏，就是要贏你?！倍裉欤谝痪制暹€沒結(jié)束的時候，搜狗王小川已在知乎上發(fā)文剖析AlphaGo2.0 棋風(fēng)“完全脫離人類經(jīng)驗”——“而AlphaGo2.0脫離了機器對人模仿，走棋風(fēng)格也將完全脫離人的定式。在與柯潔的比賽中，會不斷出現(xiàn)我們意想不到的走棋，而且這些走棋在教科書中會被認為是低級錯誤或者完全不可理喻，但凡一個正常的棋手都不會這么玩，但凡一個新手這么玩都會被點撥這樣不對。而AlphaGo2.0會不斷制造這樣的局面，關(guān)鍵他還是對的?！?/p>

不過最后還是柯潔說了算，他在會后的采訪中用了一個很好的例子說明了AlphaGo的棋風(fēng)莫測：（在回顧比賽時也對第54手的斷）時，他表示了肯定：“很震驚，這在人類的下法中是不能有的。在斷之后，它把自己的腳步實地化，變得更厚，一石二鳥?！?。

算法

AlphaGo1.0的時候（去年3月跟李世石對戰(zhàn)的時候）使用的算法精髓，根據(jù)FB田淵棟看完Nature論文的解讀，由估值網(wǎng)絡(luò)評估棋局，策略網(wǎng)絡(luò)選擇落子，快速走子（Fast rollout）適當(dāng)加速，再用蒙特卡羅樹搜索把以上這三個部分連起來，形成一個完整的系統(tǒng)。

這一次雖然知乎論壇等活躍地盤已經(jīng)開始紛紛推測這次的AlphaGo2.0用了什么牛叉的算法，有了硬件的預(yù)測失誤，真相還是等Deep Mind后面來親自公布，目測算法預(yù)測這個要根據(jù)它的單機版10個GPU＋TPU助力預(yù)測比較靠譜。

硬件需求降低

根據(jù)DeepMind員工發(fā)表在2016年1月Nature期刊的論文，分布式版本（AlphaGo Distributed）使用了1202個CPU和176個GPU。

不過這次比賽AlphaGo用的何種硬件配置，DeepMind在會后的新聞發(fā)布會中表示，這次比賽的AlphaGo是新版本，它改善了新的算法，主要進步是計算量少了十倍，自我對弈更強。Hassabis稱，在比賽中程序是在一個單一的機器上運作的，這與去年不一樣，當(dāng)時是分布式的。這次有更強大的算法，運作起來更簡單也更好，獲得的速度更快。另外Hassabis表示，計算力可以“在Google云中獲得，用的是TPU，十個處理單位，少了十倍的計算量”。簡單點說，這次的AlphaGo是單機版。

迭代速度

哈薩比在此鏈接中的劍橋大學(xué)的一次演講中提到，以前從零訓(xùn)練一個AlphaGo要三個月，現(xiàn)在只需要一個星期（“We also optimized the performance. It used to take 3 month to train a new version of AlphaGo from scratch. Now we can do it in one week.”）。

如果稱對戰(zhàn)李世石期間的版本為V18迭代版本，喬裝成Master60連勝并宣布升級完成的時刻為V25版本，現(xiàn)在的AlphaGo又是V多少版本，訓(xùn)練的時候會不會一周都不要了？這是我們明天要親自問DeepMind團隊的。

從單人對戰(zhàn)到團隊對戰(zhàn)

心細的朋友肯定注意到了，柯潔和AlphaGo對弈之外，5月26號上午還有一場配對賽，配對賽雙方－－－古力＋AlphaGoV連笑＋AlphaGo，即對弈雙方分別由一位棋手與AlphaGo組成，棋手與AlphaGo合作進行比賽。5月26號上午下午則是陳耀華，周睿羊，羋昱延，時越，唐韋星和AlphaGo的5對1團隊賽。

Google之所以敢這樣設(shè)置賽制，唯一的解釋就是，AlphaGo現(xiàn)在既懂人類下圍棋的那部分，又懂AI下圍棋的那部分，并可以做到融會貫通，所以它才敢挑戰(zhàn)配對賽這種跟另一個同伴高度配合的賽制，又敢挑戰(zhàn)測試自己“戰(zhàn)斗力”極限的團體賽。AI最可怕的部分不是它單個力量有多強，而是它開始懂得和周遭“互動”，這樣的融匯是不是比去年3月的人機大戰(zhàn)可怕多了呢？

小結(jié)：

上次AlphaGo喬裝成Master測試的時候，柯潔已經(jīng)落敗給Master過一次，他不是沒見識過AI圍棋的厲害，但結(jié)合柯潔今天在現(xiàn)場的冷靜表現(xiàn)，和他昨晚莫名其妙地深夜感慨，我們有理由相信，這不是一場比AI圍棋選手和人類圍棋選手哪個更厲害的選手，DeepMind團隊一定有些懸而未決的答案需要這場比賽給一個肯定的驗證，然后再往那個方向?qū)崿F(xiàn)更深一步的探索。

雷鋒網(wǎng)AI科技評論現(xiàn)場報道，未經(jīng)許可，拒絕轉(zhuǎn)載。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。