AlphaGo Zero為何如此備受矚目？這是8位教授和同學(xué)們的獨(dú)家見解

本文作者：汪思穎

編輯：郭奕欣

2017-10-19 21:56

導(dǎo)語(yǔ)：雷鋒網(wǎng) AI科技評(píng)論第一時(shí)間聯(lián)系到相關(guān)研究領(lǐng)域的教授和同學(xué)，與他們聊了聊看到AlphaGo Zero之后的一些思考和啟發(fā)。

雷鋒網(wǎng) AI科技評(píng)論消息，北京時(shí)間10月19日凌晨，DeepMind在Nature上發(fā)表了名為Mastering the game of Go without human knowledge（不使用人類知識(shí)掌握圍棋）的論文，在論文中，Deepmind展示了他們強(qiáng)大的新版本圍棋程序“AlphaGo Zero”—— 僅經(jīng)過(guò)三天訓(xùn)練，就能以100：0擊敗此前擊敗李世石的AlphaGo Lee，經(jīng)過(guò)21天訓(xùn)練，就能達(dá)到擊敗柯潔的AlphaGo Master的水平。具體信息可參見100:0！Deepmind Nature論文揭示最強(qiáng)AlphaGo Zero，無(wú)需人類知識(shí)。

AlphaGo Zero的橫空出世又一次引起大眾爭(zhēng)相討論和轉(zhuǎn)發(fā)，雷鋒網(wǎng) AI科技評(píng)論也第一時(shí)間聯(lián)系到相關(guān)研究領(lǐng)域的教授和同學(xué)，與他們聊了聊看到AlphaGo Zero之后的一些思考和啟發(fā)。

加拿大西蒙弗雷澤大學(xué)計(jì)算機(jī)學(xué)院教授、Canada Research Chair裴健第一時(shí)間對(duì)AI科技評(píng)論表達(dá)了他的觀點(diǎn)，“最近的一系列成就把機(jī)器學(xué)習(xí)這把梯子又加長(zhǎng)了很多，現(xiàn)在我們能爬很高的墻了，但這把梯子還是不能把我們帶到月球?！?/p>

得到裴健教授如此評(píng)價(jià)的AlphaGo Zero究竟是什么呢？接下來(lái)，AI科技評(píng)論將會(huì)為大家?guī)?lái)它的相關(guān)介紹、關(guān)鍵技術(shù)、進(jìn)行這項(xiàng)研究的意義以及一些更深層次的思考。

AlphaGo Zero是什么

AlphaGo Zero與原始的AlphaGo版本究竟有什么不同呢？上海交大CS系博士生李澤凡為我們帶來(lái)了全面解答：

首先是網(wǎng)絡(luò)輸入的不同。在原始的AlphaGo版本中，首先用大量的人類對(duì)戰(zhàn)棋譜進(jìn)行輸入訓(xùn)練，而AlphaGo Zero單純地用黑子白子進(jìn)行輸入。
其次是網(wǎng)絡(luò)設(shè)計(jì)的不同。AlphaGo的算法將policy網(wǎng)絡(luò)和value網(wǎng)絡(luò)，即策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò)分開訓(xùn)練。但Alphago Zero將這兩個(gè)網(wǎng)絡(luò)聯(lián)合訓(xùn)練，使得最后表達(dá)能力更好。并使用了殘差網(wǎng)絡(luò)模塊，使得網(wǎng)絡(luò)的深度能夠得到大幅提升，表達(dá)能力更強(qiáng)。
另外，Alphago Zero不使用走子演算的方法對(duì)落子位置進(jìn)行評(píng)價(jià)，而使用神經(jīng)網(wǎng)絡(luò)直接進(jìn)行評(píng)價(jià)。
最后，在訓(xùn)練方法上，Alphago Zero在每一步進(jìn)行自我博弈訓(xùn)練的時(shí)候，其對(duì)手（陪練）往往設(shè)置成跟Alphago Zero在一個(gè)水平上的。這樣的漸進(jìn)學(xué)習(xí)方式也是提升訓(xùn)練效果和效率的因素。

從與李澤凡的討論中可以看到，相較于原始版本，AlphaGo Zero進(jìn)行了諸多改進(jìn)。那么，最終決定AlphaGo Zero表現(xiàn)和效率決定性因素具體是哪些呢？

“從論文上看，應(yīng)該取決于三方面的因素。一是采用了一些改進(jìn)的強(qiáng)化學(xué)習(xí)方法，使得學(xué)習(xí)過(guò)程收斂更穩(wěn)定。二是從零開始學(xué)習(xí)，使得模型擺脫人類知識(shí)的束縛，有可能去探索更優(yōu)的局部解。三是采用了最新的模型設(shè)計(jì)，如更深的殘差卷積網(wǎng)絡(luò)，使得優(yōu)化、計(jì)算量和表達(dá)能力三方面都有增強(qiáng)?！奔~約大學(xué)博士生張翔很好地解決了AI科技評(píng)論的疑問(wèn)。

除了張翔，南京大學(xué)副教授俞揚(yáng)博士在看到論文之后也對(duì)AI科技評(píng)論表示，

AlphaGo Zero的主要改進(jìn)是在神經(jīng)網(wǎng)絡(luò)上使用了ResNet，以及在強(qiáng)化學(xué)習(xí)中使用了MCTS尋找學(xué)習(xí)樣本標(biāo)記。由于技術(shù)的改進(jìn)，使得總體的MCTS可以極大簡(jiǎn)化，測(cè)試速度也因此得到了大幅提升。

另外，大部分同學(xué)認(rèn)為，從0到1訓(xùn)練模型，拋棄人類經(jīng)驗(yàn)，是一個(gè)相當(dāng)重要的因素，也是一個(gè)值得借鑒的創(chuàng)新點(diǎn)。

“圍棋經(jīng)過(guò)上千年的傳承，雖然不斷會(huì)有新的突破，但整體上‘贏’的思維或套路可能已經(jīng)趨于統(tǒng)一。因此，從優(yōu)化的角度來(lái)看，利用人類知識(shí)進(jìn)行學(xué)習(xí)的機(jī)制可能還是會(huì)讓網(wǎng)絡(luò)陷入跟人類思維一致的局部最優(yōu)。但AlphaGo Zero這種從0開始的self-motivated強(qiáng)化學(xué)習(xí)機(jī)制，會(huì)使網(wǎng)絡(luò)嘗試各種可能性，打破基于人類知識(shí)的固化思維，從而獲得更優(yōu)解。”UIUC(伊利諾伊大學(xué)香檳分校) 博士后魏云超如是說(shuō)道。

清華大學(xué)交叉信息研究院博士后王書浩也對(duì)AI科技評(píng)論表示，這種拋棄人類經(jīng)驗(yàn)的方法與之前的工作相比，去除了領(lǐng)域知識(shí)相關(guān)的特征圖像提取過(guò)程，更加接近于End-to-End的模型訓(xùn)練，能夠達(dá)到更優(yōu)的訓(xùn)練效果。

而在今年的ICCV上，UIUC聯(lián)合培養(yǎng)博士沈志強(qiáng)發(fā)表了一篇類似觀點(diǎn)的文章：使用預(yù)訓(xùn)練（人類知識(shí)或者其他大規(guī)模數(shù)據(jù)集）的模型可能會(huì)存在bias或者陷入局部極值點(diǎn)，往往得不到最佳的性能，而from scratch的訓(xùn)練（權(quán)重隨機(jī)初始化）因?yàn)闆]有任何先驗(yàn)或者偏見，模型反而可以朝著正確的方向收斂，最后得到更優(yōu)的性能。

實(shí)現(xiàn)AlphaGo Zero難嗎？

可以看到，實(shí)現(xiàn)AlphaGo Zero算法的關(guān)鍵在之前也有過(guò)一些相關(guān)研究。這些關(guān)鍵性技術(shù)是否超乎了我們的想象范疇？

在與AI科技評(píng)論的交流中，張翔表示，這種技術(shù)對(duì)于學(xué)界來(lái)說(shuō)并不新鮮?！皩?duì)于圍棋這樣規(guī)則和目標(biāo)可以精確定義的問(wèn)題，自我比賽過(guò)程中通過(guò)輸贏產(chǎn)生了足夠的反饋信號(hào)，使得從零開始學(xué)習(xí)變得可能?！?/p>

王書浩則表示，當(dāng)看到AlphaGo Zero，他非常驚訝。他繼續(xù)說(shuō)道，

不是因?yàn)檫@個(gè)工作復(fù)雜的可怕，而是簡(jiǎn)單的可怕。整個(gè)工作沒有使用非常復(fù)雜的新算法，而僅僅用了深度強(qiáng)化學(xué)習(xí)和MCTS搜索，但是就是這樣一個(gè)簡(jiǎn)單直接的嘗試，得到了超越之前所有AlphaGo版本的“零度阿爾法狗”（AlphaGo Zero）。

雖然這些想法并沒有什么非常大的創(chuàng)新點(diǎn)，但要說(shuō)到具體實(shí)現(xiàn)，難度如何呢？

目前來(lái)說(shuō)，能實(shí)現(xiàn)如此技術(shù)的，也非DeepMind莫屬。

“雖然對(duì)于學(xué)界來(lái)說(shuō)，實(shí)現(xiàn)方法并不會(huì)使人感到非常驚訝，但目前只有DeepMind有這樣的團(tuán)隊(duì)，以及領(lǐng)先一整個(gè)工程迭代的技術(shù)，才能夠做這樣的研究?！睆埾鑼?duì)AI科技評(píng)論說(shuō)道。
沈志強(qiáng)也對(duì)AI科技評(píng)論表達(dá)了類似于張翔的觀點(diǎn)：DeepMind團(tuán)隊(duì)擁有非常強(qiáng)的工程能力，這點(diǎn)毋庸置疑，他們能夠把算法實(shí)現(xiàn)過(guò)程中的每個(gè)細(xì)節(jié)包括參數(shù)設(shè)置等都把握的很好。

AlphaGo Zero給我們帶來(lái)了什么

可以看到，AlphaGo Zero在算法上做的創(chuàng)新并不多，但實(shí)現(xiàn)起來(lái)卻極具技術(shù)難度。那么，DeepMind進(jìn)行這項(xiàng)極具難度的技術(shù)研究到底會(huì)帶給我們什么實(shí)際意義呢？在這一點(diǎn)上，大家暢所欲言。

解放人力成本：

“AlphaGo Zero代表著AI的實(shí)現(xiàn)不需要模仿或追尋人類智能的模式。大規(guī)模高速計(jì)算能力是機(jī)器智能的本質(zhì)特征。機(jī)器也要揚(yáng)長(zhǎng)避短。封閉規(guī)則下的問(wèn)題相對(duì)比較容易突破。在封閉規(guī)則下，搜索是重體力勞動(dòng)。這次的成功為人類提供了新的工具。人類可以集中精力在更有創(chuàng)造性的智能任務(wù)上，把很多的搜索子任務(wù)交給機(jī)器完成?！迸峤〗淌谌绱苏f(shuō)道。

促進(jìn)強(qiáng)化學(xué)習(xí)的發(fā)展：

而南京大學(xué)副教授俞揚(yáng)博士對(duì)AI科技評(píng)論表示，他們?cè)谧罱囊豁?xiàng)免模型直接動(dòng)作求解的研究工作中發(fā)現(xiàn)，求解出樣本標(biāo)記能夠大幅提高強(qiáng)化學(xué)習(xí)效率，而以往方法樣本利用率很低，依賴大量采樣才能學(xué)好。

這次的論文中，AlphaGo Zero采用了規(guī)劃的方法求解學(xué)習(xí)樣本的標(biāo)記，使得強(qiáng)化學(xué)習(xí)學(xué)得更好，這一思路也許在未來(lái)強(qiáng)化學(xué)習(xí)的發(fā)展上有重要作用。

有助于我們擺脫思維定勢(shì)：

“AlphaGo Zero的這種學(xué)習(xí)方法以及創(chuàng)新突破告訴我們，應(yīng)該如何考慮擺脫人類固有的思維和認(rèn)知來(lái)解決一些實(shí)際問(wèn)題，或者說(shuō)可以考慮讓計(jì)算機(jī)自己來(lái)學(xué)習(xí)解決這些問(wèn)題的策略。通過(guò)算法的自我學(xué)習(xí)和探索，可能會(huì)得到人類意想不到的答案?！鄙蛑緩?qiáng)對(duì)AI科技評(píng)論說(shuō)道。

同時(shí)，王書浩也表達(dá)了相同的觀點(diǎn)，他表示，AlphaGo Zero教我們一定要打破思維定式，敢于從0到1。

更深層的討論

當(dāng)然，除了AlphaGo Zero給我們帶來(lái)的實(shí)際意義，也要考慮到當(dāng)前技術(shù)發(fā)展的局限性，以及如何帶來(lái)更有應(yīng)用價(jià)值的成果。

俞揚(yáng)博士從應(yīng)用價(jià)值的角度提出了相關(guān)思考：

DeepMind在AlphaGo Zero里沒有使用人類數(shù)據(jù)和人工特征，主要是為了滿足關(guān)于通用性的追求，同時(shí)也在挑戰(zhàn)算法的能力。但是在解決應(yīng)用問(wèn)題時(shí)，如果能夠低成本的獲得人類數(shù)據(jù)，依然能夠幫助強(qiáng)化學(xué)習(xí)系統(tǒng)快速取得較好的結(jié)果，這將會(huì)極具應(yīng)用價(jià)值。

這次AlphaGo Zero的大熱，也讓加州大學(xué)伯克利分校博士生許華哲展開了對(duì)未來(lái)的思考，他對(duì)AI科技評(píng)論表示，“如何讓智能算法去推理(reason)然后完成自我學(xué)習(xí)應(yīng)該還有很長(zhǎng)的路要走。那天會(huì)來(lái)，但應(yīng)該還很遠(yuǎn)很遠(yuǎn)?！?/p>

總結(jié)：可以看到，AlphaGo Zero并沒有用到很多創(chuàng)新的想法，但給我們帶來(lái)了很多新的思考，對(duì)于學(xué)術(shù)研究也有其實(shí)際意義。不過(guò)，目前來(lái)講，這種強(qiáng)化學(xué)習(xí)的方法想要走向?qū)嶋H應(yīng)用，還有很長(zhǎng)的路要走。正如裴健博士所言，雖然研究的梯子加長(zhǎng)了，但是要想登上月球，還是遠(yuǎn)遠(yuǎn)不夠。

論文地址：https://deepmind.com/documents/119/agz_unformatted_nature.pdf

雷鋒網(wǎng) AI科技評(píng)論。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

7人收藏

相關(guān)文章

汪思穎

編輯

關(guān)注AI學(xué)術(shù)，例如論文

發(fā)私信

當(dāng)月熱門文章