丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給汪思穎
發(fā)送

0

AlphaGo Zero為何如此備受矚目?這是8位教授和同學(xué)們的獨(dú)家見解

本文作者: 汪思穎 編輯:郭奕欣 2017-10-19 21:56
導(dǎo)語:雷鋒網(wǎng) AI科技評論第一時(shí)間聯(lián)系到相關(guān)研究領(lǐng)域的教授和同學(xué),與他們聊了聊看到AlphaGo Zero之后的一些思考和啟發(fā)。

雷鋒網(wǎng) AI科技評論消息,北京時(shí)間10月19日凌晨,DeepMind在Nature上發(fā)表了名為Mastering the game of Go without human knowledge(不使用人類知識掌握圍棋)的論文,在論文中,Deepmind展示了他們強(qiáng)大的新版本圍棋程序“AlphaGo Zero”—— 僅經(jīng)過三天訓(xùn)練,就能以100:0擊敗此前擊敗李世石的AlphaGo Lee,經(jīng)過21天訓(xùn)練,就能達(dá)到擊敗柯潔的AlphaGo Master的水平。具體信息可參見100:0!Deepmind Nature論文揭示最強(qiáng)AlphaGo Zero,無需人類知識。

AlphaGo Zero的橫空出世又一次引起大眾爭相討論和轉(zhuǎn)發(fā),雷鋒網(wǎng) AI科技評論也第一時(shí)間聯(lián)系到相關(guān)研究領(lǐng)域的教授和同學(xué),與他們聊了聊看到AlphaGo Zero之后的一些思考和啟發(fā)。

加拿大西蒙弗雷澤大學(xué)計(jì)算機(jī)學(xué)院教授、Canada Research Chair裴健第一時(shí)間對AI科技評論表達(dá)了他的觀點(diǎn),“最近的一系列成就把機(jī)器學(xué)習(xí)這把梯子又加長了很多,現(xiàn)在我們能爬很高的墻了,但這把梯子還是不能把我們帶到月球?!?/p>

得到裴健教授如此評價(jià)的AlphaGo Zero究竟是什么呢?接下來,AI科技評論將會為大家?guī)硭南嚓P(guān)介紹、關(guān)鍵技術(shù)、進(jìn)行這項(xiàng)研究的意義以及一些更深層次的思考。

AlphaGo Zero是什么

AlphaGo Zero與原始的AlphaGo版本究竟有什么不同呢?上海交大CS系博士生李澤凡為我們帶來了全面解答:

  • 首先是網(wǎng)絡(luò)輸入的不同。在原始的AlphaGo版本中,首先用大量的人類對戰(zhàn)棋譜進(jìn)行輸入訓(xùn)練,而AlphaGo Zero單純地用黑子白子進(jìn)行輸入。

  • 其次是網(wǎng)絡(luò)設(shè)計(jì)的不同。AlphaGo的算法將policy網(wǎng)絡(luò)和value網(wǎng)絡(luò),即策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò)分開訓(xùn)練。但Alphago Zero將這兩個(gè)網(wǎng)絡(luò)聯(lián)合訓(xùn)練,使得最后表達(dá)能力更好。并使用了殘差網(wǎng)絡(luò)模塊,使得網(wǎng)絡(luò)的深度能夠得到大幅提升,表達(dá)能力更強(qiáng)。

  • 另外,Alphago Zero不使用走子演算的方法對落子位置進(jìn)行評價(jià),而使用神經(jīng)網(wǎng)絡(luò)直接進(jìn)行評價(jià)。

  • 最后,在訓(xùn)練方法上,Alphago Zero在每一步進(jìn)行自我博弈訓(xùn)練的時(shí)候,其對手(陪練)往往設(shè)置成跟Alphago Zero在一個(gè)水平上的。這樣的漸進(jìn)學(xué)習(xí)方式也是提升訓(xùn)練效果和效率的因素。

從與李澤凡的討論中可以看到,相較于原始版本,AlphaGo Zero進(jìn)行了諸多改進(jìn)。那么,最終決定AlphaGo Zero表現(xiàn)和效率決定性因素具體是哪些呢?

“從論文上看,應(yīng)該取決于三方面的因素。一是采用了一些改進(jìn)的強(qiáng)化學(xué)習(xí)方法,使得學(xué)習(xí)過程收斂更穩(wěn)定。二是從零開始學(xué)習(xí),使得模型擺脫人類知識的束縛,有可能去探索更優(yōu)的局部解。三是采用了最新的模型設(shè)計(jì),如更深的殘差卷積網(wǎng)絡(luò),使得優(yōu)化、計(jì)算量和表達(dá)能力三方面都有增強(qiáng)?!奔~約大學(xué)博士生張翔很好地解決了AI科技評論的疑問。

除了張翔,南京大學(xué)副教授俞揚(yáng)博士在看到論文之后也對AI科技評論表示,

AlphaGo Zero的主要改進(jìn)是在神經(jīng)網(wǎng)絡(luò)上使用了ResNet,以及在強(qiáng)化學(xué)習(xí)中使用了MCTS尋找學(xué)習(xí)樣本標(biāo)記。由于技術(shù)的改進(jìn),使得總體的MCTS可以極大簡化,測試速度也因此得到了大幅提升。

另外,大部分同學(xué)認(rèn)為,從0到1訓(xùn)練模型,拋棄人類經(jīng)驗(yàn),是一個(gè)相當(dāng)重要的因素,也是一個(gè)值得借鑒的創(chuàng)新點(diǎn)。

“圍棋經(jīng)過上千年的傳承,雖然不斷會有新的突破,但整體上‘贏’的思維或套路可能已經(jīng)趨于統(tǒng)一。因此,從優(yōu)化的角度來看,利用人類知識進(jìn)行學(xué)習(xí)的機(jī)制可能還是會讓網(wǎng)絡(luò)陷入跟人類思維一致的局部最優(yōu)。但AlphaGo Zero這種從0開始的self-motivated強(qiáng)化學(xué)習(xí)機(jī)制,會使網(wǎng)絡(luò)嘗試各種可能性,打破基于人類知識的固化思維,從而獲得更優(yōu)解?!盪IUC(伊利諾伊大學(xué)香檳分校) 博士后魏云超如是說道。

清華大學(xué)交叉信息研究院博士后王書浩也對AI科技評論表示,這種拋棄人類經(jīng)驗(yàn)的方法與之前的工作相比,去除了領(lǐng)域知識相關(guān)的特征圖像提取過程,更加接近于End-to-End的模型訓(xùn)練,能夠達(dá)到更優(yōu)的訓(xùn)練效果。

而在今年的ICCV上,UIUC聯(lián)合培養(yǎng)博士沈志強(qiáng)發(fā)表了一篇類似觀點(diǎn)的文章:使用預(yù)訓(xùn)練(人類知識或者其他大規(guī)模數(shù)據(jù)集)的模型可能會存在bias或者陷入局部極值點(diǎn),往往得不到最佳的性能,而from scratch的訓(xùn)練(權(quán)重隨機(jī)初始化)因?yàn)闆]有任何先驗(yàn)或者偏見,模型反而可以朝著正確的方向收斂,最后得到更優(yōu)的性能。

實(shí)現(xiàn)AlphaGo Zero難嗎?

可以看到,實(shí)現(xiàn)AlphaGo Zero算法的關(guān)鍵在之前也有過一些相關(guān)研究。這些關(guān)鍵性技術(shù)是否超乎了我們的想象范疇?

在與AI科技評論的交流中,張翔表示,這種技術(shù)對于學(xué)界來說并不新鮮?!皩τ趪暹@樣規(guī)則和目標(biāo)可以精確定義的問題,自我比賽過程中通過輸贏產(chǎn)生了足夠的反饋信號,使得從零開始學(xué)習(xí)變得可能。”

王書浩則表示,當(dāng)看到AlphaGo Zero,他非常驚訝。他繼續(xù)說道,

不是因?yàn)檫@個(gè)工作復(fù)雜的可怕,而是簡單的可怕。整個(gè)工作沒有使用非常復(fù)雜的新算法,而僅僅用了深度強(qiáng)化學(xué)習(xí)和MCTS搜索,但是就是這樣一個(gè)簡單直接的嘗試,得到了超越之前所有AlphaGo版本的“零度阿爾法狗”(AlphaGo Zero)。

雖然這些想法并沒有什么非常大的創(chuàng)新點(diǎn),但要說到具體實(shí)現(xiàn),難度如何呢?

目前來說,能實(shí)現(xiàn)如此技術(shù)的,也非DeepMind莫屬。

  • “雖然對于學(xué)界來說,實(shí)現(xiàn)方法并不會使人感到非常驚訝,但目前只有DeepMind有這樣的團(tuán)隊(duì),以及領(lǐng)先一整個(gè)工程迭代的技術(shù),才能夠做這樣的研究?!睆埾鑼I科技評論說道。

  • 沈志強(qiáng)也對AI科技評論表達(dá)了類似于張翔的觀點(diǎn):DeepMind團(tuán)隊(duì)擁有非常強(qiáng)的工程能力,這點(diǎn)毋庸置疑,他們能夠把算法實(shí)現(xiàn)過程中的每個(gè)細(xì)節(jié)包括參數(shù)設(shè)置等都把握的很好。

AlphaGo Zero給我們帶來了什么

可以看到,AlphaGo Zero在算法上做的創(chuàng)新并不多,但實(shí)現(xiàn)起來卻極具技術(shù)難度。那么,DeepMind進(jìn)行這項(xiàng)極具難度的技術(shù)研究到底會帶給我們什么實(shí)際意義呢?在這一點(diǎn)上,大家暢所欲言。

  • 解放人力成本:

“AlphaGo Zero代表著AI的實(shí)現(xiàn)不需要模仿或追尋人類智能的模式。大規(guī)模高速計(jì)算能力是機(jī)器智能的本質(zhì)特征。機(jī)器也要揚(yáng)長避短。封閉規(guī)則下的問題相對比較容易突破。在封閉規(guī)則下,搜索是重體力勞動(dòng)。這次的成功為人類提供了新的工具。人類可以集中精力在更有創(chuàng)造性的智能任務(wù)上,把很多的搜索子任務(wù)交給機(jī)器完成。”裴健教授如此說道。

  • 促進(jìn)強(qiáng)化學(xué)習(xí)的發(fā)展:

而南京大學(xué)副教授俞揚(yáng)博士對AI科技評論表示,他們在最近的一項(xiàng)免模型直接動(dòng)作求解的研究工作中發(fā)現(xiàn),求解出樣本標(biāo)記能夠大幅提高強(qiáng)化學(xué)習(xí)效率,而以往方法樣本利用率很低,依賴大量采樣才能學(xué)好。

這次的論文中,AlphaGo Zero采用了規(guī)劃的方法求解學(xué)習(xí)樣本的標(biāo)記,使得強(qiáng)化學(xué)習(xí)學(xué)得更好,這一思路也許在未來強(qiáng)化學(xué)習(xí)的發(fā)展上有重要作用。

  • 有助于我們擺脫思維定勢:

“AlphaGo Zero的這種學(xué)習(xí)方法以及創(chuàng)新突破告訴我們,應(yīng)該如何考慮擺脫人類固有的思維和認(rèn)知來解決一些實(shí)際問題,或者說可以考慮讓計(jì)算機(jī)自己來學(xué)習(xí)解決這些問題的策略。通過算法的自我學(xué)習(xí)和探索,可能會得到人類意想不到的答案。”沈志強(qiáng)對AI科技評論說道。

同時(shí),王書浩也表達(dá)了相同的觀點(diǎn),他表示,AlphaGo Zero教我們一定要打破思維定式,敢于從0到1。

更深層的討論

當(dāng)然,除了AlphaGo Zero給我們帶來的實(shí)際意義,也要考慮到當(dāng)前技術(shù)發(fā)展的局限性,以及如何帶來更有應(yīng)用價(jià)值的成果。

俞揚(yáng)博士從應(yīng)用價(jià)值的角度提出了相關(guān)思考:

DeepMind在AlphaGo Zero里沒有使用人類數(shù)據(jù)和人工特征,主要是為了滿足關(guān)于通用性的追求,同時(shí)也在挑戰(zhàn)算法的能力。但是在解決應(yīng)用問題時(shí),如果能夠低成本的獲得人類數(shù)據(jù),依然能夠幫助強(qiáng)化學(xué)習(xí)系統(tǒng)快速取得較好的結(jié)果,這將會極具應(yīng)用價(jià)值。

這次AlphaGo Zero的大熱,也讓加州大學(xué)伯克利分校博士生許華哲展開了對未來的思考,他對AI科技評論表示,“如何讓智能算法去推理(reason)然后完成自我學(xué)習(xí)應(yīng)該還有很長的路要走。那天會來,但應(yīng)該還很遠(yuǎn)很遠(yuǎn)?!?/p>

總結(jié):可以看到,AlphaGo Zero并沒有用到很多創(chuàng)新的想法,但給我們帶來了很多新的思考,對于學(xué)術(shù)研究也有其實(shí)際意義。不過,目前來講,這種強(qiáng)化學(xué)習(xí)的方法想要走向?qū)嶋H應(yīng)用,還有很長的路要走。正如裴健博士所言,雖然研究的梯子加長了,但是要想登上月球,還是遠(yuǎn)遠(yuǎn)不夠。

論文地址:https://deepmind.com/documents/119/agz_unformatted_nature.pdf

雷鋒網(wǎng) AI科技評論。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

AlphaGo Zero為何如此備受矚目?這是8位教授和同學(xué)們的獨(dú)家見解

分享:
相關(guān)文章

編輯

關(guān)注AI學(xué)術(shù),例如論文
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個(gè)人簡介
為了您的賬戶安全,請驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說