AlphaZero制勝解讀，通用強化學(xué)習(xí)算法自我對弈 | 2分鐘論文

本文作者： AI研習(xí)社-譯站

2018-01-02 10:58

導(dǎo)語：雷鋒字幕組出品系列短視頻《 2 分鐘論文》，帶大家用碎片時間閱覽前沿技術(shù)，了解 AI 領(lǐng)域的最新研究成果。

雷鋒網(wǎng)：雷鋒字幕組出品系列短視頻《 2 分鐘論文》，帶大家用碎片時間閱覽前沿技術(shù)，了解 AI 領(lǐng)域的最新研究成果。

本期論文：用通用強化學(xué)習(xí)算法自我對弈，掌握國際象棋和將棋

Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm

? 觀看論文解讀大概需要 6 分鐘

回顧AlphaZero

回望2017，DeepMind的AlphaGo是不可跳過的關(guān)鍵詞。在這一年，AlphaGo沒有止步不前，還實現(xiàn)了驚人的飛躍。

在打敗幾乎所有高段位圍棋專業(yè)選手后，谷歌DeepMind現(xiàn)在開始進軍象棋領(lǐng)域。12月，DeepMind在NIPS大會期間發(fā)布了AlpahZero，這是一個通用棋類AI，不僅輕松擊敗了最強國際象棋AI和將棋AI，訓(xùn)練34小時的AlphaZero也勝過了訓(xùn)練72小時的AlphaGo Zero。

AlphaZero 完全無需人工特征、無需任何人類棋譜、甚至無需任何特定優(yōu)化，只需要幾個小時的訓(xùn)練時間，就可以超越此前最好的算法甚至人類世界冠軍，這是算法和計算資源的勝利，更是人類的頂尖研究成果。

完全自主練習(xí)的AlphaZero

AlphaZero是以神經(jīng)網(wǎng)絡(luò)和強化學(xué)習(xí)為基礎(chǔ)的，在給定比賽規(guī)則后，完全通過自主練習(xí)進行訓(xùn)練。

這不同于讓AlphaGo Zero下圍棋，AlphaZero涉及到全新的算法，它和AlphaGo Zero區(qū)別在于：第一，象棋的規(guī)則是不對稱的，比如，卒只能向前移動，國王和王后一側(cè)的王車易位不同，這意味著基于神經(jīng)網(wǎng)絡(luò)的技術(shù)效率會變差；第二，落子時，算法不僅要預(yù)測二進制的輸贏幾率，還可能出現(xiàn)平局，這也要考慮在內(nèi)。實際上，有時平局是能實現(xiàn)的最好結(jié)果。AlphaZero對之前的算法有諸多改進。

要想理解AlphaZero的制勝方式，這里簡要介紹一下ENO評分，ENO評分是一個評估選手技術(shù)水平的數(shù)字。目前Magnus Karlssen是ENO評分最高的人類選手，分數(shù)在2800左右。幾年前，他在維也納蒙住眼睛同時對戰(zhàn)10名選手并贏得了多數(shù)比賽。而Stockfish是目前最好的圍棋引擎之一，ELO評分超過3300分。兩者間500 ELO點數(shù)的差距意味著Stockfish和Magnus Karlssen比賽，100場能贏95場。需要注意的是，規(guī)則規(guī)定相差400點就會取消比賽。

算法對決：AlphaZero VS Stockfish

AlphaZero 和 Stockfish進行了100場比賽。AlphaZero 贏 28場，平72場，輸0場。AlphaZero與Stockfish的對弈過程中，每一步棋都有60秒進行思考，因為兩種算法每走一步最多需要10秒時間，所以時間完全夠用。在硬件配置同為含4個Tenzer處理器的機器的情況下，

AlphaZero僅僅花了4個小時的學(xué)習(xí)就拿了個大滿貫。

需要注意，Stockfish采用的不是機器學(xué)習(xí)，而是手寫算法。人們喜歡類比電腦游戲中的AI，但它們沒有做任何類型的學(xué)習(xí)。最讓人稱道的是，AlphaZero是一種更通用的算法，還能以極高的水準玩將棋，也就是所謂的日本象棋。這才是最有趣的。因為所用的是通用學(xué)習(xí)算法，能夠在不投入顯著人力的情況下完成任務(wù)，所以相比Stockfish，AlphaZero實用性更強。

論文花絮

關(guān)于論文還有兩個更有趣的花絮：一是該算法得出的所有領(lǐng)域知識，都是明確給出的；二是有人可能認為隨著計算機和運算能力的提高，我們所要做的只是提高算法的強度，增加更多要評估的點。我們注意到AlphaZero能穩(wěn)定擊敗Stockfish的關(guān)鍵在于，也許在于AI等效直覺，也就是AlphaZero能夠確認少量的有效走法并且專注其中。

雷鋒網(wǎng)本篇視頻解釋運用了大量材料，里面有Danny Okink大師和國際象棋大師Daniel Ranch的有趣分析，以及YouTube頻道、網(wǎng)絡(luò)圍棋等高質(zhì)量材料。DeepMind告訴我們，這只是論文的最初版本，所以現(xiàn)在我們先做一個初步觀察，也許在最終論文完成后，再制作第二段視頻反映最新結(jié)果。

雷鋒網(wǎng)的學(xué)霸們還請自行閱讀論文以獲得更多細節(jié)

論文原址：arxiv.org/pdf/1712.01815.pdf

來源 / Two Minute Papers

翻譯 / 安妍

校對 / 凡江

整理 / 孫云 AlphaZero制勝解讀，通用強化學(xué)習(xí)算法自我對弈 | 2分鐘論文

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

6人收藏

AI研習(xí)社-譯站

知情人士

AI研習(xí)社(yanxishe.com)譯站頻道，傳播前沿人工智能知識，讓語言不再成為學(xué)習(xí)知識的門檻。（原雷鋒字幕組）

掃描關(guān)注作者微信

發(fā)私信

當(dāng)月熱門文章