DeepMind 發(fā)布新架構(gòu) 讓AI 邊玩游戲邊強(qiáng)化學(xué)習(xí) | 2分鐘論文

本文作者： AI研習(xí)社-譯站

2018-04-03 16:08

導(dǎo)語：DeepMind對(duì)于改進(jìn)強(qiáng)化學(xué)習(xí)的一次嘗試

雷鋒網(wǎng)按：這里是，雷鋒字幕組編譯的Two minutes paper專欄，每周帶大家用碎片時(shí)間閱覽前沿技術(shù)，了解AI領(lǐng)域的最新研究成果。

原標(biāo)題 DeepMind's AI Masters Even More Atari Games | Two Minute Papers

翻譯 | 熊逸凡字幕 | 凡江

論文標(biāo)題：IMPALA: Scalable Distributed Deep-RL with Importance Weighted Actor-Learner Architectures

?每周一篇2分鐘論文視頻解讀

眾所周知，強(qiáng)化學(xué)習(xí)是一種算法，我們可以用它在環(huán)境中選擇一系列的行動(dòng)來達(dá)到最高分?jǐn)?shù)。這種算法有很多種應(yīng)用，在這里我們單獨(dú)拿電子游戲出來做例子，是因?yàn)樗軌虺尸F(xiàn)給玩家多種多樣的挑戰(zhàn)。DeepMind 實(shí)驗(yàn)室為了更加直觀地進(jìn)行研究，使用第一視角來玩3D游戲。DeepMind實(shí)驗(yàn)室有一個(gè)簡(jiǎn)單卻很靈活的API，可以讓訓(xùn)練對(duì)象學(xué)習(xí)不同的任務(wù)，該實(shí)驗(yàn)室的游戲引擎功能強(qiáng)大，運(yùn)行速度飛快，適用各種研究場(chǎng)景。

DeepMind 發(fā)布新架構(gòu) 讓AI 邊玩游戲邊強(qiáng)化學(xué)習(xí) | 2分鐘論文

在強(qiáng)化學(xué)習(xí)過程中，我們通常有一個(gè)任務(wù)目標(biāo)（比如學(xué)習(xí)后空翻）和一個(gè)我們想要訓(xùn)練好的對(duì)象。在本篇論文中，我將介紹的這個(gè)項(xiàng)目，是DeepMind對(duì)于改進(jìn)強(qiáng)化學(xué)習(xí)的一次嘗試。通過訓(xùn)練，使一個(gè)對(duì)象能完成比以往多得多種類的任務(wù)，這顯然意味著我們需要獲得更多的訓(xùn)練數(shù)據(jù)?，以及為最高效地處理這些數(shù)據(jù)作好準(zhǔn)備。

DeepMind 發(fā)布新架構(gòu) 讓AI 邊玩游戲邊強(qiáng)化學(xué)習(xí) | 2分鐘論文

這個(gè)新技術(shù)是基于之前DeepMind發(fā)布了的構(gòu)架，先前的構(gòu)架 A3C（即異步的優(yōu)勢(shì)行動(dòng)者評(píng)論家算法）將一些執(zhí)行單元置于游戲中，每個(gè)單元都掌握玩這個(gè)游戲當(dāng)前的策略。之后，這些單元獨(dú)立地進(jìn)行游戲，并周期性地停止游戲，以此來分享關(guān)于當(dāng)前策略的可行部分和不可行的部分。

DeepMind 發(fā)布新架構(gòu) 讓AI 邊玩游戲邊強(qiáng)化學(xué)習(xí) | 2分鐘論文

這種IMPALA架構(gòu)（Importance Weighted Actor-Learner Architecture）有兩個(gè)關(guān)鍵性的改變——

（1）第一個(gè)是在中間有個(gè)學(xué)習(xí)單元，執(zhí)行單元不與它分享游戲中哪些做法可行，哪些不可行，而是它們與它分享經(jīng)驗(yàn)。之后，這個(gè)集中的學(xué)習(xí)單元會(huì)想出一個(gè)關(guān)于所有這些數(shù)據(jù)的合理結(jié)論。想象一下，如果一個(gè)隊(duì)伍里的每個(gè)足球運(yùn)動(dòng)員都去告訴教練，自己在球場(chǎng)上嘗試的哪些方法奏效，這樣的確可以有作用，但是有別于只是得到這些方法，我們可以把每個(gè)隊(duì)員各自的經(jīng)驗(yàn)通過蜂群思想結(jié)合起來，然后可以得到更多更高質(zhì)量的信息。

（2）另一個(gè)關(guān)鍵性不同是，傳統(tǒng)強(qiáng)化學(xué)習(xí)會(huì)先將游戲進(jìn)行一定步驟，然后停下來進(jìn)行學(xué)習(xí)過程。而使用論文中的方法，我們將游戲進(jìn)行和學(xué)習(xí)過程分離開來，因此就有可能發(fā)展出一種能夠同時(shí)連續(xù)進(jìn)行兩個(gè)過程的算法。這也引發(fā)了新的問題，推薦看一下論文里特別是關(guān)于叫做V-Trace的新的off-policy校正方法的部分，當(dāng)在30個(gè)不同等級(jí)和大量Atari游戲的測(cè)試中，這種新方法比起之前基于A3C架構(gòu)的表現(xiàn)翻了一倍，這也是極好的。同時(shí)，數(shù)據(jù)使用效率也至少是十倍于后者。它產(chǎn)生的知識(shí)更容易被應(yīng)用到其他任務(wù)中。

DeepMind 發(fā)布新架構(gòu) 讓AI 邊玩游戲邊強(qiáng)化學(xué)習(xí) | 2分鐘論文