0
本文作者: AI研習(xí)社-譯站 | 2018-04-03 16:08 |
雷鋒網(wǎng)按:這里是,雷鋒字幕組編譯的Two minutes paper專欄,每周帶大家用碎片時(shí)間閱覽前沿技術(shù),了解AI領(lǐng)域的最新研究成果。
原標(biāo)題 DeepMind's AI Masters Even More Atari Games | Two Minute Papers
翻譯 | 熊逸凡 字幕 | 凡江
論文標(biāo)題:IMPALA: Scalable Distributed Deep-RL with Importance Weighted Actor-Learner Architectures
?每周一篇2分鐘論文視頻解讀
眾所周知,強(qiáng)化學(xué)習(xí)是一種算法,我們可以用它在環(huán)境中選擇一系列的行動(dòng)來達(dá)到最高分?jǐn)?shù)。這種算法有很多種應(yīng)用,在這里我們單獨(dú)拿電子游戲出來做例子,是因?yàn)樗軌虺尸F(xiàn)給玩家多種多樣的挑戰(zhàn)。DeepMind 實(shí)驗(yàn)室為了更加直觀地進(jìn)行研究,使用第一視角來玩3D游戲。DeepMind實(shí)驗(yàn)室有一個(gè)簡(jiǎn)單卻很靈活的API,可以讓訓(xùn)練對(duì)象學(xué)習(xí)不同的任務(wù),該實(shí)驗(yàn)室的游戲引擎功能強(qiáng)大,運(yùn)行速度飛快,適用各種研究場(chǎng)景。
在強(qiáng)化學(xué)習(xí)過程中,我們通常有一個(gè)任務(wù)目標(biāo)(比如學(xué)習(xí)后空翻)和一個(gè)我們想要訓(xùn)練好的對(duì)象。在本篇論文中,我將介紹的這個(gè)項(xiàng)目,是DeepMind對(duì)于改進(jìn)強(qiáng)化學(xué)習(xí)的一次嘗試。通過訓(xùn)練,使一個(gè)對(duì)象能完成比以往多得多種類的任務(wù),這顯然意味著我們需要獲得更多的訓(xùn)練數(shù)據(jù)?,以及為最高效地處理這些數(shù)據(jù)作好準(zhǔn)備。
這個(gè)新技術(shù)是基于之前DeepMind發(fā)布了的構(gòu)架,先前的構(gòu)架 A3C(即異步的優(yōu)勢(shì)行動(dòng)者評(píng)論家算法) 將一些執(zhí)行單元置于游戲中,每個(gè)單元都掌握玩這個(gè)游戲當(dāng)前的策略。之后,這些單元獨(dú)立地進(jìn)行游戲,并周期性地停止游戲,以此來分享關(guān)于當(dāng)前策略的可行部分和不可行的部分。
這種IMPALA架構(gòu)(Importance Weighted Actor-Learner Architecture)有兩個(gè)關(guān)鍵性的改變——
(1)第一個(gè)是在中間有個(gè)學(xué)習(xí)單元,執(zhí)行單元不與它分享游戲中哪些做法可行,哪些不可行,而是它們與它分享經(jīng)驗(yàn)。之后,這個(gè)集中的學(xué)習(xí)單元會(huì)想出一個(gè)關(guān)于所有這些數(shù)據(jù)的合理結(jié)論。想象一下,如果一個(gè)隊(duì)伍里的每個(gè)足球運(yùn)動(dòng)員都去告訴教練,自己在球場(chǎng)上嘗試的哪些方法奏效,這樣的確可以有作用,但是有別于只是得到這些方法,我們可以把每個(gè)隊(duì)員各自的經(jīng)驗(yàn)通過蜂群思想結(jié)合起來,然后可以得到更多更高質(zhì)量的信息。
(2)另一個(gè)關(guān)鍵性不同是,傳統(tǒng)強(qiáng)化學(xué)習(xí)會(huì)先將游戲進(jìn)行一定步驟,然后停下來進(jìn)行學(xué)習(xí)過程。而使用論文中的方法,我們將游戲進(jìn)行和學(xué)習(xí)過程分離開來,因此就有可能發(fā)展出一種能夠同時(shí)連續(xù)進(jìn)行兩個(gè)過程的算法。這也引發(fā)了新的問題,推薦看一下論文里特別是關(guān)于叫做V-Trace的新的off-policy校正方法的部分,當(dāng)在30個(gè)不同等級(jí)和大量Atari游戲的測(cè)試中,這種新方法比起之前基于A3C架構(gòu)的表現(xiàn)翻了一倍,這也是極好的。同時(shí),數(shù)據(jù)使用效率也至少是十倍于后者。它產(chǎn)生的知識(shí)更容易被應(yīng)用到其他任務(wù)中。
論文原址 https://arxiv.org/pdf/1802.01561.pdf
更多文章,關(guān)注雷鋒網(wǎng) 雷鋒網(wǎng)雷鋒網(wǎng)
添加雷鋒字幕組微信號(hào)(leiphonefansub)為好友
備注「我要加入」,To be an AI Volunteer !
相關(guān)文章:
2分鐘論文 | 玩膩了iPhoneX,不如試試這款基于AI的Animoji
2分鐘論文 | 用 谷歌「AI可解釋性」 看懂機(jī)器學(xué)習(xí)
谷歌新一代WaveNet :深度學(xué)習(xí)怎么生成語(yǔ)音? | 2分鐘論文
又是GAN!改個(gè)TAG,你就能對(duì)圖片為所欲為了 | 2分鐘論文
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。