丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給AI研習(xí)社-譯站
發(fā)送

0

DeepMind 發(fā)布新架構(gòu) 讓AI 邊玩游戲邊強(qiáng)化學(xué)習(xí) | 2分鐘論文

本文作者: AI研習(xí)社-譯站 2018-04-03 16:08
導(dǎo)語(yǔ):DeepMind對(duì)于改進(jìn)強(qiáng)化學(xué)習(xí)的一次嘗試

雷鋒網(wǎng)按:這里是,雷鋒字幕組編譯的Two minutes paper專欄,每周帶大家用碎片時(shí)間閱覽前沿技術(shù),了解AI領(lǐng)域的最新研究成果。

原標(biāo)題 DeepMind's AI Masters Even More Atari Games | Two Minute Papers

翻譯 | 熊逸凡    字幕  |  凡江    

論文標(biāo)題:IMPALA: Scalable Distributed Deep-RL with Importance Weighted Actor-Learner Architectures

?每周一篇2分鐘論文視頻解讀

眾所周知,強(qiáng)化學(xué)習(xí)是一種算法,我們可以用它在環(huán)境中選擇一系列的行動(dòng)來達(dá)到最高分?jǐn)?shù)。這種算法有很多種應(yīng)用,在這里我們單獨(dú)拿電子游戲出來做例子,是因?yàn)樗軌虺尸F(xiàn)給玩家多種多樣的挑戰(zhàn)。DeepMind 實(shí)驗(yàn)室為了更加直觀地進(jìn)行研究,使用第一視角來玩3D游戲。DeepMind實(shí)驗(yàn)室有一個(gè)簡(jiǎn)單卻很靈活的API,可以讓訓(xùn)練對(duì)象學(xué)習(xí)不同的任務(wù),該實(shí)驗(yàn)室的游戲引擎功能強(qiáng)大,運(yùn)行速度飛快,適用各種研究場(chǎng)景。

DeepMind 發(fā)布新架構(gòu)  讓AI 邊玩游戲邊強(qiáng)化學(xué)習(xí)  |  2分鐘論文

在強(qiáng)化學(xué)習(xí)過程中,我們通常有一個(gè)任務(wù)目標(biāo)(比如學(xué)習(xí)后空翻)和一個(gè)我們想要訓(xùn)練好的對(duì)象。在本篇論文中,我將介紹的這個(gè)項(xiàng)目,是DeepMind對(duì)于改進(jìn)強(qiáng)化學(xué)習(xí)的一次嘗試。通過訓(xùn)練,使一個(gè)對(duì)象能完成比以往多得多種類的任務(wù),這顯然意味著我們需要獲得更多的訓(xùn)練數(shù)據(jù)?,以及為最高效地處理這些數(shù)據(jù)作好準(zhǔn)備。

DeepMind 發(fā)布新架構(gòu)  讓AI 邊玩游戲邊強(qiáng)化學(xué)習(xí)  |  2分鐘論文

這個(gè)新技術(shù)是基于之前DeepMind發(fā)布了的構(gòu)架,先前的構(gòu)架  A3C(即異步的優(yōu)勢(shì)行動(dòng)者評(píng)論家算法)  將一些執(zhí)行單元置于游戲中,每個(gè)單元都掌握玩這個(gè)游戲當(dāng)前的策略。之后,這些單元獨(dú)立地進(jìn)行游戲,并周期性地停止游戲,以此來分享關(guān)于當(dāng)前策略的可行部分和不可行的部分。

DeepMind 發(fā)布新架構(gòu)  讓AI 邊玩游戲邊強(qiáng)化學(xué)習(xí)  |  2分鐘論文

這種IMPALA架構(gòu)(Importance Weighted Actor-Learner Architecture)有兩個(gè)關(guān)鍵性的改變——

(1)第一個(gè)是在中間有個(gè)學(xué)習(xí)單元,執(zhí)行單元不與它分享游戲中哪些做法可行,哪些不可行,而是它們與它分享經(jīng)驗(yàn)。之后,這個(gè)集中的學(xué)習(xí)單元會(huì)想出一個(gè)關(guān)于所有這些數(shù)據(jù)的合理結(jié)論。想象一下,如果一個(gè)隊(duì)伍里的每個(gè)足球運(yùn)動(dòng)員都去告訴教練,自己在球場(chǎng)上嘗試的哪些方法奏效,這樣的確可以有作用,但是有別于只是得到這些方法,我們可以把每個(gè)隊(duì)員各自的經(jīng)驗(yàn)通過蜂群思想結(jié)合起來,然后可以得到更多更高質(zhì)量的信息。

(2)另一個(gè)關(guān)鍵性不同是,傳統(tǒng)強(qiáng)化學(xué)習(xí)會(huì)先將游戲進(jìn)行一定步驟,然后停下來進(jìn)行學(xué)習(xí)過程。而使用論文中的方法,我們將游戲進(jìn)行和學(xué)習(xí)過程分離開來,因此就有可能發(fā)展出一種能夠同時(shí)連續(xù)進(jìn)行兩個(gè)過程的算法。這也引發(fā)了新的問題,推薦看一下論文里特別是關(guān)于叫做V-Trace的新的off-policy校正方法的部分,當(dāng)在30個(gè)不同等級(jí)和大量Atari游戲的測(cè)試中,這種新方法比起之前基于A3C架構(gòu)的表現(xiàn)翻了一倍,這也是極好的。同時(shí),數(shù)據(jù)使用效率也至少是十倍于后者。它產(chǎn)生的知識(shí)更容易被應(yīng)用到其他任務(wù)中。

DeepMind 發(fā)布新架構(gòu)  讓AI 邊玩游戲邊強(qiáng)化學(xué)習(xí)  |  2分鐘論文

論文原址 https://arxiv.org/pdf/1802.01561.pdf


更多文章,關(guān)注雷鋒網(wǎng)  雷鋒網(wǎng)雷鋒網(wǎng) 

添加雷鋒字幕組微信號(hào)(leiphonefansub)為好友

備注「我要加入」,To be an  AI  Volunteer !

DeepMind 發(fā)布新架構(gòu)  讓AI 邊玩游戲邊強(qiáng)化學(xué)習(xí)  |  2分鐘論文

相關(guān)文章:

2分鐘論文 | 玩膩了iPhoneX,不如試試這款基于AI的Animoji

2分鐘論文 | 用 谷歌「AI可解釋性」 看懂機(jī)器學(xué)習(xí)

谷歌新一代WaveNet :深度學(xué)習(xí)怎么生成語(yǔ)音? | 2分鐘論文

又是GAN!改個(gè)TAG,你就能對(duì)圖片為所欲為了 | 2分鐘論文

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

DeepMind 發(fā)布新架構(gòu)  讓AI 邊玩游戲邊強(qiáng)化學(xué)習(xí)  |  2分鐘論文

分享:
相關(guān)文章

知情人士

AI研習(xí)社(yanxishe.com)譯站頻道,傳播前沿人工智能知識(shí),讓語(yǔ)言不再成為學(xué)習(xí)知識(shí)的門檻。(原雷鋒字幕組)
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說