丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能 正文
發(fā)私信給隔壁王大喵
發(fā)送

0

英特爾通過預(yù)測變量實現(xiàn)策略性強(qiáng)化學(xué)習(xí),奪冠 Doom 游戲競賽 | ICLR 2017

本文作者: 隔壁王大喵 編輯:郭奕欣 2017-04-24 11:50 專題:ICLR 2017
導(dǎo)語:英特爾提出了一種旨在輔助進(jìn)步的感覺運動控制方法,以克服強(qiáng)化學(xué)習(xí)的兩大挑戰(zhàn)。

雷鋒網(wǎng)AI科技評論按:ICLR 2017 將于4月24-26日在法國土倫舉行,屆時雷鋒網(wǎng)AI科技評論的編輯們也將前往法國帶來一線報道。在這個深度學(xué)習(xí)會議舉辦之前,雷鋒網(wǎng)也將圍繞會議議程及論文介紹展開一系列的覆蓋和專題報道,敬請期待。

英特爾通過預(yù)測變量實現(xiàn)策略性強(qiáng)化學(xué)習(xí),奪冠 Doom 游戲競賽 | ICLR 2017

盡管目前強(qiáng)化學(xué)習(xí)(Reinforcenment learning)已經(jīng)取得了重大的進(jìn)展,但是依然存在兩個關(guān)鍵性挑戰(zhàn)。

  • 一個是在復(fù)雜和動態(tài)的三維環(huán)境下從原生的感覺輸入中實現(xiàn)感覺運動控制(Sensorimotor control),以實現(xiàn)直接從經(jīng)驗中進(jìn)行學(xué)習(xí);

  • 另一個則是獲得可以靈活部署以實現(xiàn)大量動態(tài)目標(biāo)任務(wù)的通用技能。

因此本文的作者提出了一種旨在輔助進(jìn)步的感覺運動控制方法,以克服強(qiáng)化學(xué)習(xí)的兩大挑戰(zhàn)。

以下為雷鋒網(wǎng)AI科技評論據(jù)論文內(nèi)容進(jìn)行的部分編譯。

論文摘要

據(jù)雷鋒網(wǎng)了解,來自英特爾實驗室(Intel Labs)的兩名研究員Alexey Dosovitskiy和Vladlen Koltum提出了一種在沉浸式環(huán)境中實現(xiàn)感覺運動控制(Sensorimotor control)的方法。據(jù)悉,該方法有效地綜合利用了高維度的感官流(high-dimensional sensory stream)和較低維度的測量流(lower-dimensional measurement stream)。

英特爾通過預(yù)測變量實現(xiàn)策略性強(qiáng)化學(xué)習(xí),奪冠 Doom 游戲競賽 | ICLR 2017

  • 圖1:網(wǎng)絡(luò)結(jié)構(gòu)。s表示圖像數(shù)據(jù),m表示測量,g表示目標(biāo)。s,m,g首先通過三個輸入模塊分別進(jìn)行處理。然后這些輸入模塊的輸出結(jié)果將被連接成一個聯(lián)合表示j。之后聯(lián)合表示j被送入了兩個并行的計算流進(jìn)行單獨處理,這兩個計算流分別用于預(yù)測測量期望E(j)和歸一化動作條件差異。最后兩個計算流的輸出將被組合到一起以獲得針對每個動作的最終預(yù)測。

這些流的時間結(jié)構(gòu)提供了豐富的監(jiān)控信號,這使得可以通過與環(huán)境交互的方式訓(xùn)練運動控制模型。該模型通過監(jiān)督學(xué)習(xí)技術(shù)進(jìn)行訓(xùn)練,但是沒有用到外部監(jiān)督。它從來自于復(fù)雜三維環(huán)境的原始感官輸入中學(xué)習(xí)動作。該方案使得模型在訓(xùn)練過程中不用設(shè)定固定的學(xué)習(xí)目標(biāo),并且在測試的時候可以探索動態(tài)變化的目標(biāo)。

據(jù)悉,研究員們在經(jīng)典的第一視角游戲——Doom所提供的的三維模擬環(huán)境中進(jìn)行了大量的實驗。而實驗結(jié)果表明,英特爾實驗室研究員所提出的方法優(yōu)于先前提出的其它復(fù)雜方法,這一點在具有挑戰(zhàn)性的任務(wù)中體現(xiàn)得更加明顯。實驗結(jié)果還表明訓(xùn)練好的模型在環(huán)境與目標(biāo)之間具有很好的泛化能力。除此之外,通過該方法訓(xùn)練出來的模型還贏得了Full Deathmatch track of the Visual Doom AI Competition的勝利,該競賽是在一個對于模型而言完全陌生的環(huán)境下舉辦的。

論文結(jié)果展示

英特爾通過預(yù)測變量實現(xiàn)策略性強(qiáng)化學(xué)習(xí),奪冠 Doom 游戲競賽 | ICLR 2017


  • 圖2:展示了來自于四個場景的樣例。D1展示了在一個正方形房間里收集醫(yī)療包(“Basic”)。D2展示了在迷宮中收集醫(yī)療包并且還要避開毒藥(“Navigation”)。D3展示了在迷宮中收集醫(yī)療包和彈藥并同時攻擊敵人(“Battle”)。D4展示了在一個更加復(fù)雜的迷宮中收集醫(yī)療包和彈藥并同時攻擊敵人(“Battle 2”)。

英特爾通過預(yù)測變量實現(xiàn)策略性強(qiáng)化學(xué)習(xí),奪冠 Doom 游戲競賽 | ICLR 2017

  • 圖3:不同方法在訓(xùn)練中的表現(xiàn)。DQN,A3C和DFP在基礎(chǔ)的場景中都取得了類似的表現(xiàn)結(jié)果。但是DFP在其它三個場景中取得的表現(xiàn)結(jié)果都超過了另外三個方法。并且在最復(fù)雜的兩個場景下(D3與D4),DFP的表現(xiàn)結(jié)果遠(yuǎn)遠(yuǎn)優(yōu)于另外三個方法。

ICLR評論

ICLR委員會最終決定

評價:這篇論文詳細(xì)介紹了作者在VizDoom競賽中獲勝的方法。這是一種預(yù)測輔助變量的策略性強(qiáng)化學(xué)習(xí)方法,并且使用了內(nèi)在動機(jī)。同時該方法也是通用價值函數(shù)的一種特殊情況。該方法事實上是其它不同策略的一個集合,但是它產(chǎn)生了令人印象深刻的實驗結(jié)果,并且論文也寫的很清晰。

決定:接受(Oral)

令人信服的經(jīng)驗驅(qū)動成果

打分:7分:好論文,接受

評價:深度強(qiáng)化學(xué)習(xí)(在強(qiáng)化學(xué)習(xí)算法中使用深度神經(jīng)網(wǎng)絡(luò)進(jìn)行函數(shù)近似)在解決大規(guī)模狀態(tài)空間下的強(qiáng)化學(xué)習(xí)問題中已經(jīng)取得了許多的成功。而這種經(jīng)驗驅(qū)動的工作正是建立在這些方法的基礎(chǔ)之上進(jìn)行的。這篇論文介紹了一種新穎的算法,該算法在原生感覺數(shù)據(jù)(Raw sensory data)的全新3D環(huán)境中表現(xiàn)得更好,并且能在目標(biāo)和環(huán)境之間獲得更好的泛化能力。值得注意的是,該算法可是Visual Doom AI競賽的獲勝者。

(沒有標(biāo)題)

打分:8分:在所有被接受的論文中排前50%,確定接受

評價:本文提出了一種具有附加輔助內(nèi)在變量的策略深度強(qiáng)化學(xué)習(xí)方法。

  • 該方法是一種基于通用價值函數(shù)方法的特殊例子,并且作者也在引用中標(biāo)注出了正確的參考。也許這篇文章最大的技術(shù)貢獻(xiàn)是提煉了許多現(xiàn)有的方法來解決3D導(dǎo)航問題。我認(rèn)為論文的貢獻(xiàn)應(yīng)該在摘要中更加詳細(xì)地論述出來。

  • 我本來希望看到該方法的失敗模式。就是在什么情況下該模型會出現(xiàn)改變目標(biāo)的問題?并且因為這是一種策略性的方法,所以還存在其它的概念問題。比如,如果算法中的代理不在過去的目標(biāo)上反復(fù)進(jìn)行訓(xùn)練的話,將會出現(xiàn)災(zāi)難性的遺忘。

  • 由于本文的主要貢獻(xiàn)是整合了幾個關(guān)鍵思想并且展示了經(jīng)驗的優(yōu)勢,所以我還希望看到其它領(lǐng)域的測試結(jié)果,比如Atari(也許使用ROM作為內(nèi)在變量)。

總而言之,我認(rèn)為這篇論文確實展現(xiàn)了利用所提出的潛在公式的明顯經(jīng)驗優(yōu)勢,并且本文的實驗見解可能對未來的代理研究具有價值。

(沒有標(biāo)題)

打分:8分:在所有被接受的論文中排前50%,確定接受

評論:這篇論文提出了一種策略性方法來預(yù)測未來的內(nèi)在測量。所有的實驗都是在名為Doom(更準(zhǔn)確來說是vizDoom)的這款游戲上展開的。與一般性地預(yù)測游戲輸贏或者是游戲得分不同,本文的作者訓(xùn)練了模型來預(yù)測一系列的三元組(健康,彈藥,得分),并且由作為輸入提供的一系列“目標(biāo)”三元組加權(quán)。改變目標(biāo)三元組的加權(quán)是執(zhí)行/指導(dǎo)探索的一種方式。在測試期間,只能通過最大化長期目標(biāo)來實現(xiàn)代理的行動。

這個結(jié)果令人印象深刻,因為該模型贏得了2016年vizDoom大賽。并且本文的實驗部分看起來很合理:

  • 實驗中包含了DFP與A3C、DQN方法的比較,而且也嘗試了同DSR方法(與本文相類似的一種方法,由Kulkarni等人在2016年提出)進(jìn)行比較。DFP方法在各個實驗中都超越(或者至少也是持平)了其它方法。

  • 有一項消融研究(Ablation study)能夠證明文中所有對模型“增加復(fù)雜性”的做法都是有效的。

預(yù)測內(nèi)在動機(jī)(Singh et al. 2004)、輔助變量和前向建模都是強(qiáng)化學(xué)習(xí)中有著較好研究成果的領(lǐng)域。我閱讀的那個版本(12月4日修訂版)中充分參考了以前的工作,雖然還沒有做到非常全面。

我認(rèn)為這篇應(yīng)該被接受??赡苡行┤苏J(rèn)為該論文的實驗可以在不同的環(huán)境下進(jìn)行或者新穎性有限,但是我認(rèn)為這篇“正確的”并且“里程碑式的”論文應(yīng)該得到發(fā)表。

Via Learning to Act by Predicting the Future,雷鋒網(wǎng)編譯

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

英特爾通過預(yù)測變量實現(xiàn)策略性強(qiáng)化學(xué)習(xí),奪冠 Doom 游戲競賽 | ICLR 2017

分享:
相關(guān)文章

知情人士

我也是個旅途的浪人
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說