0
本文作者: 哈帝?白求恩 | 編輯:郭奕欣 | 2017-04-20 14:13 | 專題:ICLR 2017 |
雷鋒網(wǎng)AI科技評論按:ICLR 2017 將于4月24-26日在法國土倫舉行,屆時雷鋒網(wǎng)AI科技評論的編輯們也將前往法國帶來一線報道。在這個深度學習會議舉辦之前,雷鋒網(wǎng)也將圍繞會議議程及論文介紹展開一系列的覆蓋和專題報道,敬請期待。
深層強化學習通過直接最大化累積回報獲得最先進的成果。 然而,環(huán)境中還包含著很多種類的潛在訓練信號。 而在今年的 ICLR 2017,來自牛津大學的Max Jaderberg等研究者在 oral paper 論文《Reinforcement Learning With Unsupervised Auxiliarys Tasks 》中介紹了一個智能體,它既可以通過強化學習,學習單獨的策略,同時也可以最大限度地發(fā)揮許多其他的偽回報功能。 所有這些任務(wù)都有一個共同的代表,就像無監(jiān)督學習一樣,在沒有外在回報的情況下繼續(xù)發(fā)展。 研究者還介紹了一種將這種表征重點放在外在回報上的新機制,使學習能夠快速適應(yīng)與實際任務(wù)最相關(guān)的方面。 該智能體具有顯著優(yōu)于在Atari上的目前最先進的技術(shù),平均有880%的專業(yè)人員表現(xiàn),以及在具有挑戰(zhàn)性的第一人稱三維迷宮任務(wù)中,平均學習加速10×,平均達到87% 迷宮專家的人類表現(xiàn)。
以下為AI科技評論據(jù)論文內(nèi)容進行的部分編譯。
不論是自然界還是人工創(chuàng)造,智能體都生活在感覺運動數(shù)據(jù)流中。 在每個時間步驟t,智能體接收觀察的信息ot并執(zhí)行動作at。 這些行為將影響感覺運動流的未來過程。 研究人員開發(fā)了通過解決大量強化學習問題來學習預(yù)測和控制感覺運動流的智能體,每個智能體都集中在學習感覺運動流的特征上。因此未來將可以靈活控制智能體實現(xiàn)任何目標,包括最大化回報。經(jīng)典的強化學習方法主要集中在最大化回報上。然而并不是所有應(yīng)用都存在回報。即使回報很常見,感覺運動流仍然包含很多值得學習的目標。傳統(tǒng)意義上來講,非監(jiān)督強化學習嘗試重建這些目標,例如位于這一幀和下一幀的像素。該團隊的目標則是預(yù)測和控制感覺運動流的特征,并把它們作為強化學習的回報。
該團隊的架構(gòu)使用強化學習來近似許多不同的偽回報的最優(yōu)策略和最優(yōu)值函數(shù)。 它還使其他輔助預(yù)測用于將智能體的重點放在任務(wù)的重要方面,包括輔助控制任務(wù),即智能體與交互的環(huán)境中的附加偽回報函數(shù)。圖1(b)展示出了隨著一組輔助像素控制任務(wù)而增加的A3C實體架構(gòu)。 在這種情況下,基本策略π共享卷積視覺流和LSTM與輔助策略。 輔助網(wǎng)絡(luò)端的輸出是Nact × n × n張量Qaux,其中Qaux(a, I, j)表示網(wǎng)絡(luò)對于采取行動a 后的輸入單元(I, j)中的最佳折扣預(yù)期變化的當前估計值 。 通過利用輔助任務(wù)的空間特性,使用解卷積神經(jīng)網(wǎng)絡(luò)來產(chǎn)生輔助值Qaux。以及回報預(yù)測的輔助任務(wù) – 即在某些歷史背景下預(yù)測即時回報的發(fā)生。這個任務(wù)包括處理連續(xù)觀察信息,并要求智能體預(yù)測在隨后看不到的幀中拾取的回報。輔助回報預(yù)測可能會對智能體的主要策略使用不同的架構(gòu)。
與其簡單地將“輔助”預(yù)測“掛上”LSTM不如在被智能體的CNN編碼后,使用簡單的前饋網(wǎng)絡(luò)來連接一些狀態(tài)S,參見圖1(c)。 這個想法是為了簡化未來方向和過去方向的預(yù)測任務(wù)的時間,以這種方式發(fā)現(xiàn)的特征與初級LSTM共享(通過卷積編碼器中的共享權(quán)重),以便更有效地學習策略。為了更有效地學習,該智能體使用經(jīng)驗回放機制來為評判者提供額外更新。 其主要思想是在回放緩沖區(qū)中存儲轉(zhuǎn)換,然后將學習更新應(yīng)用于從該緩沖區(qū)的采樣轉(zhuǎn)換。除了回報預(yù)測之外,還可以使用回放緩沖區(qū)來執(zhí)行價值函數(shù)回放(參見圖1)。
重要的是,輔助控制和輔助預(yù)測任務(wù)共享基礎(chǔ)智能體使用的卷積神經(jīng)網(wǎng)絡(luò)和LSTM。 通過使用這種共同學習的代表,基礎(chǔ)智能體學習更快地優(yōu)化外在回報,多數(shù)情況下,在培訓結(jié)束時將會實現(xiàn)更好的策略。
研究人員結(jié)合了異步評價器算法(A3C)和輔助控制任務(wù)以及輔助匯報任務(wù)。這些輔助任務(wù)除了一般的A3C智能體外不需要其他任何來自環(huán)境的額外監(jiān)督或信號。這樣就獲得了UNREAL(UNsupervised REinforcement and Auxiliary Learning)智能體。
圖1:UNREAL智能體整體概述。 (a)智能體是經(jīng)過培訓的有關(guān)A3C損失的CNN-LSTM實體。觀察信息,回報和行動存儲在一個小的回放緩沖區(qū)中,該緩沖區(qū)存儲了較短的智能體經(jīng)驗歷史。這種經(jīng)驗是用來輔助學習任務(wù)。 (b)像素控制 - 訓練輔助策略Qaux以達到最大化輸入的不同區(qū)域的像素強度變化。智能體CNN和LSTM與輔助反卷積網(wǎng)絡(luò)都用于此任務(wù)。該輔助控制任務(wù)要求智能體學習如何控制環(huán)境。 (c)回報預(yù)測 - 根據(jù)最近的三個幀,網(wǎng)絡(luò)必須預(yù)測在下一個不可觀測的時間步長中獲得的回報。該任務(wù)網(wǎng)絡(luò)使用智能體CNN的實例,并對回報偏向序列進行訓練,以消除回報的稀疏性。 (d)價值函數(shù)回放 - 使用智能體網(wǎng)絡(luò)進一步訓練價值函數(shù),以促進更快的價值迭代。
研究人員將UNREAL智能體應(yīng)用于一個具有挑戰(zhàn)性的3D視覺領(lǐng)域,即迷宮(Labyrinth)圖2。UNREAL智能體僅從第一人稱視角的原始RGB像素中學習。結(jié)果是,該智能體的表現(xiàn)顯著優(yōu)于A3C CNN-LSTM智能體代表的基準線,即在無障礙重建損失的基礎(chǔ)上增加了學習速度,超參數(shù)的魯棒性和最終性能。結(jié)果是該智能體達到了專家人員歸一化分數(shù)的87%,而A3C則為54%,平均速度是A3C的10倍。在阿塔里(Atari)中,UNREAL智能體也擁有顯著優(yōu)于目前最先進的技術(shù)。
圖2:來自環(huán)境的原始RGB幀是作為智能體輸入的觀察信息,以及最后的行動和回報。 這個觀察信息顯示了迷宮中的一個迷宮樣本。 智能體必須瀏覽這個迷宮,拿起蘋果將給予+1回報,并達到+10回報的目標,然后重新啟動。 來自迷宮發(fā)生器的樣品的俯視圖顯示了程序創(chuàng)建的各種迷宮。
下面是具體的實驗結(jié)果:
圖3(左上)顯示了13個迷宮級別的人類平均歸一化分數(shù)曲線。 每一項輔助任務(wù)都添加到A3C代理中大大提高了性能。 組合不同的輔助任務(wù)促使對各個輔助任務(wù)的進一步改進。 組合所有三個輔助任務(wù)的UNREAL智能體達到了A3C最終人類平均歸一化表現(xiàn)的兩倍以上,從54%上升到87%)。
圖3:迷宮(上)和Atari(下)上的所有層的平均性能概述。 在消融版本中,RP是回報預(yù)測,VR是價值函數(shù)回放,PC是像素控制,UNREAL智能體是全部的組合。 左:在訓練中的每一點,前三名工作的最后100次的平均人類歸一化表現(xiàn)。 在迷宮中,平均獲得了87%的人類歸一化分數(shù),其中每個成分的智能體均提高了A3C人類歸一化分數(shù)的54%。右:超參數(shù)掃描中每個作業(yè)的最終人類歸一化分數(shù),按分數(shù)排序。在迷宮和Atari,UNREAL智能體增加了超參數(shù)的魯棒性(即學習率和熵成本)。
同時使用與迷宮實驗相同的評估協(xié)議,在每個游戲中評估50個不同的隨機超參數(shù)(學習率和熵成本)。 結(jié)果顯示在圖3的底行。左側(cè)顯示了所有三種方法的前3個實體的平均性能曲線,右半部分顯示了每個超參數(shù)設(shè)置的人類平均歸一化得分??梢钥闯?,UNREAL超越了目前最先進的智能體,即A3C和優(yōu)先級決策DQN,達到880 %的平均值和250%的中位數(shù)。 值得注意的是,對于超參數(shù)設(shè)置,UNREAL也比A3C更強大。
除了游戲的最終表現(xiàn),UNREAL在學習方面要快得多,因此數(shù)據(jù)效率更高,最終平均加速步驟數(shù)量實現(xiàn)了達到A3C最佳性能的10倍。 而且UNREAL的學習速度極快,這意味著數(shù)據(jù)效率大大提高。同時還可以通過測量所有超參數(shù)的性能(即學習率和熵成本)來測量該學習算法對超參數(shù)的魯棒性。
圖4:由于在迷宮中每關(guān)的輔助任務(wù),A3C有了改進。 通過A3C值對A3C + RP + VR(回報預(yù)測和價值函數(shù)回放)和UNREAL(回報預(yù)測,價值函數(shù)回放和像素控制)的值進行歸一化。 AUC性能給出了超參數(shù)的魯棒性(魯棒性曲線下的面積圖3右)。 數(shù)據(jù)效率是前五名工作效率數(shù)據(jù)的平均學習曲線下的面積,Top5 加速是前五名工作效率的平均值達到A3C設(shè)定的最高平均得分的加速。
圖5:與在各種形式的隨機迷宮中自我監(jiān)督學習的導航結(jié)果比較。 將輸入重建損失添加到目標使得學習速度比A3C基線更快。預(yù)測輸入的變化比簡單的圖像重建效果更好。 學習控制變化會帶來最好的結(jié)果。
評價: 審查人員一致認為本文應(yīng)該被接受。 當然關(guān)于這篇文章的細節(jié)還有很多可以討論的方面。 審查人員認為本文所指出的方向?qū)υ撗芯恐械脑S多人來說是有意義的。 正如一位評論者所說,這篇文章的想法涉及利用智能體對環(huán)境的控制的“可能性”。 這是根據(jù)輔助控制和輔助預(yù)測任務(wù)制定的,它們共享基礎(chǔ)的CNN和LSTM表示方式。
決定:接受(Oral)
匿名評論者3的反饋:
打分:7分,不錯的文章,接受
本文提出了一種將無監(jiān)督輔助任務(wù)添加到深層RL智能體(如A3C)的方法。 作者提出了一系列輔助控制任務(wù)和輔助回報任務(wù),并對迷宮和Atari的實體進行了評估。 本文提出的UNREAL智能體的表現(xiàn)明顯優(yōu)于A3C,并且學習速度更快。 這對會議來說絕對是一個很有益的貢獻。 然而,這還不是最令人驚訝的一個結(jié)果,因為添加與目標相關(guān)的附加輔助任務(wù)應(yīng)該總是有助于更好和更快速的特征形成。 本文證明了這個想法的概念。
這篇文件寫得很好,對具有深厚RL專業(yè)知識的讀者來說很容易理解。
作者可以評論關(guān)于訓練UNREAL實體所需的計算資源嗎?
整體架構(gòu)是相當復(fù)雜的。 作者是否愿意發(fā)布他們的模型的源代碼?
匿名評委4號的反饋:
打分:8分,在全部入選論文中排名Top50%,確定接受
本文旨在通過對與(域無關(guān))輔助任務(wù)相對應(yīng)的術(shù)語擴展主要策略的優(yōu)化問題,來改進深層加強學習中的特征學習。 這些任務(wù)是關(guān)于控制(學習嘗試最大程度地修改狀態(tài)空間的其他策略,即這里的像素),即時回報預(yù)測和價值函數(shù)回放。 除了后者之外,這些輔助任務(wù)僅用于幫助形成特征(通過共享CNN + LSTM特征提取網(wǎng)絡(luò))。 實驗顯示了這種方法對Atari和迷宮問題的優(yōu)勢,特別是比A3C更好的數(shù)據(jù)效率。
匿名評委5號的反饋:
打分:8分,在全部入選論文中排名Top50%,確定接受
這篇文章提出訓練RL智能體執(zhí)行輔助任務(wù),并認為這樣做有助于模型學習更強大的功能。 文章提出兩個偽控制任務(wù),即控制像素強度的變化,并控制潛在特征的激活。 文章中還提出監(jiān)督回歸任務(wù),預(yù)測一系列事件后的即時回報。 后者通過經(jīng)驗回放緩沖區(qū)的偏向采樣離線來學習,以平衡看到回報或1/2的幾率看不到回報。
這樣的智能體在離散動作連續(xù)空間RL任務(wù)中表現(xiàn)得很好,并且在10次迭代中達到基準性能。
這篇文章與傳統(tǒng)的“被動”無監(jiān)督或基于模型的學習形成對比。學習控制環(huán)境的本地和內(nèi)部功能補充,學習最佳控制策略,而不是強迫模型學習輸入的潛在無用的表示,或?qū)W習潛在不可能的(由于部分可觀察性)任務(wù)建模目標。
對我來說,這是一種新穎的方法,并且是一種非常有趣的無人監(jiān)督學習的替代方法,利用了智能體對環(huán)境的控制的“可能性”。
文章在相當高的層次上說明了提出的任務(wù),這對于讀者的理解是很便利的,但我認為一些低級別的細節(jié)也是很有用的。例如,在附錄之前,應(yīng)明確提及L_PC。除非,讀者對深度RL非常的了解。
該方法是正確合理的,一方面,最佳超參數(shù)的分布對A3C和UNREAL可能不同,但是也可以測量top-3確定,假設(shè)A3C和UNREAL的最佳超參數(shù)都在探查的間隔內(nèi), 則可以找到最佳的超參數(shù)。
我認為這篇文章的一個弱點(或者說考慮到將來適合本文章的重要工作)是,關(guān)于輔助任務(wù)對其性能(非常強大) 的實驗分析非常少。 同樣的道理,像素/特征控制似乎最具影響力,在迷宮中,A3C + PC擊敗其他任何實體(UNREAL除外),我認為這是值得探究的,無論是孤立還是深入,可以不僅僅測量在RL任務(wù)上的表現(xiàn)。
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。
本專題其他文章