0
本文作者: AI研習(xí)社-譯站 | 2019-03-22 10:34 |
本文為 AI 研習(xí)社編譯的技術(shù)博客,原標題 :
What’s New in Deep Learning Research: How Google Builds Curiosity Into Reinforcement Learning Agents
作者 | Jesus Rodriguez
翻譯 | 醬番梨、卜嘉田、will_L_Q、Disillusion、J. X.L. Chan
校對 | Pita 審核 | 約翰遜·李加薪 整理 | 立魚王
原文鏈接:
https://towardsdatascience.com/whats-new-in-deep-learning-research-how-google-builds-curiosity-into-reinforcement-learning-32d77af719e8
探索-利用困境是規(guī)范強化學(xué)習(xí)算法的動力之一。如何平衡智能體應(yīng)該探索環(huán)境的程度與如何執(zhí)行特定操作和評估獎勵?在強化學(xué)習(xí)的背景下,探索和開發(fā)被視為獎勵模型中抑制好奇心的相反力量。然而,就像人類的認知一樣,強化學(xué)習(xí)智能體的好奇心產(chǎn)生于正確的知識,那么我們?nèi)绾卧诓粦土P智能體的情況下激發(fā)好奇心呢?這是Google Research最近發(fā)表的一篇研究論文的主題,論文介紹了一種在強化學(xué)習(xí)智能體中激發(fā)好奇心的方法。
大多數(shù)強化學(xué)習(xí)算法都基于結(jié)構(gòu)化獎勵模型,該模型假設(shè)有一組密集的獎勵可以與代理的行為相關(guān)聯(lián)。 然而,現(xiàn)實世界中的許多環(huán)境都基于稀疏的獎勵機制,這些獎勵不易適應(yīng)強化學(xué)習(xí)機制。 考慮到強化學(xué)習(xí)智能體需要在庫環(huán)境中查找特定書籍的場景。 智能體可以不斷地搜索,但書籍無處可尋,并且對特定行為沒有明確的獎勵。 稀疏獎勵環(huán)境對于強化學(xué)習(xí)智能體來說是非常具有挑戰(zhàn)性的,因為他們不得不在沒有明確獎勵的情況下不斷探索環(huán)境。 在那些環(huán)境中,強化學(xué)習(xí)智能體的“好奇心”對獲得適當?shù)莫剟罟δ苤陵P(guān)重要。 換句話說,強化學(xué)習(xí)環(huán)境中的獎勵稀疏性與好奇心之間存在直接關(guān)系。
好奇心一直是強化學(xué)習(xí)中的一個活躍研究領(lǐng)域。大多數(shù)強化學(xué)習(xí)中好奇心公式旨在最大限度地增加“驚奇”或者無法預(yù)測未來。這種方法從神經(jīng)科學(xué)的好奇心理論中得到啟發(fā),但已被證明在強化學(xué)習(xí)模型中相對低效。效率低下的核心原因是,最大化與目標任務(wù)無關(guān)的好奇心沒有直接關(guān)系,因此會導(dǎo)致拖延。下面讓我來解釋這惱人的事實?
讓我們以一個環(huán)境為例,在這個環(huán)境中,強化學(xué)習(xí)智能體被放入一個三維迷宮中。迷宮中有一個珍貴的目標,它會給予很大的獎勵?,F(xiàn)在,智能體被給予了電視遙控器,并可以切換頻道。每個頻道顯示一個隨機圖像(從一組固定的圖像中選取)。優(yōu)化驚喜的好奇心公式會很高興,因為頻道切換的結(jié)果是不可預(yù)測的。智能體將永遠停留在電視機前,而不會試圖解決目標任務(wù)。
這種困境很明顯:強化學(xué)習(xí)模型只應(yīng)在有利于最終目標的情況下才能最大限度地激發(fā)好奇心。然而,我們?nèi)绾沃滥男┨剿餍圆襟E與目標任務(wù)相關(guān)而哪些又不相關(guān)。谷歌通過提出一種稱為Episodic Curiosity的方法來應(yīng)對這一挑戰(zhàn)。
谷歌在強化學(xué)習(xí)領(lǐng)域的創(chuàng)新之處在于,通過引入努力的概念解決好奇心-拖延之間的摩擦。從本質(zhì)上來講,情境記憶方法是一種僅對需要一定努力而獲取的觀察數(shù)據(jù)給與獎勵的方法,它建議去避免“自我沉溺的行為”。根據(jù)我們電視迷宮(maze-tv)例子,在轉(zhuǎn)換頻道之后,所有的節(jié)目將最終在內(nèi)存中結(jié)束。因此,電視節(jié)目將不會具有任何吸引力,因為出現(xiàn)在屏幕上的節(jié)目順序是隨機的和不可預(yù)知的,所有這些節(jié)目都已經(jīng)在存儲中了!一個情境存儲智能體將檢查過去, 以確定它是否看到了與當前類似的觀察結(jié)果,在這種情況下, 它不會得到任何獎勵。在電視上反復(fù)播放幾次之后,情景存儲代理就不會被即時滿足所吸引,而必須去探索電視之外的世界以獲得額外的獎勵。聽起來是不是聰明???
情景記憶方法把好奇心和圖的可達性聯(lián)系起來。智能體在劇集開始時以一個空的存儲開始,每一步都將當前的觀察結(jié)果與存儲中的觀察結(jié)果進行比較,以確定它的新穎性。如果當前的觀察確實是新穎的 - 那么從記憶中的觀察中采取的步驟比閾值更多 - 那么智能體就會獎勵自己,并將當前的觀察添加到情景存儲中。這個過程一直持續(xù)到劇集結(jié)束, 此時存儲將會被抹去。
為了在強化學(xué)習(xí)代理中實現(xiàn)情景記憶功能,谷歌依賴于一種架構(gòu),該架構(gòu)將兩個神經(jīng)網(wǎng)絡(luò)與情景記憶緩沖器和獎賞估計模塊相結(jié)合,如下圖所示:
讓我們來看看情景記憶架構(gòu)的各個組成部分:
嵌入和比較器網(wǎng)絡(luò):這兩個網(wǎng)絡(luò)的目的是在給定另一個輸入觀察的情況下預(yù)測特定觀察的可達性。具體而言,兩個網(wǎng)絡(luò)是基于一個稱為R-Network的架構(gòu),這是一個由邏輯回歸的損失訓(xùn)練的分類器:如果在k步內(nèi)兩個觀測從一個到另外一個的可達的概率比較低,那么它的預(yù)測值接近于0,反之,當概率是很高時,其值接近于1。
情景記憶緩沖器:情景記憶緩沖器存儲當前情景中過去的觀察結(jié)果的嵌入,以便根據(jù)特定的觀察結(jié)果進行評估。
獎勵估計模塊:該模塊的目的是檢查內(nèi)存中是否有可達到的觀察結(jié)果,如果沒有,則進行檢查。從本質(zhì)上說,通過從當前狀態(tài)只采取一些行動,這個模塊的檢查確保在內(nèi)存中沒有觀察可以達到,因此鼓勵好奇心。
Google在一系列視覺環(huán)境(如ViZDoom和DMLab)中測試了情景記憶強化學(xué)習(xí)模型,結(jié)果非常出色。 在這些環(huán)境中,智能體的任務(wù)是處理各種問題,例如在迷宮中搜索目標或收集好的內(nèi)容以及避免壞對象。 DMLab環(huán)境碰巧為智能體提供了類似激光科幻小說中物件。 之前關(guān)于DMLab的工作中的標準設(shè)置是為智能體配備所有任務(wù)的小工具,如果智能體不需要特定任務(wù)的小工具,則可以免費使用它。 獎勵的稀疏性使得這些環(huán)境對于大多數(shù)傳統(tǒng)的強化學(xué)習(xí)方法而言非常具有挑戰(zhàn)性。 當負責在迷宮中搜索高回報的項目時,它更喜歡花時間標記墻壁,因為這會產(chǎn)生很多“驚喜”獎勵。
在相同的環(huán)境中,情景記憶智能體能夠通過有效地在迷宮中導(dǎo)航,它所使用的方式是——努力通過獎勵來最大化好奇心。
以下動畫顯示了情節(jié)記憶代理如何鼓勵積極獎勵(綠色)而不是獎勵(紅色),同時保持內(nèi)存中探索位置的緩沖區(qū)(藍色)。
情節(jié)記憶方法是我看到的最有創(chuàng)意的方法之一,可以鼓勵強化學(xué)習(xí)智能體的好奇心。 隨著強化學(xué)習(xí)在AI系統(tǒng)中變得越來越普遍,諸如情景記憶的方法應(yīng)該成為這些體系結(jié)構(gòu)的重要組成部分。
想要繼續(xù)查看該篇文章相關(guān)鏈接和參考文獻?
點擊【深度強化學(xué)習(xí)新趨勢:谷歌如何把好奇心引入強化學(xué)習(xí)智能體】或長按下方地址:雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)
https://ai.yanxishe.com/page/TextTranslation/1231
機器學(xué)習(xí)大禮包
限時免費\18本經(jīng)典書籍\Stanford經(jīng)典教材+論文
點擊鏈接即可獲取:
https://ai.yanxishe.com/page/resourceDetail/574
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。