0
本文作者: AI研習(xí)社-譯站 | 2018-12-26 10:27 |
本文為 AI 研習(xí)社編譯的技術(shù)博客,原標(biāo)題 :
Curiosity in Deep Reinforcement Learning
作者 | Michael Klear
翻譯 | 凝決2018
校對(duì) | 醬番梨 整理 | 菠蘿妹
原文鏈接:
https://towardsdatascience.com/curiosity-in-deep-reinforcement-learning-understanding-random-network-distillation-747b322e2403
深度強(qiáng)化學(xué)習(xí)中的好奇心
早期一個(gè)很難的深度強(qiáng)化學(xué)習(xí)任務(wù),蒙特祖馬的復(fù)仇,隨著隨機(jī)網(wǎng)絡(luò)蒸餾探索取得了重大突破(來(lái)源:Parker Brothers Blog)。
Atari游戲是流行的深度強(qiáng)化學(xué)習(xí)(RL)算法基準(zhǔn)任務(wù)。Atari很好地平衡了簡(jiǎn)單性和復(fù)雜性:一些游戲(例如Pong),簡(jiǎn)單到可以使用像一般策略梯度這樣的基本算法來(lái)解決;而其他游戲則足夠復(fù)雜,甚至可以難倒最先進(jìn)的算法。
在最簡(jiǎn)單和最復(fù)雜游戲之間的一系列有用任務(wù),已經(jīng)成為很多深度強(qiáng)化學(xué)習(xí)研究論文的核心。
來(lái)自O(shè)penAI博客。
之前“未解決的”Atari游戲,蒙特祖瑪?shù)膹?fù)仇, 最近被一種算法(在某種程度上)解決了,該算法能夠在得分方面超越人類表現(xiàn)。研究人員能夠鼓勵(lì)智能體探索級(jí)別1的不同房間,這是在此游戲中贏得積分的好方法。
人類玩冒險(xiǎn)游戲(如蒙特祖瑪?shù)膹?fù)仇)時(shí),有一種內(nèi)在的探索欲望。游戲設(shè)計(jì)師構(gòu)建此類游戲鼓勵(lì)這種行為,通常要求玩家進(jìn)行探索后才能繼續(xù)游戲。這可以說(shuō)是冒險(xiǎn)游戲有趣的原因(問(wèn)問(wèn)任何一個(gè)喜歡玩《天際》的人。)
像《蒙特祖瑪?shù)膹?fù)仇》或《天際》這樣的冒險(xiǎn)游戲充分利用了玩家的自然探索欲望,使探索成為完成游戲任務(wù)的關(guān)鍵組成部分。
一般的深度強(qiáng)化學(xué)習(xí)算法表現(xiàn)“探索”典型的方式是通過(guò)隨機(jī)策略:從神經(jīng)網(wǎng)絡(luò)提供的動(dòng)作似然分布中隨機(jī)采樣動(dòng)作。其結(jié)果,特別在早期(當(dāng)策略沒(méi)有時(shí)間收斂時(shí)),是明顯的隨機(jī)行動(dòng)選擇。
此種方法在某些情況下有效。例如,Pong的解決方法是隨機(jī)轉(zhuǎn)動(dòng)槳頁(yè)并觀察結(jié)果。幸運(yùn)的話,球偏轉(zhuǎn)可以啟動(dòng)優(yōu)化。
在類似《蒙特祖馬的復(fù)仇》這樣的游戲中,這種方法是行不通的。試想從游戲一開(kāi)始,頭像隨機(jī)左右移動(dòng)、隨機(jī)跳躍,結(jié)果就是陷入熔巖,或者在沒(méi)有獲得積分的情況下直接走進(jìn)敵人。沒(méi)有積分或獎(jiǎng)勵(lì),算法得不到優(yōu)化的信號(hào)。
所以,你就打算隨機(jī)隨意連枷?祝你好運(yùn)(來(lái)源)。
強(qiáng)調(diào)尋找更好的探索方法已經(jīng)有很多次了?;诤闷嫘牡奶剿骺梢员灰暈槿祟愅婕液闷嫘尿?qū)動(dòng)行為的一次嘗試。
但是我們?nèi)绾蝿?chuàng)造一個(gè)好奇智能體呢?
實(shí)現(xiàn)這個(gè)想法有多種方式。其中一種,即使用下一狀態(tài)預(yù)測(cè),因其簡(jiǎn)單性和可擴(kuò)展性顯得十分有趣。
基本思路是在培養(yǎng)獨(dú)立預(yù)測(cè)模型同時(shí)培養(yǎng)策略模型。該預(yù)測(cè)模型輸入觀察到的當(dāng)前狀態(tài)和所選動(dòng)作,并為下次觀察做出預(yù)測(cè)。
對(duì)于探索充分的軌跡,我們假設(shè)損失很?。ㄒ?yàn)橥ㄟ^(guò)監(jiān)督學(xué)習(xí),我們不斷培養(yǎng)預(yù)測(cè)模型);對(duì)于探索不充分的軌跡,我們假設(shè)損失會(huì)很大。
那么,我們可以做的是創(chuàng)建一個(gè)新的獎(jiǎng)勵(lì)函數(shù)(稱為“內(nèi)在獎(jiǎng)勵(lì)”),它提供與預(yù)測(cè)模型的損失成比例的獎(jiǎng)勵(lì)。因此,當(dāng)探索新的軌跡時(shí),智能體接收到強(qiáng)烈的獎(jiǎng)勵(lì)信號(hào)。
(a)級(jí)別1學(xué)習(xí)探索 (b)級(jí)別2更快速的探索
在馬里奧模擬器任務(wù)(源)中使用下一次預(yù)測(cè),“學(xué)習(xí)探索” 由級(jí)別1中的好奇心,通向級(jí)別2的更快速的探索。
這種技術(shù)在超級(jí)馬里奧模擬器中產(chǎn)生了一些令人鼓舞的結(jié)果。
這種技術(shù)并不完美。一個(gè)已知問(wèn)題是:智能體被環(huán)境中的隨機(jī)元素或嘈雜元素吸引。這鐘情況有時(shí)被稱為“白噪聲”問(wèn)題或“電視問(wèn)題”; 亦被稱為“拖延”。
為證明這種效果,想象一個(gè)智能體,通過(guò)觀察他看到的像素學(xué)習(xí)在迷宮中導(dǎo)航。
下一狀態(tài)預(yù)測(cè)引起智能體學(xué)習(xí)迷宮成功導(dǎo)航的好奇心(來(lái)源)。
智能體很好的完成了任務(wù);他開(kāi)始尋找未迷宮未被探索的部分,因?yàn)樗心芰υ谔剿鞒浞值牡貐^(qū)做出良好的預(yù)測(cè)(或者說(shuō),他無(wú)法在未開(kāi)發(fā)的地區(qū)做出好的預(yù)測(cè)。)
現(xiàn)在在迷宮的墻上放置一個(gè)“電視”,快速連續(xù)地顯示隨機(jī)選擇的圖像。由于圖像的隨機(jī)來(lái)源,智能體無(wú)法準(zhǔn)確預(yù)測(cè)接下來(lái)會(huì)出現(xiàn)什么圖像。預(yù)測(cè)模型將產(chǎn)生高損失,從而為智能體提供高“內(nèi)在”獎(jiǎng)勵(lì)。最終結(jié)果是智能體傾向于停下看電視,而不是繼續(xù)探索迷宮。
在環(huán)境(來(lái)源)中,當(dāng)智能體面對(duì)電視,或隨機(jī)噪聲來(lái)源時(shí),下一狀態(tài)預(yù)測(cè)引起智能體好奇心最終導(dǎo)致 “拖延”。
用隨機(jī)網(wǎng)絡(luò)蒸餾避免拖延。
OpenAI一些優(yōu)秀的人最近發(fā)表了一篇論文,提出噪音電視問(wèn)題的解決方案,隨機(jī)網(wǎng)絡(luò)蒸餾(RND)探索。
這里的新穎想法是將類似的技術(shù)應(yīng)用于下一狀態(tài)預(yù)測(cè)方法,但是去除對(duì)先前狀態(tài)的依賴性。
下一狀態(tài)預(yù)測(cè) 對(duì)比RND概述(來(lái)源)。
RND不是預(yù)測(cè)下一個(gè)狀態(tài),而是從下一個(gè)狀態(tài)進(jìn)行觀察,并嘗試對(duì)下一個(gè)狀態(tài)進(jìn)行預(yù)測(cè)。這是一個(gè)非常微不足道的預(yù)測(cè),對(duì)嗎?
RND隨機(jī)網(wǎng)絡(luò)目的是采用這個(gè)微小的預(yù)測(cè)任務(wù)并將其轉(zhuǎn)換為硬預(yù)測(cè)任務(wù)。
這是一個(gè)聰明的,但卻反直覺(jué)的解決方案。
想法是,我們使用隨機(jī)初始化的神經(jīng)網(wǎng)絡(luò)將觀察結(jié)果映射到潛在的觀察向量。這個(gè)函數(shù)本身的輸出實(shí)際上并不重要;重要的是我們有一些未知的確定性函數(shù)(一個(gè)隨機(jī)初始化的神經(jīng)網(wǎng)絡(luò))以某種方式轉(zhuǎn)換觀察結(jié)果。
因此,我們的預(yù)測(cè)模型的任務(wù)不是預(yù)測(cè)下一個(gè)狀態(tài),而是預(yù)測(cè)給定觀察狀態(tài)的未知隨機(jī)模型的輸出。我們訓(xùn)練這個(gè)模型使用隨機(jī)網(wǎng)絡(luò)輸出標(biāo)簽。
當(dāng)智能體在熟悉的狀態(tài)中,預(yù)測(cè)模型應(yīng)該很好地預(yù)測(cè)來(lái)自隨機(jī)網(wǎng)絡(luò)的預(yù)期輸出。當(dāng)智能體處于不熟悉狀態(tài)時(shí),預(yù)測(cè)模型將對(duì)隨機(jī)網(wǎng)絡(luò)輸出做出不良預(yù)測(cè)。
通過(guò)這種方式,我們可以定義一個(gè)內(nèi)在的獎(jiǎng)勵(lì)函數(shù),該函數(shù)再次與預(yù)測(cè)模型的損失成比例。
內(nèi)在獎(jiǎng)勵(lì)計(jì)算的概念性概述。僅使用下一狀態(tài)觀察。
這可以被解釋為“新穎性檢測(cè)”方案,其中預(yù)測(cè)模型進(jìn)行新的觀察或不熟悉觀察時(shí),計(jì)算的損失更高。
作者使用MNIST作為這個(gè)想法的概念驗(yàn)證。在這個(gè)實(shí)驗(yàn)中,他們通過(guò)隨機(jī)初始化的神經(jīng)網(wǎng)絡(luò)提供MNIST一類字符。然后,在給定輸入條件下,他們訓(xùn)練并行網(wǎng)絡(luò)預(yù)測(cè)隨機(jī)網(wǎng)絡(luò)的輸入。正如預(yù)期的那樣,當(dāng)目標(biāo)類的訓(xùn)練樣例數(shù)量增加時(shí),他們會(huì)看到并行網(wǎng)絡(luò)對(duì)目標(biāo)類丟失的損失。
數(shù)據(jù)2:MNIST上的新穎性檢測(cè):預(yù)測(cè)器網(wǎng)絡(luò)模仿隨機(jī)初始化的目標(biāo)網(wǎng)絡(luò)。 訓(xùn)練數(shù)據(jù)包括來(lái)自“0”類的不同比例的圖像和目標(biāo)類別。各條曲線表示MSE測(cè)試顯示的針對(duì)目標(biāo)類的訓(xùn)練例數(shù)繪制的目標(biāo)類例(對(duì)數(shù))
研究論文中的MNIST概念驗(yàn)證。
通過(guò)這種方式,當(dāng)智能體看到隨機(jī)噪聲源時(shí),它不會(huì)卡住。它不再試圖預(yù)測(cè)屏幕上不可預(yù)測(cè)的下一幀,而只需要了解這些幀如何被隨機(jī)網(wǎng)絡(luò)轉(zhuǎn)換。
由于解決方案不好,之前的下一狀態(tài)預(yù)測(cè)好奇心機(jī)制無(wú)法解決蒙特蘇馬的復(fù)仇,但RND似乎已經(jīng)克服了這些問(wèn)題。
由好奇心驅(qū)動(dòng)的智能體探索房間,并學(xué)習(xí)收集鑰匙,以便他們解鎖新房間。
盡管取得了這樣的成功,但智能體只是“偶爾”通過(guò)了級(jí)別1。這是因?yàn)橥ㄟ^(guò)最后一道門完成關(guān)卡,需要嚴(yán)格管理鑰匙使用。需要通過(guò)內(nèi)部狀態(tài)模型(如LSTM)來(lái)克服這一障礙。
因此,雖然RND已經(jīng)讓智能體在得分方面超過(guò)了人類的平均表現(xiàn),但在掌握游戲之前還有很長(zhǎng)的路要走。
這是關(guān)于深度強(qiáng)化學(xué)習(xí)算法實(shí)驗(yàn)一系列帖子的一部分。查看系列中之前的一些帖子:
了解演進(jìn)的策略梯度。
感謝Ludovic Benistant。
想要繼續(xù)查看該篇文章相關(guān)鏈接和參考文獻(xiàn)?
長(zhǎng)按鏈接點(diǎn)擊打開(kāi)或點(diǎn)擊底部【深度強(qiáng)化學(xué)習(xí)中的好奇心】:
https://ai.yanxishe.com/page/TextTranslation/1363
AI研習(xí)社每日更新精彩內(nèi)容,觀看更多精彩內(nèi)容:雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)
深度強(qiáng)化學(xué)習(xí)中的好奇心
等你來(lái)譯:
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。