丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給AI研習(xí)社-譯站
發(fā)送

0

深度強(qiáng)化學(xué)習(xí)中的好奇心

本文作者: AI研習(xí)社-譯站 2018-12-26 10:27
導(dǎo)語(yǔ):早期一個(gè)很難的深度強(qiáng)化學(xué)習(xí)任務(wù),蒙特祖馬的復(fù)仇,隨著隨機(jī)網(wǎng)絡(luò)蒸餾探索取得了重大突破

深度強(qiáng)化學(xué)習(xí)中的好奇心

本文為 AI 研習(xí)社編譯的技術(shù)博客,原標(biāo)題 :

Curiosity in Deep Reinforcement Learning

作者 | Michael Klear

翻譯 | 凝決2018

校對(duì) | 醬番梨       整理 | 菠蘿妹

原文鏈接:

https://towardsdatascience.com/curiosity-in-deep-reinforcement-learning-understanding-random-network-distillation-747b322e2403


深度強(qiáng)化學(xué)習(xí)中的好奇心

深度強(qiáng)化學(xué)習(xí)中的好奇心

早期一個(gè)很難的深度強(qiáng)化學(xué)習(xí)任務(wù),蒙特祖馬的復(fù)仇,隨著隨機(jī)網(wǎng)絡(luò)蒸餾探索取得了重大突破(來(lái)源:Parker Brothers Blog)。

Atari游戲是流行的深度強(qiáng)化學(xué)習(xí)(RL)算法基準(zhǔn)任務(wù)。Atari很好地平衡了簡(jiǎn)單性和復(fù)雜性:一些游戲(例如Pong),簡(jiǎn)單到可以使用像一般策略梯度這樣的基本算法來(lái)解決;而其他游戲則足夠復(fù)雜,甚至可以難倒最先進(jìn)的算法。

在最簡(jiǎn)單和最復(fù)雜游戲之間的一系列有用任務(wù),已經(jīng)成為很多深度強(qiáng)化學(xué)習(xí)研究論文的核心。

深度強(qiáng)化學(xué)習(xí)中的好奇心

來(lái)自O(shè)penAI博客。

之前“未解決的”Atari游戲,蒙特祖瑪?shù)膹?fù)仇, 最近被一種算法(在某種程度上)解決了,該算法能夠在得分方面超越人類表現(xiàn)。研究人員能夠鼓勵(lì)智能體探索級(jí)別1的不同房間,這是在此游戲中贏得積分的好方法。


  通過(guò)好奇心探索

人類玩冒險(xiǎn)游戲(如蒙特祖瑪?shù)膹?fù)仇)時(shí),有一種內(nèi)在的探索欲望。游戲設(shè)計(jì)師構(gòu)建此類游戲鼓勵(lì)這種行為,通常要求玩家進(jìn)行探索后才能繼續(xù)游戲。這可以說(shuō)是冒險(xiǎn)游戲有趣的原因(問(wèn)問(wèn)任何一個(gè)喜歡玩《天際》的人。)

深度強(qiáng)化學(xué)習(xí)中的好奇心

像《蒙特祖瑪?shù)膹?fù)仇》或《天際》這樣的冒險(xiǎn)游戲充分利用了玩家的自然探索欲望,使探索成為完成游戲任務(wù)的關(guān)鍵組成部分。

一般的深度強(qiáng)化學(xué)習(xí)算法表現(xiàn)“探索”典型的方式是通過(guò)隨機(jī)策略:從神經(jīng)網(wǎng)絡(luò)提供的動(dòng)作似然分布中隨機(jī)采樣動(dòng)作。其結(jié)果,特別在早期(當(dāng)策略沒(méi)有時(shí)間收斂時(shí)),是明顯的隨機(jī)行動(dòng)選擇。

此種方法在某些情況下有效。例如,Pong的解決方法是隨機(jī)轉(zhuǎn)動(dòng)槳頁(yè)并觀察結(jié)果。幸運(yùn)的話,球偏轉(zhuǎn)可以啟動(dòng)優(yōu)化。

在類似《蒙特祖馬的復(fù)仇》這樣的游戲中,這種方法是行不通的。試想從游戲一開(kāi)始,頭像隨機(jī)左右移動(dòng)、隨機(jī)跳躍,結(jié)果就是陷入熔巖,或者在沒(méi)有獲得積分的情況下直接走進(jìn)敵人。沒(méi)有積分或獎(jiǎng)勵(lì),算法得不到優(yōu)化的信號(hào)。

深度強(qiáng)化學(xué)習(xí)中的好奇心

所以,你就打算隨機(jī)隨意連枷?祝你好運(yùn)(來(lái)源)。


  好奇心

強(qiáng)調(diào)尋找更好的探索方法已經(jīng)有很多次了?;诤闷嫘牡奶剿骺梢员灰暈槿祟愅婕液闷嫘尿?qū)動(dòng)行為的一次嘗試。

但是我們?nèi)绾蝿?chuàng)造一個(gè)好奇智能體呢?

實(shí)現(xiàn)這個(gè)想法有多種方式。其中一種,即使用下一狀態(tài)預(yù)測(cè),因其簡(jiǎn)單性和可擴(kuò)展性顯得十分有趣。

基本思路是在培養(yǎng)獨(dú)立預(yù)測(cè)模型同時(shí)培養(yǎng)策略模型。該預(yù)測(cè)模型輸入觀察到的當(dāng)前狀態(tài)和所選動(dòng)作,并為下次觀察做出預(yù)測(cè)。

對(duì)于探索充分的軌跡,我們假設(shè)損失很?。ㄒ?yàn)橥ㄟ^(guò)監(jiān)督學(xué)習(xí),我們不斷培養(yǎng)預(yù)測(cè)模型);對(duì)于探索不充分的軌跡,我們假設(shè)損失會(huì)很大。

那么,我們可以做的是創(chuàng)建一個(gè)新的獎(jiǎng)勵(lì)函數(shù)(稱為“內(nèi)在獎(jiǎng)勵(lì)”),它提供與預(yù)測(cè)模型的損失成比例的獎(jiǎng)勵(lì)。因此,當(dāng)探索新的軌跡時(shí),智能體接收到強(qiáng)烈的獎(jiǎng)勵(lì)信號(hào)。


深度強(qiáng)化學(xué)習(xí)中的好奇心

(a)級(jí)別1學(xué)習(xí)探索    (b)級(jí)別2更快速的探索

在馬里奧模擬器任務(wù)(源)中使用下一次預(yù)測(cè),“學(xué)習(xí)探索” 由級(jí)別1中的好奇心,通向級(jí)別2的更快速的探索。

這種技術(shù)在超級(jí)馬里奧模擬器中產(chǎn)生了一些令人鼓舞的結(jié)果。


  拖延智能體:電視問(wèn)題

這種技術(shù)并不完美。一個(gè)已知問(wèn)題是:智能體被環(huán)境中的隨機(jī)元素或嘈雜元素吸引。這鐘情況有時(shí)被稱為“白噪聲”問(wèn)題或“電視問(wèn)題”; 亦被稱為“拖延”。

為證明這種效果,想象一個(gè)智能體,通過(guò)觀察他看到的像素學(xué)習(xí)在迷宮中導(dǎo)航。

深度強(qiáng)化學(xué)習(xí)中的好奇心

下一狀態(tài)預(yù)測(cè)引起智能體學(xué)習(xí)迷宮成功導(dǎo)航的好奇心(來(lái)源)。

智能體很好的完成了任務(wù);他開(kāi)始尋找未迷宮未被探索的部分,因?yàn)樗心芰υ谔剿鞒浞值牡貐^(qū)做出良好的預(yù)測(cè)(或者說(shuō),他無(wú)法在未開(kāi)發(fā)的地區(qū)做出好的預(yù)測(cè)。)

現(xiàn)在在迷宮的墻上放置一個(gè)“電視”,快速連續(xù)地顯示隨機(jī)選擇的圖像。由于圖像的隨機(jī)來(lái)源,智能體無(wú)法準(zhǔn)確預(yù)測(cè)接下來(lái)會(huì)出現(xiàn)什么圖像。預(yù)測(cè)模型將產(chǎn)生高損失,從而為智能體提供高“內(nèi)在”獎(jiǎng)勵(lì)。最終結(jié)果是智能體傾向于停下看電視,而不是繼續(xù)探索迷宮。

深度強(qiáng)化學(xué)習(xí)中的好奇心

在環(huán)境(來(lái)源)中,當(dāng)智能體面對(duì)電視,或隨機(jī)噪聲來(lái)源時(shí),下一狀態(tài)預(yù)測(cè)引起智能體好奇心最終導(dǎo)致 “拖延”。

用隨機(jī)網(wǎng)絡(luò)蒸餾避免拖延。

OpenAI一些優(yōu)秀的人最近發(fā)表了一篇論文,提出噪音電視問(wèn)題的解決方案,隨機(jī)網(wǎng)絡(luò)蒸餾(RND)探索。

這里的新穎想法是將類似的技術(shù)應(yīng)用于下一狀態(tài)預(yù)測(cè)方法,但是去除對(duì)先前狀態(tài)的依賴性。

深度強(qiáng)化學(xué)習(xí)中的好奇心

下一狀態(tài)預(yù)測(cè) 對(duì)比RND概述(來(lái)源)。

RND不是預(yù)測(cè)下一個(gè)狀態(tài),而是從下一個(gè)狀態(tài)進(jìn)行觀察,并嘗試對(duì)下一個(gè)狀態(tài)進(jìn)行預(yù)測(cè)。這是一個(gè)非常微不足道的預(yù)測(cè),對(duì)嗎?

RND隨機(jī)網(wǎng)絡(luò)目的是采用這個(gè)微小的預(yù)測(cè)任務(wù)并將其轉(zhuǎn)換為硬預(yù)測(cè)任務(wù)。


  使用隨機(jī)網(wǎng)絡(luò)

這是一個(gè)聰明的,但卻反直覺(jué)的解決方案。

想法是,我們使用隨機(jī)初始化的神經(jīng)網(wǎng)絡(luò)將觀察結(jié)果映射到潛在的觀察向量。這個(gè)函數(shù)本身的輸出實(shí)際上并不重要;重要的是我們有一些未知的確定性函數(shù)(一個(gè)隨機(jī)初始化的神經(jīng)網(wǎng)絡(luò))以某種方式轉(zhuǎn)換觀察結(jié)果。

因此,我們的預(yù)測(cè)模型的任務(wù)不是預(yù)測(cè)下一個(gè)狀態(tài),而是預(yù)測(cè)給定觀察狀態(tài)的未知隨機(jī)模型的輸出。我們訓(xùn)練這個(gè)模型使用隨機(jī)網(wǎng)絡(luò)輸出標(biāo)簽。

當(dāng)智能體在熟悉的狀態(tài)中,預(yù)測(cè)模型應(yīng)該很好地預(yù)測(cè)來(lái)自隨機(jī)網(wǎng)絡(luò)的預(yù)期輸出。當(dāng)智能體處于不熟悉狀態(tài)時(shí),預(yù)測(cè)模型將對(duì)隨機(jī)網(wǎng)絡(luò)輸出做出不良預(yù)測(cè)。

通過(guò)這種方式,我們可以定義一個(gè)內(nèi)在的獎(jiǎng)勵(lì)函數(shù),該函數(shù)再次與預(yù)測(cè)模型的損失成比例。

深度強(qiáng)化學(xué)習(xí)中的好奇心

內(nèi)在獎(jiǎng)勵(lì)計(jì)算的概念性概述。僅使用下一狀態(tài)觀察。

這可以被解釋為“新穎性檢測(cè)”方案,其中預(yù)測(cè)模型進(jìn)行新的觀察或不熟悉觀察時(shí),計(jì)算的損失更高。

作者使用MNIST作為這個(gè)想法的概念驗(yàn)證。在這個(gè)實(shí)驗(yàn)中,他們通過(guò)隨機(jī)初始化的神經(jīng)網(wǎng)絡(luò)提供MNIST一類字符。然后,在給定輸入條件下,他們訓(xùn)練并行網(wǎng)絡(luò)預(yù)測(cè)隨機(jī)網(wǎng)絡(luò)的輸入。正如預(yù)期的那樣,當(dāng)目標(biāo)類的訓(xùn)練樣例數(shù)量增加時(shí),他們會(huì)看到并行網(wǎng)絡(luò)對(duì)目標(biāo)類丟失的損失。

數(shù)據(jù)2:MNIST上的新穎性檢測(cè):預(yù)測(cè)器網(wǎng)絡(luò)模仿隨機(jī)初始化的目標(biāo)網(wǎng)絡(luò)。 訓(xùn)練數(shù)據(jù)包括來(lái)自“0”類的不同比例的圖像和目標(biāo)類別。各條曲線表示MSE測(cè)試顯示的針對(duì)目標(biāo)類的訓(xùn)練例數(shù)繪制的目標(biāo)類例(對(duì)數(shù))

深度強(qiáng)化學(xué)習(xí)中的好奇心

研究論文中的MNIST概念驗(yàn)證。

通過(guò)這種方式,當(dāng)智能體看到隨機(jī)噪聲源時(shí),它不會(huì)卡住。它不再試圖預(yù)測(cè)屏幕上不可預(yù)測(cè)的下一幀,而只需要了解這些幀如何被隨機(jī)網(wǎng)絡(luò)轉(zhuǎn)換。


  探索蒙特祖瑪?shù)膹?fù)仇

由于解決方案不好,之前的下一狀態(tài)預(yù)測(cè)好奇心機(jī)制無(wú)法解決蒙特蘇馬的復(fù)仇,但RND似乎已經(jīng)克服了這些問(wèn)題。

由好奇心驅(qū)動(dòng)的智能體探索房間,并學(xué)習(xí)收集鑰匙,以便他們解鎖新房間。

盡管取得了這樣的成功,但智能體只是“偶爾”通過(guò)了級(jí)別1。這是因?yàn)橥ㄟ^(guò)最后一道門完成關(guān)卡,需要嚴(yán)格管理鑰匙使用。需要通過(guò)內(nèi)部狀態(tài)模型(如LSTM)來(lái)克服這一障礙。

因此,雖然RND已經(jīng)讓智能體在得分方面超過(guò)了人類的平均表現(xiàn),但在掌握游戲之前還有很長(zhǎng)的路要走。

這是關(guān)于深度強(qiáng)化學(xué)習(xí)算法實(shí)驗(yàn)一系列帖子的一部分。查看系列中之前的一些帖子:

了解演進(jìn)的策略梯度。

感謝Ludovic Benistant。



想要繼續(xù)查看該篇文章相關(guān)鏈接和參考文獻(xiàn)?

長(zhǎng)按鏈接點(diǎn)擊打開(kāi)或點(diǎn)擊底部【深度強(qiáng)化學(xué)習(xí)中的好奇心】:

https://ai.yanxishe.com/page/TextTranslation/1363


AI研習(xí)社每日更新精彩內(nèi)容,觀看更多精彩內(nèi)容:雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)

五個(gè)很厲害的 CNN 架構(gòu)

深度強(qiáng)化學(xué)習(xí)中的好奇心

用Pytorch做深度學(xué)習(xí)(第一部分)

手把手:用PyTorch實(shí)現(xiàn)圖像分類器(第二部分)


等你來(lái)譯:

對(duì)混亂的數(shù)據(jù)進(jìn)行聚類 

初學(xué)者怎樣使用Keras進(jìn)行遷移學(xué)習(xí) 

強(qiáng)化學(xué)習(xí):通往基于情感的行為系統(tǒng) 

如果你想學(xué)數(shù)據(jù)科學(xué),這 7 類資源千萬(wàn)不能錯(cuò)過(guò)


雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知

深度強(qiáng)化學(xué)習(xí)中的好奇心

分享:
相關(guān)文章

知情人士

AI研習(xí)社(yanxishe.com)譯站頻道,傳播前沿人工智能知識(shí),讓語(yǔ)言不再成為學(xué)習(xí)知識(shí)的門檻。(原雷鋒字幕組)
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)