深度強(qiáng)化學(xué)習(xí)中的好奇心

本文作者： AI研習(xí)社-譯站

2018-12-26 10:27

導(dǎo)語(yǔ)：早期一個(gè)很難的深度強(qiáng)化學(xué)習(xí)任務(wù)，蒙特祖馬的復(fù)仇，隨著隨機(jī)網(wǎng)絡(luò)蒸餾探索取得了重大突破

本文為 AI 研習(xí)社編譯的技術(shù)博客，原標(biāo)題：
Curiosity in Deep Reinforcement Learning
作者 | Michael Klear
翻譯 | 凝決2018
校對(duì) | 醬番梨整理 | 菠蘿妹
原文鏈接：
https://towardsdatascience.com/curiosity-in-deep-reinforcement-learning-understanding-random-network-distillation-747b322e2403

深度強(qiáng)化學(xué)習(xí)中的好奇心

深度強(qiáng)化學(xué)習(xí)中的好奇心

早期一個(gè)很難的深度強(qiáng)化學(xué)習(xí)任務(wù)，蒙特祖馬的復(fù)仇，隨著隨機(jī)網(wǎng)絡(luò)蒸餾探索取得了重大突破（來(lái)源：Parker Brothers Blog）。

Atari游戲是流行的深度強(qiáng)化學(xué)習(xí)（RL）算法基準(zhǔn)任務(wù)。Atari很好地平衡了簡(jiǎn)單性和復(fù)雜性：一些游戲（例如Pong），簡(jiǎn)單到可以使用像一般策略梯度這樣的基本算法來(lái)解決；而其他游戲則足夠復(fù)雜，甚至可以難倒最先進(jìn)的算法。

在最簡(jiǎn)單和最復(fù)雜游戲之間的一系列有用任務(wù)，已經(jīng)成為很多深度強(qiáng)化學(xué)習(xí)研究論文的核心。

深度強(qiáng)化學(xué)習(xí)中的好奇心

來(lái)自O(shè)penAI博客。

之前“未解決的”Atari游戲，蒙特祖瑪?shù)膹?fù)仇，最近被一種算法（在某種程度上）解決了，該算法能夠在得分方面超越人類表現(xiàn)。研究人員能夠鼓勵(lì)智能體探索級(jí)別1的不同房間，這是在此游戲中贏得積分的好方法。

通過(guò)好奇心探索

人類玩冒險(xiǎn)游戲（如蒙特祖瑪?shù)膹?fù)仇）時(shí)，有一種內(nèi)在的探索欲望。游戲設(shè)計(jì)師構(gòu)建此類游戲鼓勵(lì)這種行為，通常要求玩家進(jìn)行探索后才能繼續(xù)游戲。這可以說(shuō)是冒險(xiǎn)游戲有趣的原因（問(wèn)問(wèn)任何一個(gè)喜歡玩《天際》的人。）

深度強(qiáng)化學(xué)習(xí)中的好奇心

像《蒙特祖瑪?shù)膹?fù)仇》或《天際》這樣的冒險(xiǎn)游戲充分利用了玩家的自然探索欲望，使探索成為完成游戲任務(wù)的關(guān)鍵組成部分。

一般的深度強(qiáng)化學(xué)習(xí)算法表現(xiàn)“探索”典型的方式是通過(guò)隨機(jī)策略：從神經(jīng)網(wǎng)絡(luò)提供的動(dòng)作似然分布中隨機(jī)采樣動(dòng)作。其結(jié)果，特別在早期（當(dāng)策略沒(méi)有時(shí)間收斂時(shí)），是明顯的隨機(jī)行動(dòng)選擇。

此種方法在某些情況下有效。例如，Pong的解決方法是隨機(jī)轉(zhuǎn)動(dòng)槳頁(yè)并觀察結(jié)果。幸運(yùn)的話，球偏轉(zhuǎn)可以啟動(dòng)優(yōu)化。

在類似《蒙特祖馬的復(fù)仇》這樣的游戲中，這種方法是行不通的。試想從游戲一開(kāi)始，頭像隨機(jī)左右移動(dòng)、隨機(jī)跳躍，結(jié)果就是陷入熔巖，或者在沒(méi)有獲得積分的情況下直接走進(jìn)敵人。沒(méi)有積分或獎(jiǎng)勵(lì)，算法得不到優(yōu)化的信號(hào)。

深度強(qiáng)化學(xué)習(xí)中的好奇心

所以，你就打算隨機(jī)隨意連枷？祝你好運(yùn)（來(lái)源）。

好奇心

強(qiáng)調(diào)尋找更好的探索方法已經(jīng)有很多次了?；诤闷嫘牡奶剿骺梢员灰暈槿祟愅婕液闷嫘尿?qū)動(dòng)行為的一次嘗試。

但是我們?nèi)绾蝿?chuàng)造一個(gè)好奇智能體呢？

實(shí)現(xiàn)這個(gè)想法有多種方式。其中一種，即使用下一狀態(tài)預(yù)測(cè)，因其簡(jiǎn)單性和可擴(kuò)展性顯得十分有趣。

基本思路是在培養(yǎng)獨(dú)立預(yù)測(cè)模型同時(shí)培養(yǎng)策略模型。該預(yù)測(cè)模型輸入觀察到的當(dāng)前狀態(tài)和所選動(dòng)作，并為下次觀察做出預(yù)測(cè)。

對(duì)于探索充分的軌跡，我們假設(shè)損失很?。ㄒ?yàn)橥ㄟ^(guò)監(jiān)督學(xué)習(xí)，我們不斷培養(yǎng)預(yù)測(cè)模型）；對(duì)于探索不充分的軌跡，我們假設(shè)損失會(huì)很大。

那么，我們可以做的是創(chuàng)建一個(gè)新的獎(jiǎng)勵(lì)函數(shù)（稱為“內(nèi)在獎(jiǎng)勵(lì)”），它提供與預(yù)測(cè)模型的損失成比例的獎(jiǎng)勵(lì)。因此，當(dāng)探索新的軌跡時(shí)，智能體接收到強(qiáng)烈的獎(jiǎng)勵(lì)信號(hào)。

深度強(qiáng)化學(xué)習(xí)中的好奇心

（a）級(jí)別1學(xué)習(xí)探索（b）級(jí)別2更快速的探索

在馬里奧模擬器任務(wù)（源）中使用下一次預(yù)測(cè)，“學(xué)習(xí)探索” 由級(jí)別1中的好奇心，通向級(jí)別2的更快速的探索。

這種技術(shù)在超級(jí)馬里奧模擬器中產(chǎn)生了一些令人鼓舞的結(jié)果。

拖延智能體：電視問(wèn)題

這種技術(shù)并不完美。一個(gè)已知問(wèn)題是：智能體被環(huán)境中的隨機(jī)元素或嘈雜元素吸引。這鐘情況有時(shí)被稱為“白噪聲”問(wèn)題或“電視問(wèn)題”; 亦被稱為“拖延”。

為證明這種效果，想象一個(gè)智能體，通過(guò)觀察他看到的像素學(xué)習(xí)在迷宮中導(dǎo)航。

深度強(qiáng)化學(xué)習(xí)中的好奇心

下一狀態(tài)預(yù)測(cè)引起智能體學(xué)習(xí)迷宮成功導(dǎo)航的好奇心（來(lái)源）。

智能體很好的完成了任務(wù);他開(kāi)始尋找未迷宮未被探索的部分，因?yàn)樗心芰υ谔剿鞒浞值牡貐^(qū)做出良好的預(yù)測(cè)（或者說(shuō)，他無(wú)法在未開(kāi)發(fā)的地區(qū)做出好的預(yù)測(cè)。）

現(xiàn)在在迷宮的墻上放置一個(gè)“電視”，快速連續(xù)地顯示隨機(jī)選擇的圖像。由于圖像的隨機(jī)來(lái)源，智能體無(wú)法準(zhǔn)確預(yù)測(cè)接下來(lái)會(huì)出現(xiàn)什么圖像。預(yù)測(cè)模型將產(chǎn)生高損失，從而為智能體提供高“內(nèi)在”獎(jiǎng)勵(lì)。最終結(jié)果是智能體傾向于停下看電視，而不是繼續(xù)探索迷宮。

深度強(qiáng)化學(xué)習(xí)中的好奇心

在環(huán)境（來(lái)源）中，當(dāng)智能體面對(duì)電視，或隨機(jī)噪聲來(lái)源時(shí)，下一狀態(tài)預(yù)測(cè)引起智能體好奇心最終導(dǎo)致 “拖延”。

用隨機(jī)網(wǎng)絡(luò)蒸餾避免拖延。

OpenAI一些優(yōu)秀的人最近發(fā)表了一篇論文，提出噪音電視問(wèn)題的解決方案，隨機(jī)網(wǎng)絡(luò)蒸餾（RND）探索。

這里的新穎想法是將類似的技術(shù)應(yīng)用于下一狀態(tài)預(yù)測(cè)方法，但是去除對(duì)先前狀態(tài)的依賴性。

深度強(qiáng)化學(xué)習(xí)中的好奇心

下一狀態(tài)預(yù)測(cè) 對(duì)比RND概述（來(lái)源）。

RND不是預(yù)測(cè)下一個(gè)狀態(tài)，而是從下一個(gè)狀態(tài)進(jìn)行觀察，并嘗試對(duì)下一個(gè)狀態(tài)進(jìn)行預(yù)測(cè)。這是一個(gè)非常微不足道的預(yù)測(cè)，對(duì)嗎？

RND隨機(jī)網(wǎng)絡(luò)目的是采用這個(gè)微小的預(yù)測(cè)任務(wù)并將其轉(zhuǎn)換為硬預(yù)測(cè)任務(wù)。

使用隨機(jī)網(wǎng)絡(luò)

這是一個(gè)聰明的，但卻反直覺(jué)的解決方案。

想法是，我們使用隨機(jī)初始化的神經(jīng)網(wǎng)絡(luò)將觀察結(jié)果映射到潛在的觀察向量。這個(gè)函數(shù)本身的輸出實(shí)際上并不重要;重要的是我們有一些未知的確定性函數(shù)（一個(gè)隨機(jī)初始化的神經(jīng)網(wǎng)絡(luò)）以某種方式轉(zhuǎn)換觀察結(jié)果。

因此，我們的預(yù)測(cè)模型的任務(wù)不是預(yù)測(cè)下一個(gè)狀態(tài)，而是預(yù)測(cè)給定觀察狀態(tài)的未知隨機(jī)模型的輸出。我們訓(xùn)練這個(gè)模型使用隨機(jī)網(wǎng)絡(luò)輸出標(biāo)簽。

當(dāng)智能體在熟悉的狀態(tài)中，預(yù)測(cè)模型應(yīng)該很好地預(yù)測(cè)來(lái)自隨機(jī)網(wǎng)絡(luò)的預(yù)期輸出。當(dāng)智能體處于不熟悉狀態(tài)時(shí)，預(yù)測(cè)模型將對(duì)隨機(jī)網(wǎng)絡(luò)輸出做出不良預(yù)測(cè)。

通過(guò)這種方式，我們可以定義一個(gè)內(nèi)在的獎(jiǎng)勵(lì)函數(shù)，該函數(shù)再次與預(yù)測(cè)模型的損失成比例。

深度強(qiáng)化學(xué)習(xí)中的好奇心

內(nèi)在獎(jiǎng)勵(lì)計(jì)算的概念性概述。僅使用下一狀態(tài)觀察。

這可以被解釋為“新穎性檢測(cè)”方案，其中預(yù)測(cè)模型進(jìn)行新的觀察或不熟悉觀察時(shí)，計(jì)算的損失更高。

作者使用MNIST作為這個(gè)想法的概念驗(yàn)證。在這個(gè)實(shí)驗(yàn)中，他們通過(guò)隨機(jī)初始化的神經(jīng)網(wǎng)絡(luò)提供MNIST一類字符。然后，在給定輸入條件下，他們訓(xùn)練并行網(wǎng)絡(luò)預(yù)測(cè)隨機(jī)網(wǎng)絡(luò)的輸入。正如預(yù)期的那樣，當(dāng)目標(biāo)類的訓(xùn)練樣例數(shù)量增加時(shí)，他們會(huì)看到并行網(wǎng)絡(luò)對(duì)目標(biāo)類丟失的損失。

數(shù)據(jù)2：MNIST上的新穎性檢測(cè)：預(yù)測(cè)器網(wǎng)絡(luò)模仿隨機(jī)初始化的目標(biāo)網(wǎng)絡(luò)。訓(xùn)練數(shù)據(jù)包括來(lái)自“0”類的不同比例的圖像和目標(biāo)類別。各條曲線表示MSE測(cè)試顯示的針對(duì)目標(biāo)類的訓(xùn)練例數(shù)繪制的目標(biāo)類例（對(duì)數(shù)）

深度強(qiáng)化學(xué)習(xí)中的好奇心