0
雷鋒網(wǎng):喜歡機器學(xué)習(xí)和人工智能,卻發(fā)現(xiàn)埋頭苦練枯燥乏味還殺時間?油管頻道 Arxiv Insights 每周精選,從技術(shù)視角出發(fā),帶你輕松深度學(xué)習(xí)。
翻譯/趙若伽 整理/MY
在強化學(xué)習(xí)的設(shè)置中,為了執(zhí)行一個我們想學(xué)習(xí)的任務(wù),智能體會應(yīng)用一些特征提取方案來從原始數(shù)據(jù)中提取有用信息,然后會有一個策略網(wǎng)絡(luò)用于提取特征。
我們常常覺得強化學(xué)習(xí)很難,而讓它變難的原因是我們使用了稀疏獎勵。智能體需要從反饋中去學(xué)習(xí),然后分辨什么樣的動作序列會導(dǎo)致最終的獎勵,但事實上我們的反饋信號很稀疏,以至于智能體無法從原始數(shù)據(jù)中提取有用特征。
當(dāng)前強化學(xué)習(xí)中有一個主流的趨勢,即放大從游戲環(huán)境中得到的稀疏的外部獎勵信號,并通過額外的反饋信號幫助智能體學(xué)習(xí)。我們希望建立一個可監(jiān)督設(shè)置并設(shè)計非常密集的額外的反饋信號,一旦智能體在任務(wù)中成功,它可能將會得到知識。
本文希望通過對一些文章的闡述和分析來為大家提供一些現(xiàn)有研究通用的、方向性的觀點。
一. 設(shè)置輔助任務(wù)
第一個觀點是輔助任務(wù)會幫忙訓(xùn)練你的智能體,這些簡單目標(biāo)的疊加可以顯著提高我們智能體的學(xué)習(xí)效率。我們來一起看一篇來自google deepmind的文章,叫做強化學(xué)習(xí)結(jié)合無監(jiān)督學(xué)習(xí)輔助任務(wù)。
這篇文章建立了一個3D迷宮,智能體在迷宮里行走,它需要找到具體的對象,一旦它遇到這些對象之一就會得到獎勵。作者們替換掉了這些很稀疏的獎勵,并用三個額外獎勵信號來放大整個訓(xùn)練過程。
第一個任務(wù)是像素控制。智能體需要學(xué)習(xí)一個獨立策略去最大化改變輸入圖片的某些地方的像素值,在他們建議的實現(xiàn)方法中輸入的幀被分成少量的柵格,每個柵格計算一個視覺變化分數(shù),然后策略被訓(xùn)練成最大化所有柵格的總視覺變化。像素控制任務(wù)的加入在三維環(huán)境中是很有效的。
第二個輔助任務(wù)是獎勵預(yù)測。智能體被給與在片段序列(episode sequence)中三個最近的幀,他的任務(wù)是預(yù)測下一步會給出的獎勵。
第三個任務(wù)是估值函數(shù)回放。通過預(yù)測,智能體將會得到在這一時刻往前的未來獎勵的總和。
二. 好奇驅(qū)使探索
第二個觀點是好奇驅(qū)使探索,通俗的觀點是你希望以某種方式獎勵你的智能體,在它學(xué)習(xí)了一件探索環(huán)境后發(fā)現(xiàn)的新事情之后。
在大多數(shù)默認的強化學(xué)習(xí)的算法里,人們會用ε-貪婪探索的方法,也就是說在大部分的情況下你的智能體會根據(jù)他現(xiàn)有的策略選擇最好最有可能的方向,在小概率 ε 的情況下智能體將會執(zhí)行一個隨機動作,并且隨著訓(xùn)練的進展,這個隨機動作會逐漸減少直到完全遵循你的決策。也正是因此,你的智能體可能不會為了尋找更好的策略而完全探索整個環(huán)境。
在強化學(xué)習(xí)中我們會召回一個前向模型,這意味著你的智能體將會看到具體的輸入幀,它將會使用某種特征提取器并把輸入數(shù)據(jù)編碼為某種隱藏的表示法,然后你就有了一個前向模型。如果是一個全新的位置,智能體的向前模型可能不會那么精確,你可以將這些預(yù)測誤差作為一個除了稀疏獎勵之外的額外反饋信號,來鼓勵你的智能體去探索狀態(tài)空間未知的區(qū)域。
下面我想介紹的一篇文章,作者使用了一個很好的例子來展示intrinsic curiosity module(ICM)。
我們都知道給微風(fēng)建立模型是很難的,更不用說預(yù)測每一片葉子的像素變化。樹葉的運動不能被智能體的動作控制,對于特征編碼器來說沒有激勵去引導(dǎo)它為那些樹葉建模,這意味著對像素空間的預(yù)測誤差將會一直很高,智能體將會對葉子一直保持著好奇,這就是論文里 ICM 模型的架構(gòu)。
原始的環(huán)境狀態(tài) s 和 s+1 首先被編碼進特征空間,接下來是兩個模型:一個是前向模型,這個模型為了下一個狀態(tài)去預(yù)測特征通過被策略選擇的動作,接下來有一個反轉(zhuǎn)模型來預(yù)測應(yīng)該選擇什么動作才能從狀態(tài)s到下一個特征狀態(tài) s+1。最后 s+1 的特征編碼和通過前向模型給予的 s+1 的預(yù)測特征編碼進行比較,比較出來的結(jié)果我們可以稱它為智能體對發(fā)生的事情的驚訝程度,被加到獎勵信號里為了訓(xùn)練智能體。
這是一個很好的觀點,我們的智能體應(yīng)該去探索未知區(qū)域并對世界保持好奇心。
三. 標(biāo)準(zhǔn)獎勵設(shè)置
第三個觀點的標(biāo)準(zhǔn)獎勵設(shè)置,讓智能體從不成功的片段中學(xué)習(xí)。我們可以看 open AI最近發(fā)的一篇文章,叫作后經(jīng)驗回放,或者縮寫 HER。
想象你要訓(xùn)練一個機械手來推動桌子上的一個物體到達位置 A,但是由于策略沒有訓(xùn)練的很好,物體結(jié)束在 B,按目標(biāo)來看是不成功的嘗試,而HER模型做的不是僅僅說“嘿!你做錯了,你得到了一個值為 0 的獎勵”,而是告訴智能體“真棒!做的好,這是你如何移動物體到位置 B ”,基本上你已在一個稀疏獎勵的問題中建立了非常密集的獎勵設(shè)置來讓智能體學(xué)習(xí)。
我們以一個普通的離線學(xué)習(xí)算法和為了采樣目標(biāo)位置的策略為開始,但是接下來我們也采樣了一系列被改變的額外的目標(biāo)。這個算法最好的一點是在訓(xùn)練之后你已經(jīng)有了一個策略網(wǎng)絡(luò),所以如果你希望移動物體到一個新的位置,你不需要重新訓(xùn)練所有策略,只需要改變目標(biāo)向量,你的策略會做出正確的事情。這篇論文的觀點很簡單,但是解決了我們學(xué)習(xí)中一個非?;A(chǔ)的問題,就是我們希望最大化地使用我們有的每一個經(jīng)驗。
我們剛剛分享了一些非常不同的方式去增加稀疏獎勵信號,通過密集的反饋我認為在第一步趨向于真正的無監(jiān)督學(xué)習(xí)。但是在強化學(xué)習(xí)中還是有很多挑戰(zhàn)性的問題,例如像泛化遷移學(xué)習(xí)、物理學(xué)中的因果關(guān)系等,這些問題依舊作為挑戰(zhàn)而存在。與此同時,我們也需要更好的平衡人工智能的發(fā)展與社會發(fā)展之間的關(guān)系,創(chuàng)造一個每個人都能從人工智能的發(fā)展中獲益的事業(yè)。
視頻鏈接:https://www.youtube.com/watch?v=0Ey02HT_1Ho&t=364s
雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。