0
本文作者: skura | 2019-01-31 15:51 | 專(zhuān)題:AAAI 2019 |
雷鋒網(wǎng) AI 科技評(píng)論按,AAAI 系列會(huì)議是為了促進(jìn)人工智能的學(xué)術(shù)研究和交流舉辦的頂級(jí)學(xué)術(shù)會(huì)議。作為第三十三屆 AAAI 會(huì)議,AAAI 2019 又一次刷新了人工智能會(huì)議的記錄,投稿數(shù)量達(dá)到 7,700 篇,錄用率 16.2%。
今年,華為諾亞方舟實(shí)驗(yàn)室埃德蒙頓團(tuán)隊(duì)在 AAAI 2019 有兩篇強(qiáng)化學(xué)習(xí)文章錄用,論文的具體介紹如下:
ACE: An Actor Ensemble Algorithm for Continuous Controlwith Tree Search
地址:https://arxiv.org/abs/1811.02696
本篇文章研究的是機(jī)器人領(lǐng)域里常見(jiàn)的連續(xù)動(dòng)作控制問(wèn)題。對(duì)該問(wèn)題目前最好的強(qiáng)化學(xué)習(xí)算法是 DeepMind 的 Deep Deterministic Policy Gradient(DDPG)。雖然在 DDPG 的文章中該算法是從 Deep Q networks 的靈感引發(fā)出來(lái)的,但是 DDPG 采用的其實(shí)是早期強(qiáng)化學(xué)習(xí)常用的 Actor-Critic 結(jié)構(gòu),整個(gè)學(xué)習(xí)系統(tǒng)由一個(gè)「老師網(wǎng)絡(luò)」(Critic) 和一個(gè)「學(xué)生網(wǎng)絡(luò)」(Actor) 組成。老師網(wǎng)絡(luò)負(fù)責(zé)對(duì)學(xué)生網(wǎng)絡(luò)的輸出進(jìn)行打分。學(xué)生網(wǎng)絡(luò)根據(jù)老師網(wǎng)絡(luò)在貪婪方向選取動(dòng)作并追加隨機(jī)探索。學(xué)生網(wǎng)絡(luò)的學(xué)習(xí)是站在老師網(wǎng)絡(luò)的肩膀上進(jìn)行梯度再上升,使用的是基于鏈?zhǔn)椒▌t的策略梯度方法 (Policy Gradient)。DDPG 實(shí)現(xiàn)的是一個(gè)優(yōu)美的設(shè)計(jì),老師網(wǎng)絡(luò)專(zhuān)注于對(duì)學(xué)生網(wǎng)絡(luò)的打分和考評(píng),學(xué)生網(wǎng)絡(luò)根據(jù)老師網(wǎng)絡(luò)的最新考評(píng)隨時(shí)調(diào)整自己的策略并有一定的探索自由度。
Actor-Critic 的理論和算法主要是在線(xiàn)性?xún)r(jià)值函數(shù)下。DDPG 的主要貢獻(xiàn)是將 Actor-Critic 的架構(gòu)推廣到神經(jīng)網(wǎng)絡(luò)。但是這種推廣也帶來(lái)一個(gè)線(xiàn)性下不存在問(wèn)題:神經(jīng)網(wǎng)絡(luò)的使用導(dǎo)致老師網(wǎng)絡(luò)和學(xué)生網(wǎng)絡(luò)都可能無(wú)法得到全局最優(yōu)解。為了解決 DDPG 的這個(gè)問(wèn)題,我們提出的新算法 ACE 的核心思想是使用 actorensemble 的技術(shù):通過(guò)多個(gè) actor 網(wǎng)絡(luò)對(duì)同一個(gè)狀態(tài)來(lái)提出多個(gè)動(dòng)作,老師網(wǎng)絡(luò)會(huì)根據(jù)他對(duì)這些學(xué)生們的打分經(jīng)驗(yàn)選擇最好的動(dòng)作。為了使得多個(gè)學(xué)生網(wǎng)絡(luò)探索策略空間的不同的區(qū)域,我們把學(xué)生們初始化成不同的權(quán)值。這樣使得老師網(wǎng)絡(luò)有對(duì)探索的全局把握,也能解決 DDPG 只使用一個(gè)學(xué)生網(wǎng)絡(luò)而帶來(lái)的只能學(xué)到局部最優(yōu)策略的問(wèn)題。
因?yàn)槎鄠€(gè)學(xué)生網(wǎng)絡(luò)的存在,我們可以提這樣的問(wèn)題,如果使用學(xué)生 A 的動(dòng)作接著再使用學(xué)生 B 的動(dòng)作會(huì)帶來(lái)怎樣的效果?進(jìn)而,在當(dāng)前時(shí)刻我們?nèi)绾螞Q定未來(lái)使用的學(xué)生序列?這里是一個(gè)典型的規(guī)劃 (Planning) 問(wèn)題:幾個(gè)學(xué)生動(dòng)作鏈成一個(gè)時(shí)間序列,它們導(dǎo)致的效果是需要評(píng)估的。這種評(píng)估過(guò)程展開(kāi)來(lái)是個(gè)樹(shù)狀結(jié)構(gòu),也是 AlphaGo 使用的搜索結(jié)構(gòu)。注意下圍棋的動(dòng)作是離散的,而在連續(xù)動(dòng)作空間里怎么做樹(shù)狀搜索?因而本文的第二個(gè)貢獻(xiàn)就是連續(xù)動(dòng)作空間下的樹(shù)狀搜索方法。為了快速進(jìn)行搜索,樹(shù)的展開(kāi)不是在原始輸入圖像層面,而是在深層網(wǎng)絡(luò)已經(jīng)抽出來(lái)的低維特征空間進(jìn)行的。下圖中的 z 就是該低維特征。在當(dāng)前狀態(tài),也就是相應(yīng)的圖像輸入下,我們?nèi)绻x擇動(dòng)作 a,對(duì)應(yīng)的值函數(shù) Q(s,a) 是多少呢?該樹(shù)的分叉因子是二,代表的是采用兩個(gè) actor networks。展開(kāi)一步 (向右) 代表的是個(gè)預(yù)測(cè)過(guò)程,即預(yù)測(cè)在狀態(tài) s 分別采取兩個(gè) actor networks 提出來(lái)的動(dòng)作導(dǎo)致的下一個(gè)圖像對(duì)應(yīng)的低維特征 (還有獎(jiǎng)賞的預(yù)測(cè),圖中省略)。如此類(lèi)推,在下一步的兩個(gè)低維特征間我們分別再根據(jù)兩個(gè) actor networks 進(jìn)行動(dòng)作選擇,對(duì)應(yīng)的下一步的低維特征就有四個(gè)。由于這種前向的預(yù)測(cè)展開(kāi)過(guò)程是為了能找到最好的前向動(dòng)作序列,我們只需要在意最好的路徑分支。因而在做完樹(shù)的前向展開(kāi),我們就可以找出最好的路徑,沿著展開(kāi)樹(shù)的相反反方向進(jìn)行價(jià)值估計(jì)的回傳(就是強(qiáng)化學(xué)習(xí)中通常所謂 backup)。圖中所示是做兩步搜索的過(guò)程。
圖片來(lái)源:華為諾亞實(shí)驗(yàn)室
在 RoboSchool(基于 Mujoco 的開(kāi)源 RL 環(huán)境)上,我們的算法取得了比 DDPG 更快的學(xué)習(xí)速度和更好的學(xué)習(xí)效果。我們細(xì)致地比較了使用多個(gè)學(xué)生網(wǎng)絡(luò)和樹(shù)狀搜索對(duì)學(xué)習(xí)系統(tǒng)分別帶來(lái)的好處,發(fā)現(xiàn)如果單純使用多個(gè)學(xué)生網(wǎng)絡(luò)或者樹(shù)狀搜索算法的表現(xiàn)都遠(yuǎn)遠(yuǎn)低于兩個(gè)的結(jié)合。下面是在 Ant 和 Walker2d 的比較,藍(lán)色是我們的算法,黑色是 DDPG 的算法。ACE 的細(xì)節(jié)和它在其它 RoboSchool 任務(wù)的性能請(qǐng)看文章。
圖片來(lái)源:華為諾亞實(shí)驗(yàn)室
參考文獻(xiàn):
DDPG paper:Continuous control with deep reinforcement learning, DeepMind, 2015.
QUOTA: The Quantile Option Architecturefor Reinforcement Learning
地址:https://arxiv.org/abs/1811.02073
強(qiáng)化學(xué)習(xí)研究常用的 Atari games 包括了 49 個(gè)對(duì)人類(lèi)玩家比較難的游戲。在這些游戲上的學(xué)習(xí)效率已經(jīng)成為算法的一個(gè)必要的評(píng)測(cè)指標(biāo)。目前在 Atari games 里排在首位的基礎(chǔ)算法是 DeepMind 的 Quantile Regression – Deep Q networks (QR-DQN)。(當(dāng)前整體最優(yōu)的 Rainbow 則是集成了很多算法技術(shù),而原理類(lèi)似 QR-DQN 的 C51 是其中核心的一個(gè)算法。) QR-DQN 是基于 Distribution 的強(qiáng)化學(xué)習(xí)。在這一波「深度強(qiáng)化學(xué)習(xí)」的革命浪潮中,Distribution 強(qiáng)化學(xué)習(xí)是少見(jiàn)的新理論。最早的學(xué)習(xí)價(jià)值函數(shù)的分布的想法在 2010 年左右在線(xiàn)性的架構(gòu)下已經(jīng)有人提出,但是 DeepMind 團(tuán)隊(duì)第一次證明了價(jià)值函數(shù)分布也可以用于強(qiáng)化學(xué)習(xí),即存在價(jià)值函數(shù)分布的 Bellman 方程。這個(gè)理論的重要性在于,在經(jīng)典強(qiáng)化學(xué)習(xí)和動(dòng)態(tài)規(guī)劃中只有最優(yōu)策略函數(shù)存在的理論,現(xiàn)在不僅它本身存在,它的分布函數(shù)也存在。這個(gè)結(jié)果有可能驅(qū)動(dòng)強(qiáng)化學(xué)習(xí)領(lǐng)域向 Distribution 強(qiáng)化學(xué)習(xí)邁進(jìn)。首先,Distribution 強(qiáng)化學(xué)習(xí)能測(cè)量更多的信息。經(jīng)典強(qiáng)化學(xué)習(xí)對(duì)一個(gè)狀態(tài)或者狀態(tài)和動(dòng)作的一個(gè)組合只有對(duì)價(jià)值進(jìn)行均值的估計(jì)。Distribution 強(qiáng)化學(xué)習(xí)測(cè)量的卻不僅僅是均值,而是該狀態(tài)或者狀態(tài)加動(dòng)作的價(jià)值的整個(gè)分布。模型的表達(dá)能力無(wú)疑大大增強(qiáng)了。比如,有了分布,我們不僅可以估計(jì)均值,還可以對(duì)狀態(tài)加動(dòng)作的價(jià)值的方差進(jìn)行估計(jì)從而得到在該時(shí)刻選擇某個(gè)動(dòng)作的信心評(píng)估。
然而,目前 DeepMind 的 Distribution 強(qiáng)化學(xué)習(xí)團(tuán)隊(duì)雖然提出了很好的理論,卻止于「強(qiáng)化學(xué)習(xí)就是均值」的傳統(tǒng)理解。為什么這么說(shuō)呢?QR-DQN 雖然估計(jì)出了狀態(tài)加動(dòng)作的分布,還是只摘取了該分布的均值,然后回到了經(jīng)典強(qiáng)化學(xué)習(xí)用該均值做動(dòng)作選擇的做法。也就是說(shuō),QR-DQN 其實(shí)只是經(jīng)典強(qiáng)化學(xué)習(xí)框架下一種新的均值估計(jì)方法。為了說(shuō)明單純基于均值的方法的缺陷,我們給出了一個(gè)基于均值的強(qiáng)化學(xué)習(xí)會(huì)失敗的一個(gè)反例。包括 DQN 在內(nèi)所有基于均值估計(jì)的強(qiáng)化學(xué)習(xí)方法在該例子中都無(wú)法盡快探索到有價(jià)值的動(dòng)作和狀態(tài)。而本文提出的方法能解決這種極端情況下的快速探索和學(xué)習(xí)。該反例的具體細(xì)節(jié)請(qǐng)看論文。
那么學(xué)了狀態(tài)加動(dòng)作的價(jià)值值函數(shù)分布有沒(méi)有實(shí)際作用呢?應(yīng)該怎么用呢?這個(gè)是本文探討的主要問(wèn)題。我們第一次提出可以通過(guò)使用分布函數(shù)估計(jì)中的不同 quantile 來(lái)做動(dòng)作選擇,而不再是使用均值。超越均值的強(qiáng)化學(xué)習(xí)是本文的亮點(diǎn)。這樣做是因?yàn)椴煌?quantile 代表不同的風(fēng)險(xiǎn),在做策略選擇的過(guò)程中,不同時(shí)候的策略是需要有不同的風(fēng)險(xiǎn)的。大的風(fēng)險(xiǎn)能帶來(lái)大的收益,但是風(fēng)險(xiǎn)也高。小風(fēng)險(xiǎn)的策略相對(duì)安全,但是帶來(lái)收益也小。這種帶不同風(fēng)險(xiǎn)的決策風(fēng)格在關(guān)鍵的時(shí)候會(huì)發(fā)揮作用。
顯然不同的時(shí)刻需要不同風(fēng)險(xiǎn)的決策。為了能自適應(yīng)的選擇風(fēng)險(xiǎn)水平以取得最大的系統(tǒng)收益,我們?cè)O(shè)計(jì)了分層 (hierarchical) 的決策框架。上層的決策用 Deep Q networks(DQN) 來(lái)實(shí)現(xiàn)宏觀(guān)決策,以選擇用哪種風(fēng)險(xiǎn)的動(dòng)作選擇。下層決策使用多個(gè)動(dòng)作選擇網(wǎng)絡(luò),每個(gè)網(wǎng)絡(luò)代表動(dòng)作價(jià)值函數(shù)的一個(gè) Quantile。在 Atari 上我們的算法 QUOTA 與 QR-DQN 比較的結(jié)果是,在大部分游戲上都優(yōu)于 QR-DQN(相同的學(xué)習(xí)時(shí)間分?jǐn)?shù)更高)。值得注意的是,我們算法取得領(lǐng)先優(yōu)勢(shì)的游戲恰恰是 Atari games 比較難的游戲 (讀者可以參看 DQN 在 Nature 雜志上的文章,對(duì)比 DQN 的基線(xiàn)結(jié)果。
圖片來(lái)源:華為諾亞實(shí)驗(yàn)室
我們的方法不僅適合離散動(dòng)作控制,同樣適用于連續(xù)動(dòng)作控制。我們?cè)?DDPG 中增加了多個(gè) actor,每個(gè) actor 是根據(jù)某個(gè) quantile 的值函數(shù)進(jìn)行 (貪婪) 動(dòng)作選擇。這樣 Critic 就可以對(duì)不同的 actor 網(wǎng)絡(luò)進(jìn)行評(píng)價(jià)。在 RoboSchool 幾組仿真機(jī)器人的控制問(wèn)題上,QUOTA 在大部分問(wèn)題里都優(yōu)于 DDPG。詳細(xì)的結(jié)果請(qǐng)看論文。
圖片來(lái)源:華為諾亞實(shí)驗(yàn)室
最后,一個(gè)有意思的現(xiàn)象是實(shí)驗(yàn)結(jié)果說(shuō)明了不同的時(shí)間點(diǎn)上所需要的風(fēng)險(xiǎn)策略確實(shí)是不一樣的。下圖顯示的橫軸是學(xué)習(xí)時(shí)間 (也就是已經(jīng)見(jiàn)過(guò)的樣本的個(gè)數(shù)),縱軸是顯示選擇每個(gè)風(fēng)險(xiǎn)策略的頻率。顏色越深表示在該時(shí)刻選擇該風(fēng)險(xiǎn)策略的頻率越高。
圖片來(lái)源:華為諾亞實(shí)驗(yàn)室
參考文獻(xiàn):
DQN Nature paper: Human-levelcontrol through deep reinforcement learning, DeepMind 2015.
QR-DQN paper: Distributional ReinforcementLearning with Quantile Regression, DeepMind, 2017.
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。
本專(zhuān)題其他文章