華為 AAAI 2019 入選論文出爐，兩篇論文都是強(qiáng)化學(xué)習(xí)相關(guān)

本文作者： skura

2019-01-31 15:51

專(zhuān)題：AAAI 2019

導(dǎo)語(yǔ)：新鮮出爐的論文具體介紹~

雷鋒網(wǎng) AI 科技評(píng)論按，AAAI 系列會(huì)議是為了促進(jìn)人工智能的學(xué)術(shù)研究和交流舉辦的頂級(jí)學(xué)術(shù)會(huì)議。作為第三十三屆 AAAI 會(huì)議，AAAI 2019 又一次刷新了人工智能會(huì)議的記錄，投稿數(shù)量達(dá)到 7,700 篇，錄用率 16.2%。

今年，華為諾亞方舟實(shí)驗(yàn)室埃德蒙頓團(tuán)隊(duì)在 AAAI 2019 有兩篇強(qiáng)化學(xué)習(xí)文章錄用，論文的具體介紹如下：

ACE: An Actor Ensemble Algorithm for Continuous Controlwith Tree Search

地址：https://arxiv.org/abs/1811.02696

本篇文章研究的是機(jī)器人領(lǐng)域里常見(jiàn)的連續(xù)動(dòng)作控制問(wèn)題。對(duì)該問(wèn)題目前最好的強(qiáng)化學(xué)習(xí)算法是 DeepMind 的 Deep Deterministic Policy Gradient(DDPG)。雖然在 DDPG 的文章中該算法是從 Deep Q networks 的靈感引發(fā)出來(lái)的，但是 DDPG 采用的其實(shí)是早期強(qiáng)化學(xué)習(xí)常用的 Actor-Critic 結(jié)構(gòu)，整個(gè)學(xué)習(xí)系統(tǒng)由一個(gè)「老師網(wǎng)絡(luò)」(Critic) 和一個(gè)「學(xué)生網(wǎng)絡(luò)」(Actor) 組成。老師網(wǎng)絡(luò)負(fù)責(zé)對(duì)學(xué)生網(wǎng)絡(luò)的輸出進(jìn)行打分。學(xué)生網(wǎng)絡(luò)根據(jù)老師網(wǎng)絡(luò)在貪婪方向選取動(dòng)作并追加隨機(jī)探索。學(xué)生網(wǎng)絡(luò)的學(xué)習(xí)是站在老師網(wǎng)絡(luò)的肩膀上進(jìn)行梯度再上升，使用的是基于鏈?zhǔn)椒▌t的策略梯度方法 (Policy Gradient)。DDPG 實(shí)現(xiàn)的是一個(gè)優(yōu)美的設(shè)計(jì)，老師網(wǎng)絡(luò)專(zhuān)注于對(duì)學(xué)生網(wǎng)絡(luò)的打分和考評(píng)，學(xué)生網(wǎng)絡(luò)根據(jù)老師網(wǎng)絡(luò)的最新考評(píng)隨時(shí)調(diào)整自己的策略并有一定的探索自由度。

Actor-Critic 的理論和算法主要是在線(xiàn)性?xún)r(jià)值函數(shù)下。DDPG 的主要貢獻(xiàn)是將 Actor-Critic 的架構(gòu)推廣到神經(jīng)網(wǎng)絡(luò)。但是這種推廣也帶來(lái)一個(gè)線(xiàn)性下不存在問(wèn)題:神經(jīng)網(wǎng)絡(luò)的使用導(dǎo)致老師網(wǎng)絡(luò)和學(xué)生網(wǎng)絡(luò)都可能無(wú)法得到全局最優(yōu)解。為了解決 DDPG 的這個(gè)問(wèn)題，我們提出的新算法 ACE 的核心思想是使用 actorensemble 的技術(shù)：通過(guò)多個(gè) actor 網(wǎng)絡(luò)對(duì)同一個(gè)狀態(tài)來(lái)提出多個(gè)動(dòng)作，老師網(wǎng)絡(luò)會(huì)根據(jù)他對(duì)這些學(xué)生們的打分經(jīng)驗(yàn)選擇最好的動(dòng)作。為了使得多個(gè)學(xué)生網(wǎng)絡(luò)探索策略空間的不同的區(qū)域，我們把學(xué)生們初始化成不同的權(quán)值。這樣使得老師網(wǎng)絡(luò)有對(duì)探索的全局把握，也能解決 DDPG 只使用一個(gè)學(xué)生網(wǎng)絡(luò)而帶來(lái)的只能學(xué)到局部最優(yōu)策略的問(wèn)題。

因?yàn)槎鄠€(gè)學(xué)生網(wǎng)絡(luò)的存在，我們可以提這樣的問(wèn)題，如果使用學(xué)生 A 的動(dòng)作接著再使用學(xué)生 B 的動(dòng)作會(huì)帶來(lái)怎樣的效果？進(jìn)而，在當(dāng)前時(shí)刻我們?nèi)绾螞Q定未來(lái)使用的學(xué)生序列？這里是一個(gè)典型的規(guī)劃 (Planning) 問(wèn)題：幾個(gè)學(xué)生動(dòng)作鏈成一個(gè)時(shí)間序列，它們導(dǎo)致的效果是需要評(píng)估的。這種評(píng)估過(guò)程展開(kāi)來(lái)是個(gè)樹(shù)狀結(jié)構(gòu)，也是 AlphaGo 使用的搜索結(jié)構(gòu)。注意下圍棋的動(dòng)作是離散的，而在連續(xù)動(dòng)作空間里怎么做樹(shù)狀搜索？因而本文的第二個(gè)貢獻(xiàn)就是連續(xù)動(dòng)作空間下的樹(shù)狀搜索方法。為了快速進(jìn)行搜索，樹(shù)的展開(kāi)不是在原始輸入圖像層面，而是在深層網(wǎng)絡(luò)已經(jīng)抽出來(lái)的低維特征空間進(jìn)行的。下圖中的 z 就是該低維特征。在當(dāng)前狀態(tài)，也就是相應(yīng)的圖像輸入下，我們?nèi)绻x擇動(dòng)作 a，對(duì)應(yīng)的值函數(shù) Q(s,a) 是多少呢？該樹(shù)的分叉因子是二，代表的是采用兩個(gè) actor networks。展開(kāi)一步 (向右) 代表的是個(gè)預(yù)測(cè)過(guò)程，即預(yù)測(cè)在狀態(tài) s 分別采取兩個(gè) actor networks 提出來(lái)的動(dòng)作導(dǎo)致的下一個(gè)圖像對(duì)應(yīng)的低維特征 (還有獎(jiǎng)賞的預(yù)測(cè)，圖中省略)。如此類(lèi)推，在下一步的兩個(gè)低維特征間我們分別再根據(jù)兩個(gè) actor networks 進(jìn)行動(dòng)作選擇，對(duì)應(yīng)的下一步的低維特征就有四個(gè)。由于這種前向的預(yù)測(cè)展開(kāi)過(guò)程是為了能找到最好的前向動(dòng)作序列，我們只需要在意最好的路徑分支。因而在做完樹(shù)的前向展開(kāi)，我們就可以找出最好的路徑，沿著展開(kāi)樹(shù)的相反反方向進(jìn)行價(jià)值估計(jì)的回傳（就是強(qiáng)化學(xué)習(xí)中通常所謂 backup）。圖中所示是做兩步搜索的過(guò)程。

華為 AAAI 2019 入選論文出爐，兩篇論文都是強(qiáng)化學(xué)習(xí)相關(guān)

圖片來(lái)源：華為諾亞實(shí)驗(yàn)室

在 RoboSchool（基于 Mujoco 的開(kāi)源 RL 環(huán)境）上，我們的算法取得了比 DDPG 更快的學(xué)習(xí)速度和更好的學(xué)習(xí)效果。我們細(xì)致地比較了使用多個(gè)學(xué)生網(wǎng)絡(luò)和樹(shù)狀搜索對(duì)學(xué)習(xí)系統(tǒng)分別帶來(lái)的好處，發(fā)現(xiàn)如果單純使用多個(gè)學(xué)生網(wǎng)絡(luò)或者樹(shù)狀搜索算法的表現(xiàn)都遠(yuǎn)遠(yuǎn)低于兩個(gè)的結(jié)合。下面是在 Ant 和 Walker2d 的比較，藍(lán)色是我們的算法，黑色是 DDPG 的算法。ACE 的細(xì)節(jié)和它在其它 RoboSchool 任務(wù)的性能請(qǐng)看文章。

華為 AAAI 2019 入選論文出爐，兩篇論文都是強(qiáng)化學(xué)習(xí)相關(guān)

圖片來(lái)源：華為諾亞實(shí)驗(yàn)室

參考文獻(xiàn)：

DDPG paper：Continuous control with deep reinforcement learning, DeepMind, 2015.

QUOTA: The Quantile Option Architecturefor Reinforcement Learning

地址：https://arxiv.org/abs/1811.02073

強(qiáng)化學(xué)習(xí)研究常用的 Atari games 包括了 49 個(gè)對(duì)人類(lèi)玩家比較難的游戲。在這些游戲上的學(xué)習(xí)效率已經(jīng)成為算法的一個(gè)必要的評(píng)測(cè)指標(biāo)。目前在 Atari games 里排在首位的基礎(chǔ)算法是 DeepMind 的 Quantile Regression – Deep Q networks (QR-DQN)。(當(dāng)前整體最優(yōu)的 Rainbow 則是集成了很多算法技術(shù)，而原理類(lèi)似 QR-DQN 的 C51 是其中核心的一個(gè)算法。) QR-DQN 是基于 Distribution 的強(qiáng)化學(xué)習(xí)。在這一波「深度強(qiáng)化學(xué)習(xí)」的革命浪潮中，Distribution 強(qiáng)化學(xué)習(xí)是少見(jiàn)的新理論。最早的學(xué)習(xí)價(jià)值函數(shù)的分布的想法在 2010 年左右在線(xiàn)性的架構(gòu)下已經(jīng)有人提出，但是 DeepMind 團(tuán)隊(duì)第一次證明了價(jià)值函數(shù)分布也可以用于強(qiáng)化學(xué)習(xí)，即存在價(jià)值函數(shù)分布的 Bellman 方程。這個(gè)理論的重要性在于，在經(jīng)典強(qiáng)化學(xué)習(xí)和動(dòng)態(tài)規(guī)劃中只有最優(yōu)策略函數(shù)存在的理論，現(xiàn)在不僅它本身存在，它的分布函數(shù)也存在。這個(gè)結(jié)果有可能驅(qū)動(dòng)強(qiáng)化學(xué)習(xí)領(lǐng)域向 Distribution 強(qiáng)化學(xué)習(xí)邁進(jìn)。首先，Distribution 強(qiáng)化學(xué)習(xí)能測(cè)量更多的信息。經(jīng)典強(qiáng)化學(xué)習(xí)對(duì)一個(gè)狀態(tài)或者狀態(tài)和動(dòng)作的一個(gè)組合只有對(duì)價(jià)值進(jìn)行均值的估計(jì)。Distribution 強(qiáng)化學(xué)習(xí)測(cè)量的卻不僅僅是均值，而是該狀態(tài)或者狀態(tài)加動(dòng)作的價(jià)值的整個(gè)分布。模型的表達(dá)能力無(wú)疑大大增強(qiáng)了。比如，有了分布，我們不僅可以估計(jì)均值，還可以對(duì)狀態(tài)加動(dòng)作的價(jià)值的方差進(jìn)行估計(jì)從而得到在該時(shí)刻選擇某個(gè)動(dòng)作的信心評(píng)估。

然而，目前 DeepMind 的 Distribution 強(qiáng)化學(xué)習(xí)團(tuán)隊(duì)雖然提出了很好的理論，卻止于「強(qiáng)化學(xué)習(xí)就是均值」的傳統(tǒng)理解。為什么這么說(shuō)呢？QR-DQN 雖然估計(jì)出了狀態(tài)加動(dòng)作的分布，還是只摘取了該分布的均值，然后回到了經(jīng)典強(qiáng)化學(xué)習(xí)用該均值做動(dòng)作選擇的做法。也就是說(shuō)，QR-DQN 其實(shí)只是經(jīng)典強(qiáng)化學(xué)習(xí)框架下一種新的均值估計(jì)方法。為了說(shuō)明單純基于均值的方法的缺陷，我們給出了一個(gè)基于均值的強(qiáng)化學(xué)習(xí)會(huì)失敗的一個(gè)反例。包括 DQN 在內(nèi)所有基于均值估計(jì)的強(qiáng)化學(xué)習(xí)方法在該例子中都無(wú)法盡快探索到有價(jià)值的動(dòng)作和狀態(tài)。而本文提出的方法能解決這種極端情況下的快速探索和學(xué)習(xí)。該反例的具體細(xì)節(jié)請(qǐng)看論文。

那么學(xué)了狀態(tài)加動(dòng)作的價(jià)值值函數(shù)分布有沒(méi)有實(shí)際作用呢？應(yīng)該怎么用呢？這個(gè)是本文探討的主要問(wèn)題。我們第一次提出可以通過(guò)使用分布函數(shù)估計(jì)中的不同 quantile 來(lái)做動(dòng)作選擇，而不再是使用均值。超越均值的強(qiáng)化學(xué)習(xí)是本文的亮點(diǎn)。這樣做是因?yàn)椴煌?quantile 代表不同的風(fēng)險(xiǎn)，在做策略選擇的過(guò)程中，不同時(shí)候的策略是需要有不同的風(fēng)險(xiǎn)的。大的風(fēng)險(xiǎn)能帶來(lái)大的收益，但是風(fēng)險(xiǎn)也高。小風(fēng)險(xiǎn)的策略相對(duì)安全，但是帶來(lái)收益也小。這種帶不同風(fēng)險(xiǎn)的決策風(fēng)格在關(guān)鍵的時(shí)候會(huì)發(fā)揮作用。

顯然不同的時(shí)刻需要不同風(fēng)險(xiǎn)的決策。為了能自適應(yīng)的選擇風(fēng)險(xiǎn)水平以取得最大的系統(tǒng)收益，我們?cè)O(shè)計(jì)了分層 (hierarchical) 的決策框架。上層的決策用 Deep Q networks(DQN) 來(lái)實(shí)現(xiàn)宏觀(guān)決策，以選擇用哪種風(fēng)險(xiǎn)的動(dòng)作選擇。下層決策使用多個(gè)動(dòng)作選擇網(wǎng)絡(luò)，每個(gè)網(wǎng)絡(luò)代表動(dòng)作價(jià)值函數(shù)的一個(gè) Quantile。在 Atari 上我們的算法 QUOTA 與 QR-DQN 比較的結(jié)果是，在大部分游戲上都優(yōu)于 QR-DQN(相同的學(xué)習(xí)時(shí)間分?jǐn)?shù)更高)。值得注意的是，我們算法取得領(lǐng)先優(yōu)勢(shì)的游戲恰恰是 Atari games 比較難的游戲 (讀者可以參看 DQN 在 Nature 雜志上的文章，對(duì)比 DQN 的基線(xiàn)結(jié)果。

華為 AAAI 2019 入選論文出爐，兩篇論文都是強(qiáng)化學(xué)習(xí)相關(guān)

圖片來(lái)源：華為諾亞實(shí)驗(yàn)室

我們的方法不僅適合離散動(dòng)作控制，同樣適用于連續(xù)動(dòng)作控制。我們?cè)?DDPG 中增加了多個(gè) actor，每個(gè) actor 是根據(jù)某個(gè) quantile 的值函數(shù)進(jìn)行 (貪婪) 動(dòng)作選擇。這樣 Critic 就可以對(duì)不同的 actor 網(wǎng)絡(luò)進(jìn)行評(píng)價(jià)。在 RoboSchool 幾組仿真機(jī)器人的控制問(wèn)題上，QUOTA 在大部分問(wèn)題里都優(yōu)于 DDPG。詳細(xì)的結(jié)果請(qǐng)看論文。

華為 AAAI 2019 入選論文出爐，兩篇論文都是強(qiáng)化學(xué)習(xí)相關(guān)

圖片來(lái)源：華為諾亞實(shí)驗(yàn)室

最后，一個(gè)有意思的現(xiàn)象是實(shí)驗(yàn)結(jié)果說(shuō)明了不同的時(shí)間點(diǎn)上所需要的風(fēng)險(xiǎn)策略確實(shí)是不一樣的。下圖顯示的橫軸是學(xué)習(xí)時(shí)間 (也就是已經(jīng)見(jiàn)過(guò)的樣本的個(gè)數(shù))，縱軸是顯示選擇每個(gè)風(fēng)險(xiǎn)策略的頻率。顏色越深表示在該時(shí)刻選擇該風(fēng)險(xiǎn)策略的頻率越高。

華為 AAAI 2019 入選論文出爐，兩篇論文都是強(qiáng)化學(xué)習(xí)相關(guān)

圖片來(lái)源：華為諾亞實(shí)驗(yàn)室

參考文獻(xiàn)：

DQN Nature paper: Human-levelcontrol through deep reinforcement learning, DeepMind 2015.
QR-DQN paper: Distributional ReinforcementLearning with Quantile Regression, DeepMind, 2017.

雷峰網(wǎng)版權(quán)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。