0
本文作者: 晟煒 | 編輯:郭奕欣 | 2017-04-26 09:54 | 專題:ICLR 2017 |
雷鋒網(wǎng)AI科技評論按:ICLR 2017 于4月24-26日在法國土倫舉行,雷鋒網(wǎng)AI科技評論的編輯們近期也在法國帶來一線報道。期間,雷鋒網(wǎng)也將圍繞會議議程及論文介紹展開一系列的覆蓋和專題報道,敬請期待。
無模型深度增強學習方法在很多模擬領域取得了成功,但將它應用于現(xiàn)實世界的障礙是巨大的采樣復雜度。批策略梯度方法具有穩(wěn)定性的優(yōu)勢,但會帶來高方差,需要巨大的批數(shù)據(jù)。而off-policy的方法如actor-critic和Q-learning雖然采樣效率高,但又帶來偏差。在ICLR 2017會議上,來自劍橋大學的顧世翔(Shixiang Gu)和其他來自谷歌和伯克利的研究者們提出了Q-Prop的方法,將on-policy和off-policy的優(yōu)點結合起來,大大降低了強化學習方法的采樣復雜度。并發(fā)表論文《Q-PROP: SAMPLE-EFFICIENT POLICY GRADIENT WITH AN OFF-POLICY CRITIC》。文中介紹了Q-Prop方法,并通過實驗將其與TRPO,DDPG進行比較。實驗結果顯示Q-Prop具有較高的穩(wěn)定性和采樣效率。這篇論文獲得了oral paper,并于現(xiàn)場進行了演講展示。
在解決高獎勵信號和無監(jiān)督的目標導向序列決策問題時,無模型強化學習被認為是一種前途光明的方法。最近它已被用于大規(guī)模神經(jīng)網(wǎng)絡策略和價值函數(shù),并且在解決很多復雜問題時取得了成功(Mnih et al., 2015; Schulman et al., 2015; Lillicrap et al., 2016; Silver et al., 2016; Gu et al., 2016b; Mnih et al., 2016)。參數(shù)化的深度神經(jīng)網(wǎng)絡將人工操作和策略設計的過程最小化。它能夠將多維輸入,比如圖像,端到端地映射成為具體行為輸出。但是即使如此強大的參數(shù)化設計仍然引入了一些實際的問題。深度強化學習對超參數(shù)的設定比較敏感,通常需要通過對超參數(shù)進行擴展搜索才能找到合適的值。超參數(shù)的缺乏將導致學習結果不穩(wěn)定或者無法收斂。深度強化學習算法的高采樣復雜性使它很難在實際的物理系統(tǒng)上運行。不過最近的一些技術發(fā)展減輕了這方面的問題 (Hasselt, 2010; Mnih et al., 2015; Schulman et al., 2015; 2016)。這些方法在提高穩(wěn)定性和減少采樣復雜度上提供了一些解決方案。
無模型強化學習包括on-policy和off-policy兩種方法。蒙特卡洛(Monte Carlo)梯度算法(Peters & Schaal, 2006; Schulman et al., 2015)是一種流行的on-policy方法。它可以提供無偏差的(或近似無偏差)梯度估計,但同時會導致高的方差。為了解決高方差的梯度估計,研究人員提出了一些方法,然而這些方法都需要大量的采樣來解決多維神經(jīng)網(wǎng)絡策略中梯度估計產(chǎn)生高方差的問題。問題癥結在于這樣的梯度方法只能使用on-plolicy的樣本,這就意味著在每次策略更新參數(shù)之后需要采集大量的on-policy樣本。這就對采集樣本的強度提出了非常高的要求。而像Q-learning (Watkins & Dayan, 1992; Sutton et al., 1999; Mnih et al., 2015; Gu et al., 2016b)和actor-critic(Lever, 2014; Lillicrap et al., 2016)等off-policy方法則可以用off-policy的樣本來替代。它們可以使用其他學習過程產(chǎn)生的樣本。這樣的方法大大提高了采樣的效率。不過并不能保證非線性函數(shù)逼近能夠收斂。實際上收斂和穩(wěn)定性有賴于廣泛的超參數(shù)調優(yōu)所能夠達到的最好結果。
為了使強化學習能夠成為在現(xiàn)實世界中能解決實際問題的工具,研究人員必須開發(fā)出一種既高效又穩(wěn)定的方法。研究人員提出的Q-Prop方法就是結合了on-policy梯度方法的優(yōu)點和off-policy學習高效特點的方法。與之前的要么引入偏差(Sutton et al., 1999; Silver et al., 2014) 要么增加方差(Precup, 2000; Levine & Koltun, 2013; Munos et al., 2016)的off-policy方法不同,Q-Prop能夠在不增加偏差的情況下,降低梯度估計的方差。同時它也與之前需要配合on-policy值函數(shù),基于評價的能降低方差的方法(Schulman et al., 2016)不同,Q-Prop使用off-policy動作值函數(shù)(action-value function)。其核心思想是使用一階泰勒展開作為控制變量,這就使解析梯度項用于評價過程,以及包含殘差蒙特卡洛梯度項。這個方法將策略梯度和actor-critc方法結合起來。它既可以被看做使用off-policy的評價過程來減小策略梯度方法帶來的方差,又被看作使用on-policy蒙特卡洛方法來修正評價梯度方法帶來的偏差。研究人員進一步對控制變量進行理論分析,得出Q-Prop另外兩個變體。這種方法可以很容易地用于策略梯度算法。研究人員展示了Q-Prop在使用GAE(generalized advantage estimation ,廣義優(yōu)勢估計)的TRPO(trust region policy optimization ,信賴區(qū)域策略優(yōu)化算法)過程中帶來的采樣效率的提升,以及在整個連續(xù)控制任務中深度確定策略梯度算法上穩(wěn)定性的提高。
圖1:OpenAI Gym MuJoCo域(Brockman et al., 2016; Duan et al., 2016): (a) Ant, (b) HalfCheetah, (c) Hopper, (d) Humanoid, (e) Reacher, (f) Swimmer, (g) Walker
如圖1所示,研究人員使用MuJoCo模擬器,在OpenAI Gym連續(xù)控制環(huán)境下對Q-Prop和它的變體進行了評估。
圖2a 標準 Q-Prop域各變體的比較;圖2b 在不同批大小情況下,保守Q-Prop與TRPO比較
在Q-Prop各變體和TRPO的比較中可以看出,哪種Q-Prop的變體更加值得信賴。在這一部分,研究人員分析了標準Q-Prop和兩種自適應變體,c-Q-Prop(保守Q-Prop)和a-Q-Prop(積極Q-Prop),并展示了在不同批大小情況下,它們的穩(wěn)定性。圖2a展示了在HalfCheetah-v1域下Q-Prop和其變體與TRPO超參數(shù)的比較結果。其結果與理論一致:保守Q-Prop相對于標準Q-Prop和積極Q-Prop,具有更好的穩(wěn)定性。同時所有的Q-Prop變體相對于TRPO都具有更高的采樣效率。比如保守Q-Prop達到4000平均獎勵的片段數(shù)差不多只有TRPO的十分之一。
圖2b則展示了在不同批大小情況下保守Q-Prop和TRPO的性能差別。由于梯度估計的高方差,TRPO通常需要很大的批容量,比如為了有良好的表現(xiàn),需要25000步或每次更新25個片段。而使用Q-Prop的方法,研究人員只需要每次更新1個片段,從而使用小的批容量,大大提高采樣的效率。實驗結果顯示,與之前方法相比,Q-Prop顯著減小了方差。正如前面提到的,穩(wěn)定性是深度強化學習方法的一大難關,它決定了深度強化學習方法是否能在現(xiàn)實世界使用。
圖3a HalfCheetah-v1域下各算法的比較;圖3b Humanoid-v1域下各算法的比較
接下來研究人員評估了兩個版本的保守Q-Prop方法(使用普通策略梯度的v-c-Q-Prop和使用信賴區(qū)域的TR-c-Q-Prop)與其他無模型算法在HalfCheetah-v1域下進行比較。圖3a展示了c-Q-Prop方法相比TRPO和VPG明顯具有優(yōu)勢。得益于方差的降低,使用普通策略的Q-Prop與TRPO也能取得相近的結果。另一方面,DDPG則顯示了不一致的性能。使用了恰當獎勵標準的DDPG-r0.1取得了比之前的DDPG方法(Duan et al., 2016; Amos et al., 2016)更好的結果。這顯示出DDPG對超參數(shù)設置的敏感性。與DDPG相比,Q-Prop顯示了這方面的穩(wěn)定性。
表1:Q-Prop,TRPO,DDPG實驗結果對比
最后,研究人員將Q-Prop與TRPO,DDPG在跨域條件下進行了評估。當環(huán)境趨于運動時,研究人員希望能取得與Lillicrap et al. (2016)相近的實驗結果。表1總結了實驗結果,包括最好的平均獎勵和收斂需要的片段數(shù)。在采樣復雜度上Q-Prop始終優(yōu)于TRPO。有時,在復雜的域中取得的獎勵甚至超過DDPG。在圖3b中一個值得注意的現(xiàn)象是,在Humanoid-v1域中,Q-Prop相比于TRPO可以持續(xù)提升采樣效率,而這時DDPG無法找到好的結果。在復雜域中的良好表現(xiàn)顯示了穩(wěn)定的深度強化學習算法的重要性:那些需要大量處理超參數(shù)的算法在處理簡單問題時可能取得較好的結果,但遇到復雜的問題它的不穩(wěn)定性就會使這種算法毫無用處。
研究人員展示了Q-Prop,一種結合了可靠性,一致性的策略梯度算法。它使用控制變量提高了off-policy評價的采樣效率,并且可能使on-policy梯度算法具有無偏差的特性。相比于TRPO等策略梯度算法,這種方法大大提高了采樣效率。另一方面,相比于actor-critic算法,在比如處理人形機器人運動方面,它更具優(yōu)勢。研究人員希望這種結合了on-policy蒙特卡洛梯度估計算法和高采樣效率的off-policy評價算法的方法可以使強化學習更加穩(wěn)定和高效,并能更好地用于處理現(xiàn)實世界中的復雜任務。
評價: 這篇論文對強化學習算法做出了學術貢獻。它找到了高方差(低偏差)的梯度估計的策略優(yōu)化方法和低方差(高偏差)的梯度估計off-policy actor-critic方法,比如DDPG之間的結合點。它的基本思想(根據(jù)我的理解,與下面一位評論者相似),我們可以基于off-policy學習,使用控制依賴基線來降低梯度的方差,認為我們在進行梯度計算時對它進行了修正。試驗清楚地顯示出這種方法的優(yōu)勢。它很好地結合了兩種增強學習的趨勢(首要目標就是降低采樣復雜度,在這里尤為顯著)。我相信這項成果絕對值得我們接受。作者同時積極答復評論者,并對大家感興趣的問題在手稿中做了調整。
支持:
使用新穎并且吸引人的算法,對off-policy和on-policy方法很好的貢獻。
在各種控制任務中進行很好的評估。
反對:
有些不好理解,有的地方寫的有些繁雜。
決定:接受(Oral)
打分:7分:很好的論文,接受
評論:基于以下的討論,我提出的第二個問題并不正確,我將分數(shù)從3分改到7分
這篇文章做出了一個迷人的嘗試:將控制依賴基線(控制變量)引入強化學習,雖然帶來了偏差,但又使用修正項將偏差消除。由于強化學習更新和控制依賴基線使修正項的方差很小,所以結果還不錯。
打分:7分:很好的論文,接受
評論:這篇論文將一階泰勒展開作為策略梯度算法的控制變量。根據(jù)理論結果這個算法可以帶來無偏差和低方差,根據(jù)世界結果動態(tài)控制任務顯示這個算法降低了采樣復雜度。
控制變量的使用至關重要,這篇論文是在這個方向上有趣的嘗試。我對這種嘗試不完全肯定,因為這其中有太多的可能性,而理論分析有賴于方差的逼近而不是具體的計算。這就使這樣的嘗試少了一些吸引力。但是,這篇論文實在正確的方向上邁出的一步,值得接受。
打分:8分:在全部入選論文中排名Top 50%,確定接收
評論:這篇文章展示了一種用于強化學習的無模型策略梯度算法,它結合了on-policy和off-policy評估。希望連續(xù)控制能使用這種高效采樣的方法。這種方法在仿真環(huán)境中可以實現(xiàn)低維的連續(xù)控制任務。
這篇論文寫得很好,容易讀懂。文中提供了充足的試驗環(huán)境幫助讀者領會它提出的觀點。雖然評論者并不是這方面的專家,但文中提出的方法仍然很新穎。 Q-Prop估算器看起來是一種通用并且有效的策略學習方法。試驗結果也充分支持它所聲明的對采樣效率的提高。而補充材料中引出的細節(jié)也非常有用。
我喜歡這篇文章,對它也沒有更多的評論。不過,我想在以下兩方面進行討論也許可以增加文章的深度:
1)比較各種方法所產(chǎn)生的計算代價,來代替完成收斂需要的片段數(shù)。
2)討論這種技術的局限性:是否在某些情況下難以收斂。
via openreview
雷峰網(wǎng)版權文章,未經(jīng)授權禁止轉載。詳情見轉載須知。
本專題其他文章