0
本文作者: 黃善清 | 2019-02-18 18:26 |
雷鋒網(wǎng) AI 科技評論按:近日,谷歌在官方博客上開源了強化學習深度規(guī)劃網(wǎng)絡 PlaNet,PlaNet 成功解決各種基于圖像的控制任務,最終性能與先進的無模型智能體相比,在數(shù)據(jù)處理效率方面平均提高了 5000%。雷鋒網(wǎng) AI 科技評論對此進行編譯如下。
針對人工智能體如何隨著時間的推移改善自身決策機制的研究,當下用得最多的方法是強化學習。技術實現(xiàn)上,智能體會在選擇動作(如馬達命令)的過程中觀察來自知覺輸入的流信息(如相機圖像),有時還會接收到實現(xiàn)指定目標的獎勵。這種無模型的強化學習方法可以直接預測經(jīng)過知覺觀察后的行為,使 DeepMind 的 DQN 能夠玩 Atari 游戲以及使用其他智能體來操控機器人。然而,這種具有「黑箱」性質的方法往往需要數(shù)周的模擬交互,經(jīng)過反復的試驗與試錯才能完成學習,由此限制了在現(xiàn)實中的應用。
與此相對的是,基于模型的強化學習試圖讓智能體習得現(xiàn)實世界的日常運行規(guī)律。并非將觀察結果直接轉化為行動,這種方法允許智能體明確提前做出計劃,通過「想象」長期回報從而更謹慎地采取行動。這種基于模型的強化學習方法實際上已取得了實質性成功,最著名如 AlphaGo,能在熟知規(guī)則的游戲虛擬板上進行移動操控。如果要將方法擴大至未知環(huán)境中進行運用(例如操控僅有像素作為輸入的機器人),智能體必須懂得自己從經(jīng)驗中習得規(guī)則。只有實現(xiàn)了這種動態(tài)模型,我們原則上才有可能進行更高效與自然的多任務學習。創(chuàng)建出足夠準確用于進行規(guī)劃的模型,一直是強化學習的長期目標。
為了讓該難點早日取得突破,我們聯(lián)手 DeepMind 推出了深度規(guī)劃網(wǎng)絡(PlaNet)智能體,該智能體僅憑圖像輸入即可習得關于世界的模型,有效擴大模型的規(guī)劃范圍。PlaNet 成功解決各種基于圖像的控制任務,最終性能與先進的無模型智能體相比,在數(shù)據(jù)處理效率方面平均提高了 5000%。我們在社區(qū)開源了相關代碼:
開源網(wǎng)址:https://github.com/google-research/planet
PlaNet 的工作原理
簡單來說,PlaNet 能在給定圖像輸入的情況下習得動態(tài)模型,并通過它高效吸收新的經(jīng)驗。與過去基于圖像進行規(guī)劃的方法相比,我們依靠的是隱藏或潛在狀態(tài)的緊湊序列。之所以被稱作潛在動態(tài)模型,是因為它不再是從一個圖像到一個圖像來進行直接預測,而是先預測未來的潛在狀態(tài),然后再從相應的潛在狀態(tài)中生成每一個步驟的圖像與獎勵。通過這種方式壓縮圖像,智能體將能自動習得更多抽象表示,比如物體的位置和速度,無需全程生成圖像也能對未來的狀態(tài)進行預測。
潛在動態(tài)學習模型:在潛在動態(tài)學習模型中,輸入圖像的信息將通過編碼器網(wǎng)絡(灰色梯形)集成到隱藏狀態(tài)(綠色)中。然后隱藏狀態(tài)再向前映射以預測未來的圖像(藍色梯形)與獎勵(藍色矩形)。
為了讓大家準確把握潛在動態(tài)學習模型,我們向大家推介:
循環(huán)狀態(tài)空間模型(A Recurrent State Space Model):兼具確定性與隨機性因素的潛在動態(tài)學習模型,可以在牢記過程諸多信息的情況下,預測實現(xiàn)魯棒性規(guī)劃所需的各種可能未來。最終的實驗表明,這兩種因素對于高規(guī)劃性能的實現(xiàn)至關重要。
潛在的超調目標(A Latent Overshooting Objective):潛在空間中的一步與多步預測之間被強行達到一致性,我們?yōu)闈撛趧討B(tài)學習模型提煉出用于訓練多步預測的目標。這便產(chǎn)生了一個能夠快速、有效增進長期預測性能的目標,可與任意的潛在序列模型相兼容。
雖然預測未來圖像允許我們對模型進行「傳授」,然而圖像的編碼和解碼(上圖中的梯形)過程有賴于大量運算,這將降低我們的規(guī)劃效率。無論如何,在緊湊的潛在狀態(tài)空間中進行規(guī)劃依然是高效的,因為我們僅需通過預測未來的獎勵而非圖像來評估動作序列。舉個例子,即便場景無法可視化,智能體也能自行想象球的位置以及它與目標的距離將如何因為某些動作而被改變。這也意味著,每次智能體在選擇動作時,可與大批量將近 10,000 個想象動作序列進行對比。最后通過執(zhí)行找到最佳序列的首個動作,我們再據(jù)此重新規(guī)劃下一步。
潛在空間中進行規(guī)劃:為了進行規(guī)劃,我們將過去的圖像(灰色梯形)編碼變?yōu)楫斍暗碾[藏狀態(tài)(綠色)。據(jù)此我們有效預測多個動作序列的未來獎勵。請注意上圖里基于過去圖像的圖像解碼器(藍色梯形)是如何消失的。最后通過執(zhí)行找到最佳序列的首個動作(紅色框)。
與之前關于世界模型(world models)的工作相比,PlaNet 無需任何政策指導即可運作——它純粹通過規(guī)劃來選擇行動,因此可以從實時的模型改進中受益。有關技術細節(jié)可以查看:
PlaNet與無模型方法對比
我們利用連串控制任務上對 PlaNet 的表現(xiàn)進行考察。實驗中這些智能體僅會獲得圖像觀察與獎勵。這些任務涵蓋了各種不同類型的挑戰(zhàn):
cartpole 上升任務,帶有固定攝像頭,因此 cart 可以放心移出視線。智能體必須吸收并記住多個幀的信息。
手指旋轉任務,需要對兩個單獨的對象以及它們之間的交互關系進行預測。
獵豹奔跑任務,難點包括難以準確預測的地面接觸,需要一個可以預測多種可能未來的模型。
杯子任務,球被抓住時只會提供稀疏的獎勵信號,這就意味著需要一個能夠準確預測未來以規(guī)劃精確行動序列的模型。
步行者任務,模擬機器人一開始會躺在地上,必須使它學會站起來并走路。
PlaNet 智能體會接受各種基于圖像的控制任務的訓練。這些任務涵蓋了不同的挑戰(zhàn):部分可觀察性、與地面的接觸、用于接球的稀疏獎勵以及控制具有挑戰(zhàn)性的雙足機器人。
我們是第一個利用學習模型進行基于圖像任務的規(guī)劃,然后結果優(yōu)于無模型方法的工作。下表將 PlaNet 與著名的 A3C 智能體和 D4PG 智能體進行了對比,兩者的結合正好代表了無模型強化學習方法的最新進展?;€的編號均取自 DeepMind Control Suite。最終結果顯示,PlaNet 在所有任務上的表現(xiàn)都明顯優(yōu)于 A3C,并接近 D4PG 的最終性能,在與環(huán)境的交互頻次上平均減少了 5000%。
搞定所有任務的萬能智能體(One Agent)
此外,我們還訓練了用于解決所有六項任務的 PlaNet 萬能智能體。該智能體在不指定任務目標的情況下被隨機放置至不同環(huán)境中,需要靠自己從圖像觀察中來推斷出任務。在不更改超參數(shù)的情況下,多任務智能體達到與萬能智能體同樣的平均性能水平。萬能智能體雖然在 cartpole 上升任務中學習速度較緩慢,然而在需要自行進行更多探索、更具有挑戰(zhàn)性的步行者任務上表現(xiàn)出更高的學習能力與性能水平。
PlaNet 智能體在多個任務上進行訓練的預測視頻。經(jīng)過訓練的智能體收集信息過程展示如上,下方是 open-loop 幻覺智能體。萬能智能體將前 5 幀視為上下文語境來推斷任務和狀態(tài),并在給定一系列動作的情況下準確預測往后的 50 個步驟。
結論
我們的研究結果展示了用來建立自主強化學習智能體的動態(tài)學習模型的前景。我們建議往后的研究可以將重點放在如何使其通過更高難度的任務來習得更精確的動態(tài)學習模型,比如在 3D 環(huán)境和現(xiàn)實世界中的機器人任務。一個可能該研究進一步取得突破的因素是 TPU 處理能力。我們對基于模型的強化學習方法在開源后的可能性感到異常興奮,其中可能受惠的領域包括多任務學習、分層規(guī)劃和通過不確定性進行估計的主動探索任務等。
via https://ai.googleblog.com/2019/02/introducing-planet-deep-planning.html
雷鋒網(wǎng) AI 科技評論
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉載。詳情見轉載須知。