谷歌新智能體Dreamer將亮相NeurIPS 2019，數(shù)據(jù)效率比前身PlaNet快8個(gè)小時(shí)

本文作者：李雨晨

2019-12-11 08:59

專題：NeurIPS 2019

導(dǎo)語：增強(qiáng)型學(xué)習(xí)智能體Dreamer12月5日消息，來自谷歌大腦，DeepMind以及多倫多大學(xué)的研究人員們近日發(fā)表了一篇名為《夢想控制：通過潛意識的學(xué)習(xí)行為》的新研

在具有挑戰(zhàn)性的環(huán)境中，一些人工智能系統(tǒng)通過利用過去經(jīng)驗(yàn)所提供的世界表象來實(shí)現(xiàn)目標(biāo)。研究人員將這些應(yīng)用推廣到新的情況，使它們能夠在以前從未遇到過的環(huán)境中完成任務(wù)。

事實(shí)證明，強(qiáng)化學(xué)習(xí)——一種使用獎(jiǎng)勵(lì)來推動軟件策略朝著目標(biāo)前進(jìn)的訓(xùn)練技術(shù)——特別適合學(xué)習(xí)一個(gè)總結(jié)agent經(jīng)驗(yàn)的世界模型，并通過擴(kuò)展來促進(jìn)新行為的學(xué)習(xí)。

雷鋒網(wǎng)消息，近日，來自Google、Alphabet子公司DeepMind和多倫多大學(xué)的研究人員發(fā)表了一篇名為《夢想控制：通過潛意識的學(xué)習(xí)行為》的新研究，他們開發(fā)了一個(gè)增強(qiáng)型學(xué)習(xí)智能體Dreamer，通過內(nèi)化一個(gè)世界模型，并通過通過潛在的“想象力”來提前計(jì)劃選擇行動。

他們說，Dreamer不僅適用于任何學(xué)習(xí)目標(biāo)，而且在數(shù)據(jù)效率、計(jì)算時(shí)間以及最終性能方面都超過了現(xiàn)有的方法。

在它的整個(gè)生命周期中，無論是交錯(cuò)還是并行，Dreamer都會學(xué)習(xí)一個(gè)latent dynamics model（潛在動力學(xué)模型），以預(yù)測動作和觀察結(jié)果的回報(bào)。在這種情況下，“l(fā)atent dynamics model”是指從圖像輸入中學(xué)習(xí)并執(zhí)行計(jì)劃以收集新經(jīng)驗(yàn)的模型。

“潛在”表示它依賴于隱藏狀態(tài)或潛在狀態(tài)的緊湊序列，這使它能夠?qū)W習(xí)更多抽象的表示形式，例如對象的位置和速度。使用編碼器組件，有效地將來自輸入圖像的信息集成到隱藏狀態(tài)中，然后及時(shí)地將隱藏狀態(tài)向前投影以預(yù)測圖像和獎(jiǎng)勵(lì)。

谷歌新智能體Dreamer將亮相NeurIPS 2019，數(shù)據(jù)效率比前身PlaNet快8個(gè)小時(shí)

上圖：Dreamer完成一個(gè)擺動鐘擺的任務(wù)。中間顯示45步預(yù)測

Dreamer使用了一個(gè)多部分的latent dynamics model，這個(gè)模型的結(jié)構(gòu)有些復(fù)雜?！氨硎尽蔽粚τ^察和動作進(jìn)行編碼，而“過渡”位則在沒有看到會引起觀察的情況下預(yù)見狀態(tài)。第三個(gè)組件（獎(jiǎng)勵(lì)組件）根據(jù)給定的模型狀態(tài)來投影獎(jiǎng)勵(lì)，而行為模型將實(shí)施學(xué)習(xí)的策略并旨在預(yù)測可解決想象的環(huán)境的行為。最終，價(jià)值模型評估行動模型實(shí)現(xiàn)的預(yù)期想象獎(jiǎng)勵(lì)，而觀察模型提供反饋信號。

谷歌新智能體Dreamer將亮相NeurIPS 2019，數(shù)據(jù)效率比前身PlaNet快8個(gè)小時(shí)

上圖：夢想家在迷宮中導(dǎo)航。中間顯示45步預(yù)測。

雷鋒網(wǎng)了解到，在一系列實(shí)驗(yàn)中，研究人員測試了Dreamer在DeepMind Control Suite中的20個(gè)視覺控制任務(wù)上的效果，DeepMind Control Suite是一種用于評估機(jī)器學(xué)習(xí)驅(qū)動的代理的仿真軟件。

他們首先使用Nvidia V100圖形芯片和10個(gè)處理器內(nèi)核來訓(xùn)練它，每次培訓(xùn)運(yùn)行一次。他們說，控制套件上每106個(gè)環(huán)境步驟花費(fèi)了9個(gè)小時(shí)。（相比之下，Google的Dreamer前身PlaNet花了17個(gè)小時(shí)才達(dá)到了類似的性能。）

谷歌新智能體Dreamer將亮相NeurIPS 2019，數(shù)據(jù)效率比前身PlaNet快8個(gè)小時(shí)

上圖：夢想家在玩Atari游戲（拳擊）。中間顯示45步預(yù)測。

研究人員報(bào)告說，Dreamer有效地利用了學(xué)習(xí)的世界模型來從少量經(jīng)驗(yàn)中進(jìn)行概括，并且它的成功證明了，通過潛在的想象力進(jìn)行的學(xué)習(xí)行為可以勝過頂級方法。他們還說，Dreamer的價(jià)值模型即使在短期計(jì)劃中也表現(xiàn)良好，在20個(gè)任務(wù)中的16個(gè)（有4個(gè)打成平手）上表現(xiàn)優(yōu)于其他模型。

研究人員寫道：“未來，關(guān)于表征學(xué)習(xí)的研究可能會將潛在的想象力擴(kuò)展到視覺復(fù)雜性更高的環(huán)境中，”研究人員計(jì)劃在本周溫哥華的NeurIPS 2019上展示他們的工作。Dreamer項(xiàng)目的代碼可在GitHub上公開獲得。雷鋒網(wǎng)

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

2人收藏

相關(guān)文章

專題

NeurIPS 2019

本專題其他文章

李雨晨

新智駕主編

專注蔚小理等造車新勢力的原創(chuàng)報(bào)道 |微信：Gru1993

發(fā)私信

當(dāng)月熱門文章