丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
業(yè)界 正文
發(fā)私信給李雨晨
發(fā)送

0

谷歌新智能體Dreamer將亮相NeurIPS 2019,數(shù)據(jù)效率比前身PlaNet快8個(gè)小時(shí)

本文作者: 李雨晨 2019-12-11 08:59 專題:NeurIPS 2019
導(dǎo)語(yǔ):增強(qiáng)型學(xué)習(xí)智能體Dreamer12月5日消息,來(lái)自谷歌大腦,DeepMind以及多倫多大學(xué)的研究人員們近日發(fā)表了一篇名為《夢(mèng)想控制:通過(guò)潛意識(shí)的學(xué)習(xí)行為》的新研

谷歌新智能體Dreamer將亮相NeurIPS 2019,數(shù)據(jù)效率比前身PlaNet快8個(gè)小時(shí)

在具有挑戰(zhàn)性的環(huán)境中,一些人工智能系統(tǒng)通過(guò)利用過(guò)去經(jīng)驗(yàn)所提供的世界表象來(lái)實(shí)現(xiàn)目標(biāo)。研究人員將這些應(yīng)用推廣到新的情況,使它們能夠在以前從未遇到過(guò)的環(huán)境中完成任務(wù)。

事實(shí)證明,強(qiáng)化學(xué)習(xí)——一種使用獎(jiǎng)勵(lì)來(lái)推動(dòng)軟件策略朝著目標(biāo)前進(jìn)的訓(xùn)練技術(shù)——特別適合學(xué)習(xí)一個(gè)總結(jié)agent經(jīng)驗(yàn)的世界模型,并通過(guò)擴(kuò)展來(lái)促進(jìn)新行為的學(xué)習(xí)。

雷鋒網(wǎng)消息,近日,來(lái)自Google、Alphabet子公司DeepMind和多倫多大學(xué)的研究人員發(fā)表了一篇名為《夢(mèng)想控制:通過(guò)潛意識(shí)的學(xué)習(xí)行為》的新研究,他們開(kāi)發(fā)了一個(gè)增強(qiáng)型學(xué)習(xí)智能體Dreamer,通過(guò)內(nèi)化一個(gè)世界模型,并通過(guò)通過(guò)潛在的“想象力”來(lái)提前計(jì)劃選擇行動(dòng)。

他們說(shuō),Dreamer不僅適用于任何學(xué)習(xí)目標(biāo),而且在數(shù)據(jù)效率、計(jì)算時(shí)間以及最終性能方面都超過(guò)了現(xiàn)有的方法。

在它的整個(gè)生命周期中,無(wú)論是交錯(cuò)還是并行,Dreamer都會(huì)學(xué)習(xí)一個(gè)latent dynamics model(潛在動(dòng)力學(xué)模型),以預(yù)測(cè)動(dòng)作和觀察結(jié)果的回報(bào)。在這種情況下,“l(fā)atent dynamics model”是指從圖像輸入中學(xué)習(xí)并執(zhí)行計(jì)劃以收集新經(jīng)驗(yàn)的模型。

“潛在”表示它依賴于隱藏狀態(tài)或潛在狀態(tài)的緊湊序列,這使它能夠?qū)W習(xí)更多抽象的表示形式,例如對(duì)象的位置和速度。使用編碼器組件,有效地將來(lái)自輸入圖像的信息集成到隱藏狀態(tài)中,然后及時(shí)地將隱藏狀態(tài)向前投影以預(yù)測(cè)圖像和獎(jiǎng)勵(lì)。

谷歌新智能體Dreamer將亮相NeurIPS 2019,數(shù)據(jù)效率比前身PlaNet快8個(gè)小時(shí)

上圖:Dreamer完成一個(gè)擺動(dòng)鐘擺的任務(wù)。中間顯示45步預(yù)測(cè)

Dreamer使用了一個(gè)多部分的latent dynamics model,這個(gè)模型的結(jié)構(gòu)有些復(fù)雜?!氨硎尽蔽粚?duì)觀察和動(dòng)作進(jìn)行編碼,而“過(guò)渡”位則在沒(méi)有看到會(huì)引起觀察的情況下預(yù)見(jiàn)狀態(tài)。第三個(gè)組件(獎(jiǎng)勵(lì)組件)根據(jù)給定的模型狀態(tài)來(lái)投影獎(jiǎng)勵(lì),而行為模型將實(shí)施學(xué)習(xí)的策略并旨在預(yù)測(cè)可解決想象的環(huán)境的行為。最終,價(jià)值模型評(píng)估行動(dòng)模型實(shí)現(xiàn)的預(yù)期想象獎(jiǎng)勵(lì),而觀察模型提供反饋信號(hào)。

谷歌新智能體Dreamer將亮相NeurIPS 2019,數(shù)據(jù)效率比前身PlaNet快8個(gè)小時(shí)

上圖:夢(mèng)想家在迷宮中導(dǎo)航。中間顯示45步預(yù)測(cè)。

雷鋒網(wǎng)了解到,在一系列實(shí)驗(yàn)中,研究人員測(cè)試了Dreamer在DeepMind Control Suite中的20個(gè)視覺(jué)控制任務(wù)上的效果,DeepMind Control Suite是一種用于評(píng)估機(jī)器學(xué)習(xí)驅(qū)動(dòng)的代理的仿真軟件。

他們首先使用Nvidia V100圖形芯片和10個(gè)處理器內(nèi)核來(lái)訓(xùn)練它,每次培訓(xùn)運(yùn)行一次。他們說(shuō),控制套件上每106個(gè)環(huán)境步驟花費(fèi)了9個(gè)小時(shí)。(相比之下,Google的Dreamer前身PlaNet花了17個(gè)小時(shí)才達(dá)到了類似的性能。)

谷歌新智能體Dreamer將亮相NeurIPS 2019,數(shù)據(jù)效率比前身PlaNet快8個(gè)小時(shí)

上圖:夢(mèng)想家在玩Atari游戲(拳擊)。中間顯示45步預(yù)測(cè)。

研究人員報(bào)告說(shuō),Dreamer有效地利用了學(xué)習(xí)的世界模型來(lái)從少量經(jīng)驗(yàn)中進(jìn)行概括,并且它的成功證明了,通過(guò)潛在的想象力進(jìn)行的學(xué)習(xí)行為可以勝過(guò)頂級(jí)方法。他們還說(shuō),Dreamer的價(jià)值模型即使在短期計(jì)劃中也表現(xiàn)良好,在20個(gè)任務(wù)中的16個(gè)(有4個(gè)打成平手)上表現(xiàn)優(yōu)于其他模型。

研究人員寫(xiě)道:“未來(lái),關(guān)于表征學(xué)習(xí)的研究可能會(huì)將潛在的想象力擴(kuò)展到視覺(jué)復(fù)雜性更高的環(huán)境中,”研究人員計(jì)劃在本周溫哥華的NeurIPS 2019上展示他們的工作。Dreamer項(xiàng)目的代碼可在GitHub上公開(kāi)獲得。雷鋒網(wǎng)

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

分享:
相關(guān)文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)