丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給汪思穎
發(fā)送

0

DeepMind 提出全新強(qiáng)化學(xué)習(xí)算法,教智能體從零開(kāi)始學(xué)會(huì)控制

本文作者: 汪思穎 編輯:郭奕欣 2018-03-02 14:49
導(dǎo)語(yǔ):通過(guò)最少的知識(shí)學(xué)習(xí)復(fù)雜的控制問(wèn)題仍然是個(gè)難題,但 DeepMind 的最新研究讓我們看到了解決的曙光

雷鋒網(wǎng) AI 科技評(píng)論按:對(duì)于智能體來(lái)說(shuō),從零開(kāi)始,通過(guò)最少的知識(shí)學(xué)習(xí)復(fù)雜的控制問(wèn)題是一個(gè)眾所周知的挑戰(zhàn)。日前,DeepMind 提出全新強(qiáng)化學(xué)習(xí)算法「調(diào)度輔助控制」(Scheduled Auxiliary Control (SAC-X)),教智能體從零開(kāi)始學(xué)會(huì)控制,他們?cè)噲D通過(guò)這種學(xué)習(xí)范式來(lái)克服智能體的控制問(wèn)題。

雷鋒網(wǎng) AI 科技評(píng)論將原文編譯整理如下:

不管你讓小孩還是大人整理物品,他們很大可能都不會(huì)乖乖聽(tīng)你的話,如果想要讓 AI 智能體進(jìn)行整理收拾,那就更難了。如果想成功,需要掌握如下幾個(gè)核心視覺(jué)運(yùn)動(dòng)技能:接近物體,抓住并舉起它,打開(kāi)盒子,把物體放進(jìn)去。而更復(fù)雜的是,執(zhí)行這些技能時(shí),必須按照正確的順序。

對(duì)于一些控制類(lèi)的任務(wù),比如整理桌面或堆疊物體,智能體需要在協(xié)調(diào)它的模擬手臂和手指的九個(gè)關(guān)節(jié)時(shí),做到三個(gè) W,即如何(how),何時(shí)(when)以及在哪里(where),以便正確地移動(dòng),最終完成任務(wù)。

在任何給定的時(shí)間內(nèi),需要明確各種可能的運(yùn)動(dòng)組合的數(shù)量,以及執(zhí)行一長(zhǎng)串正確動(dòng)作,這些需求引申出一個(gè)嚴(yán)肅的問(wèn)題,這成為強(qiáng)化學(xué)習(xí)中一個(gè)特別有趣的研究領(lǐng)域。

諸如獎(jiǎng)賞塑形(reward shaping)、學(xué)徒學(xué)習(xí)(Apprenticeship learning)或從演示中學(xué)習(xí)(Learning from Demonstration)等技術(shù)可以幫助解決這個(gè)問(wèn)題。然而,這些方法依賴于大量與任務(wù)相關(guān)的知識(shí),而從零開(kāi)始,通過(guò)最少的預(yù)先知識(shí)學(xué)習(xí)復(fù)雜的控制問(wèn)題仍然是一個(gè)眾所周知的挑戰(zhàn)。

我們最近的論文提出了一種新的學(xué)習(xí)范式,叫做「調(diào)度輔助控制」(Scheduled Auxiliary Control (SAC-X)),我們?cè)噲D通過(guò)這種學(xué)習(xí)范式來(lái)克服這個(gè)問(wèn)題。

DeepMind 提出全新強(qiáng)化學(xué)習(xí)算法,教智能體從零開(kāi)始學(xué)會(huì)控制

SAC-X 是基于從頭開(kāi)始學(xué)習(xí)復(fù)雜的任務(wù)這種想法,即一個(gè)智能體首先應(yīng)該學(xué)習(xí)并掌握一套基本技能。就像嬰兒在爬行或走路前必須具有協(xié)調(diào)能力和平衡能力,為智能體提供與簡(jiǎn)單技能相對(duì)應(yīng)的內(nèi)在目標(biāo)(具有輔助作用),這會(huì)增加它理解和執(zhí)行更復(fù)雜任務(wù)的可能性。

我們?cè)趲讉€(gè)模擬和真實(shí)的機(jī)器人任務(wù)中演示了 SAC-X 法,包括不同物體的堆疊,將物體放到盒子里。我們定義的輔助任務(wù)遵循一般原則:鼓勵(lì)智能體探索其感應(yīng)空間。

例如,激活手指上的觸覺(jué)傳感器,感知手腕的力度,利用本體感應(yīng)器將關(guān)節(jié)角度調(diào)到最大,在視覺(jué)傳感器范圍內(nèi)強(qiáng)制性移動(dòng)物體。對(duì)于每個(gè)任務(wù),如果實(shí)現(xiàn)目標(biāo),會(huì)提供相應(yīng)的簡(jiǎn)單獎(jiǎng)勵(lì)。沒(méi)實(shí)現(xiàn)目標(biāo)的話,獎(jiǎng)勵(lì)為零。

DeepMind 提出全新強(qiáng)化學(xué)習(xí)算法,教智能體從零開(kāi)始學(xué)會(huì)控制

智能體首先學(xué)習(xí)激活手指上的觸覺(jué)傳感器,然后移動(dòng)物體

DeepMind 提出全新強(qiáng)化學(xué)習(xí)算法,教智能體從零開(kāi)始學(xué)會(huì)控制

模擬智能體最終掌握復(fù)雜的堆疊任務(wù)

智能體接下來(lái)可以自行決定其當(dāng)前的「意圖」,例如下一步做什么??赡軙?huì)是一個(gè)輔助任務(wù)或者是外部定義的目標(biāo)任務(wù)。至關(guān)重要的是,對(duì)于目前還沒(méi)有使用基于回放的離策略學(xué)習(xí)方法的任務(wù),該代理可以從獎(jiǎng)勵(lì)信號(hào)中發(fā)現(xiàn)和學(xué)習(xí)。例如,當(dāng)拾取或移動(dòng)一個(gè)物體時(shí),智能體可能會(huì)偶然地將物體堆疊起來(lái),觀察到「堆疊獎(jiǎng)勵(lì)」。一系列簡(jiǎn)單的任務(wù)會(huì)讓智能體觀察到罕見(jiàn)的外部獎(jiǎng)勵(lì),所以讓智能體具有安排意圖的能力至關(guān)重要。

基于收集到的所有的間接知識(shí),智能體會(huì)建立一個(gè)個(gè)性化的學(xué)習(xí)課程。在如此大的領(lǐng)域中,通過(guò)這種方法來(lái)利用知識(shí)非常高效,在只有很少的外部獎(jiǎng)勵(lì)信號(hào)的情況下尤其有用。

通過(guò)調(diào)度模塊,智能體會(huì)決定接下來(lái)的意圖。利用元學(xué)習(xí)算法,調(diào)度器會(huì)在訓(xùn)練過(guò)程中得到改進(jìn),該算法試圖最大限度地提高主任務(wù)的進(jìn)程,進(jìn)而顯著提高數(shù)據(jù)效率。

DeepMind 提出全新強(qiáng)化學(xué)習(xí)算法,教智能體從零開(kāi)始學(xué)會(huì)控制

在探索完許多內(nèi)部輔助任務(wù)之后,智能體學(xué)會(huì)了如何堆疊和整理物品

評(píng)估表明,SAC-X 能夠從零開(kāi)始完成我們?cè)O(shè)置的所有任務(wù),這些任務(wù)都是在相同的輔助任務(wù)集下完成的。令人興奮的是,利用 SAC-X,我們實(shí)驗(yàn)室的機(jī)器人手臂能夠成功地從零開(kāi)始學(xué)習(xí)拾取和擺放。在過(guò)去這極具挑戰(zhàn)性,因?yàn)樵诂F(xiàn)實(shí)世界中讓機(jī)器人學(xué)習(xí)需要高效的數(shù)據(jù),所以流行的方法是預(yù)訓(xùn)練模擬智能體,然后再將這種能力轉(zhuǎn)移到真正的機(jī)器人手臂中。

DeepMind 提出全新強(qiáng)化學(xué)習(xí)算法,教智能體從零開(kāi)始學(xué)會(huì)控制

針對(duì)真實(shí)的機(jī)器人手臂, SAC-X 能學(xué)習(xí)如何舉起和移動(dòng)綠色的立方體,在此之前它從來(lái)沒(méi)有接觸過(guò)這類(lèi)任務(wù)

我們認(rèn)為 SAC-X 是通向從零學(xué)習(xí)控制任務(wù)的重要一步,只需定義好整體目標(biāo)。SAC-X 允許任意定義輔助任務(wù),這些任務(wù)可以基于一般的看法(如有意激活傳感器),最終會(huì)涵蓋研究人員認(rèn)為重要的任務(wù)。從這方面來(lái)說(shuō),SAC-X 是一種通用的強(qiáng)化學(xué)習(xí)方法,可以廣泛應(yīng)用于控制和機(jī)器人領(lǐng)域之外的一般稀疏強(qiáng)化學(xué)習(xí)環(huán)境。

論文地址:https://arxiv.org/abs/1802.10567

via:DeepMind

雷鋒網(wǎng) AI 科技評(píng)論編譯整理。

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

DeepMind 提出全新強(qiáng)化學(xué)習(xí)算法,教智能體從零開(kāi)始學(xué)會(huì)控制

分享:
相關(guān)文章

編輯

關(guān)注AI學(xué)術(shù),例如論文
當(dāng)月熱門(mén)文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)