丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能 正文
發(fā)私信給高云河
發(fā)送

0

UC伯克利 NIPS 2018 Spotlight論文:依靠視覺想象力的多任務(wù)強(qiáng)化學(xué)習(xí)

本文作者: 高云河 編輯:楊曉凡 2018-09-14 10:06 專題:NeurIPS 2018
導(dǎo)語:從模擬器泛化到真實機(jī)器人,我們需要做的還有很多

雷鋒網(wǎng) AI 科技評論按:NIPS 2018 的錄用論文近期已經(jīng)陸續(xù)揭開面紗,強(qiáng)化學(xué)習(xí)毫不意外地仍然是其中一大熱門的研究領(lǐng)域。來自加州大學(xué)伯克利分校人工智能實驗室(BAIR)的研究人員分享了他們獲得了 NIPS 2018 spotlight 的研究成果:Visual Reinforcement Learning with Imagined Goals。他們提出了一種只需要圖片即可進(jìn)行視覺監(jiān)督的強(qiáng)化學(xué)習(xí)方法,使得機(jī)器人能夠自主設(shè)定目標(biāo),并學(xué)習(xí)達(dá)到該目標(biāo)。下面是雷鋒網(wǎng)對該博客的部分編譯。

UC伯克利 NIPS 2018 Spotlight論文:依靠視覺想象力的多任務(wù)強(qiáng)化學(xué)習(xí)

對于機(jī)器人,我們希望它能夠在非結(jié)構(gòu)化的復(fù)雜環(huán)境中實現(xiàn)任意目標(biāo),例如可以完成各種家務(wù)的私人機(jī)器人。想要實現(xiàn)這個目標(biāo),一個有效的方法是使用深度強(qiáng)化學(xué)習(xí),這是一種強(qiáng)大的學(xué)習(xí)框架,機(jī)器人通過最大化獎勵函數(shù)學(xué)到各種行動。然而,經(jīng)典的強(qiáng)化學(xué)習(xí)方法通常使用人工設(shè)計的獎勵函數(shù)訓(xùn)練機(jī)器人去完成任務(wù)。例如,通過每個盤子和器具在桌子上的當(dāng)前位置和目標(biāo)位置之間的距離設(shè)計獎勵函數(shù)來訓(xùn)練機(jī)器人布置餐桌。這種方法需要人為每個任務(wù)單獨設(shè)計獎勵函數(shù),還需要例如物體檢測器之類的額外系統(tǒng)作為輔助,這會使得整個系統(tǒng)變得昂貴且脆弱。此外,如果想要機(jī)器能夠執(zhí)行各種瑣碎的小任務(wù),需要在每個新任務(wù)上重復(fù)強(qiáng)化學(xué)習(xí)的訓(xùn)練過程。

UC伯克利 NIPS 2018 Spotlight論文:依靠視覺想象力的多任務(wù)強(qiáng)化學(xué)習(xí)

盡管在模擬環(huán)境中設(shè)計獎勵函數(shù)并建立傳感器系統(tǒng)(門角度測量傳感器,物體檢測傳感器等)相當(dāng)容易,但是到了現(xiàn)實生活中,這種方法并不實用,如最右圖所示。

UC伯克利 NIPS 2018 Spotlight論文:依靠視覺想象力的多任務(wù)強(qiáng)化學(xué)習(xí)

我們的算法只使用視覺就能夠訓(xùn)練解決多種問題的智能體,而沒有使用額外的設(shè)備。上面一行展示了目標(biāo)圖片,下面一行展示了該策略達(dá)到這些目標(biāo)的過程

在下面的博客中,我們將討論一個無人工監(jiān)督的,可以同時學(xué)習(xí)多個不同任務(wù)的強(qiáng)化學(xué)習(xí)算法。對于能夠在無人工干預(yù)的情況下學(xué)會技能的智能體(agent),它必須能夠為自己設(shè)定目標(biāo)(goal),與環(huán)境交互,并評估自己是否已經(jīng)達(dá)到目標(biāo),并朝目標(biāo)方向改善其行為。在我們的算法中這一切都是通過最原始的觀測(圖像)來實現(xiàn)的,并沒有手動設(shè)計的額外裝置(如物體檢測器)。比如想要讓機(jī)器人到達(dá)指定位置狀態(tài),只需給他一張目標(biāo)狀態(tài)的圖像,機(jī)器人就可以學(xué)習(xí)到到達(dá)指定位置的方法。在算法中,我們引入了一個能夠設(shè)定抽象目標(biāo),并向目標(biāo)主動學(xué)習(xí)的系統(tǒng)。我們還展示了智能體如何通過這些自主學(xué)習(xí)技能來執(zhí)行各種用戶指定的目標(biāo)(例如推動物體,抓取物體,開門等),而無需針對每個任務(wù)的額外訓(xùn)練。文章的最后展示了我們的方法足夠有效,可以在現(xiàn)實世界的 Swayer 機(jī)器人中工作。機(jī)器人可以自主學(xué)習(xí)設(shè)定目標(biāo)并實現(xiàn)目標(biāo),在僅有圖像作為系統(tǒng)輸入的前提下,將目標(biāo)推到指定位置。

給定目標(biāo)的強(qiáng)化學(xué)習(xí)

想要實現(xiàn)強(qiáng)化學(xué)習(xí),首先要面對一個問題:我們應(yīng)該如何表示世界的狀態(tài)和想要達(dá)到的目標(biāo)呢?在多任務(wù)情況下,枚舉機(jī)器人可能需要注意的所有對象是不現(xiàn)實的:對象的數(shù)量和類型在不同情況下會有所不同,并且想準(zhǔn)確檢測出它們還需要專用的視覺處理方法。換一種思路,我們可以直接在機(jī)器人的傳感器上操作,用機(jī)器人相機(jī)傳感器捕捉到的圖片表示當(dāng)前真實世界的狀態(tài),將我們希望世界是什么樣子的圖片作為目標(biāo)。想要為機(jī)器人制定新任務(wù),用戶只需提供一個目標(biāo)圖像即可,比如希望盤子下圖樣子的圖片。在未來,這項工作可以擴(kuò)展到更復(fù)雜的方式來指定目標(biāo),比如通過語言或者演示等來指定。

UC伯克利 NIPS 2018 Spotlight論文:依靠視覺想象力的多任務(wù)強(qiáng)化學(xué)習(xí)

目標(biāo)任務(wù):將世界變成圖像中的樣子

強(qiáng)化學(xué)習(xí)的核心思路是訓(xùn)練機(jī)器人最大化獎勵函數(shù)。對于給定目標(biāo)的強(qiáng)化學(xué)習(xí)方法,獎勵函數(shù)的一種選擇是當(dāng)前狀態(tài)和目標(biāo)狀態(tài)之間距離的相反數(shù),因此最大化獎勵函數(shù)即等價于最小化當(dāng)前狀態(tài)到目標(biāo)狀態(tài)的距離。

我們可以訓(xùn)練一個策略來最大化獎勵函數(shù),這樣學(xué)習(xí)一個給定目標(biāo)的 Q 函數(shù)就可以達(dá)到目標(biāo)狀態(tài)。一個給定目標(biāo)的 Q 函數(shù) Q(s,a,g) 能夠告訴我們,在給定狀態(tài) s 和目標(biāo) g 時,行動 a 的好壞。比如,一個 Q 函數(shù)可以告訴我們:「如果我拿著一個盤子(狀態(tài) s)并且想把盤子放在桌子上(目標(biāo) g),那么舉手(行動 a)這個動作有多好?」一旦將此 Q 函數(shù)訓(xùn)練好,就可以通過執(zhí)行下面的優(yōu)化策略來提取給定目標(biāo)的策略:

UC伯克利 NIPS 2018 Spotlight論文:依靠視覺想象力的多任務(wù)強(qiáng)化學(xué)習(xí)

該公式可以簡單的總結(jié)為:「根據(jù) Q 函數(shù)選擇最好的行動」。通過使用這個過程,我們能夠得到最大化所有獎勵函數(shù)之和的策略,即達(dá)到不同目標(biāo)。

Q學(xué)習(xí)流行的一大原因是:它能夠以離線策略的形式執(zhí)行,即我們訓(xùn)練 Q 函數(shù)所需的所有信息僅為(狀態(tài),行動,下一步狀態(tài),目標(biāo),獎勵)的采樣:(s, a, s', g, r)。這些數(shù)據(jù)可以通過任何策略收集到,而且可以被多個任務(wù)重復(fù)利用。因此一個簡單的給定目標(biāo)的Q學(xué)習(xí)算法流程如下:

UC伯克利 NIPS 2018 Spotlight論文:依靠視覺想象力的多任務(wù)強(qiáng)化學(xué)習(xí)

訓(xùn)練過程中的最大瓶頸在于收集數(shù)據(jù)。如果我們能夠人工生成更多數(shù)據(jù),我們就能夠在理論上學(xué)習(xí)解決多種任務(wù),甚至不需要與真實世界交互。然而不幸的是,想得到準(zhǔn)確的真實世界模型相當(dāng)困難,所以我們通常不得不依賴于采樣以得到(狀態(tài)-行動-下一狀態(tài))的數(shù)據(jù):(s,a,s')。然而,如果我們能夠修改獎勵函數(shù) r(s, g), 我們就可以反過頭重新標(biāo)注目標(biāo),并重新計算獎勵,這樣就使得我們能夠在給定一個(s, a, s')元組的情況下,人工生成更多數(shù)據(jù)。所以我們可以將訓(xùn)練過程修改為如下:

UC伯克利 NIPS 2018 Spotlight論文:依靠視覺想象力的多任務(wù)強(qiáng)化學(xué)習(xí)

這種目標(biāo)重采樣的方法的好處是,我們可以同時學(xué)習(xí)如何一次實現(xiàn)多個目標(biāo),而無需從環(huán)境中獲取更多數(shù)據(jù)??偟膩碚f,這種簡單的修改可以大大加快學(xué)習(xí)速度。

要想實現(xiàn)上述方法,需要有兩個主要假設(shè):(1)知道獎勵函數(shù)的形式。(2)知道目標(biāo)的采樣分布 p(g)。之前有研究者使用這種目標(biāo)重標(biāo)注策略的工作( Kaelbling '93 , Andrychowicz '17 , Pong '18)是在真實的狀態(tài)信息上操作(比如物體的笛卡爾位置),這就很容易手動設(shè)計目標(biāo)分布p(g)和獎勵函數(shù)。然而,在目標(biāo)狀態(tài)是圖像的基于視覺的任務(wù)上,這兩個假設(shè)在實際中都不成立。首先,我們不清楚應(yīng)該使用哪種獎勵函數(shù),因為與當(dāng)前狀態(tài)圖像與目標(biāo)狀態(tài)圖像之間的像素級距離可能在語義上沒有任何意義。其次,因為我們的目標(biāo)是圖像,對于第二個假設(shè),我們需要知道一個目標(biāo)圖像的分布 p(g),使得我們可以從中對目標(biāo)圖像進(jìn)行采樣。然而圖像的分布相當(dāng)復(fù)雜,手動設(shè)計目標(biāo)圖像的分布是一個相當(dāng)困難的任務(wù),圖像生成仍然是一個活躍的研究領(lǐng)域。因此,為了解決這兩個問題,在我們的算法中我們希望智能體能夠自主想象出自己的目標(biāo),并學(xué)習(xí)如何實現(xiàn)這些目標(biāo)。

使用想象的目標(biāo)的強(qiáng)化學(xué)習(xí)

圖像作為一種高維信息,直接進(jìn)行處理相當(dāng)困難。因此可以通過學(xué)習(xí)圖像的表示,并使用這種表示來代替圖像本身,以減輕給定目標(biāo)圖像的 Q 強(qiáng)化學(xué)習(xí)的挑戰(zhàn)。關(guān)鍵問題是:這種表示應(yīng)該滿足哪些屬性?為了計算語義上有意義的獎勵,需要一種能夠捕捉到圖像變化隱變量的表示。此外,需要一種能夠輕松生成新目標(biāo)的方法。

我們通過首先訓(xùn)練一個生成隱變量的模型來實現(xiàn)這個目標(biāo),我門使用了一個變分自動編碼機(jī)(variational autoencoder, VAE)。該生成模型將高維觀察 X,如圖像,轉(zhuǎn)換到低維隱變量 z 中,反之亦然。訓(xùn)練該模型使得隱變量能夠捕捉圖像中變化的潛在變量,這與人類解釋世界和目標(biāo)的抽象表示類似。給定當(dāng)前圖像 x 和目標(biāo)圖像 xg,將它們分別轉(zhuǎn)換為隱變量 z 和 zg。然后使用這些隱變量來表示強(qiáng)化學(xué)習(xí)算法的狀態(tài)和目標(biāo)。在這個低維隱空間上而不是直接在圖像上學(xué)習(xí)Q函數(shù)和策略能夠有效加快學(xué)習(xí)的速度。

UC伯克利 NIPS 2018 Spotlight論文:依靠視覺想象力的多任務(wù)強(qiáng)化學(xué)習(xí)

智能體將當(dāng)前圖像(x)和目標(biāo)圖像(xg)編碼到隱空間,使用隱空間中的距離作為獎勵函數(shù)。

使用圖像和目標(biāo)的隱變量表示也解決了另一個問題:如何計算獎勵。使用隱空間中的距離來作為智能體的獎勵,而不是使用像素級的距離。在完整論文中,我們展示了這種方法與最大化達(dá)到目標(biāo)的概率的目的相符合,而且能夠提供更有效的學(xué)習(xí)信號。

這種生成模型也很重要,因為它使得智能體能夠更容易地在隱空間中生成目標(biāo)。特別的是,我們的生成模型能夠使在隱變量空間中的采樣變得不重要:我們只是從VAE先驗中采樣隱變量。我們使用這種采樣機(jī)制主要有兩種原因:首先,它為智能體設(shè)置自己的目標(biāo)提供了一種機(jī)制。智能體只是從生成模型中對隱變量的值進(jìn)行采樣,并嘗試達(dá)到該隱目標(biāo)。第二,該重采樣機(jī)制也可以被用于上面提到的重新標(biāo)記目標(biāo)的過程中。因為生成模型經(jīng)過訓(xùn)練,可以將真實圖像編碼到先驗圖像中,所以從隱變量先驗中采樣可以生成有意義的隱目標(biāo)。

UC伯克利 NIPS 2018 Spotlight論文:依靠視覺想象力的多任務(wù)強(qiáng)化學(xué)習(xí)

即使沒有人提供目標(biāo),智能體也能夠生成它自己的目標(biāo)

總之,圖像的隱變量能夠(1)捕捉場景的潛在因素,(2)提供有意義的距離進(jìn)行優(yōu)化,(3)提供有效的目標(biāo)采樣機(jī)制,允許我們有效訓(xùn)練能夠在像素上直接操作的給定目標(biāo)的強(qiáng)化學(xué)習(xí)智能體。我們將這個整個方法稱為具有想象目標(biāo)的強(qiáng)化學(xué)習(xí)(reinforcement learning with imagined goals, RIG).

實驗

我們進(jìn)行了實驗,以測試 RIG 是否具有足夠的采樣效率,能夠在合理的時間內(nèi)訓(xùn)練好真實世界的機(jī)器人策略。我們測試了機(jī)器人的兩種能力:達(dá)到用戶指定的位置,和將物體推到目標(biāo)圖像所示的位置。機(jī)器人首先將輸入的目標(biāo)圖像映射到隱空間中,作為自己的目標(biāo)來學(xué)習(xí)。我們可以使用解碼器從隱空間映射回圖片來可視化機(jī)器人想象中的目標(biāo)。在下面的動圖中,上面顯示了解碼出來的“想象”中的目標(biāo),而下面一行顯示了實際策略執(zhí)行的情況

UC伯克利 NIPS 2018 Spotlight論文:依靠視覺想象力的多任務(wù)強(qiáng)化學(xué)習(xí)

機(jī)器人設(shè)定它自己的目標(biāo)(上圖),練習(xí)達(dá)到這個目標(biāo)(下圖)

通過設(shè)定自己的目標(biāo),機(jī)器人可以自主的訓(xùn)練達(dá)到不同的位置而無需人為參與。只有當(dāng)人想要機(jī)器人執(zhí)行特定任務(wù)時,才需要人類參與。此時,給予機(jī)器人目標(biāo)圖像。因為機(jī)器人已經(jīng)通過練習(xí),能夠?qū)崿F(xiàn)很多種目標(biāo),可以看到它在沒有經(jīng)過額外訓(xùn)練的情況下,即能實現(xiàn)這個目標(biāo)。

UC伯克利 NIPS 2018 Spotlight論文:依靠視覺想象力的多任務(wù)強(qiáng)化學(xué)習(xí)

人類給一個目標(biāo)圖像(上圖),機(jī)器人達(dá)到這個目標(biāo)(下圖)

下面展示了使用 RIG 訓(xùn)練了將物體推到指定區(qū)域的策略:

UC伯克利 NIPS 2018 Spotlight論文:依靠視覺想象力的多任務(wù)強(qiáng)化學(xué)習(xí)

左:Sawyer機(jī)器人初始化。右:人類給出一個目標(biāo)圖片(上圖),機(jī)器人達(dá)到該目標(biāo)(下圖)

直接從圖像訓(xùn)練強(qiáng)化學(xué)習(xí)的策略可以輕松地在不同的任務(wù)中切換,如使機(jī)器人到達(dá)某個位置變成推動某個物體。只需改變一下物體重新拍一下照片即可。最后,盡管直接根據(jù)像素進(jìn)行工作,這些實驗并沒有花費很長時間。到達(dá)指定位置,只需一小時的訓(xùn)練時間,而推動物體到某位置需要 4.5 小時。許多真實世界的機(jī)器人強(qiáng)化學(xué)習(xí)需要真實的機(jī)器人狀態(tài)信息如物體的位置。然而,這通常需要更多的機(jī)器,購買并設(shè)置額外的傳感器或者訓(xùn)練物體檢測系統(tǒng)。相比這下,本方法只需 RGB 相機(jī)就可以直接從圖像中進(jìn)行工作。

對于更多結(jié)果,包括各部分對性能的提升以及與基準(zhǔn)方法的對比,大家可以閱讀原始論文:https://arxiv.org/abs/1807.04742 

未來發(fā)展方向

我們已經(jīng)證明,可以直接從圖像訓(xùn)練真實世界的機(jī)器人策略,同時可以以高效的方式實現(xiàn)各種任務(wù)。這個項目有很多令人興奮的后續(xù)發(fā)展??赡苡幸恍┤蝿?wù)無法用目標(biāo)圖像表示,但是可以用其他模態(tài)的信息來表示(如語言和演示)。此外,我們雖然提供了一種機(jī)制來對自主探索的目標(biāo)進(jìn)行采樣,但我們能否以更有理論指導(dǎo)的方式選擇這些目標(biāo)來進(jìn)行更好的探索?結(jié)合內(nèi)部動機(jī)的思路能夠使得我們的模型更積極的選擇能夠更快達(dá)到目標(biāo)的策略。未來的另外一個方向是訓(xùn)練更好的生成模型,使其能夠理解動態(tài)信息。將環(huán)境的動態(tài)信息編碼能夠使隱空間更適合于強(qiáng)化學(xué)習(xí),從而加快學(xué)習(xí)速度。最后,有些機(jī)器人任務(wù)的狀態(tài)難以用傳感器捕捉到,例如操縱可變性對象或者處理數(shù)量可變的對象的場景。進(jìn)一步拓展 RIG 使得它能夠解決這些任務(wù)將是令人興奮的。

via Berkeley Blog,雷鋒網(wǎng) AI 科技評論編譯

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

UC伯克利 NIPS 2018 Spotlight論文:依靠視覺想象力的多任務(wù)強(qiáng)化學(xué)習(xí)

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說