丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能學(xué)術(shù) 正文
發(fā)私信給MrBear
發(fā)送

0

深度強(qiáng)化學(xué)習(xí)一定要用到獎勵工程嗎?伯克利 AI 研究院:并不需要

本文作者: MrBear 編輯:幸麗娟 2019-06-25 09:53
導(dǎo)語:機(jī)器人系統(tǒng)也朝著終生學(xué)習(xí)的目標(biāo)邁進(jìn)了一步!

雷鋒網(wǎng) AI 科技評論按:近年來,強(qiáng)化學(xué)習(xí)技術(shù)在控制領(lǐng)域大放異彩。然而,獎勵函數(shù)的設(shè)計(jì)問題一直以來都是困擾著人們的「老大難」問題。近期,伯克利的研究人員提出了一種基于「事件變分逆控制」的端到端深度強(qiáng)化學(xué)習(xí)范式,使機(jī)器人無需依賴獎勵工程便能實(shí)現(xiàn)高效的深度強(qiáng)化學(xué)習(xí),成功地在機(jī)器人控制問題上取得了重大突破。伯克利 AI 研究院將相關(guān)成果發(fā)布在博客上,雷鋒網(wǎng) AI 科技評論編譯如下。

將任務(wù)的目標(biāo)告知他人是件很容易的事:我們可以使用語言向他們描述希望得到的結(jié)果,向他們展示一段教學(xué)視頻,或者綜合使用這些方法。但在另一方面,為機(jī)器人指定一項(xiàng)強(qiáng)化學(xué)習(xí)任務(wù)則是一件需要付出巨大努力的事。在先前大量的工作中,研究者們已經(jīng)將深度強(qiáng)化學(xué)習(xí)技術(shù)應(yīng)用于真實(shí)的機(jī)器人上,而這些工作使用的是特定的傳感器來獲得獎勵或?qū)W習(xí)任務(wù),在這些任務(wù)中,機(jī)器人的內(nèi)部傳感器可以被用來衡量獎勵。例如,使用熱成像儀跟蹤液體流動(https://arxiv.org/abs/1608.00887),或者使用專門構(gòu)建的計(jì)算機(jī)視覺系統(tǒng)來跟蹤物體(https://arxiv.org/abs/1707.01495)。由于對于任何我們希望學(xué)習(xí)的新任務(wù)來說,首先都需要準(zhǔn)備好這些儀器環(huán)境,這就使我們在廣泛將強(qiáng)化學(xué)習(xí)技術(shù)應(yīng)用于機(jī)器人時遇到了重大的瓶頸,并且我們難以在缺乏這些儀器的開放世界環(huán)境中直接使用這些方法。

為此,我們開發(fā)出了一種端到端的方法,它使機(jī)器人可以在不需要任何手動的獎勵工程的情況下,從描述了如何完成一個任務(wù)的適當(dāng)數(shù)量的圖像中學(xué)習(xí)。機(jī)器人僅僅從這些信息(大約 80 張圖像)中開始學(xué)習(xí),且偶爾向用戶查詢額外的標(biāo)簽。在查詢過程中,機(jī)器人會向用戶展示一張圖像并要求用戶為該圖像打上標(biāo)簽,從而確定該圖像是否代表任務(wù)已被成功完成。用戶需要提供此類查詢的次數(shù)并不多(大約 25-75 次),而機(jī)器人則能通過使用這些查詢結(jié)果,在 1-4 小時的交互時間內(nèi)直接在真實(shí)世界中學(xué)習(xí),最終結(jié)果顯示,這種方法是最高效的適用于真實(shí)世界的基于圖像的機(jī)器人強(qiáng)化學(xué)習(xí)方法之一。我們已經(jīng)對該方法進(jìn)行開源,地址如下:

https://github.com/avisingh599/reward-learning-rl。

深度強(qiáng)化學(xué)習(xí)一定要用到獎勵工程嗎?伯克利 AI 研究院:并不需要

深度強(qiáng)化學(xué)習(xí)一定要用到獎勵工程嗎?伯克利 AI 研究院:并不需要

深度強(qiáng)化學(xué)習(xí)一定要用到獎勵工程嗎?伯克利 AI 研究院:并不需要

我們提出的方法使我們能夠以端到端方式利用圖像像素?cái)?shù)據(jù)解決諸多基于現(xiàn)實(shí)世界的機(jī)器人問題,且無需任何人為設(shè)計(jì)的獎勵函數(shù)。

基于分類器的獎勵

雖然我們先前的大多數(shù)的工作都傾向于利用專門構(gòu)建的系統(tǒng)來獲取獎勵,從而解決所面臨的任務(wù),同時此前也曾探索了一種簡單的替代方案。我們可以使用一組目標(biāo)圖像來指定任務(wù),而后訓(xùn)練分類器來區(qū)分目標(biāo)圖像與非目標(biāo)圖像。接著,該分類器分類成功的概率可以被用作訓(xùn)練強(qiáng)化學(xué)習(xí)智能體來實(shí)現(xiàn)該目標(biāo)的獎勵。

深度強(qiáng)化學(xué)習(xí)一定要用到獎勵工程嗎?伯克利 AI 研究院:并不需要

通過示例圖像指定任務(wù)通常是非常直接的。如上圖所示,任務(wù)可能是將與圖片中同樣多的葡萄酒倒入玻璃杯中、像圖片中一樣將衣服疊起來,以及按照圖中的樣式擺放餐具。

分類器存在的問題

盡管分類器是在現(xiàn)實(shí)世界中為強(qiáng)化學(xué)習(xí)智能體指定任務(wù)的最直觀、最直接的解決方案,但它們在應(yīng)用于現(xiàn)實(shí)世界中的問題上時也會產(chǎn)生不少問題。然而,使用目標(biāo)分類器來指定任務(wù)的用戶,不僅需要為該任務(wù)提供正樣本,而且還需要提供負(fù)樣本。此外,這組負(fù)樣本必須足夠詳盡,同時涵蓋機(jī)器人可能到達(dá)經(jīng)過的所有空間區(qū)域。如果該組負(fù)樣本提供的信息不夠詳盡,那么強(qiáng)化學(xué)習(xí)算法可能會通過找出分類器在訓(xùn)練期間未曾見過的場景而輕易騙過分類器。下方的示例展示了「分類器利用(exploitation)」這一問題: 

深度強(qiáng)化學(xué)習(xí)一定要用到獎勵工程嗎?伯克利 AI 研究院:并不需要

在這個任務(wù)中,機(jī)器人的目標(biāo)是將綠色的物體推到紅色標(biāo)記上方。我們使用一個分類器作為獎勵函數(shù),通過強(qiáng)化學(xué)習(xí)來訓(xùn)練該機(jī)器人。右下角可以看到分類器成功分類的概率隨時間變化的可視化結(jié)果。正如我們看到的,即便分類器輸出的成功概率為 1.0,機(jī)器人也仍然無法完成這個任務(wù)。而強(qiáng)化學(xué)習(xí)算法已經(jīng)成功地以一種特殊的方式移動機(jī)器臂,從而騙過了分類器,這是因?yàn)樵摲诸惼鞑]有在這種特定的負(fù)樣本上被訓(xùn)練過。

攻克「分類器利用」問題

我們采用的最新方法被稱為「事件變分逆控制」(variational inverse control with events,VICE,https://sites.google.com/view/inverse-event),它試圖通過取代以對抗式的方式來挖掘分類器所需要的負(fù)樣本來解決這個問題。該方法在一開始會隨機(jī)初始化分類器和策略。首先,它會調(diào)整分類器并更新策略,從而最大化獎勵;接下來,它會訓(xùn)練分類器將用戶所提供的目標(biāo)示例與通過強(qiáng)化策略收集到的樣本區(qū)分開來。然后,強(qiáng)化學(xué)習(xí)算法會利用更新后的分類器作為學(xué)習(xí)策略的獎勵,從而實(shí)現(xiàn)希望實(shí)現(xiàn)的目標(biāo);這一迭代過程將持續(xù)到策略收集到的樣本與用戶提供的目標(biāo)示例無法被區(qū)分開來。這一過程類似于生成對抗網(wǎng)絡(luò)(https://papers.nips.cc/paper/5423-generative-adversarial-nets.pdf),并且基于某種逆強(qiáng)化學(xué)習(xí)(https://arxiv.org/abs/1710.11248)的一種形式(https://arxiv.org/abs/1611.03852)。但與標(biāo)準(zhǔn)的逆強(qiáng)化學(xué)習(xí)不同,這種方法不需要示例演示——而僅需要在分類器開始訓(xùn)練時提供成功完成任務(wù)的示例圖像。VICE(如下圖所示)能夠有效解決初始分類器的利用問題,而用戶則不再需要提供任何負(fù)樣本示例。 

深度強(qiáng)化學(xué)習(xí)一定要用到獎勵工程嗎?伯克利 AI 研究院:并不需要

我們看到,分類器學(xué)習(xí)的成功概率與實(shí)際成功情況密切相關(guān),這使得機(jī)器人可以學(xué)會成功完成任務(wù)的策略。

利用主動學(xué)習(xí)

雖然 VICE 能夠在無需任何獎勵工程的前提下,學(xué)會用于解決現(xiàn)實(shí)世界中的機(jī)器人任務(wù)的端到端的策略,但它其仍然有著自己的局限性:VICE 需要事先得到數(shù)千個正樣本才能完成學(xué)習(xí),這會大大增加人類用戶的工作量。為了解決這個問題,我們開發(fā)出了一種新方法,它使機(jī)器人能夠在除了使用適量的初始目標(biāo)示例之外,還能夠向用戶提出的標(biāo)簽查詢。我們將這種方法稱為「利用主動目標(biāo)查詢的強(qiáng)化學(xué)習(xí)」(RAQ,https://sites.google.com/view/reward-learning-rl/)。在這些主動查詢過程中,機(jī)器人會向用戶展示一張圖像并要求用戶為該圖像打標(biāo)簽,以確認(rèn)該圖像是否表示任務(wù)已被成功完成。雖然這種主動請求用戶為每個狀態(tài)打標(biāo)簽的作法實(shí)際上相當(dāng)于要求用戶手動提供獎勵信號,但該方法只需要用戶給機(jī)器人在訓(xùn)練期間看到的一小部分圖像打標(biāo)簽,對于在無需手動設(shè)計(jì)獎勵的情況  言下學(xué)習(xí)機(jī)器人技能的任務(wù)而言,這是一種高效且實(shí)用的方法。

深度強(qiáng)化學(xué)習(xí)一定要用到獎勵工程嗎?伯克利 AI 研究院:并不需要

在這個任務(wù)中,我們的目標(biāo)是將書籍放入書架中的任意一個空槽內(nèi)。該圖展示了我們的算法所做出的一些查詢示例。該算法根據(jù)在學(xué)習(xí)解決任務(wù)的過程中積累的經(jīng)驗(yàn)挑選出了以上幾幅圖像(使用學(xué)到的分類器得出的概率估計(jì)),并由用戶為這些圖像打上二分類的「成功/失敗」的標(biāo)簽。

我們將這種組合方法稱為 VICE-RAQ,在事先擁有 80 張目標(biāo)示例圖像、后續(xù)進(jìn)行 25-75 次主動查詢的情況下,它能夠完成現(xiàn)實(shí)世界中的機(jī)器人任務(wù)。我們采用了最近提出的「soft actor-critic」算法(https://bair.berkeley.edu/blog/2018/12/14/sac/)來進(jìn)行策略優(yōu)化,可以在與現(xiàn)實(shí)世界交互的大約 1-4 小時內(nèi)完成任務(wù),這比先前在圖像上進(jìn)行端到端的策略訓(xùn)練的方法要快得多。

深度強(qiáng)化學(xué)習(xí)一定要用到獎勵工程嗎?伯克利 AI 研究院:并不需要

我們的方法能夠在一個小時多一點(diǎn)的交互時間內(nèi)學(xué)會完成將物體推到指定地點(diǎn)的任務(wù)(目標(biāo)是將杯子推到白色杯托之上),而且只需要進(jìn)行 25 次查詢。即使對于更為復(fù)雜的書架擺放和布簾覆蓋任務(wù),我們的方法也只需要不到 4 個小時的交互時間,以及不到 75 次的主動查詢。

解決涉及可形變目標(biāo)的任務(wù)

由于我們在本任務(wù)中基于圖像像素學(xué)習(xí)獎勵函數(shù),因此可以解決那些難以手動指定獎勵函數(shù)的任務(wù)。我們進(jìn)行的實(shí)驗(yàn)任務(wù)之一,是將布覆蓋在一個盒子上——這實(shí)際上是用桌布覆蓋桌面任務(wù)的一種簡化版本。為了成功完成任務(wù),機(jī)器人必須平穩(wěn)地覆蓋布料,不能壓皺布料也不能讓任何地方起褶皺。我們發(fā)現(xiàn)我們的方法能夠成功地解決這項(xiàng)任務(wù)。為了展示本任務(wù)所面臨的挑戰(zhàn),我們評估了另一種僅使用機(jī)器人末端效應(yīng)器的位置作為觀測數(shù)據(jù)、并基于該測量數(shù)據(jù)(與目標(biāo)的歐氏距離)手動定義獎勵函數(shù)的方法。我們觀察到,這種對比基準(zhǔn)方法并不能實(shí)現(xiàn)該任務(wù)的既定目標(biāo),因?yàn)樗粫唵蔚匾灾本€運(yùn)動的方式將末端效應(yīng)器移動至目標(biāo)位置,然而直線軌跡并不能解決這項(xiàng)任務(wù)。

深度強(qiáng)化學(xué)習(xí)一定要用到獎勵工程嗎?伯克利 AI 研究院:并不需要

深度強(qiáng)化學(xué)習(xí)一定要用到獎勵工程嗎?伯克利 AI 研究院:并不需要

上圖:使用機(jī)械臂的位置作為觀測數(shù)據(jù)手動定義獎勵函數(shù)的策略的實(shí)驗(yàn)結(jié)果。下圖:使用基于像素學(xué)習(xí)到的獎勵函數(shù)的策略的實(shí)驗(yàn)結(jié)果。

解決帶有多目標(biāo)條件的問題

分類器描述一個任務(wù)的表達(dá)能力要遠(yuǎn)遠(yuǎn)強(qiáng)于目標(biāo)圖像,這一點(diǎn)在有多張描述目標(biāo)的圖片的任務(wù)中可以很好地體現(xiàn)出來。在我們實(shí)驗(yàn)的書架擺放任務(wù)當(dāng)中,目標(biāo)是將書籍插入書架上的空槽處。機(jī)械臂拿起書籍的初始位置是隨機(jī)的,任務(wù)要求機(jī)器人能夠從任意的起始位置成功地完成任務(wù)。最重要的是,書架上有若干個空槽,意味著不同的起始位置可能對應(yīng)不同的最優(yōu)目標(biāo)空槽。在這里,我們看到我們的方法學(xué)到了一種能夠根據(jù)書籍在軌跡中的初始位置將其插入不同空槽的策略。機(jī)器人通常更傾向于將書放入最近的槽中,因?yàn)檫@能夠最大化其從分類器那里獲得的獎勵。 

深度強(qiáng)化學(xué)習(xí)一定要用到獎勵工程嗎?伯克利 AI 研究院:并不需要

深度強(qiáng)化學(xué)習(xí)一定要用到獎勵工程嗎?伯克利 AI 研究院:并不需要

上圖:機(jī)器人選擇將書籍插入左側(cè)的空槽。下圖:機(jī)器人選擇將書籍插入右側(cè)的空槽。

相關(guān)工作

近年來,研究人員提出了多種數(shù)據(jù)驅(qū)動型方法來解決獎勵規(guī)范問題(reward specification problem),其中逆強(qiáng)化學(xué)習(xí)(IRL,https://ai.stanford.edu/~ang/papers/icml00-irl.pdf)是一種性能較為突出的方法。VICE 與最近提出的 IRL 方法密切相關(guān),例如:帶引導(dǎo)機(jī)制的成本學(xué)習(xí)(https://arxiv.org/abs/1603.00448)與對抗逆強(qiáng)化學(xué)習(xí)(https://arxiv.org/abs/1710.11248)。 IRL 方法要求人類專家提供實(shí)現(xiàn)正確的(狀態(tài)、動作)對軌跡,而 VICE 只需要最終希望實(shí)現(xiàn)的狀態(tài),這就使得任務(wù)指定變得簡單得多,同時也讓強(qiáng)化學(xué)習(xí)算法能夠自主發(fā)現(xiàn)更多能夠完成任務(wù)的新穎方式(而非簡單模仿專家的行為)。

我們的方法還與生成對抗網(wǎng)絡(luò)(https://arxiv.org/abs/1406.2661)相關(guān)。受到生成對抗網(wǎng)絡(luò)(GAN,https://arxiv.org/abs/1606.03476)啟發(fā)的各類技術(shù)已被廣泛應(yīng)用于控制問題,但是與前面提到的逆強(qiáng)化學(xué)習(xí)技術(shù)一樣,這些技術(shù)也要求我們事先擁有「專家軌跡」(expert trajectories)數(shù)據(jù)。我們的方法表明,這種對抗性學(xué)習(xí)框架可以被擴(kuò)展至無需專家演示引導(dǎo)的體系當(dāng)中,而我們只需要給出想要達(dá)到的理想狀態(tài)的示例即可。

在過去幾年當(dāng)中,用于機(jī)器人的端到端感知與控制技術(shù)獲得了極大的關(guān)注,但初步的方法要么要求能夠在訓(xùn)練過程中利用低維狀態(tài)(例如,對象的位置,https://arxiv.org/abs/1504.00702)、要么需要單獨(dú)訓(xùn)練機(jī)器人的中間表征(https://arxiv.org/abs/1509.06113)。而最近,研究者提出的一些方法(https://bair.berkeley.edu/blog/2018/12/14/sac/)能夠直接通過像素學(xué)習(xí)策略,而無需依賴于訓(xùn)練過程中的低維狀態(tài),但它們?nèi)匀恍枰@取獎勵的儀器。我們的方法在這方面有了進(jìn)一步的提升——能夠直接根據(jù)像素學(xué)習(xí)策略與獎勵函數(shù)。這種方法使我們能夠解決那些較難指定獎勵的任務(wù),例如:機(jī)器臂蓋桌布任務(wù)。

結(jié)語

通過使機(jī)器人能夠在無需用戶對獎勵函數(shù)或?qū)<已菔具M(jìn)行編程的情況下實(shí)現(xiàn)強(qiáng)化學(xué)習(xí),我們堅(jiān)信我們的方法讓強(qiáng)化學(xué)習(xí)在成為機(jī)器人實(shí)現(xiàn)全能型操作的實(shí)用、自動和易用的工具的道路上,前進(jìn)了一大步。通過使機(jī)器人在無需任何儀器或手動獎勵設(shè)計(jì)的條件下就能夠直接在現(xiàn)實(shí)世界環(huán)境中提升技能,我們亦堅(jiān)信我們的方法也意味著,直接從現(xiàn)實(shí)環(huán)境中學(xué)習(xí)的機(jī)器人系統(tǒng)也朝著終生學(xué)習(xí)的目標(biāo)邁進(jìn)了一步。在未來,這種能力可以使機(jī)器人得以通過與現(xiàn)實(shí)世界的交互直接獲取廣泛且高度泛化的技能。  

本文參考論文:

End-to-End Robotic Reinforcement Learning without Reward Engineering(RSS 2019)

Variational Inverse Control with Events: A General Framework for Data-Driven Reward Definition(NeurIPS 2018)

via https://bair.berkeley.edu/blog/2019/05/28/end-to-end/  雷鋒網(wǎng)

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

深度強(qiáng)化學(xué)習(xí)一定要用到獎勵工程嗎?伯克利 AI 研究院:并不需要

分享:
相關(guān)文章

知情人士

當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說