0
本文作者: 我在思考中 | 2021-11-19 18:09 |
編輯 | 青暮
跨域模仿學(xué)習(xí)研究的是如何利用一個(gè)智能體的專(zhuān)家演示來(lái)訓(xùn)練一個(gè)具有不同實(shí)施方式或形態(tài)的模仿智能體。比較專(zhuān)家智能體和模仿智能體之間的軌跡和平穩(wěn)分布是具有挑戰(zhàn)性的,因?yàn)樗鼈兩钤诓煌南到y(tǒng)中,甚至可能不具有相同的維數(shù)。
近日,來(lái)自加州大學(xué)伯克利分校人工智能實(shí)驗(yàn)室、倫敦大學(xué)學(xué)院和 Facebook AI 的研究人員在一篇論文 Cross-Domain Imitiation Learning via Optimal Transport 中提出了 Gromov-Wasserstein 模仿學(xué)習(xí)(GWIL),這是一種跨域模仿的方法,使用 Gromov-Wasserstein 距離來(lái)對(duì)齊和比較智能體不同空間之間的狀態(tài)。
強(qiáng)化學(xué)習(xí)(RL)已經(jīng)在許多領(lǐng)域取得了令人驚艷的成果。然而,當(dāng)前RL的有效性與訓(xùn)練獎(jiǎng)勵(lì)的質(zhì)量密切相關(guān)。但是,對(duì)于許多現(xiàn)實(shí)世界的任務(wù)來(lái)說(shuō),設(shè)計(jì)密集且信息豐富的獎(jiǎng)勵(lì)需要大量的工程工作。為了減輕這種工作量,模仿學(xué)習(xí)(IL)建議直接從專(zhuān)家演示中學(xué)習(xí)。
但是,當(dāng)前大多數(shù)的 IL 方法僅可以應(yīng)用于最簡(jiǎn)單的設(shè)置,在這種設(shè)置中,專(zhuān)家和智能體共享相同的實(shí)施和轉(zhuǎn)換動(dòng)態(tài),它們生活在相同的狀態(tài)和動(dòng)作空間。尤其是這些方法需要來(lái)自智能體域的專(zhuān)家演示。
因此,論文的研究人員重新考慮了 IL 的效用,因?yàn)樗坪踔皇菍?wèn)題從設(shè)計(jì)信息性獎(jiǎng)勵(lì)遷移到提供專(zhuān)家演示,而不是解決問(wèn)題。然而,如果放寬當(dāng)前 IL 方法的約束設(shè)置,那么真正減輕工程量的自然模仿場(chǎng)景就會(huì)出現(xiàn)。事實(shí)上,不需要相同的動(dòng)力學(xué)就能使智能體模仿不同形態(tài)的人類(lèi)和機(jī)器人,從而廣泛擴(kuò)大 IL 的適用性,并減輕對(duì)域內(nèi)專(zhuān)家演示的需求。
這種專(zhuān)家演示來(lái)自另一個(gè)域的寬松設(shè)置已成為更具現(xiàn)實(shí)假設(shè)意義的新興領(lǐng)域,被稱(chēng)為跨域模仿學(xué)習(xí)。這些工作的一個(gè)共同策略是學(xué)習(xí)專(zhuān)家域和智能體域之間的映射。為此,它們需要訪問(wèn)智能體任務(wù),在這些任務(wù)中,專(zhuān)家和智能體都在各自的域中發(fā)揮最優(yōu)作用。在一定的結(jié)構(gòu)假設(shè)下,該映射能夠在保持最優(yōu)性的前提下,將專(zhuān)家域內(nèi)的軌跡轉(zhuǎn)化為智能體域內(nèi)的軌跡。雖然這些方法確實(shí)放寬了 IL 的典型設(shè)置,但對(duì)代理任務(wù)的要求嚴(yán)重限制了跨域 IL 的適用性。例如,它排除了模仿以前從未見(jiàn)過(guò)的專(zhuān)家以及轉(zhuǎn)移到新機(jī)器人的可能性。
本篇論文中,研究人員放寬了跨域 IL 的假設(shè),提出了一個(gè)不需要訪問(wèn)智能體任務(wù)的基準(zhǔn)和方法。為此,研究人員脫離了先前工作的觀點(diǎn),將跨域 IL 形式化為最優(yōu)傳輸問(wèn)題,提出了一種Gromov-Wasserstein模仿學(xué)習(xí)方法(GWIL),該方法使用 Gromov-Wasserstein 距離來(lái)求解基準(zhǔn)。研究者們論文里正式描述了 GWIL 保持最優(yōu)性的場(chǎng)景,揭示了其可能性和局限性。實(shí)驗(yàn)表明,在非平凡連續(xù)控制設(shè)置中,GWIL通過(guò)一個(gè)單一的演示從另一個(gè)域?qū)W習(xí)最優(yōu)行為,而不需要任何智能體任務(wù)。
模仿學(xué)習(xí)。IL 的早期研究方法是行為克隆,這相當(dāng)于通過(guò)監(jiān)督學(xué)習(xí)訓(xùn)練分類(lèi)器或回歸器來(lái)復(fù)制專(zhuān)家的演示。另一種關(guān)鍵方法是逆強(qiáng)化學(xué)習(xí),它旨在學(xué)習(xí)一個(gè)獎(jiǎng)勵(lì)函數(shù),在該獎(jiǎng)勵(lì)函數(shù)下觀察到的演示是最優(yōu)的,然后可以通過(guò) RL 來(lái)訓(xùn)練智能體。
為了跳過(guò)學(xué)習(xí)專(zhuān)家獎(jiǎng)勵(lì)函數(shù),Ho & Ermon 證明了 RL 是占用度量匹配問(wèn)題的對(duì)偶,并提出了一個(gè)對(duì)抗性目標(biāo),該目標(biāo)的優(yōu)化近似恢復(fù)專(zhuān)家的狀態(tài)-動(dòng)作占用度量,以及使用生成式對(duì)抗網(wǎng)絡(luò)的實(shí)用算法。雖然最近的一些工作旨在改進(jìn)該算法相對(duì)于由極大極小優(yōu)化引起的訓(xùn)練不穩(wěn)定性,Primal Wasserstein模仿學(xué)習(xí)(PWIL)和 Sinkhorn 模仿學(xué)習(xí)(SIL)將 IL視為占用措施之間的最優(yōu)傳輸問(wèn)題,以完全消除極大極小目標(biāo),并在樣本效率方面優(yōu)于對(duì)抗性方法。
還有其他研究人員將模仿學(xué)習(xí)擴(kuò)展到復(fù)雜的類(lèi)人運(yùn)動(dòng)和非瑣碎設(shè)置中的游戲行為。從 Wasserstein 到 Gromov-Wasserstein,該論文工作是對(duì) Dadashi 等人以及 Papagiannis 和 Li 的延伸,從而超越了專(zhuān)家和模仿者在同一域中的限制,并進(jìn)入了生活在不同空間中的智能體之間的跨域設(shè)置。
跨域和形態(tài)的遷移學(xué)習(xí)。在 RL 中,不同域之間傳遞知識(shí)的工作通常會(huì)學(xué)習(xí)狀態(tài)空間和動(dòng)作空間之間的映射。Ammar 等人使用無(wú)監(jiān)督流形對(duì)齊,在具有相似局部幾何形狀但假定可以獲得手工制作特征的狀態(tài)之間找到線性映射。最近在跨視點(diǎn)遷移學(xué)習(xí)和實(shí)施例不匹配方面的工作學(xué)習(xí)了不需要手工特性的狀態(tài)映射,但假設(shè)可以從兩個(gè)領(lǐng)域獲得成對(duì)和時(shí)間對(duì)齊的演示。
此外,Kim 等人和 Raychaudhuri 等人提出了從未配對(duì)和未對(duì)齊任務(wù)中學(xué)習(xí)狀態(tài)映射的方法。所有這些方法都需要智能體任務(wù),即來(lái)自?xún)蓚€(gè)域的一組專(zhuān)家演示,這限制了這些方法在現(xiàn)實(shí)世界中的適用性。Stadie等人提出將對(duì)抗學(xué)習(xí)和域混淆結(jié)合起來(lái),在不需要智能體任務(wù)的情況下在智能體域?qū)W習(xí)策略,但他們的方法僅適用于小視點(diǎn)不匹配的情況。Zakka等人采用目標(biāo)驅(qū)動(dòng)的觀點(diǎn),試圖模擬任務(wù)進(jìn)程,而不是匹配細(xì)粒度的結(jié)構(gòu)細(xì)節(jié),以便在物理機(jī)器人之間轉(zhuǎn)換。
相比之下,這篇論文的方法不依賴(lài)于學(xué)習(xí)智能體之間的顯式跨域潛在空間,也不依賴(lài)于智能體任務(wù)。GromovWasserstein 距離使研究人員能夠在沒(méi)有共享空間的情況下直接比較不同的空間。現(xiàn)有基準(zhǔn)測(cè)試任務(wù)假設(shè)可以訪問(wèn)來(lái)自?xún)蓚€(gè)智能體的一組演示,而這篇論文中的實(shí)驗(yàn)僅假設(shè)可以訪問(wèn)專(zhuān)家演示。
圖注:等距策略在平穩(wěn)分布的狀態(tài)-動(dòng)作空間內(nèi)具有相同的成對(duì)距離。在歐幾里得空間中,等距變換保留了這些成對(duì)距離并包括旋轉(zhuǎn)、平移和反射。
圖注:Gromov-Wasserstein 距離使我們能夠比較具有不同動(dòng)態(tài)和狀態(tài)-動(dòng)作空間的兩個(gè)智能體的平穩(wěn)的狀態(tài)-動(dòng)作分布。我們將其用作跨域模仿學(xué)習(xí)的偽獎(jiǎng)勵(lì)。
圖注:給定專(zhuān)家域(a)中的單個(gè)專(zhuān)家軌跡,GWIL 在沒(méi)有任何外部獎(jiǎng)勵(lì)的情況下恢復(fù)智能體域(b)中的最優(yōu)策略。綠點(diǎn)表示初始狀態(tài)位置,當(dāng)智能體達(dá)到紅色方塊表示的目標(biāo)時(shí),事件結(jié)束。
論文的研究人員提出了一個(gè)由 3 個(gè)任務(wù)組成的跨域 IL 方法的基準(zhǔn)集,旨在回答以下問(wèn)題:
1. 當(dāng)智能體域是專(zhuān)家域的剛性變換時(shí),GWIL能否恢復(fù)最優(yōu)行為?這是可以的,論文的作者們用迷宮證明了這一點(diǎn)。
2. 當(dāng)智能體的狀態(tài)和行動(dòng)空間與專(zhuān)家不同時(shí),GWIL能否恢復(fù)最優(yōu)行為?這也是可以的,本篇論文中,作者們展示了倒立擺(cartpole)和鐘擺(pendulum)之間輕微不同的狀態(tài)-動(dòng)作空間以及步行者(walker)和獵豹(cheetah)之間顯著不同的空間。
為了回答這兩個(gè)問(wèn)題,研究人員使用了在 Mujoco 和 DeepMind 控制套件中實(shí)現(xiàn)的模擬連續(xù)控制任務(wù)。該學(xué)習(xí)策略的視頻可在論文的項(xiàng)目網(wǎng)站上訪問(wèn)。在所有設(shè)置中,作者在dE和dA的專(zhuān)家和智能體空間中使用歐幾里得度量。
學(xué)習(xí)策略地址:https://arnaudfickinger.github.io/gwil/
圖注:給定鐘擺域(上圖)中的單個(gè)專(zhuān)家軌跡,GWIL 在沒(méi)有任何外部獎(jiǎng)勵(lì)的情況下恢復(fù)智能體域(倒立擺,下圖)中的最優(yōu)行為。
雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。