伯克利DeepMimic：虛擬特技演員的基本修養(yǎng)

本文作者： sanman

2018-04-24 14:48

導(dǎo)語：基于深度強(qiáng)化學(xué)習(xí)的戲精養(yǎng)成方法

雷鋒網(wǎng)AI科技評論按：伯克利BAIR實(shí)驗(yàn)室介紹了他們對于運(yùn)動(dòng)建模的最新研究成果，他們使用動(dòng)作捕捉片段訓(xùn)練自己的模型。訓(xùn)練中著力減小跟蹤誤差并采用提前終止的方法來優(yōu)化訓(xùn)練結(jié)果。訓(xùn)練模型最終表現(xiàn)優(yōu)秀。雷鋒網(wǎng) AI 科技評論把詳情介紹如下。

虛擬特技演員

伯克利DeepMimic：虛擬特技演員的基本修養(yǎng)

運(yùn)動(dòng)控制問題已經(jīng)成為強(qiáng)化學(xué)習(xí)的基準(zhǔn)，而深度強(qiáng)化學(xué)習(xí)的方法可以很高效的處理控制和運(yùn)動(dòng)等問題。然而，使用深度強(qiáng)化學(xué)習(xí)訓(xùn)練的目標(biāo)對象也經(jīng)常會(huì)出現(xiàn)不自然動(dòng)作、異常抖動(dòng)、步伐不對稱以及四肢過度擺動(dòng)等問題。我們可以將我們的虛擬人物訓(xùn)練的行為表現(xiàn)更加自然嗎？

我們從計(jì)算機(jī)圖形學(xué)研究中獲得了啟發(fā)。在這一領(lǐng)域中基于自然動(dòng)作的人體仿真模擬已經(jīng)存在大量的工作，相關(guān)研究已經(jīng)進(jìn)行了很多年。由于電影視覺效果以及游戲?qū)τ趧?dòng)作質(zhì)量要求很高，多年下來，基于豐富的肢體動(dòng)作動(dòng)畫已經(jīng)開發(fā)相應(yīng)控制器，這個(gè)控制器可以生成大量針對不同任務(wù)和對象的魯棒性好又自然的動(dòng)作。這種方法會(huì)利用人類洞察力去合并特定任務(wù)的控制結(jié)構(gòu)，最終會(huì)對訓(xùn)練對象所產(chǎn)生的動(dòng)作有很強(qiáng)的歸納偏向。這種做法會(huì)讓控制器更加適應(yīng)特定的訓(xùn)練對象和任務(wù)。比如被設(shè)計(jì)去生成行走動(dòng)作的控制器可能會(huì)因?yàn)槿狈θ祟惗床炝Χ鵁o法生成更有技巧性的動(dòng)作。

在本研究中，我們將利用兩個(gè)領(lǐng)域的綜合優(yōu)勢，在使用深度學(xué)習(xí)模型的同時(shí)也生成自然的動(dòng)作，這動(dòng)作質(zhì)量足以匹敵計(jì)算機(jī)圖形學(xué)當(dāng)前最先進(jìn)的全身動(dòng)作模擬。我們提出了一個(gè)概念化的簡單強(qiáng)化學(xué)習(xí)框架，這個(gè)框架讓模擬對象通過學(xué)習(xí)樣例動(dòng)作剪輯來做出難度更高的動(dòng)作，其中樣例動(dòng)作來自于人類動(dòng)作捕捉。給出一個(gè)技巧的展示，例如旋踢或者后空翻，我們的訓(xùn)練對象在仿真中會(huì)以穩(wěn)健的策略去模仿這一動(dòng)作。我們的策略所生成的動(dòng)作與動(dòng)作捕捉幾乎沒有區(qū)別。

動(dòng)作模擬

在大多數(shù)強(qiáng)化學(xué)習(xí)基準(zhǔn)中，模擬對象都使用簡單的模型，這些模型只有一些對真實(shí)動(dòng)作進(jìn)行粗糙模仿的動(dòng)作。因此，訓(xùn)練對象也容易學(xué)習(xí)其中的特異動(dòng)作從而產(chǎn)生現(xiàn)實(shí)世界根本不會(huì)有的行為。故該模型利用的現(xiàn)實(shí)生物力學(xué)模型越真實(shí)，就會(huì)產(chǎn)生越多的自然行為。但建設(shè)高保真的模型非常具有挑戰(zhàn)性，且即使在該模型下也有可能會(huì)生成不自然行為。

另一種策略就是數(shù)據(jù)驅(qū)動(dòng)方式，即通過人類動(dòng)作捕捉來生成自然動(dòng)作樣例。訓(xùn)練對象就可以通過模仿樣例動(dòng)作來產(chǎn)生更加自然的行為。通過模仿運(yùn)動(dòng)樣例進(jìn)行仿真的方式在計(jì)算機(jī)動(dòng)畫制作中存在了很久，最近開始在制作中引入深度強(qiáng)化學(xué)習(xí)。結(jié)果顯示訓(xùn)練對象動(dòng)作的確更加自然，然而這離實(shí)現(xiàn)多動(dòng)作仿真還有很長一段距離。

在本研究中，我們將使用動(dòng)作模仿任務(wù)來訓(xùn)練模型，我們的訓(xùn)練目標(biāo)就是訓(xùn)練對象最終可以復(fù)現(xiàn)一個(gè)給定的參考動(dòng)作。參考動(dòng)作是以一系列目標(biāo)姿勢表示的（ q_0,q_1,…,q_T）,其中q_t就是目標(biāo)在t時(shí)刻的姿勢。獎(jiǎng)勵(lì)函數(shù)旨在縮小目標(biāo)姿勢q^_t與訓(xùn)練對象姿勢q_t之間的方差。

伯克利DeepMimic：虛擬特技演員的基本修養(yǎng)

雖然在運(yùn)動(dòng)模仿上應(yīng)用了更復(fù)雜的方法，但我們發(fā)現(xiàn)簡單的縮小跟蹤誤差（以及兩個(gè)額外的視角的誤差）表現(xiàn)的出人意料的好。這個(gè)策略是通過訓(xùn)練使用PPO算法優(yōu)化過的目標(biāo)實(shí)現(xiàn)的。

利用這個(gè)框架，我們可以開發(fā)出包含大量高挑戰(zhàn)性技巧（運(yùn)動(dòng)，雜技，武術(shù)，舞蹈）的策略。

伯克利DeepMimic：虛擬特技演員的基本修養(yǎng)

接著我們比較了現(xiàn)有方法和之前用來模仿動(dòng)作捕捉剪輯的方法（IGAL）。結(jié)果顯示我們的方法更加簡單，且更好的復(fù)現(xiàn)了參考動(dòng)作。由此得到的策略規(guī)避了很多深度強(qiáng)化學(xué)習(xí)方法的弊端，可以使得訓(xùn)練對象的像人一樣行動(dòng)流暢。

伯克利DeepMimic：虛擬特技演員的基本修養(yǎng)

Insights

參考狀態(tài)初始化

假設(shè)虛擬對象正準(zhǔn)備做后空翻，它怎樣才能知道在半空做一個(gè)完整翻轉(zhuǎn)可以獲得高獎(jiǎng)勵(lì)呢？由于大多強(qiáng)化學(xué)習(xí)方法是可回溯的，他們只觀察已訪問到的狀態(tài)的獎(jiǎng)勵(lì)。在后空翻這個(gè)實(shí)驗(yàn)中，虛擬對象必須在知道翻轉(zhuǎn)中的這些狀態(tài)會(huì)獲得高獎(jiǎng)勵(lì)之前去觀察后空翻的運(yùn)動(dòng)軌跡。但是因?yàn)楹罂辗瓕τ谄鹗己吐涞氐臈l件非常敏感，所以虛擬對象不太可能在隨機(jī)嘗試中劃出一條成功的翻轉(zhuǎn)軌跡。為了給虛擬對象提示，我們會(huì)把它初始化為參考動(dòng)作的隨機(jī)采樣狀態(tài)。所以，虛擬對象有時(shí)從地面開始，有時(shí)從翻轉(zhuǎn)的中間狀態(tài)開始。這樣就可以讓虛擬對象在不知道怎么達(dá)到某些狀態(tài)之前就知道哪些狀態(tài)可以獲得高獎(jiǎng)勵(lì)。

伯克利DeepMimic：虛擬特技演員的基本修養(yǎng)

下圖就是是否使用RSI訓(xùn)練的策略之間的差別，在訓(xùn)練之前，虛擬對象都會(huì)被初始化至一個(gè)特定的狀態(tài)。結(jié)果顯示，未使用RSI訓(xùn)練的對象沒有學(xué)會(huì)后空翻只學(xué)會(huì)了向后跳。

伯克利DeepMimic：虛擬特技演員的基本修養(yǎng)

提前終止

提前終止對于強(qiáng)化學(xué)習(xí)研究者來說很重要，他經(jīng)常被用來提升模仿效率。當(dāng)虛擬對象處于一種無法成功的狀態(tài)時(shí)，就可以提前終止了，以免繼續(xù)模仿。這里我們證明了提前終止對結(jié)果有很重要的影響。我們依舊考慮后空翻這一動(dòng)作，在訓(xùn)練的開始階段，策略非常糟糕，而虛擬對象基本上是不停的失敗。當(dāng)它摔倒后就極難恢復(fù)到之前的狀態(tài)。首次試驗(yàn)成敗基本由樣本決定，所以虛擬對象大多數(shù)時(shí)間都是在地上徒勞掙扎。其他的方法論也曾經(jīng)遭遇過這樣的不平衡問題，比如監(jiān)督學(xué)習(xí)。當(dāng)虛擬對象進(jìn)入無用狀態(tài)時(shí)，就可以終結(jié)這次訓(xùn)練來緩解這個(gè)問題。ET結(jié)合RSI就可以保證數(shù)據(jù)集中的大部分樣本是接近參考軌跡的。沒有ET,虛擬對象就學(xué)不會(huì)空翻，而只會(huì)摔倒然后在地上嘗試表演這一動(dòng)作。

其它成果

通過給模型輸入不同參考動(dòng)作，模擬對象最終可以學(xué)會(huì)24中技巧。

伯克利DeepMimic：虛擬特技演員的基本修養(yǎng)

除了模仿動(dòng)作捕捉片段之外，我們還可以讓虛擬對象執(zhí)行其他任務(wù)。比如提一個(gè)隨機(jī)放置的目標(biāo)，或者向某個(gè)目標(biāo)扔球。

伯克利DeepMimic：虛擬特技演員的基本修養(yǎng)

我們還訓(xùn)練的Atlas機(jī)器人去模仿人類動(dòng)作捕捉的剪輯。盡管Atlas擁有與人不同的形態(tài)和質(zhì)量分布，但它依舊可以復(fù)現(xiàn)目標(biāo)動(dòng)作。該策略不僅可以模仿參考動(dòng)作，還可以在模仿過程中抵抗異常擾動(dòng)。

伯克利DeepMimic：虛擬特技演員的基本修養(yǎng)

如果沒有動(dòng)作捕捉剪輯怎么辦？假設(shè)我們要做霸王龍仿真，由于我們無法獲得霸王龍的的動(dòng)作捕捉影像，我們可以請一個(gè)畫家去畫一些動(dòng)作，然后用使用畫作來訓(xùn)練策略。

伯克利DeepMimic：虛擬特技演員的基本修養(yǎng)

為什么只模仿霸王龍呢？我們還可以試試獅子

伯克利DeepMimic：虛擬特技演員的基本修養(yǎng)

還有龍

伯克利DeepMimic：虛擬特技演員的基本修養(yǎng)

最終結(jié)論是一個(gè)簡單的方法卻取得了很好的結(jié)果。通過縮小跟蹤誤差，我們就可以訓(xùn)練處針對不同對象和技巧的策略。我們希望我們的工作可以幫助虛擬對象和機(jī)器人習(xí)得更多的動(dòng)態(tài)運(yùn)動(dòng)技巧。探索通過更常見的資源（如視頻）來學(xué)會(huì)動(dòng)作模仿是一項(xiàng)激動(dòng)人心的工作。這樣我們就可以克服一些沒法進(jìn)行動(dòng)作捕捉的場景，比如針對某些動(dòng)物或雜亂的環(huán)境動(dòng)作捕捉很難實(shí)現(xiàn)。

以上是雷鋒網(wǎng)全部翻譯內(nèi)容。via BAIR Blog

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

1人收藏

相關(guān)文章

sanman

編輯

發(fā)私信

當(dāng)月熱門文章