最前沿：從虛擬到現(xiàn)實，DRL 讓小狗機(jī)器人跑起來了

本文作者：汪思穎

2018-05-06 18:01

導(dǎo)語：Google最新的一篇paper告訴我們：DRL在真實機(jī)器人上面是可行的，只要我們盡可能減小 reality gap。

雷鋒網(wǎng) AI 研習(xí)社按，本文首發(fā)于知乎專欄智能單元，作者 Flood Sung，雷鋒網(wǎng) AI 研習(xí)社獲其授權(quán)轉(zhuǎn)載。

1. 前言

深度增強學(xué)習(xí) DRL 在仿真機(jī)器人已經(jīng)取得了很大的成功，同時，也在真實的機(jī)器人抓取（Robotic Manipulation）問題上有了很大的進(jìn)展。然而依然會有很多搞機(jī)器人的朋友會質(zhì)疑深度增強學(xué)習(xí)（Deep Reinforcement Learning）在真實機(jī)器人上的可行性，比如說能在大狗機(jī)器人上面通過 DRL 來實現(xiàn)嗎？老實說我也覺得困難重重，最主要的問題就是所謂的 reality gap：真實機(jī)器人和仿真機(jī)器人存在很多的差別，在仿真中能夠 work，大概率不能在真實環(huán)境中 work。

然而，Google 最新的一篇 paper 告訴我們：不！DRL 在真實機(jī)器人上面是可行的，只要我們盡可能的減小這個 reality gap：

論文地址：https://arxiv.org/abs/1804.10332

看了上面的視頻，不知道大家會不會被驚訝到？以前需要巨量人工來調(diào)整的控制算法，現(xiàn)在用一個兩層的神經(jīng)網(wǎng)絡(luò)實現(xiàn)了！可能沒有搞過機(jī)器人控制的朋友不太理解，就單單在四軸飛行器上調(diào)一個 PID 控制器都要調(diào)到崩潰！所以當(dāng)真正在真實的四足機(jī)器人上用神經(jīng)網(wǎng)絡(luò)實現(xiàn)運動控制的時候，感覺真的有點難以置信！

如果我們要簡單的說一下，未來就是機(jī)器人全神經(jīng)網(wǎng)絡(luò)化，全部不需要復(fù)雜人工編程，全部通過自己學(xué)習(xí)的方式來掌握運動是完全可能的！并且，可以比傳統(tǒng)機(jī)器人控制算法做得更好！

下面我們來稍微說一下這篇 paper 的一些思想方法。

2. 構(gòu)建一個足夠接近真實的仿真環(huán)境就好！

四足機(jī)器人不同于機(jī)械臂，能夠直接在真實環(huán)境中進(jìn)行 DRL 訓(xùn)練，四足機(jī)器人訓(xùn)練成本顯然要高太多，因為它到底要摔多少次才能走起來？就算土豪如 Google 也沒那個錢來燒！所以，直接在真實環(huán)境中用 DRL 訓(xùn)練四足機(jī)器人是基本不可能的，那么我們能做的顯然就只有在仿真環(huán)境中訓(xùn)練，然后遷移到真實機(jī)器人上了。那么，這里的核心就是 Reality Gap 的問題，如何減少 Reality Gap，讓仿真環(huán)境足夠真實？

這篇文章處理了以下幾個部分：

1）構(gòu)建一個更接近真實的仿真四足機(jī)器人模型。這個很好理解，比如讓仿真機(jī)器人的尺寸，重心等等都和真實機(jī)器人基本一致。

2）構(gòu)建一個更好的驅(qū)動器模型（Actuator Model）。這里的實驗采用的是位置控制，也就是頂層的神經(jīng)網(wǎng)絡(luò)只輸出目標(biāo)位置，下層的執(zhí)行還是實驗傳統(tǒng) PD 控制器。所以呢，那就在仿真環(huán)境中調(diào)一個和真實差不多的電機(jī)控制器唄。

3）模擬好延遲 Latency。這一點對于機(jī)器人控制很重要，真實機(jī)器人在控制時由于硬件數(shù)據(jù)傳輸，延遲是不一樣的，所以要在仿真中模擬好延遲。

對于仿真環(huán)境也就是上面三部分的處理。那么，接下來就是怎么訓(xùn)練的問題了。

3. 加點訓(xùn)練技巧 tricks 讓神經(jīng)網(wǎng)絡(luò)的泛化能力加強

訓(xùn)練也是需要精細(xì)化調(diào)整的。這個工作直接使用 PPO 來訓(xùn)練，兩層的神經(jīng)網(wǎng)絡(luò)，位置控制，為了使得訓(xùn)練效果更好，又做了下面三個處理技巧：

1）隨機(jī)化動態(tài)參數(shù)（Dynamic Parameters），也就是仿真機(jī)器人中的各種參數(shù)數(shù)據(jù)，比如重量，摩擦力，IMU 的誤差等等。

2）加上隨機(jī)外部擾動（Random Perturbations）, 上一條是機(jī)器人內(nèi)部參數(shù)，這一條則是在外部施加一個額外的擾動力，比如模擬一下風(fēng)什么的。

3）使用一個合適的觀察空間（Observation Space），這一條則是針對具體的訓(xùn)練，一個合適的觀察空間對于訓(xùn)練效果影響很大，特別如果維度太高的話就很難訓(xùn)練。所以這個工作僅僅使用了四足機(jī)器人基座的俯仰角，傾斜角，基座的角速度及 8 個電機(jī)的角度。而這就足夠來訓(xùn)練。

上面的處理技巧很好理解，特別是前兩個，就是通過隨機(jī)化讓神經(jīng)網(wǎng)絡(luò)的 generalization 泛化能力變強，這樣的話即使遷移到真實環(huán)境，也能有較好的適應(yīng)！

4. 一點小結(jié)

這個工作是一個極其工程化的工作，上面我們分析的這篇文章的主要方法其實都非常好理解，甚至談不上所謂的創(chuàng)新。但是對于這種工作，能夠 work 才是關(guān)鍵。Work 就是一切！Google 的這個工作可以進(jìn)一步的提升大家對于深度學(xué)習(xí)應(yīng)用到機(jī)器人上面的信心！相信接下來 Robot Learning 這個領(lǐng)域必然會有更大的發(fā)展！

雷峰網(wǎng)版權(quán)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

9人收藏

相關(guān)文章

汪思穎

編輯

關(guān)注AI學(xué)術(shù)，例如論文

發(fā)私信

當(dāng)月熱門文章

最前沿：從虛擬到現(xiàn)實，DRL 讓小狗機(jī)器人跑起來了

最前沿：從虛擬到現(xiàn)實，DRL 讓小狗機(jī)器人跑起來了