和谷歌一同探索基于強化學(xué)習(xí)的長距離機器人導(dǎo)航

本文作者：楊曉凡

2019-03-12 19:05

導(dǎo)語：好的強化學(xué)習(xí)方法可以大幅改善魯棒性

雷鋒網(wǎng) AI 科技評論按：可以智能自主導(dǎo)航的機器人其實可以為人類提供很多便利、很多幫助。僅僅在美國就有三百萬人由于殘疾而不便移動，甚至無法踏出自己的家門一步。能進行自主長距離導(dǎo)航、行動的服務(wù)機器人可以大大提升他們的獨立生活能力，可以幫他們運送生活物品、藥品、行李等等。目前的研究表明，強化學(xué)習(xí)這種方法很適合把原始的傳感器輸入映射為機器人的動作，比如學(xué)習(xí)抓取物體、比如整個機器人的運動控制。然而強化學(xué)習(xí)智能體通常不具備較大空間的理解能力，但這卻是運動中無需人類幫助、安全穿梭長距離、輕松適應(yīng)新的空間所必須的。

谷歌的機器人和 AI 研究人員們近期就研究了這個問題，提出了把深度強化學(xué)習(xí)和長距離運動規(guī)劃相結(jié)合的機器人自主控制算法，而且它還具有很強的自適應(yīng)能力。在下面三篇論文中，谷歌 AI 的研究人員們逐步把深度強化學(xué)習(xí)和長距離運動規(guī)劃結(jié)合起來，探索了更容易適應(yīng)新環(huán)境的機器人自動控制方案。

首先，他們訓(xùn)練的本地規(guī)劃智能體可以執(zhí)行基本的導(dǎo)航動作，安全地穿越較短的地形，不和其它的運動物體發(fā)生碰撞。這些局部規(guī)劃器可以接受來自有噪聲的傳感器的輸入，比如一維激光雷達的深度數(shù)據(jù)可以提供到障礙物的距離，規(guī)劃器可以由此算出機器人控制所需的線速度和角速度。谷歌 AI 的研究人員們在模擬環(huán)境中用自動強化學(xué)習(xí) AutoRL 訓(xùn)練局部規(guī)劃器，AutoRL 的作用是可以自動搜索強化學(xué)習(xí)反饋以及神經(jīng)網(wǎng)絡(luò)架構(gòu)。盡管局部規(guī)劃器的訓(xùn)練距離只有 10~15 米，它們也可以很好地遷移到真實的機器人以及從未見過的環(huán)境中。

這樣，這些局部規(guī)劃器就可以作為大尺度空間中導(dǎo)航的基礎(chǔ)部件。研究人員們隨后構(gòu)建了一個路線圖，在這個圖（graph）中，不同的節(jié)點是不同的位置，接著，在模仿真實機器人的有噪聲的傳感器和控制條件下訓(xùn)練出的局部規(guī)劃器如果能夠在某兩個節(jié)點之間可靠地往來導(dǎo)航，這兩個節(jié)點就會用邊連接起來。

雷鋒網(wǎng) AI 科技評論把這三篇論文的內(nèi)容簡單介紹如下

Learning Navigation Behaviors End-to-End with AutoRL

通過 AutoRL （自動強化學(xué)習(xí)）學(xué)習(xí)端到端的導(dǎo)航行為
論文地址：https://ieeexplore.ieee.org/document/8643443
內(nèi)容簡介：這篇論文中，研究人員們在小尺寸、靜態(tài)的環(huán)境中訓(xùn)練局部規(guī)劃智能體。在強化學(xué)習(xí)框架下，深度確定性策略梯度（DDPG）等標(biāo)準(zhǔn)的深度強化學(xué)習(xí)算法面對的是一個非常稀疏的反饋“是否到達了終點”，實際使用中會需要大量的迭代嘗試、消耗許多手工調(diào)節(jié)反饋的人力；此外研究人員們還需要在沒有多少先例可參考的情況下選擇最佳的網(wǎng)絡(luò)結(jié)構(gòu)；最后，DDPG 之類的算法不僅學(xué)習(xí)過程不穩(wěn)定，還會出現(xiàn)災(zāi)難性的遺忘癥狀。
所以研究人員們采用了 AutoRL，這是一種圍繞深度強化學(xué)習(xí)設(shè)計的進化性自動化層，它借助大規(guī)模參數(shù)優(yōu)化，自動搜索最佳的反饋和網(wǎng)絡(luò)結(jié)構(gòu)。并且最終 DDPG 不會再表現(xiàn)出災(zāi)難性遺忘的癥狀，最終學(xué)習(xí)到的策略也有更高的質(zhì)量，對于傳感器、運動器和定位噪聲都更為魯棒，對新環(huán)境的泛化能力也更好。不過，AutoRL 也有樣本效率低的問題。
這樣訓(xùn)練出的智能體只能執(zhí)行局部導(dǎo)航任務(wù)，不過它們對障礙有較好的魯棒性，尤其是，即便是在靜態(tài)障礙的環(huán)境中訓(xùn)練的，它們也可以正確應(yīng)對移動的障礙，還很好地遷移到真實的機器人上。下一步就是探索更長距離的導(dǎo)航。

PRM-RL: Long-Range Robotic Navigation Tasks by Combining Reinforcement Learning and Sampling-based Planning

PRM-RL：通過組合強化學(xué)習(xí)和基于采樣的規(guī)劃，完成長距離機器人導(dǎo)航任務(wù)
論文地址：https://ai.google/research/pubs/pub46570
ICRA 2018 最佳論文
內(nèi)容簡介：基于采樣的規(guī)劃器一般用于長距離規(guī)劃，它們的工作方式是逼近計算機器人的動作。比如，概率地圖（probabilistic roadmaps，PRMs）方法中就對機器人的姿態(tài)采樣，把這些采樣用可行的變換連接起來，最終形成一個包括了機器人在大范圍空間中運動的地圖。在這篇論文中，研究人員們嘗試把手工調(diào)節(jié)的基于強化學(xué)習(xí)的局部規(guī)劃器（這里并沒有使用 AutoRL）和 PRMs 結(jié)合起來，對機器人的訓(xùn)練目標(biāo)是，在某個局部訓(xùn)練，但訓(xùn)練結(jié)束以后就可以適應(yīng)多種不同的環(huán)境。

Long-Range Indoor Navigation with PRM-RL

基于 PRM-RL 的長距離室內(nèi)導(dǎo)航
論文地址：https://arxiv.org/abs/1902.09458
內(nèi)容簡介：這篇論文在前一篇的 PRM-RL 基礎(chǔ)上又做出了多項改進。首先，把手工調(diào)節(jié)的強化學(xué)習(xí)局部規(guī)劃器替換為了 AutoRL 訓(xùn)練的，這提高了長距離導(dǎo)航的表現(xiàn)。其次，系統(tǒng)中現(xiàn)在加入了 SLAM 地圖，機器人在導(dǎo)航過程中將進行同步的定位和地圖重建，這可以作為運動概率地圖重建的資源。由于 SLAM 地圖是帶有噪聲的，這一變化也補上了模擬環(huán)境和真實環(huán)境中的機器人由于噪聲程度不同帶來的性能區(qū)別，實際上，虛擬環(huán)境中導(dǎo)航的成功率和真實機器人上的實驗成功率幾乎相同。最后，研究人員們還增加了分布式地圖構(gòu)建，這極大增加了機器人最大可以支持的地圖大小，最多可以達到 70 萬個節(jié)點。

更具體的介紹可以參見谷歌技術(shù)博客 ai.googleblog.com，雷鋒網(wǎng) AI 科技評論編譯

雷峰網(wǎng)版權(quán)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

4人收藏

相關(guān)文章

楊曉凡

讀論文為生

日常笑點滴，學(xué)術(shù)死腦筋

發(fā)私信

當(dāng)月熱門文章