丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能學(xué)術(shù) 正文
發(fā)私信給楊曉凡
發(fā)送

0

和谷歌一同探索基于強化學(xué)習(xí)的長距離機器人導(dǎo)航

本文作者: 楊曉凡 2019-03-12 19:05
導(dǎo)語:好的強化學(xué)習(xí)方法可以大幅改善魯棒性

雷鋒網(wǎng) AI 科技評論按:可以智能自主導(dǎo)航的機器人其實可以為人類提供很多便利、很多幫助。僅僅在美國就有三百萬人由于殘疾而不便移動,甚至無法踏出自己的家門一步。能進行自主長距離導(dǎo)航、行動的服務(wù)機器人可以大大提升他們的獨立生活能力,可以幫他們運送生活物品、藥品、行李等等。目前的研究表明,強化學(xué)習(xí)這種方法很適合把原始的傳感器輸入映射為機器人的動作,比如學(xué)習(xí)抓取物體、比如整個機器人的運動控制。然而強化學(xué)習(xí)智能體通常不具備較大空間的理解能力,但這卻是運動中無需人類幫助、安全穿梭長距離、輕松適應(yīng)新的空間所必須的。

和谷歌一同探索基于強化學(xué)習(xí)的長距離機器人導(dǎo)航

谷歌的機器人和 AI 研究人員們近期就研究了這個問題,提出了把深度強化學(xué)習(xí)和長距離運動規(guī)劃相結(jié)合的機器人自主控制算法,而且它還具有很強的自適應(yīng)能力。在下面三篇論文中,谷歌 AI 的研究人員們逐步把深度強化學(xué)習(xí)和長距離運動規(guī)劃結(jié)合起來,探索了更容易適應(yīng)新環(huán)境的機器人自動控制方案。

首先,他們訓(xùn)練的本地規(guī)劃智能體可以執(zhí)行基本的導(dǎo)航動作,安全地穿越較短的地形,不和其它的運動物體發(fā)生碰撞。這些局部規(guī)劃器可以接受來自有噪聲的傳感器的輸入,比如一維激光雷達的深度數(shù)據(jù)可以提供到障礙物的距離,規(guī)劃器可以由此算出機器人控制所需的線速度和角速度。谷歌 AI 的研究人員們在模擬環(huán)境中用自動強化學(xué)習(xí) AutoRL 訓(xùn)練局部規(guī)劃器,AutoRL 的作用是可以自動搜索強化學(xué)習(xí)反饋以及神經(jīng)網(wǎng)絡(luò)架構(gòu)。盡管局部規(guī)劃器的訓(xùn)練距離只有 10~15 米,它們也可以很好地遷移到真實的機器人以及從未見過的環(huán)境中。

這樣,這些局部規(guī)劃器就可以作為大尺度空間中導(dǎo)航的基礎(chǔ)部件。研究人員們隨后構(gòu)建了一個路線圖,在這個圖(graph)中,不同的節(jié)點是不同的位置,接著,在模仿真實機器人的有噪聲的傳感器和控制條件下訓(xùn)練出的局部規(guī)劃器如果能夠在某兩個節(jié)點之間可靠地往來導(dǎo)航,這兩個節(jié)點就會用邊連接起來。

雷鋒網(wǎng) AI 科技評論把這三篇論文的內(nèi)容簡單介紹如下

Learning Navigation Behaviors End-to-End with AutoRL

  • 通過 AutoRL (自動強化學(xué)習(xí))學(xué)習(xí)端到端的導(dǎo)航行為

  • 論文地址:https://ieeexplore.ieee.org/document/8643443

  • 內(nèi)容簡介:這篇論文中,研究人員們在小尺寸、靜態(tài)的環(huán)境中訓(xùn)練局部規(guī)劃智能體。在強化學(xué)習(xí)框架下,深度確定性策略梯度(DDPG)等標(biāo)準(zhǔn)的深度強化學(xué)習(xí)算法面對的是一個非常稀疏的反饋“是否到達了終點”,實際使用中會需要大量的迭代嘗試、消耗許多手工調(diào)節(jié)反饋的人力;此外研究人員們還需要在沒有多少先例可參考的情況下選擇最佳的網(wǎng)絡(luò)結(jié)構(gòu);最后,DDPG 之類的算法不僅學(xué)習(xí)過程不穩(wěn)定,還會出現(xiàn)災(zāi)難性的遺忘癥狀。

    所以研究人員們采用了 AutoRL,這是一種圍繞深度強化學(xué)習(xí)設(shè)計的進化性自動化層,它借助大規(guī)模參數(shù)優(yōu)化,自動搜索最佳的反饋和網(wǎng)絡(luò)結(jié)構(gòu)。并且最終 DDPG 不會再表現(xiàn)出災(zāi)難性遺忘的癥狀,最終學(xué)習(xí)到的策略也有更高的質(zhì)量,對于傳感器、運動器和定位噪聲都更為魯棒,對新環(huán)境的泛化能力也更好。不過,AutoRL 也有樣本效率低的問題。

    這樣訓(xùn)練出的智能體只能執(zhí)行局部導(dǎo)航任務(wù),不過它們對障礙有較好的魯棒性,尤其是,即便是在靜態(tài)障礙的環(huán)境中訓(xùn)練的,它們也可以正確應(yīng)對移動的障礙,還很好地遷移到真實的機器人上。下一步就是探索更長距離的導(dǎo)航。

PRM-RL: Long-Range Robotic Navigation Tasks by Combining Reinforcement Learning and Sampling-based Planning

  • PRM-RL:通過組合強化學(xué)習(xí)和基于采樣的規(guī)劃,完成長距離機器人導(dǎo)航任務(wù)

  • 論文地址:https://ai.google/research/pubs/pub46570

  • ICRA 2018 最佳論文

  • 內(nèi)容簡介:基于采樣的規(guī)劃器一般用于長距離規(guī)劃,它們的工作方式是逼近計算機器人的動作。比如,概率地圖(probabilistic roadmaps,PRMs)方法中就對機器人的姿態(tài)采樣,把這些采樣用可行的變換連接起來,最終形成一個包括了機器人在大范圍空間中運動的地圖。在這篇論文中,研究人員們嘗試把手工調(diào)節(jié)的基于強化學(xué)習(xí)的局部規(guī)劃器(這里并沒有使用 AutoRL)和 PRMs 結(jié)合起來,對機器人的訓(xùn)練目標(biāo)是,在某個局部訓(xùn)練,但訓(xùn)練結(jié)束以后就可以適應(yīng)多種不同的環(huán)境。

Long-Range Indoor Navigation with PRM-RL

  • 基于 PRM-RL 的長距離室內(nèi)導(dǎo)航

  • 論文地址:https://arxiv.org/abs/1902.09458

  • 內(nèi)容簡介:這篇論文在前一篇的 PRM-RL 基礎(chǔ)上又做出了多項改進。首先,把手工調(diào)節(jié)的強化學(xué)習(xí)局部規(guī)劃器替換為了 AutoRL 訓(xùn)練的,這提高了長距離導(dǎo)航的表現(xiàn)。其次,系統(tǒng)中現(xiàn)在加入了 SLAM 地圖,機器人在導(dǎo)航過程中將進行同步的定位和地圖重建,這可以作為運動概率地圖重建的資源。由于 SLAM 地圖是帶有噪聲的,這一變化也補上了模擬環(huán)境和真實環(huán)境中的機器人由于噪聲程度不同帶來的性能區(qū)別,實際上,虛擬環(huán)境中導(dǎo)航的成功率和真實機器人上的實驗成功率幾乎相同。最后,研究人員們還增加了分布式地圖構(gòu)建,這極大增加了機器人最大可以支持的地圖大小,最多可以達到 70 萬個節(jié)點。

更具體的介紹可以參見谷歌技術(shù)博客 ai.googleblog.com,雷鋒網(wǎng) AI 科技評論編譯

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

和谷歌一同探索基于強化學(xué)習(xí)的長距離機器人導(dǎo)航

分享:
相關(guān)文章

讀論文為生

日常笑點滴,學(xué)術(shù)死腦筋
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說