丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
人工智能 正文
發(fā)私信給高云河
發(fā)送

1

深度學習與強化學習相結合,谷歌訓練機械臂的長期推理能力

本文作者: 高云河 編輯:楊曉凡 2018-07-31 22:25
導語:會分析判斷,會著眼長遠

雷鋒網 AI 科技評論按:機器人如何能夠學到在多樣且復雜的真實世界物體和環(huán)境中能夠廣泛使用的技能呢?如果機器人是設計用來在可控環(huán)境下進行高效的重復工作,那么這個任務就相對來說更加簡單,比如設計一個在流水線上組裝產品的機器人。但要是想要設計能夠觀察周圍環(huán)境,根據(jù)環(huán)境決定最優(yōu)的行動,同時還能夠對不可預知的環(huán)境做出反應的機器人,那難度就

會指數(shù)級的增長。目前,有兩個有力的工具能夠幫助機器人從試驗中學習到這些技能,一個是深度學習,一個是強化學習。深度學習非常適合解決非結構化的真實世界場景,而強化學習能夠實現(xiàn)較長期的推理(longer-term reasoning),同時能夠在一系列決策時做出更好更魯棒的決策。將這兩個工具結合到一起,就有可能能夠讓機器人從自身經驗中不斷學習,使得機器人能夠通過數(shù)據(jù),而不是人工手動定義的方法來掌握運動感知的技能。

為機器人設計強化學習算法主要有幾個挑戰(zhàn):首先真實世界中的物體通常有多樣的視覺和物理特征,接觸力(觸覺)的細微差異可能導致物體的運動難以預測。于此同時機械臂可能會遮擋住視線而導致難以通過視覺識別的方法預測物體運動。此外,機器人傳感器本身充滿噪聲,這也增加了算法的復雜性。所有這些因素結合到一起,使得設計一個能夠學習到通用解決方案的算法變得異常困難,除非訓練數(shù)據(jù)足夠豐富,有足夠多的不同種類的數(shù)據(jù),但是這也使得構建數(shù)據(jù)集的時間成本變得很高。這些難點也激勵著研究者探索能夠復用過去經驗的學習算法,比如之前 Google 設計的抓取學習算法,就能夠從大型數(shù)據(jù)集中獲益。但是該工作存在一個問題,就是機器無法推斷出其行動的長期后果,而這這長期的推理對于學習如何抓取物體是非常重要的。比如,如果多個物體聚集在一起,先將它們中的一個分離出來(稱作「單一化」),在進行抓取時會變得更加容易,但「單一化」這一步驟并不能直接導致抓取成功,而是有一個較為長期的成功率的提升。

深度學習與強化學習相結合,谷歌訓練機械臂的長期推理能力

深度學習與強化學習相結合,谷歌訓練機械臂的長期推理能力

「單一化」的例子

為了提高效率,使用離線策略強化學習(off-policy reinforcement learning)是必須的,即能夠從之前幾小時,幾天或者幾周的數(shù)據(jù)中學習。為了設計一個這樣的能夠從之前的交互中獲得大量不同經驗的離線策略強化學習算法,谷歌的研究人員將大規(guī)模分布式優(yōu)化與一個新型擬合深度Q學習(new fitted deep Q-learning algorithm)算法相結合,名為 QT-Opt 。該論文目前可以在 arXiv上 查看。

QT-Opt是一種分布式 Q 學習算法,支持連續(xù)行動空間,非常適合于機器人問題。為了使用 QT-Opt,研究人員首先使用之前收集的數(shù)據(jù)完全離線地訓練了一個模型。這個過程并不需要運行實際的機器人,這點使得該算法更容易分布式的訓練。之后,將該模型部署到真正的機器人上進行 finetune,這個階段則使用全新的數(shù)據(jù)進行訓練。在運行 QT-Opt 算法時,同時也在積累更多的離線數(shù)據(jù),使得模型能夠訓練得更好,于是也能夠得到更好的數(shù)據(jù),這樣就形成了一個正反饋循環(huán)。

為了將該方法應用到機器人抓取任務上,谷歌的研究人員們使用了 7 個真實的機器人,在四個月的時間里,運行了超過 800 個機器人小時。為了引導數(shù)據(jù)收集過程,研究人員開始時手動設計了一個抓取策略,大概有 15%-30% 的概率能夠成功完成抓取任務。當算法學習到的模型的性能比手動設計的策略更好時,就將機器人的抓取策略換成該學習到的模型。該策略使用相機拍攝圖像,之后返回機械臂和抓取器應該如何運動的數(shù)據(jù)。整個離線訓練數(shù)據(jù)包含超過 1000 種不同物體的抓取數(shù)據(jù)。

深度學習與強化學習相結合,谷歌訓練機械臂的長期推理能力

一些用來訓練抓取的物體

過去的研究表明,跨機器人的經驗分享能夠加速學習過程。研究人員將訓練和數(shù)據(jù)收集的過程擴展到十塊GPU,七個機器人和許多 CPU 上面,這最終收集并處理了一個超過 580,000 次抓取嘗試的大型數(shù)據(jù)集。在最后,研究人員成功訓練了一個能夠在真實機器人上運行的抓取策略,它能夠泛化到不同種類的物體的抓取上,即使這些物體并沒有在訓練時遇到過。

(雷鋒網 AI 科技評論往期報道中,谷歌 AI 負責人 Jeff Dean 曾經談到過他們用大量機械臂組成了一個「機械臂農場」,專門以大規(guī)模訓練的方式解決機器人問題。這也就是一個例子)

深度學習與強化學習相結合,谷歌訓練機械臂的長期推理能力

七個正在采集數(shù)據(jù)的機器人

從定量的角度分析,QT-Opt 方法在訓練集沒有遇到過的物體的 700 次抓取嘗試中,有 96% 的成功率。與之前的基于監(jiān)督學習的抓取方法(成功率78%)相比,該方法將錯誤率降低了五倍以上。

??深度學習與強化學習相結合,谷歌訓練機械臂的長期推理能力

值得注意的是,該抓取策略具有標準機器人抓取系統(tǒng)中不常見的各種閉環(huán)反應行為:

  • 面對一組無法一起拾取的互鎖在一起的物體時,該策略會在拾取之前將其中一塊與其他塊分開。

  • 當抓住互相纏繞的雜亂物體時,該抓取策略會先探測不同的物體,直到手指牢牢握住其中一個,然后才抬起手臂

  • 在機器人抓取到一個物體后,如果人故意將物體從夾具中拍打出來以擾亂機器人(訓練時并沒有這種場景),它會自動重新定位夾具,并進行另一次嘗試。

最重要的是,這些行為都不是手動設計的,它們都是通過 QT-Opt 進行自監(jiān)督訓練而自動學習到的,因為這些行為能夠從長期的角度提高模型抓取的成功率。

深度學習與強化學習相結合,谷歌訓練機械臂的長期推理能力

深度學習與強化學習相結合,谷歌訓練機械臂的長期推理能力

此外,研究人員還發(fā)現(xiàn) QT-Opt 使用較少的數(shù)據(jù)就達到了更高的成功率,盡管可能需要更長時間才能收斂。這點對于機器人來說尤其令人興奮,因為訓練的瓶頸通常是如何收集到眾多真實的機器人數(shù)據(jù),而不是訓練時間。將該方法與其他提高數(shù)據(jù)效率的技術相結合,可能會在機器人技術中開辟一些新的有趣的方向。谷歌的研究人員也正在將 QT-Opt 與最近的學習如何進行自校準(self-calibra)的工作相結合,想要進一步提高模型的泛化能力。

總體而言,QT-Opt 算法是一種通用的強化學習方法,可以為真實世界的機器人提供良好的性能。除了獎勵函數(shù)的定義之外,QT-Opt 的任何內容都沒有針對于機器人抓取做任何設計。這是邁向更通用的機器人學習算法的重要一步,并且也更期待該算法能夠應用到什么其他的機器人任務中。

Via Google Bolg,雷鋒網 AI 科技評論編譯

雷峰網原創(chuàng)文章,未經授權禁止轉載。詳情見轉載須知。

深度學習與強化學習相結合,谷歌訓練機械臂的長期推理能力

分享:
相關文章
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說