深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)相結(jié)合，谷歌訓(xùn)練機(jī)械臂的長(zhǎng)期推理能力

本文作者：高云河

編輯：楊曉凡

2018-07-31 22:25

導(dǎo)語(yǔ)：會(huì)分析判斷，會(huì)著眼長(zhǎng)遠(yuǎn)

雷鋒網(wǎng) AI 科技評(píng)論按：機(jī)器人如何能夠?qū)W到在多樣且復(fù)雜的真實(shí)世界物體和環(huán)境中能夠廣泛使用的技能呢？如果機(jī)器人是設(shè)計(jì)用來(lái)在可控環(huán)境下進(jìn)行高效的重復(fù)工作，那么這個(gè)任務(wù)就相對(duì)來(lái)說(shuō)更加簡(jiǎn)單，比如設(shè)計(jì)一個(gè)在流水線上組裝產(chǎn)品的機(jī)器人。但要是想要設(shè)計(jì)能夠觀察周圍環(huán)境，根據(jù)環(huán)境決定最優(yōu)的行動(dòng)，同時(shí)還能夠?qū)Σ豢深A(yù)知的環(huán)境做出反應(yīng)的機(jī)器人，那難度就

會(huì)指數(shù)級(jí)的增長(zhǎng)。目前，有兩個(gè)有力的工具能夠幫助機(jī)器人從試驗(yàn)中學(xué)習(xí)到這些技能，一個(gè)是深度學(xué)習(xí)，一個(gè)是強(qiáng)化學(xué)習(xí)。深度學(xué)習(xí)非常適合解決非結(jié)構(gòu)化的真實(shí)世界場(chǎng)景，而強(qiáng)化學(xué)習(xí)能夠?qū)崿F(xiàn)較長(zhǎng)期的推理（longer-term reasoning)，同時(shí)能夠在一系列決策時(shí)做出更好更魯棒的決策。將這兩個(gè)工具結(jié)合到一起，就有可能能夠讓機(jī)器人從自身經(jīng)驗(yàn)中不斷學(xué)習(xí)，使得機(jī)器人能夠通過數(shù)據(jù)，而不是人工手動(dòng)定義的方法來(lái)掌握運(yùn)動(dòng)感知的技能。

為機(jī)器人設(shè)計(jì)強(qiáng)化學(xué)習(xí)算法主要有幾個(gè)挑戰(zhàn)：首先真實(shí)世界中的物體通常有多樣的視覺和物理特征，接觸力（觸覺）的細(xì)微差異可能導(dǎo)致物體的運(yùn)動(dòng)難以預(yù)測(cè)。于此同時(shí)機(jī)械臂可能會(huì)遮擋住視線而導(dǎo)致難以通過視覺識(shí)別的方法預(yù)測(cè)物體運(yùn)動(dòng)。此外，機(jī)器人傳感器本身充滿噪聲，這也增加了算法的復(fù)雜性。所有這些因素結(jié)合到一起，使得設(shè)計(jì)一個(gè)能夠?qū)W習(xí)到通用解決方案的算法變得異常困難，除非訓(xùn)練數(shù)據(jù)足夠豐富，有足夠多的不同種類的數(shù)據(jù)，但是這也使得構(gòu)建數(shù)據(jù)集的時(shí)間成本變得很高。這些難點(diǎn)也激勵(lì)著研究者探索能夠復(fù)用過去經(jīng)驗(yàn)的學(xué)習(xí)算法，比如之前 Google 設(shè)計(jì)的抓取學(xué)習(xí)算法，就能夠從大型數(shù)據(jù)集中獲益。但是該工作存在一個(gè)問題，就是機(jī)器無(wú)法推斷出其行動(dòng)的長(zhǎng)期后果，而這這長(zhǎng)期的推理對(duì)于學(xué)習(xí)如何抓取物體是非常重要的。比如，如果多個(gè)物體聚集在一起，先將它們中的一個(gè)分離出來(lái)（稱作「單一化」），在進(jìn)行抓取時(shí)會(huì)變得更加容易，但「單一化」這一步驟并不能直接導(dǎo)致抓取成功，而是有一個(gè)較為長(zhǎng)期的成功率的提升。

深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)相結(jié)合，谷歌訓(xùn)練機(jī)械臂的長(zhǎng)期推理能力

「單一化」的例子

為了提高效率，使用離線策略強(qiáng)化學(xué)習(xí)（off-policy reinforcement learning)是必須的，即能夠從之前幾小時(shí)，幾天或者幾周的數(shù)據(jù)中學(xué)習(xí)。為了設(shè)計(jì)一個(gè)這樣的能夠從之前的交互中獲得大量不同經(jīng)驗(yàn)的離線策略強(qiáng)化學(xué)習(xí)算法，谷歌的研究人員將大規(guī)模分布式優(yōu)化與一個(gè)新型擬合深度Q學(xué)習(xí)（new fitted deep Q-learning algorithm）算法相結(jié)合，名為 QT-Opt 。該論文目前可以在 arXiv上查看。

QT-Opt是一種分布式 Q 學(xué)習(xí)算法，支持連續(xù)行動(dòng)空間，非常適合于機(jī)器人問題。為了使用 QT-Opt，研究人員首先使用之前收集的數(shù)據(jù)完全離線地訓(xùn)練了一個(gè)模型。這個(gè)過程并不需要運(yùn)行實(shí)際的機(jī)器人，這點(diǎn)使得該算法更容易分布式的訓(xùn)練。之后，將該模型部署到真正的機(jī)器人上進(jìn)行 finetune，這個(gè)階段則使用全新的數(shù)據(jù)進(jìn)行訓(xùn)練。在運(yùn)行 QT-Opt 算法時(shí)，同時(shí)也在積累更多的離線數(shù)據(jù)，使得模型能夠訓(xùn)練得更好，于是也能夠得到更好的數(shù)據(jù)，這樣就形成了一個(gè)正反饋循環(huán)。

為了將該方法應(yīng)用到機(jī)器人抓取任務(wù)上，谷歌的研究人員們使用了 7 個(gè)真實(shí)的機(jī)器人，在四個(gè)月的時(shí)間里，運(yùn)行了超過 800 個(gè)機(jī)器人小時(shí)。為了引導(dǎo)數(shù)據(jù)收集過程，研究人員開始時(shí)手動(dòng)設(shè)計(jì)了一個(gè)抓取策略，大概有 15%-30% 的概率能夠成功完成抓取任務(wù)。當(dāng)算法學(xué)習(xí)到的模型的性能比手動(dòng)設(shè)計(jì)的策略更好時(shí)，就將機(jī)器人的抓取策略換成該學(xué)習(xí)到的模型。該策略使用相機(jī)拍攝圖像，之后返回機(jī)械臂和抓取器應(yīng)該如何運(yùn)動(dòng)的數(shù)據(jù)。整個(gè)離線訓(xùn)練數(shù)據(jù)包含超過 1000 種不同物體的抓取數(shù)據(jù)。

深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)相結(jié)合，谷歌訓(xùn)練機(jī)械臂的長(zhǎng)期推理能力

一些用來(lái)訓(xùn)練抓取的物體

過去的研究表明，跨機(jī)器人的經(jīng)驗(yàn)分享能夠加速學(xué)習(xí)過程。研究人員將訓(xùn)練和數(shù)據(jù)收集的過程擴(kuò)展到十塊GPU，七個(gè)機(jī)器人和許多 CPU 上面，這最終收集并處理了一個(gè)超過 580,000 次抓取嘗試的大型數(shù)據(jù)集。在最后，研究人員成功訓(xùn)練了一個(gè)能夠在真實(shí)機(jī)器人上運(yùn)行的抓取策略，它能夠泛化到不同種類的物體的抓取上，即使這些物體并沒有在訓(xùn)練時(shí)遇到過。

（雷鋒網(wǎng) AI 科技評(píng)論往期報(bào)道中，谷歌 AI 負(fù)責(zé)人 Jeff Dean 曾經(jīng)談到過他們用大量機(jī)械臂組成了一個(gè)「機(jī)械臂農(nóng)場(chǎng)」，專門以大規(guī)模訓(xùn)練的方式解決機(jī)器人問題。這也就是一個(gè)例子）

深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)相結(jié)合，谷歌訓(xùn)練機(jī)械臂的長(zhǎng)期推理能力

七個(gè)正在采集數(shù)據(jù)的機(jī)器人

從定量的角度分析，QT-Opt 方法在訓(xùn)練集沒有遇到過的物體的 700 次抓取嘗試中，有 96% 的成功率。與之前的基于監(jiān)督學(xué)習(xí)的抓取方法（成功率78%）相比，該方法將錯(cuò)誤率降低了五倍以上。

?? 深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)相結(jié)合，谷歌訓(xùn)練機(jī)械臂的長(zhǎng)期推理能力

值得注意的是，該抓取策略具有標(biāo)準(zhǔn)機(jī)器人抓取系統(tǒng)中不常見的各種閉環(huán)反應(yīng)行為：

面對(duì)一組無(wú)法一起拾取的互鎖在一起的物體時(shí)，該策略會(huì)在拾取之前將其中一塊與其他塊分開。
當(dāng)抓住互相纏繞的雜亂物體時(shí)，該抓取策略會(huì)先探測(cè)不同的物體，直到手指牢牢握住其中一個(gè)，然后才抬起手臂
在機(jī)器人抓取到一個(gè)物體后，如果人故意將物體從夾具中拍打出來(lái)以擾亂機(jī)器人（訓(xùn)練時(shí)并沒有這種場(chǎng)景），它會(huì)自動(dòng)重新定位夾具，并進(jìn)行另一次嘗試。

最重要的是，這些行為都不是手動(dòng)設(shè)計(jì)的，它們都是通過 QT-Opt 進(jìn)行自監(jiān)督訓(xùn)練而自動(dòng)學(xué)習(xí)到的，因?yàn)檫@些行為能夠從長(zhǎng)期的角度提高模型抓取的成功率。

深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)相結(jié)合，谷歌訓(xùn)練機(jī)械臂的長(zhǎng)期推理能力

此外，研究人員還發(fā)現(xiàn) QT-Opt 使用較少的數(shù)據(jù)就達(dá)到了更高的成功率，盡管可能需要更長(zhǎng)時(shí)間才能收斂。這點(diǎn)對(duì)于機(jī)器人來(lái)說(shuō)尤其令人興奮，因?yàn)橛?xùn)練的瓶頸通常是如何收集到眾多真實(shí)的機(jī)器人數(shù)據(jù)，而不是訓(xùn)練時(shí)間。將該方法與其他提高數(shù)據(jù)效率的技術(shù)相結(jié)合，可能會(huì)在機(jī)器人技術(shù)中開辟一些新的有趣的方向。谷歌的研究人員也正在將 QT-Opt 與最近的學(xué)習(xí)如何進(jìn)行自校準(zhǔn)（self-calibra）的工作相結(jié)合，想要進(jìn)一步提高模型的泛化能力。

總體而言，QT-Opt 算法是一種通用的強(qiáng)化學(xué)習(xí)方法，可以為真實(shí)世界的機(jī)器人提供良好的性能。除了獎(jiǎng)勵(lì)函數(shù)的定義之外，QT-Opt 的任何內(nèi)容都沒有針對(duì)于機(jī)器人抓取做任何設(shè)計(jì)。這是邁向更通用的機(jī)器人學(xué)習(xí)算法的重要一步，并且也更期待該算法能夠應(yīng)用到什么其他的機(jī)器人任務(wù)中。

Via Google Bolg，雷鋒網(wǎng) AI 科技評(píng)論編譯

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。