0
雷鋒網(wǎng)AI科技評論按:伯克利AI實驗室最新發(fā)文公布了用于機器人抓取的Dexterity Network (Dex-Net) 2.0數(shù)據(jù)集,這些數(shù)據(jù)集可以用來訓練根據(jù)實際機器人的點云做抓取規(guī)劃的神經(jīng)網(wǎng)絡(luò)。
本文作者為加州大學伯克利分校博士后研究員Jeff Mahler。雷鋒網(wǎng)全文翻譯如下:
由于傳感器噪聲和遮擋的存在,物體的形狀、位置和質(zhì)量往往不能被精準確定,因此讓機器人能夠可靠地抓取各種不同的物體是很大的一項挑戰(zhàn)。
Dexterity Network(Dex-Net)2.0是一個以魯棒機器人抓取的物理模型為核心的項目,通過多達上千種3D CAD物體模型,生成了海量的平口鉗抓取數(shù)據(jù)集。
這些數(shù)據(jù)集可以用來訓練根據(jù)一個實際機器人的點云做抓取規(guī)劃的神經(jīng)網(wǎng)絡(luò),這個實體機器人可以拿取、運輸各種物體。
為了提高重現(xiàn)性,助力將來的研究,在這里公開如下三個數(shù)據(jù)庫:
1、Dexterity Network (Dex-Net) 2.0數(shù)據(jù)集:670萬對帶有魯棒標簽的合成點云和抓取數(shù)據(jù)。
2、Grasp Quality CNN (GQ-CNN)模型:在Dex-Net 2.0數(shù)據(jù)集中訓練的1800萬個參數(shù)。
3、GQ-CNN Python 程序包: 包含代碼,可以復現(xiàn)我們用生成的數(shù)據(jù)訓練GQ-CNN網(wǎng)絡(luò)的結(jié)果。(點我打開)(注意下面的系統(tǒng)需求)
在這篇文章中,我們也概述了支持Dex-Net 2.0的方法,在實際機器人上的實驗結(jié)果,以及數(shù)據(jù)集、模型和代碼的細節(jié)。
關(guān)于Dexterity Network的研究論文和額外信息可以在這個項目的網(wǎng)站上找到。網(wǎng)址如下:https://berkeleyautomation.github.io/dex-net
Dex-Net是加州大學伯克利分校AUTOLAB實驗室的研究項目,由Ken Goldberg教授指導。
抓取的背景
由于傳感器噪聲和遮擋,很難精確的推斷物體的形狀、位姿、材料、質(zhì)量以及手指與物體之間接觸點的位置等物理性質(zhì),因此讓機器人能夠抓取各種不同的物體很困難。
最近的研究結(jié)果表明,通過大量人類抓取標簽(human grasp labels)或者真實系統(tǒng)上嘗試抓取的數(shù)據(jù)訓練的深度神經(jīng)網(wǎng)絡(luò)可以成功地對許多種不同的物體做抓取規(guī)劃,甚至都不需要對被抓取的物體做清晰的建模,就像曾在計算機視覺領(lǐng)域里看到過的泛化結(jié)果一樣。
然而,生成訓練數(shù)據(jù)集可能需要耗費大量時間。
為了減少訓練時間,可以利用云計算的方法,基于物理抓取模型對大量物體的網(wǎng)格模型快速進行抓取計算。
這些方法通過一個叫抓取魯棒性(the grasp robustness)的參數(shù)來排序抓取動作,這個參數(shù)是通過力學模型預測出的抓取成功率。通過基于物體位置、表面摩擦等屬性計算出的概率分布,判斷抓取動作對任意的力和力矩的抵抗能力。
不過,這些方法對感知系統(tǒng)提出了很高的要求,需要能夠完美地估算上述屬性或是根據(jù)已知的高斯分布來估算屬性。實際中的感知系統(tǒng)很緩慢,容易出錯,可能不能很好地擴展到新的物體上。
盡管經(jīng)過了30多年的研究,通過試探法(heuristics)進行抓取規(guī)劃仍很常見,例如圓柱體探測(detecting cylinders)在家庭整理(home decluttering)和亞馬遜挑揀大賽(the Amazon Picking Challenge)中的應用。
靈敏網(wǎng)絡(luò) (Dex-Net) 2.0
不同于試圖通過圖形來估算3D物體的形狀和位姿,Dex-Net 2.0使用概率模型來從數(shù)據(jù)集生成綜合點云、抓取規(guī)劃以及抓取魯棒標簽(grasp robustness labels),這個數(shù)據(jù)集是基于物理的抓取、圖像渲染和相機噪聲模型生成的3D物體網(wǎng)格。
我們設(shè)計這個方法主要考慮到的是:魯棒性地用平口鉗抓取物體與物體的形狀息息相關(guān)。
把手和圓柱體這樣適合抓取的幾何特征可以在部分點云中看到,它們和抓取之間的關(guān)聯(lián)性也可以在模型生成的樣本中觀察到。
我們假設(shè)具有多層濾波器的深度CNN模型可以學到這些關(guān)聯(lián)性,從而識別出幾何體,與用于圖像分類的CNN模型可以學到類Gabor濾波器類似。
在 “Dex-Net 2.0:借助生成的點云和抓取度量分析,用深度學習規(guī)劃魯棒抓取” 這篇論文中,我們正則化了這個方法并對其進行研究。
在論文中,我們詳述了Dexterity Network (Dex-Net )2.0,這是一個擁有670萬魯棒抓取和點云的數(shù)據(jù)集,數(shù)據(jù)中帶有我們的概率模型生成的噪音,這個概率模型是我們用平口鉗在桌面上抓取剛性物體得到的。
我們開發(fā)了一種深度抓取質(zhì)量卷積神經(jīng)網(wǎng)絡(luò)(GQ-CNN)模型,并在Dex-Net 2.0上對它進行訓練,用候選抓取規(guī)劃和點云估算抓取的魯棒性(grasp robustness)。
利用GQ-CNN模型,可以從帶有邊緣檢測的輸入點云得到候選抓取方案,通過對這些候選抓取方案進行采樣,以及執(zhí)行GQ-CNN估計得到的最魯棒的抓取,就可以在實際機器人上規(guī)劃抓?。?/p>
在Dex-Net 2.0上進行訓練的時候,GQ-CNN學到了一組看起來可以對不同尺寸圖像檢測梯度的低層次濾波器。
濾波器可以分為兩類:一類是用于估算夾鉗和物體之間碰撞的粗導向梯度濾波器(coarse oriented gradient filters),另一類是用于估算手指和物體之間接觸點表面法向量的精細垂直濾波器(fine vertical filters):
在ABB YuMi上進行了如下實驗
為了評估基于GQ-CNN進行抓取規(guī)劃的實際機器人,我們對 ABB YuMi進行了超過1000次的抓取實驗。主要是研究以下兩個指標:
1、模型性能:用一組已知的物體生成數(shù)據(jù),只用這些數(shù)據(jù)訓練的GQ-CNN模型能否讓實際的機器人成功抓取這些物體?
2、普遍性: GQ-CNN模型能否成功地抓取在訓練中沒有出現(xiàn)的新物體?
模型性能
首先,我們測量了這個抓取規(guī)劃方法的能力——當用夾鉗舉起、運輸和搖動物體時,是否能一直保持對物體控制。
我們使用了一組8個已知形狀、質(zhì)心和摩擦特性的3D打印物體,來突出我們的物理模型和實際機器人抓取之間的差異。
為了對失敗模式進行探討,我們?yōu)槎种缸ナ诌x擇具有對抗性的幾何形狀(adversarial geometry)的物體來進行抓取,比如表面光滑或彎曲,開口的狹小物體。
我們發(fā)現(xiàn)Dex-Net 2.0抓取規(guī)劃器(grasp planner)用于實際機器人上可以取得高達93%的成功率,比將精確的物體形狀與點云相匹配的方法快了3倍。
結(jié)果表明:1,當物體屬性已知時,我們的物理模型能有效的預測實際機器人的抓取結(jié)果;2,GQ-CNN模型能被用于規(guī)劃更高精確度的抓取。
下圖是一個例子:
普遍性
我們還測試了一組40個新的有可活動部件或者會變形的物體,例如開罐器和毛巾,從而評估了將抓取規(guī)劃泛化到先前從未見過的物體的能力。
在進一步分析數(shù)據(jù)之后,我們發(fā)現(xiàn)了一個令人驚訝的結(jié)果:在69次預測能夠成功的抓取中,GQ-CNN模型只出現(xiàn)了一次誤報。
99%的精確度非常重要,因為它表明機器人可以根據(jù)它的信心標簽(confidence labels)來預測失敗,并執(zhí)行諸如戳目標物體或向人求助等恢復動作。
局限
用Dex-Net 2.0抓取規(guī)劃的結(jié)果表明,只在利用抓取和圖像形成(image formation)的物理模型產(chǎn)生的數(shù)據(jù)上訓練神經(jīng)網(wǎng)絡(luò),對于很多種不同的物體都可以進行高可靠性的抓取。然而,當前的方法有幾個局限。
1、傳感器精度。實際的深度相機上,缺失數(shù)據(jù)之類的噪聲源在Dex-Net 2.0模型中沒有被考慮進來。此外,深度照相機不能識別桌上的透明物體或平面物體。
2、模型局限:Dex-Net 2.0中使用的物理抓取模型考慮到了對剛體的指尖抓取,我們沒有囊括用夾持器夾起一張平的紙或用一個指頭勾起物體的抓取策略。
3、單一物體。該方法只能抓取一個單獨的物體,目前我們正在擴展Dex-Net 2.0模型功能,研究如何從一堆物體中抓取對象。
4、獨立任務。用這種方法規(guī)劃抓取可以穩(wěn)定的拿取和運輸物體,但沒有考慮到在裝配時對物體的精確定位、堆疊或是連接到另一個物體的用例,這時可能需要更精確的抓取。我們正在通過基于任務的抓取質(zhì)量值(task-based grasp quality metrics)、動態(tài)仿真和演示學習研究可能的擴展功能。
數(shù)據(jù)集和代碼發(fā)布
2017年夏天,我們發(fā)布了我們的代碼、數(shù)據(jù)集和經(jīng)過GQ-CNN權(quán)重訓練的一個子集,我們希望這將有助于進一步的研究和對比。
現(xiàn)在我們發(fā)布Dex-Net 2.0的訓練數(shù)據(jù)集和代碼,其中包括了包含670萬個合成數(shù)據(jù)集的dex-net 2.0數(shù)據(jù)集,從論文中預先訓練過的gq-cnn模型,以及gqcnn Python包,用于復制我們的實驗,將健壯的掌握在gq-cnn的合成數(shù)據(jù)上。
我們希望這將有助于開發(fā)新的GQ-CNN架構(gòu)和訓練方法,這些方法將在生成的數(shù)據(jù)集和我們的機器人已經(jīng)收集到的數(shù)據(jù)集上都能運行得更好。
系統(tǒng)需求
這里有一點需要注意,使用這個特定的數(shù)據(jù)集進行訓練的機器人具有強大的性能,但并不代表其他機器人也會具有這樣的性能,因為這個數(shù)據(jù)集是對以下的組件專用的:
1) ABB YuMi夾持器,數(shù)據(jù)集中使用了它的碰撞幾何外型。
2) Primesense Carmine 1.08傳感器,數(shù)據(jù)集的渲染中使用了它的相機參數(shù)。
3) 相機相對于桌子的空間位置: 在桌子上方50-70厘米范圍內(nèi)直接朝下攝像。
盡管如此,支撐這個數(shù)據(jù)集的算法可以為相關(guān)的其他二手指夾持器、相機和相機位置產(chǎn)生新的數(shù)據(jù)集。
我們假設(shè),如果訓練數(shù)據(jù)集是根據(jù)硬件配置中的夾具幾何結(jié)構(gòu)(gripper geometry)、相機內(nèi)部函數(shù)(intrinsics)和相機位置而專門生成的,基于GQ-CNN的抓取規(guī)劃將會表現(xiàn)得最好。
ABB YuMi Benchmark
我們最佳的模型在合成數(shù)據(jù)上只能達到93%的分類精度,為了研究改進GQ-CNN架構(gòu),我們計劃在Dex-Net 2.0數(shù)據(jù)集上做一個表現(xiàn)排行榜(leaderboard of performance)。
由于數(shù)據(jù)集是針對硬件配置專用的,我們很樂意在我們的實際機器人上對用合成數(shù)據(jù)訓練的、表現(xiàn)明顯高出其它方法的模型做benchmark。
歡迎任何學科或背景的研究人員加入我們。
Python包
為了幫助訓練GQ-CNN模型,我們開發(fā)了 gqcnn Python包。
通過gqcnn,你可以馬上在Dex-Net 2.0生成的數(shù)據(jù)集上開始訓練GQ-CNN模型。
在我們的RSS論文中有教你復現(xiàn)結(jié)果的教程,我們還邀請研究人員在合成數(shù)據(jù)集和通過ABB YuMi機器人收集的抓取數(shù)據(jù)集(datasets of grasps)上進行研究,改善分類性能。
我們還使用ROS服務來進行GQ-CNN的抓取規(guī)劃。ROS包能使用戶看到在GQ-CNN上對自定的點云的抓取規(guī)劃的結(jié)果。
我們鼓勵有興趣的同行在桌面上方約50-70厘米的范圍內(nèi)安裝一個Primesense Carmine 1.08或Microsoft Kinect for Xbox 360,通過基于GQ-CNN的抓取規(guī)劃器進行抓取。
雖然我們的數(shù)據(jù)集不能推廣到上面提到的其他硬件配置上,但希望通過進一步的研究,能夠做到利用GQ-CNN模型讓其他機器人抬舉和運輸物品。
如果你對這一項目的研究合作感興趣,請給Jeff Mahler發(fā)郵件(jmahler@berkeley.edu)。
未來的發(fā)布計劃
我們還計劃在2017年如下日期發(fā)布Dex-Net系統(tǒng)的附加數(shù)據(jù)和功能:
Dex-Net Object Mesh Dataset v1.1:在RSS論文中使用的Dex-Net 1.0系統(tǒng)中1500個3D物體模型的子集,這些子集帶有ABB YuMi平口鉗抓取的標簽。2017年7月12號發(fā)布。
Dex-Net as a Service: 通過HTTP網(wǎng)絡(luò)API對自定義3D模型創(chuàng)建新的數(shù)據(jù)集并計算抓取魯棒性值(grasp robustness metrics)。2017年秋發(fā)布。
Via:http://bair.berkeley.edu/blog/2017/06/27/dexnet-2.0/,雷鋒網(wǎng)編譯。
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。