0
本文作者: 奕欣 | 2018-05-22 15:19 | 專題:ICRA 2017:創(chuàng)新、創(chuàng)業(yè)和解決方法 |
雷鋒網(wǎng) AI 科技評論按:ICRA 2018 正于近期在澳大利亞布里斯班舉行。ICRA 全稱為「IEEE International Conference on Robotics and Automation」(機器人與自動化會議),是機器人技術(shù)領(lǐng)域最有影響力的國際學術(shù)會議之一。雷鋒網(wǎng) AI 科技評論在去年曾赴新加坡參加 ICRA 2017,并帶回融合產(chǎn)業(yè)與學術(shù)的專題豐富報道。詳情可了解去年的 ICRA 2017 大會專題內(nèi)容:http://m.ozgbdpf.cn/special/289/201705/592e37165105d.html
根據(jù)學術(shù)會議慣例,Workshops & Tutorials 將在大會正會前后召開。作為能夠給予與會者宏觀啟迪及學術(shù)縱覽體驗的一項重要議程,持續(xù)一整天的 Workshops & Tutorials 自然早早吸引了不少學者前來注冊參會。
今年 ICRA 2018 共有 1 個全天 Tutorials 及 22 個全天 Workshops;此外還有 3 個半天 Tutorials 及 9 個全天 Workshops。雷鋒網(wǎng) AI 科技評論從議程進行不完全統(tǒng)計,機器感知與控制仍然是 ICRA 2018 的關(guān)注重點。所有的 Workshops & Tutorials 中有近一半是圍繞兩個議程的討論,而基于現(xiàn)實問題的應(yīng)用探討(包括道德倫理)也有 5 個相關(guān)議題。此外,仿生機器人、人機交互、自主系統(tǒng)構(gòu)建等話題也是比較熱門的關(guān)注方向。
雷鋒網(wǎng) AI 科技評論選取了其中幾個研討內(nèi)容做簡單分享,更詳細的研討內(nèi)容可參考大會官網(wǎng)中關(guān)于 Workshops & Tutorials 的介紹:http://icra2018.org/accepted-workshops-tutorials/
由谷歌大腦兩位女研究員 Anelia Angelova 和 Jana Kosecka 組織的 Tutorial「Deep Learning for Robotics Perception」從當前非常流行的一些深度學習網(wǎng)絡(luò)入手,分享和探討了機器如何借助機器學習更好感知周圍的世界,并根據(jù)實際任務(wù)做出更加精準的反應(yīng)。
值得一提的是,現(xiàn)場還配備了手語翻譯人員,可以說是非常人性化了。
目前機器人需要處理多種感應(yīng)模式,包括「是什么?在哪里?怎么樣?」等問題,這就涉及到非常多的問題,比如三維重建,視覺測距、對象分類、人類/物體的姿態(tài)估計、語義分割、匹配,識別和本地化等。也就是說,機器人需要在這個過程中學會如何主動感知和控制。因此,深度學習的流行也為探索這一問題提供了一種值得借鑒和學習的方法。
最開始,機器人研究者采用神經(jīng)網(wǎng)絡(luò)的初衷是為了進行分類特征提取,但目前隨著深度學習的廣泛應(yīng)用,數(shù)據(jù)驅(qū)動模式能夠構(gòu)建強大的端到端訓(xùn)練方法,如今已經(jīng)可以拓展到更多的感知模式和視頻檢測上,并進一步構(gòu)建神經(jīng)網(wǎng)絡(luò)架構(gòu)工程在無監(jiān)督或自我監(jiān)督的訓(xùn)練方式中。
在 Tutorial 里,Angelova 先介紹了從視覺領(lǐng)域角度上,機器人在感知領(lǐng)域是如何做探索的。從視覺角度來看,分類與檢測是目前機器人學最主要的兩個相關(guān)問題。
從分類入手,以 AlexNet、Inception、ResNet、DenseNet 等為代表的深度神經(jīng)網(wǎng)絡(luò),在機器人領(lǐng)域又可分為物體分類及場景識別兩種任務(wù);
從檢測入手,R-CNN、Fast R-CNN、Faster R-CNN 為代表的深度神經(jīng)網(wǎng)絡(luò)走的是「Two-stage approaches」,即 Bounding box + classification 的方法;而以 YOLO、SSD、Retinanet 為代表的網(wǎng)絡(luò),采用的是「Single-stage approaches」,即 Direct「regression」to locations and classification 的方法。
基于深度神經(jīng)網(wǎng)絡(luò)的準確性及可行性,我們需要肯定深度神經(jīng)網(wǎng)絡(luò)對于機器人在感知上的探索。目前已知的一些網(wǎng)絡(luò)體系架構(gòu)也在快速發(fā)展,通過引入架構(gòu),標準的計算機視覺算法能夠比較順暢地應(yīng)用于機器人技術(shù)上。
隨后,基于姿態(tài)估計和匹配、場景分割和密集預(yù)測、抓取及從視頻中學習等四個方面,兩位科學家展示了一些具體的研究成果及應(yīng)用場景。
在三維點云及即時檢測、多任務(wù)檢測上,深度學習對機器人的研究也有著不少先進成果。Binh-Son Hua1、Duc Thanh Nguyen、Lap-Fai Yu、Sai-Kit Yeung1 及 Daniela Rus 組織了一個名為「Creating Annotated Scene Meshes for Training and Testing Robot Systems」的 Workshop,針對 3D 場景重建和標注的相關(guān)進展進行了介紹和探討。與較為容易獲取且數(shù)據(jù)量龐大的 2D 圖像數(shù)據(jù)集相比,從現(xiàn)實世界中捕獲,重建和注釋 3D 場景并非一件容易的事情。
受限于點云本身的無序性,不同設(shè)備在不同位置掃描物體所獲得的數(shù)據(jù)不盡相同,數(shù)據(jù)難以通過端到端方法來處理;點云本身也面臨數(shù)據(jù)缺失的問題,比如被掃描模型往往會被遮擋。
針對無序點云數(shù)據(jù)的深度學習方法研究,目前進展還相對緩慢。在 CVPR 2017 上,斯坦福大學提出的 PointNet 是第一種直接處理無序點云數(shù)據(jù)的深度神經(jīng)網(wǎng)絡(luò)。團隊通過在每個點訓(xùn)練一個 MLP,把每個點投到一個 1024 維空間上,并采用了 Max Pooling 層做為主要的對稱函數(shù),比較好地解決了順序問題。隨后斯坦福大學在 NIPS 2017 上的 Pointnet++,對 PointNet 做出了更多改進。
在本次 Workshop 中,學者們還探討了數(shù)據(jù)捕獲,實時和離線重建,自動和交互式注釋,質(zhì)量控制和基準測量指標等目前的熱點問題。
組織者之一的 Daniela Rus 是 MIT 的 CSAIL 主任,在 2016 年的 CCF-GAIR 大會上,Daniela Rus 教授曾經(jīng)作為大會嘉賓受邀做主題演講。她曾表示,雖然深度學習已經(jīng)取得了非常顯著的成果,但研究者還面臨深度學習的三個挑戰(zhàn)。首先是深度學習需要大量的訓(xùn)練數(shù)據(jù);其次是深度學習并非永遠不會犯錯;再者是它的可解釋性。
不論是機器感知,或是以三維點云為代表的技術(shù),在利用深度學習探索的過程中,必然還是會遇到同樣的問題。而在深度學習與機器人學的結(jié)合中,人與機器人的相互協(xié)作與共同進步,也將成為每一年 ICRA 孜孜不倦的目標?!溉祟惡蜋C器人各有擅長的事情,我相信未來會是一個人與機器共同協(xié)作,互補對方短板的社會,我們也需要努力去創(chuàng)造這種社會?!?/p>
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。
本專題其他文章