0
雷鋒網(wǎng)按:國際計算機視覺與模式識別頂級會議CVPR 2017于 7 月 21 日—7 月 26 日在美國夏威夷召開。雷鋒網(wǎng)記者團也特赴夏威夷為大家?guī)硪皇謭蟮?。在會上,許多杰出的青年學者都將介紹自己的研究和論文,雷鋒網(wǎng)也會對部分內(nèi)容作介紹。
Angela Dai 是斯坦福大學的一名博士生,在 CVPR 上有一個 Spotlight talk,主要介紹 ScanNet,一個擁有標注過 3D 室內(nèi)場景重構(gòu)信息的大規(guī)模 RGB-D 數(shù)據(jù)集。
她最初的想法是,推動數(shù)據(jù)匱乏的機器學習算法的發(fā)展,特別是在 3D 數(shù)據(jù)上。3D 數(shù)據(jù)包含更多信息,比如比如大小和物體之間的距離。但 3D 數(shù)據(jù)更難獲取,為其添加標注也更難,現(xiàn)在 3D 數(shù)據(jù)并不多。
Angela希望用 ScanNet 建立一個可擴展數(shù)據(jù)采集框架。他們首先需要收集 3D 重建數(shù)據(jù),然后用有效的方式對數(shù)據(jù)進行標注,以便收集更多數(shù)據(jù)。目前團隊已經(jīng)收集約 1500 個 RGB-D 的視頻序列,通過 iPad 應(yīng)用加深度傳感器而收集的。然后視頻會被上傳到服務(wù)器,并被自動重建。然后,視頻會被給到亞馬遜 Mechanical Turk,將標注工作眾包出去。
數(shù)據(jù)標注是在一個給定的 3D 場景中,繪制出物體,例如,繪制一個椅子、桌子或者計算機,從而了解什么是什么,以及所在位置。每個圖像通常需要 5 個人來標注。所得數(shù)據(jù)可以在做物體分類這樣的訓練任務(wù)時,作為標準參考。
ScanNet 數(shù)據(jù)集可以幫助直接在 3D 數(shù)據(jù)上訓練算法。例如,如果有一個機器人在房間移動,它需要識別房間里有什么對象,而且不僅需要識別遠處有一個物體,還要確定這個物體是什么。
Angela 和團隊還在現(xiàn)實數(shù)據(jù)上做了幾個場景理解的基準測試。因為現(xiàn)在已有的大型 3D 數(shù)據(jù)集都是合成的,這與現(xiàn)實世界收集的 3D 數(shù)據(jù)有很大不同。
通常情況下,如果你通過合成數(shù)據(jù)庫來訓練算法,當算法用于真實數(shù)據(jù)時效果不會太好,因為計算機并沒有學習到現(xiàn)實世界的數(shù)據(jù)特征?,F(xiàn)實中有很多噪音,很難觀察到一個對象的全部特征?;鶞蕼y試表明,計算機在真實數(shù)據(jù)中的訓練效果,比在合成數(shù)據(jù)中的訓練效果要好得多。真實數(shù)據(jù)以后會有更大的需求。
Angela 以前一直在研究 3D 重建,開發(fā)實時的 3D 重建系統(tǒng),但她后來發(fā)現(xiàn)很難運用于實踐中,因為缺少對于場景的語義理解。在一個場景中,人們會希望知道物體在哪個位置,到底是什么物體,這樣還可以有虛擬助手或聊天機器人一樣的東西,幫助做場景的交互。這也是她開發(fā)新的數(shù)據(jù)集的原因。
另外,除了眾包標注任務(wù),他們也希望能眾包場景重建任務(wù)。除此之外,在語義理解方面還要做很多工作。但他們現(xiàn)在的任務(wù)是,解決物體識別。3D 場景數(shù)據(jù)未來還會有更多有趣的應(yīng)用。
Angela 還很感興趣于將真實世界的數(shù)據(jù)與合成的 CAD 模型相結(jié)合,相關(guān)聯(lián)起來。這么做的一個好處是,合成數(shù)據(jù)比較容易獲得而且易于操作,如果合成數(shù)據(jù)與真實數(shù)據(jù)建立了聯(lián)系,那就可以讓在模型上訓練的系統(tǒng),更容易遷移到真實數(shù)據(jù)上。
當然,更重要的任務(wù)是給 3D 數(shù)據(jù)賦予語義解釋,這有利于使機器人更好地理解世界。
關(guān)于ScanNet的論文,在這里下載。
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。