0
本文作者: 大壯旅 | 2017-12-10 11:34 |
雷鋒網(wǎng):最近,一向低調(diào)的蘋(píng)果居然一改原本“封閉”的傳統(tǒng),悄悄發(fā)布了一篇有關(guān)深度神經(jīng)網(wǎng)絡(luò)研究的研究論文。
顯然,蘋(píng)果的這篇論文與自動(dòng)駕駛有關(guān),而它多年前就開(kāi)始自動(dòng)駕駛研發(fā)的小秘密早已大白于天下。該論文中的神經(jīng)網(wǎng)絡(luò)名為 VoxelNet,蘋(píng)果一直在通過(guò)激光雷達(dá)點(diǎn)云訓(xùn)練它執(zhí)行目標(biāo)識(shí)別任務(wù)。
誠(chéng)然,這樣的方式相比基于圖像的目標(biāo)識(shí)別(很多年來(lái)一直是深度學(xué)習(xí)研究的主題之一)高級(jí)不了多少,但對(duì)自動(dòng)駕駛汽車(chē)行業(yè)的深度學(xué)習(xí)來(lái)說(shuō),這確實(shí)是個(gè)新興領(lǐng)域。因此,蘋(píng)果的研究結(jié)果具有重大的參考價(jià)值。
自動(dòng)駕駛汽車(chē)是人工智能和機(jī)器學(xué)習(xí)領(lǐng)域研究者們數(shù)十年科研的成果匯聚,他們這段漫長(zhǎng)而豐富的研究過(guò)程,值得我們一起重新領(lǐng)略。在蘋(píng)果、百度的科學(xué)家們發(fā)布的研究成果便是這樣的例子。
2018年1月16日,雷鋒網(wǎng)新智駕將在硅谷舉辦GAIR硅谷智能駕駛峰會(huì),我們也邀請(qǐng)了重磅嘉賓進(jìn)行主題報(bào)告分享,希望與大家一起領(lǐng)略這些探索者們、先鋒們?cè)谧詣?dòng)駕駛科研生涯過(guò)程中的精彩點(diǎn)滴。更多峰會(huì)信息點(diǎn)擊 https://gair.leiphone.com/gair/gairsv2018。
據(jù)雷鋒網(wǎng)了解,蘋(píng)果的 VoxelNet 還吸收了此前兩個(gè)將深度學(xué)習(xí)應(yīng)用在激光雷達(dá)點(diǎn)云上的經(jīng)驗(yàn),它們都來(lái)自與百度相關(guān)的研究者。由于這三篇論文就像三重唱,因此下面我將對(duì)它們進(jìn)行一次快速掃描。
第一篇名為《適用于點(diǎn)云車(chē)輛探測(cè)的 3D全卷積網(wǎng)絡(luò)》(3D Fully Convolutional Network for Vehicle Detection in Point Cloud),作者為來(lái)自百度的 Bo Li。
在該論文中,Bo Li 主要在一個(gè) 3D 點(diǎn)云上應(yīng)用了 DenseBox 全卷積網(wǎng)絡(luò)(FCN)架構(gòu)。
為此,Li 將點(diǎn)云分成了體素,這樣就不用通過(guò)神經(jīng)網(wǎng)絡(luò)運(yùn)行 2D 像素了,運(yùn)行 3D 體素就行。
隨后,訓(xùn)練全卷積網(wǎng)絡(luò)來(lái)識(shí)別體素點(diǎn)云中的功能。
對(duì)全卷積網(wǎng)絡(luò)進(jìn)行非樣本處理以產(chǎn)生兩個(gè)輸出張量:其中一個(gè)是客體性張量,另一個(gè)則是包圍盒張量。
從感知的目的來(lái)看,包圍盒張量可能更有趣,它會(huì)在車(chē)輛周?chē)爱?huà)”出一個(gè)包圍盒。
第二篇論文是清華大學(xué)和百度多位研究者(Xiaozhi Chen, Huimin Ma, Ji Wan, Bo Li, Tian Xia)的智慧結(jié)晶,該論文名為《自動(dòng)駕駛多視角 3D 目標(biāo)探測(cè)網(wǎng)絡(luò)》(Multi-View 3D Object Detection Network for Autonomous Driving)。
研究人員開(kāi)發(fā)了多視角 3D 網(wǎng)絡(luò)(MV3D),它將激光雷達(dá)和攝像頭圖像整合進(jìn)了一個(gè)復(fù)雜的神經(jīng)網(wǎng)絡(luò)管道。
與第一篇論文相反(在激光雷達(dá)點(diǎn)云之外構(gòu)建立體像素),MV3D 只是用到了點(diǎn)云中兩個(gè)單獨(dú)的 2D 視角:一個(gè)來(lái)自前端,一個(gè)則來(lái)自頂端(鳥(niǎo)瞰角度)。此外,MV3D 還用到了與激光雷達(dá)掃描有關(guān)的 2D 攝像頭圖像。它們能提供三個(gè)單獨(dú)的 2D 圖像(激光雷達(dá)前置視角、激光雷達(dá)頂端視角和攝像頭前端視角)。
隨后,MV3D 可利用每個(gè)視角生成一個(gè) 2D 包圍盒。鳥(niǎo)瞰視角的 LiDAR 生成的包圍盒與地面平行,另外兩個(gè)視角生成的 2D 包圍盒則與地面垂直。將這些包圍盒相結(jié)合,就能生成一個(gè)“護(hù)衛(wèi)”住車(chē)輛的 3D 包圍盒。
在網(wǎng)絡(luò)末端,MV3D 則用到了“深度融合”來(lái)結(jié)合三個(gè)神經(jīng)網(wǎng)絡(luò)管道的輸出。最終得出的結(jié)果就是目標(biāo)分類(lèi)和 3D 包圍盒。不過(guò)實(shí)話(huà)說(shuō),我不太清楚“深度融合”是如何工作的。
第三篇論文就是最近一石激起千層浪的蘋(píng)果論文,該論文名為《VoxelNet:基于 3D 目標(biāo)識(shí)別點(diǎn)云的端對(duì)端學(xué)習(xí)》(VoxelNet: End-to-End Learning for Point Cloud Based 3D Object Detection)。
VoxelNet 有三個(gè)組成部分,它們分別是:特征學(xué)習(xí)網(wǎng)絡(luò)、卷積中間層和區(qū)域建議網(wǎng)絡(luò)。
學(xué)者認(rèn)為,特征學(xué)習(xí)網(wǎng)絡(luò)是“知識(shí)的主要來(lái)源”。這個(gè)網(wǎng)絡(luò)的工作是開(kāi)啟立體像素中半隨機(jī)的點(diǎn)樣本,隨后這些點(diǎn)樣本會(huì)穿過(guò)一個(gè)全互聯(lián)網(wǎng)絡(luò)(非全卷積網(wǎng)絡(luò))。該網(wǎng)絡(luò)能學(xué)習(xí)逐點(diǎn)特性,這些特性與體素(與這些點(diǎn)同源)息息相關(guān)。
事實(shí)上,該網(wǎng)絡(luò)在利用這些逐點(diǎn)特性培養(yǎng)體素特性,它們是這些體素的素描。雖然這里講的有些過(guò)于簡(jiǎn)單,不過(guò)它們其實(shí)就是學(xué)習(xí)特性,不但能描述每個(gè)體素,還與車(chē)輛各部分的分類(lèi)有關(guān)。因此,一個(gè)體素可能會(huì)帶有“黑色”、“橡膠”和“胎面”等特性,從這里我們就能猜測(cè)到,這個(gè)體素“盯上”的是輪胎。當(dāng)然,人不一定能理解每一個(gè)真實(shí)特性,但這確實(shí)是一個(gè)好思路。
最后這些體素特性經(jīng)由卷積中間層進(jìn)入?yún)^(qū)域建議網(wǎng)絡(luò),隨后穿過(guò)該區(qū)域進(jìn)入包圍盒和分類(lèi)區(qū)域。
這條研究線最令人印象深刻的地方其實(shí)在于它的新。那兩篇百度論文一年前才首次公布,過(guò)去半年才開(kāi)始得到大家的熱烈討論,而蘋(píng)果的論文更是剛剛出爐。
現(xiàn)在可真是個(gè)為自動(dòng)駕駛汽車(chē)打造深度神經(jīng)網(wǎng)絡(luò)的好時(shí)候。
雷鋒網(wǎng)推薦閱讀:
蘋(píng)果首次發(fā)表自動(dòng)駕駛論文,透露秘密計(jì)劃背后的野心
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。