1
| 本文作者: 汪思穎 | 2017-10-15 22:50 | 專(zhuān)題:ICCV 2017 |
雷鋒網(wǎng) AI科技評(píng)論按,目標(biāo)檢測(cè)作為一個(gè)基礎(chǔ)的計(jì)算機(jī)視覺(jué)任務(wù),在自動(dòng)駕駛、視頻監(jiān)控等領(lǐng)域擁有非常廣泛的應(yīng)用前景。目前主流的目標(biāo)檢測(cè)方法都嚴(yán)重依賴于在大規(guī)模數(shù)據(jù)集(如ImageNet)上預(yù)訓(xùn)練初始模型。而在DSOD: Learning Deeply Supervised Object Detectors from Scratch這篇論文中,作者通過(guò)分析深度檢測(cè)模型從頭訓(xùn)練存在的問(wèn)題,提出了四個(gè)原則,他們根據(jù)這些原則構(gòu)建了DSOD模型,該模型在三個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集(PASCAL VOC 07, 12和COCO)上都達(dá)到了頂尖的性能。這篇論文已被ICCV2017收錄。
在近期雷鋒網(wǎng) AI研習(xí)社的線上分享會(huì)上,該論文的第一作者——復(fù)旦大學(xué)Ph.D沈志強(qiáng)為我們帶來(lái)了對(duì)DSOD的詳細(xì)解讀,與此同時(shí)也介紹了他在CVPR 2017和ICCV 2017上的一些其它研究工作。
沈志強(qiáng),復(fù)旦大學(xué)Ph.D,UIUC ECE系訪問(wèn)學(xué)者,導(dǎo)師Thomas S. Huang教授。研究興趣包括:計(jì)算機(jī)視覺(jué)(目標(biāo)檢測(cè)、視頻描述、細(xì)粒度分類(lèi)等),深度學(xué)習(xí),機(jī)器學(xué)習(xí)等。他曾在因特爾中國(guó)研究院(Intel Labs China)進(jìn)行為期一年的實(shí)習(xí)研究,期間合作者包括研究院Jianguo Li博士和在讀博士生Zhuang Liu等。
分享內(nèi)容:
很高興與大家分享我們的最新的工作DSOD,這篇論文已經(jīng)被ICCV 2017 所收錄。

眾所周知,計(jì)算機(jī)視覺(jué)有幾個(gè)比較重要的分類(lèi),包括目標(biāo)分類(lèi)、定位、目標(biāo)檢測(cè)、實(shí)例分割,前兩個(gè)分類(lèi)是針對(duì)單個(gè)目標(biāo),后兩個(gè)分類(lèi)是針對(duì)多個(gè)目標(biāo),DSOD主要是針對(duì)目標(biāo)檢測(cè)。

說(shuō)到目標(biāo)檢測(cè),大家可能會(huì)想到如下幾個(gè)比較有代表性的方法:R-CNN、Faster-RCNN、YOLO、SSD。下圖是關(guān)于他們的一些介紹。

ImageNet預(yù)訓(xùn)練模型的限制:一是模型結(jié)構(gòu)是固定的,你不可能改變它的結(jié)構(gòu),二是會(huì)有l(wèi)earning bias,三是會(huì)出現(xiàn)domain不匹配的情況。我們的思路是從頭訓(xùn)練檢測(cè)器,但是我們用R-CNN和Faster-RCNN都沒(méi)能得到較好的表現(xiàn)。

簡(jiǎn)單回顧下Rol pooling,如下圖所示:

它其實(shí)就是一個(gè)max pooling:

可以在下圖中看到forward和backward情況,把Rol pooling去掉這個(gè)框架就類(lèi)似于YOLO和SSD。

幾個(gè)原則:一是Proposal-free。去掉Rol pooling,雖然對(duì)模型的表現(xiàn)影響不大,但這一點(diǎn)非常重要。


二是Deep Supervision。采用Dense Block,能避免梯度消失的情況。

三是Dense Prediction Structure。大大減少了模型的參數(shù)量,特征包含更多信息。

四是Stem Block。采用stem結(jié)構(gòu),好處是能減少輸入圖片信息的丟失。

下面是DSOD整體結(jié)構(gòu):

這是我們做的一些對(duì)比實(shí)驗(yàn),可以看到增加這些結(jié)構(gòu)之后性能提升的百分點(diǎn):

下面是在PASCAL VOC2007上的實(shí)驗(yàn)結(jié)果,可以看到Faster-RCNN和R-CNN速度很慢,YOLO和SSD的速度非???,但是mAP不高。最下面是我們沒(méi)有用預(yù)訓(xùn)練模型做的一些對(duì)比實(shí)驗(yàn),可以看到Faster-RCNN和R-CNN均以失敗告終,最后的一行的實(shí)驗(yàn)加入COCO后mAP值提升,說(shuō)明DSOD模型本身的泛化能力非常強(qiáng)。

下面是在PASCAL VOC2012上的實(shí)驗(yàn)結(jié)果,可以看到DSOD有不錯(cuò)的mAP值。

接下來(lái)是在COCO上面的一些結(jié)果,對(duì)比起來(lái)DSOD的也有很好的性能。

最后是一些實(shí)際的檢測(cè)結(jié)果,可以看到bounding box對(duì)目標(biāo)的檢測(cè)非常貼合。

論文地址: https://arxiv.org/abs/1708.01241
代碼:https://github.com/szq0214/DSOD
模型可視化示例:http://ethereon.github.io/netscope/#/gist/b17d01f3131e2a60f9057b5d3eb9e04d

最后簡(jiǎn)單介紹下我們?cè)贑VPR 2017的相關(guān)工作Dense Video captioning,主要是做視頻描述。在視頻當(dāng)中包含很多內(nèi)容,而這些內(nèi)容并不一致,因此視頻描述相對(duì)來(lái)說(shuō)會(huì)比較困難。下圖是一些示例。

網(wǎng)絡(luò)結(jié)構(gòu)如下圖所示。具體細(xì)節(jié)大家可以參見(jiàn)我們的論文Weakly Supervised Dense Video Captioning,論文地址:https://arxiv.org/abs/1704.01502

接下來(lái)是我們?cè)贗CCV 2017上的工作,主要是做網(wǎng)絡(luò)壓縮。我們用了一個(gè)衡量channel是否重要的值來(lái)訓(xùn)練模型,然后剔除掉不太重要的特征層。論文代碼我們也放在github上了。具體細(xì)節(jié)大家可以參見(jiàn)論文Learning Efficient Convolutional Networks through Network Slimming,論文地址:https://arxiv.org/abs/1708.06519

本次分享的視頻如下:
雷鋒網(wǎng) AI科技評(píng)論整理編輯。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。
本專(zhuān)題其他文章