Facebook 在CVPR 2017的四篇論文精選解讀｜CVPR 2017

本文作者：哈帝?白求恩

編輯：郭奕欣

2017-07-22 03:40

專題：CVPR 2017

導(dǎo)語(yǔ)：Facebook在CVPR上的四篇論文解讀。

CVPR是IEEE一年一度的計(jì)算機(jī)視覺與模式識(shí)別技術(shù)會(huì)議，也是計(jì)算機(jī)視覺的世界三大頂會(huì)之一。2017年的CVPR會(huì)議將于7月21日到26日于夏威夷Convention中心召開，雷鋒網(wǎng)將赴前線做覆蓋與報(bào)道。

論文一：ResNext:Aggregated Residual Transformations for Deep Neural Networks

深層神經(jīng)網(wǎng)絡(luò)的聚合殘差變換

論文作者：Saining Xie, Ross Girshick, Piotr Dollar, Zhuowen Tu1, Kaiming He

論文鏈接：https://arxiv.org/abs/1611.05431

論文摘要：

據(jù)雷鋒網(wǎng)(公眾號(hào)：雷鋒網(wǎng))了解，F(xiàn)acebook團(tuán)隊(duì)和圣地亞哥大學(xué)的AI研究員提出了一種采用VGG / ResNets重復(fù)層次策略的圖像分類網(wǎng)絡(luò)架構(gòu)。該網(wǎng)絡(luò)中的一個(gè)模塊執(zhí)行一組轉(zhuǎn)換，每個(gè)轉(zhuǎn)換都是低維嵌入的，其輸出是通過(guò)求和計(jì)算得到的。為了簡(jiǎn)單的實(shí)現(xiàn)這個(gè)想法，這些聚合的轉(zhuǎn)換都具有相同的拓?fù)?。這種設(shè)計(jì)可以自由的擴(kuò)展到任何大量的轉(zhuǎn)換，而無(wú)需專門設(shè)計(jì)。

在這種簡(jiǎn)化的情況下，該模型有兩種其他等效形式。

Facebook 在CVPR 2017的四篇論文精選解讀｜CVPR 2017

ResNeXt的等效構(gòu)建塊。（a）：聚集殘余變換（b）：等同于（a），執(zhí)行早期并置。（c）：等同于（a，b），執(zhí)行分組卷積。

該團(tuán)隊(duì)的簡(jiǎn)單設(shè)計(jì)產(chǎn)生了一個(gè)均一的多分支架構(gòu)，只需要設(shè)定幾個(gè)超參數(shù)。這個(gè)策略揭示了一個(gè)全新的維度，稱為“基數(shù)”（即轉(zhuǎn)換集合的大?。浅松疃群蛯挾鹊某叽缰獾挠忠粋€(gè)重要因素。

在ImageNet-1K數(shù)據(jù)集上，該團(tuán)隊(duì)的實(shí)驗(yàn)表明，即使在保持復(fù)雜性的限制條件下，增加基數(shù)也能夠提高分類精度。此外，當(dāng)增加容量的時(shí)候，增加基數(shù)相對(duì)于增加深度和寬度而言更加有效。隨著基數(shù)C從1增加到32，保持復(fù)雜性的同時(shí)，錯(cuò)誤率卻不斷降低。

Facebook 在CVPR 2017的四篇論文精選解讀｜CVPR 2017

ImageNet-1K消融實(shí)驗(yàn)。（上半部分）：ResNet-50具有復(fù)雜性（41億FLOP）; （下半部分）：ResNet-101具有復(fù)雜性（78億FLOP）。錯(cuò)誤率在224?224個(gè)像素的單個(gè)體上進(jìn)行評(píng)估。

該團(tuán)隊(duì)的名為ResNeXt的模型，是他們打入ILSVRC 2016分類任務(wù)的基礎(chǔ)，他們?cè)诖舜稳蝿?wù)當(dāng)中獲得了第二名。該團(tuán)隊(duì)還進(jìn)一步調(diào)查了ImageNet-5K集和COCO檢測(cè)集上的ResNeXt，與ResNet對(duì)應(yīng)相比，都顯示出更好的結(jié)果。

論文二：Feature Pyramid Networks for Object Detection

用于對(duì)象檢測(cè)的特征金字塔網(wǎng)絡(luò)

論文作者：Tsung-Yi Lin, Piotr Doll, Ross Girshick, Kaiming He, Bharath Hariharan, Serge Belongie

論文鏈接： https://arxiv.org/pdf/1612.03144.pdf

論文摘要：

特征圖像金字塔(featurized image pyramids)是用于檢測(cè)不同尺度物體的識(shí)別系統(tǒng)的基本組成部分。但最近的深度學(xué)習(xí)對(duì)象檢測(cè)器避免了使用金字塔表示方法，部分原因是由于它們是由計(jì)算得出的并且內(nèi)存緊張。

Facebook 在CVPR 2017的四篇論文精選解讀｜CVPR 2017

圖1（a）使用圖像金字塔構(gòu)建特征金字塔。在每個(gè)圖像尺度上獨(dú)立地計(jì)算特征，速度很慢。（b）最近的檢測(cè)系統(tǒng)選擇僅使用單一尺度特征來(lái)更快地檢測(cè)。（c）一個(gè)替代方案是重新使用由ConvNet計(jì)算得到的金字塔特征層次，就好像它是一個(gè)特征化的圖像金字塔。（d）本文提出的特征金字塔網(wǎng)絡(luò)（FPN）如（b）和（c）所示，但更準(zhǔn)確。在該圖中，特征圖由藍(lán)色輪廓表示，較粗的輪廓表示語(yǔ)義上更強(qiáng)的特征。

在本文中，谷歌團(tuán)隊(duì)和康奈爾大學(xué)團(tuán)隊(duì)利用深度卷積網(wǎng)絡(luò)（(ConvNets)）的特征結(jié)構(gòu)的金字塔形狀，同時(shí)創(chuàng)建一個(gè)具有強(qiáng)大語(yǔ)義的特征金字塔。為了實(shí)現(xiàn)這一目標(biāo)，需要依靠一種通過(guò)自上而下的路徑和橫向連接低分辨率、語(yǔ)義強(qiáng)大的特征與高分辨率，語(yǔ)義薄弱的特征，將它們連接組成架構(gòu)（圖1（d））。結(jié)果是組成一個(gè)在所有級(jí)別都具有豐富的語(yǔ)義的特征金字塔，并且可以使用單個(gè)輸入圖像快速構(gòu)建。換句話說(shuō)，本文展示了如何創(chuàng)建網(wǎng)絡(luò)中的特征金字塔，可以用來(lái)替代特征圖像金字塔而同時(shí)不犧牲速度或內(nèi)存。該方法利用架構(gòu)作為特征金字塔，其中每個(gè)級(jí)別獨(dú)立地做出預(yù)測(cè)（例如，對(duì)象檢測(cè)）

通過(guò)對(duì)小型，中型和大型對(duì)象（AR_s，AR_m和AR_l）的平均回憶AR，以及COCO-style的平均回憶（AR）來(lái)進(jìn)行評(píng)估。報(bào)告每個(gè)圖像100和1000個(gè)提案的結(jié)果（AR¹⁰⁰和AR^1k）。

Facebook 在CVPR 2017的四篇論文精選解讀｜CVPR 2017

表1.使用RPN的邊界框提案結(jié)果，對(duì)COCO最小值進(jìn)行了評(píng)估。所有型號(hào)都在trainval35k上訓(xùn)練。 “橫向”和“自頂向下”列分別表示側(cè)向和自頂向下的連接。列“特征”表示頂部附著的特征圖。所有結(jié)果都基于ResNet-50，并且共享相同的超參數(shù)。

Facebook 在CVPR 2017的四篇論文精選解讀｜CVPR 2017

表2.使用 Fast R-CNN 對(duì)固定的提案集（RPN，{Pk}，表1（c））的對(duì)象檢測(cè)結(jié)果，在COCO最小值集上進(jìn)行評(píng)估。模型在trainval35k上訓(xùn)練。所有結(jié)果都基于ResNet-50，并且共享相同的超參數(shù)。

Facebook 在CVPR 2017的四篇論文精選解讀｜CVPR 2017

表3.使用Faster R-CNN [29]的對(duì)象檢測(cè)結(jié)果對(duì)COCO最小值進(jìn)行了評(píng)估。 RPN網(wǎng)絡(luò)與Fast R-CNN一致。模型在trainval35k上進(jìn)行培訓(xùn)，并使用ResNet-50。

這種稱為功能金字塔網(wǎng)絡(luò)（FPN）的架構(gòu)在幾個(gè)應(yīng)用程序中作為通用特征提取器都顯示出了顯著的改進(jìn)。在basic Faster R-CNN系統(tǒng)中使用FPN，能夠在COCO檢測(cè)基準(zhǔn)上獲得最先進(jìn)的單一模型結(jié)果，在沒有響鈴和口哨聲的情況下，超過(guò)了所有現(xiàn)有的單一模型條目，包括了COCO 2016挑戰(zhàn)賽的獲獎(jiǎng)?wù)?。此外，該金字塔結(jié)構(gòu)可以用所有尺度進(jìn)行訓(xùn)練，并在訓(xùn)練/測(cè)試時(shí)間也可以一致的使用。因此，F(xiàn)PN能夠比所有現(xiàn)有的方法獲得更高的精度。此外，這種改進(jìn)是在單一規(guī)?；€上不增加測(cè)試時(shí)間的情況下實(shí)現(xiàn)的。研究者相信這些進(jìn)展將有助于未來(lái)的研究和應(yīng)用。該方法可以在GPU上以6 FPS運(yùn)行，因此是多尺度對(duì)象檢測(cè)的實(shí)用且準(zhǔn)確的解決方案。

論文一：Learning Features by Watching Objects Move

通過(guò)觀察物體移動(dòng)來(lái)學(xué)習(xí)特征

論文作者：Deepak Pathak, Ross Girshick, Piotr Doll, Trevor Darrell, Bharath Hariharan1

Learning Features by Watching Objects Move

論文鏈接：https://arxiv.org/abs/1612.06370

論文摘要：

本文提出了一種新穎而直觀的無(wú)監(jiān)管特征學(xué)習(xí)方法。該方法是受到人類視覺系統(tǒng)的啟發(fā)而得來(lái)的。一起移動(dòng)的像素往往是同屬于一個(gè)物體的。解析靜態(tài)場(chǎng)景的能力隨著時(shí)間的推移而改善，這表明基于運(yùn)動(dòng)的分組出現(xiàn)在早期，靜態(tài)分組將在隨后可能是基于由運(yùn)動(dòng)線索引導(dǎo)而獲取的。

Facebook 在CVPR 2017的四篇論文精選解讀｜CVPR 2017

圖1.低等級(jí)的外觀線索導(dǎo)致錯(cuò)誤的分組（右上角）。運(yùn)動(dòng)可以幫助正確地分組，在一起移動(dòng)的像素（左下方）將被識(shí)別為同一組的單個(gè)對(duì)象（右下）。使用無(wú)監(jiān)督的基于運(yùn)動(dòng)的分組來(lái)訓(xùn)練ConvNet來(lái)分割靜態(tài)圖像中的對(duì)象，并顯示出網(wǎng)絡(luò)能夠?qū)W習(xí)特征，并將其應(yīng)用到其他任務(wù)中。

該團(tuán)隊(duì)在探討是否可以使用基于低級(jí)運(yùn)動(dòng)的分組線索來(lái)學(xué)習(xí)有效的視覺表示。具體來(lái)說(shuō)，他們將使用無(wú)監(jiān)督的基于運(yùn)動(dòng)的視頻片段來(lái)獲得分段，并將其用作“偽地面真相”來(lái)訓(xùn)練卷積網(wǎng)絡(luò)，以從單個(gè)幀中分割識(shí)別對(duì)象。

Facebook 在CVPR 2017的四篇論文精選解讀｜CVPR 2017

圖2.方法概述使用運(yùn)動(dòng)線索來(lái)分割視頻中的對(duì)象而無(wú)需任何監(jiān)督。然后，對(duì)ConvNet進(jìn)行訓(xùn)練，從靜態(tài)幀中預(yù)測(cè)這些分段，即沒有任何運(yùn)動(dòng)線索。然后，將學(xué)習(xí)的到的物體表示應(yīng)用到其他識(shí)別任務(wù)中。

Facebook 在CVPR 2017的四篇論文精選解讀｜CVPR 2017

圖7. ConvNet上生成的圖像分段示例。 ConvNet能夠識(shí)別運(yùn)動(dòng)對(duì)象，并從單個(gè)框架中分割出來(lái)。掩碼并不完美，但它們確實(shí)能捕捉到一般物體的形狀。

鑒于廣泛證據(jù)顯示，運(yùn)動(dòng)在人類視覺系統(tǒng)發(fā)展中發(fā)揮著關(guān)鍵作用，他們希望這種無(wú)監(jiān)督學(xué)習(xí)的直接的方法將比在文獻(xiàn)中研究的巧妙設(shè)計(jì)的任務(wù)更有效。事實(shí)上，廣泛的實(shí)驗(yàn)表明，用于物體檢測(cè)的轉(zhuǎn)移學(xué)習(xí)時(shí)，該方法的表現(xiàn)在多種設(shè)置中都顯著優(yōu)于以前的無(wú)監(jiān)督方法。特別是當(dāng)目標(biāo)任務(wù)的訓(xùn)練數(shù)據(jù)很少時(shí)，即使大多數(shù)ConvNet參數(shù)被凍結(jié)，該方法也保持著良好的性能。

雷鋒網(wǎng)整理

雷峰網(wǎng)版權(quán)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

4人收藏

相關(guān)文章

專題

CVPR 2017

本專題其他文章

哈帝?白求恩

知情人士

發(fā)私信

當(dāng)月熱門文章