看了這篇文章，了解深度卷積神經(jīng)網(wǎng)絡(luò)在目標(biāo)檢測中的進(jìn)展

本文作者： AI研習(xí)社

編輯：賈智龍

2017-04-24 11:53

導(dǎo)語：詳細(xì)介紹了基于 Region Proposal 的方法和直接預(yù)測邊界框的方法。

近些年來，深度卷積神經(jīng)網(wǎng)絡(luò)（DCNN）在圖像分類和識別上取得了很顯著的提高?；仡檹?2014 到 2016 這兩年多的時間，先后涌現(xiàn)出了 R-CNN，F(xiàn)ast R-CNN, Faster R-CNN, ION, HyperNet, SDP-CRC, YOLO,G-CNN, SSD 等越來越快速和準(zhǔn)確的目標(biāo)檢測方法。

1. 基于 Region Proposal 的方法

該類方法的基本思想是：先得到候選區(qū)域再對候選區(qū)域進(jìn)行分類和邊框回歸。

1.1 R-CNN^[1]

R-CNN 是較早地將 DCNN 用到目標(biāo)檢測中的方法。其中心思想是對圖像中的各個候選區(qū)域先用 DCNN 進(jìn)行特征提取并使用一個 SVM 進(jìn)行分類，分類的結(jié)果是一個初略的檢測結(jié)果，之后再次使用 DCNN 的特征，結(jié)合另一個 SVM 回歸模型得到更精確的邊界框。

看了這篇文章，了解深度卷積神經(jīng)網(wǎng)絡(luò)在目標(biāo)檢測中的進(jìn)展

其中獲取候選區(qū)域的方法是常用的 selective search。一個圖形中可以得到大約 2000 個不同大小、不同類別的候選區(qū)域，他們需要被變換到同一個尺寸以適應(yīng) CNN 所處理的圖像大?。?27x227）。

該文章中使用的 CNN 結(jié)構(gòu)來自 AlexNet, 已經(jīng)在 ImageNet 數(shù)據(jù)集上的 1000 個類別的分類任務(wù)中訓(xùn)練過，再通過參數(shù)微調(diào)使該網(wǎng)絡(luò)結(jié)構(gòu)適應(yīng)該文章中的 21 個類別的分類任務(wù)。

該方法在 VOC 2011 test 數(shù)據(jù)集上取得了 71.8% 的檢測精度。該方法的缺點(diǎn)是：1，訓(xùn)練和測試過程分為好幾個階段：得到候選區(qū)域，DCNN 特征提取, SVM 分類、SVM 邊界框回歸，訓(xùn)練過程非常耗時。2，訓(xùn)練過程中需要保存 DCNN 得到的特征，很占內(nèi)存空間。3，測試過程中，每一個候選區(qū)域都要提取一遍特征，而這些區(qū)域有一定重疊度，各個區(qū)域的特征提取獨(dú)立計算，效率不高，使測試一幅圖像非常慢。

1.2 Fast R-CNN^[2]

在 R-CNN 的基礎(chǔ)上，為了使訓(xùn)練和測試過程更快，Ross Girshick 提出了 Fast R-CNN，使用 VGG19 網(wǎng)絡(luò)結(jié)構(gòu)比 R-CNN 在訓(xùn)練和測試時分別快了 9 倍和 213 倍。其主要想法是: 1，對整個圖像進(jìn)行卷積得到特征圖像而不是對每個候選區(qū)域分別算卷積；2，把候選區(qū)域分類和邊框擬合的兩個步驟結(jié)合起來而不是分開做。原理圖如下：

看了這篇文章，了解深度卷積神經(jīng)網(wǎng)絡(luò)在目標(biāo)檢測中的進(jìn)展

該文章中使用 ROI Pooling Layer 將不同大小的候選區(qū)域的特征轉(zhuǎn)化為固定大小的特征圖像，其做法是：假設(shè)候選區(qū)域 ROI 的大小為, 要輸出的大小為, 那么就將該 ROI 分成個格子，每一個格子的大小為, 然后對每一格子使用 max-pooling 得到目標(biāo)大小的特征圖像。

候選區(qū)域的分類和邊框擬合的結(jié)合是通過一個雙任務(wù)的網(wǎng)絡(luò)結(jié)構(gòu)：使用兩個全連接的輸出層分別進(jìn)行類別預(yù)測和邊框預(yù)測 (如上圖所示)，將這兩個任務(wù)進(jìn)行同時訓(xùn)練，利用一個聯(lián)合代價函數(shù)：

看了這篇文章，了解深度卷積神經(jīng)網(wǎng)絡(luò)在目標(biāo)檢測中的進(jìn)展

公式中的兩項(xiàng)分別是 classification loss 和 regression loss。該方法相比于 R-CNN 快了不少。特別是在測試一幅新圖像時，如果不考慮生成候選區(qū)域的時間，可以達(dá)到實(shí)時檢測。生成候選區(qū)域的 selective search 算法處理一張圖像大概需要 2s 的時間，因此成為該方法的一個瓶頸。

1.3 Faster R-CNN^[3]

上面兩種方法都依賴于 selective search 生成候選區(qū)域，十分耗時，那么可不可以直接利用卷積神經(jīng)網(wǎng)絡(luò)得到候選區(qū)域呢？這樣的話就幾乎可以不花額外的時間代價就能得到候選區(qū)域。

Shaoqing Ren 提出了 Faster R-CNN 來實(shí)現(xiàn)這種想法：假設(shè)有兩個卷積神經(jīng)網(wǎng)絡(luò)，一個是區(qū)域生成網(wǎng)絡(luò)，得到圖像中的各個候選區(qū)域，另一個是候選區(qū)域的分類和邊框回歸網(wǎng)路。這兩個網(wǎng)絡(luò)的前幾層都要計算卷積，如果讓它們在這幾層共享參數(shù)，只是在末尾的幾層分別實(shí)現(xiàn)各自的特定的目標(biāo)任務(wù)，那么對一幅圖像只需用這幾個共享的卷積層進(jìn)行一次前向卷積計算，就能同時得到候選區(qū)域和各候選區(qū)域的類別及邊框。

看了這篇文章，了解深度卷積神經(jīng)網(wǎng)絡(luò)在目標(biāo)檢測中的進(jìn)展

候選區(qū)域生成網(wǎng)絡(luò)（Region Proposal Network, RPN）方法的原理圖如上，先通過對輸入圖像的數(shù)層卷積得到一個特征圖像，然后在特征圖像上生成候選區(qū)域，做法是使用一個（3）的滑動窗口，將局部的特征圖像轉(zhuǎn)換成一個低維特征, 預(yù)測個的區(qū)域（cls 層，個輸出）是否為候選區(qū)域和對應(yīng)的個邊框（reg 層，個輸出）。這里的個區(qū)域被稱為錨（anchor），對應(yīng)著與滑動窗口具有相同的中心的不同大小和不同長寬比的矩形框。假設(shè)卷積后的特征圖像大小為, 那么一共有個錨。這種特征提取和候選區(qū)域生成的方法具有位移不變性。

使用 RPN 得到候選區(qū)域后，對候選區(qū)域的分類和邊框回歸仍然使用 Fast R-CNN。這兩個網(wǎng)絡(luò)使用共同的卷積層。由于 Fast R-CNN 的訓(xùn)練過程中需要使用固定的候選區(qū)域生成方法，不能同時對 RPN 和 Fast R-CNN 使用反向傳播算法進(jìn)行訓(xùn)練。該文章使用了四個步驟完成訓(xùn)練過程：1，單獨(dú)訓(xùn)練 RPN；2，使用步驟中 1 得到的區(qū)域生成方法單獨(dú)訓(xùn)練 Fast R-CNN; 3, 使用步驟 2 得到的網(wǎng)絡(luò)作為初始網(wǎng)絡(luò)訓(xùn)練 RPN。4，再次訓(xùn)練 Fast R-CNN, 微調(diào)參數(shù)。

Faster R-CNN 的精度和 Fast R-CNN 差不多，但是訓(xùn)練時間和測試時間都縮短了 10 倍。

1.4 ION: Inside-Outside Net^[4]

ION 也是基于 Region Proposal 的，在得到候選區(qū)域的基礎(chǔ)上，為了進(jìn)一步提高在每一個候選感興趣區(qū)域 ROI 的預(yù)測精度，ION 考慮了結(jié)合 ROI 內(nèi)部的信息和 ROI 以外的信息，有兩個創(chuàng)新點(diǎn)：一是使用空間遞歸神經(jīng)網(wǎng)絡(luò)（spatial recurrent neural network）把上下文（context）特征結(jié)合，而不是只使用 ROI 內(nèi)的局部特征，二是將不同卷積層得到的特征連接起來，作為一個多尺度特征用來預(yù)測。

看了這篇文章，了解深度卷積神經(jīng)網(wǎng)絡(luò)在目標(biāo)檢測中的進(jìn)展

ION 在上、下、左、右四個方向獨(dú)立地使用 RNN，并把它們的輸出連接起來組合成一個特征輸出，經(jīng)過兩次這樣的過程得到的特征作為上下文特征，再與之前的幾個卷積層的輸出特征連接起來，得到既包括上下文信息，又包括多尺度信息的特征。

看了這篇文章，了解深度卷積神經(jīng)網(wǎng)絡(luò)在目標(biāo)檢測中的進(jìn)展

1.5 HyperNet^[5]

HyperNet 在 Faster R-CNN 的基礎(chǔ)上，在得到更好的候選區(qū)域方面比 Faster R-CNN 中使用的 RPN 有了進(jìn)一步的提高。其想法也是把不同卷積層得到的特征圖像結(jié)合起來，產(chǎn)生更好的 region proposal 和檢測準(zhǔn)確率。

看了這篇文章，了解深度卷積神經(jīng)網(wǎng)絡(luò)在目標(biāo)檢測中的進(jìn)展

該文章把不同卷積層的輸出結(jié)合起來得到的特征成為 Hyper Feature。由于不同卷積層的輸出大小不一樣，較淺層的特征圖像分辨率較高，對提高邊界框的精確性有益，但是容易對邊界框內(nèi)的物體錯誤分類；較深層得到的特征圖像分辨率很低，對小一些的物體的邊界框定位容易不準(zhǔn)確，但這些特征更加抽象，可以讓對物體的分類的準(zhǔn)確性更高。因此二者的結(jié)合，對目標(biāo)檢測的正確率和定位精度都有幫助。

1.6 SDP-CRC^[6]

SDP-CRC 在處理不同尺度的目標(biāo)和提高對候選區(qū)域的計算效率上提出了兩個策略。第一個策略是基于候選區(qū)域尺度的池化，即 Scale Department Pooling （SDP）。在 CNN 的框架中，由于輸入圖像要經(jīng)過多次卷積，那些尺寸小的物體在最后一層的卷積輸出上的特征不能很好的描述該物體。如果用前面某一層的特征，則能夠更好的描述小物體，用靠后的層的特征，則能更好地描述較大的物體。

看了這篇文章，了解深度卷積神經(jīng)網(wǎng)絡(luò)在目標(biāo)檢測中的進(jìn)展

因此 SDP 的想法是根據(jù)物體大小選擇合適的卷積層上的特征來描述該物體。例如一個候選區(qū)域的高度在 0-64 個像素之間，則使用第三個卷積層上 (例如 VGG 中的 Conv3) 的特征進(jìn)行 pooling 作為分類器和邊框回歸器的輸入特征，如果候選區(qū)域高度在 128 個像素以上，則使用最后一個卷積層 (例如 VGG 中的 Conv5) 的特征進(jìn)行分類和回歸。

第二個策略是使用舍棄負(fù)樣本的級聯(lián)分類器，即 Cascaded Rejection Classifer， CRC。Fast RCNN 的一個瓶頸是有很多的候選區(qū)域，對成千上萬個候選區(qū)域都進(jìn)行完整的分類和回歸計算十分耗時。CRC 可以用來快速地排除一些明顯不包含某個物體的候選區(qū)域，只將完整的計算集中在那些極有可能包含某個物體的候選區(qū)域。該文章中使用了 AdaBoost 的方法，按順序使用每一個卷積層的特征，由一些級聯(lián)的弱分類器來排除負(fù)樣本。在最后一層卷積的特征圖像上，留下來的那些候選區(qū)域再進(jìn)行分類和回歸。

看了這篇文章，了解深度卷積神經(jīng)網(wǎng)絡(luò)在目標(biāo)檢測中的進(jìn)展

SDP-CRC 的準(zhǔn)確率比 Fast RNN 提高了不少，檢測時間縮短到了 471ms 每幀。

2. 不采用 Region Propsal, 直接預(yù)測邊界框的方法

2.1 YOLO^[7]

YOLO 的思想是摒棄生成候選區(qū)域的中間步驟，通過單個卷積神經(jīng)網(wǎng)絡(luò)直接對各個邊界框進(jìn)行回歸并且預(yù)測相應(yīng)的類別的概率。

看了這篇文章，了解深度卷積神經(jīng)網(wǎng)絡(luò)在目標(biāo)檢測中的進(jìn)展

該方法將輸入圖像分成大小的網(wǎng)格。每一個網(wǎng)格單元預(yù)測 B 個邊界框和這些邊界框的可信度，有五個預(yù)測值：邊界框的中心相對于網(wǎng)格單元中心的坐標(biāo)，邊界框相對于整個圖像的寬和高，還有該邊界框的可信度（基于和 ground truth 之間的 IoU）。每一個單元格還預(yù)測該單元格屬于個類別的概率，因此整個網(wǎng)絡(luò)的輸出是一個大小為的張量。在實(shí)驗(yàn)中，，因此輸出的大小是。

在測試階段，單元格的類別概率與該單元格的 B 個邊界框的可信度相乘，得到各個邊界框分別包含各個類別的物體的可信度。

YOLO 的優(yōu)點(diǎn)是速度快，該文章中使用的 24 層卷積網(wǎng)絡(luò)在測試圖像上可達(dá)到 45 幀每秒，而使用另一個簡化的網(wǎng)絡(luò)結(jié)構(gòu)，可達(dá)到 155 幀每秒。該方法的缺點(diǎn)有：1，邊界框的預(yù)測有很大的空間限制，例如每一個單元格只預(yù)測兩個邊界框，并且只有一個類別。2，該方法不能很好地檢測到成群出現(xiàn)的一些小的目標(biāo)，比如一群鳥。3，如果檢測目標(biāo)的長寬比在訓(xùn)練數(shù)據(jù)中沒有出現(xiàn)過或者不常見，該模型的泛化能力較弱。

2.2 G-CNN^[8]

G-CNN 將目標(biāo)檢測問題看作是把檢測框從一些固定的網(wǎng)格逐漸變化到物體的真實(shí)邊框的問題。這是一個經(jīng)過幾次迭代，不斷更新的過程。

看了這篇文章，了解深度卷積神經(jīng)網(wǎng)絡(luò)在目標(biāo)檢測中的進(jìn)展

其原理圖如上所示，初始檢測框是對整個圖像進(jìn)行不同尺度的網(wǎng)格劃分得到的，在經(jīng)過卷積后得到物體的特征圖像，將初始邊框?qū)?yīng)的特征圖像通過 Fast R-CNN 中的方法轉(zhuǎn)化為一個固定大小的特征圖像，通過回歸得到更加準(zhǔn)確的邊框，再次將這個新邊框作為初始邊框，做新的一次迭代。經(jīng)過若干次迭代后的邊框作為輸出。

G-CNN 中使用約 180 個初始邊框，經(jīng)過 5 次迭代，檢測幀率在 3fps 左右，準(zhǔn)確率比 Fast R-CNN 要好一些。

2.3 SSD^[9]

SSD 也是使用單個的卷積神經(jīng)網(wǎng)絡(luò)對圖像進(jìn)行卷積后，在特征圖像的每一個位置處預(yù)測一系列不同尺寸和長寬比的邊界框。在測試階段，該網(wǎng)絡(luò)對每一個邊界框中分別包含各個類別的物體的可能性進(jìn)行預(yù)測，并且對邊界框進(jìn)行調(diào)整以適應(yīng)目標(biāo)物體的形狀。

看了這篇文章，了解深度卷積神經(jīng)網(wǎng)絡(luò)在目標(biāo)檢測中的進(jìn)展

SSD 在訓(xùn)練時只需要一幅輸入圖像和該圖像中出現(xiàn)的物體的邊界框。在不同的卷積層輸出是不同尺度的特征圖像（如上圖中的和），在若干層的特征圖像上的每一個位置處，計算若干個（如 4 個）默認(rèn)邊界框內(nèi)出現(xiàn)各個目標(biāo)物體的置信度和目標(biāo)物體的真實(shí)邊界框相對于默認(rèn)邊界框的偏差。因此對于大小為的特征圖像，共產(chǎn)生個輸出。這有點(diǎn)類似于 Faster R-CNN 中的錨的概念，但是將這個概念用到了不同分辨率的特征圖像上。SSD 和 YOLO 的對比如下圖：

看了這篇文章，了解深度卷積神經(jīng)網(wǎng)絡(luò)在目標(biāo)檢測中的進(jìn)展

在 VOC 2007 測試圖像上，對于 300300 大小的輸入圖像，SSD 可達(dá)到 72.1% mAP 的準(zhǔn)確率，速度為 58 幀每秒，且能預(yù)測 7k 以上個邊界框，而 YOLO 只能預(yù)測 98 個。下圖是上述幾個算法在性能上的對比：

看了這篇文章，了解深度卷積神經(jīng)網(wǎng)絡(luò)在目標(biāo)檢測中的進(jìn)展

參考文獻(xiàn)

[1] Girshick, Ross, et al. "Rich feature hierarchies for accurate object detection and semantic segmentation." CVPR 2014.

[2] Girshick, Ross. "Fast r-cnn." ICCV2015.

[3] Ren, Shaoqing, et al. "Faster R-CNN: Towards real-time object detection with region proposal networks." Advances in neural information processing systems. 2015.

[4] Bell, Sean, et al. "Inside-outside net: Detecting objects in context with skip pooling and recurrent neural networks." arXiv preprint arXiv:1512.04143 (2015).

[5] Kong, Tao, et al. "HyperNet: Towards Accurate Region Proposal Generation and Joint Object Detection." arXiv preprint arXiv:1604.00600 (2016).

[6] Yang, Fan, Wongun Choi, and Yuanqing Lin. "Exploit all the layers: Fast and accurate cnn object detector with scale dependent pooling and cascaded rejection classifiers." CVPR 2016.

[7] Redmon, Joseph, et al. "You only look once: Unified, real-time object detection." arXiv preprint arXiv:1506.02640 (2015).

[8] Najibi, Mahyar, Mohammad Rastegari, and Larry S. Davis. "G-CNN: an Iterative Grid Based Object Detector." arXiv preprint arXiv:1512.07729 (2015).

[9] Liu, Wei, et al. "SSD: Single Shot MultiBox Detector." arXiv preprint arXiv:1512.02325 (2015).

雷鋒網(wǎng)按：原作者taigw，本文原載于知乎專欄。

雷峰網(wǎng)版權(quán)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

8人收藏

相關(guān)文章

AI研習(xí)社

編輯

聚焦數(shù)據(jù)科學(xué)，連接 AI 開發(fā)者。更多精彩內(nèi)容，請訪問：yanxishe.com

發(fā)私信

當(dāng)月熱門文章

“因其偉大，故而艱難”，資深科普作家陳宗周解碼AI七十年