0
本文作者: 奕欣 | 2017-09-05 10:05 |
雷鋒網AI科技評論按:新加坡國立大學博士后魏云超博士、新加坡國立大學助理教授馮佳時博士、卡內基梅隆大學梁小丹博士、南開大學程明明教授、北京交通大學趙耀教授及360人工智能研究院院長顏水成博士所作論文《Object Region Mining with Adversarial Erasing: A Simple Classification to Semantic Segmentation Approach》被CVPR 2017錄用為口頭報告(oral,錄用率2.65%)。在雷鋒網AI科技評論的邀請下,論文一作魏云超博士撰寫了關于這篇論文的獨家解讀文章,以饗讀者。
圖像語義分割是計算機視覺領域的核心研究問題之一。一般來講,訓練高性能的語義分割模型需要依賴于大量的像素級的人工標注(即標注每個像素點的語義信息)。然而,標注這類的訓練樣本非常困難,往往需要大量的金錢和時間。為了降低獲取訓練樣本的難度,研究人員提出采用一些相對容易獲取的標注作為監(jiān)督信息(我們稱之為弱監(jiān)督),并用于訓練圖像語義分割模型。目前這些弱監(jiān)督信息主要包括了bounding boxes,scribbles,points和labels,如圖1。
圖1
在這些弱監(jiān)督信息中,圖像的labels標注最容易獲取,我們著重研究如何利用圖像的labels作為監(jiān)督信息,訓練出用于語義分割的模型。而這一問題的成功的關鍵在于如何構建圖像標簽同像素點之間的關聯(lián),從而自動生成圖像像素級的標注,進而利用FCN訓練語義分割模型。
圖2
目前我們注意到研究人員們提出了一些自上而下的attention方法(CAM[1], EP[2]等)。這類方法可以利用訓練好的分類CNN模型自動獲得同圖像標簽最相關的區(qū)域。如圖2所示,我們給出了通過CAM方法獲取的attention map??梢钥闯鰧τ谝粋€圖像分類模型,往往物體的某個區(qū)域或某個instance對分類結果的貢獻較大。因此這類attention方法只能找到同標簽對應的某個物體最具判別力的區(qū)域而不是物體的整個局域。如何利用分類網絡定位物體的整個區(qū)域,對語義分割任務具有重要意義。
圖3
圖3給出了我們的motivation。我們將第一張圖片以及它對應的標簽“person”輸入到網絡中進行訓練。繼而,網絡會嘗試從圖中發(fā)現一些證據來證明圖中包含了“person”。一般來講,人的head是最具判別力的部位,可以使此圖被正確地判別為“person”。若將head從圖片中移除(如第二張圖中的橙色區(qū)域),網絡會繼續(xù)尋找其它證據來使得圖像可以被正確分類,進而找到人的body區(qū)域。重復此操作,人的foot區(qū)域也可以被發(fā)現。由于訓練本身是為了從圖片中發(fā)現對應標簽的證據而擦除操作則是為了掩蓋證據,因此我們稱這種訓練-擦除-再訓練-再擦除的方式為對抗擦除(adversarial erasing)。
基于上述的motivation,我們采用了對抗擦除的機制挖掘物體的相關區(qū)域。如圖4所示,我們首先利用原始圖像訓練一個分類網絡,并利用自上而下的attention方法(CAM)來定位圖像中最具判別力的物體區(qū)域。進而,我們將挖掘出的區(qū)域從原始圖片中擦除,并將擦除后的圖像訓練另一個分類網絡來定位其它的物體區(qū)域。我們重復此過程,直到網絡在被擦除的訓練圖像上不能很好地收斂。最后將被擦除的區(qū)域合并起來作為挖掘出的物體區(qū)域。
圖4
圖5為對抗擦除方法的細節(jié)。我們基于VGG16訓練圖像的分類網絡,將最后兩個全連接層替換為卷積層,CAM被用來定位標簽相關區(qū)域。在生成的location map(H)中,屬于前20%最大值的像素點被擦除。我們具體的擦除方式是將對應的像素點的值設置為所有訓練集圖片的像素的平均值。
圖5
我們發(fā)現在實施第四次擦除后,網絡訓練收斂后的loss值會有較大提升(圖6右)。主要原因在于大部分圖片中的物體的區(qū)域已經被擦除,這種情況下大量的背景區(qū)域也有可能被引入。因此我們只合并了前三次擦除的區(qū)域作為圖片中的物體區(qū)域。圖6左給出部分訓練圖像在不同訓練階段挖掘出的物體區(qū)域,以及最后將擦除區(qū)域合并后的輸出。
圖6
我們利用顯著性檢測技術生成的顯著圖生獲取圖像的背景信息,并同通過對抗擦除獲得物體區(qū)域結合生成用于訓練語義分割網絡的segmentation mask(其中藍色區(qū)域表示未指派語義標簽的像素,這些像素點不參與訓練)。由于在生成的segmentation mask中包含了一些噪聲區(qū)域和未被標注的區(qū)域,為了更加有效地訓練,我們提出了一種PSL(Prohibitive Segmentation Learning)方法訓練語義分割網絡,如圖7。該方法引入了一個多標簽分類的分支用于在線預測圖像包含各個類別的概率值,這些概率被用來調整語義分割分支中每個像素屬于各個類別的概率,并在線生成額外的segmentation mask作為監(jiān)督信息。由于圖像級的多標簽分類往往具有較高的準確性,PSL方法可以利用分類信息來抑制分割圖中的true negative區(qū)域。隨著訓練的進行,網絡的語義分割能力也會越來越強,繼而在線生成的segmentation mask的質量也會提升,從而提供更加準確的監(jiān)督信息。
圖7
本文提出的對抗擦除和PSL方法,在Pascal VOC 2012數據集上獲得了目前最好的分割結果。部分測試圖片上也達到了令人滿意的分割結果。
文章鏈接:https://arxiv.org/pdf/1703.08448.pdf
Reference
[1] B. Zhou, etc. Learning Deep Features for Discriminative localization. CVPR, 2016.
[2] J. Zhang, etc. Top-down Neural Attention by Excitation Backprop. ECCV, 2016.
雷峰網特約稿件,未經授權禁止轉載。詳情見轉載須知。