0
本文作者: AI研習(xí)社-譯站 | 2019-03-18 10:07 |
本文為 AI 研習(xí)社編譯的技術(shù)博客,原標(biāo)題 :
Review: DeconvNet?—?Unpooling Layer (Semantic Segmentation)
作者 | SH Tsang
翻譯 | 斯蒂芬·二狗子
校對(duì) | 醬番梨 審核 | 約翰遜·李加薪 整理 | 立魚(yú)王
原文鏈接:
https://towardsdatascience.com/review-deconvnet-unpooling-layer-semantic-segmentation-55cf8a6e380e
在本文中,我們簡(jiǎn)要回顧了DeconvNet,反卷積網(wǎng)絡(luò)(DeconvNet)由反卷積deconvolution 和上池化unpooling層組成。
對(duì)于傳統(tǒng)的全卷積網(wǎng)絡(luò)FCN,輸出是通過(guò)高比率(32×,16×和8×倍)的上采樣獲得的,這可能引起粗分割輸出結(jié)果(標(biāo)簽圖)。在DeconvNet中,最終的輸出標(biāo)簽是通過(guò)逐漸進(jìn)行的反卷積和上池化獲得的。這篇論文發(fā)表于2015年ICCV上,當(dāng)我寫這篇博文時(shí),已經(jīng)有一千多的引用量(SH Tsang @ Medium)。
本文涉及的內(nèi)容
上池化和反卷積
實(shí)例分割
兩階段訓(xùn)練
模型結(jié)果
以下是DeconvNet的整體架構(gòu):
DeconvNet 的架構(gòu)
正如我們看到的,該網(wǎng)絡(luò)使用VGG作為其backbone框架。第一部分是卷積網(wǎng)絡(luò),像FCN一樣,具有卷積和池化層。第二部分是反卷積網(wǎng)絡(luò),這是本文中的一個(gè)新穎部分。
Pooling過(guò)程(左),模型記住位置信息,在Unpooling期間使用位置信息(右)
要執(zhí)行上池化,我們需要記住執(zhí)行最大池時(shí)每個(gè)最大激活值的位置,如上所示。然后,記住的位置信息用于上池化操作,如上所示。
卷積是將輸入轉(zhuǎn)換為更小的尺寸(左),反卷積是將輸入轉(zhuǎn)換回更大的尺寸(右)
反卷積只是為了將輸入轉(zhuǎn)換回更大的尺寸。 (如有興趣,請(qǐng)閱讀我的有關(guān)FCN評(píng)論一文,詳細(xì)了解。)
一個(gè)反卷積Deconvolution 和上池化Unpooling的例子
上圖是一個(gè)例子。 (b)是14×14 反卷積層的輸出。 (c)是上池化后的輸出,依此順序類推。我們可以在(j)中看到自行車的標(biāo)簽圖可以在最后的224×224 反卷積層重建,這表明學(xué)習(xí)特征的這些卷積核可以捕獲類特定的形狀信息。
輸入圖像(左),F(xiàn)CN-8s(中),DeconvNet(右)
上面展示的其他示例表明DeconvNet比FCN-8可以給出更精確的形狀。
不使用區(qū)域提議Region Proposals的語(yǔ)義分割任務(wù)的不好的例子
如上所示,基本上大于或小于感受野的物體可能被模型給碎片化分割或貼上錯(cuò)誤的標(biāo)簽。像素較小的目標(biāo)經(jīng)常被忽略并歸類為背景。
語(yǔ)義分割可以看為是實(shí)例分割問(wèn)題。首先,通過(guò)對(duì)象檢測(cè)方法EdgeBox檢測(cè)2000個(gè)區(qū)域建議region proposals中的前50個(gè)(邊界框)。然后,DeconvNet應(yīng)用于每個(gè)區(qū)域,并將所有建議區(qū)域的輸出匯總回原始圖像。通過(guò)使用 proposals ,可以有效地處理各種規(guī)模的圖片分割問(wèn)題。
第一階段訓(xùn)練
使用ground-truth標(biāo)注來(lái)裁剪目標(biāo)實(shí)例,使目標(biāo)在裁剪的邊界框中居中,然后進(jìn)行訓(xùn)練。這有助于減少對(duì)象位置和大小的變化。
第二階段訓(xùn)練
使用更具挑戰(zhàn)性的例子。這些例子是由重疊的ground-truth 分割的區(qū)域建議生成/裁剪的。
其他細(xì)節(jié)
BN 在網(wǎng)絡(luò)中使用
使用VGG的權(quán)重來(lái)初始化卷積層的參數(shù)
反卷積層的參數(shù)初始化為0均值的高斯分布
每batch樣本數(shù)量是64
mean Iou結(jié)果
FCN-8s:只有 64.4% mean IoU.
DeconvNet: 69.6%
DeconvNet+CRF: 70.5% (其中CRF只是一個(gè)模型輸出后的處理步驟)
EDeconvNet: 71.5% (EDeconvNet 是指DeconvNet和FCN-8s模型集成后的結(jié)果)
EDeconvNet+CRF: 72.5%具有最高的mean IoU結(jié)果。
實(shí)例分割的優(yōu)勢(shì)
從上圖中知道,實(shí)例分割有助于逐個(gè)實(shí)例地逐步分割,而不是一次對(duì)所有實(shí)例進(jìn)行分段。
值得注意的是,DeconvNet的優(yōu)勢(shì)不僅來(lái)逐步的反卷積和上池,還可能來(lái)自實(shí)例分割和兩階段 two-stage的訓(xùn)練。
一些可視化結(jié)果
即使EConvNet + CRF輸出結(jié)果比FCN差,但通常它的實(shí)際效果還是很好的。
參考文獻(xiàn)
[2015 ICCV] [DeconvNet]
Learning Deconvolution Network for Semantic Segmentation
我的其他文章
[FCN] [VGGNet]
想要繼續(xù)查看該篇文章相關(guān)鏈接和參考文獻(xiàn)?
點(diǎn)擊【一文帶你讀懂 DeconvNet 上采樣層(語(yǔ)義分割)】或長(zhǎng)按下方地址:
https://ai.yanxishe.com/page/TextTranslation/1530
AI研習(xí)社今日推薦:雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)
李飛飛主講王牌課程,計(jì)算機(jī)視覺(jué)的深化課程,神經(jīng)網(wǎng)絡(luò)在計(jì)算機(jī)視覺(jué)領(lǐng)域的應(yīng)用,涵蓋圖像分類、定位、檢測(cè)等視覺(jué)識(shí)別任務(wù),以及其在搜索、圖像理解、應(yīng)用、地圖繪制、醫(yī)學(xué)、無(wú)人駕駛飛機(jī)和自動(dòng)駕駛汽車領(lǐng)域的前沿應(yīng)用。
加入小組免費(fèi)觀看視頻:https://ai.yanxishe.com/page/groupDetail/19
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。