圖像分割概述 & ENet?實例

本文作者： AI研習(xí)社-譯站

2019-02-20 10:03

導(dǎo)語：在計算機視覺領(lǐng)域中，將一幅數(shù)字圖像分割為多個組成部分（一系列像素，或所熟知的超像素）的過程即為圖像分割。

圖像分割概述 & ENet?實例

本文為 AI 研習(xí)社編譯的技術(shù)博客，原標(biāo)題：
Image Segmentation Overview & ENet Implementation
作者 | Aviv Shamsian
翻譯 | sherry3255、alexchung
校對 | 鄧普斯·杰弗審核 | 醬番梨整理 | 立魚王
原文鏈接：
https://medium.com/@mista2311/image-segmentation-overview-enet-implementation-8394ff71cf26

在這篇博文中，我將概述圖像分割并介紹ENet論文。

論文鏈接：

https://s3-us-west-2.amazonaws.com/mlsurveys/54.pdf

?庫鏈接：

https://github.com/iArunava/ENet-Real-Time-Semantic-Segmentation

圖像分割概述

在計算機視覺領(lǐng)域中，將一幅數(shù)字圖像分割為多個組成部分（一系列像素，或所熟知的超像素）的過程即為圖像分割。分割的目標(biāo)就是簡化并/或變換可以將圖像轉(zhuǎn)換為更有意義和更易分析的內(nèi)容的表達。圖像分割通常被用來定位圖像中目標(biāo)和邊界（線、曲面）的位置。更準(zhǔn)確地說，圖像分割是為圖像中的每一個像素打上標(biāo)簽，其中具有相同標(biāo)簽的像素具有相同特征。在圖像分割領(lǐng)域中有多種技術(shù)：

基于區(qū)域的分割技術(shù)
邊界檢測分割技術(shù)
基于聚類的分割技術(shù)

圖像分割的經(jīng)典算法

過去，提出了很多不同的算法來進行圖像分割，有：

閾值技術(shù)--該技術(shù)的主要目的在于確定圖像的最佳閾值。強度值超過閾值的像素其強度將變?yōu)?，其余像素的強度值將變?yōu)榱?，最后形成一個二值圖。用于選擇閾值的方法有：Otsu，k均值聚類，和最大熵法。
運動與交互分割--該技術(shù)基于圖像中的運動來進行分割。其思想很直觀，在假設(shè)目標(biāo)是運動的情況下找出兩幅圖中的差異，那么不同之處一定就是目標(biāo)位置。
邊界檢測--包含多種數(shù)學(xué)方法，其目的在于標(biāo)出數(shù)字圖像中處于圖像亮度變化劇烈，或者更正式的講，具有不連貫性的區(qū)域中的點。由于區(qū)域邊界和邊具有很高關(guān)聯(lián)性，因此邊界檢測通常是另一種分割技術(shù)的前提步驟。
區(qū)域增長方法--主要建立在同一區(qū)域中相鄰像素具有相近像素值的假設(shè)之上。常見步驟為將像素與其近鄰像素作比較，如果滿足相似性標(biāo)準(zhǔn)，則該像素就可以被劃分到以一個或更多其近鄰點組成的聚類中去。相似性標(biāo)準(zhǔn)的選擇很關(guān)鍵，并且在所有實例中其結(jié)果易受到噪聲影響。

還有很多用于圖像分割的方法在上文中未提及，比如雙聚類方法、快速匹配法、分水嶺變換法等等。

用于圖像分割的深度學(xué)習(xí)模型

UNet--u-net是用來快速準(zhǔn)確的分割圖像的一種卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。到目前為止，在ISBI挑戰(zhàn)中，該網(wǎng)絡(luò)較先前最好的模型（一種基于滑動窗口的卷積網(wǎng)絡(luò)）已在分割電子顯微鏡下神經(jīng)元結(jié)構(gòu)的任務(wù)中取得了更好的效果。在2015年ISBI大會上，它贏得了計算機自動檢測咬翼片中重齲病的大挑戰(zhàn)，并且在很大程度上（參見我們的公告）可被認(rèn)為是兩個最具挑戰(zhàn)性的透射光顯微鏡類別上（相位對比度和DIC顯微鏡），贏得了細胞跟蹤的挑戰(zhàn)。

圖像分割概述 & ENet?實例

SegNet--SegNet由編碼器和解碼器構(gòu)成，但沒有全連接層。SegNet是一個包含全卷積網(wǎng)絡(luò)(FCN)的13 VGG16卷積層。

圖像分割概述 & ENet?實例

Mask R-CNN--Faster R-CNN采用一個CNN特征提取其來提取圖像特征。然后使用CNN區(qū)域建議網(wǎng)絡(luò)來生成感興趣區(qū)域(Roi)。我們應(yīng)用RoI池化層將它們打包以形成固定維度。然后將其作為全連接層的輸入來進行分類和邊界框預(yù)測。

圖像分割概述 & ENet?實例

全分辨率殘差網(wǎng)絡(luò)（FRRN）--FRRN通過執(zhí)行必要的額外處理步驟來獲取全圖像分辨率下像素精度的分割掩碼。

圖像分割概述 & ENet?實例

金字塔場景解析網(wǎng)絡(luò)(PSPNet)--全分辨率殘差網(wǎng)絡(luò)的計算非常密集，應(yīng)用在全尺度照片上非常緩慢。為了解決這個問題，PSPNet采用了4種不同的最大池化操作，這些操作分別對應(yīng)4種不同的窗口大小和步長。使用最大池化層可以更有效地提取不同尺度中特征信息。

圖像分割概述 & ENet?實例

DeepLabv3+ --先前的網(wǎng)絡(luò)可以通過使用不同變化率的過濾器和池操作來編碼多尺度上下文信息。更新的網(wǎng)絡(luò)可以通過恢復(fù)空間信息來捕捉更清晰的目標(biāo)邊界。DeepLabv3+結(jié)合了這兩種方法。DeepLabv3+同時采用了編碼器、解碼器和空間金字塔池化模塊。

圖像分割概述 & ENet?實例

ENet 實現(xiàn)

ENet(Efficient Neural Network)提供了執(zhí)行實時逐像素語義分割的能力。ENet的執(zhí)行速度快了18倍，且需要的浮點運算次數(shù)少了75倍，同時參數(shù)減少了79倍，并且提供了與現(xiàn)有模型對比相似或更高的精度（根據(jù)2016年）。在CamVid, CityScapes 和SUN數(shù)據(jù)集執(zhí)行測試。

圖像分割概述 & ENet?實例