丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
人工智能學術(shù) 正文
發(fā)私信給楊鯉萍
發(fā)送

0

Double DIP ——一種無監(jiān)督層圖像分割 AI 技術(shù)

本文作者: 楊鯉萍 編輯:楊曉凡 2019-06-03 16:35
導語:基于耦合的深度圖像先驗網(wǎng)絡對單個圖像進行無監(jiān)督層分割

雷鋒網(wǎng) AI 科技評論按:每月《Computer Vision News》都會選擇一篇關(guān)于計算機視覺領(lǐng)域研究成果的論文進行回顧。今年三月份,他們選擇了由 Yossi Gandelsman,Assaf Shocher 和 Michal Irani 三位學者(下文中所提到的作者,均指以上三位學者)共同完成的關(guān)于 Double-DIP 模型的論文,其中詳細介紹了基于耦合的深度圖像先驗網(wǎng)絡對單個圖像進行無監(jiān)督層分割這一技術(shù)。

Double DIP ——一種無監(jiān)督層圖像分割 AI 技術(shù)

概況

許多看似無關(guān)的計算機視覺任務可以被視為圖像分割為不同的層的特殊情況。舉兩個突出的例子:圖像分割——分割成背景層和前景層的區(qū)域;圖像去霧——分割為清晰圖層和有霧圖層。在該論文中,作者提出了一種基于耦合的「深度圖像先驗」(DIP)網(wǎng)絡對單個圖像進行無監(jiān)督層分割的統(tǒng)一框架。

被 CVPR 2018 會議接收的深度圖像先驗(DIP)網(wǎng)絡,是一種可以用來對單個圖像的低級統(tǒng)計數(shù)據(jù)進行生成的結(jié)構(gòu),而且只需要在單張圖像上進行訓練。而在論文中,作者向我們展示了如何通過耦合多個 DIP 網(wǎng)絡得到一個強大的工具,來將圖像分割為其基本組成,從而使其適用于各類任務。正因為所得數(shù)據(jù)來自于混合層的內(nèi)部,相比其各個組成部分的數(shù)據(jù)更復雜且更具代表性,這使其多功能適用性具有實現(xiàn)的可能。作者們認為,模型能勝任多種任務的原因是,相比于在不同的層上各自進行,多種不同的層的內(nèi)部統(tǒng)計特性更為魯棒,也有更好的表征能力。

作者向我們展示了該方法在各類計算機視覺任務上的運用,比如:水印去除,前景/背景分割,圖像去霧以及視頻中的透明度分離等。在沒有提供任何額外數(shù)據(jù)的情況下,只需要在單張圖像上進行訓練,就可以完成以上所有的任務。

關(guān)于「圖像分割的統(tǒng)一框架」

由三個不同任務重新定義的原圖分割,可以視為簡單基本層的混合,如下圖所示,圖像分割、圖像去霧、透明度分離這三種任務都可以看作是,先把原始圖像拆分成一些基本層,然后再把這些層重新混合。

這種方法將圖像分割成若干基本層,并提供一個統(tǒng)一的框架來對大量明顯不同且無關(guān)的計算機視覺任務進行處理。所有這些圖像分割的共同點是每個單獨層內(nèi)小塊的分布比「混合」圖像(即原始圖像)更「簡單」(均勻),從而導致每個單獨層的內(nèi)部相似性很強。已有研究證明小圖像塊(例如 5×5,7×7)的統(tǒng)計特征(分布)在自然圖像中極具重復性,所以這種強內(nèi)部重復性,可以很好的用于處理各種計算機視覺任務。

Double DIP ——一種無監(jiān)督層圖像分割 AI 技術(shù)

圖1 圖像分割的統(tǒng)一框架

作者的方法結(jié)合內(nèi)部補丁重現(xiàn),即小塊圖像的重復出現(xiàn)的特性(無需監(jiān)督即可解決任務的能力)和深度學習的強大力量,提出了一種基于 DIP 網(wǎng)絡的無監(jiān)督框架。當 DIP 網(wǎng)絡的輸入是隨機噪聲時,它也能學會重建單個圖像(該圖像作為訓練的唯一輸入)時,單個 DIP 網(wǎng)絡被證明可以很好的捕獲單個自然圖像的低級統(tǒng)計數(shù)據(jù)。這個網(wǎng)絡還被證實在無監(jiān)督情況下,完全能夠解決如:去噪,超分辨率和修復等問題。

圖像分割基本原理

Double DIP ——一種無監(jiān)督層圖像分割 AI 技術(shù)

圖2 圖像分割基本原理

圖 2 向我們說明了該方法的基本原理。它展示了如何利用 X 和 Y 兩個圖案,來混合產(chǎn)生新的更復雜的圖像 Z。每個「純」圖案(X 和 Y)的小圖像塊的分布相比混合圖像 Z 小圖像塊的分布更簡單。眾所周知,如果 X 和 y 是兩個獨立的隨機變量,那么它們的和 Z = X + Y 的熵大于它們各自的熵。

圖 2 的損失函數(shù)圖還向我們詳細展示了單個 DIP 網(wǎng)絡作為時間函數(shù)(訓練迭代)時的 MSE 重建損失。對于圖中的 3 條線:(i)橙色是訓練重建紋理圖像 X 的 MSE 損失;(ii)藍色是訓練重建紋理 Y 的 MSE 損失;(iii)綠色是訓練重建紋理圖像 X+Y 的 MSE 損失??梢园l(fā)現(xiàn),MSE 損失值越大時,收斂時間越長。而且,混合圖像的 MSE 損失值不僅大于兩個單獨圖像的 MSE 損失值,實際上,還大于兩個單獨圖像 MSE 損失值的總和。

為了證明這個現(xiàn)象不是偶然,作者從 BSD100 數(shù)據(jù)集(為了防止自然圖像與規(guī)則圖案間有差異)中隨機選擇了 100 對自然圖像來重復該實驗。而結(jié)果證明,混合圖像與合成圖像組之間 MSE 損失值的差值甚至更高。

圖像分割工作模型

Double DIP ——一種無監(jiān)督層圖像分割 AI 技術(shù)

圖3 圖像分割工作模型

圖 3 詳細說明了 Double-DIP 對圖像進行分割時的工作模型。兩個深度圖像先驗(DIP)網(wǎng)絡(DIP1 DIP2)將輸入圖像分割成對應的圖像層(y1&y2),然后根據(jù)二進制掩模 m(x)進行重組,以形成盡可能接近于輸入圖像本身的重建圖像 I。

什么樣的分割是好的圖像分割?有很多方法可以將其分割為基本圖層,但作者提出有意義的分割應該滿足這樣幾個標準:

  • 重新組合時,恢復的圖層能夠重建輸入圖像

  • 每層應該盡可能「簡單」,即它應該具有很強的圖像元素內(nèi)部自相似性

  • 恢復的圖層之間彼此獨立

這三個標準也是 Double-DIP 網(wǎng)絡需要具體實現(xiàn)的參考。第一個標準通過最小化重建損失(衡量構(gòu)造圖像和輸入圖像之間的誤差的參數(shù))來實現(xiàn);第二個標準通過采用多個 DIP(每層一個)實現(xiàn);第三個標準由不同 DIP 的輸出間的「不相容損失」強制執(zhí)行(最小化它們的相關(guān)性)。

每個 DIP 網(wǎng)絡重建輸入圖像 I 的不同圖層 yi;每個 DIPi 的輸入是隨機采樣的均勻噪聲 zi; 使用權(quán)重掩模 m(x) 混合 DIP 輸出 yi = DIPi(zi),從而生成重建圖像:

Double DIP ——一種無監(jiān)督層圖像分割 AI 技術(shù)

其應盡可能接近輸入圖像 I。

對于某些任務中,權(quán)重掩模 m 非常簡單,而在其他情況下則需要進行學習(使用附加 DIP 網(wǎng)絡)。學習的掩模 m 可以是均勻的或空間變化的,連續(xù)的或二進制的。對 m 的約束條件與任務相關(guān)聯(lián),并且使用指定任務的「正則化損失」來強制執(zhí)行。因此優(yōu)化損失是:

Double DIP ——一種無監(jiān)督層圖像分割 AI 技術(shù)

關(guān)于 Double-DIP 網(wǎng)絡的訓練和優(yōu)化類似于基本 DIP。而在輸入噪聲中,增加額外的非恒定噪聲擾動可以增加重建的穩(wěn)定性。通過使用 8 個變換(4 個旋轉(zhuǎn) 90°和 2 個鏡像反射 - 垂直和水平)轉(zhuǎn)換輸入圖像 I 和所有 DIP 的相應隨機噪聲輸入,可以進一步豐富訓練集。

優(yōu)化過程使用到了 ADAM 優(yōu)化器,而每張圖片在 Tesla V100 GPU 上僅需要幾分鐘來完成。

 研究成果

 論文內(nèi)提到的多個成果中,我們在下文中著重討論:

1)前景/背景分割

2)水印去除

  • 前景/背景分割

我們可以設(shè)想將圖像分割成前景和背景區(qū)域,前景層為 y1,背景層為 y2,對于每個像素根據(jù)二進制掩模 m(x)進行組合,得到:

Double DIP ——一種無監(jiān)督層圖像分割 AI 技術(shù)

這個公式非常適合文中所提到的框架,它將「好的圖像片段」定義為易于通過自身合成,但很難使用圖像其他部分進行合成這個概念。為了使分割掩碼 m(x)變?yōu)槎M制,我們使用以下正則化損失:

Double DIP ——一種無監(jiān)督層圖像分割 AI 技術(shù)

Double-DIP 能夠基于無監(jiān)督的層分割獲得高質(zhì)量的分割,如圖 4 所示,更多圖像分割結(jié)果可以在該項目的網(wǎng)站上進行觀看。盡管有許多其他分割方法(其中包括語義分割)的表現(xiàn)甚至比 DIP 要好,然而它們都有一個的缺點——需要用大量的數(shù)據(jù)訓練。

Double DIP ——一種無監(jiān)督層圖像分割 AI 技術(shù)

圖 4 圖像分割實例

  • 水印去除

水印廣泛用于保護受版權(quán)保護的圖像和視頻。Double-DIP 能夠?qū)⑺∽鳛閳D像反射的特殊情況來進行去除,其中圖層 y1 和圖層 y2 是分別是清理后的圖像和水印。

和圖像分割不同,在這種情況下,掩模沒有被明確設(shè)置,而是使用兩種實際解決方案之一來處理固有的透明層模糊性。如果僅涉及單個水印,則用戶通過帶有邊界框來標記水印區(qū)域;而當有少量圖像具有相同的水印時(通常 2-3 張圖像),在訓練過程中將由模糊性原則自行處理。圖 5 為一些水印去除的實例:

Double DIP ——一種無監(jiān)督層圖像分割 AI 技術(shù)

圖 5 水印去除實例

結(jié)論

「Double-DIP」為無監(jiān)督層分割的提供了統(tǒng)一的框架,這個框架可以適用于各種各樣的任務。除了輸入圖像/視頻之外,它不需要任何其它訓練數(shù)據(jù)。盡管這是一種通用的方法,但在某些任務中(如去霧),它所得到的結(jié)果可以與該領(lǐng)域的最先進的專業(yè)技術(shù)效果相當或甚至更好。該論文的作者認為,用語義/感知線索增強 Double-DIP 可能會使得語義分割和其他高級計算機視覺任務方面的進步,在接下來的工作中,他們也打算對這個方面做進一步的研究。

雷鋒網(wǎng) AI 科技評論將相關(guān)鏈接整理如下:

原論文地址

https://arxiv.org/abs/1812.00467


雜志原文地址

https://www.rsipvision.com/ComputerVisionNews-2019May/4/

雷鋒網(wǎng)AI 科技評論

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

Double DIP ——一種無監(jiān)督層圖像分割 AI 技術(shù)

分享:
相關(guān)文章
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說