0
本文作者: AI研習(xí)社-譯站 | 2019-03-04 11:08 |
本文為 AI 研習(xí)社編譯的技術(shù)博客,原標(biāo)題 :
Demystifying—Deep Image Prior
作者 | Pratik KatteFollow
翻譯 | GAOLILI
校對(duì) | 醬番梨 審核 | 約翰遜·李加薪 整理 | 立魚(yú)王
原文鏈接:
https://towardsdatascience.com/demystifying-deep-image-prior-7076e777e5ba
在這篇文章中,我將主要介紹圖像復(fù)原和深度圖像先驗(yàn)如何用于圖像復(fù)原。
圖像復(fù)原是指從退化的圖像中恢復(fù)未知的真實(shí)圖像。圖像的退化可能出現(xiàn)在圖像形成、傳輸和保存期間。圖像復(fù)原技術(shù)廣泛應(yīng)用于衛(wèi)星圖像和低光攝影。并且由于數(shù)字技術(shù)、計(jì)算和通信技術(shù)的發(fā)展,從退化的圖像中復(fù)原出原始的圖像變得非常重要,這已經(jīng)發(fā)展成一種與圖像處理、計(jì)算機(jī)視覺(jué)以及計(jì)算成像相交叉的研究領(lǐng)域。
圖像復(fù)原主要有三個(gè)任務(wù):
1.圖像去噪:
圖像去噪是指復(fù)原包含多余噪聲的圖像。這是圖像復(fù)原中最簡(jiǎn)單的任務(wù),已經(jīng)廣泛被多個(gè)技術(shù)團(tuán)隊(duì)所研究。
圖1 (左)包含噪聲的圖像,(中)不含噪聲的圖像,(右)高斯噪聲
2. 超分辨率技術(shù):
超分辨率技術(shù)是指從一組低分辨率圖像重建出相應(yīng)的高分辨率圖像(或一系列高分辨率圖像)的過(guò)程。
圖2.(左)低分辨率圖像,(右)高分辨率圖像
3. 圖像修復(fù):
圖像修復(fù)是指重建圖像丟失損壞部分的過(guò)程。圖像修復(fù)實(shí)際上是一種人們填補(bǔ)繪畫作品中損壞和丟失部分的傳統(tǒng)藝術(shù),但在現(xiàn)如今的研究中已經(jīng)提出了很多利用深度卷積網(wǎng)絡(luò)自動(dòng)修復(fù)的方法。
圖3.(左)輸入,(右)輸出
隨著AlexNet在2012年ImageNet競(jìng)賽中取得成功,卷積神經(jīng)網(wǎng)絡(luò)開(kāi)始流行起來(lái)并且被應(yīng)用在每個(gè)計(jì)算機(jī)視覺(jué)和圖像處理任務(wù)中,而且也被廣泛用于執(zhí)行圖像重建這樣的逆任務(wù),并且已經(jīng)取得了最好的表現(xiàn)。
深度卷積網(wǎng)絡(luò)因其能夠從大量圖像數(shù)據(jù)中學(xué)習(xí)而取得成功。Dmitry Ulyanov發(fā)表的令人驚嘆的論文“Deep Image Prior”表明解決像圖像復(fù)原這樣的逆問(wèn)題,網(wǎng)絡(luò)結(jié)構(gòu)已經(jīng)能夠并且很好的從損壞的圖像復(fù)原出原圖像。這篇論文強(qiáng)調(diào),進(jìn)行圖像復(fù)原不需要預(yù)訓(xùn)練網(wǎng)絡(luò)和大量的圖像數(shù)據(jù),僅僅有損壞的圖像就可以。
在圖像復(fù)原中,基于學(xué)習(xí)的方法和基于非學(xué)習(xí)的方法是兩種通用的并且研究人員主要使用的方法。
基于學(xué)習(xí)的方法是一種直接的方法,它將噪聲圖像作為輸入數(shù)據(jù),原始圖像作為輸出數(shù)據(jù)去訓(xùn)練深度卷積網(wǎng)絡(luò)進(jìn)行學(xué)習(xí)。另一方面,基于非學(xué)習(xí)的方法或手動(dòng)制作先驗(yàn)的方法是我們從合成數(shù)據(jù)里強(qiáng)行加入和告知了什么類型的圖像是自然的、真實(shí)的等等。用數(shù)學(xué)表達(dá)像自然這樣的狀態(tài)變數(shù)非常困難。
在Deep Image Prior里,作者試圖通過(guò)使用卷積神經(jīng)網(wǎng)絡(luò)構(gòu)造一個(gè)新的基于非學(xué)習(xí)的方法去彌補(bǔ)這兩種通用的圖像復(fù)原方法之間的鴻溝。
圖4.(左)原始圖像,(中)損壞的圖像,(右)復(fù)原的圖像
X→原始圖像
→損壞的圖像
→復(fù)原圖像
我們可以從經(jīng)驗(yàn)數(shù)據(jù)中使用最大后驗(yàn)分布來(lái)估計(jì)看不到的值。
使用貝葉斯規(guī)則,我們可以將其表示為似然*先驗(yàn)。
我們可以將方程式表示為優(yōu)化問(wèn)題,而不是單獨(dú)使用分布。
對(duì)式(1)應(yīng)用負(fù)算法
E(x;?)是數(shù)據(jù)項(xiàng),它是負(fù)似然對(duì)數(shù),R(x)是圖像先驗(yàn)項(xiàng),是先驗(yàn)的負(fù)對(duì)數(shù)。
現(xiàn)在的任務(wù)是最小化圖像X上的公式(2)。傳統(tǒng)的方法是用隨機(jī)噪聲初始化X,然后計(jì)算函數(shù)相對(duì)于X的梯度并遍歷圖像空間直到其收斂到某個(gè)點(diǎn)。
圖5.常規(guī)方法的可視化
另一種方法是構(gòu)造一個(gè)用隨機(jī)數(shù)θ初始化的函數(shù)g,它來(lái)自不同空間的輸出可以映射到圖像X,并使用梯度下降更新θ直到其在某個(gè)點(diǎn)收斂。因此,與其優(yōu)化圖像空間,我們可以優(yōu)化θ。
圖6.參數(shù)化方法的可視化
但是,為什么這種方法可行并且我們要使用它呢?這可能是因?yàn)閺睦碚撋现v,如果g是滿射的,g:θ →x (如果至少一個(gè)θ映射到圖像X),那么這兩種優(yōu)化方法就是等價(jià)的,即它們具有相同的解。但是實(shí)際上g會(huì)極大地改變搜索圖像空間的優(yōu)化方法。我們實(shí)際上可以將g視為超參數(shù)并對(duì)它進(jìn)行調(diào)整。如果我們觀察一下就可以發(fā)現(xiàn),g(θ)是作為一個(gè)先驗(yàn)的,它有助于選擇一個(gè)良好的映射,給出一個(gè)我們想要的輸出圖像,并防止我們得到一個(gè)錯(cuò)誤的圖像。
因此,與其優(yōu)化兩個(gè)部分的總和,我們現(xiàn)在只需要優(yōu)化第一個(gè)部分就可以。
現(xiàn)在,公式(2)可以表示為:
其中z是固定的隨機(jī)輸入圖像,θ是隨機(jī)初始化的權(quán)重,它將通過(guò)梯度下降來(lái)進(jìn)行更新以獲得目標(biāo)輸出圖像。
但是,為什么我們應(yīng)該考慮這種參數(shù)化方法的原因依然不明確。從理論上來(lái)看,它似乎會(huì)產(chǎn)生原始的噪聲圖像。在論文中作者進(jìn)行了一項(xiàng)實(shí)驗(yàn),該實(shí)驗(yàn)表明,在使用梯度下降來(lái)優(yōu)化網(wǎng)絡(luò)的時(shí)候,卷積神經(jīng)網(wǎng)絡(luò)對(duì)噪聲圖像不敏感,并且會(huì)更快更容易下降到看到更自然的圖像。
圖7.復(fù)原任務(wù)的學(xué)習(xí)曲線:一個(gè)自然的圖像,同樣的圖像加一些噪聲,一樣的隨機(jī)亂碼,和白噪聲。看起來(lái)自然的圖像會(huì)更快的收斂,而噪聲圖像會(huì)被拒絕。
是損壞的圖像(觀察到的)
1. 初始化Z:用均勻噪聲或任何其他隨機(jī)圖像填充輸入的Z。
2. 使用基于梯度的方法求解和優(yōu)化函數(shù)。
3. 最后我們找到最佳θ時(shí),我們可以通過(guò)將固定輸入z向前傳遞到具有參數(shù)θ的網(wǎng)絡(luò)來(lái)獲得最佳圖像。
圖8.圖像復(fù)原使用Deep Image Prior。從一個(gè)隨機(jī)的權(quán)重θ0開(kāi)始,我們迭代地更新它來(lái)達(dá)到最小化數(shù)據(jù)項(xiàng)公式(2)。在每次迭代時(shí)權(quán)重θ被映射到圖像,x = f θ (z),其中Z是固定張量,映射f是具有參數(shù)θ的神經(jīng)網(wǎng)絡(luò)。圖像X被用于計(jì)算和任務(wù)相關(guān)的損失E(x, x 0 )。損失w.r.t.的梯度和權(quán)重θ被計(jì)算并且用于更新參數(shù)。
《Deep Image Prior》這篇論文試圖證明構(gòu)造具有隨機(jī)權(quán)重的隱式先驗(yàn)在深度卷積神經(jīng)網(wǎng)絡(luò)體系結(jié)構(gòu)里非常適合于圖像復(fù)原任務(wù)。論文中的結(jié)果表明正確的手動(dòng)構(gòu)造的網(wǎng)絡(luò)結(jié)構(gòu)足以解決圖像復(fù)原問(wèn)題。
想要繼續(xù)查看該篇文章相關(guān)鏈接和參考文獻(xiàn)?
點(diǎn)擊【使用《Deep Image Prior》】或長(zhǎng)按下方地址打開(kāi):
https://ai.yanxishe.com/page/TextTranslation/1498
AI研習(xí)社今日推薦:雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)
卡耐基梅隆大學(xué) 2019 春季《神經(jīng)網(wǎng)絡(luò)自然語(yǔ)言處理》是CMU語(yǔ)言技術(shù)學(xué)院和計(jì)算機(jī)學(xué)院聯(lián)合開(kāi)課,主要內(nèi)容是教學(xué)生如何用神經(jīng)網(wǎng)絡(luò)做自然語(yǔ)言處理。神經(jīng)網(wǎng)絡(luò)對(duì)于語(yǔ)言建模任務(wù)而言,可以稱得上是提供了一種強(qiáng)大的新工具,與此同時(shí),神經(jīng)網(wǎng)絡(luò)能夠改進(jìn)諸多任務(wù)中的最新技術(shù),將過(guò)去不容易解決的問(wèn)題變得輕松簡(jiǎn)單。
加入小組免費(fèi)觀看視頻:https://ai.yanxishe.com/page/groupDetail/33
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。