0
雷鋒網(wǎng) AI科技評論按,本文轉(zhuǎn)自知乎專欄學術(shù)興趣小組,作者Gapeng,雷鋒網(wǎng) AI科技評論獲其授權(quán)轉(zhuǎn)載。正文如下:
這是一篇總結(jié)文,總結(jié)我看過的幾篇用GAN做圖像翻譯的文章的“套路”。
首先,什么是圖像翻譯?
為了說清楚這個問題,下面我給出一個不嚴謹?shù)男问交x。我們先來看兩個概念。第一個概念是圖像內(nèi)容(content) ,它是圖像的固有內(nèi)容,是區(qū)分不同圖像的依據(jù)。第二個概念是圖像域(domain),域內(nèi)的圖像可以認為是圖像內(nèi)容被賦予了某些相同的屬性。舉個例子,我們看到一張貓的圖片,圖像內(nèi)容就是那只特定的喵,如果我們給圖像賦予彩色,就得到了現(xiàn)實中看到的喵;如果給那張圖像賦予鉛筆畫屬性,就得到了一只“鉛筆喵”。喵~
圖像翻譯是指圖像內(nèi)容從一個域 遷移到另一個域
,可以看成是圖像移除一個域的屬性
,然后賦予另一個域的屬性
。我們用
和
來表示域
和域
的圖像,圖像翻譯任務(wù)即可以定義為,尋找一個合適的變換
使得
當然,還有一種圖像翻譯,在翻譯的時候會把圖像內(nèi)容也換掉,下面介紹的方法也適用于這種翻譯,這種翻譯除了研究圖像屬性的變化,還可以研究圖像內(nèi)容的變化,在這里就不做討論了。
常見的GAN圖像翻譯方法
下面簡單總結(jié)幾種GAN的圖像翻譯方法。
pix2pix
簡單來說,它就是cGAN。Generator的輸入不再是noise,而是圖像。
CycleGAN/DualGAN/DiscoGAN
要求圖像翻譯以后翻回來還是它自己,實現(xiàn)兩個域圖像的互轉(zhuǎn)。
DTN
用一個encoder實現(xiàn)兩個域的共性編碼,通過特定域的decoder解碼,實現(xiàn)圖像翻譯。
FaderNets
用encoder編碼圖像的內(nèi)容,通過喂給它不同的屬性,得到內(nèi)容的不同表達。
IcGAN
依靠cGAN喂給它不同屬性得到不同表達的能力,學一個可逆的cGAN以實現(xiàn)圖像到圖像的翻譯(傳統(tǒng)的cGAN是編碼+屬性到圖像的翻譯)。
GeneGAN
將圖像編碼成內(nèi)容和屬性,通過交換兩張圖的屬性,實現(xiàn)屬性的互轉(zhuǎn)。
Face Age-cGAN
這篇是做同個人不同年齡的翻譯。依靠cGAN喂給它不同屬性(年齡)得到不同年齡的圖像的能力,學cGAN的逆變換以得到圖像內(nèi)容的編碼,再通過人臉識別系統(tǒng)糾正編碼,實現(xiàn)保id。
圖像翻譯方法的完備性
我認為一個圖像翻譯方法要取得成功,需要能夠保證下面兩個一致性(必要性):
Content consistency(內(nèi)容一致性)
Domain consistency(論域一致性)
此外,我們也似乎也可以認為,滿足這兩點的圖像翻譯方法是能work的(充分性)。
我把上述兩點稱為圖像翻譯方法的完備性,換句話說,只要一個方法具備了上述兩個要求,它就應(yīng)該能work。關(guān)于這個完備性的詳細論述,我會在以后給出。
下面,我們來看一下上述幾種方法是如何達成這兩個一致性的。
內(nèi)容一致性
我把它們實現(xiàn)內(nèi)容一致性的手段列在下面的表格里了。
這里有兩點需要指出。
其一,有兩個方法(IcGAN和Face Age-cGAN)依靠cGAN的能力,學cGAN的逆映射來實現(xiàn)圖像換屬性,它們會有多個訓練階段,不是端到端訓練的方法。而cGAN訓練的好壞,以及逆映射的好壞對實驗結(jié)果影響會比較大,經(jīng)過幾個階段的訓練,圖像的內(nèi)容損失會比較嚴重,實際中我們也可以觀察到 IcGAN 的實驗效果比較差。Face Age-cGAN通過引入人臉識別系統(tǒng)識別結(jié)果相同的約束,能夠?qū)?nèi)容的編碼進行優(yōu)化,可以起到一些緩解作用。
其二,DTN主要依靠TID loss來實現(xiàn)內(nèi)容的一致性,而編碼一般來說是有損的,編碼相同只能在較大程度上保證內(nèi)容相同。從DTN的emoji和人臉互轉(zhuǎn)的實驗我們也可以看出,emoji保id問題堪憂,參看下圖。
論域一致性
論域一致性是指,翻譯后的圖像得是論域內(nèi)的圖像,也就是說,得有目標論域的共有屬性。用GAN實現(xiàn)的方法,很自然的一個實現(xiàn)論域一致性的方法就是,通過discriminator判斷圖像是否屬于目標論域。
上述幾種圖像翻譯的方法,它們實現(xiàn)論域一致性的手段可以分為兩種,參見下表。
此外,可以看到,F(xiàn)aderNets實現(xiàn)兩個一致性的方法都是剝離屬性和內(nèi)容,而實現(xiàn)剝離手段則是對抗訓練。編碼層面的對抗訓練我認為博弈雙方不是勢均力敵,一方太容易贏得博弈,不難預(yù)料到它的訓練會比較tricky,訓練有效果應(yīng)該不難達成,要想得到好的結(jié)果是比較難的。目前還沒有看到能夠完美復(fù)現(xiàn)的代碼(20171013 Update:FaderNets目前能出效果,但是達不到文章那么好的清晰度,autoencoder重構(gòu)效果還是偏差)。文章的效果太好,好得甚至讓人懷疑。
Autumn is coming
這篇文章標題是Autumn is coming——GAN眼中的四季變化。然而通篇雖然只字不提人臉,但是參考文獻做人臉的居多。為什么起這個標題呢,以前是想著把這些方法用到四季轉(zhuǎn)換中去,跑些實驗結(jié)果放在正文部分。嗯,實驗還沒做完......還是拖延癥的問題,這是畢業(yè)論文的工作,距離開題還有段時間,捂臉......
// 喂喂喂,autumn is comming,實驗再不做就要winter is comming了!
最后的最后,放一個歌單,聽說聽這個歌單煉丹會更快哦。
Isola P, Zhu J Y, Zhou T, et al. Image-to-image translation with conditional adversarial networks[J]. arXiv preprint arXiv:1611.07004, 2016.
Zhu J Y, Park T, Isola P, et al. Unpaired image-to-image translation using cycle-consistent adversarial networks[J]. arXiv preprint arXiv:1703.10593, 2017.
Yi Z, Zhang H, Gong P T. DualGAN: Unsupervised Dual Learning for Image-to-Image Translation[J]. arXiv preprint arXiv:1704.02510, 2017.
Kim T, Cha M, Kim H, et al. Learning to discover cross-domain relations with generative adversarial networks[J]. arXiv preprint arXiv:1703.05192, 2017.
Taigman Y, Polyak A, Wolf L. Unsupervised cross-domain image generation[J]. arXiv preprint arXiv:1611.02200, 2016.
Zhou S, Xiao T, Yang Y, et al. GeneGAN: Learning Object Transfiguration and Attribute Subspace from Unpaired Data[J]. arXiv preprint arXiv:1705.04932, 2017.
Lample G, Zeghidour N, Usunier N, et al. Fader Networks: Manipulating Images by Sliding Attributes[J]. arXiv preprint arXiv:1706.00409, 2017.
Brock A, Lim T, Ritchie J M, et al. Neural photo editing with introspective adversarial networks[J]. arXiv preprint arXiv:1609.07093, 2016.
Antipov G, Baccouche M, Dugelay J L. Face Aging With Conditional Generative Adversarial Networks[J]. arXiv preprint arXiv:1702.01983, 2017.
Perarnau G, van de Weijer J, Raducanu B, et al. Invertible Conditional GANs for image editing[J]. arXiv preprint arXiv:1611.06355, 2016.
雷鋒網(wǎng) AI科技評論
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。