0
本文作者: 楊曉凡 | 2017-11-22 14:48 | 專題:ICLR 2018 |
雷鋒網(wǎng) AI 科技評(píng)論按:大家都知道,ICLR 2018的論文投稿已經(jīng)截止,現(xiàn)在正在評(píng)審當(dāng)中。雖然OpenReview上這屆ICLR論文的評(píng)審過(guò)程已經(jīng)放棄了往屆的雙方身份公開,但仍然比其它會(huì)議“open”得多:論文內(nèi)容、以及評(píng)審過(guò)程中的讀者建議和作者答復(fù)都是可見的。
隨著評(píng)審過(guò)程持續(xù)進(jìn)行,近期也不斷有好的評(píng)審中的論文被分享到社交平臺(tái)上,研究者們得以先睹為快。NVIDIA甚至主動(dòng)推廣了自己投遞的一篇論文,雷鋒網(wǎng) AI 科技評(píng)論也對(duì)論文主要內(nèi)容做了報(bào)道 NVIDIA論文:用GAN生成高清圖像 | ICLR 2018。
這兩天又有一篇精彩的論文被發(fā)現(xiàn)、分享出來(lái),Ian Goodfellow也給了很真誠(chéng)且正面的評(píng)價(jià):
這篇論文名為「Spectral Normalization for Generative Adversarial Networks」(對(duì)抗性生成式網(wǎng)絡(luò)的光譜標(biāo)準(zhǔn)化),主要改進(jìn)點(diǎn)在于GANs中鑒別器的表現(xiàn)控制。實(shí)際上,我們發(fā)現(xiàn)這篇論文的較為原始的版本在ICML2017的Workshop on Implicit Models上出現(xiàn)過(guò),論文中的內(nèi)容現(xiàn)在又有了明顯的增加和完善。
簡(jiǎn)單來(lái)說(shuō),GANs這種網(wǎng)絡(luò)框架的目標(biāo)是讓模型生成的數(shù)據(jù)分布模仿給定數(shù)據(jù)的分布,其中的生成器生成數(shù)據(jù),鑒別器要分辨生成的數(shù)據(jù)分布是否是目標(biāo)數(shù)據(jù)分布。訓(xùn)練過(guò)程中交替更新生成器和鑒別器,目標(biāo)是減小生成的數(shù)據(jù)分布和給定數(shù)據(jù)分布之間的區(qū)別,而這個(gè)區(qū)別是在訓(xùn)練的每一回合中的最好的鑒別器測(cè)量得到的。近年來(lái)對(duì)GANs的研究也表明了鑒別器的訓(xùn)練就等同于訓(xùn)練一個(gè)生成和給定數(shù)據(jù)分布的密度比例估計(jì)器。
在GANs的訓(xùn)練中有一個(gè)永恒的問題,就是鑒別器的表現(xiàn)控制。在高維空間中,鑒別器做出的密度比例估計(jì)往往不準(zhǔn)確,而且在訓(xùn)練中非常不穩(wěn)定,生成器網(wǎng)絡(luò)也難以學(xué)到目標(biāo)分布的多模態(tài)結(jié)構(gòu)。更糟糕的是,當(dāng)生成的和目標(biāo)數(shù)據(jù)分布區(qū)域不相交的時(shí)候,就存在著一個(gè)能完美區(qū)分生成的數(shù)據(jù)和目標(biāo)數(shù)據(jù)的鑒別器。一旦遇到了這樣的狀況、訓(xùn)練出了這樣的鑒別器,生成器的訓(xùn)練就基本停滯了,因?yàn)檫@樣產(chǎn)生的鑒別器的關(guān)于輸入的導(dǎo)數(shù)就成了0。這種情況讓作者們思考如何引入一些新的限制,避免訓(xùn)練出這樣的鑒別器。
在這篇論文中,作者們提出了一種新的權(quán)重正則化方法,稱作“spectral normalization”(光譜標(biāo)準(zhǔn)化),它可以穩(wěn)定鑒別器網(wǎng)絡(luò)的訓(xùn)練過(guò)程。這種正則化方法的性質(zhì)很讓人喜歡:
只需要調(diào)節(jié)Lipschitz常數(shù)一個(gè)超參數(shù),而且想到達(dá)到令人滿意的模型表現(xiàn)也不需要反復(fù)調(diào)試僅有的這一個(gè)參數(shù)
方法的實(shí)現(xiàn)非常簡(jiǎn)單,額外的計(jì)算開銷也很小
今年火熱過(guò)一陣子的Wasserstein GAN中提出了針對(duì)輸入樣本增加正則化項(xiàng)、從而限制鑒別器的Lipschitz常數(shù),以提高訓(xùn)練穩(wěn)定性的方法。基于輸入的正則化方法有較為簡(jiǎn)單的計(jì)算方程,但它們同樣有一些問題,就是如果不引入一些啟發(fā)式的方法就無(wú)法在生成器的數(shù)據(jù)空間和給定數(shù)據(jù)空間之外的空間中進(jìn)行正則化。
這篇論文所提的方法在WGAN的思路基礎(chǔ)上,提出了一種新的方法解決其中涵待解決的問題,通過(guò)給網(wǎng)絡(luò)中每一層的光譜標(biāo)準(zhǔn)值增加實(shí)實(shí)在在的限制的做法,控制鑒別器函數(shù)的Lipschitz常數(shù)、標(biāo)準(zhǔn)化權(quán)重矩;同時(shí)借助「Spectral norm regularization for improving the generalizability of deep learning」提出的技巧,增加的計(jì)算開銷也不多。算法的詳細(xì)介紹篇幅較長(zhǎng),請(qǐng)點(diǎn)擊文末鏈接閱讀原論文。
Salimans & Kingma在「Weight normalization: A simple reparameterization to accelerate training of deep neural networks」中提出了權(quán)重標(biāo)準(zhǔn)化方法,它的代價(jià)是減少了鑒別器使用的特征的數(shù)量,這樣模型產(chǎn)生的數(shù)據(jù)分布就比較任意,只需要符合不多的幾個(gè)特征就可以騙過(guò)鑒別器;權(quán)重剪切的方法也會(huì)遇到類似的問題。而這篇論文的作者們希望鑒別器能夠盡量多地使用圖像中的特征,所以他們的光譜標(biāo)準(zhǔn)化方法可以讓參數(shù)矩陣盡可能多地使用圖像中的不同特征,同時(shí)還能滿足局部的1-Lipschitz限制。(雷鋒網(wǎng) AI 科技評(píng)論注:SN-GANs盡可能多地使用了圖像中的特征,這是否就是Ian Goodfellow也想知道的它在大數(shù)據(jù)集上有出色表現(xiàn)的重要原因呢?)
Gulrajani 等人在「Improved training of wasserstein GANs」中結(jié)合WGAN的方法使用了梯度懲罰gradient penalty。他們的做法不會(huì)造成剛才說(shuō)的特征空間維度的問題,但是對(duì)當(dāng)前的生成數(shù)據(jù)分布具有高度的依賴性也是一個(gè)明顯的弱點(diǎn)。隨著訓(xùn)練過(guò)程進(jìn)行,生成的數(shù)據(jù)分布空間會(huì)逐漸變化,接著就會(huì)導(dǎo)致這種正則化方法的不穩(wěn)定。實(shí)際上,作者們也實(shí)驗(yàn)發(fā)現(xiàn)選用較高的學(xué)習(xí)率就會(huì)導(dǎo)致WGAN-GP的表現(xiàn)不穩(wěn)定。作者們提出的光譜標(biāo)準(zhǔn)法方法針對(duì)的是操作空間的函數(shù),受到訓(xùn)練batch的影響更小,即便用很高的學(xué)習(xí)率也不會(huì)輕易不穩(wěn)定。WGAN-GP的計(jì)算開銷也要高一些。
作者們基于小數(shù)據(jù)集 CIFAR-10、STL-10 和大數(shù)據(jù)集 ImageNet 分別進(jìn)行了無(wú)監(jiān)督和類別限定的圖像生成實(shí)驗(yàn),量化評(píng)分使用了inception score和Frechet inception distance(FID)。
與SN-GAN進(jìn)行對(duì)比的方法除了上文提到的WGAN-GP(帶有梯度懲罰的WGAN)、WN(權(quán)重標(biāo)準(zhǔn)化)外,還有BN(batch normalization)、LN(layer normalization)、以及單獨(dú)使用梯度懲罰的GAN-GP。結(jié)果A-F是使用不同的超參數(shù)訓(xùn)練的,DEF的學(xué)習(xí)率較高。
小數(shù)據(jù)集結(jié)果
從圖中可以看到,SN-GAN對(duì)不同的學(xué)習(xí)率有較好的健壯性,最佳成績(jī)也比所有其它方法都要好。
如果分別以每種模型的最優(yōu)參數(shù)訓(xùn)練,SN-GAN的表現(xiàn)也是最好的。(STL-10上訓(xùn)練了SN-GAN兩次,因?yàn)槭諗繘]有那么快)
從生成的圖像可以看到,SN-GAN生成的圖像更清晰、更豐富,而且沒有像WGAN-GP那樣在高學(xué)習(xí)率下出現(xiàn)問題。
SN-GANs的表現(xiàn)分析
下圖顯示的是每種方法訓(xùn)練得到的表現(xiàn)最好的網(wǎng)絡(luò)中的鑒別器的權(quán)重矩陣中的平方單值。根據(jù)前文的預(yù)測(cè),用權(quán)重標(biāo)準(zhǔn)化方法訓(xùn)練的網(wǎng)絡(luò),前1到5層都只會(huì)集中在不多的幾種成分上,這幾層的權(quán)重矩陣就會(huì)在排名能力上弱一些。另一方面,用光譜標(biāo)準(zhǔn)化訓(xùn)練的網(wǎng)絡(luò)中這幾層權(quán)重矩陣的單值就分布更廣一些。
當(dāng)目標(biāo)是分辨一對(duì)嵌入在高維空間中的低維非線性數(shù)據(jù)復(fù)合體的概率分布時(shí),較低層的排名能力不強(qiáng)會(huì)變得尤其致命。網(wǎng)絡(luò)低層的輸出只經(jīng)過(guò)了很少的非線性變換,這也就意味著它們多數(shù)時(shí)候都更多依靠線性空間。在這樣的空間中省略了輸入分布中的大量特征,造成的結(jié)果就是得到一個(gè)過(guò)于簡(jiǎn)單的鑒別器。
訓(xùn)練時(shí)間方面,SN-GANs的訓(xùn)練時(shí)間只比權(quán)重標(biāo)準(zhǔn)化增加了10%~20%,仍然比WGAN-GP快多了。
基于 ImageNet 的限定類別圖像生成
為了驗(yàn)證所提方法在大規(guī)模高維數(shù)據(jù)集中仍然有效,作者們用帶有1000個(gè)類別的ImageNet訓(xùn)練了帶有類別條件的GANs,每個(gè)類別大概有1300張圖像,訓(xùn)練時(shí)都?jí)嚎s到了128x128。
通過(guò)這張學(xué)習(xí)曲線就已經(jīng)可以看到,幾種方法里只有SN-GANs能成功地被訓(xùn)練。以實(shí)際生成來(lái)講,SN-GANs也是目前唯一一個(gè)能夠只用一對(duì)生成器和鑒別器就能從 ImageNet 數(shù)據(jù)集生成具有不錯(cuò)質(zhì)量圖像的方法。SN-GANs的模式崩潰狀況也要比AC-GANs好得多(intra MS-SSIM分?jǐn)?shù)分別為0.101和約0.25)。
生成的圖像當(dāng)然就很精彩啦,如下圖是部分類別的圖像
不僅畫面清晰、顏色生動(dòng)、內(nèi)容多數(shù)時(shí)候比較合理,圖像也有相當(dāng)?shù)牟町愋?,乍一眼看過(guò)去就像是真實(shí)的圖像放在了一起。這些生成的圖片的inception score有21.9。也就是這些結(jié)果讓Ian Goodfellow感覺到大為震驚。
這篇論文中提出了用于增強(qiáng)GANs訓(xùn)練穩(wěn)定性的光譜標(biāo)準(zhǔn)化方法,生成的圖像比傳統(tǒng)的權(quán)重標(biāo)準(zhǔn)化具有更高的豐富性,也取得了與以前的研究相當(dāng)甚至更高的inception score。這種方法與WGAN-GP提出的局部正則化不同,它對(duì)鑒別器施加了全局的限制,而且也可以與其它一些方法共同使用。在未來(lái)的研究中,作者們打算繼續(xù)從理論角度深挖這種方法的不同之處,并在更大、更復(fù)雜的數(shù)據(jù)集上實(shí)驗(yàn)算法。
論文地址:ICLR評(píng)審中@OpenReview,其中有方法和相關(guān)佐證的詳細(xì)描述
早先ICML版本的TF實(shí)現(xiàn):https://github.com/minhnhat93/tf-SNDCGAN
雷鋒網(wǎng) AI 科技評(píng)論編譯。更多學(xué)術(shù)報(bào)道、精彩論文解讀,請(qǐng)繼續(xù)關(guān)注我們。
相關(guān)文章:
Ian Goodfellow與ICLR 17最佳論文得主新作:驗(yàn)證與測(cè)試,機(jī)器學(xué)習(xí)的兩大挑戰(zhàn)
學(xué)界 | ICLR 2018截稿:取消公開評(píng)審改為雙盲引人關(guān)注
NVIDIA論文:用GAN生成高清圖像 | ICLR 2018
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。
本專題其他文章