8
本文作者: 何之源 | 2017-01-22 10:10 |
雷鋒網(wǎng)注:本文作者何之源,復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)碩士在讀,研究人工智能計(jì)算機(jī)視覺(jué)方向。本文由雷鋒網(wǎng)編輯整理自作者知乎專欄,獲授權(quán)發(fā)布。
生成式對(duì)抗網(wǎng)絡(luò)(GAN)是近年來(lái)大熱的深度學(xué)習(xí)模型。最近正好有空看了這方面的一些論文,跑了一個(gè)GAN的代碼,于是寫(xiě)了這篇文章來(lái)介紹一下GAN。
本文主要分為三個(gè)部分:
介紹原始的GAN的原理
同樣非常重要的DCGAN的原理
如何在Tensorflow跑DCGAN的代碼,生成如題圖所示的動(dòng)漫頭像,附送數(shù)據(jù)集哦 :-)
一、GAN原理介紹
說(shuō)到GAN第一篇要看的paper當(dāng)然是Ian Goodfellow大牛的Generative Adversarial Networks,這篇paper算是這個(gè)領(lǐng)域的開(kāi)山之作。
GAN的基本原理其實(shí)非常簡(jiǎn)單,這里以生成圖片為例進(jìn)行說(shuō)明。假設(shè)我們有兩個(gè)網(wǎng)絡(luò),G(Generator)和D(Discriminator)。正如它的名字所暗示的那樣,它們的功能分別是:
G是一個(gè)生成圖片的網(wǎng)絡(luò),它接收一個(gè)隨機(jī)的噪聲z,通過(guò)這個(gè)噪聲生成圖片,記做G(z)。
D是一個(gè)判別網(wǎng)絡(luò),判別一張圖片是不是“真實(shí)的”。它的輸入?yún)?shù)是x,x代表一張圖片,輸出D(x)代表x為真實(shí)圖片的概率,如果為1,就代表100%是真實(shí)的圖片,而輸出為0,就代表不可能是真實(shí)的圖片。
在訓(xùn)練過(guò)程中,生成網(wǎng)絡(luò)G的目標(biāo)就是盡量生成真實(shí)的圖片去欺騙判別網(wǎng)絡(luò)D。而D的目標(biāo)就是盡量把G生成的圖片和真實(shí)的圖片分別開(kāi)來(lái)。這樣,G和D構(gòu)成了一個(gè)動(dòng)態(tài)的“博弈過(guò)程”。
最后博弈的結(jié)果是什么?在最理想的狀態(tài)下,G可以生成足以“以假亂真”的圖片G(z)。對(duì)于D來(lái)說(shuō),它難以判定G生成的圖片究竟是不是真實(shí)的,因此D(G(z)) = 0.5。
這樣我們的目的就達(dá)成了:我們得到了一個(gè)生成式的模型G,它可以用來(lái)生成圖片。
以上只是大致說(shuō)了一下GAN的核心原理,如何用數(shù)學(xué)語(yǔ)言描述呢?這里直接摘錄論文里的公式:
簡(jiǎn)單分析一下這個(gè)公式:
整個(gè)式子由兩項(xiàng)構(gòu)成。x表示真實(shí)圖片,z表示輸入G網(wǎng)絡(luò)的噪聲,而G(z)表示G網(wǎng)絡(luò)生成的圖片。
D(x)表示D網(wǎng)絡(luò)判斷真實(shí)圖片是否真實(shí)的概率(因?yàn)閤就是真實(shí)的,所以對(duì)于D來(lái)說(shuō),這個(gè)值越接近1越好)。而D(G(z))是D網(wǎng)絡(luò)判斷G生成的圖片的是否真實(shí)的概率。
G的目的:上面提到過(guò),D(G(z))是D網(wǎng)絡(luò)判斷G生成的圖片是否真實(shí)的概率,G應(yīng)該希望自己生成的圖片“越接近真實(shí)越好”。也就是說(shuō),G希望D(G(z))盡可能得大,這時(shí)V(D, G)會(huì)變小。因此我們看到式子的最前面的記號(hào)是min_G。
D的目的:D的能力越強(qiáng),D(x)應(yīng)該越大,D(G(x))應(yīng)該越小。這時(shí)V(D,G)會(huì)變大。因此式子對(duì)于D來(lái)說(shuō)是求最大(max_D)
下面這幅圖片很好地描述了這個(gè)過(guò)程:
那么如何用隨機(jī)梯度下降法訓(xùn)練D和G?論文中也給出了算法:
這里紅框圈出的部分是我們要額外注意的。第一步我們訓(xùn)練D,D是希望V(G, D)越大越好,所以是加上梯度(ascending)。第二步訓(xùn)練G時(shí),V(G, D)越小越好,所以是減去梯度(descending)。整個(gè)訓(xùn)練過(guò)程交替進(jìn)行。
二、DCGAN原理介紹
我們知道深度學(xué)習(xí)中對(duì)圖像處理應(yīng)用最好的模型是CNN,那么如何把CNN與GAN結(jié)合?DCGAN是這方面最好的嘗試之一(點(diǎn)擊查看論文)
DCGAN的原理和GAN是一樣的,這里就不在贅述。它只是把上述的G和D換成了兩個(gè)卷積神經(jīng)網(wǎng)絡(luò)(CNN)。但不是直接換就可以了,DCGAN對(duì)卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)做了一些改變,以提高樣本的質(zhì)量和收斂的速度,這些改變有:
取消所有pooling層。G網(wǎng)絡(luò)中使用轉(zhuǎn)置卷積(transposed convolutional layer)進(jìn)行上采樣,D網(wǎng)絡(luò)中用加入stride的卷積代替pooling。
在D和G中均使用batch normalization
去掉FC層,使網(wǎng)絡(luò)變?yōu)槿矸e網(wǎng)絡(luò)
G網(wǎng)絡(luò)中使用ReLU作為激活函數(shù),最后一層使用tanh
D網(wǎng)絡(luò)中使用LeakyReLU作為激活函數(shù)
DCGAN中的G網(wǎng)絡(luò)示意:
三、DCGAN in Tensorflow
好了,上面說(shuō)了一通原理,下面說(shuō)點(diǎn)有意思的實(shí)踐部分的內(nèi)容。
DCGAN的原作者用DCGAN生成LSUN的臥室圖片,這并不是特別有意思。之前在網(wǎng)上看到一篇文章 Chainerで顔イラストの自動(dòng)生成 - Qiita ,是用DCGAN生成動(dòng)漫人物頭像的,效果如下:
這是個(gè)很有趣的實(shí)踐內(nèi)容??上г氖怯肅hainer做的,這個(gè)框架使用的人不多。下面我們就在Tensorflow中復(fù)現(xiàn)這個(gè)結(jié)果。
1. 原始數(shù)據(jù)集的搜集
首先我們需要用爬蟲(chóng)爬取大量的動(dòng)漫圖片,原文是在這個(gè)網(wǎng)站:http://safebooru.donmai.us/中爬取的。我嘗試的時(shí)候,發(fā)現(xiàn)在我的網(wǎng)絡(luò)環(huán)境下無(wú)法訪問(wèn)這個(gè)網(wǎng)站,于是我就寫(xiě)了一個(gè)簡(jiǎn)單的爬蟲(chóng)爬了另外一個(gè)著名的動(dòng)漫圖庫(kù)網(wǎng)站:konachan.net。
爬蟲(chóng)代碼如下:
這個(gè)爬蟲(chóng)大概跑了一天,爬下來(lái)12萬(wàn)張圖片,大概是這樣的:
可以看到這里面的圖片大多數(shù)比較雜亂,還不能直接作為數(shù)據(jù)訓(xùn)練,我們需要用合適的工具,截取人物的頭像進(jìn)行訓(xùn)練。
2. 頭像截取
截取頭像和原文一樣,直接使用github上一個(gè)基于opencv的工具:nagadomi。
簡(jiǎn)單包裝下代碼:
截取頭像后的人物數(shù)據(jù):
這樣就可以用來(lái)訓(xùn)練了!
如果你不想從頭開(kāi)始爬圖片,可以直接使用我爬好的頭像數(shù)據(jù)(275M,約5萬(wàn)多張圖片):百度云盤(pán) 提取碼:g5qa
3. 訓(xùn)練
DCGAN在Tensorflow中已經(jīng)有人造好了輪子:carpedm20/DCGAN,我們直接使用這個(gè)代碼就可以了。
不過(guò)原始代碼中只提供了有限的幾個(gè)數(shù)據(jù)庫(kù),如何訓(xùn)練自己的數(shù)據(jù)?在model.py中我們找到讀數(shù)據(jù)的幾行代碼:
if config.dataset == 'mnist':
data_X, data_y = self.load_mnist()
else:
data = glob(os.path.join("./data", config.dataset, "*.jpg"))
這樣讀數(shù)據(jù)的邏輯就很清楚了,我們?cè)赿ata文件夾中再新建一個(gè)anime文件夾,把圖片直接放到這個(gè)文件夾里,運(yùn)行時(shí)指定--dataset anime即可。
運(yùn)行指令(參數(shù)含義:指定生成的圖片的尺寸為48x48,我們圖片的大小是96x96,跑300個(gè)epoch):
python main.py --image_size 96 --output_size 48 --dataset anime --is_crop True --is_train True --epoch 300
4. 結(jié)果
第1個(gè)epoch跑完(只有一點(diǎn)點(diǎn)輪廓):
第5個(gè)epoch之后的結(jié)果:
第10個(gè)epoch:
200個(gè)epoch,仔細(xì)看有些圖片確實(shí)是足以以假亂真的:
題圖是我從第300個(gè)epoch生成的。
四、總結(jié)和后續(xù)
簡(jiǎn)單介紹了一下GAN和DCGAN的原理。以及如何使用Tensorflow做一個(gè)簡(jiǎn)單的生成圖片的demo。
一些后續(xù)閱讀:
Ian Goodfellow對(duì)GAN一系列工作總結(jié)的ppt,確實(shí)精彩,推薦:GAN之父NIPS 2016演講現(xiàn)場(chǎng)直擊:全方位解讀生成對(duì)抗網(wǎng)絡(luò)的原理及未來(lái)
GAN論文匯總,包含code:zhangqianhui/AdversarialNetsPapers
雷峰網(wǎng)特約稿件,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。