丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給楊曉凡
發(fā)送

0

如此逼真的高清圖像居然是端到端網(wǎng)絡(luò)生成的?GANs 自嘆不如 | ICCV 2017

本文作者: 楊曉凡 編輯:郭奕欣 2017-08-20 23:09 專題:ICCV 2017
導(dǎo)語(yǔ):用端到端網(wǎng)絡(luò)生成了非常逼真的高分辨率圖像,在 GANs 風(fēng)靡的當(dāng)下非常難得

雷鋒網(wǎng) AI 科技評(píng)論按:生成式對(duì)抗性網(wǎng)絡(luò) GANs 是近幾年最熱門的機(jī)器學(xué)習(xí)范式之一,它“圖像生成效果好”和“訓(xùn)練困難、效果不穩(wěn)定”的特點(diǎn)吸引了許許多多研究者付出精力進(jìn)行 GANs 的研究。雖然它在大尺寸圖像和圖像逼真程度方面的表現(xiàn)仍然有限,但仍然是目前最好的圖像生成范式。

如此逼真的高清圖像居然是端到端網(wǎng)絡(luò)生成的?GANs 自嘆不如 | ICCV 2017

所以當(dāng)看到如此逼真的高分辨率生成圖像的時(shí)候,我們幾乎要以為這是 GANs 的新突破。雖然圖中還有一些扭曲和不自然,但是細(xì)節(jié)和物體的結(jié)構(gòu)已經(jīng)比較完善。然而定睛一看,這樣的效果居然是一個(gè)單向的端到端網(wǎng)絡(luò)完成的!

介紹這項(xiàng)成果的論文「Photographic Image Synthesis with Cascaded Refinement Networks」(用級(jí)聯(lián)優(yōu)化網(wǎng)絡(luò)生成照片級(jí)圖像)已被 ICCV 2017 收錄,這篇論文是斯坦福大學(xué)博士陳啟峰(第一作者)和英特爾實(shí)驗(yàn)室視覺(jué)組主管 Vladlen Koltun 共同完成的;兩人此前也有合作。陳啟峰初中時(shí)就開始學(xué)習(xí)信息學(xué),不僅2008年全獎(jiǎng)就讀香港科技大學(xué),2012年時(shí)更同時(shí)被斯坦福大學(xué)、哈佛大學(xué)、MIT、普林斯頓大學(xué)、UC 伯克利、UCLA等9所高校全獎(jiǎng)錄取碩士博士學(xué)位,最終選擇了斯坦福大學(xué),并于今年6月獲得計(jì)算機(jī)博士學(xué)位。

以下雷鋒網(wǎng) AI 科技評(píng)論就對(duì)這篇論文做詳細(xì)的介紹。

如此逼真的高清圖像居然是端到端網(wǎng)絡(luò)生成的?GANs 自嘆不如 | ICCV 2017

想法提出

作者們的目標(biāo)是生成大尺寸的、質(zhì)量接近照片的圖像。這個(gè)目標(biāo)有足夠的難度,現(xiàn)有的基于 GANs 的方法生成的圖像在尺寸和逼真程度上都有各種問(wèn)題,而 GANs 本身訓(xùn)練困難的特點(diǎn)更是雪上加霜。所以 GANs 的方法不適用。

如此逼真的高清圖像居然是端到端網(wǎng)絡(luò)生成的?GANs 自嘆不如 | ICCV 2017

作者們想到了這樣一個(gè)點(diǎn)子,假如給定一個(gè)街道布局,比如左圖這樣,不同的物體也做出了語(yǔ)意級(jí)別的區(qū)分,一個(gè)熟練的畫手可以很快根據(jù)這樣的布局畫出一幅畫,專業(yè)的藝術(shù)家甚至可以可以據(jù)此創(chuàng)造出像照片一樣真實(shí)的畫作。那么,能否把這樣的能力賦予一個(gè)計(jì)算模型呢?就是給定一個(gè)帶有語(yǔ)意物體布局的場(chǎng)景(左圖),能否讓一個(gè)人工智能系統(tǒng)生成一張這個(gè)場(chǎng)景對(duì)應(yīng)的照片級(jí)的圖像(右圖)呢?

另一方面,這個(gè)任務(wù)也有現(xiàn)有的成果可以類比,那就是圖像的語(yǔ)意分割?!皬囊粡堈鎸?shí)世界的圖像生成語(yǔ)義分割布局圖像”,就和作者們的想法“從語(yǔ)義布局圖像生成照片級(jí)圖像”互為逆任務(wù)。既然圖像分割可以用端到端卷積網(wǎng)絡(luò)來(lái)做,那么從“分割結(jié)果”生成圖像也就可以用端到端卷積網(wǎng)絡(luò)來(lái)做。

圖像生成任務(wù)有哪些特點(diǎn)

不過(guò)端到端網(wǎng)絡(luò)的總體結(jié)構(gòu)還不足以保證圖像的質(zhì)量。所以作者們?cè)诟鶕?jù)其它現(xiàn)有的網(wǎng)絡(luò)結(jié)構(gòu)做了很多實(shí)驗(yàn)以后,列舉出了三項(xiàng)他們認(rèn)為非常重要的特點(diǎn),模型要滿足這三點(diǎn)才能有足夠好的表現(xiàn)。

全局的協(xié)調(diào)性: 照片中物體的結(jié)構(gòu)要正確,許多物體的結(jié)構(gòu)都不是在局部獨(dú)立存在的,它們可能有對(duì)稱性。比如如果一輛車左側(cè)的剎車燈亮了,那右側(cè)的剎車燈也要亮。

高分辨率:為了達(dá)到足夠高的分辨率,模型需要具有專門的分辨率倍增模塊。

記憶力 (Memory):網(wǎng)絡(luò)需要有足夠大的容量才能復(fù)現(xiàn)出圖像中物體足夠多的細(xì)節(jié)。一個(gè)好的模型不僅在訓(xùn)練集中要有好的表現(xiàn),也要有足夠的泛化能力,都需要網(wǎng)絡(luò)容量足夠大。

巧妙的網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)

為了同時(shí)達(dá)到以上的三個(gè)特點(diǎn),作者們?cè)O(shè)計(jì)了一個(gè)由多個(gè)分辨率倍增模塊組成的級(jí)聯(lián)優(yōu)化網(wǎng)絡(luò) CRN。

模型一開始生成的圖像分辨率只有 4x8,通過(guò)串接的多個(gè)分辨率倍增前饋網(wǎng)絡(luò)模塊,分辨率逐步翻番,最終達(dá)到很高的圖像分辨率(比如最后一個(gè)模塊把512x1024的圖像變成1024x2048)。這就是論文標(biāo)題的“Cascaded Refinement Networks”的體現(xiàn)。這樣做的好處是,

1. 覆蓋大范圍的物體特征一開始的時(shí)候都是在很小的臨近范圍內(nèi)表示的,它們的總體特征在一開始就是協(xié)調(diào)的,在分辨率逐步升高的過(guò)程中也能夠保持下來(lái),就達(dá)到了“全局的協(xié)調(diào)性”。

2. 在提高分辨率的過(guò)程中,使用串接的多個(gè)前饋網(wǎng)絡(luò)模塊就可以對(duì)整個(gè)模型做端到端的訓(xùn)練,如果這部分用 GANs 就沒(méi)辦法端到端訓(xùn)練,而且分辨率選擇的靈活性也變差了。這樣就保證了“高分辨率”。

3. 增加更多的分辨率倍增模塊可以提高網(wǎng)絡(luò)容量,作者們表示只要硬件能夠支持就可以增加更多的模塊,現(xiàn)在他們實(shí)驗(yàn)中用到的網(wǎng)絡(luò)有超過(guò)1億個(gè)參數(shù),已經(jīng)用盡了GPU的顯存空間,但是有明確的證據(jù)表明繼續(xù)增大網(wǎng)絡(luò)容量可以繼續(xù)提高圖像質(zhì)量。這樣模塊化的網(wǎng)絡(luò)也就非常方便在硬件資源充足的情況下拓展網(wǎng)絡(luò)容量。

每個(gè)分辨率增倍模塊都在各自的分辨率下工作,它們的輸入有兩部分,一部分是降采樣到當(dāng)前模塊分辨率的輸入語(yǔ)義布局圖像 L,另一部分是上一級(jí)模塊的輸出特征層 Fi-1 (最初的模塊沒(méi)有這一項(xiàng)輸入),其中包含若干個(gè) feature map。輸出的 Fi 分辨率在輸入 Fi-1 的基礎(chǔ)上長(zhǎng)寬都為2倍。

如此逼真的高清圖像居然是端到端網(wǎng)絡(luò)生成的?GANs 自嘆不如 | ICCV 2017

單個(gè)模塊的示意圖,L 和 Fi-1 為模塊輸入;語(yǔ)義布局圖像 L 需要降采樣,來(lái)自上一個(gè)模塊的 Fi-1 需要升采樣。

每個(gè)模塊都由輸入、中間、輸出三個(gè)特征層組成,其中在輸入層直接翻倍分辨率,并且沒(méi)有使用升倍卷積,因?yàn)槟菢訒?huì)帶來(lái)特征的瑕疵。除了最后一個(gè)模塊要輸出最終結(jié)果外,每個(gè)模塊的每個(gè)層后都跟著一個(gè) 3x3 卷積層、正則化層和LReLU非線性層。

對(duì)于論文中測(cè)試的輸出分辨率為 1024 x 2048 的模型,一共用到了9個(gè)分辨率增倍模塊。在每個(gè)模塊的特征層中包含 feature map 數(shù)目的選擇上,第一個(gè)到第五個(gè)模塊為1024,第六到第七為512,第八個(gè)為128,最后一個(gè)為32。

訓(xùn)練損失和訓(xùn)練過(guò)程

“從語(yǔ)義布局圖像生成照片級(jí)圖像”其實(shí)是一個(gè)約束不完全的問(wèn)題,同一個(gè)布局圖像對(duì)應(yīng)的足夠真實(shí)的照片級(jí)圖像可以有許多種。所以即便在訓(xùn)練時(shí),作者們也是把布局對(duì)象對(duì)應(yīng)的照片稱為“參考圖像”而已。

損失函數(shù)設(shè)計(jì)

對(duì)于約束不完全的訓(xùn)練問(wèn)題,作者們希望找到一個(gè)最適合的損失函數(shù)。若直接對(duì)訓(xùn)練輸出和參考圖像做像素對(duì)像素的對(duì)比,會(huì)對(duì)足夠真實(shí)的內(nèi)容也造成很大的懲罰,比如生成的車顏色不同的時(shí)候就會(huì)有很大懲罰,但這其實(shí)是不必要的。所以作者們選擇了內(nèi)容表征的方法,或者說(shuō)是感知損失、特征匹配的方法,跟視覺(jué)網(wǎng)絡(luò)中的特征匹配激活對(duì)應(yīng),這樣就與參考圖像的低級(jí)特征保持了足夠的距離。

具體的做法上作者們另辟蹊徑,借助一個(gè) VGG-19 圖像感知模型,提取它識(shí)別的圖像特征中高低不同的某幾層作為計(jì)算訓(xùn)練損失的依據(jù),從而同時(shí)涵蓋了圖像特征中邊緣、顏色等低級(jí)細(xì)粒度特征和物體、類別等高級(jí)總體布局特征,從而構(gòu)建了全面、強(qiáng)力的損失函數(shù)。

生成多樣化的圖像

作者們認(rèn)為,既然“從語(yǔ)義布局圖像生成照片級(jí)圖像”本身就會(huì)帶來(lái)多種結(jié)果,所以他們應(yīng)當(dāng)讓模型也生成多種不同的結(jié)果。他們首先嘗試了讓網(wǎng)絡(luò)生成多張不同的圖像然后從中選出最好的一張;然后最終更換為了一個(gè)更強(qiáng)大的損失函數(shù),它起到的作用類似于在所有生成圖像中分別選擇每個(gè)語(yǔ)義類別對(duì)應(yīng)的圖像中最真實(shí)的那部分, 然后把它們?nèi)科丛谝黄穑瑥亩屪罱K的輸出圖像得到了非常高的真實(shí)度。下圖即為加入多樣性損失之后,讓模型從同一個(gè)輸入生成的9張不同圖像。

如此逼真的高清圖像居然是端到端網(wǎng)絡(luò)生成的?GANs 自嘆不如 | ICCV 2017效果測(cè)試

作者們把所提的CRN網(wǎng)絡(luò)與在同樣的測(cè)試條件下與其它網(wǎng)絡(luò)做了對(duì)比,包括 GANs(修改了鑒別器加入了語(yǔ)意分割損失)、全分辨率網(wǎng)絡(luò)(中間層也是全分辨率,與 CRN 相同損失函數(shù))、自動(dòng)編解碼器、只使用低級(jí)圖像空間損失的CRN、以及 圖到圖轉(zhuǎn)換GAN(論文中以Isola et al.指代)。

如此逼真的高清圖像居然是端到端網(wǎng)絡(luò)生成的?GANs 自嘆不如 | ICCV 2017

另一組對(duì)比

如此逼真的高清圖像居然是端到端網(wǎng)絡(luò)生成的?GANs 自嘆不如 | ICCV 2017

圖中可以看到,基于 Cityscapes 和 NYU 兩個(gè)數(shù)據(jù)集的測(cè)試中,論文中提出的 CRN 都取得了非常好的觀感,與其它的相比,簡(jiǎn)直就像是真實(shí)的照片;所用到的訓(xùn)練樣本數(shù)目也僅僅分別為 3000 張和 1200張而已。

作者們也通過(guò) Amazon MTurk 眾包平臺(tái)平臺(tái)進(jìn)行了量化對(duì)比測(cè)試:每次給被試者提供兩張圖像,一張來(lái)自 CRN,一張來(lái)自其它網(wǎng)絡(luò),看看他們有多高的比例認(rèn)為 CRN 的圖像更真實(shí)。

如此逼真的高清圖像居然是端到端網(wǎng)絡(luò)生成的?GANs 自嘆不如 | ICCV 2017

結(jié)果非常有說(shuō)服力,只有采用了相同的損失函數(shù)的全分辨率網(wǎng)絡(luò)取得了與 CRN 接近的成績(jī)。這首先說(shuō)明了作者們選擇的損失函數(shù)效果非常好,準(zhǔn)確地訓(xùn)練出了網(wǎng)絡(luò)構(gòu)建重要特征的能力;而另一方面因?yàn)槿直媛示W(wǎng)絡(luò)的中間層特征太多,導(dǎo)致足夠 CRN 訓(xùn)練 1024x2048 分辨率的顯存只夠全分辨率網(wǎng)絡(luò)訓(xùn)練 256x512,這也體現(xiàn)了級(jí)聯(lián)優(yōu)化模塊結(jié)構(gòu)的優(yōu)點(diǎn)。CRN 同時(shí)在分辨率和真實(shí)度上取勝。

泛化能力

我們可以看到,對(duì)于高質(zhì)量的語(yǔ)義布局輸入,CRN表現(xiàn)出了很高的水平。那么模型的泛化能力如何呢?在與論文作者陳啟峰博士取得聯(lián)系并表達(dá)了我們的疑問(wèn)后,陳啟峰博士介紹了兩項(xiàng)模型泛化的結(jié)果。

粗粒度語(yǔ)義布局輸入

如此逼真的高清圖像居然是端到端網(wǎng)絡(luò)生成的?GANs 自嘆不如 | ICCV 2017

可以看到,對(duì)于粗粒度的語(yǔ)義布局圖像輸入,模型也維持了相當(dāng)?shù)谋憩F(xiàn),并沒(méi)有因此造成嚴(yán)重的細(xì)節(jié)損失;物體結(jié)構(gòu)的完整和清晰程度有所下降的。

從GTA5游戲生成圖像

作者們的另一個(gè)想法是把這項(xiàng)技術(shù)用來(lái)給游戲生成真實(shí)的畫面,成為一種新的渲染逼真游戲畫面的方式。他們嘗試的游戲是 GTA5,用 Cityscapes 數(shù)據(jù)集訓(xùn)練模型以后,從 GTA5 抓取語(yǔ)義布局作為模型輸入,得到的結(jié)果同樣充實(shí)、逼真,單獨(dú)看畫面根本想不到和 GTA5 有任何聯(lián)系。陳啟峰博士表示,“語(yǔ)義布局圖很容易在游戲里抓取,這對(duì)未來(lái)游戲或電影畫面生產(chǎn)可能會(huì)有深刻影響”。

如此逼真的高清圖像居然是端到端網(wǎng)絡(luò)生成的?GANs 自嘆不如 | ICCV 2017

總結(jié)

作者們也剪輯了一個(gè)視頻,集中展示了生成的畫面效果。

這篇論文用精彩的方法生成了高分辨率、高真實(shí)度的圖像,其中衡量真實(shí)度和提高生成圖像豐富性的方法有很高的借鑒價(jià)值。所提的方法很好地完成了“從語(yǔ)義布局圖像生成照片級(jí)圖像”的任務(wù),而且具有一定的泛化能力。我們期待論文中的技術(shù)在未來(lái)的研究中進(jìn)一步得到發(fā)揚(yáng)光大。

雷鋒網(wǎng) AI 科技評(píng)論編譯。感謝陳啟峰博士對(duì)本文的補(bǔ)充!

論文地址:https://arxiv.org/abs/1707.09405v1 

陳啟峰個(gè)人主頁(yè):https://web.stanford.edu/~cqf/ 

項(xiàng)目地址:https://github.com/CQFIO/PhotographicImageSynthesis 

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

如此逼真的高清圖像居然是端到端網(wǎng)絡(luò)生成的?GANs 自嘆不如 | ICCV 2017

分享:
相關(guān)文章

讀論文為生

日常笑點(diǎn)滴,學(xué)術(shù)死腦筋
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)