逼真度超越「AI設(shè)計師」DALL·E 2！谷歌大腦推出新的文本生成圖像模型——Imagen

本文作者：我在思考中

2022-05-25 10:06

導(dǎo)語：Google Brain推出的 Imagen，比前段時間OpeAI家的DALL·E 2更強(qiáng)！

作者｜李梅、王玥

編輯｜陳彩嫻

文本生成圖像模型界又出新手筆！

這次的主角是Google Brain推出的 Imagen，再一次突破人類想象力，將文本生成圖像的逼真度和語言理解提高到了前所未有的新高度！比前段時間OpeAI家的DALL·E 2更強(qiáng)！

話不多說，我們來欣賞這位AI畫師的杰作～

A brain riding a rocketship heading towards the moon.（一顆大腦乘著火箭飛向月球。）

逼真度超越「AI設(shè)計師」DALL·E 2！谷歌大腦推出新的文本生成圖像模型——Imagen

A dragon fruit wearing karate belt in the snow.（在雪地里戴著空手道腰帶的火龍果）

逼真度超越「AI設(shè)計師」DALL·E 2！谷歌大腦推出新的文本生成圖像模型——Imagen

A marble statue of a Koala DJ in front of a marble statue of a turntable. The Koala has wearing large marble headphones.（一只帶著巨大耳機(jī)的考拉DJ的大理石雕像站在一個大理石轉(zhuǎn)盤前。）

逼真度超越「AI設(shè)計師」DALL·E 2！谷歌大腦推出新的文本生成圖像模型——Imagen

An art gallery displaying Monet paintings. The art gallery is flooded. Robots are going around the art gallery using paddle boards.（陳列莫奈畫作的美術(shù)館被水淹沒。機(jī)器人正在使用槳板在美術(shù)館里劃行。）

逼真度超越「AI設(shè)計師」DALL·E 2！谷歌大腦推出新的文本生成圖像模型——Imagen

A giant cobra snake on a farm.The snake is made out of corn（農(nóng)場里有一條巨大的玉米構(gòu)成的眼鏡蛇。）

逼真度超越「AI設(shè)計師」DALL·E 2！谷歌大腦推出新的文本生成圖像模型——Imagen

Teddy bears swimming at the Olympics 400m Butterfly event.（泰迪熊在奧運(yùn)會400米蝶泳項(xiàng)目中游泳。）

逼真度超越「AI設(shè)計師」DALL·E 2！谷歌大腦推出新的文本生成圖像模型——Imagen

以及更多......

逼真度超越「AI設(shè)計師」DALL·E 2！谷歌大腦推出新的文本生成圖像模型——Imagen

給出同樣的文本提示，Imagen還可以生成不同類別的圖像。比如下面這些圖中，各組圖片在物品的顏色、空間位置、材質(zhì)等范疇上都不太相同。

逼真度超越「AI設(shè)計師」DALL·E 2！谷歌大腦推出新的文本生成圖像模型——Imagen

Imagen的工作原理

論文地址：https://gweb-research-imagen.appspot.com/paper.pdf

Imagen的可視化流程

Imagen基于大型transformer語言模型在理解文本方面的能力和擴(kuò)散模型在高保真圖像生成方面的能力。

在用戶輸入文本要求后，如“一只戴著藍(lán)色格子貝雷帽和紅色波點(diǎn)高領(lǐng)毛衣的金毛犬”，Imagen先是使用一個大的凍結(jié)（frozen）T5-XXL 編碼器將這段輸入文本編碼為嵌入。然后條件擴(kuò)散模型將文本嵌入映射到64×64的圖像中。

Imagen進(jìn)一步利用文本條件超分辨率擴(kuò)散模型對64×64的圖像進(jìn)行升采樣為256×256，再從256×256升到1024×1024。結(jié)果表明，帶噪聲調(diào)節(jié)增強(qiáng)的級聯(lián)擴(kuò)散模型在逐步生成高保真圖像方面效果很好。

圖注：輸入“一只戴著藍(lán)色格子貝雷帽和紅色波點(diǎn)高領(lǐng)毛衣的金毛犬”后Imagen的動作

圖注：64 × 64生成圖像的超分辨率變化。對于生成的64 × 64圖像，將兩種超分辨率模型分別置于不同的提示下，產(chǎn)生不同的上采樣變化

大型預(yù)訓(xùn)練語言模型×級聯(lián)擴(kuò)散模型

Imagen使用在純文本語料中進(jìn)行預(yù)訓(xùn)練的通用大型語言模型(例如T5)，它能夠非常有效地將文本合成圖像：在Imagen中增加語言模型的大小，而不是增加圖像擴(kuò)散模型的大小，可以大大地提高樣本保真度和圖像-文本對齊。

Imagen的研究突出體現(xiàn)在：

大型預(yù)訓(xùn)練凍結(jié)文本編碼器對于文本到圖像的任務(wù)來說非常有效；
縮放預(yù)訓(xùn)練的文本編碼器大小比縮放擴(kuò)散模型大小更重要；
引入一種新的閾值擴(kuò)散采樣器，這種采樣器可以使用非常大的無分類器指導(dǎo)權(quán)重；
引入一種新的高效U-Net架構(gòu)，這種架構(gòu)具有更高的計算效率、更高的內(nèi)存效率和更快的收斂速度；
Imagen在COCO數(shù)據(jù)集上獲得了最先進(jìn)的FID分?jǐn)?shù)7.27，而沒有對COCO進(jìn)行任何訓(xùn)練，人類評分者發(fā)現(xiàn)，Imagen樣本在圖像-文本對齊方面與COCO數(shù)據(jù)本身不相上下。

逼真度超越「AI設(shè)計師」DALL·E 2！谷歌大腦推出新的文本生成圖像模型——Imagen

引入新基準(zhǔn)DrawBench

為了更深入地評估文本到圖像模型，Google Brain 引入了DrawBench，這是一個全面的、具有挑戰(zhàn)性的文本到圖像模型基準(zhǔn)。通過DrawBench，他們比較了Imagen與VQ-GAN+CLIP、Latent Diffusion Models和DALL-E 2等其他方法，發(fā)現(xiàn)人類評分者在比較中更喜歡Imagen而不是其他模型，無論是在樣本質(zhì)量上還是在圖像-文本對齊方面。

并排人類評估；
對語意合成性、基數(shù)性、空間關(guān)系、長文本、生詞和具有挑戰(zhàn)性的提示幾方面提出了系統(tǒng)化的考驗(yàn)；
由于圖像-文本對齊和圖像保真度的優(yōu)勢，相對于其他方法，用戶強(qiáng)烈傾向于使用Imagen。

圖注：Imagen與DALL-E 2、GLIDE、VQ-GAN+CLIP和Latent Diffusion Models在DrawBench上的比較:用戶對圖像-文本對齊和圖像逼真度的偏好率(95%置信區(qū)間)

Imagen與DALL-E 2 生成圖像的比較示例：

圖注：“外星人綁架奶牛，將其吸入空中盤旋”（上）；“一個被貓絆倒的希臘男性的雕塑”（下）

對于涉及顏色的文本提示，Imagen生成的圖像也比DALL-E 2更優(yōu)。DALL-E 2通常很難為目標(biāo)圖像分配正確的顏色，尤其是當(dāng)文本提示中包含多個對象的顏色提示時，DALL-E 2會容易將其混淆。

圖注：Imagen和DALL-E 2從顏色類文本生成圖像的比較?！耙槐军S色書籍和一個紅花瓶”（上）；“一個黑色蘋果和一個綠色雙肩包”（下）

而在帶引號文本的提示方面，Imagen生成圖像的能力也明顯優(yōu)于DALL-E 2。

圖注：Imagen 和 DALL-E 2 從帶引號文本生成圖像的比較?！凹~約天際線，天上有煙花寫成的“Hello World”字樣”（上）；“一間寫著Time to Image的店面”（下）

打開了潘多拉魔盒？

像Imagen這樣從文本生成圖像的研究面臨著一系列倫理挑戰(zhàn)。

首先，文本-圖像模型的下游應(yīng)用多種多樣，可能會從多方面對社會造成影響。Imagen以及一切從文本生成圖像的系統(tǒng)都有可能被誤用的潛在風(fēng)險，因此社會要求開發(fā)方提供負(fù)責(zé)任的開源代碼和演示?；谝陨显颍珿oogle決定暫時不發(fā)布代碼或進(jìn)行公開演示。而在未來的工作中，Google將探索一個負(fù)責(zé)任的外部化框架，從而將各類潛在風(fēng)險最小化。

其次，文本到圖像模型對數(shù)據(jù)的要求導(dǎo)致研究人員嚴(yán)重依賴于大型的、大部分未經(jīng)整理的、網(wǎng)絡(luò)抓取的數(shù)據(jù)集。雖然近年來這種方法使算法快速進(jìn)步，但這種性質(zhì)的數(shù)據(jù)集往往會夾帶社會刻板印象、壓迫性觀點(diǎn)、對邊緣群體有所貶損等“有毒”信息。

為了去除噪音和不良內(nèi)容（如色情圖像和“有毒”言論），Google對訓(xùn)練數(shù)據(jù)的子集進(jìn)行了過濾，同時Google還使用了眾所周知的LAION-400M數(shù)據(jù)集進(jìn)行過濾對比，該數(shù)據(jù)集包含網(wǎng)絡(luò)上常見的不當(dāng)內(nèi)容，包括色情圖像、種族主義攻擊言論和負(fù)面社會刻板印象。Imagen依賴于在未經(jīng)策劃的網(wǎng)絡(luò)規(guī)模數(shù)據(jù)上訓(xùn)練的文本編碼器，因此繼承了大型語言模型的社會偏見和局限性。這說明Imagen可能存在負(fù)面刻板印象和其他局限性，因此Google決定，在沒有進(jìn)一步安全措施的情況下，不會將Imagen發(fā)布給公眾使用。

參考鏈接：

https://gweb-research-imagen.appspot.com/