丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能學(xué)術(shù) 正文
發(fā)私信給我在思考中
發(fā)送

0

逼真度超越「AI設(shè)計師」DALL·E 2!谷歌大腦推出新的文本生成圖像模型——Imagen

本文作者: 我在思考中 2022-05-25 10:06
導(dǎo)語:Google Brain推出的 Imagen,比前段時間OpeAI家的DALL·E 2更強(qiáng)!

逼真度超越「AI設(shè)計師」DALL·E 2!谷歌大腦推出新的文本生成圖像模型——Imagen

作者|李梅、王玥

編輯|陳彩嫻

文本生成圖像模型界又出新手筆!

這次的主角是Google Brain推出的 Imagen,再一次突破人類想象力,將文本生成圖像的逼真度和語言理解提高到了前所未有的新高度!比前段時間OpeAI家的DALL·E 2更強(qiáng)!

話不多說,我們來欣賞這位AI畫師的杰作~

A brain riding a rocketship heading towards the moon.(一顆大腦乘著火箭飛向月球。)

逼真度超越「AI設(shè)計師」DALL·E 2!谷歌大腦推出新的文本生成圖像模型——Imagen

A dragon fruit wearing karate belt in the snow.(在雪地里戴著空手道腰帶的火龍果)

逼真度超越「AI設(shè)計師」DALL·E 2!谷歌大腦推出新的文本生成圖像模型——Imagen

A  marble statue of a Koala DJ in front of a marble statue of a turntable. The Koala has wearing large marble headphones.(一只帶著巨大耳機(jī)的考拉DJ的大理石雕像站在一個大理石轉(zhuǎn)盤前。)

逼真度超越「AI設(shè)計師」DALL·E 2!谷歌大腦推出新的文本生成圖像模型——Imagen

An art gallery displaying Monet paintings. The art gallery is flooded. Robots are going around the art gallery using paddle boards.(陳列莫奈畫作的美術(shù)館被水淹沒。機(jī)器人正在使用槳板在美術(shù)館里劃行。)

逼真度超越「AI設(shè)計師」DALL·E 2!谷歌大腦推出新的文本生成圖像模型——Imagen

A giant cobra snake on a farm.The snake is made out of corn(農(nóng)場里有一條巨大的玉米構(gòu)成的眼鏡蛇。)

逼真度超越「AI設(shè)計師」DALL·E 2!谷歌大腦推出新的文本生成圖像模型——Imagen

Teddy bears swimming at the Olympics 400m Butterfly event.(泰迪熊在奧運(yùn)會400米蝶泳項(xiàng)目中游泳。)

逼真度超越「AI設(shè)計師」DALL·E 2!谷歌大腦推出新的文本生成圖像模型——Imagen

以及更多......

逼真度超越「AI設(shè)計師」DALL·E 2!谷歌大腦推出新的文本生成圖像模型——Imagen

逼真度超越「AI設(shè)計師」DALL·E 2!谷歌大腦推出新的文本生成圖像模型——Imagen

給出同樣的文本提示,Imagen還可以生成不同類別的圖像。比如下面這些圖中,各組圖片在物品的顏色、空間位置、材質(zhì)等范疇上都不太相同。

逼真度超越「AI設(shè)計師」DALL·E 2!谷歌大腦推出新的文本生成圖像模型——Imagen



1

Imagen的工作原理
逼真度超越「AI設(shè)計師」DALL·E 2!谷歌大腦推出新的文本生成圖像模型——Imagen

論文地址:https://gweb-research-imagen.appspot.com/paper.pdf

Imagen的可視化流程

Imagen基于大型transformer語言模型在理解文本方面的能力和擴(kuò)散模型在高保真圖像生成方面的能力。

在用戶輸入文本要求后,如“一只戴著藍(lán)色格子貝雷帽和紅色波點(diǎn)高領(lǐng)毛衣的金毛犬”,Imagen先是使用一個大的凍結(jié)(frozen)T5-XXL 編碼器將這段輸入文本編碼為嵌入。然后條件擴(kuò)散模型將文本嵌入映射到64×64的圖像中。

Imagen進(jìn)一步利用文本條件超分辨率擴(kuò)散模型對64×64的圖像進(jìn)行升采樣為256×256,再從256×256升到1024×1024。結(jié)果表明,帶噪聲調(diào)節(jié)增強(qiáng)的級聯(lián)擴(kuò)散模型在逐步生成高保真圖像方面效果很好。

逼真度超越「AI設(shè)計師」DALL·E 2!谷歌大腦推出新的文本生成圖像模型——Imagen

圖注:輸入“一只戴著藍(lán)色格子貝雷帽和紅色波點(diǎn)高領(lǐng)毛衣的金毛犬”后Imagen的動作

逼真度超越「AI設(shè)計師」DALL·E 2!谷歌大腦推出新的文本生成圖像模型——Imagen

圖注:64 × 64生成圖像的超分辨率變化。對于生成的64 × 64圖像,將兩種超分辨率模型分別置于不同的提示下,產(chǎn)生不同的上采樣變化

大型預(yù)訓(xùn)練語言模型×級聯(lián)擴(kuò)散模型

Imagen使用在純文本語料中進(jìn)行預(yù)訓(xùn)練的通用大型語言模型(例如T5),它能夠非常有效地將文本合成圖像:在Imagen中增加語言模型的大小,而不是增加圖像擴(kuò)散模型的大小,可以大大地提高樣本保真度和圖像-文本對齊。

Imagen的研究突出體現(xiàn)在:

  • 大型預(yù)訓(xùn)練凍結(jié)文本編碼器對于文本到圖像的任務(wù)來說非常有效;

  • 縮放預(yù)訓(xùn)練的文本編碼器大小比縮放擴(kuò)散模型大小更重要;

  • 引入一種新的閾值擴(kuò)散采樣器,這種采樣器可以使用非常大的無分類器指導(dǎo)權(quán)重;

  • 引入一種新的高效U-Net架構(gòu),這種架構(gòu)具有更高的計算效率、更高的內(nèi)存效率和更快的收斂速度;

  • Imagen在COCO數(shù)據(jù)集上獲得了最先進(jìn)的FID分?jǐn)?shù)7.27,而沒有對COCO進(jìn)行任何訓(xùn)練,人類評分者發(fā)現(xiàn),Imagen樣本在圖像-文本對齊方面與COCO數(shù)據(jù)本身不相上下。

逼真度超越「AI設(shè)計師」DALL·E 2!谷歌大腦推出新的文本生成圖像模型——Imagen



2

引入新基準(zhǔn)DrawBench

為了更深入地評估文本到圖像模型,Google Brain 引入了DrawBench,這是一個全面的、具有挑戰(zhàn)性的文本到圖像模型基準(zhǔn)。通過DrawBench,他們比較了Imagen與VQ-GAN+CLIP、Latent Diffusion Models和DALL-E 2等其他方法,發(fā)現(xiàn)人類評分者在比較中更喜歡Imagen而不是其他模型,無論是在樣本質(zhì)量上還是在圖像-文本對齊方面。

  • 并排人類評估;

  • 對語意合成性、基數(shù)性、空間關(guān)系、長文本、生詞和具有挑戰(zhàn)性的提示幾方面提出了系統(tǒng)化的考驗(yàn);

  • 由于圖像-文本對齊和圖像保真度的優(yōu)勢,相對于其他方法,用戶強(qiáng)烈傾向于使用Imagen。

逼真度超越「AI設(shè)計師」DALL·E 2!谷歌大腦推出新的文本生成圖像模型——Imagen

圖注:Imagen與DALL-E 2、GLIDE、VQ-GAN+CLIP和Latent Diffusion Models在DrawBench上的比較:用戶對圖像-文本對齊和圖像逼真度的偏好率(95%置信區(qū)間)

Imagen與DALL-E 2 生成圖像的比較示例 :

逼真度超越「AI設(shè)計師」DALL·E 2!谷歌大腦推出新的文本生成圖像模型——Imagen

圖注:“外星人綁架奶牛,將其吸入空中盤旋”(上);“一個被貓絆倒的希臘男性的雕塑”(下)

對于涉及顏色的文本提示,Imagen生成的圖像也比DALL-E 2更優(yōu)。DALL-E 2通常很難為目標(biāo)圖像分配正確的顏色,尤其是當(dāng)文本提示中包含多個對象的顏色提示時,DALL-E 2會容易將其混淆。

逼真度超越「AI設(shè)計師」DALL·E 2!谷歌大腦推出新的文本生成圖像模型——Imagen

圖注:Imagen和DALL-E 2從顏色類文本生成圖像的比較?!耙槐军S色書籍和一個紅花瓶”(上);“一個黑色蘋果和一個綠色雙肩包”(下)

而在帶引號文本的提示方面,Imagen生成圖像的能力也明顯優(yōu)于DALL-E 2。

逼真度超越「AI設(shè)計師」DALL·E 2!谷歌大腦推出新的文本生成圖像模型——Imagen

圖注:Imagen 和 DALL-E 2 從帶引號文本生成圖像的比較?!凹~約天際線,天上有煙花寫成的“Hello World”字樣”(上);“一間寫著Time to Image的店面”(下)



3

打開了潘多拉魔盒?

像Imagen這樣從文本生成圖像的研究面臨著一系列倫理挑戰(zhàn)。

首先,文本-圖像模型的下游應(yīng)用多種多樣,可能會從多方面對社會造成影響。Imagen以及一切從文本生成圖像的系統(tǒng)都有可能被誤用的潛在風(fēng)險,因此社會要求開發(fā)方提供負(fù)責(zé)任的開源代碼和演示?;谝陨显颍珿oogle決定暫時不發(fā)布代碼或進(jìn)行公開演示。而在未來的工作中,Google將探索一個負(fù)責(zé)任的外部化框架,從而將各類潛在風(fēng)險最小化。

其次,文本到圖像模型對數(shù)據(jù)的要求導(dǎo)致研究人員嚴(yán)重依賴于大型的、大部分未經(jīng)整理的、網(wǎng)絡(luò)抓取的數(shù)據(jù)集。雖然近年來這種方法使算法快速進(jìn)步,但這種性質(zhì)的數(shù)據(jù)集往往會夾帶社會刻板印象、壓迫性觀點(diǎn)、對邊緣群體有所貶損等“有毒”信息。

為了去除噪音和不良內(nèi)容(如色情圖像和“有毒”言論),Google對訓(xùn)練數(shù)據(jù)的子集進(jìn)行了過濾,同時Google還使用了眾所周知的LAION-400M數(shù)據(jù)集進(jìn)行過濾對比,該數(shù)據(jù)集包含網(wǎng)絡(luò)上常見的不當(dāng)內(nèi)容,包括色情圖像、種族主義攻擊言論和負(fù)面社會刻板印象。Imagen依賴于在未經(jīng)策劃的網(wǎng)絡(luò)規(guī)模數(shù)據(jù)上訓(xùn)練的文本編碼器,因此繼承了大型語言模型的社會偏見和局限性。這說明Imagen可能存在負(fù)面刻板印象和其他局限性,因此Google決定,在沒有進(jìn)一步安全措施的情況下,不會將Imagen發(fā)布給公眾使用。

參考鏈接:

https://gweb-research-imagen.appspot.com/

逼真度超越「AI設(shè)計師」DALL·E 2!谷歌大腦推出新的文本生成圖像模型——Imagen

雷峰網(wǎng)雷峰網(wǎng)(公眾號:雷峰網(wǎng))

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

逼真度超越「AI設(shè)計師」DALL·E 2!谷歌大腦推出新的文本生成圖像模型——Imagen

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說