OpenAI祭出120億參數(shù)魔法模型！從文本合成圖像栩栩如生，仿佛擁有人類的語言想象力

本文作者：貝爽

2021-01-06 16:42

導語：自然語言與視覺的壁壘正在逐漸被打通。

2021剛剛開啟，OpenAI又來放大招了！

能寫小說、哲學語錄的GPT-3已經(jīng)不足為奇？那就來一個多模態(tài)『圖像版GPT-3』。

今天，OpenAI重磅推出了最新語言模型—DALL·E，它是GPT-3的120億參數(shù)版本，可以魔法一般按照自然語言文字描述直接生成對應圖片！

比如，在DALL·E模型中輸入“穿芭蕾舞短裙、正在遛狗的蘿卜寶寶”，它就可以生成這樣一張圖片：

OpenAI祭出120億參數(shù)魔法模型！從文本合成圖像栩栩如生，仿佛擁有人類的語言想象力

輸入“鱷梨形狀的扶手椅”，就是這樣：

OpenAI祭出120億參數(shù)魔法模型！從文本合成圖像栩栩如生，仿佛擁有人類的語言想象力

甚至輸入“含OpenAI字樣的店鋪”，它也能成生成多種設計圖

OpenAI祭出120億參數(shù)魔法模型！從文本合成圖像栩栩如生，仿佛擁有人類的語言想象力

DALL·E這項神技能沖上了各大社交平臺的熱搜。

Keras創(chuàng)始人Fran?ois Chollet特意發(fā)文稱：

這看起來非常酷，尤其是“圖像生成”的部分。從原理上來看，它應該就是GPT-3在文本合成圖像方向上的擴展版本。

AI大神吳恩達也第一時間轉(zhuǎn)推點贊，還順帶挑選了一張滿意的藍色襯衫 + 黑色長褲的AI 生成圖。

OpenAI祭出120億參數(shù)魔法模型！從文本合成圖像栩栩如生，仿佛擁有人類的語言想象力

OpenAI 聯(lián)合創(chuàng)始人、首席科學家 Ilya Sutskever 在推特上發(fā)文表道：人工智能的長期目標是構(gòu)建多模態(tài)神經(jīng)網(wǎng)絡，即AI能夠?qū)W習不同模態(tài)之間的概念（文本和視覺領(lǐng)域為主），從而更好地理解世界。而 DALL·E 和 CLIP 使我們更接近“多模態(tài) AI 系統(tǒng)”這一目標。

OpenAI祭出120億參數(shù)魔法模型！從文本合成圖像栩栩如生，仿佛擁有人類的語言想象力

值得一提的是，DALL·E的命名也很特別。這個善于繪畫創(chuàng)作的模型名稱來源于人類藝術(shù)家薩爾瓦多·達利（Salvador Dalí）和皮克斯（Pixar）機器人WALL·E名稱的結(jié)合。

OpenAI祭出120億參數(shù)魔法模型！從文本合成圖像栩栩如生，仿佛擁有人類的語言想象力

接下來，我們來詳細介紹一下它還有哪些硬核能力。

DALL·E的能力

DALL·E能夠為多語言成分結(jié)構(gòu)的各種句子創(chuàng)造似是而非的圖像。研究人員通過一些交互視覺效果舉例說明了這一點。在下面的案例中，每個視覺效果的文本提示都是通過CLIP重新排序后，從512個文本提示中的前32個獲得的，不采取任何手動選?。╟herry-picking）。

控制屬性

研究人員測試了DALL·E修改目標物體的能力，包括修改相應的屬性以及出現(xiàn)的次數(shù)。

文本提示：五邊形的綠色鐘。

OpenAI祭出120億參數(shù)魔法模型！從文本合成圖像栩栩如生，仿佛擁有人類的語言想象力

繪制多個目標

同時控制多個目標物體、以及它們的屬性、空間關(guān)系是一個全新的挑戰(zhàn)。

例如，“一只戴著紅帽子、黃手套、藍襯衫和綠褲子的刺猬”。要正確地解釋這句話，DALL·E 不僅要正確地將每件衣服與動物組合在一起，還要將（帽子、紅色）、（手套、黃色）、（襯衫、藍色）和（褲子，綠色）形成各種聯(lián)想，而且不能混淆它們。

文本提示：一堆三維立方體：紅色的立方體在綠色立方體的頂部；綠色立方體在中間；藍色立方體在底部。

OpenAI祭出120億參數(shù)魔法模型！從文本合成圖像栩栩如生，仿佛擁有人類的語言想象力

雖然DALL·E確實為少量目標的屬性和位置提供了某種程度的可控性，但成功率取決于標題文本的語言措辭。

隨著目標的增多，DALL·E容易混淆目標與顏色之間的關(guān)聯(lián)，成功率會急劇降低。研究人員注意到，在這些場景中，DALL·E對于標題文本的重新表述是脆弱的、可替代的，語義上等價的標題文本通常不會產(chǎn)生正確的解釋。

可視化透視與三維

研究人員發(fā)現(xiàn)DALL·E還能夠控制場景的視點和渲染場景的3D樣式。

文本提示：坐在田野上的體素化模型水豚。

OpenAI祭出120億參數(shù)魔法模型！從文本合成圖像栩栩如生，仿佛擁有人類的語言想象力

為了進一步驗證DALL·E的這個能力，研究人員測試了DALL·E在同等視角下重復繪制知名人物頭部的能力，并發(fā)現(xiàn)DALL·E可以成功恢復旋轉(zhuǎn)頭部的平滑動畫。

文本提示：荷馬半身像。

OpenAI祭出120億參數(shù)魔法模型！從文本合成圖像栩栩如生，仿佛擁有人類的語言想象力

DALL·E能夠?qū)⒛承╊愋偷墓鈱W畸變（Optical Distortions）應用到具體場景中，正如我們在“魚眼透鏡視圖（Fisheye Lens View）”和“球形全景圖（Spherical Panorama.）”等場景中看到的那樣。它促使研究人員探索其產(chǎn)生光學反射的能力。

文本提示：一個白色的立方體看著自己在鏡子里的倒影；一個白色的立方體看著鏡子里的自己。

OpenAI祭出120億參數(shù)魔法模型！從文本合成圖像栩栩如生，仿佛擁有人類的語言想象力

可視化內(nèi)部和外部結(jié)構(gòu)

“特寫鏡頭（Extreme Close-up View）”和“x射線（X-Ray）”風格的案例使研究人員進一步探索了DALL·E運用橫截面視角繪制內(nèi)部結(jié)構(gòu)和用宏觀圖像繪制外部結(jié)構(gòu)的能力。

文本提示：核桃的橫截面圖。

OpenAI祭出120億參數(shù)魔法模型！從文本合成圖像栩栩如生，仿佛擁有人類的語言想象力

推斷上下文細節(jié)

將文本翻譯成圖像的任務是不明確的：一個標題文本通?？梢詫獰o限多種圖像，換句話說，圖像不是唯一確定的。例如，假如標題文本是“日出時，坐在田野上的水豚的繪畫像。根據(jù)水豚的方位，可能需要畫一個陰影，但這個細節(jié)沒有被明確提及。

研究人員探討了DALL·E在以下三種情況下解決無規(guī)范標準問題的能力：改變風格、設置和時間；在各種不同的情況下繪制同一目標圖像；在生成目標圖像上書寫指定文本。

文本提示：帶有藍色草莓的彩色玻璃窗。

OpenAI祭出120億參數(shù)魔法模型！從文本合成圖像栩栩如生，仿佛擁有人類的語言想象力

利用不同程度的可靠性，DALL·E為通過自然語言實現(xiàn)3D渲染引擎功能提供了一種途徑。它可以獨立地控制少量目標的屬性，并在有限的范圍內(nèi)控制目標的數(shù)量以及它們之間的排列方式。它還可以控制渲染場景的位置和角度，并且根據(jù)角度和照明條件生成精確且規(guī)范的已知目標。

與3D渲染引擎不同，3D渲染引擎的輸入必須明確且完整，當標題文本暗示圖像必須包含未明確的特定細節(jié)時，DALL·E通常能夠“填補空白”。

應用案例

研究人員探討了上述功能在時尚設計和室內(nèi)設計中的應用。

文本提示：一位穿著橘色和黑色相間襯衫的男性人體模特。

OpenAI祭出120億參數(shù)魔法模型！從文本合成圖像栩栩如生，仿佛擁有人類的語言想象力

文本提示：客廳中有兩個白色的扶手椅和一幅斗獸場的畫，這幅畫掛在現(xiàn)代樣式壁爐的上方。AI生成的圖像：

OpenAI祭出120億參數(shù)魔法模型！從文本合成圖像栩栩如生，仿佛擁有人類的語言想象力

組合不相關(guān)的概念

語言的構(gòu)成本質(zhì)使人們能夠?qū)⒏拍蠲枋黾稍谝黄穑靡悦枋稣鎸嵑吞摌?gòu)的事物。 OpenAI發(fā)現(xiàn)，DALL·E還具有將完全不同的idea結(jié)合起來以合成物體的能力，其中有些物體不可能在現(xiàn)實世界中存在。

OpenA在兩種情況下探索這種能力：將各種概念的特質(zhì)傳遞給動物，以及從不相關(guān)的概念中汲取靈感來設計產(chǎn)品。

文本提示：豎琴狀的蝸牛。

OpenAI祭出120億參數(shù)魔法模型！從文本合成圖像栩栩如生，仿佛擁有人類的語言想象力

在上一部分中探討了DALL·E在生成真實物體的圖像時結(jié)合無關(guān)概念的能力。接下來，OpenAI通過在藝術(shù)的背景下的三種插圖探索這種能力：動物和物體的擬人化版本、動物嵌合體、表情符號。

文本提示：長頸鹿烏龜合體的專業(yè)高質(zhì)量插圖，模仿烏龜?shù)拈L頸鹿，由烏龜變成的長頸鹿。

OpenAI祭出120億參數(shù)魔法模型！從文本合成圖像栩栩如生，仿佛擁有人類的語言想象力

零樣本視覺推理

可以僅根據(jù)說明和提示來指示GPT-3執(zhí)行多種任務，而無需任何額外訓練。例如，當提示短語“將‘在公園里walking狗的人’被翻譯成法語：”時，GPT-3會回答“un homme quipromèneson chien dans le parc。此功能稱為零樣本推理。

OpenAI發(fā)現(xiàn)DALL·E將此功能擴展到了視覺領(lǐng)域，并且在以正確的方式提示時，能夠執(zhí)行多種圖像到圖像的翻譯任務。

文本+圖像提示：參照上面的貓在下面生成草圖。

OpenAI祭出120億參數(shù)魔法模型！從文本合成圖像栩栩如生，仿佛擁有人類的語言想象力

OpenAI驚訝地發(fā)現(xiàn)DALL·E居然有這種神奇的能力，因為他們沒有對神經(jīng)網(wǎng)絡或訓練程序進行任何修改。

受這些結(jié)果的啟發(fā)，OpenAI通過在Raven的漸進矩陣上進行測試來衡量DALL·E對于解決類推推理問題的能力，這是一種視覺智商測試，在20世紀得到了廣泛應用。

文本+圖像提示：一個幾何形狀序列。

OpenAI祭出120億參數(shù)魔法模型！從文本合成圖像栩栩如生，仿佛擁有人類的語言想象力

地理知識

OpenAI 發(fā)現(xiàn)DALL·E了解地理事實、地標和街區(qū)。它對這些概念的了解在某些方面出奇地精確，而在另一些方面卻有缺陷。

文本提示：中國食物的圖片。

OpenAI祭出120億參數(shù)魔法模型！從文本合成圖像栩栩如生，仿佛擁有人類的語言想象力

時間知識

除了探索DALL·E關(guān)于隨空間變化的概念的知識外，OpenAI還探索了其隨時間變化的概念的知識。

文本+圖像提示：20年代發(fā)明的電話。

OpenAI祭出120億參數(shù)魔法模型！從文本合成圖像栩栩如生，仿佛擁有人類的語言想象力

總結(jié)：方法和先前工作

DALL·E是一個僅有解碼器的Transformer架構(gòu)，它可以接收1280個token的文本和圖像作為單個流（文本為256個token，圖像為1024個token），并對它們?nèi)窟M行自動回歸建模。

它的64個自注意力層中的每一個都具有注意力mask，使每個圖像token都可以匹配所有文本token。DALL·E對文本token使用標準的因果mask，以行、列或卷積注意模式對圖像token使用稀疏注意，具體取決于層數(shù)。

OpenAI計劃在下一篇論文中提供有關(guān)DALL·E架構(gòu)和訓練過程的詳細信息。

與VQVAE-2中使用的rejection sampling類似，OpenAI使用CLIP對每個文本生成的512個采樣中的前32個進行排名。此過程也可以看作是一種語言指導的搜索，會對樣本質(zhì)量產(chǎn)生巨大影響。

GPT-3已經(jīng)向我們展示，可以用語言來指示大型神經(jīng)網(wǎng)絡執(zhí)行各種文本生成任務。Image GPT則表明，同樣類型的神經(jīng)網(wǎng)絡也可以用來生成高保真的圖像。OpenAI進一步擴展了這些發(fā)現(xiàn)，以表明通過語言操縱視覺概念是觸手可及的。

與GPT-3一樣，DALL·E是一種Transformer語言模型。OpenAI認為，涉及生成模型的工作可能會產(chǎn)生重大而廣泛的社會影響。因此未來，OpenAI會計劃分析像DALL·E這樣的模型如何與社會問題聯(lián)系起來，例如對某些工作流程和專業(yè)的經(jīng)濟影響，模型輸出中可能存在的偏見以及該技術(shù)所隱含的長期道德挑戰(zhàn)。

最后，Henry AI Labs在YouTube上分享了一個視頻，簡要介紹了OpenAI的DALL-E模型，并表示“希望可以清楚說明深度神經(jīng)網(wǎng)絡中文本和圖像是如何作為張量統(tǒng)一的?！?/p>

由于是非官方解釋，僅供參考。

最后，大家對DALL·E 這個的神經(jīng)網(wǎng)絡模型有什么應用上的期待呢？二維設計師？

又會覺得它會引導什么AI革命嗎？又或者覺得它會存在很多不可避免的限制？

參考鏈接：https://openai.com/blog/dall-e/

雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

3人收藏

相關(guān)文章