丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
業(yè)界 正文
發(fā)私信給貝爽
發(fā)送

0

OpenAI祭出120億參數(shù)魔法模型!從文本合成圖像栩栩如生,仿佛擁有人類(lèi)的語(yǔ)言想象力

本文作者: 貝爽 2021-01-06 16:42
導(dǎo)語(yǔ):自然語(yǔ)言與視覺(jué)的壁壘正在逐漸被打通。

2021剛剛開(kāi)啟,OpenAI又來(lái)放大招了!

能寫(xiě)小說(shuō)、哲學(xué)語(yǔ)錄的GPT-3已經(jīng)不足為奇?那就來(lái)一個(gè)多模態(tài)『圖像版GPT-3』。

今天,OpenAI重磅推出了最新語(yǔ)言模型—DALL·E,它是GPT-3的120億參數(shù)版本,可以魔法一般按照自然語(yǔ)言文字描述直接生成對(duì)應(yīng)圖片!

比如,在DALL·E模型中輸入“穿芭蕾舞短裙、正在遛狗的蘿卜寶寶”,它就可以生成這樣一張圖片:

OpenAI祭出120億參數(shù)魔法模型!從文本合成圖像栩栩如生,仿佛擁有人類(lèi)的語(yǔ)言想象力

輸入“鱷梨形狀的扶手椅”,就是這樣:

 OpenAI祭出120億參數(shù)魔法模型!從文本合成圖像栩栩如生,仿佛擁有人類(lèi)的語(yǔ)言想象力

甚至輸入“含OpenAI字樣的店鋪”,它也能成生成多種設(shè)計(jì)圖

OpenAI祭出120億參數(shù)魔法模型!從文本合成圖像栩栩如生,仿佛擁有人類(lèi)的語(yǔ)言想象力

DALL·E這項(xiàng)神技能沖上了各大社交平臺(tái)的熱搜。

Keras創(chuàng)始人Fran?ois Chollet特意發(fā)文稱(chēng):

這看起來(lái)非??幔绕涫恰皥D像生成”的部分。從原理上來(lái)看,它應(yīng)該就是GPT-3在文本合成圖像方向上的擴(kuò)展版本。

AI大神吳恩達(dá)也第一時(shí)間轉(zhuǎn)推點(diǎn)贊,還順帶挑選了一張滿(mǎn)意的藍(lán)色襯衫 + 黑色長(zhǎng)褲的AI 生成圖。

OpenAI祭出120億參數(shù)魔法模型!從文本合成圖像栩栩如生,仿佛擁有人類(lèi)的語(yǔ)言想象力

OpenAI 聯(lián)合創(chuàng)始人、首席科學(xué)家 Ilya Sutskever 在推特上發(fā)文表道:人工智能的長(zhǎng)期目標(biāo)是構(gòu)建多模態(tài)神經(jīng)網(wǎng)絡(luò),即AI能夠?qū)W習(xí)不同模態(tài)之間的概念(文本和視覺(jué)領(lǐng)域?yàn)橹鳎瑥亩玫乩斫馐澜?。?DALL·E 和 CLIP 使我們更接近“多模態(tài) AI 系統(tǒng)”這一目標(biāo)。

OpenAI祭出120億參數(shù)魔法模型!從文本合成圖像栩栩如生,仿佛擁有人類(lèi)的語(yǔ)言想象力

值得一提的是,DALL·E的命名也很特別。這個(gè)善于繪畫(huà)創(chuàng)作的模型名稱(chēng)來(lái)源于人類(lèi)藝術(shù)家薩爾瓦多·達(dá)利(Salvador Dalí)和皮克斯(Pixar)機(jī)器人WALL·E名稱(chēng)的結(jié)合。

OpenAI祭出120億參數(shù)魔法模型!從文本合成圖像栩栩如生,仿佛擁有人類(lèi)的語(yǔ)言想象力

接下來(lái),我們來(lái)詳細(xì)介紹一下它還有哪些硬核能力。

DALL·E的能力

DALL·E能夠?yàn)槎嗾Z(yǔ)言成分結(jié)構(gòu)的各種句子創(chuàng)造似是而非的圖像。研究人員通過(guò)一些交互視覺(jué)效果舉例說(shuō)明了這一點(diǎn)。在下面的案例中,每個(gè)視覺(jué)效果的文本提示都是通過(guò)CLIP重新排序后,從512個(gè)文本提示中的前32個(gè)獲得的,不采取任何手動(dòng)選?。╟herry-picking)。

控制屬性

研究人員測(cè)試了DALL·E修改目標(biāo)物體的能力,包括修改相應(yīng)的屬性以及出現(xiàn)的次數(shù)。

文本提示:五邊形的綠色鐘。

 OpenAI祭出120億參數(shù)魔法模型!從文本合成圖像栩栩如生,仿佛擁有人類(lèi)的語(yǔ)言想象力

繪制多個(gè)目標(biāo)

同時(shí)控制多個(gè)目標(biāo)物體、以及它們的屬性、空間關(guān)系是一個(gè)全新的挑戰(zhàn)。

例如,“一只戴著紅帽子、黃手套、藍(lán)襯衫和綠褲子的刺猬”。要正確地解釋這句話(huà),DALL·E 不僅要正確地將每件衣服與動(dòng)物組合在一起,還要將(帽子、紅色)、(手套、黃色)、(襯衫、藍(lán)色)和(褲子,綠色)形成各種聯(lián)想,而且不能混淆它們。

文本提示:一堆三維立方體:紅色的立方體在綠色立方體的頂部;綠色立方體在中間;藍(lán)色立方體在底部。

OpenAI祭出120億參數(shù)魔法模型!從文本合成圖像栩栩如生,仿佛擁有人類(lèi)的語(yǔ)言想象力

雖然DALL·E確實(shí)為少量目標(biāo)的屬性和位置提供了某種程度的可控性,但成功率取決于標(biāo)題文本的語(yǔ)言措辭。

隨著目標(biāo)的增多,DALL·E容易混淆目標(biāo)與顏色之間的關(guān)聯(lián),成功率會(huì)急劇降低。研究人員注意到,在這些場(chǎng)景中,DALL·E對(duì)于標(biāo)題文本的重新表述是脆弱的、可替代的,語(yǔ)義上等價(jià)的標(biāo)題文本通常不會(huì)產(chǎn)生正確的解釋。

可視化透視與三維

研究人員發(fā)現(xiàn)DALL·E還能夠控制場(chǎng)景的視點(diǎn)和渲染場(chǎng)景的3D樣式。

文本提示:坐在田野上的體素化模型水豚。

OpenAI祭出120億參數(shù)魔法模型!從文本合成圖像栩栩如生,仿佛擁有人類(lèi)的語(yǔ)言想象力

為了進(jìn)一步驗(yàn)證DALL·E的這個(gè)能力,研究人員測(cè)試了DALL·E在同等視角下重復(fù)繪制知名人物頭部的能力,并發(fā)現(xiàn)DALL·E可以成功恢復(fù)旋轉(zhuǎn)頭部的平滑動(dòng)畫(huà)。

文本提示: 荷馬半身像。

OpenAI祭出120億參數(shù)魔法模型!從文本合成圖像栩栩如生,仿佛擁有人類(lèi)的語(yǔ)言想象力

DALL·E能夠?qū)⒛承╊?lèi)型的光學(xué)畸變(Optical Distortions)應(yīng)用到具體場(chǎng)景中,正如我們?cè)凇棒~(yú)眼透鏡視圖(Fisheye Lens View)”和“球形全景圖(Spherical Panorama.)”等場(chǎng)景中看到的那樣。它促使研究人員探索其產(chǎn)生光學(xué)反射的能力。

文本提示:一個(gè)白色的立方體看著自己在鏡子里的倒影;一個(gè)白色的立方體看著鏡子里的自己。

OpenAI祭出120億參數(shù)魔法模型!從文本合成圖像栩栩如生,仿佛擁有人類(lèi)的語(yǔ)言想象力

可視化內(nèi)部和外部結(jié)構(gòu)

“特寫(xiě)鏡頭(Extreme Close-up View)”和“x射線(xiàn)(X-Ray)”風(fēng)格的案例使研究人員進(jìn)一步探索了DALL·E運(yùn)用橫截面視角繪制內(nèi)部結(jié)構(gòu)和用宏觀(guān)圖像繪制外部結(jié)構(gòu)的能力。

文本提示:核桃的橫截面圖。

OpenAI祭出120億參數(shù)魔法模型!從文本合成圖像栩栩如生,仿佛擁有人類(lèi)的語(yǔ)言想象力

推斷上下文細(xì)節(jié)

將文本翻譯成圖像的任務(wù)是不明確的:一個(gè)標(biāo)題文本通??梢詫?duì)應(yīng)無(wú)限多種圖像,換句話(huà)說(shuō),圖像不是唯一確定的。例如,假如標(biāo)題文本是“日出時(shí),坐在田野上的水豚的繪畫(huà)像。根據(jù)水豚的方位,可能需要畫(huà)一個(gè)陰影,但這個(gè)細(xì)節(jié)沒(méi)有被明確提及。

研究人員探討了DALL·E在以下三種情況下解決無(wú)規(guī)范標(biāo)準(zhǔn)問(wèn)題的能力:改變風(fēng)格、設(shè)置和時(shí)間;在各種不同的情況下繪制同一目標(biāo)圖像;在生成目標(biāo)圖像上書(shū)寫(xiě)指定文本。

文本提示:帶有藍(lán)色草莓的彩色玻璃窗。

OpenAI祭出120億參數(shù)魔法模型!從文本合成圖像栩栩如生,仿佛擁有人類(lèi)的語(yǔ)言想象力

利用不同程度的可靠性,DALL·E為通過(guò)自然語(yǔ)言實(shí)現(xiàn)3D渲染引擎功能提供了一種途徑。它可以獨(dú)立地控制少量目標(biāo)的屬性,并在有限的范圍內(nèi)控制目標(biāo)的數(shù)量以及它們之間的排列方式。它還可以控制渲染場(chǎng)景的位置和角度,并且根據(jù)角度和照明條件生成精確且規(guī)范的已知目標(biāo)。

與3D渲染引擎不同,3D渲染引擎的輸入必須明確且完整,當(dāng)標(biāo)題文本暗示圖像必須包含未明確的特定細(xì)節(jié)時(shí),DALL·E通常能夠“填補(bǔ)空白”。

應(yīng)用案例

研究人員探討了上述功能在時(shí)尚設(shè)計(jì)和室內(nèi)設(shè)計(jì)中的應(yīng)用。

文本提示:一位穿著橘色和黑色相間襯衫的男性人體模特。

OpenAI祭出120億參數(shù)魔法模型!從文本合成圖像栩栩如生,仿佛擁有人類(lèi)的語(yǔ)言想象力

文本提示:客廳中有兩個(gè)白色的扶手椅和一幅斗獸場(chǎng)的畫(huà),這幅畫(huà)掛在現(xiàn)代樣式壁爐的上方。AI生成的圖像:

OpenAI祭出120億參數(shù)魔法模型!從文本合成圖像栩栩如生,仿佛擁有人類(lèi)的語(yǔ)言想象力

組合不相關(guān)的概念

語(yǔ)言的構(gòu)成本質(zhì)使人們能夠?qū)⒏拍蠲枋黾稍谝黄?,用以描述真?shí)和虛構(gòu)的事物。 OpenAI發(fā)現(xiàn),DALL·E還具有將完全不同的idea結(jié)合起來(lái)以合成物體的能力,其中有些物體不可能在現(xiàn)實(shí)世界中存在。

OpenA在兩種情況下探索這種能力:將各種概念的特質(zhì)傳遞給動(dòng)物,以及從不相關(guān)的概念中汲取靈感來(lái)設(shè)計(jì)產(chǎn)品。

文本提示:豎琴狀的蝸牛。

OpenAI祭出120億參數(shù)魔法模型!從文本合成圖像栩栩如生,仿佛擁有人類(lèi)的語(yǔ)言想象力

在上一部分中探討了DALL·E在生成真實(shí)物體的圖像時(shí)結(jié)合無(wú)關(guān)概念的能力。 接下來(lái),OpenAI通過(guò)在藝術(shù)的背景下的三種插圖探索這種能力:動(dòng)物和物體的擬人化版本、動(dòng)物嵌合體、表情符號(hào)。

文本提示:長(zhǎng)頸鹿烏龜合體的專(zhuān)業(yè)高質(zhì)量插圖,模仿烏龜?shù)拈L(zhǎng)頸鹿,由烏龜變成的長(zhǎng)頸鹿。

OpenAI祭出120億參數(shù)魔法模型!從文本合成圖像栩栩如生,仿佛擁有人類(lèi)的語(yǔ)言想象力

零樣本視覺(jué)推理

可以?xún)H根據(jù)說(shuō)明和提示來(lái)指示GPT-3執(zhí)行多種任務(wù),而無(wú)需任何額外訓(xùn)練。例如,當(dāng)提示短語(yǔ)“將‘在公園里walking狗的人’被翻譯成法語(yǔ):”時(shí),GPT-3會(huì)回答“un homme quipromèneson chien dans le parc。此功能稱(chēng)為零樣本推理。

OpenAI發(fā)現(xiàn)DALL·E將此功能擴(kuò)展到了視覺(jué)領(lǐng)域,并且在以正確的方式提示時(shí),能夠執(zhí)行多種圖像到圖像的翻譯任務(wù)。

文本+圖像提示:參照上面的貓?jiān)谙旅嫔刹輬D。

OpenAI祭出120億參數(shù)魔法模型!從文本合成圖像栩栩如生,仿佛擁有人類(lèi)的語(yǔ)言想象力

OpenAI驚訝地發(fā)現(xiàn)DALL·E居然有這種神奇的能力,因?yàn)樗麄儧](méi)有對(duì)神經(jīng)網(wǎng)絡(luò)或訓(xùn)練程序進(jìn)行任何修改。

受這些結(jié)果的啟發(fā),OpenAI通過(guò)在Raven的漸進(jìn)矩陣上進(jìn)行測(cè)試來(lái)衡量DALL·E對(duì)于解決類(lèi)推推理問(wèn)題的能力,這是一種視覺(jué)智商測(cè)試,在20世紀(jì)得到了廣泛應(yīng)用。

 文本+圖像提示:一個(gè)幾何形狀序列。

OpenAI祭出120億參數(shù)魔法模型!從文本合成圖像栩栩如生,仿佛擁有人類(lèi)的語(yǔ)言想象力

地理知識(shí)

OpenAI 發(fā)現(xiàn)DALL·E了解地理事實(shí)、地標(biāo)和街區(qū)。 它對(duì)這些概念的了解在某些方面出奇地精確,而在另一些方面卻有缺陷。

文本提示:中國(guó)食物的圖片。

OpenAI祭出120億參數(shù)魔法模型!從文本合成圖像栩栩如生,仿佛擁有人類(lèi)的語(yǔ)言想象力

時(shí)間知識(shí)

除了探索DALL·E關(guān)于隨空間變化的概念的知識(shí)外,OpenAI還探索了其隨時(shí)間變化的概念的知識(shí)。

 文本+圖像提示:20年代發(fā)明的電話(huà)。

OpenAI祭出120億參數(shù)魔法模型!從文本合成圖像栩栩如生,仿佛擁有人類(lèi)的語(yǔ)言想象力

總結(jié):方法和先前工作

DALL·E是一個(gè)僅有解碼器的Transformer架構(gòu),它可以接收1280個(gè)token的文本和圖像作為單個(gè)流(文本為256個(gè)token,圖像為1024個(gè)token),并對(duì)它們?nèi)窟M(jìn)行自動(dòng)回歸建模。

它的64個(gè)自注意力層中的每一個(gè)都具有注意力mask,使每個(gè)圖像token都可以匹配所有文本token。DALL·E對(duì)文本token使用標(biāo)準(zhǔn)的因果mask,以行、列或卷積注意模式對(duì)圖像token使用稀疏注意,具體取決于層數(shù)。

OpenAI計(jì)劃在下一篇論文中提供有關(guān)DALL·E架構(gòu)和訓(xùn)練過(guò)程的詳細(xì)信息。

與VQVAE-2中使用的rejection sampling類(lèi)似,OpenAI使用CLIP對(duì)每個(gè)文本生成的512個(gè)采樣中的前32個(gè)進(jìn)行排名。此過(guò)程也可以看作是一種語(yǔ)言指導(dǎo)的搜索,會(huì)對(duì)樣本質(zhì)量產(chǎn)生巨大影響。

GPT-3已經(jīng)向我們展示,可以用語(yǔ)言來(lái)指示大型神經(jīng)網(wǎng)絡(luò)執(zhí)行各種文本生成任務(wù)。Image GPT則表明,同樣類(lèi)型的神經(jīng)網(wǎng)絡(luò)也可以用來(lái)生成高保真的圖像。OpenAI進(jìn)一步擴(kuò)展了這些發(fā)現(xiàn),以表明通過(guò)語(yǔ)言操縱視覺(jué)概念是觸手可及的。

與GPT-3一樣,DALL·E是一種Transformer語(yǔ)言模型。OpenAI認(rèn)為,涉及生成模型的工作可能會(huì)產(chǎn)生重大而廣泛的社會(huì)影響。因此未來(lái),OpenAI會(huì)計(jì)劃分析像DALL·E這樣的模型如何與社會(huì)問(wèn)題聯(lián)系起來(lái),例如對(duì)某些工作流程和專(zhuān)業(yè)的經(jīng)濟(jì)影響,模型輸出中可能存在的偏見(jiàn)以及該技術(shù)所隱含的長(zhǎng)期道德挑戰(zhàn)。

最后,Henry AI Labs在YouTube上分享了一個(gè)視頻,簡(jiǎn)要介紹了OpenAI的DALL-E模型,并表示“希望可以清楚說(shuō)明深度神經(jīng)網(wǎng)絡(luò)中文本和圖像是如何作為張量統(tǒng)一的?!?/p>

由于是非官方解釋?zhuān)瑑H供參考。

最后,大家對(duì)DALL·E 這個(gè)的神經(jīng)網(wǎng)絡(luò)模型有什么應(yīng)用上的期待呢?二維設(shè)計(jì)師?

又會(huì)覺(jué)得它會(huì)引導(dǎo)什么AI革命嗎?又或者覺(jué)得它會(huì)存在很多不可避免的限制?



參考鏈接:https://openai.com/blog/dall-e/

雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

分享:
相關(guān)文章
當(dāng)月熱門(mén)文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話(huà)
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶(hù)安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)