丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
人工智能學術 正文
發(fā)私信給我在思考中
發(fā)送

0

蘋果開發(fā)「AI 建筑師」GAUDI:根據文本生成超逼真 3D 場景!

本文作者: 我在思考中 2022-08-04 11:11
導語:蘋果的 AI 團隊推出了 3D 場景生成的最新神經架構—— GAUDI 。
蘋果開發(fā)「AI 建筑師」GAUDI:根據文本生成超逼真 3D 場景!

作者 | 李梅

編輯 | 陳彩嫻

如今,每隔一段時間就有新的文本生成圖像模型釋出,個個效果都很強大,每每驚艷眾人,這個領域已經是卷上天了。
不過,像 OpenAI 的 DALL-E 2 或谷歌 的 Imagen 等 AI 系統(tǒng),都只能生成二維圖像,如果文字也能變成三維場景,那帶來視覺體驗勢必加倍提升。
現在,來自蘋果的 AI 團隊推出了 3D 場景生成的最新神經架構—— GAUDI 。
蘋果開發(fā)「AI 建筑師」GAUDI:根據文本生成超逼真 3D 場景!
它可以捕捉復雜和逼真的 3D 場景分布,從移動攝像機中進行沉浸式渲染,還能根據文本提示來創(chuàng)建 3D 場景!該模型以 Antoni Gaudi 命名,他是西班牙著名的建筑大師 。

蘋果開發(fā)「AI 建筑師」GAUDI:根據文本生成超逼真 3D 場景!

論文地址:https://arxiv.org/pdf/2207.13751.pdf



1

基于 NeRFs 的 3D 渲染
神經渲染(nerual rendering)將計算機圖形學與人工智能結合起來,已經產生了很多從 2D 圖像生成 3D 模型的系統(tǒng)。比如最近 Nvidia 開發(fā)的 3D MoMa 可以在一個小時內從不到 100 張的照片中創(chuàng)建出 3D 模型。谷歌也依靠神經輻射場(NeRFs )在谷歌地圖中將 2D 衛(wèi)星和街景圖像組合成 3D 場景,實現了沉浸式視圖。谷歌的 HumanNeRF 還可以從視頻中渲染出 3D 人體。
目前,NeRFs 主要還是用作 3D 模型和 3D 場景的一種神經存儲介質,可以從不同的相機視角進行渲染。NeRFs 也已經開始被用于虛擬現實體驗。
那么,NeRFs 這種從不同攝像機角度逼真地渲染圖像的強大能力,能不能用于生成式 AI 呢?當然可以,已經有研究團隊嘗試了 3D 場景的生成,如谷歌在去年首次推出了 AI 系統(tǒng) Dream Fields,它將 NeRF 生成 3D 視圖的能力與 OpenAI 的 CLIP 評估圖像內容的能力相結合,最終實現了能夠生成匹配文本描述的 NeRF。

蘋果開發(fā)「AI 建筑師」GAUDI:根據文本生成超逼真 3D 場景!

圖注:谷歌 Dream Fields
但是,谷歌的 Dream Fields 只能生成針對單個對象的 3D 視圖,要將它擴展到完全不受約束的 3D 場景還存在很多困難。最大的難點就在于攝像機的位置有很大的限制,對于單個對象,每個可能的、合理的攝像機位置都可以映射到一個圓頂,但在 3D 場景中,攝像機的位置會受到對象和墻壁等障礙物的限制。如果在場景生成時不考慮這些因素,那就很難生成 3D 場景。



2

3D 渲染專家 GAUDI
對于上述攝像機位置受限的問題,蘋果的 GAUDI 模型拿出了三個專門的網絡來輕松搞定:
GAUDI 有一個相機姿態(tài)解碼器,它將攝像機姿態(tài)與場景的 3D 幾何和外觀分離開來,可以預測攝像機的可能位置,并確保輸出是 3D 場景架構的有效位置。

蘋果開發(fā)「AI 建筑師」GAUDI:根據文本生成超逼真 3D 場景!

圖注:解碼器模型架構
針對場景的場景解碼器則可以預測三維平面的表示,這種表示是一種 3D 畫布。
然后,輻射場解碼器會在這塊畫布上使用體積渲染方程來繪制后續(xù)的圖像。
GAUDI 的 3D 生成包含兩個階段:
一是潛在和網絡參數的優(yōu)化:學習對數千條軌跡的 3D 輻射場和相應相機姿態(tài)進行編碼的潛在表示。與針對單個對象不同,有效相機姿態(tài)隨著場景的變化而不同,所以需要對每個場景有效的相機姿態(tài)進行編碼。
二是使用擴散模型在潛在表示上學習生成模型,從而能夠在有條件和無條件的推理任務中都能很好地建模。前者是根據文本或圖像提示來生成 3D 場景,后者則是根據攝像機軌跡來生成 3D場景。
蘋果開發(fā)「AI 建筑師」GAUDI:根據文本生成超逼真 3D 場景!
通過 3D 室內場景,GAUDI 可以生成新的攝像機運動。如在下面一些示例中,文本描述包含有關場景和導航路徑的信息。這里研究團隊采用了預先訓練的基于 RoBERTa 的文本編碼器,并使用其中間表示來調節(jié)擴散模型,生成效果如下:
文本提示:走進廚房
蘋果開發(fā)「AI 建筑師」GAUDI:根據文本生成超逼真 3D 場景!
文本提示:上樓
蘋果開發(fā)「AI 建筑師」GAUDI:根據文本生成超逼真 3D 場景!
文本提示:穿過走廊
蘋果開發(fā)「AI 建筑師」GAUDI:根據文本生成超逼真 3D 場景!
另外,使用預訓練的ResNet-18 作為圖像編碼器,GAUDI 能夠對從隨機視點觀察給定圖像的輻射場進行采樣,從而從圖像提示中創(chuàng)建 3D 場景。
圖像提示:
蘋果開發(fā)「AI 建筑師」GAUDI:根據文本生成超逼真 3D 場景!
生成 3D 場景:
蘋果開發(fā)「AI 建筑師」GAUDI:根據文本生成超逼真 3D 場景!
圖像提示:
蘋果開發(fā)「AI 建筑師」GAUDI:根據文本生成超逼真 3D 場景!
生成 3D 場景:
蘋果開發(fā)「AI 建筑師」GAUDI:根據文本生成超逼真 3D 場景!
研究人員在四個不同的數據集(包括室內掃描數據集 ARKitScences)上進行了實驗,結果表明, GAUDI 可以重建學習視圖,而且可以與現有方法的質量相匹配。即使是在為數千個室內場景制作具有數十萬張圖像的 3D 場景的龐大任務中,GAUDI 也不會出現模式崩潰或方向問題。
GAUDI 的出現不僅會對許多計算機視覺任務上產生影響,而且其 3D 場景的生成能力也將有利于基于模型的強化學習和規(guī)劃、SLAM 以及 3D 內容的制作等研究領域。
就目前來看,GAUDI 生成的視頻質量還不算高,可以看出有很多偽影。不過,這個系統(tǒng)或許可以為蘋果正在進行的渲染 3D 對象和場景的 AI 系統(tǒng),這是一個好的開始和基礎,據說 GAUDI 還將被應用到蘋果的 XR 耳機中,用于生成數字化位置??梢云诖幌聗
參考鏈接:
https://medium.com/mlearning-ai/how-to-generate-3d-scenes-from-text-descriptions-2345bfb321
https://mixed-news.com/en/apples-new-gaudi-ai-turns-text-prompts-into-3d-scenes/
更多內容,點擊下方關注:
掃碼添加 AI 科技評論 微信號,投稿&進群:
蘋果開發(fā)「AI 建筑師」GAUDI:根據文本生成超逼真 3D 場景!雷峰網(公眾號:雷峰網)蘋果開發(fā)「AI 建筑師」GAUDI:根據文本生成超逼真 3D 場景!

雷峰網版權文章,未經授權禁止轉載。詳情見轉載須知。

蘋果開發(fā)「AI 建筑師」GAUDI:根據文本生成超逼真 3D 場景!

分享:
相關文章
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說