0
本文作者: 朱可軒 | 2024-12-09 11:11 |
作者丨朱可軒
編輯丨陳彩嫻
今日,歷時四天(12.3-12.6)的第十七屆 SIGGRAPH Asia 在東京正式閉幕,本屆圍繞的主題為「Curious Minds」,無論是參與注冊的人數(shù)還是論文投稿數(shù)都創(chuàng)下了歷史新高。
華人學者在本次大會上的表現(xiàn)依舊十分亮眼,在會場,幾乎大多數(shù)論文背后都有華人的身影。
當前,在計算機視覺學界主要有新興派和傳統(tǒng)派兩類研究者,前者的目光主要聚焦在具身智能和 3D 生成方向,而后者則依舊專注于解決幾何建模和幾何處理中的細節(jié)問題。
新興派的論文成果正處噴涌期,但今年的論文也并非全然被 AI 浪潮席卷,老派研究依舊占據(jù)了一席之地。
除了學術論文外,今年的展位也依舊人頭濟濟。據(jù) AI 科技評論觀察,和往年相比,今年有關動作捕捉的展示項目占大頭,同時,以 VAST、影眸、元象為代表的 3D AIGC 大陸廠商也參與了展出。
從產業(yè)化的角度,3D 當前確實還不比多模態(tài)大模型的應用面那么廣泛。
但深圳大學計算機與軟件學院教授胡瑞珍十分看好這一方向的發(fā)展,她告訴 AI 科技評論,「數(shù)字媒體一直在更新迭代,一開始是音頻,然后變成一些二維的圖像視頻,不遠的將來數(shù)字媒體的呈現(xiàn)形式就會變化到三維了,就像 體積視頻、元宇宙,包括李飛飛提到的空間智能,都在強調 3D 內容和三維感知?!?/p>
現(xiàn)階段,3D 還是一條相對而言沒有那么擁擠的賽道,這也恰好為學術和創(chuàng)業(yè)提供了蓬勃發(fā)展的空間和機會。
在會場,AI 科技評論和多位從業(yè)者進行了交談,并在此之中得到了一些結論:
3D 生成方向有關幾何和紋理模型的技術成果正在快速更新中,但其中有關到底走端到端還是多步迭代的路徑業(yè)內稍有分歧。
技術還未走向完全成熟,所以 3D AIGC 的應用落地也還尚處早期,用戶對于三維的認知和需求也都有待提升,目前在與日常生活較為貼近的游戲、美術設計和電商等方向應用較多,與前者相比,工業(yè)界落地相對已較成熟。
關于 Animation 的技術也還需突破,當前在骨骼方面缺乏比較 Scale 的模型,這一方向與 AI 緊密結合后和空間智能會比較接近。
模型技術創(chuàng)新持更中
近年來,在幾何、紋理方向一直在持續(xù)出現(xiàn)有關大模型的前沿技術。海外包括 Meta 的 3D Gen、Adobe 的LRM 、Google 的 DreamFusion 等,國內目前比較有代表性的主要有 CLAY、TEXGen 等。
在幾何方面,影眸科技在今年的 SIGGRAPH 上被提名了榮譽獎的 3D 原生 Diffusion Transformer 生成式大模型 CLAY,也解決了 2D 升維法所存在的問題,實現(xiàn)直接從 3D 數(shù)據(jù)集訓練模型的突破。
CLAY的進階版本Rodin Gen-1也在今年6月正式上線,并在本屆大會上進行了展出。
VAST 所采用的是一個基于 rectified flow 的大規(guī)模形狀生成模型,據(jù)了解,這種模型能夠在采樣步數(shù)更少的情況下精度更高,同時訓練也會更穩(wěn)定。
在紋理生成這部分,此前比較主流的操作方式主要有兩種——
第一是借助已經(jīng)訓好的圖像生成模型去做紋理貼圖,這其中包括 Google 的 DreamFusion 開創(chuàng)的所謂「2D 升 3D」的路徑,以及常用的通過逐步的多個單視角的紋理生成和反投影進行整個模型的紋理生成。
但這種方式的缺點在于,由于生成依賴于圖像模型而不具有整體的三維感知能力,AI 無法判斷各個視角的整體一致性,所以生成內容可能存在諸如一個人正反兩面都有人頭的問題,當前學術界也在尋求突破。
第二是一種依靠圖像數(shù)據(jù)做訓練監(jiān)督的 regression 的 model,使用一個 texture field 做紋理表示,但這種方式?jīng)]辦法做現(xiàn)在流行的基于原生數(shù)據(jù)訓練的 diffusion model,進行多步迭代,最終呈現(xiàn)出來的細節(jié)效果不太好,人眼所看不到的立體圖像背面可能會比較模糊。
區(qū)別于前述兩種操作,此次 VAST 和港大、清華團隊獲得最佳論文提名獎的論文《TEXGen: a Generative Diffusion Model for Mesh Textures》帶來了自己的思考。
論文鏈接:https://arxiv.org/pdf/2411.14740
AI 科技評論在會場聯(lián)系到了該篇論文的一作余鑫,他當前在香港大學就讀博三,師從齊曉娟。據(jù)他介紹,「我們做的模型不需要依賴于 2D 升 3D 的方式,直接訓練一個原生的 diffusion model 輸出 3D 紋理內容,這種原生的 3D 模型能一次性生成整個物體的紋理?!?/p>
這塊做下來有幾處難點問題,首要的是數(shù)據(jù),因為紋理涉及到一些表現(xiàn)形式,而不同的表現(xiàn)形式所獲得的數(shù)據(jù)多少其實是不同的,另外網(wǎng)絡架構和算力也存在難點問題。
實際上,余鑫也并非從一開始就做紋理模型,在 stable diffusion 出來之前,他就嘗試過用 latent diffusion 做幾何模型,后來出于多種因素考慮,他才逐漸開始轉向聚焦紋理模型。
在他看來,紋理比幾何更復雜、變化更大,并且是一種表面屬性,當前的神經(jīng)網(wǎng)絡也很難去處理紋理數(shù)據(jù),也正是因為困難相比幾何更大,這塊賽道當前還鮮有人切入。
「我之前也做過利用 2D 升維的 3D 生成工作,這種方式的確可以在某些程度上取得驚人的短期視覺效果。但他終究不是一個通過 3D data 學習的原生模型,存在各種 bias,所以長期來講,我覺得有還是要走通過 3D 數(shù)據(jù)訓練的 feed-forward 路線?!褂圉握f道。
之后在研究過程中,他也曾考慮過類似 Meta 3D Gen 的路徑,將 3D 紋理貼圖作為兩個階段分別處理,即先多視角生成再訓練一個模型進行補全,并做出了短期效果。但最終認為這種做法其實存在一定上限,如若要追求長遠的效果,還需要嘗試新的方案。
此外,對于多個階段的生成方式,他也曾考慮過另一種方式,主要是用到紋理的兩種表現(xiàn)形式,并都支持直接訓練 diffusion model。(此文章即 Point-UV Diffusion,發(fā)表在 ICCV 2023 Oral。)
「之前我的想法是分兩個階段去 train 兩個 diffusion model,后來我開始思考 end to end 把兩個階段的優(yōu)勢都發(fā)揮出來的可能性,感覺是可以實現(xiàn)的,所以也針對這一點提出了混合 2D-3D 去噪模塊?!褂圉握f道。
另外,值得一提的是,影眸科技 CTO 張啟煊也透露,幾何的絕對質量和貼圖的絕對精度也將是影眸團隊接下來重點會突破的方向,明年 1 月會正式官宣新的突破性進展,并爭取在年底上線新版本。
當前,在 3D AIGC 方向的發(fā)展與圖像、視頻這類二維內容生成式模型在多樣性、可編輯性等方面、個性化定制等方面還有部分差距,這也是學界和業(yè)界需要合力去攻克的問題。
在胡瑞珍看來,「未來到底是走 end to end 還是 Multi step 的路徑解決問題,現(xiàn)階段還不好判斷,因為三維數(shù)據(jù)確實沒有二維多?!?/p>
3D 生成應用已經(jīng)起步
本次大會,AI 科技評論在現(xiàn)場聽到最多的關鍵詞大概當屬「數(shù)據(jù)」。有業(yè)者認為,數(shù)據(jù)對于 3D 生成平臺而言是決定所做產品差異性的關鍵問題,甚至在現(xiàn)階段的重要性大于模型。
VAST 目前和同行相比的優(yōu)勢就在于大規(guī)模高質量的私有數(shù)據(jù)集,據(jù) VAST 首席科學家曹炎培介紹,「我們目前已經(jīng)有 2000 萬高質量 3D 訓練數(shù)據(jù),而訓練開源模型或者沒有私有數(shù)據(jù)的團隊可能只能用到幾十萬數(shù)據(jù),這樣一兩個量級的差別會導致最終 3D AI 生成模型結果精度、泛化性、多樣性、可控性等方面的差異?!?/p>
張啟煊同樣強調了數(shù)據(jù)的重要性,「對于 3D 生成來講,其實數(shù)據(jù)的絕對數(shù)量不重要,質量非常重要?!垢哔|量數(shù)據(jù)需要足夠細節(jié)、平整,達到 production ready 的質量,真正用在最后實際生產里。
當前,「開放的 3D 數(shù)據(jù)存在大量過于簡單的 model,還會有很多點云和低質量的 model,這些其實都應該剔除掉,所以我們也花了大量的時間在數(shù)據(jù)修復和數(shù)據(jù)清洗上,以此來提高整體質量?!箯垎㈧訌娬{。
影眸展位
除了數(shù)據(jù)以外,3D Tokenizer 也是當前在技術上較為有挑戰(zhàn)性的部分,還有很大的進化空間。
目前情況來看,文字 Tokenizer 實則已經(jīng)發(fā)展到比較成熟的階段,圖像、視頻方面其實也已經(jīng)有了 Sora 在前打樣,但 3D 的研究成果還在持續(xù)更新中。
應用場景目前在 3D 生成領域也還不夠明晰,在業(yè)內看來,如若只是服務游戲、美術等方面,最終的盤子不夠大。AI 科技評論在現(xiàn)場走訪到的幾家廠商,現(xiàn)階段基本集中于游戲、設計、3D打印、電商等落地場景。
VAST 面向的場景之一是幫助游戲、動畫行業(yè)降本增效,降低此類內容的制作成本和時間,其二則是泛定制化、泛工業(yè)的 3D 打印,除此之外、也是未來最關注的場景,則為需要實時低成本 3D 內容創(chuàng)作的UGC(user-generated content)場景。
「比如元宇宙,以及一些做開放世界的客戶,其實很希望引入一些 UGC 玩法,有了 3D 內容生成平臺以后他們能夠解決海量 3D 資產構建的問題,并且設計出在沒有實時 3D 生成技術前無法設想的玩法?!共苎着喔嬖V AI 科技評論。
「我們在今年 SIGGRAPH Asia 上參與的另一個環(huán)節(jié) Real-Time Live! 中所展示的 Tripo Doodle,也正是如何利用 AI 3D 技術讓普通人能夠從簡筆畫實時生成自己想要的 3D 模型?!?/p>
在他看來,「從邏輯和技術發(fā)展趨勢上來講,3D 內容平臺是未來一定會出現(xiàn)的應用方向,所以我們未來的發(fā)展方向正是構建這樣一個平臺,而現(xiàn)在所做的 AI 3D 工具是一個必經(jīng)階段,因為構建內容平臺首先需要易上手、低成本的內容創(chuàng)作工具?!?/p>
VAST 展位
影眸所切入的也有類似賽道,但和 VAST 的主要區(qū)別在于,前者所做的工具會更為專業(yè)。在今年 8 月的 SIGGRAPH 上,影眸團隊也在 Real-time Live 中也展示了其特有的 3D ControlNet 功能。
「比起讓 AI 像個隨機的老虎機,我們更希望讓藝術家可以自己掌控生成的環(huán)節(jié)?!箯垎㈧臃窒淼?。
除此之外,電商也是 3D 生成當前的一塊落地場景, 影眸目前所做的主要是給家具、工藝品商家提供 3D 模型。
不過,值得關注的是,現(xiàn)階段,服裝類暫時已不被各家納入應用范疇,此前,其實虛擬試衣一直分為 3D 和 2D 兩派。
去年,影眸曾考慮過服裝生成的市場,其發(fā)表的《DressCode: Autoregressively Sewing and Generating Garments From Text Guidance》也在 SIGGRAPH 主會拿過榮譽提名獎,主要介紹了一種專為 3D 服裝設計的生成式 AI 框架 DressCode。
但在今年的會場中,張啟煊告訴 AI 科技評論,「現(xiàn)在大家想做虛擬試衣,基本上會跳過 3D 這個步驟,直接進行視頻生成,所以我們這方面先擱置了,選擇 All in 物品級的 3D 生成上。」
「結合 3D 生成做虛擬試衣其實是需要進行布料模擬的,而這一步十分消耗算力,但視頻生成其實所需要的算力相對會更少,而在其他場景里的算力消耗程度則相反?!顾M一步介紹其觀察。
曹炎培也認為虛擬換裝方向現(xiàn)階段結合圖像、視頻生成模型相較純 3D 方案會是更優(yōu)解。在他看來,視頻生成模型在和諧度、動態(tài)觀感等方面很有優(yōu)勢,而純 3D 方案則有一些難以解決的問題:
「首先,所需要的 3D 衣服模型許多小的網(wǎng)店商家肯定沒有,他們只有實體服裝,但如若通過 3D 掃描等數(shù)字化方式也較難得到準確、高質量的服飾模型。在此之后,如果要實現(xiàn)虛擬試穿,在純3D管線中,還涉及如何獲取試衣者的高還原度 3D 數(shù)字模型、如何進行高質量物理解算與渲染獲得試穿效果等難題?!?/p>
產業(yè)化的落地對比學術界必然會存在些許滯后性,而目前 3D 這塊領域的技術還在更新迭代中,只有當技術走向成熟以后,應用落地才能隨之提速。
前文所提到的基本是與日常生活更貼近的場景,用戶或許對于三維的需求暫時不太旺盛。但胡瑞珍向 AI 科技評論分享了她的觀察,在她的視角中,實際上,現(xiàn)在在工業(yè)界范圍內,3D 的落地已經(jīng)相當廣泛。
「類似智能智慧工廠、港口的智慧調度等等,這些場景都需要三維內容,要有一些數(shù)字車間,這部分的發(fā)展其實遠比我們想象的要成熟,只是距離日常生活稍微有點遠,許多人不太了解。」
動態(tài) 3D 模型亟需突破
同樣作為在現(xiàn)場比較有代表性的廠商之一的元象,選擇了 3D 市場中的其他切入方向。大空間 VR 是他們此次展出的重點產品。
其偏于 XR 的整合應用本身,應用場景主要在線下通過佩戴頭顯進行沉浸式體驗,當前元象在全國已開設了三十多家「幻旅之門」線下門店。
據(jù)元象引擎和 AIGC 算法負責人黃浩智介紹,「我們主要以超采樣配合性能優(yōu)化帶來高清晰度畫面,品質清晰度、不眩暈以及幀率穩(wěn)定是我們大空間 VR 的優(yōu)勢?!?/p>
另外,元象本次大會帶來也展示了一款骨骼動畫的插件,通過文本生成骨骼動畫的動作。今年 8 月,元象推出了國內首個基于物理的 3D 動作生成模型 MotionGen,主要解決生成逼真角色動作的行業(yè)內持續(xù)性挑戰(zhàn)問題。
不過,元象也還在探索初期。會場有 3D 從業(yè)者告訴 AI 科技評論,當前,在 Animation Rigging 的方向上,其實還比較缺少用數(shù)據(jù)訓得非常充分、非常 Scale 的模型,去服務動態(tài) 3D。
MotionGen 在動作自然度、文本匹配度等方面也都還有提升空間。
「如若描述的文字太過復雜,可能會存在無法理解的情況,訓練數(shù)據(jù)也影響到最終呈現(xiàn)的效果,數(shù)據(jù)、模型都還有很多優(yōu)化空間?!乖髣幼魃伤惴ㄘ撠熑绥妵氏?AI 科技評論介紹道。
也同樣由于剛剛起步,用戶處于免費試用期,所以元象所使用的也還是開源數(shù)據(jù)集。
當前,在解決數(shù)據(jù)問題方面,比較主流的路徑有兩條:
一是結合動捕設備自己生產數(shù)據(jù),這也是業(yè)界普遍采用的方法。展位位于元象對面的廠商唯晶科技所選擇的方式便與此類似。
唯晶科技旗下產品 Genmotion.AI 的負責人劉同梅介紹,「我們目前和世界排名靠前的游戲公司合作,而他們在使用 AI 工具時,其實擔憂的關鍵問題在于數(shù)據(jù)來源,所以我們所有的數(shù)據(jù)都是自己動捕的,所有的動作都有全程錄影詳細記錄,甚至結合區(qū)塊鏈輔助溯源?!?/p>
元象也有自己的動捕設備,但在鐘國仁看來,前述做法其實對許多廠商而言比較費時費力。
所以,元象更看好另外一種做法,即從視頻里提取動作,之后再基于大語言模型理解這些動作,然后形成相關文字描述,這也相當于一部分數(shù)據(jù)。
元象 XVERSE 展位
另外,骨骼的形態(tài)變換也有廠商正在探索更多情景。
劉同梅告訴 AI 科技評論,「我們目前的 3D 動畫只有一種骨架,骨架重定位的功能正在開發(fā)中,之后可支援侏儒和巨人有差異性的骨骼,另外,現(xiàn)階段 3D 動作只支援人的骨骼,四足動物動作數(shù)據(jù)還未深入研究?!?/p>
值得一提的是,VAST 的 Tripo 平臺上也有自動角色綁定和動畫的相關功能,可以控制所生成的 3D 形象展開多樣的動作,但目前主要適用于人形或類人形角色,更加泛用的動畫功能還在研發(fā)當中。
結構化生成也是后期需要研究突破的方向。在業(yè)者的設想中,未來其實可以做到讓類似抽屜等物體可拆分為幾片,甚至操作其開合,這也會是一個有想象力的方向。
面向更大的 3D 場景的產品也同樣仍處在發(fā)展初期,目前做得更偏向于全景圖像,將其 3D 化可以看到任意一面的動態(tài),但是,通過 3D 實現(xiàn)操作和交互物件業(yè)內也還在探索中。
值得一提的是,事實上,Animation 和李飛飛所提出的「空間智能」也是有共通之處的。
胡瑞珍談到,「 Animation 通俗理解其實就是建模已經(jīng)做好了,之后讓角色動起來,看上去更加真實,這其中所有的東西都會涉及到對空間感知、空間計算,現(xiàn)在我們把 AI 的一些技術用進來,其實跟空間智能的概念是很像的。」
「李飛飛把空間智能推得很火,但其實也不算是新的概念,她其實就是把學界此前沒有合并的概念進行了合并,另外她其實也沒有嚴格定義到底怎樣才算空間智能,所以在我們看來,只要在三維空間去進行感知、交互,都算是需要有空間智能的?!?/p>
寫在最后
今年第三次回歸東京的 SIGGRAPH Asia 相比于去年的悉尼,參會熱情明顯高升,不少參會者都向 AI 科技評論興奮地分享了一邊學術交流一邊游玩東京的經(jīng)歷。
SIGGRAPH Asia 作為 SIGGRAPH 在亞洲的延伸,雖然參會人數(shù)和投稿量規(guī)模會相對小一點,但同樣也作為大會技術交流和海報主席的胡瑞珍向 AI 科技評論透露,兩場大會的技術論文評選標準是完全一致的,論文質量也處于同一高度。
近年,投稿數(shù)量從三百多篇到近千篇,學者投稿 SIGGRAPH Asia 的熱情正直線走高,不過,也有會場學者表達了些許遺憾,在他們看來,本次大會還是沒有給到太多預期外的驚喜。
明年的大會將落地在香港,在人工智能的浪潮之下,計算機視覺和圖形學的未來發(fā)展將會如何,可以繼續(xù)拭目以待。雷峰網(wǎng)(公眾號:雷峰網(wǎng))雷峰網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉載。詳情見轉載須知。