丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
人工智能 正文
發(fā)私信給鄭佳美
發(fā)送

0

NTU S-Lab 團隊探索可動 3D 新方向:結構、關節(jié)、紋理一次到位

本文作者: 鄭佳美   2025-12-04 15:26
導語:ArtiLatent:用統(tǒng)一潛空間讓單圖也能生成結構清晰、動作合理的可動三維模型。

在生成式 AI 全面進入三維空間的當下,如何讓機器不僅“看到”物體,還能理解其結構、關節(jié)和運動方式,正在成為全球研究機構與產業(yè)界共同關注的焦點。

從虛擬內容制作到機器人操作,從數(shù)字孿生到工業(yè)仿真,可動三維的自動化生成正在被視為未來交互式數(shù)字世界的重要基礎能力。然而,現(xiàn)有方法仍普遍受限于對完整三維掃描的依賴、對結構與紋理分離建模造成的不一致性,以及難以處理運動帶來可見性變化等難題。

在這一背景下,南洋理工大學 S-Lab 團隊近期發(fā)布的一項研究提供了新的解決路徑。他們提出的統(tǒng)一建??蚣苣軌驈膯螐垐D像生成具備真實幾何結構、準確關節(jié)參數(shù)和自然外觀紋理的可動三維對象,在幾何精度、外觀一致性與運動合理性上均取得顯著提升。

這項工作不僅展示了結構化潛空間、擴散式 3D 生成與關節(jié)感知紋理建模的協(xié)同潛力,也為進一步提升 AI 對物體功能性與交互屬性的理解奠定了基礎。

值得一提的是,該論文作者之一的潘新鋼曾作為 2023 年 GAIR 全球人工智能與機器人大會的受邀嘉賓,與眾多來自國際頂級院校與企業(yè)的研究者共同探討三維視覺、機器人操作和生成式模型的前沿方向。

雷峰網(wǎng)(公眾號:雷峰網(wǎng)) GAIR 對三維生成、機器人智能與新型視覺系統(tǒng)長期保持關注,而即將在 2025 年 12 月 12 — 13 日于深圳·博林天瑞喜來登酒店舉辦的 GAIR 大會,也將繼續(xù)聚焦這些技術的產業(yè)化趨勢,與一眾來自研究機構、科技企業(yè)與應用行業(yè)的專家共同關注空間智能與新型生成模型等新興技術在未來交互式場景中的落地路徑與發(fā)展方向。

NTU S-Lab 團隊探索可動 3D 新方向:結構、關節(jié)、紋理一次到位

論文地址:https://arxiv.org/pdf/2510.21432

整體的性能躍升

S-Lab 團隊這篇論文中的實驗結果顯示,他們研發(fā)的模型在多個關鍵維度上都有明顯提升,無論是幾何結構的完整度、關節(jié)運動的穩(wěn)定性,還是外觀呈現(xiàn)的真實度與跨數(shù)據(jù)集的泛化能力,都展現(xiàn)出優(yōu)于現(xiàn)有方法的綜合表現(xiàn)。

首先,在幾何結構生成方面,通過 Chamfer Distance 指標可以看到,無論是在靜止狀態(tài)還是在經(jīng)歷關節(jié)旋轉、平移等運動之后,模型都能夠生成與真實物體高度接近的三維結構,并且在多種方法中保持了最低水平的幾何誤差。

生成物體在關節(jié)運動前后仍能維持清晰的部件邊界和穩(wěn)定的空間關系,沒有出現(xiàn)錯位或穿插現(xiàn)象,這說明模型所學習的結構潛空間有效捕捉了各部件之間的連續(xù)性與耦合關系,從而使運動前后的幾何一致性明顯優(yōu)于現(xiàn)有方法。

NTU S-Lab 團隊探索可動 3D 新方向:結構、關節(jié)、紋理一次到位

在外觀紋理生成方面,模型在 FID 得分及可視化表現(xiàn)上均展示了顯著優(yōu)勢。生成結果的紋理更加清晰,顏色分布一致,細節(jié)保留充分,尤其是在關節(jié)運動后才會暴露的內部區(qū)域,例如抽屜內部或門板背面,模型依然能夠合成自然且無噪點的紋理。

這種穩(wěn)定且連貫的紋理表現(xiàn)不僅體現(xiàn)在局部細節(jié)上,也體現(xiàn)在關節(jié)狀態(tài)變化前后的整體一致性上,即生成的表面在不同關節(jié)位置下不會出現(xiàn)顏色跳變或紋理斷裂,從而實現(xiàn)了對因運動帶來可見性變化的正確補全。

NTU S-Lab 團隊探索可動 3D 新方向:結構、關節(jié)、紋理一次到位

此外,模型生成的運動行為也表現(xiàn)出高度的物理合理性。對于常見的家具對象,模型能夠自動為抽屜生成平移關節(jié)并沿合理方向運動,為門板生成旋轉關節(jié)并圍繞正確的軸心展開,同時在運動過程中保持部件間無不合理的干涉或扭曲。在多次運動狀態(tài)的測試中,模型展現(xiàn)出優(yōu)異的可控性、穩(wěn)定性和部件分離度,遠超依賴部件檢索或后期裝配的傳統(tǒng)方法。

NTU S-Lab 團隊探索可動 3D 新方向:結構、關節(jié)、紋理一次到位

更進一步地,論文還驗證了模型在新數(shù)據(jù)集上的泛化能力。在來自完全不同來源的數(shù)據(jù)上,無論是幾何精度、外觀真實度還是運動表現(xiàn),模型都維持了高質量輸出,未出現(xiàn)結構性錯誤,這說明模型并沒有簡單記憶訓練數(shù)據(jù),而是真正學習到了可遷移的“關節(jié)結構 + 外觀生成”能力。

最后,消融實驗也強調了關節(jié)感知外觀微調策略的重要性。如果不使用該策略,生成結果在關節(jié)處和運動后暴露出的內部區(qū)域容易出現(xiàn)噪點、模糊或顏色異常。而加入該策略后,紋理清晰度及穩(wěn)定性顯著提升,新暴露區(qū)域的外觀也更加自然一致,從而證明這一模塊是整體性能提升的關鍵因素。

NTU S-Lab 團隊探索可動 3D 新方向:結構、關節(jié)、紋理一次到位

可動三維的構建機制

總的來說,團隊的實驗流程可以整體概括為結構學習、潛空間生成以及外觀學習三個環(huán)節(jié)。

首先,研究者為每個訓練對象構建了一種帶有豐富關節(jié)信息的稀疏三維體素表示。在這一表示中,體素不僅記錄了物體是否占據(jù)該空間位置,還包含部件類別、所屬部件的空間包圍盒、關節(jié)類型、關節(jié)的軸向和原點位置以及關節(jié)的可運動范圍等描述物體結構與運動屬性的關鍵要素。

所有體素數(shù)據(jù)會被統(tǒng)一歸一化后輸入到一個三維卷積式的變分自編碼器中,通過占據(jù)分類損失、部件語義與關節(jié)類型的分類損失、關節(jié)參數(shù)以及包圍盒的回歸損失,并結合 KL 正則化形成整體訓練目標,從而使模型能夠將高維而復雜的體素結構壓縮成一個緊湊、連續(xù)且可生成的三維潛編碼。經(jīng)過充分訓練后,該自編碼器已經(jīng)能夠準確復原完整的可動結構,并為后續(xù)的生成任務提供穩(wěn)定的結構潛空間。

在獲得結構潛編碼之后,論文進一步在潛空間中訓練擴散模型以生成可動結構。為此,作者構建了大量由潛編碼與其對應條件組成的數(shù)據(jù)對,其中條件既可以是來自真實圖像的視覺特征,也可以是簡單的類別標簽。

NTU S-Lab 團隊探索可動 3D 新方向:結構、關節(jié)、紋理一次到位

擴散模型采用基于 Transformer 的三維結構建模方式,能夠捕捉潛網(wǎng)格內部的空間依賴關系,并在此基礎上學習結構潛分布。完成訓練后,該模型不僅能夠無條件生成多樣化的可動三維結構,還能夠在給定單張圖像的情況下,生成與輸入在外觀、幾何結構和關節(jié)屬性上均保持一致的可動對象。

在結構生成能力具備之后,論文最后解決的是外觀生成的問題。由于原始的三維高斯解碼器只在靜態(tài)物體上訓練,它無法處理關節(jié)運動帶來的可見性變化,因此在運動后暴露出的內部區(qū)域容易出現(xiàn)紋理缺失或異常。

NTU S-Lab 團隊探索可動 3D 新方向:結構、關節(jié)、紋理一次到位

為此,作者提出了關節(jié)感知的外觀解碼微調策略。具體做法是,在每個訓練物體的關節(jié)運動范圍內均勻采樣若干狀態(tài),并對每個狀態(tài)渲染多視角圖像,然后提取其特征與體素一一對應,為模型提供“不同關節(jié)狀態(tài)下真實可見外觀”的參考。

在微調過程中,生成的三維高斯點會根據(jù)對應的關節(jié)參數(shù)進行實際的旋轉或平移,然后被渲染成圖像并與真實渲染結果進行比較。通過這種多狀態(tài)的重建監(jiān)督,模型逐漸學會了哪些區(qū)域在關節(jié)運動時會變得可見、如何為這些新暴露的表面生成合理紋理,以及如何在不同關節(jié)位置下保持整體外觀的一致性。

NTU S-Lab 團隊探索可動 3D 新方向:結構、關節(jié)、紋理一次到位

完成上述三個階段的訓練后,模型的推理流程也相對簡潔。給定一張真實圖像,模型首先利用擴散模型生成一個與輸入相匹配的可動體素結構,然后根據(jù)體素語義和空間包圍盒自動對物體進行部件劃分,接著對每個部件的關節(jié)參數(shù)進行聚合以確保其運動的一致性。

隨后,高斯解碼器會將結構潛表示還原為完整的三維外觀,最終得到一個既保留真實外觀,又具備正確關節(jié)行為的三維高斯對象,用戶可以直接對其進行旋轉或平移等運動操作。整個推理過程大約需要二十幾秒即可完成。

統(tǒng)一建模帶來了新可能

論文之外,這項工作的最大意義,在于構建了一套真正可擴展的可動三維生成框架,而不僅僅是提出一種新的技術方法。以往的三維生成要么只能輸出靜態(tài)模型,要么依賴完整的三維掃描數(shù)據(jù),也有一些方法通過檢索和拼裝來構造結構,難以實現(xiàn)從少量輸入中生成能運動的物體。

現(xiàn)在只需要一張普通圖像,就能得到結構合理、關節(jié)設置正確、外觀逼真的可動三維對象,這大幅降低了創(chuàng)建三維內容的難度,對整個生成領域都是一次重要突破。

方法的核心在于把幾何結構、運動機制和外觀紋理放在統(tǒng)一框架中進行學習。結構化潛空間同時表達幾何、語義與關節(jié)信息,擴散模型進一步學習它們之間的關聯(lián),外觀微調機制保證物體在發(fā)生運動后仍然呈現(xiàn)自然、穩(wěn)定的紋理。通過這種整體式的建模方式,生成結果避免了傳統(tǒng)流程中結構和外觀不協(xié)調的問題,看起來更加一致和可信。

在應用層面,這種能夠從單圖生成可動三維物體的能力具有很大的價值。虛擬現(xiàn)實和增強現(xiàn)實場景可以快速獲得可交互物體,線上家具展示能夠更容易地呈現(xiàn)開合、旋轉等動作,游戲制作也能受益于自動生成帶關節(jié)的三維模型。對于機器人學習而言,這類可動生成物體有助于機器人理解和預判未知物體的使用方式,也適用于家庭和工業(yè)場景的數(shù)字孿生構建。幾乎所有需要大量可交互三維對象的行業(yè)都可能因此受益。

方法本身也具有很強的泛化能力和擴展空間。結構化潛空間、可動結構擴散模型和關節(jié)感知外觀解碼并不依賴特定的物體品類,因此不僅適用于家具,還可以推廣到機械設備、工具、生物體的骨骼結構以及復雜的裝配系統(tǒng)。

由此看來,這項研究不僅解決了當前可動三維生成的核心難題,也為未來相關方向的發(fā)展奠定了基礎。

首批雷峰網(wǎng) GAIR 2025 重磅大咖名單正式揭曉,還有更多行業(yè)領軍者將齊聚現(xiàn)場,共探智能的未來。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉載。詳情見轉載須知。

NTU S-Lab 團隊探索可動 3D 新方向:結構、關節(jié)、紋理一次到位

分享:
相關文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說