群核科技發(fā)布空間大模型，或解決視頻生成時空一致性難題

本文作者：徐咪

2025-08-26 14:07

導(dǎo)語：本次技術(shù)開放日分享的兩款模型將逐步在HuggingFace、GitHub、魔搭社區(qū)等平臺面向全球開發(fā)者開源。

8月25日，群核科技在首屆技術(shù)開放日（TechDay）上正式發(fā)布其空間大模型最新成果：新一代空間語言模型SpatialLM 1.5與空間生成模型SpatialGen，并在現(xiàn)場分享了新模型后續(xù)的開源節(jié)奏。作為業(yè)界首個專注于3D室內(nèi)場景認(rèn)知與生成的大模型體系，群核空間大模型在真實感全息漫游、結(jié)構(gòu)化可交互以及復(fù)雜室內(nèi)場景處理方面展現(xiàn)出顯著優(yōu)勢。

據(jù)悉，在開源模型之外，群核科技還首次分享了其AI團隊基于SpatialGen探索的AI視頻生成解決方案，旨在通過新范式解決時空一致性難題。

SpatialLM 1.5：一句話生成結(jié)構(gòu)化3D場景，解決機器人訓(xùn)練數(shù)據(jù)難題

本次發(fā)布的SpatialLM 1.5是一款基于大語言模型訓(xùn)練的空間語言模型，支持用戶通過對話交互系統(tǒng)SpatialLM-Chat進行可交互場景的端到端生成。相比于傳統(tǒng)大語言模型對物理世界幾何與空間關(guān)系的理解局限，SpatialLM 1.5不僅能理解文本指令，還能輸出包含空間結(jié)構(gòu)、物體關(guān)系、物理參數(shù)的“空間語言”。例如，當(dāng)用戶輸入簡單文本描述時，SpatialLM 1.5可自動生成結(jié)構(gòu)化場景腳本，智能匹配家具模型并完成布局，并支持后續(xù)通過自然語言進行問答或編輯。

群核科技發(fā)布空間大模型，或解決視頻生成時空一致性難題圖說：空間語言模型SpatialLM1.5能力示意圖

更關(guān)鍵的是，SpatialLM 1.5生成的場景富含物理正確的結(jié)構(gòu)化信息，且能快速批量輸出大量符合要求的多樣化場景，可用于機器人路徑規(guī)劃、避障訓(xùn)練、任務(wù)執(zhí)行等場景，這將有效解決當(dāng)前機器人訓(xùn)練“缺數(shù)據(jù)”的難題?，F(xiàn)場，群核科技首席科學(xué)家周子寒演示了機器人養(yǎng)老場景的應(yīng)用，當(dāng)輸入“去客廳餐桌拿藥”這一指令后，該模型不僅理解了相關(guān)的物體對象，還調(diào)用工具自動規(guī)劃出最優(yōu)行動路徑，展示了機器人在復(fù)雜家庭環(huán)境中執(zhí)行任務(wù)的潛力。

值得一提的是，其前代版本 SpatialLM 1.0 今年3月開源后，迅速登上Hugging Face趨勢榜前三，目前已有初創(chuàng)企業(yè)基于其代碼和架構(gòu)訓(xùn)練出自有模型，驗證了開源模式的技術(shù)輻射力。

SpatialGen：破解AI視頻“時空一致性”難題，打造可自由漫游的3D世界

如果說SpatialLM解決的是“理解與交互”問題，那么 SpatialGen 則專注于“生成與呈現(xiàn)”。作為一款基于擴散模型架構(gòu)的多視角圖像生成模型，SpatialGen 可根據(jù)文字描述、參考圖像和3D空間布局，生成具有時空一致性的多視角圖像，并支持進一步生成3D高斯（3DGS）場景并渲染漫游視頻。

SpatialGen依托群核科技海量室內(nèi)3D場景數(shù)據(jù)與多視角擴散模型技術(shù)，其生成的多視角圖像能確保同一物體在不同鏡頭下始終保持準(zhǔn)確的空間屬性和物理關(guān)系。此外，基于SpatialGen生成的3D高斯場景和真實感全息漫游視頻，用戶可以如同在真實空間中一樣，自由穿梭于生成的場景內(nèi)，獲得沉浸式的體驗。

群核科技發(fā)布空間大模型，或解決視頻生成時空一致性難題圖說：群核空間生成模型SpatialGen數(shù)據(jù)集情況

“目前，AIGC文生視頻與圖生視頻工具已經(jīng)初步推動了全民視頻創(chuàng)作的潮流，但由于時空一致性問題的制約，其離真正的商業(yè)化應(yīng)用仍有一定距離。我們正在研發(fā)一款基于3D技術(shù)的AI視頻生成產(chǎn)品，并計劃在今年內(nèi)正式發(fā)布——這或許是全球首款深度融合3D能力的AI視頻生成Agent。通過構(gòu)建3D渲染與視頻增強一體化的生成管線，有望顯著彌補當(dāng)前AIGC視頻生成中時空一致性不足的問題?！比汉丝萍糀I產(chǎn)品總監(jiān)龍?zhí)鞚商岬健?/p>

據(jù)了解，現(xiàn)有的AI視頻創(chuàng)作中，常因視角切換導(dǎo)致物體位置偏移、空間邏輯混亂、遮擋錯誤等問題。這背后的原因是多數(shù)視頻生成模型是基于圖像或視頻數(shù)據(jù)訓(xùn)練，缺乏對3D空間結(jié)構(gòu)和物理法則的理解和推演能力。

啟動空間智能飛輪戰(zhàn)略，持續(xù)開源共建技術(shù)生態(tài)

“對于中國這一代企業(yè)家來說，擁抱開源能夠發(fā)揮更大價值。我們一直堅信，只要你的技術(shù)有價值，同時賽道蓬勃發(fā)展，在里面一定能夠分到一杯羹?！比汉丝萍悸?lián)合創(chuàng)始人兼董事長黃曉煌說到。

群核科技發(fā)布空間大模型，或解決視頻生成時空一致性難題圖說：群核科技創(chuàng)始人黃曉煌分享空間智能戰(zhàn)略攝影人/黃航

活動現(xiàn)場，黃曉煌分享了群核科技在空間智能布局上的最新思考?；诳峒覙愤@一全球最大的空間設(shè)計平臺，群核科技構(gòu)建了“空間編輯工具-空間合成數(shù)據(jù)-空間大模型”的空間智能飛輪，讓工具沉淀數(shù)據(jù)，用數(shù)據(jù)加速模型訓(xùn)練，用模型提升工具體驗，再在工具的廣泛應(yīng)用中沉淀更為豐富的場景數(shù)據(jù)。資料顯示，截至2025年6月30日，群核科技擁有包含超過4.41億個3D模型及超過5億個結(jié)構(gòu)化3D空間場景。

“開源是我們戰(zhàn)略的重要關(guān)鍵詞之一。群核科技從2018年就開始啟動了開源戰(zhàn)略，逐步開放我們在數(shù)據(jù)和算法上的能力。相比大語言模型，當(dāng)前空間大模型還處于初級階段。我們希望通過開源推動全球空間智能技術(shù)快速前進，成為全球空間智能服務(wù)提供商，推動屬于空間大模型的‘DeepSeek時刻’盡快來臨。”

據(jù)悉，本次技術(shù)開放日分享的兩款模型將逐步在HuggingFace、GitHub、魔搭社區(qū)等平臺面向全球開發(fā)者開源。其中，空間生成模型SpatialGen在技術(shù)開放日當(dāng)天已可以在開源網(wǎng)站下載使用，而空間語言模型SpatialLM 1.5未來也將以“SpatialLM-Chat”形式完成開源。

雷峰網(wǎng)版權(quán)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

0人收藏

相關(guān)文章

徐咪

編輯

發(fā)私信

當(dāng)月熱門文章

群核科技發(fā)布空間大模型，或解決視頻生成時空一致性難題

群核科技發(fā)布空間大模型，或解決視頻生成時空一致性難題