0
本文作者: 徐咪 | 2025-08-26 14:07 |
8月25日,群核科技在首屆技術(shù)開放日(TechDay)上正式發(fā)布其空間大模型最新成果:新一代空間語(yǔ)言模型SpatialLM 1.5與空間生成模型SpatialGen,并在現(xiàn)場(chǎng)分享了新模型后續(xù)的開源節(jié)奏。作為業(yè)界首個(gè)專注于3D室內(nèi)場(chǎng)景認(rèn)知與生成的大模型體系,群核空間大模型在真實(shí)感全息漫游、結(jié)構(gòu)化可交互以及復(fù)雜室內(nèi)場(chǎng)景處理方面展現(xiàn)出顯著優(yōu)勢(shì)。
據(jù)悉,在開源模型之外,群核科技還首次分享了其AI團(tuán)隊(duì)基于SpatialGen探索的AI視頻生成解決方案,旨在通過(guò)新范式解決時(shí)空一致性難題。
SpatialLM 1.5:一句話生成結(jié)構(gòu)化3D場(chǎng)景,解決機(jī)器人訓(xùn)練數(shù)據(jù)難題
本次發(fā)布的SpatialLM 1.5是一款基于大語(yǔ)言模型訓(xùn)練的空間語(yǔ)言模型,支持用戶通過(guò)對(duì)話交互系統(tǒng)SpatialLM-Chat進(jìn)行可交互場(chǎng)景的端到端生成。相比于傳統(tǒng)大語(yǔ)言模型對(duì)物理世界幾何與空間關(guān)系的理解局限,SpatialLM 1.5不僅能理解文本指令,還能輸出包含空間結(jié)構(gòu)、物體關(guān)系、物理參數(shù)的“空間語(yǔ)言”。例如,當(dāng)用戶輸入簡(jiǎn)單文本描述時(shí),SpatialLM 1.5可自動(dòng)生成結(jié)構(gòu)化場(chǎng)景腳本,智能匹配家具模型并完成布局,并支持后續(xù)通過(guò)自然語(yǔ)言進(jìn)行問(wèn)答或編輯。
圖說(shuō):空間語(yǔ)言模型SpatialLM1.5能力示意圖
更關(guān)鍵的是,SpatialLM 1.5生成的場(chǎng)景富含物理正確的結(jié)構(gòu)化信息,且能快速批量輸出大量符合要求的多樣化場(chǎng)景,可用于機(jī)器人路徑規(guī)劃、避障訓(xùn)練、任務(wù)執(zhí)行等場(chǎng)景,這將有效解決當(dāng)前機(jī)器人訓(xùn)練“缺數(shù)據(jù)”的難題?,F(xiàn)場(chǎng),群核科技首席科學(xué)家周子寒演示了機(jī)器人養(yǎng)老場(chǎng)景的應(yīng)用,當(dāng)輸入“去客廳餐桌拿藥”這一指令后,該模型不僅理解了相關(guān)的物體對(duì)象,還調(diào)用工具自動(dòng)規(guī)劃出最優(yōu)行動(dòng)路徑,展示了機(jī)器人在復(fù)雜家庭環(huán)境中執(zhí)行任務(wù)的潛力。
值得一提的是,其前代版本 SpatialLM 1.0 今年3月開源后,迅速登上Hugging Face趨勢(shì)榜前三,目前已有初創(chuàng)企業(yè)基于其代碼和架構(gòu)訓(xùn)練出自有模型,驗(yàn)證了開源模式的技術(shù)輻射力。
SpatialGen:破解AI視頻“時(shí)空一致性”難題,打造可自由漫游的3D世界
如果說(shuō)SpatialLM解決的是“理解與交互”問(wèn)題,那么 SpatialGen 則專注于“生成與呈現(xiàn)”。作為一款基于擴(kuò)散模型架構(gòu)的多視角圖像生成模型,SpatialGen 可根據(jù)文字描述、參考圖像和3D空間布局,生成具有時(shí)空一致性的多視角圖像,并支持進(jìn)一步生成3D高斯(3DGS)場(chǎng)景并渲染漫游視頻。
SpatialGen依托群核科技海量室內(nèi)3D場(chǎng)景數(shù)據(jù)與多視角擴(kuò)散模型技術(shù),其生成的多視角圖像能確保同一物體在不同鏡頭下始終保持準(zhǔn)確的空間屬性和物理關(guān)系。此外,基于SpatialGen生成的3D高斯場(chǎng)景和真實(shí)感全息漫游視頻,用戶可以如同在真實(shí)空間中一樣,自由穿梭于生成的場(chǎng)景內(nèi),獲得沉浸式的體驗(yàn)。
圖說(shuō):群核空間生成模型SpatialGen數(shù)據(jù)集情況
“目前,AIGC文生視頻與圖生視頻工具已經(jīng)初步推動(dòng)了全民視頻創(chuàng)作的潮流,但由于時(shí)空一致性問(wèn)題的制約,其離真正的商業(yè)化應(yīng)用仍有一定距離。我們正在研發(fā)一款基于3D技術(shù)的AI視頻生成產(chǎn)品,并計(jì)劃在今年內(nèi)正式發(fā)布——這或許是全球首款深度融合3D能力的AI視頻生成Agent。通過(guò)構(gòu)建3D渲染與視頻增強(qiáng)一體化的生成管線,有望顯著彌補(bǔ)當(dāng)前AIGC視頻生成中時(shí)空一致性不足的問(wèn)題?!比汉丝萍糀I產(chǎn)品總監(jiān)龍?zhí)鞚商岬健?/p>
據(jù)了解,現(xiàn)有的AI視頻創(chuàng)作中,常因視角切換導(dǎo)致物體位置偏移、空間邏輯混亂、遮擋錯(cuò)誤等問(wèn)題。這背后的原因是多數(shù)視頻生成模型是基于圖像或視頻數(shù)據(jù)訓(xùn)練,缺乏對(duì)3D空間結(jié)構(gòu)和物理法則的理解和推演能力。
啟動(dòng)空間智能飛輪戰(zhàn)略,持續(xù)開源共建技術(shù)生態(tài)
“對(duì)于中國(guó)這一代企業(yè)家來(lái)說(shuō),擁抱開源能夠發(fā)揮更大價(jià)值。我們一直堅(jiān)信,只要你的技術(shù)有價(jià)值,同時(shí)賽道蓬勃發(fā)展,在里面一定能夠分到一杯羹?!比汉丝萍悸?lián)合創(chuàng)始人兼董事長(zhǎng)黃曉煌說(shuō)到。
圖說(shuō):群核科技創(chuàng)始人黃曉煌分享空間智能戰(zhàn)略 攝影人/黃航
活動(dòng)現(xiàn)場(chǎng),黃曉煌分享了群核科技在空間智能布局上的最新思考?;诳峒覙?lè)這一全球最大的空間設(shè)計(jì)平臺(tái),群核科技構(gòu)建了“空間編輯工具-空間合成數(shù)據(jù)-空間大模型”的空間智能飛輪,讓工具沉淀數(shù)據(jù),用數(shù)據(jù)加速模型訓(xùn)練,用模型提升工具體驗(yàn),再在工具的廣泛應(yīng)用中沉淀更為豐富的場(chǎng)景數(shù)據(jù)。資料顯示,截至2025年6月30日,群核科技擁有包含超過(guò)4.41億個(gè)3D模型及超過(guò)5億個(gè)結(jié)構(gòu)化3D空間場(chǎng)景。
“開源是我們戰(zhàn)略的重要關(guān)鍵詞之一。群核科技從2018年就開始啟動(dòng)了開源戰(zhàn)略,逐步開放我們?cè)跀?shù)據(jù)和算法上的能力。相比大語(yǔ)言模型,當(dāng)前空間大模型還處于初級(jí)階段。我們希望通過(guò)開源推動(dòng)全球空間智能技術(shù)快速前進(jìn),成為全球空間智能服務(wù)提供商,推動(dòng)屬于空間大模型的‘DeepSeek時(shí)刻’盡快來(lái)臨?!?/p>
據(jù)悉,本次技術(shù)開放日分享的兩款模型將逐步在HuggingFace、GitHub、魔搭社區(qū)等平臺(tái)面向全球開發(fā)者開源。其中,空間生成模型SpatialGen在技術(shù)開放日當(dāng)天已可以在開源網(wǎng)站下載使用,而空間語(yǔ)言模型SpatialLM 1.5未來(lái)也將以“SpatialLM-Chat”形式完成開源。
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。