丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
機(jī)器人 正文
發(fā)私信給丁莉
發(fā)送

0

極佳科技朱政:世界模型會(huì)進(jìn)化成VLA的下一代 | 具身先鋒十人談

本文作者: 丁莉   2025-09-04 10:52
導(dǎo)語(yǔ):“世界模型數(shù)據(jù)是唯一有望達(dá)到 LLM 互聯(lián)網(wǎng)數(shù)據(jù)體量與通用性的途徑?!?

數(shù)據(jù)一直是具身智能圈子里最頭疼的問(wèn)題之一。

過(guò)去一兩年里,真機(jī)數(shù)據(jù)的信仰者和仿真數(shù)據(jù)的擁躉們吵得不可開(kāi)交。真機(jī)實(shí)采價(jià)格昂貴、效率低下,成本動(dòng)輒上億元;仿真數(shù)據(jù)面臨巨大的 Sim2Real 鴻溝。兩者似乎都無(wú)法帶來(lái)涌現(xiàn),讓技術(shù)進(jìn)展陷入卡殼。

有人開(kāi)始探索世界模型。這個(gè)在自動(dòng)駕駛領(lǐng)域先火起來(lái)的概念真能救得了具身智能嗎?

朱政是其中之一,也是當(dāng)下從自動(dòng)駕駛轉(zhuǎn)向具身智能的洶涌大軍中的一員。

他是CV(計(jì)算機(jī)視覺(jué))出身,博士畢業(yè)于中科院自動(dòng)化研究所,隨后在清華大學(xué)自動(dòng)化系從事博士后研究。過(guò)去十余年間, CV 界科研人員經(jīng)歷了好幾個(gè)應(yīng)用風(fēng)口,先是人臉識(shí)別,再之后是自動(dòng)駕駛。

這也是朱政早期的研究。他在頂會(huì)頂刊上發(fā)表超過(guò)70篇論文,引用超過(guò)16000次,曾獲得過(guò)NIST-FRVT、 COCO、 VOT 等頂級(jí)視覺(jué)競(jìng)賽冠軍,開(kāi)發(fā)的 WebFace260M 是全球最大的人臉識(shí)別數(shù)據(jù)集,被500余家科研機(jī)構(gòu)申請(qǐng)使用; BEVDet 是 BEV 感知領(lǐng)域的代表性算法,被多家車企和自動(dòng)駕駛公司3D感知方案采用,在 KITTI、nuScenes等榜單排名第一。

極佳科技朱政:世界模型會(huì)進(jìn)化成VLA的下一代 | 具身先鋒十人談

現(xiàn)在,繼自動(dòng)駕駛和人臉識(shí)別之后,CV 界又來(lái)到了具身智能的門(mén)前。

“在前兩個(gè)領(lǐng)域,視覺(jué)感知始終是重心。但到了具身智能場(chǎng)景,需要頻繁地同物理世界交互,因此,重心轉(zhuǎn)移到了解決 action 的能力,這是進(jìn)化的必然?!敝煺嬖V雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng)) AI科技評(píng)論,人臉識(shí)別是一個(gè)單點(diǎn)問(wèn)題,自動(dòng)駕駛是一個(gè)系統(tǒng)問(wèn)題,而具身智能觸及了更本質(zhì)的問(wèn)題——改變物理世界。這也是 CV 研究者的終極考驗(yàn)。

如何完成這個(gè)轉(zhuǎn)型?朱政找到的切點(diǎn)是世界模型。

作為極佳科技聯(lián)合創(chuàng)始人、首席科學(xué)家,朱政此前已帶領(lǐng)團(tuán)隊(duì)為多家車企提供基于世界模型的仿真環(huán)境,用于測(cè)試和優(yōu)化自動(dòng)駕駛算法。團(tuán)隊(duì)的學(xué)術(shù)成果 DriveDreamer 也入選了 ECCV 2024 最具影響力論文榜單。

去年開(kāi)始,他們順勢(shì)轉(zhuǎn)戰(zhàn),開(kāi)始研究具身智能的世界模型。不久前,他們發(fā)布了主要基于世界模型數(shù)據(jù)訓(xùn)練的 VLA —— GigaBrain ,據(jù)稱應(yīng)對(duì) Zero-Shot 的任務(wù)成功率提升了 50 個(gè)百分點(diǎn)。世界模型平臺(tái) GigaWorld 也會(huì)在本月發(fā)布。趁著這波具身智能熱潮,極佳科技在半年內(nèi)連續(xù)完成了三輪融資。

今年,世界模型迅速躥紅,在整個(gè)圈子中被炒得沸沸揚(yáng)揚(yáng),但圍繞它的許多概念業(yè)內(nèi)還未厘清,比如:世界模型是什么?它和VLA關(guān)系是怎樣的?

朱政向雷峰網(wǎng) AI科技評(píng)論表示,短期內(nèi),世界模型是“馴化” VLA 的容器,能解決后者訓(xùn)練數(shù)據(jù)不足的致命痛點(diǎn);但長(zhǎng)期來(lái)看,二者或許會(huì)融為一體,“世界模型是物理世界通用智能最重要的事情,是唯一可能創(chuàng)造出與 LLM 時(shí)代互聯(lián)網(wǎng)數(shù)據(jù)比肩的數(shù)據(jù)量的路徑?!?/p>


世界模型會(huì)進(jìn)化成VLA的下一代


AI科技評(píng)論:當(dāng)下整個(gè)行業(yè)對(duì)世界模型的定義還遠(yuǎn)遠(yuǎn)沒(méi)有收斂,您對(duì)世界模型的定義是什么?或者說(shuō)極佳想做的是哪種世界模型?

朱政:我們關(guān)注的是世界模型的本質(zhì)——對(duì)于未來(lái)的預(yù)測(cè)能力。

不同領(lǐng)域?qū)τ谑澜缒P偷亩x的確不太一樣。 CV 界主要關(guān)注視頻生成, RL界則更多關(guān)注 agent ,他們的重心是為 agent 提供仿真訓(xùn)練環(huán)境。但無(wú)論出于哪種目的,都是因?yàn)槭澜缒P陀袑?duì)未來(lái)的預(yù)測(cè)能力。

所謂預(yù)測(cè)能力是指,在給定一個(gè) action 序列的情況下,世界模型可以給出環(huán)境的反饋。當(dāng)然 action 的定義就比較廣泛了,可以是文本,比如文生視頻;也可以是各種結(jié)構(gòu)化的條件,比如在自動(dòng)駕駛領(lǐng)域,它可以是 3D 框或者車道線;在具身智能領(lǐng)域,我們更關(guān)注的是動(dòng)作序列。

AI科技評(píng)論:但預(yù)測(cè)的終極目標(biāo)也是為了服務(wù) agent ?

朱政:我們把世界模型分成三個(gè)階段。

現(xiàn)階段主要是用世界模型生成訓(xùn)練數(shù)據(jù);下一步會(huì)為 agent 提供閉環(huán)仿真環(huán)境;到最后一階段,世界模型會(huì)進(jìn)化成VLA的下一代。

AI科技評(píng)論:你覺(jué)得這三個(gè)階段最終要走完并且成熟需要多長(zhǎng)時(shí)間?

朱政:現(xiàn)在比較成熟的是用世界模型生成數(shù)據(jù),這方面大家已經(jīng)有一些共識(shí)了,據(jù)我所知,不僅我們,很多本體公司、具身大腦公司、大廠可能都在探索。到明年如果我們能首先證明這條路徑的可行性,大家可能都會(huì)跟進(jìn)。

下面兩個(gè)階段會(huì)對(duì)世界模型的能力會(huì)提出更高要求,比如在可控性、物理規(guī)律擬合方面做得更好。整個(gè)過(guò)程大概需要花費(fèi) 3 到 5 年時(shí)間。

AI科技評(píng)論:所以具身智能的成熟和普及也會(huì)在這個(gè)節(jié)點(diǎn)之后出現(xiàn)?

朱政:是的。

AI科技評(píng)論:世界模型應(yīng)該是一個(gè)全局模型還是可定制的垂直模型?

朱政:世界模型表現(xiàn)出來(lái)是一個(gè)視頻生成模型,它需要一個(gè)基座模型,這個(gè)基座模型可能是個(gè)通用場(chǎng)景的,也就是所謂的全局性模型。

但是之后我們會(huì)做后訓(xùn)練,結(jié)合自動(dòng)駕駛或具身智能領(lǐng)域的數(shù)據(jù)讓模型更符合具體領(lǐng)域的物理約束和規(guī)律??偨Y(jié)來(lái)說(shuō),前期我們會(huì)做一個(gè)基模,后期會(huì)根據(jù)具體任務(wù)要求去做定制化的垂直模型。

AI科技評(píng)論:這種輕量化的垂直模型也有助于實(shí)現(xiàn)低延遲和高保真?

朱政:為了實(shí)現(xiàn)高保真世界模型在低延遲場(chǎng)景下的實(shí)時(shí)推理,我們目前方案大概有三塊。一塊是步數(shù)蒸餾,另外一塊是參數(shù)蒸餾,最后是量化部署。

首先通過(guò)單步蒸餾將擴(kuò)散模型的多步去噪壓縮至一步,這樣可以顯著縮短它的推理時(shí)長(zhǎng)。其次,我們會(huì)利用參數(shù)蒸餾設(shè)計(jì)一些端側(cè)運(yùn)行的小模型,這樣就不用全在云端進(jìn)行,可以在保證生成質(zhì)量的同時(shí)減低計(jì)算的開(kāi)銷。最后,我們?cè)趥?cè)端部署時(shí)會(huì)結(jié)合混合精度量化、硬件優(yōu)化做進(jìn)一步的加速。

現(xiàn)在從量化指標(biāo)來(lái)看,跟我們比較類似的模型是英偉達(dá)的 Cosmos ,當(dāng)然 Cosmos 確實(shí)比較大。我們的模型和 Cosmos 相比基本可以實(shí)現(xiàn) 10 倍的加速。


自動(dòng)駕駛強(qiáng)調(diào)長(zhǎng)時(shí)序預(yù)測(cè),具身智能看重精細(xì)操作


AI科技評(píng)論:世界模型這個(gè)概念也是從自動(dòng)駕駛領(lǐng)域火起來(lái)的,極佳科技也為很多車企提供服務(wù),自動(dòng)駕駛領(lǐng)域的世界模型進(jìn)展到什么階段了?

朱政:自動(dòng)駕駛的世界模型在訓(xùn)練數(shù)據(jù)生成、閉環(huán)仿真方面已經(jīng)比較成熟了,業(yè)內(nèi)有很多研究,現(xiàn)在正處在和 VLA 結(jié)合并發(fā)展成VLA下一代 的過(guò)程中。

我們?cè)?2023 年 9 月做了 DriveDreamer,這在當(dāng)時(shí)應(yīng)該是第一個(gè)真實(shí)駕駛場(chǎng)景的世界模型原型?;谶@個(gè)工作,后來(lái)我們又做了一些改進(jìn),包括 DriveDreamer-2、DriveDreamer4D、ReconDreamer、ReconDreamer++,提升了數(shù)據(jù)生成的質(zhì)量和可控性,并且引入了生成+重建的范式。

極佳科技朱政:世界模型會(huì)進(jìn)化成VLA的下一代 | 具身先鋒十人談

上個(gè)月我們又發(fā)布了一個(gè)新工作,叫做 ReconDreamer-RL,是將重建+生成的世界模型作為強(qiáng)化學(xué)習(xí)訓(xùn)練的閉環(huán)仿真器。

AI科技評(píng)論:自動(dòng)駕駛也缺數(shù)據(jù)嗎?車在路上跑不是天然會(huì)產(chǎn)生大量數(shù)據(jù)嗎?

朱政:我們跟中國(guó)很多頭部車企接觸過(guò),他們會(huì)用大量車隊(duì)花費(fèi)數(shù)年時(shí)間采集數(shù)據(jù),基本都積累了幾億公里的實(shí)采數(shù)據(jù)。但這些數(shù)據(jù)中 99% 都是常見(jiàn)情況,比如晴天在路面直行的數(shù)據(jù),缺少長(zhǎng)尾問(wèn)題或者 corner case 的數(shù)據(jù),比如雨天、霧天、雪天,大卡車、警車、平板掛車,行人鬼探頭、車輛突然超車等等。

世界模型的好處是我們可以基于實(shí)采數(shù)據(jù)做數(shù)據(jù)泛化,讓數(shù)據(jù)分布更加均勻。

AI科技評(píng)論:自動(dòng)駕駛世界模型目前最大的問(wèn)題是什么?

朱政:關(guān)鍵問(wèn)題在于,世界模型的構(gòu)建比較依賴視頻生成技術(shù),視頻生成會(huì)存在幻覺(jué)。我們目前的解決方案是引入重建模型來(lái)輔助。也就是3DGS的方式,先進(jìn)行場(chǎng)景重建,將重建結(jié)果喂給視頻生成模型,視頻生成模型會(huì)做修復(fù),修復(fù)之后的結(jié)果再反饋給重建模型,形成循環(huán)。

極佳科技朱政:世界模型會(huì)進(jìn)化成VLA的下一代 | 具身先鋒十人談

AI科技評(píng)論:但重建的成本也更高?

朱政:是的?,F(xiàn)在重建模型大部分是基于逐場(chǎng)景優(yōu)化的,所以每做一個(gè)場(chǎng)景都需要訓(xùn)練一個(gè)重建模型。一家車企一般需要把全國(guó)各地發(fā)生過(guò)人類駕駛員接管、車禍的地方都重建出來(lái),成本非常高。

我們也在跟進(jìn)一些更前沿的方法,比如用 feed forward (前饋網(wǎng)絡(luò))的方式直接生成具備物理屬性的 3DGS 資產(chǎn),它是一個(gè)統(tǒng)一的模型,可以用來(lái)重建不同的場(chǎng)景,更加自動(dòng)化,可以加速 3D 世界模型的構(gòu)建流程。

當(dāng)然最終趨勢(shì)應(yīng)該還是用純視頻生成模型來(lái)構(gòu)建世界模型,但還需要一點(diǎn)時(shí)間。

AI科技評(píng)論:極佳后來(lái)為什么從自動(dòng)駕駛切入了具身智能?

朱政:其實(shí)從成立之初我們就很關(guān)注具身智能,但我們認(rèn)為自動(dòng)駕駛是世界模型的一個(gè)比較好的切入點(diǎn)。在自動(dòng)駕駛領(lǐng)域積累了一段時(shí)間之后,從去年下半年開(kāi)始,我們就在重點(diǎn)投入做具身智能世界模型了。

AI科技評(píng)論:自動(dòng)駕駛和具身智能領(lǐng)域的世界模型有什么差別?

朱政:自動(dòng)駕駛的世界模型核心在于對(duì)交通參與者的動(dòng)態(tài)變化做長(zhǎng)時(shí)序預(yù)測(cè),尤其是高速移動(dòng)目標(biāo),比如車輛變道、行人鬼探頭等等,這些場(chǎng)景一般會(huì)持續(xù)幾十秒,而具身智能完成一個(gè)抓取動(dòng)作只需三四秒,即便像疊衣服等復(fù)雜任務(wù)也不過(guò) 10 秒左右。因此,自動(dòng)駕駛的世界模型必須具備強(qiáng)時(shí)序建模能力。

相較之下,具身智能的場(chǎng)景會(huì)更依賴精細(xì)操作,比如抓取、推拉、裝配等,同環(huán)境交互頻繁,因此對(duì)世界模型的幾何精度、物理合理性等提出了更高要求。

世界模型的本質(zhì)不能被局限在 4D 里

AI科技評(píng)論:具身智能的世界模型全部是 3D 的嗎?

朱政:我們把目前的世界模型分為兩種,一種是 3D World Model(3D世界模型),利用 3DGS 技術(shù)來(lái)輔助進(jìn)行場(chǎng)景重建;另一種是 Video World Model(視頻世界模型),它是2D的。

AI科技評(píng)論:未來(lái)具身智能的維度有可能會(huì)超越當(dāng)前的維度限制嗎?

朱政:從現(xiàn)在的技術(shù)進(jìn)展來(lái)看,把世界模型建模成 3D,或者再加一維時(shí)間建構(gòu)成 4D 是最自然的,能夠同時(shí)反映幾何結(jié)構(gòu)和動(dòng)態(tài)變化。這種結(jié)構(gòu)有明確的物理意義,也具備工程可實(shí)驗(yàn)性。

但是世界模型的本質(zhì)肯定不能被局限在 4D 里。世界模型的終極目標(biāo)是重建世界和理解世界。因此未來(lái)可能需要引入超越 4D 的變量,比如力反饋信號(hào)、觸覺(jué)信號(hào)等等。這樣就可以捕捉那些沒(méi)有辦法通過(guò)純幾何+時(shí)間描述的規(guī)律。

AI科技評(píng)論:剛剛提到,具身智能領(lǐng)域的世界模型對(duì)物理合理性提出了更高要求,怎樣讓世界模型學(xué)習(xí)物理規(guī)律呢?

朱政:同樣是兩個(gè)辦法。

對(duì)于視頻世界模型,需要采用端到端的訓(xùn)練方式,把表觀、幾何、物理規(guī)則隱式編碼在擴(kuò)散模型里,通過(guò)大規(guī)模 2D 數(shù)據(jù)進(jìn)行隱式學(xué)習(xí),然后直接從視頻里生成未來(lái)幀。相當(dāng)于人類直接通過(guò)觀察而非交互學(xué)習(xí)物理規(guī)律。

這種方法上限比較高,擅長(zhǎng)紋理、光照等的表觀建模,但是無(wú)法滿足一些對(duì)空間一致性要求較高的后續(xù)任務(wù),比如 SFT 階段所需要的高保真交互模擬。

對(duì)于 3D 世界模型,需要給 3DGS 綁定一些顯式的物理屬性,比如 Mesh、物質(zhì)點(diǎn)或者粒子系統(tǒng)。相當(dāng)于人類通過(guò)各種交互去學(xué)習(xí)物理規(guī)律。這種方法對(duì)物理規(guī)律的擬合更高,還可以支持一些碰撞檢測(cè)、力傳播或動(dòng)力學(xué)建模等。但由于這些綁定仍然依賴逐場(chǎng)景優(yōu)化,還不能完全自動(dòng)化。

AI科技評(píng)論:世界模型要如何維護(hù)一個(gè)持久化的環(huán)境記憶?特別是 2D 世界模型的空間一致性較差。

朱政:基本上是兩種方式。

第一種是顯式的維護(hù),即通過(guò)結(jié)構(gòu)化的方式存儲(chǔ)環(huán)境狀態(tài),用來(lái)查詢更新。

整體流程是,生成模型會(huì)輸出新視角的內(nèi)容,作為擴(kuò)展場(chǎng)景輸入,重建模型會(huì)把這些結(jié)果整合為幾何一致的 3D 場(chǎng)景表示,形成一個(gè)環(huán)境記憶,重建結(jié)果再將結(jié)果作為先驗(yàn)返回給生成模型,引導(dǎo)后續(xù)生成過(guò)程中遵循物理和幾何約束,之后再提升跨視角或者跨時(shí)間的一致性。

第二種是隱式的編碼記憶, DeepMind 的 Genie 系列就是一個(gè)典型代表。簡(jiǎn)單來(lái)說(shuō)就是通過(guò)編碼歷史幀的上下文特征,驅(qū)動(dòng)自回歸式視頻生成,這樣就可以在不需要顯式建模的前提下實(shí)現(xiàn)短期動(dòng)態(tài)預(yù)測(cè)。

但是它的缺點(diǎn)也比較明顯,就是受限于目前的計(jì)算資源和序列建模能力,這類方法通常只能在有限時(shí)間窗口內(nèi)維持記憶一致性,比如說(shuō)幾秒鐘,難以支持長(zhǎng)時(shí)間、大規(guī)模的環(huán)境記憶管理。

未來(lái),我們會(huì)探索將RAG 技術(shù)引入世界模型架構(gòu),構(gòu)建輕量級(jí)的外部特征記憶庫(kù)。這種機(jī)制可以在不顯著增加計(jì)算開(kāi)銷的前提下,實(shí)現(xiàn)對(duì)關(guān)鍵環(huán)境狀態(tài)的長(zhǎng)期存儲(chǔ)與高效檢索,從而突破局部記憶窗口的限制。

AI科技評(píng)論:上述各種方法在面對(duì)不同場(chǎng)景時(shí)要如何選擇?

朱政:3D世界模型擅長(zhǎng)于做大空間的建模,在移動(dòng)導(dǎo)航場(chǎng)景比較合適;視頻世界模型在操作場(chǎng)景比較合適。

AI科技評(píng)論:所以現(xiàn)在是兩種方式融合來(lái)做。

朱政:是的,我們會(huì)融合兩種世界模型的建模方式,完成移動(dòng)導(dǎo)航+操作的任務(wù)。


世界模型會(huì)豐富數(shù)據(jù)金字塔的層次


AI科技評(píng)論:剛剛提到生成數(shù)據(jù)是世界模型的意義之一。您如何看待真機(jī)數(shù)據(jù)?現(xiàn)在很多企業(yè)都在做數(shù)采,這個(gè)路徑是對(duì)的嗎,能帶來(lái)涌現(xiàn)嗎?

朱政:真機(jī)數(shù)據(jù)肯定是最真實(shí)的,但是采集周期非常長(zhǎng)、成本非常高。

舉個(gè)例子,π0模型是借助真機(jī)采了 1 萬(wàn)個(gè)小時(shí)的數(shù)據(jù)。再考慮到本體成本、數(shù)采員成本、存儲(chǔ)成本,所有花銷加起來(lái)可能將近 1 億元。即便是如此高成本訓(xùn)出來(lái)的π0在行為、視角、位置等的泛化方面仍然有局限性。

我認(rèn)為具身智能理解世界不一定要完全依賴真機(jī)數(shù)據(jù)。舉個(gè)例子,我們?nèi)祟惖男『⒖隙ú皇峭ㄟ^(guò)反復(fù)試錯(cuò),比如一定要把杯子摔碎,才能學(xué)會(huì)“杯子摔了會(huì)碎”這個(gè)常識(shí),而是先對(duì)物理世界有一個(gè)基本認(rèn)知,就可以推理預(yù)測(cè)結(jié)果。

AI科技評(píng)論:與真機(jī)數(shù)據(jù)相對(duì)的是仿真數(shù)據(jù),世界模型和仿真器有什么區(qū)別?

朱政:其實(shí)我們可以把世界模型看作是一個(gè)對(duì)物理規(guī)律更加擬合的新一代仿真器,也就是英偉達(dá)經(jīng)常提到的 Sim 2.0。

傳統(tǒng)仿真數(shù)據(jù)最大的問(wèn)題,也就是我們老生常談的 Sim to Real 的 gap 還沒(méi)有得到很好的解決。Sim 1.0 的仿真數(shù)據(jù)可以給世界模型提供一些條件,而世界模型可以進(jìn)一步通過(guò)生成能力來(lái)減少其Sim to Real 的gap,從而可以比較高效率、低成本地生成大量物理比較真實(shí)的數(shù)據(jù)。

AI科技評(píng)論:世界模型的出現(xiàn)會(huì)動(dòng)搖數(shù)據(jù)金字塔嗎?

朱政:我覺(jué)得世界模型的出現(xiàn)不會(huì)改變金字塔的結(jié)構(gòu),但可能會(huì)增加金字塔,尤其是金字塔中間這一層的豐富程度。

目前大家都在探索各種數(shù)據(jù)共生的實(shí)踐。世界模型仍然需要真實(shí)數(shù)據(jù)才能進(jìn)行泛化,我們也會(huì)采用少量真機(jī)數(shù)據(jù)用于后訓(xùn)練,防止模型對(duì)生成數(shù)據(jù)過(guò)擬合。

AI科技評(píng)論:那你覺(jué)得,世界模型成熟后,合理的數(shù)據(jù)配比可能是怎樣的?

朱政:我們已經(jīng)做了很多實(shí)驗(yàn),現(xiàn)在我們?cè)谟?xùn)練 VLA 過(guò)程中,大概只有 10% 是真機(jī)數(shù)據(jù),其余 90% 都是世界模型泛化出來(lái)的數(shù)據(jù)。我們還在做一些更激進(jìn)的實(shí)驗(yàn),準(zhǔn)備在明年把這個(gè)比例提到 1:100 。

AI科技評(píng)論:借助極佳科技的世界模型,具身智能實(shí)際訓(xùn)練表現(xiàn)怎么樣?

朱政:拿柔體場(chǎng)景為例,很多傳統(tǒng)仿真器基本沒(méi)有辦法很好地處理柔體。我們發(fā)現(xiàn)模型在使用世界模型泛化的柔體數(shù)據(jù)訓(xùn)練后,比之前任務(wù)成功率提升了 50% 左右。

在泛化性方面,我們測(cè)試了幾十種任務(wù),發(fā)現(xiàn)模型 Zero-Shot 的成功率從30%提到了 80% 。明年我們會(huì)發(fā)布 GigaBrain 2.0,希望把成功率提到 90% 左右。

更重要的是數(shù)據(jù)成本降低了一個(gè)量級(jí)。我們估測(cè),訓(xùn)練一個(gè)比較好的 VLA ,如果全靠真機(jī)實(shí)采數(shù)據(jù),大概需要幾千萬(wàn)元。但是采用世界模型只需要 GPU 推理,大概只用花費(fèi)幾百萬(wàn)元的成本。

AI科技評(píng)論:世界模型是為了解決具身智能領(lǐng)域數(shù)據(jù)匱乏的問(wèn)題,但構(gòu)建世界模型所需要的數(shù)據(jù)同樣匱乏,這一問(wèn)題怎么解決?

朱政:目前訓(xùn)練世界模型主要是用互聯(lián)網(wǎng)上真實(shí)的物理場(chǎng)景視頻、多視角 3D 數(shù)據(jù)。依賴這些數(shù)據(jù),我們已經(jīng)可以初步訓(xùn)練出一個(gè)基本能夠理解物理規(guī)律的世界模型,為 VLA 模型提供多樣性的結(jié)構(gòu)合理的數(shù)據(jù)。

接下來(lái) VLA 需要在真實(shí)環(huán)境中部署并執(zhí)行任務(wù),在這個(gè)過(guò)程中可以不斷采集真實(shí)的交互數(shù)據(jù),包括視覺(jué)、力覺(jué)、觸覺(jué)多種模態(tài),反過(guò)來(lái)又能改進(jìn)世界模型。

所以世界模型和 VLA 之間是一個(gè)相互供給的數(shù)據(jù)循環(huán)狀態(tài)。

AI科技評(píng)論:依賴世界模型重建物理規(guī)則,解決 VLA 泛化能力不足的問(wèn)題,會(huì)不會(huì)是為了解決一個(gè)難題而去開(kāi)設(shè)一個(gè)更難的題?

朱政:短期看可能如此,但長(zhǎng)期看,這可能是通往真正泛化智能的必經(jīng)之路。

目前 VLA 泛化的瓶頸可能在于缺乏對(duì)于物理世界的理解。世界模型可以比較好地解決這一點(diǎn),為模型提供一個(gè)模擬器,讓 VLA 能預(yù)測(cè)動(dòng)作后果,實(shí)現(xiàn)跨場(chǎng)景的推理。所以不算是開(kāi)啟了一個(gè)更難的道路,而是在解決一個(gè)更本質(zhì)的問(wèn)題。

AI科技評(píng)論:世界模型是用來(lái)“馴化”VLA的容器還是會(huì)取代VLA?

朱政:現(xiàn)階段它是一個(gè)“容器”,為 VLA 提供數(shù)據(jù)和訓(xùn)練場(chǎng)。

但從最終視角來(lái)看,世界模型最本質(zhì)的是預(yù)測(cè)能力,預(yù)測(cè)能力本身就是一種 VLA 的表現(xiàn)形式。因此它們未來(lái)可能會(huì)融為一體,但這需要一個(gè)過(guò)程??赡苓^(guò)幾年大家不會(huì)再討論世界模型和 VLA 的區(qū)別,因?yàn)樗鼈冎复木褪峭患隆?/p>


世界模型平臺(tái)+賣解決方案“兩條腿”走路


AI 科技評(píng)論:去年李飛飛的 World Labs 成立,這和你們?cè)谧龅氖乱粯訂幔?/strong>

朱政:根據(jù)一些公開(kāi)信息,李飛飛老師的 World Labs主要關(guān)注文生和圖生 3D 世界,主要聚焦的是內(nèi)容或娛樂(lè)方向,強(qiáng)調(diào)藝術(shù)的表現(xiàn)力和創(chuàng)造性,跟我們做的事情在技術(shù)上是相通的,但落點(diǎn)會(huì)不太一樣。

AI 科技評(píng)論:今年很多初創(chuàng)公司、大廠、科研院所都在做具身大腦,你怎么看?在這樣的背景下,具身公司還有沒(méi)有必要做大腦,會(huì)不會(huì)被有被資源更多的大廠“平權(quán)”的風(fēng)險(xiǎn)?自研本體搭載開(kāi)源大腦會(huì)不會(huì)是更快的落地路徑?

朱政:本體公司的優(yōu)勢(shì)在于,標(biāo)準(zhǔn)化硬件可以采集數(shù)據(jù), VLA 在這些數(shù)據(jù)上訓(xùn)練收斂速度會(huì)更快;大廠優(yōu)勢(shì)可能在于應(yīng)用場(chǎng)景更明確,能夠跟主營(yíng)業(yè)務(wù)結(jié)合起來(lái);科研院所的技術(shù)積累周期更長(zhǎng)。具身大腦初創(chuàng)公司優(yōu)勢(shì)更綜合。

我覺(jué)得目前具身大腦還沒(méi)到即插即用的程度,存在任務(wù)泛化性、跨本體、側(cè)端部署等各種問(wèn)題,解決不了行業(yè)訴求?,F(xiàn)階段本體和大腦開(kāi)發(fā)還是高度耦合的。

AI 科技評(píng)論:聽(tīng)到一些小道消息說(shuō)極佳科技也在做本體。

朱政:是的,我們做本體的出發(fā)點(diǎn)比較明確——因?yàn)樾枰谝粋€(gè)標(biāo)準(zhǔn)化的本體上快速迭代世界模型到 VLA 的閉環(huán)鏈路。這樣也方便以后把我們的模型推廣到客戶的其他機(jī)器人本體上。

AI 科技評(píng)論:之后會(huì)考慮賣本體嗎?

朱政:其實(shí)現(xiàn)在已經(jīng)接觸了一些終端客戶,主要是政府實(shí)訓(xùn)場(chǎng)、高??蒲袌?chǎng)景、家庭商業(yè)服務(wù)場(chǎng)景等等。我們會(huì)為他們提供軟硬件配套的原型方案,搭載我們的世界模型和 VLA 的方案。預(yù)計(jì)過(guò)幾年會(huì)向 To C 轉(zhuǎn)變。

AI 科技評(píng)論:所以既要像自動(dòng)駕駛時(shí)代一樣為行業(yè)提供世界模型平臺(tái),也要直接面向終端落地,這樣“兩條腿走路”對(duì)初創(chuàng)公司會(huì)不會(huì)牽扯太多精力?

朱政:我們會(huì)分階段來(lái)實(shí)施這個(gè)戰(zhàn)略。

DeepSeek 給了大家一個(gè)比較好的樣本。我們希望能做具身智能的DeepSeek,當(dāng)然這個(gè)難度會(huì)比語(yǔ)言模型復(fù)雜很多,尤其在數(shù)據(jù)方面。但這也是我們最大的優(yōu)勢(shì),我們的短期目標(biāo)是把具身智能行業(yè)的數(shù)據(jù)成本打下來(lái)。

我們認(rèn)為世界模型是物理世界通用智能最重要的事情,世界模型產(chǎn)生的訓(xùn)練數(shù)據(jù)在體量和通用性方面,是唯一一個(gè)有希望達(dá)到大語(yǔ)言模型互聯(lián)網(wǎng)數(shù)據(jù)級(jí)別的路徑。


雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

分享:
相關(guān)文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄