極佳科技朱政：世界模型會(huì)進(jìn)化成VLA的下一代｜具身先鋒十人談

本文作者：丁莉

2025-09-04 10:52

導(dǎo)語(yǔ)：“世界模型數(shù)據(jù)是唯一有望達(dá)到 LLM 互聯(lián)網(wǎng)數(shù)據(jù)體量與通用性的途徑?！?

數(shù)據(jù)一直是具身智能圈子里最頭疼的問(wèn)題之一。

過(guò)去一兩年里，真機(jī)數(shù)據(jù)的信仰者和仿真數(shù)據(jù)的擁躉們吵得不可開(kāi)交。真機(jī)實(shí)采價(jià)格昂貴、效率低下，成本動(dòng)輒上億元；仿真數(shù)據(jù)面臨巨大的 Sim2Real 鴻溝。兩者似乎都無(wú)法帶來(lái)涌現(xiàn)，讓技術(shù)進(jìn)展陷入卡殼。

有人開(kāi)始探索世界模型。這個(gè)在自動(dòng)駕駛領(lǐng)域先火起來(lái)的概念真能救得了具身智能嗎？

朱政是其中之一，也是當(dāng)下從自動(dòng)駕駛轉(zhuǎn)向具身智能的洶涌大軍中的一員。

他是CV（計(jì)算機(jī)視覺(jué)）出身，博士畢業(yè)于中科院自動(dòng)化研究所，隨后在清華大學(xué)自動(dòng)化系從事博士后研究。過(guò)去十余年間， CV 界科研人員經(jīng)歷了好幾個(gè)應(yīng)用風(fēng)口，先是人臉識(shí)別，再之后是自動(dòng)駕駛。

這也是朱政早期的研究。他在頂會(huì)頂刊上發(fā)表超過(guò)70篇論文，引用超過(guò)16000次，曾獲得過(guò)NIST-FRVT、 COCO、 VOT 等頂級(jí)視覺(jué)競(jìng)賽冠軍，開(kāi)發(fā)的 WebFace260M 是全球最大的人臉識(shí)別數(shù)據(jù)集，被500余家科研機(jī)構(gòu)申請(qǐng)使用； BEVDet 是 BEV 感知領(lǐng)域的代表性算法，被多家車企和自動(dòng)駕駛公司3D感知方案采用，在 KITTI、nuScenes等榜單排名第一。

極佳科技朱政：世界模型會(huì)進(jìn)化成VLA的下一代｜具身先鋒十人談

現(xiàn)在，繼自動(dòng)駕駛和人臉識(shí)別之后，CV 界又來(lái)到了具身智能的門(mén)前。

“在前兩個(gè)領(lǐng)域，視覺(jué)感知始終是重心。但到了具身智能場(chǎng)景，需要頻繁地同物理世界交互，因此，重心轉(zhuǎn)移到了解決 action 的能力，這是進(jìn)化的必然?！敝煺嬖V雷峰網(wǎng)(公眾號(hào)：雷峰網(wǎng)) AI科技評(píng)論，人臉識(shí)別是一個(gè)單點(diǎn)問(wèn)題，自動(dòng)駕駛是一個(gè)系統(tǒng)問(wèn)題，而具身智能觸及了更本質(zhì)的問(wèn)題——改變物理世界。這也是 CV 研究者的終極考驗(yàn)。

如何完成這個(gè)轉(zhuǎn)型？朱政找到的切點(diǎn)是世界模型。

作為極佳科技聯(lián)合創(chuàng)始人、首席科學(xué)家，朱政此前已帶領(lǐng)團(tuán)隊(duì)為多家車企提供基于世界模型的仿真環(huán)境，用于測(cè)試和優(yōu)化自動(dòng)駕駛算法。團(tuán)隊(duì)的學(xué)術(shù)成果 DriveDreamer 也入選了 ECCV 2024 最具影響力論文榜單。

去年開(kāi)始，他們順勢(shì)轉(zhuǎn)戰(zhàn)，開(kāi)始研究具身智能的世界模型。不久前，他們發(fā)布了主要基于世界模型數(shù)據(jù)訓(xùn)練的 VLA —— GigaBrain ，據(jù)稱應(yīng)對(duì) Zero-Shot 的任務(wù)成功率提升了 50 個(gè)百分點(diǎn)。世界模型平臺(tái) GigaWorld 也會(huì)在本月發(fā)布。趁著這波具身智能熱潮，極佳科技在半年內(nèi)連續(xù)完成了三輪融資。

今年，世界模型迅速躥紅，在整個(gè)圈子中被炒得沸沸揚(yáng)揚(yáng)，但圍繞它的許多概念業(yè)內(nèi)還未厘清，比如：世界模型是什么？它和VLA關(guān)系是怎樣的？

朱政向雷峰網(wǎng) AI科技評(píng)論表示，短期內(nèi)，世界模型是“馴化” VLA 的容器，能解決后者訓(xùn)練數(shù)據(jù)不足的致命痛點(diǎn)；但長(zhǎng)期來(lái)看，二者或許會(huì)融為一體，“世界模型是物理世界通用智能最重要的事情，是唯一可能創(chuàng)造出與 LLM 時(shí)代互聯(lián)網(wǎng)數(shù)據(jù)比肩的數(shù)據(jù)量的路徑?！?/p>

世界模型會(huì)進(jìn)化成VLA的下一代

AI科技評(píng)論：當(dāng)下整個(gè)行業(yè)對(duì)世界模型的定義還遠(yuǎn)遠(yuǎn)沒(méi)有收斂，您對(duì)世界模型的定義是什么？或者說(shuō)極佳想做的是哪種世界模型？

朱政：我們關(guān)注的是世界模型的本質(zhì)——對(duì)于未來(lái)的預(yù)測(cè)能力。

不同領(lǐng)域?qū)τ谑澜缒Ｐ偷亩x的確不太一樣。 CV 界主要關(guān)注視頻生成， RL界則更多關(guān)注 agent ，他們的重心是為 agent 提供仿真訓(xùn)練環(huán)境。但無(wú)論出于哪種目的，都是因?yàn)槭澜缒Ｐ陀袑?duì)未來(lái)的預(yù)測(cè)能力。

所謂預(yù)測(cè)能力是指，在給定一個(gè) action 序列的情況下，世界模型可以給出環(huán)境的反饋。當(dāng)然 action 的定義就比較廣泛了，可以是文本，比如文生視頻；也可以是各種結(jié)構(gòu)化的條件，比如在自動(dòng)駕駛領(lǐng)域，它可以是 3D 框或者車道線；在具身智能領(lǐng)域，我們更關(guān)注的是動(dòng)作序列。

AI科技評(píng)論：但預(yù)測(cè)的終極目標(biāo)也是為了服務(wù) agent ？

朱政：我們把世界模型分成三個(gè)階段。

現(xiàn)階段主要是用世界模型生成訓(xùn)練數(shù)據(jù)；下一步會(huì)為 agent 提供閉環(huán)仿真環(huán)境；到最后一階段，世界模型會(huì)進(jìn)化成VLA的下一代。

AI科技評(píng)論：你覺(jué)得這三個(gè)階段最終要走完并且成熟需要多長(zhǎng)時(shí)間？

朱政：現(xiàn)在比較成熟的是用世界模型生成數(shù)據(jù)，這方面大家已經(jīng)有一些共識(shí)了，據(jù)我所知，不僅我們，很多本體公司、具身大腦公司、大廠可能都在探索。到明年如果我們能首先證明這條路徑的可行性，大家可能都會(huì)跟進(jìn)。

下面兩個(gè)階段會(huì)對(duì)世界模型的能力會(huì)提出更高要求，比如在可控性、物理規(guī)律擬合方面做得更好。整個(gè)過(guò)程大概需要花費(fèi) 3 到 5 年時(shí)間。

AI科技評(píng)論：所以具身智能的成熟和普及也會(huì)在這個(gè)節(jié)點(diǎn)之后出現(xiàn)？

朱政：是的。

AI科技評(píng)論：世界模型應(yīng)該是一個(gè)全局模型還是可定制的垂直模型？

朱政：世界模型表現(xiàn)出來(lái)是一個(gè)視頻生成模型，它需要一個(gè)基座模型，這個(gè)基座模型可能是個(gè)通用場(chǎng)景的，也就是所謂的全局性模型。

但是之后我們會(huì)做后訓(xùn)練，結(jié)合自動(dòng)駕駛或具身智能領(lǐng)域的數(shù)據(jù)讓模型更符合具體領(lǐng)域的物理約束和規(guī)律?？偨Y(jié)來(lái)說(shuō)，前期我們會(huì)做一個(gè)基模，后期會(huì)根據(jù)具體任務(wù)要求去做定制化的垂直模型。

AI科技評(píng)論：這種輕量化的垂直模型也有助于實(shí)現(xiàn)低延遲和高保真？

朱政：為了實(shí)現(xiàn)高保真世界模型在低延遲場(chǎng)景下的實(shí)時(shí)推理，我們目前方案大概有三塊。一塊是步數(shù)蒸餾，另外一塊是參數(shù)蒸餾，最后是量化部署。

首先通過(guò)單步蒸餾將擴(kuò)散模型的多步去噪壓縮至一步，這樣可以顯著縮短它的推理時(shí)長(zhǎng)。其次,我們會(huì)利用參數(shù)蒸餾設(shè)計(jì)一些端側(cè)運(yùn)行的小模型，這樣就不用全在云端進(jìn)行，可以在保證生成質(zhì)量的同時(shí)減低計(jì)算的開(kāi)銷。最后，我們?cè)趥?cè)端部署時(shí)會(huì)結(jié)合混合精度量化、硬件優(yōu)化做進(jìn)一步的加速。

現(xiàn)在從量化指標(biāo)來(lái)看，跟我們比較類似的模型是英偉達(dá)的 Cosmos ，當(dāng)然 Cosmos 確實(shí)比較大。我們的模型和 Cosmos 相比基本可以實(shí)現(xiàn) 10 倍的加速。

自動(dòng)駕駛強(qiáng)調(diào)長(zhǎng)時(shí)序預(yù)測(cè)，具身智能看重精細(xì)操作

AI科技評(píng)論：世界模型這個(gè)概念也是從自動(dòng)駕駛領(lǐng)域火起來(lái)的，極佳科技也為很多車企提供服務(wù)，自動(dòng)駕駛領(lǐng)域的世界模型進(jìn)展到什么階段了？

朱政：自動(dòng)駕駛的世界模型在訓(xùn)練數(shù)據(jù)生成、閉環(huán)仿真方面已經(jīng)比較成熟了，業(yè)內(nèi)有很多研究，現(xiàn)在正處在和 VLA 結(jié)合并發(fā)展成VLA下一代的過(guò)程中。

我們?cè)?2023 年 9 月做了 DriveDreamer，這在當(dāng)時(shí)應(yīng)該是第一個(gè)真實(shí)駕駛場(chǎng)景的世界模型原型?；谶@個(gè)工作,后來(lái)我們又做了一些改進(jìn)，包括 DriveDreamer-2、DriveDreamer4D、ReconDreamer、ReconDreamer++，提升了數(shù)據(jù)生成的質(zhì)量和可控性，并且引入了生成+重建的范式。

極佳科技朱政：世界模型會(huì)進(jìn)化成VLA的下一代｜具身先鋒十人談

上個(gè)月我們又發(fā)布了一個(gè)新工作，叫做 ReconDreamer-RL，是將重建+生成的世界模型作為強(qiáng)化學(xué)習(xí)訓(xùn)練的閉環(huán)仿真器。

AI科技評(píng)論：自動(dòng)駕駛也缺數(shù)據(jù)嗎？車在路上跑不是天然會(huì)產(chǎn)生大量數(shù)據(jù)嗎？

朱政：我們跟中國(guó)很多頭部車企接觸過(guò)，他們會(huì)用大量車隊(duì)花費(fèi)數(shù)年時(shí)間采集數(shù)據(jù)，基本都積累了幾億公里的實(shí)采數(shù)據(jù)。但這些數(shù)據(jù)中 99% 都是常見(jiàn)情況，比如晴天在路面直行的數(shù)據(jù)，缺少長(zhǎng)尾問(wèn)題或者 corner case 的數(shù)據(jù)，比如雨天、霧天、雪天，大卡車、警車、平板掛車，行人鬼探頭、車輛突然超車等等。

世界模型的好處是我們可以基于實(shí)采數(shù)據(jù)做數(shù)據(jù)泛化，讓數(shù)據(jù)分布更加均勻。

AI科技評(píng)論：自動(dòng)駕駛世界模型目前最大的問(wèn)題是什么？

朱政：關(guān)鍵問(wèn)題在于，世界模型的構(gòu)建比較依賴視頻生成技術(shù)，視頻生成會(huì)存在幻覺(jué)。我們目前的解決方案是引入重建模型來(lái)輔助。也就是3DGS的方式，先進(jìn)行場(chǎng)景重建，將重建結(jié)果喂給視頻生成模型，視頻生成模型會(huì)做修復(fù)，修復(fù)之后的結(jié)果再反饋給重建模型，形成循環(huán)。

極佳科技朱政：世界模型會(huì)進(jìn)化成VLA的下一代｜具身先鋒十人談

AI科技評(píng)論：但重建的成本也更高？

朱政：是的?，F(xiàn)在重建模型大部分是基于逐場(chǎng)景優(yōu)化的，所以每做一個(gè)場(chǎng)景都需要訓(xùn)練一個(gè)重建模型。一家車企一般需要把全國(guó)各地發(fā)生過(guò)人類駕駛員接管、車禍的地方都重建出來(lái)，成本非常高。

我們也在跟進(jìn)一些更前沿的方法，比如用 feed forward （前饋網(wǎng)絡(luò)）的方式直接生成具備物理屬性的 3DGS 資產(chǎn)，它是一個(gè)統(tǒng)一的模型，可以用來(lái)重建不同的場(chǎng)景，更加自動(dòng)化，可以加速 3D 世界模型的構(gòu)建流程。

當(dāng)然最終趨勢(shì)應(yīng)該還是用純視頻生成模型來(lái)構(gòu)建世界模型，但還需要一點(diǎn)時(shí)間。

AI科技評(píng)論：極佳后來(lái)為什么從自動(dòng)駕駛切入了具身智能？

朱政：其實(shí)從成立之初我們就很關(guān)注具身智能，但我們認(rèn)為自動(dòng)駕駛是世界模型的一個(gè)比較好的切入點(diǎn)。在自動(dòng)駕駛領(lǐng)域積累了一段時(shí)間之后，從去年下半年開(kāi)始，我們就在重點(diǎn)投入做具身智能世界模型了。

AI科技評(píng)論：自動(dòng)駕駛和具身智能領(lǐng)域的世界模型有什么差別？

朱政：自動(dòng)駕駛的世界模型核心在于對(duì)交通參與者的動(dòng)態(tài)變化做長(zhǎng)時(shí)序預(yù)測(cè)，尤其是高速移動(dòng)目標(biāo)，比如車輛變道、行人鬼探頭等等，這些場(chǎng)景一般會(huì)持續(xù)幾十秒，而具身智能完成一個(gè)抓取動(dòng)作只需三四秒，即便像疊衣服等復(fù)雜任務(wù)也不過(guò) 10 秒左右。因此，自動(dòng)駕駛的世界模型必須具備強(qiáng)時(shí)序建模能力。

相較之下，具身智能的場(chǎng)景會(huì)更依賴精細(xì)操作，比如抓取、推拉、裝配等，同環(huán)境交互頻繁，因此對(duì)世界模型的幾何精度、物理合理性等提出了更高要求。

世界模型的本質(zhì)不能被局限在 4D 里

AI科技評(píng)論：具身智能的世界模型全部是 3D 的嗎？

朱政：我們把目前的世界模型分為兩種，一種是 3D World Model（3D世界模型），利用 3DGS 技術(shù)來(lái)輔助進(jìn)行場(chǎng)景重建；另一種是 Video World Model（視頻世界模型），它是2D的。

AI科技評(píng)論：未來(lái)具身智能的維度有可能會(huì)超越當(dāng)前的維度限制嗎？

朱政：從現(xiàn)在的技術(shù)進(jìn)展來(lái)看，把世界模型建模成 3D，或者再加一維時(shí)間建構(gòu)成 4D 是最自然的，能夠同時(shí)反映幾何結(jié)構(gòu)和動(dòng)態(tài)變化。這種結(jié)構(gòu)有明確的物理意義，也具備工程可實(shí)驗(yàn)性。

但是世界模型的本質(zhì)肯定不能被局限在 4D 里。世界模型的終極目標(biāo)是重建世界和理解世界。因此未來(lái)可能需要引入超越 4D 的變量，比如力反饋信號(hào)、觸覺(jué)信號(hào)等等。這樣就可以捕捉那些沒(méi)有辦法通過(guò)純幾何+時(shí)間描述的規(guī)律。

AI科技評(píng)論：剛剛提到，具身智能領(lǐng)域的世界模型對(duì)物理合理性提出了更高要求，怎樣讓世界模型學(xué)習(xí)物理規(guī)律呢？

朱政：同樣是兩個(gè)辦法。

對(duì)于視頻世界模型，需要采用端到端的訓(xùn)練方式，把表觀、幾何、物理規(guī)則隱式編碼在擴(kuò)散模型里，通過(guò)大規(guī)模 2D 數(shù)據(jù)進(jìn)行隱式學(xué)習(xí)，然后直接從視頻里生成未來(lái)幀。相當(dāng)于人類直接通過(guò)觀察而非交互學(xué)習(xí)物理規(guī)律。

這種方法上限比較高，擅長(zhǎng)紋理、光照等的表觀建模，但是無(wú)法滿足一些對(duì)空間一致性要求較高的后續(xù)任務(wù)，比如 SFT 階段所需要的高保真交互模擬。

對(duì)于 3D 世界模型，需要給 3DGS 綁定一些顯式的物理屬性，比如 Mesh、物質(zhì)點(diǎn)或者粒子系統(tǒng)。相當(dāng)于人類通過(guò)各種交互去學(xué)習(xí)物理規(guī)律。這種方法對(duì)物理規(guī)律的擬合更高，還可以支持一些碰撞檢測(cè)、力傳播或動(dòng)力學(xué)建模等。但由于這些綁定仍然依賴逐場(chǎng)景優(yōu)化，還不能完全自動(dòng)化。

AI科技評(píng)論：世界模型要如何維護(hù)一個(gè)持久化的環(huán)境記憶？特別是 2D 世界模型的空間一致性較差。

朱政：基本上是兩種方式。

第一種是顯式的維護(hù)，即通過(guò)結(jié)構(gòu)化的方式存儲(chǔ)環(huán)境狀態(tài)，用來(lái)查詢更新。

整體流程是，生成模型會(huì)輸出新視角的內(nèi)容，作為擴(kuò)展場(chǎng)景輸入，重建模型會(huì)把這些結(jié)果整合為幾何一致的 3D 場(chǎng)景表示，形成一個(gè)環(huán)境記憶，重建結(jié)果再將結(jié)果作為先驗(yàn)返回給生成模型，引導(dǎo)后續(xù)生成過(guò)程中遵循物理和幾何約束，之后再提升跨視角或者跨時(shí)間的一致性。

第二種是隱式的編碼記憶， DeepMind 的 Genie 系列就是一個(gè)典型代表。簡(jiǎn)單來(lái)說(shuō)就是通過(guò)編碼歷史幀的上下文特征，驅(qū)動(dòng)自回歸式視頻生成，這樣就可以在不需要顯式建模的前提下實(shí)現(xiàn)短期動(dòng)態(tài)預(yù)測(cè)。

但是它的缺點(diǎn)也比較明顯，就是受限于目前的計(jì)算資源和序列建模能力，這類方法通常只能在有限時(shí)間窗口內(nèi)維持記憶一致性，比如說(shuō)幾秒鐘，難以支持長(zhǎng)時(shí)間、大規(guī)模的環(huán)境記憶管理。

未來(lái)，我們會(huì)探索將RAG 技術(shù)引入世界模型架構(gòu)，構(gòu)建輕量級(jí)的外部特征記憶庫(kù)。這種機(jī)制可以在不顯著增加計(jì)算開(kāi)銷的前提下，實(shí)現(xiàn)對(duì)關(guān)鍵環(huán)境狀態(tài)的長(zhǎng)期存儲(chǔ)與高效檢索，從而突破局部記憶窗口的限制。

AI科技評(píng)論：上述各種方法在面對(duì)不同場(chǎng)景時(shí)要如何選擇？

朱政：3D世界模型擅長(zhǎng)于做大空間的建模，在移動(dòng)導(dǎo)航場(chǎng)景比較合適；視頻世界模型在操作場(chǎng)景比較合適。

AI科技評(píng)論：所以現(xiàn)在是兩種方式融合來(lái)做。

朱政：是的，我們會(huì)融合兩種世界模型的建模方式，完成移動(dòng)導(dǎo)航+操作的任務(wù)。

世界模型會(huì)豐富數(shù)據(jù)金字塔的層次

AI科技評(píng)論：剛剛提到生成數(shù)據(jù)是世界模型的意義之一。您如何看待真機(jī)數(shù)據(jù)？現(xiàn)在很多企業(yè)都在做數(shù)采，這個(gè)路徑是對(duì)的嗎，能帶來(lái)涌現(xiàn)嗎？

朱政：真機(jī)數(shù)據(jù)肯定是最真實(shí)的，但是采集周期非常長(zhǎng)、成本非常高。

舉個(gè)例子，π0模型是借助真機(jī)采了 1 萬(wàn)個(gè)小時(shí)的數(shù)據(jù)。再考慮到本體成本、數(shù)采員成本、存儲(chǔ)成本，所有花銷加起來(lái)可能將近 1 億元。即便是如此高成本訓(xùn)出來(lái)的π0在行為、視角、位置等的泛化方面仍然有局限性。

我認(rèn)為具身智能理解世界不一定要完全依賴真機(jī)數(shù)據(jù)。舉個(gè)例子，我們?nèi)祟惖男『⒖隙ú皇峭ㄟ^(guò)反復(fù)試錯(cuò)，比如一定要把杯子摔碎，才能學(xué)會(huì)“杯子摔了會(huì)碎”這個(gè)常識(shí)，而是先對(duì)物理世界有一個(gè)基本認(rèn)知，就可以推理預(yù)測(cè)結(jié)果。

AI科技評(píng)論：與真機(jī)數(shù)據(jù)相對(duì)的是仿真數(shù)據(jù)，世界模型和仿真器有什么區(qū)別？

朱政：其實(shí)我們可以把世界模型看作是一個(gè)對(duì)物理規(guī)律更加擬合的新一代仿真器，也就是英偉達(dá)經(jīng)常提到的 Sim 2.0。

傳統(tǒng)仿真數(shù)據(jù)最大的問(wèn)題，也就是我們老生常談的 Sim to Real 的 gap 還沒(méi)有得到很好的解決。Sim 1.0 的仿真數(shù)據(jù)可以給世界模型提供一些條件，而世界模型可以進(jìn)一步通過(guò)生成能力來(lái)減少其Sim to Real 的gap，從而可以比較高效率、低成本地生成大量物理比較真實(shí)的數(shù)據(jù)。

AI科技評(píng)論：世界模型的出現(xiàn)會(huì)動(dòng)搖數(shù)據(jù)金字塔嗎？

朱政：我覺(jué)得世界模型的出現(xiàn)不會(huì)改變金字塔的結(jié)構(gòu)，但可能會(huì)增加金字塔，尤其是金字塔中間這一層的豐富程度。

目前大家都在探索各種數(shù)據(jù)共生的實(shí)踐。世界模型仍然需要真實(shí)數(shù)據(jù)才能進(jìn)行泛化，我們也會(huì)采用少量真機(jī)數(shù)據(jù)用于后訓(xùn)練，防止模型對(duì)生成數(shù)據(jù)過(guò)擬合。

AI科技評(píng)論：那你覺(jué)得，世界模型成熟后，合理的數(shù)據(jù)配比可能是怎樣的？

朱政：我們已經(jīng)做了很多實(shí)驗(yàn)，現(xiàn)在我們?cè)谟?xùn)練 VLA 過(guò)程中，大概只有 10% 是真機(jī)數(shù)據(jù)，其余 90% 都是世界模型泛化出來(lái)的數(shù)據(jù)。我們還在做一些更激進(jìn)的實(shí)驗(yàn)，準(zhǔn)備在明年把這個(gè)比例提到 1:100 。

AI科技評(píng)論：借助極佳科技的世界模型，具身智能實(shí)際訓(xùn)練表現(xiàn)怎么樣？

朱政：拿柔體場(chǎng)景為例，很多傳統(tǒng)仿真器基本沒(méi)有辦法很好地處理柔體。我們發(fā)現(xiàn)模型在使用世界模型泛化的柔體數(shù)據(jù)訓(xùn)練后，比之前任務(wù)成功率提升了 50% 左右。

在泛化性方面，我們測(cè)試了幾十種任務(wù)，發(fā)現(xiàn)模型 Zero-Shot 的成功率從30%提到了 80% 。明年我們會(huì)發(fā)布 GigaBrain 2.0，希望把成功率提到 90% 左右。

更重要的是數(shù)據(jù)成本降低了一個(gè)量級(jí)。我們估測(cè)，訓(xùn)練一個(gè)比較好的 VLA ，如果全靠真機(jī)實(shí)采數(shù)據(jù)，大概需要幾千萬(wàn)元。但是采用世界模型只需要 GPU 推理，大概只用花費(fèi)幾百萬(wàn)元的成本。

AI科技評(píng)論：世界模型是為了解決具身智能領(lǐng)域數(shù)據(jù)匱乏的問(wèn)題，但構(gòu)建世界模型所需要的數(shù)據(jù)同樣匱乏，這一問(wèn)題怎么解決？

朱政：目前訓(xùn)練世界模型主要是用互聯(lián)網(wǎng)上真實(shí)的物理場(chǎng)景視頻、多視角 3D 數(shù)據(jù)。依賴這些數(shù)據(jù)，我們已經(jīng)可以初步訓(xùn)練出一個(gè)基本能夠理解物理規(guī)律的世界模型，為 VLA 模型提供多樣性的結(jié)構(gòu)合理的數(shù)據(jù)。

接下來(lái) VLA 需要在真實(shí)環(huán)境中部署并執(zhí)行任務(wù)，在這個(gè)過(guò)程中可以不斷采集真實(shí)的交互數(shù)據(jù)，包括視覺(jué)、力覺(jué)、觸覺(jué)多種模態(tài)，反過(guò)來(lái)又能改進(jìn)世界模型。

所以世界模型和 VLA 之間是一個(gè)相互供給的數(shù)據(jù)循環(huán)狀態(tài)。

AI科技評(píng)論：依賴世界模型重建物理規(guī)則，解決 VLA 泛化能力不足的問(wèn)題，會(huì)不會(huì)是為了解決一個(gè)難題而去開(kāi)設(shè)一個(gè)更難的題？

朱政：短期看可能如此，但長(zhǎng)期看，這可能是通往真正泛化智能的必經(jīng)之路。

目前 VLA 泛化的瓶頸可能在于缺乏對(duì)于物理世界的理解。世界模型可以比較好地解決這一點(diǎn)，為模型提供一個(gè)模擬器，讓 VLA 能預(yù)測(cè)動(dòng)作后果，實(shí)現(xiàn)跨場(chǎng)景的推理。所以不算是開(kāi)啟了一個(gè)更難的道路，而是在解決一個(gè)更本質(zhì)的問(wèn)題。

AI科技評(píng)論：世界模型是用來(lái)“馴化”VLA的容器還是會(huì)取代VLA？

朱政：現(xiàn)階段它是一個(gè)“容器”，為 VLA 提供數(shù)據(jù)和訓(xùn)練場(chǎng)。

但從最終視角來(lái)看，世界模型最本質(zhì)的是預(yù)測(cè)能力，預(yù)測(cè)能力本身就是一種 VLA 的表現(xiàn)形式。因此它們未來(lái)可能會(huì)融為一體，但這需要一個(gè)過(guò)程?？赡苓^(guò)幾年大家不會(huì)再討論世界模型和 VLA 的區(qū)別，因?yàn)樗鼈冎复木褪峭患隆?/p>

世界模型平臺(tái)+賣解決方案“兩條腿”走路

AI 科技評(píng)論：去年李飛飛的 World Labs 成立，這和你們?cè)谧龅氖乱粯訂幔?/strong>

朱政：根據(jù)一些公開(kāi)信息，李飛飛老師的 World Labs主要關(guān)注文生和圖生 3D 世界，主要聚焦的是內(nèi)容或娛樂(lè)方向，強(qiáng)調(diào)藝術(shù)的表現(xiàn)力和創(chuàng)造性，跟我們做的事情在技術(shù)上是相通的，但落點(diǎn)會(huì)不太一樣。

AI 科技評(píng)論：今年很多初創(chuàng)公司、大廠、科研院所都在做具身大腦，你怎么看？在這樣的背景下，具身公司還有沒(méi)有必要做大腦，會(huì)不會(huì)被有被資源更多的大廠“平權(quán)”的風(fēng)險(xiǎn)？自研本體搭載開(kāi)源大腦會(huì)不會(huì)是更快的落地路徑？

朱政：本體公司的優(yōu)勢(shì)在于，標(biāo)準(zhǔn)化硬件可以采集數(shù)據(jù)， VLA 在這些數(shù)據(jù)上訓(xùn)練收斂速度會(huì)更快；大廠優(yōu)勢(shì)可能在于應(yīng)用場(chǎng)景更明確，能夠跟主營(yíng)業(yè)務(wù)結(jié)合起來(lái)；科研院所的技術(shù)積累周期更長(zhǎng)。具身大腦初創(chuàng)公司優(yōu)勢(shì)更綜合。

我覺(jué)得目前具身大腦還沒(méi)到即插即用的程度，存在任務(wù)泛化性、跨本體、側(cè)端部署等各種問(wèn)題，解決不了行業(yè)訴求?，F(xiàn)階段本體和大腦開(kāi)發(fā)還是高度耦合的。

AI 科技評(píng)論：聽(tīng)到一些小道消息說(shuō)極佳科技也在做本體。

朱政：是的，我們做本體的出發(fā)點(diǎn)比較明確——因?yàn)樾枰谝粋€(gè)標(biāo)準(zhǔn)化的本體上快速迭代世界模型到 VLA 的閉環(huán)鏈路。這樣也方便以后把我們的模型推廣到客戶的其他機(jī)器人本體上。

AI 科技評(píng)論：之后會(huì)考慮賣本體嗎？

朱政：其實(shí)現(xiàn)在已經(jīng)接觸了一些終端客戶，主要是政府實(shí)訓(xùn)場(chǎng)、高?？蒲袌?chǎng)景、家庭商業(yè)服務(wù)場(chǎng)景等等。我們會(huì)為他們提供軟硬件配套的原型方案，搭載我們的世界模型和 VLA 的方案。預(yù)計(jì)過(guò)幾年會(huì)向 To C 轉(zhuǎn)變。

AI 科技評(píng)論：所以既要像自動(dòng)駕駛時(shí)代一樣為行業(yè)提供世界模型平臺(tái)，也要直接面向終端落地，這樣“兩條腿走路”對(duì)初創(chuàng)公司會(huì)不會(huì)牽扯太多精力？

朱政：我們會(huì)分階段來(lái)實(shí)施這個(gè)戰(zhàn)略。

DeepSeek 給了大家一個(gè)比較好的樣本。我們希望能做具身智能的DeepSeek，當(dāng)然這個(gè)難度會(huì)比語(yǔ)言模型復(fù)雜很多，尤其在數(shù)據(jù)方面。但這也是我們最大的優(yōu)勢(shì)，我們的短期目標(biāo)是把具身智能行業(yè)的數(shù)據(jù)成本打下來(lái)。

我們認(rèn)為世界模型是物理世界通用智能最重要的事情，世界模型產(chǎn)生的訓(xùn)練數(shù)據(jù)在體量和通用性方面，是唯一一個(gè)有希望達(dá)到大語(yǔ)言模型互聯(lián)網(wǎng)數(shù)據(jù)級(jí)別的路徑。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

0人收藏

分享：

相關(guān)文章

極佳科技自動(dòng)駕駛具身智能世界模型

獨(dú)家丨國(guó)內(nèi)人形機(jī)器人首筆千臺(tái)級(jí)商單出現(xiàn)

自動(dòng)駕駛遇難題？A車企靠百度搜來(lái)了救兵； IPO 急剎 ...

多模態(tài)+強(qiáng)化學(xué)習(xí)，千里科技與階躍星辰聯(lián)合研發(fā)千里智 ...

阿里云推出自動(dòng)駕駛模型訓(xùn)練推理加速框架，訓(xùn)練時(shí)間 ...

丁莉

編輯

發(fā)私信

當(dāng)月熱門(mén)文章

上海AI Lab龐江淼：開(kāi)放平臺(tái)是具身智能“ChatGPT時(shí)刻”的前提丨具身先鋒十人談

WRC 觀察丨VLA 能帶來(lái)融資，但不能帶來(lái)收入

飛輪“倒轉(zhuǎn)”，靈巧手廠商困在夾縫里

獨(dú)家丨國(guó)內(nèi)人形機(jī)器人首筆千臺(tái)級(jí)商單出現(xiàn)

極佳科技朱政：世界模型會(huì)進(jìn)化成VLA的下一代｜具身先鋒十人談

最新文章

自變量獲近10億元A+輪融資，阿里云首次出手具身智能

無(wú)人機(jī)帝國(guó)將星譜：四大名捕的崛起、打仗與裂變

獨(dú)家丨國(guó)內(nèi)人形機(jī)器人首筆千臺(tái)級(jí)商單出現(xiàn)

飛輪“倒轉(zhuǎn)”，靈巧手廠商困在夾縫里

獨(dú)家丨科沃斯前全球GTM總監(jiān)李矩凡加入來(lái)牟科技，任CMO

割草機(jī)器人，四大流派的巔峰之戰(zhàn)

熱門(mén)搜索

機(jī)器學(xué)習(xí) 科大訊飛喬布斯 ARM iPhone 5 蔚來(lái) 產(chǎn)品經(jīng)理軟銀叫獸發(fā)言微博精選 BlackBerry

極佳科技朱政：世界模型會(huì)進(jìn)化成VLA的下一代 ｜ 具身先鋒十人談

世界模型會(huì)進(jìn)化成VLA的下一代

自動(dòng)駕駛強(qiáng)調(diào)長(zhǎng)時(shí)序預(yù)測(cè)，具身智能看重精細(xì)操作

世界模型的本質(zhì)不能被局限在 4D 里

世界模型會(huì)豐富數(shù)據(jù)金字塔的層次

世界模型平臺(tái)+賣解決方案“兩條腿”走路

極佳科技朱政：世界模型會(huì)進(jìn)化成VLA的下一代｜具身先鋒十人談

自動(dòng)駕駛強(qiáng)調(diào)長(zhǎng)時(shí)序預(yù)測(cè)，具身智能看重精細(xì)操作