智源學(xué)者仉尚航：具身基礎(chǔ)模型最終狀態(tài)可能是「4D世界模型」丨具身先鋒十人談

本文作者：張進(jìn)

2025-01-02 12:55

導(dǎo)語：基于快、慢雙系統(tǒng)的具身基礎(chǔ)模型。

今年業(yè)界開始流傳著一個(gè)說法，具身多模態(tài)大模型是當(dāng)下為數(shù)不多的新的創(chuàng)業(yè)機(jī)會(huì)。

今年，受大模型啟發(fā)，業(yè)界看到了大模型帶給機(jī)器人領(lǐng)域的新能量，開始研究能同時(shí)完成多種任務(wù)的具身智能的基礎(chǔ)模型，希望實(shí)現(xiàn)能跨越不同任務(wù)、不同本體、不同場(chǎng)景，具有泛化能力的機(jī)器人智能體。

具身智能基礎(chǔ)模型是一個(gè)新的領(lǐng)域，相關(guān)工作并不多，從早期的 Saycan 到后面斯蒂朗寧的 PaLM-E，RT-1、RT-2到RT-H系列，而最近的RDT-1B、π0的工作也引起了廣泛關(guān)注。

近日在“智源論壇·2024具身與世界模型專題峰會(huì)”上，北京智源人工智能研究院作為中國大模型領(lǐng)域的黃埔軍校，展示了他們?cè)诰呱碇悄茴I(lǐng)域的諸多研究，其中由仉尚航領(lǐng)導(dǎo)的智源具身多模態(tài)大模型研究中心的主要研究方向是面向具身智能的多模態(tài)大模型與大數(shù)據(jù)構(gòu)建，包括具身大腦大模型、端到端大模型、世界模型等，希望最終實(shí)現(xiàn)具身智能領(lǐng)域的 Scaling Law，使具身基礎(chǔ)模型具備跨本體、跨場(chǎng)景、跨任務(wù)的泛化能力。

仉尚航是一位年輕的人工智能領(lǐng)域優(yōu)秀學(xué)者，現(xiàn)為北京大學(xué)計(jì)算機(jī)學(xué)院長聘系列助理教授（研究員），博士生導(dǎo)師，智源具身多模態(tài)大模型研究中負(fù)責(zé)人。

她于2018年博士畢業(yè)于美國卡內(nèi)基梅隆大學(xué)，后于2020年初加入加州大學(xué)伯克利分校 Berkeley AI Research Lab (BAIR) 從事博士后研究。她的主要研究方向包括具身智能與多模態(tài)大模型，擁有豐富的研究經(jīng)驗(yàn)和諸多優(yōu)秀的研究成果。曾獲世界人工智能頂級(jí)會(huì)議AAAI’2021 最佳論文獎(jiǎng)，Google Scholar引用數(shù)1.2萬次。作為編輯和作者由Springer Nature出版《Deep Reinforcement Learning》，至今電子版全球下載量超二十萬次，入選中國作者年度高影響力研究精選。仉尚航于2018年入選美國“EECS Rising Star”，于2023年入選“全球AI華人女性青年學(xué)者榜”。

當(dāng)下，具身智能的基礎(chǔ)模型已經(jīng)出現(xiàn)兩條不同的技術(shù)路線：針對(duì)原子任務(wù)的端到端多模態(tài)大模型，以及針對(duì)復(fù)雜長程任務(wù)的分層大模型，此外還有非常少量的關(guān)于具身世界模型的研究。

仉尚航帶領(lǐng)的智源多模態(tài)大模型研究中心，基于上述不同的技術(shù)路線，設(shè)計(jì)了面向機(jī)器人具身模型的快慢系統(tǒng)，快系統(tǒng)能夠直接預(yù)測(cè)末端執(zhí)行器的pose和action，慢系統(tǒng)可以反思和糾錯(cuò)，不斷提升機(jī)器人的大腦能力。

仉尚航認(rèn)為無論是端到端模型還是分層結(jié)構(gòu)，我們都希望機(jī)器人能夠更好地理解物理世界中的物理規(guī)律，對(duì)世界進(jìn)行理解、建模與推理，在時(shí)間和3D空間中與世界更好地進(jìn)行交互，其中時(shí)空智能很重要，所以具身智能基礎(chǔ)模型最終的狀態(tài)可能是4D世界模型。

以下是AI科技評(píng)論與仉尚航的對(duì)話：

1
智源具身多模態(tài)大模型研究中心

AI科技評(píng)論：智源具身多模態(tài)大模型研究中心的主要研究方向和目標(biāo)是什么？

仉尚航：面向具身智能的多模態(tài)大模型與大數(shù)據(jù)的研究。為了去構(gòu)建、訓(xùn)練具身智能領(lǐng)域的大模型，我們需要去采集、標(biāo)注具身智能大數(shù)據(jù)，包括真機(jī)數(shù)據(jù)、互聯(lián)網(wǎng)數(shù)據(jù)、仿真數(shù)據(jù)等，最終是為了實(shí)現(xiàn)具身智能領(lǐng)域的 Scaling Law。

在 NLP 領(lǐng)域，Scaling Law 讓大家看到了大模型的泛化性、涌現(xiàn)能力和通用性，因此，在具身智能領(lǐng)域Scaling Law 也有可能帶給機(jī)器人一些泛化的、通用的能力，我們需要去探索機(jī)器人領(lǐng)域的大模型，實(shí)現(xiàn)機(jī)器人領(lǐng)域的 Scaling Law。具體來說，就是基于多模態(tài)大模型構(gòu)建具身基礎(chǔ)模型，驅(qū)動(dòng)不同本體的機(jī)器人能夠完成開放世界的復(fù)雜任務(wù)，實(shí)現(xiàn)跨本體、跨場(chǎng)景、跨任務(wù)的泛化。

AI科技評(píng)論：您研究中一個(gè)很重要的部分是開放世界泛化機(jī)器學(xué)習(xí)，這一方向是研究具身智能的哪些問題？面臨的最大挑戰(zhàn)是什么？

仉尚航：開放世界泛化機(jī)器學(xué)習(xí)的研究主要使AI模型在開放世界中面臨新的數(shù)據(jù)分布時(shí)，可以自動(dòng)適應(yīng)新的環(huán)境，解決新的任務(wù)。比如如何提升自動(dòng)駕駛模型面對(duì)不同季節(jié)、不同時(shí)間、不同天氣以及其他長尾任務(wù)的性能，如何讓機(jī)器人在開放世界的場(chǎng)景下完成復(fù)雜的任務(wù)。我們基于這個(gè)方向的積累提出了更具泛化性的具身基礎(chǔ)模型，使機(jī)器人在面臨復(fù)雜場(chǎng)景和任務(wù)時(shí)，可以自主發(fā)現(xiàn)錯(cuò)誤，并進(jìn)行自我糾正與模型進(jìn)化。這個(gè)方向是構(gòu)建具身大模型的基礎(chǔ)。

AI科技評(píng)論：具身智能沒火之前，大家都在做多模態(tài)大模型，之前做多模態(tài)大模型的那一撥人，跟現(xiàn)在做具身多模態(tài)大模型的，是同一撥人嗎？兩者有什么區(qū)別？

仉尚航：不會(huì)是完全是同一撥，目前來看做具身智能的學(xué)者或者從業(yè)人員很少專門跳去做多模態(tài)大模型，但是多模態(tài)大模型方向的研究人員有可能會(huì)轉(zhuǎn)去做具身多模態(tài)大模型。要想做具身多模態(tài)大模型的方向必須具備至少兩方面的能力：一個(gè)是多模態(tài)大模型方向的研究能力；另一個(gè)就是具身智能領(lǐng)域的專業(yè)能力。

AI科技評(píng)論：這樣的人才在國內(nèi)多嗎？

仉尚航：很少。我們?cè)谥窃凑衅傅倪^程中就發(fā)現(xiàn)，同時(shí)具備具身智能和多模態(tài)大模型能力的人現(xiàn)在非常少，因?yàn)閮蓚€(gè)方向都是比較新的，再結(jié)合在一起就更加少了。

AI科技評(píng)論：都是新方向的話，怎樣去招人呢？

仉尚航：首先要盡量去挖掘。就像智源挖掘到我這樣，可以通過我過去的論文發(fā)表情況看到我的研究包括多模態(tài)大模型、泛化學(xué)習(xí)、自動(dòng)駕駛、與機(jī)器人，對(duì)進(jìn)行具身多模態(tài)大模型的研究具備了良好的基礎(chǔ)與潛力。

第二種方式就是想辦法去強(qiáng)強(qiáng)結(jié)合。我們團(tuán)隊(duì)有擅長機(jī)器人的研究員，也有擅長大模型的研究員，然后我可以讓兩者去合作，互相學(xué)習(xí)和促進(jìn)。

AI科技評(píng)論：具身多模態(tài)大模型研究中心現(xiàn)在有哪些研究成果？

仉尚航：目前中心成立不到半年時(shí)間，進(jìn)展還是比較快的。我們的主要研究工作是面向具身智能的多模態(tài)大模型和大數(shù)據(jù)構(gòu)建，它背后有一個(gè)統(tǒng)一的思路：設(shè)計(jì)具有類人思考快系統(tǒng)與慢系統(tǒng)的長程閉環(huán)框架。

基于這樣的思路，我們研發(fā)了一系列的具身智能基礎(chǔ)模型。該思路是受到了心理學(xué)家丹尼爾·卡尼曼的啟發(fā)，他在《思考，快與慢》一書中提出，人的思考分為感性直覺的快系統(tǒng)和意識(shí)理性的慢系統(tǒng)。

我們創(chuàng)新地設(shè)計(jì)了面向機(jī)器人具身基礎(chǔ)模型的快慢系統(tǒng)框架，快系統(tǒng)能夠高效快速地預(yù)測(cè)末端執(zhí)行器位姿，慢系統(tǒng)則是在面對(duì)復(fù)雜和錯(cuò)誤行為時(shí)更加深入地思考和糾錯(cuò)，不斷提升機(jī)器人大腦的能力。

為了實(shí)現(xiàn)該快慢系統(tǒng)框架，我們探索了具身端到端以及大小腦分層結(jié)構(gòu)的不同技術(shù)路線，進(jìn)行開放世界泛化物體操作，并基于大腦模型進(jìn)行語義理解與常識(shí)推理，實(shí)現(xiàn)零樣本物體導(dǎo)航。

無論是端到端模型還是分層結(jié)構(gòu)，最終都是為了讓機(jī)器人能更好地理解物理世界規(guī)律，更好地與環(huán)境交互，更好地執(zhí)行時(shí)序上的準(zhǔn)確行為。因此，智源同時(shí)提出了四維世界模型Robo4D，為世界模型構(gòu)建四維時(shí)空，以解決機(jī)器人在開放世界中任務(wù)操作的物體泛化以及場(chǎng)景泛化等問題。

相關(guān)研究被國際旗艦會(huì)議NeurIPS 2024、ICML 2024接收。

2
具備快、慢系統(tǒng)的具身智能大模型

AI科技評(píng)論：具備快、慢系統(tǒng)的端到端大模型是怎么工作的？

仉尚航：針對(duì)端到端大模型，我們研發(fā)了一個(gè)具備快速直覺推理和慢速反思糾正能力的快、慢系統(tǒng)端到端大模型（Self corrected Multi model large language model for end to end Robot manipulation），這也是我們最近的一個(gè)投稿工作。具體指一個(gè)端到端大模型同時(shí)具備了快系統(tǒng)和慢系統(tǒng)。

快系統(tǒng)模仿人類思考的過程去構(gòu)建一個(gè)機(jī)器人端到端大模型，所謂的快系統(tǒng)就是利用參數(shù)高效微調(diào)的技術(shù)進(jìn)行一個(gè)準(zhǔn)確 pose—estimation。當(dāng)模型檢測(cè)到部分執(zhí)行會(huì)失敗的時(shí)候，慢系統(tǒng)實(shí)現(xiàn)一個(gè)chain of thought的思維鏈糾錯(cuò)，自主化分析錯(cuò)誤原因并調(diào)用 expert model 進(jìn)行反饋提示，從而對(duì)它的 action 進(jìn)行調(diào)整，使得我們可以有更準(zhǔn)確的action輸出。

這樣的系統(tǒng)使得模型可以對(duì)錯(cuò)誤進(jìn)行反思并且修正自身錯(cuò)誤，從而去增強(qiáng)模型的泛化性和魯棒性。在實(shí)驗(yàn)過程中的 unseen 任務(wù)部分，和最新的 Sota 比起來我們有20%以上的提升，說明快慢系統(tǒng)的思路還是比較成功的。

AI科技評(píng)論：達(dá)到20%的提升是在多久時(shí)間內(nèi)實(shí)現(xiàn)的？

仉尚航：如果是在服務(wù)器端進(jìn)行訓(xùn)練和優(yōu)化，30類任務(wù)只需要幾小時(shí)便可以實(shí)現(xiàn)精度20%的提升。

AI科技評(píng)論：這樣擁有快、慢思考的具身大模型會(huì)給機(jī)器人智能帶來怎樣的提升？

仉尚航：擁有這種架構(gòu)的機(jī)器人能夠擁有更強(qiáng)的推理與邏輯思考能力，能夠更好地分析解決長程任務(wù)，此外同時(shí)面向一些錯(cuò)誤的情況可以進(jìn)行自我糾正，利用自我糾正的機(jī)制可以快速適應(yīng)場(chǎng)景、學(xué)習(xí)新的技能。

我們認(rèn)為具備自我進(jìn)化能力的機(jī)器人才是解決所有任務(wù)所有場(chǎng)景的通用解。另外，一個(gè)能自主學(xué)習(xí)、自我進(jìn)化的機(jī)器人的驅(qū)動(dòng)方式也會(huì)有變化，一個(gè)比較遠(yuǎn)的設(shè)想這樣的機(jī)器人是可以使用prompt，甚至更高級(jí)的概念比如同理心、好奇心、成就感進(jìn)行驅(qū)動(dòng)的，甚至只需要機(jī)器人三定律就可以讓機(jī)器人出廠在人類環(huán)境進(jìn)行自我進(jìn)化。

AI科技評(píng)論：大腦大模型方面有什么進(jìn)展？

仉尚航：我們最近研發(fā)了一個(gè)面向具身智能的大腦大模型。它基于多模態(tài)大模型，可輸入多種模態(tài)的信息，包含視覺場(chǎng)景、指令、機(jī)器人狀態(tài)信息。將這些信息輸入給大腦大模型之后，能夠輸出多種模態(tài)的信息，包括關(guān)于任務(wù)的拆解和規(guī)劃，它可能是一種偽代碼的形式去輸出。

這樣的話大腦模型就生成了指令，接下來小腦大模型可以一步一步地按照指令去執(zhí)行。這樣就可以把一個(gè)長程任務(wù)拆解成一個(gè)個(gè)原子任務(wù)。同時(shí)，大腦模型還可以輸出像 Trajectory、Key points等信息，幫助小腦大模型縮減它的動(dòng)作執(zhí)行空間，這樣小腦大模型就相當(dāng)于去處理一些更加簡(jiǎn)單的原子任務(wù)就可以了。

AI科技評(píng)論：小腦大模型呢？

仉尚航：小腦大模型方面，我們最近有一個(gè)工作RoboMamba被 NeurIPS 接受，今年 12 月在加拿大會(huì)有一個(gè)展示。它是一個(gè)端到端的多模態(tài)大模型，輸入的是視覺、場(chǎng)景和指令，輸出的是action，它的特點(diǎn)是既具有了推理能力，又具有了高效性。

RoboMamba借鑒了最近提出的狀態(tài)空間模型Mamba，在它的基礎(chǔ)上實(shí)現(xiàn)了高效推理和動(dòng)作預(yù)測(cè)能力，而且它可以保持較低的微調(diào)和推理成本。通過整合視覺編碼器與 Mamba 并對(duì)視覺標(biāo)記和語言嵌入進(jìn)行聯(lián)合訓(xùn)練，RoboMamba 具備了視覺常識(shí)和機(jī)器人推理能力。此外，通過簡(jiǎn)單策略頭進(jìn)行高效微調(diào)，該模型以極少參數(shù)實(shí)現(xiàn)了 SE(3) 位姿預(yù)測(cè)。

RoboMamba的工作在一般的通用多模態(tài)推理評(píng)測(cè)基準(zhǔn)以及機(jī)器人評(píng)測(cè)基準(zhǔn)上，都展現(xiàn)出了比baseline更好的推理能力，并且它能夠只用 3.7 B 的參數(shù)就可以適配到各種機(jī)器人本體上。同時(shí)還具備準(zhǔn)確的end-effector pose預(yù)測(cè)能力，可以實(shí)現(xiàn)小腦大模型所需的功能。

而我們現(xiàn)在擁有的端到端大模型、分層大模型，在我們的研究體系里，可能又是分久必合、合久必分的狀態(tài)，最終會(huì)統(tǒng)一成一個(gè) 4D 世界模型。

3
模型和數(shù)據(jù)就像蹺蹺板

AI科技評(píng)論：在大語言模型中會(huì)有算力、算法、數(shù)據(jù)這關(guān)鍵三要素，那么在具身智多模態(tài)大模型中是否也對(duì)應(yīng)著同樣的關(guān)鍵三要素？

仉尚航：是的。跟大模型一樣，具身大模型有自己的數(shù)據(jù)瓶頸，而且更難；大模型的算力要素對(duì)應(yīng)具身智能中的本體；大模型算法對(duì)應(yīng)具身模型的設(shè)計(jì)。

AI科技評(píng)論：大語言模型的 Scaling Law 能夠復(fù)制到具身大模型領(lǐng)域嗎？

仉尚航：可以，很多具身多模態(tài)大模型也初步展現(xiàn)了一個(gè)能力，即當(dāng)具身智能的模型規(guī)模變大、訓(xùn)練數(shù)據(jù)變多的時(shí)候，它確實(shí)具備了更強(qiáng)的泛化能力。

但同時(shí)，由于目前訓(xùn)練等數(shù)據(jù)不夠多、模型還不足夠大， ScalingLaw 只是初見端倪，離 Gemini 或者 ChatGPT 系列模型能力還是需要很長一段時(shí)間的路要走。

AI科技評(píng)論：具身大模型的數(shù)據(jù)與模型的關(guān)系，跟大語言模型中數(shù)據(jù)和模型之間的關(guān)系是一樣的嗎？

仉尚航：不太一樣。大模型的發(fā)展進(jìn)程是這樣的，先有大語言模型，再有多模態(tài)大模型，而現(xiàn)在還沒有非常多的視覺大模型，這一順序背后很重要原因就是數(shù)據(jù)的瓶頸。

為什么大語言模型先出來？因?yàn)槠溆?xùn)練數(shù)據(jù)容易獲取，它通過有效的自監(jiān)督學(xué)習(xí)就可以實(shí)現(xiàn)大規(guī)模的預(yù)訓(xùn)練，互聯(lián)網(wǎng)上有廣泛的、海量的數(shù)據(jù)，部分不需要大量的標(biāo)注就可以去預(yù)訓(xùn)練。之后的多模態(tài)大模型，是借助大語言模型的能力再去做多模態(tài)能力，即視覺模態(tài)和語言模態(tài)的對(duì)齊，然后讓整個(gè)多模態(tài)模型也具備了大模型的涌現(xiàn)能力。

但到視覺大模型就有點(diǎn)難做了，純視覺大模型很少，因?yàn)橐曈X這個(gè)模態(tài)的標(biāo)注是很難獲取的，不像大語言模型那樣直接上網(wǎng)下載一些語料就可以訓(xùn)練。所以這也是為什么到了視覺大模型這邊反而進(jìn)程會(huì)很慢，因?yàn)槿备哔|(zhì)量的、有標(biāo)注的視覺數(shù)據(jù)。

再進(jìn)一步，到機(jī)器人的層面就更難了。因?yàn)闄C(jī)器人面臨的不僅是視覺世界，它還有action，甚至還有物理規(guī)律。首先數(shù)據(jù)怎么采集是問題，并不是互聯(lián)網(wǎng)下載就可以了，還得用真機(jī)去采，采完之后還得標(biāo)注。而且數(shù)據(jù)是多元化的，甚至包含了觸覺、聲音、力，這一系列過程都是非常難且昂貴的。

AI科技評(píng)論：數(shù)據(jù)難題如何解決呢？

仉尚航：機(jī)器人的數(shù)據(jù)金字塔最下層是海量的互聯(lián)網(wǎng)數(shù)據(jù)，往上是仿真數(shù)據(jù)，再往上是真機(jī)數(shù)據(jù)。其中精細(xì)標(biāo)注的真機(jī)數(shù)據(jù)是塔尖，真機(jī)數(shù)據(jù)肯定是越多越好的，只不過成本有點(diǎn)大，所以目前沒有辦法采集很多。再往下是仿真數(shù)據(jù)，仿真數(shù)據(jù)面臨的一個(gè)很大的問題是從仿真到真實(shí)得 gap，仿真數(shù)據(jù)訓(xùn)練的模型遷移到真實(shí)的場(chǎng)景中難度較大。

機(jī)器人領(lǐng)域也可以下載大量的互聯(lián)網(wǎng)數(shù)據(jù)，例如：互聯(lián)網(wǎng)人手操縱數(shù)據(jù)，但是怎么利用這些海量的互聯(lián)網(wǎng)數(shù)據(jù)去訓(xùn)練一個(gè)機(jī)器人的模型是一個(gè)非常難的課題。

我覺得數(shù)據(jù)和模型就像是蹺蹺板，如果你對(duì)數(shù)據(jù)的要求變低了或者下載海量的互聯(lián)網(wǎng)數(shù)據(jù)了，那對(duì)模型設(shè)計(jì)的要求就會(huì)相應(yīng)變高了，就需要設(shè)計(jì)一個(gè)能夠利用互聯(lián)網(wǎng)數(shù)據(jù)去訓(xùn)練的大模型，那么這個(gè)模型的設(shè)計(jì)、算法的設(shè)計(jì)就變難了。如果模型變得簡(jiǎn)單一點(diǎn)，那么對(duì)數(shù)據(jù)的需求就變大了，需要是高質(zhì)量的、大量的精標(biāo)數(shù)據(jù)。所以兩者就是一個(gè)蹺蹺板，一方的要求變低了之后，另外一方的要求就會(huì)變高。

AI科技評(píng)論：所以具身智能的多模態(tài)大模型需要從頭開始訓(xùn)練嗎？

仉尚航：既然已經(jīng)有一定多模態(tài)模型或者視覺預(yù)訓(xùn)練模型的基礎(chǔ)了，為什么不用呢？而且機(jī)器人大模型或者我們叫大腦大模型，它也是要像人一樣去推理的，所以我們一般不是完全地從頭開始訓(xùn)練。

AI科技評(píng)論：在數(shù)據(jù)收集上，多模態(tài)大模型研究中心是否有獨(dú)特的方法？

仉尚航：我所在的小組側(cè)重于真機(jī)的數(shù)據(jù)采集。第一，由于我們是跨本體的研究，所以我們收集的數(shù)據(jù)也不是只針對(duì)一種類型的機(jī)器人，會(huì)跨越靈巧手、手臂、整個(gè)身體、雙足機(jī)器人、機(jī)器狗等全都覆蓋掉；

第二，專門構(gòu)建一個(gè)機(jī)器人數(shù)據(jù)訓(xùn)練場(chǎng)，面向家居、工業(yè)物流搭建了一系列場(chǎng)地專門用于采集數(shù)據(jù)；

第三，會(huì)根據(jù)最新的方案，去開發(fā)數(shù)據(jù)采集的遙操作系統(tǒng)；

第四，我們專門針對(duì)大模型的需求去定制了一個(gè)機(jī)器人數(shù)據(jù)的自動(dòng)標(biāo)注流程，并且實(shí)現(xiàn)了自動(dòng)標(biāo)注；

最后，由于我們比較擅長做機(jī)器人大模型算法層面的事情，所以會(huì)形成一個(gè)數(shù)據(jù)和模型的閉環(huán)，即我們不是只采數(shù)據(jù)，也不是只做模型，而是兩者都了解。這樣我們就知道針對(duì)模型訓(xùn)練，應(yīng)該去采什么樣的數(shù)據(jù)，可以保證采集的數(shù)據(jù)是切實(shí)可用的。

4
2D、3D到「Real World 4D」大模型

AI科技評(píng)論：現(xiàn)在的大模型大部分是集中在云端上，是沒法在機(jī)器人本體上跑的，因?yàn)闄C(jī)器人需要一個(gè)非常高算力的板卡，這意味著成本高、散熱成問題、功耗高，智源的具身多模態(tài)大模型如何跑在機(jī)器人本體上？

仉尚航：在CVPR2023和CVPR2024上，我們?cè)O(shè)計(jì)了一個(gè)端云協(xié)作的大小模型協(xié)同訓(xùn)練和部署的方式。可以在云端去訓(xùn)練這個(gè)大模型，然后通過知識(shí)蒸餾、模型量化的方式得到小模型，再把這個(gè)輕量化的小模型部署在終端上。

終端可以放一個(gè)NVIDIA的板子，這個(gè)板子上可以部署一個(gè)小的如1B的模型。在終端上放置一個(gè)輕量化的大模型，既能保持住大模型的能力，也可以更高效地部署。

AI科技評(píng)論：具身大模型部署到機(jī)器人本體上是一個(gè)待解決的難題嗎？

仉尚航：是的。目前我們?nèi)パ芯恳粋€(gè)具身多模態(tài)大模型，會(huì)讓其先具備推理能力、action 能力，也就是先做一個(gè)面向機(jī)器人場(chǎng)景，盡可能魯棒的大模型。在這基礎(chǔ)之上，再專門地去做模型的輕量化的方式。

我之前在伯克利的導(dǎo)師 Kurt Keutzer，他帶的一個(gè)研究組做了從 CNN 到 Transformer 到大模型一系列的輕量化工作，有很多技術(shù)儲(chǔ)備。因此于我們中心而言，不太擔(dān)心模型不容易部署的問題，更何況我們還有端云協(xié)作的系統(tǒng)，可以實(shí)現(xiàn) online 的更新。

退一步講，如果模型輕量化之后能力沒有云端大模型那么強(qiáng)，我們還可以借助端云協(xié)作的模型，在遇到特別難的 case 后，可以把給它傳到云端，讓云端更大的模型去進(jìn)行推理工作。所以輕量化部署的問題的話，并不一定是第一步就要解決的，我們的第一步還是要先把具身智能大模型做得盡可能強(qiáng)大。

AI科技評(píng)論：智源的具身多模態(tài)大模型主要落地到什么樣的機(jī)器人上？適配了哪些芯片？

仉尚航：我們?cè)谥窃丛O(shè)計(jì)的具身大模型是具備跨本體能力的，智源與國內(nèi)的多家人形、機(jī)械臂與靈巧手的公司進(jìn)行了合作，預(yù)期在國內(nèi)形成數(shù)據(jù)、模型以及本體和業(yè)務(wù)的生態(tài)循環(huán)。

有關(guān)芯片我們的考慮是先在Nvidia生態(tài)上的服務(wù)器和自動(dòng)駕駛端的芯片上進(jìn)行快速迭代，我們看到國產(chǎn)的芯片也在逐步往機(jī)器人具身任務(wù)上發(fā)力，比如地平線成立了地瓜機(jī)器人，華為也在支持機(jī)器人方向的落地，這些都是未來我們要合作的對(duì)象。

AI科技評(píng)論：為什么要研究「Real World 4D 模型」？

仉尚航：無論是端到端模型還是分層結(jié)構(gòu)，最終都是為了讓機(jī)器人能更好地理解物理世界規(guī)律，更好地與環(huán)境交互，更好地執(zhí)行時(shí)序上的準(zhǔn)確行為。因此，我們同時(shí)提出了四維世界模型Robo4D，4D 即三維的空間加上一維的時(shí)間，就變成了四維的世界模型。

為世界模型構(gòu)建四維時(shí)空，以解決機(jī)器人在開放世界中任務(wù)操作的物體泛化以及場(chǎng)景泛化等問題。利用世界模型預(yù)測(cè)機(jī)器人與環(huán)境交互后的未來事件，從而生成準(zhǔn)確的行為，提前預(yù)測(cè)行為是正確還是失敗。實(shí)現(xiàn)真實(shí)世界的四維時(shí)空世界模型是邁向機(jī)器人整體AGI的重要一步。

四維世界模型將作為機(jī)器人的世界基礎(chǔ)模擬器，同時(shí)具備時(shí)間與空間智能，擁有長短期記憶與物理概念學(xué)習(xí)等能力，與真實(shí)物理世界進(jìn)行交互并從中得到反饋。

真正的 4D 的世界模型，它可以集感知、導(dǎo)航、操控為一體，和真實(shí)世界交互，反映物理規(guī)律，更準(zhǔn)確地完成各種任務(wù)。

在機(jī)器人的整體AGI 概念中，預(yù)測(cè)是非常關(guān)鍵的步驟，例如，未來的機(jī)器人不是說向它發(fā)送了「要喝水」的指令，它就可以按照從一到五的步驟一次性地生成出來，而是機(jī)器人會(huì)根據(jù)每一步的操作再去決預(yù)測(cè)下一步，它會(huì)判斷第一步操作之后世界會(huì)發(fā)生了什么變化，再根據(jù)世界的變化去執(zhí)行第二步的操作。盡管我們?cè)诖笮∧X的路上充滿期待，但同時(shí)也意識(shí)以人為參照的話，具身大模型還缺少了“想象”這一環(huán)。這一環(huán)就是世界模型來補(bǔ)足的。

AI科技評(píng)論：如何實(shí)現(xiàn)一個(gè)「Real World 4D 模型」？

仉尚航：這需要在數(shù)據(jù)、模型結(jié)構(gòu)以及訓(xùn)練方式上都有創(chuàng)新，從我們的角度來看，在數(shù)據(jù)層面采集更多的真機(jī)數(shù)據(jù)進(jìn)行更系統(tǒng)的標(biāo)注與處理，并針對(duì)性的指導(dǎo)數(shù)據(jù)采集方向，探索能夠更高效將互聯(lián)網(wǎng)低成本數(shù)據(jù)使用起來的網(wǎng)絡(luò)結(jié)構(gòu)。

基礎(chǔ)模型層面我們部署自我糾正的機(jī)器人模型在現(xiàn)實(shí)世界進(jìn)行更大規(guī)模的數(shù)據(jù)采集以及自我進(jìn)化，模仿人類的思維方式，提出泛化性更強(qiáng)、更魯棒的基礎(chǔ)模型。我們并不只是堆砌數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練，而是通過人和機(jī)器人與世界的交互來引導(dǎo)具身模型迭代，更系統(tǒng)性的構(gòu)建具身大模型與大數(shù)據(jù)，從而實(shí)現(xiàn)real world 4d模型的訓(xùn)練數(shù)據(jù)構(gòu)建。

從模型結(jié)構(gòu)角度來說，我們也一直從各個(gè)角度在探索各種預(yù)測(cè)器?？臻g上我們近期研究了機(jī)器人場(chǎng)景下的4D重建模型，是在探討多視角的預(yù)測(cè)問題；時(shí)間尺度上我們近期從視頻生成模型的角度提出EVA，具身智能世界模型的視頻預(yù)測(cè)器，研究通用視頻生成模型在機(jī)器人任務(wù)下的泛化能力，都是對(duì)世界模型模型的探索。

此外更積極的擁抱機(jī)器人本體公司與算力生態(tài)的公司，推進(jìn)大模型在某些有價(jià)值的場(chǎng)景獲取更多真實(shí)的數(shù)據(jù)與更多的反饋。世界模型就是要讓我們、讓機(jī)器人、讓模型、讓數(shù)據(jù)快速的和真實(shí)世界交互反饋增強(qiáng)，

AI科技評(píng)論：具身大腦有幾種技術(shù)路線分別是多模態(tài)、空間智能、世界模型。這幾條路線是漸進(jìn)式的關(guān)系嗎，先是多模態(tài)，然后再是空間智能，然后再到 4D 世界模型？

仉尚航：路線確實(shí)有點(diǎn)漸進(jìn)的意思。

目前端到端和分層結(jié)構(gòu)是并行的，但是在端到端和分層結(jié)構(gòu)之后可能就要到世界模型了?，F(xiàn)在大部分處理的還是 2D 的問題，接下來就要處理3D幾何信息，包括我們團(tuán)隊(duì)現(xiàn)在正在做的就是 3D 具身智能大模型，下一步或者同時(shí)在進(jìn)行的另外一系列工作就是 4D 世界模型和4D VLA模型，所以從 2D 到 3D 到 4D 也是一個(gè)進(jìn)程。

但實(shí)際上并不意味著只有一條路線達(dá)到終點(diǎn)另外一條路線才會(huì)開始。具身智能現(xiàn)在是百家爭(zhēng)鳴的狀態(tài)，各家有不同的理解和方法。但最終都是在研究時(shí)間和空間的理解，4D世界模型可能是一種大家都需要達(dá)到的最終形態(tài)。

AI科技評(píng)論：具身智能的基礎(chǔ)模型的終極形態(tài)會(huì)是4D世界模型嗎？

仉尚航：有可能，但目前還無法下定論。因?yàn)槿诉€有觸覺、嗅覺、力等其他維度，這些是當(dāng)下的機(jī)器人還不具備的，但至少它們已經(jīng)能夠幫人類完成很多現(xiàn)實(shí)生活中的任務(wù)了。

AI科技評(píng)論：在世界范圍內(nèi)，4D 世界模型現(xiàn)在有什么樣的進(jìn)展？

仉尚航：目前在國內(nèi)外的話，有很多關(guān)于自動(dòng)駕駛的世界模型工作，機(jī)器人世界模型也有一些2D video的工作，但是4D世界模型的研究還是空白。

可能我們算是第一個(gè)提出的?，F(xiàn)在也已經(jīng)做有了初步的成果，馬上就會(huì)投稿到人工智能頂會(huì)上?！咐追寰W(wǎng)(公眾號(hào)：雷峰網(wǎng))」「雷峰網(wǎng)」

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。