丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給張進(jìn)
發(fā)送

0

智源學(xué)者仉尚航:具身基礎(chǔ)模型最終狀態(tài)可能是「4D世界模型」丨具身先鋒十人談

本文作者: 張進(jìn)   2025-01-02 12:55
導(dǎo)語:基于快、慢雙系統(tǒng)的具身基礎(chǔ)模型。

今年業(yè)界開始流傳著一個(gè)說法,具身多模態(tài)大模型是當(dāng)下為數(shù)不多的新的創(chuàng)業(yè)機(jī)會(huì)。

今年,受大模型啟發(fā),業(yè)界看到了大模型帶給機(jī)器人領(lǐng)域的新能量,開始研究能同時(shí)完成多種任務(wù)的具身智能的基礎(chǔ)模型,希望實(shí)現(xiàn)能跨越不同任務(wù)、不同本體、不同場(chǎng)景,具有泛化能力的機(jī)器人智能體。

具身智能基礎(chǔ)模型是一個(gè)新的領(lǐng)域,相關(guān)工作并不多,從早期的 Saycan 到后面斯蒂朗寧的 PaLM-E,RT-1、RT-2到RT-H系列,而最近的RDT-1B、π0的工作也引起了廣泛關(guān)注。

近日在“智源論壇·2024具身與世界模型專題峰會(huì)”上,北京智源人工智能研究院作為中國(guó)大模型領(lǐng)域的黃埔軍校,展示了他們?cè)诰呱碇悄茴I(lǐng)域的諸多研究,其中由仉尚航領(lǐng)導(dǎo)的智源具身多模態(tài)大模型研究中心的主要研究方向是面向具身智能的多模態(tài)大模型與大數(shù)據(jù)構(gòu)建,包括具身大腦大模型、端到端大模型、世界模型等,希望最終實(shí)現(xiàn)具身智能領(lǐng)域的 Scaling Law,使具身基礎(chǔ)模型具備跨本體、跨場(chǎng)景、跨任務(wù)的泛化能力。

仉尚航是一位年輕的人工智能領(lǐng)域優(yōu)秀學(xué)者,現(xiàn)為北京大學(xué)計(jì)算機(jī)學(xué)院長(zhǎng)聘系列助理教授(研究員),博士生導(dǎo)師,智源具身多模態(tài)大模型研究中負(fù)責(zé)人。

她于2018年博士畢業(yè)于美國(guó)卡內(nèi)基梅隆大學(xué),后于2020年初加入加州大學(xué)伯克利分校 Berkeley AI Research Lab (BAIR) 從事博士后研究。她的主要研究方向包括具身智能與多模態(tài)大模型,擁有豐富的研究經(jīng)驗(yàn)和諸多優(yōu)秀的研究成果。曾獲世界人工智能頂級(jí)會(huì)議AAAI’2021 最佳論文獎(jiǎng),Google Scholar引用數(shù)1.2萬次。作為編輯和作者由Springer Nature出版《Deep Reinforcement Learning》,至今電子版全球下載量超二十萬次,入選中國(guó)作者年度高影響力研究精選。仉尚航于2018年入選美國(guó)“EECS Rising Star”,于2023年入選“全球AI華人女性青年學(xué)者榜”。

當(dāng)下,具身智能的基礎(chǔ)模型已經(jīng)出現(xiàn)兩條不同的技術(shù)路線:針對(duì)原子任務(wù)的端到端多模態(tài)大模型,以及針對(duì)復(fù)雜長(zhǎng)程任務(wù)的分層大模型,此外還有非常少量的關(guān)于具身世界模型的研究。

仉尚航帶領(lǐng)的智源多模態(tài)大模型研究中心,基于上述不同的技術(shù)路線,設(shè)計(jì)了面向機(jī)器人具身模型的快慢系統(tǒng),快系統(tǒng)能夠直接預(yù)測(cè)末端執(zhí)行器的pose和action,慢系統(tǒng)可以反思和糾錯(cuò),不斷提升機(jī)器人的大腦能力。

仉尚航認(rèn)為無論是端到端模型還是分層結(jié)構(gòu),我們都希望機(jī)器人能夠更好地理解物理世界中的物理規(guī)律,對(duì)世界進(jìn)行理解、建模與推理,在時(shí)間和3D空間中與世界更好地進(jìn)行交互,其中時(shí)空智能很重要,所以具身智能基礎(chǔ)模型最終的狀態(tài)可能是4D世界模型。

以下是AI科技評(píng)論與仉尚航的對(duì)話:


1
智源具身多模態(tài)大模型研究中心

AI科技評(píng)論:智源具身多模態(tài)大模型研究中心的主要研究方向和目標(biāo)是什么?

仉尚航:面向具身智能的多模態(tài)大模型與大數(shù)據(jù)的研究。為了去構(gòu)建、訓(xùn)練具身智能領(lǐng)域的大模型,我們需要去采集、標(biāo)注具身智能大數(shù)據(jù),包括真機(jī)數(shù)據(jù)、互聯(lián)網(wǎng)數(shù)據(jù)、仿真數(shù)據(jù)等,最終是為了實(shí)現(xiàn)具身智能領(lǐng)域的 Scaling Law。

在 NLP 領(lǐng)域,Scaling Law 讓大家看到了大模型的泛化性、涌現(xiàn)能力和通用性,因此,在具身智能領(lǐng)域Scaling Law 也有可能帶給機(jī)器人一些泛化的、通用的能力,我們需要去探索機(jī)器人領(lǐng)域的大模型,實(shí)現(xiàn)機(jī)器人領(lǐng)域的 Scaling Law。具體來說,就是基于多模態(tài)大模型構(gòu)建具身基礎(chǔ)模型,驅(qū)動(dòng)不同本體的機(jī)器人能夠完成開放世界的復(fù)雜任務(wù),實(shí)現(xiàn)跨本體、跨場(chǎng)景、跨任務(wù)的泛化。

AI科技評(píng)論:您研究中一個(gè)很重要的部分是開放世界泛化機(jī)器學(xué)習(xí),這一方向是研究具身智能的哪些問題?面臨的最大挑戰(zhàn)是什么?

仉尚航:開放世界泛化機(jī)器學(xué)習(xí)的研究主要使AI模型在開放世界中面臨新的數(shù)據(jù)分布時(shí),可以自動(dòng)適應(yīng)新的環(huán)境,解決新的任務(wù)。比如如何提升自動(dòng)駕駛模型面對(duì)不同季節(jié)、不同時(shí)間、不同天氣以及其他長(zhǎng)尾任務(wù)的性能,如何讓機(jī)器人在開放世界的場(chǎng)景下完成復(fù)雜的任務(wù)。我們基于這個(gè)方向的積累提出了更具泛化性的具身基礎(chǔ)模型,使機(jī)器人在面臨復(fù)雜場(chǎng)景和任務(wù)時(shí),可以自主發(fā)現(xiàn)錯(cuò)誤,并進(jìn)行自我糾正與模型進(jìn)化。這個(gè)方向是構(gòu)建具身大模型的基礎(chǔ)。

AI科技評(píng)論:具身智能沒火之前,大家都在做多模態(tài)大模型,之前做多模態(tài)大模型的那一撥人,跟現(xiàn)在做具身多模態(tài)大模型的,是同一撥人嗎??jī)烧哂惺裁磪^(qū)別?

仉尚航:不會(huì)是完全是同一撥,目前來看做具身智能的學(xué)者或者從業(yè)人員很少專門跳去做多模態(tài)大模型,但是多模態(tài)大模型方向的研究人員有可能會(huì)轉(zhuǎn)去做具身多模態(tài)大模型。要想做具身多模態(tài)大模型的方向必須具備至少兩方面的能力:一個(gè)是多模態(tài)大模型方向的研究能力;另一個(gè)就是具身智能領(lǐng)域的專業(yè)能力。

AI科技評(píng)論:這樣的人才在國(guó)內(nèi)多嗎?

仉尚航:很少。我們?cè)谥窃凑衅傅倪^程中就發(fā)現(xiàn),同時(shí)具備具身智能和多模態(tài)大模型能力的人現(xiàn)在非常少,因?yàn)閮蓚€(gè)方向都是比較新的,再結(jié)合在一起就更加少了。

AI科技評(píng)論:都是新方向的話,怎樣去招人呢?

仉尚航:首先要盡量去挖掘。就像智源挖掘到我這樣,可以通過我過去的論文發(fā)表情況看到我的研究包括多模態(tài)大模型、泛化學(xué)習(xí)、自動(dòng)駕駛、與機(jī)器人,對(duì)進(jìn)行具身多模態(tài)大模型的研究具備了良好的基礎(chǔ)與潛力。

第二種方式就是想辦法去強(qiáng)強(qiáng)結(jié)合。我們團(tuán)隊(duì)有擅長(zhǎng)機(jī)器人的研究員,也有擅長(zhǎng)大模型的研究員,然后我可以讓兩者去合作,互相學(xué)習(xí)和促進(jìn)。

AI科技評(píng)論:具身多模態(tài)大模型研究中心現(xiàn)在有哪些研究成果?

仉尚航:目前中心成立不到半年時(shí)間,進(jìn)展還是比較快的。我們的主要研究工作是面向具身智能的多模態(tài)大模型和大數(shù)據(jù)構(gòu)建,它背后有一個(gè)統(tǒng)一的思路:設(shè)計(jì)具有類人思考快系統(tǒng)與慢系統(tǒng)的長(zhǎng)程閉環(huán)框架。

基于這樣的思路,我們研發(fā)了一系列的具身智能基礎(chǔ)模型。該思路是受到了心理學(xué)家丹尼爾·卡尼曼的啟發(fā),他在《思考,快與慢》一書中提出,人的思考分為感性直覺的快系統(tǒng)和意識(shí)理性的慢系統(tǒng)。

我們創(chuàng)新地設(shè)計(jì)了面向機(jī)器人具身基礎(chǔ)模型的快慢系統(tǒng)框架,快系統(tǒng)能夠高效快速地預(yù)測(cè)末端執(zhí)行器位姿,慢系統(tǒng)則是在面對(duì)復(fù)雜和錯(cuò)誤行為時(shí)更加深入地思考和糾錯(cuò),不斷提升機(jī)器人大腦的能力。

為了實(shí)現(xiàn)該快慢系統(tǒng)框架,我們探索了具身端到端以及大小腦分層結(jié)構(gòu)的不同技術(shù)路線,進(jìn)行開放世界泛化物體操作,并基于大腦模型進(jìn)行語義理解與常識(shí)推理,實(shí)現(xiàn)零樣本物體導(dǎo)航。

無論是端到端模型還是分層結(jié)構(gòu),最終都是為了讓機(jī)器人能更好地理解物理世界規(guī)律,更好地與環(huán)境交互,更好地執(zhí)行時(shí)序上的準(zhǔn)確行為。因此,智源同時(shí)提出了四維世界模型Robo4D,為世界模型構(gòu)建四維時(shí)空,以解決機(jī)器人在開放世界中任務(wù)操作的物體泛化以及場(chǎng)景泛化等問題。

相關(guān)研究被國(guó)際旗艦會(huì)議NeurIPS 2024、ICML 2024接收。


2
具備快、慢系統(tǒng)的具身智能大模型

AI科技評(píng)論:具備快、慢系統(tǒng)的端到端大模型是怎么工作的?

仉尚航:針對(duì)端到端大模型,我們研發(fā)了一個(gè)具備快速直覺推理和慢速反思糾正能力的快、慢系統(tǒng)端到端大模型(Self corrected Multi model large language model for end to end Robot manipulation),這也是我們最近的一個(gè)投稿工作。具體指一個(gè)端到端大模型同時(shí)具備了快系統(tǒng)和慢系統(tǒng)。

快系統(tǒng)模仿人類思考的過程去構(gòu)建一個(gè)機(jī)器人端到端大模型,所謂的快系統(tǒng)就是利用參數(shù)高效微調(diào)的技術(shù)進(jìn)行一個(gè)準(zhǔn)確 pose—estimation。當(dāng)模型檢測(cè)到部分執(zhí)行會(huì)失敗的時(shí)候,慢系統(tǒng)實(shí)現(xiàn)一個(gè)chain of thought的思維鏈糾錯(cuò),自主化分析錯(cuò)誤原因并調(diào)用 expert model 進(jìn)行反饋提示,從而 對(duì)它的 action 進(jìn)行調(diào)整,使得我們可以有更準(zhǔn)確的action輸出。

這樣的系統(tǒng)使得模型可以對(duì)錯(cuò)誤進(jìn)行反思并且修正自身錯(cuò)誤,從而去增強(qiáng)模型的泛化性和魯棒性。在實(shí)驗(yàn)過程中的 unseen 任務(wù)部分,和最新的 Sota 比起來我們有20%以上的提升,說明快慢系統(tǒng)的思路還是比較成功的。

AI科技評(píng)論:達(dá)到20%的提升是在多久時(shí)間內(nèi)實(shí)現(xiàn)的?

仉尚航:如果是在服務(wù)器端進(jìn)行訓(xùn)練和優(yōu)化,30類任務(wù)只需要幾小時(shí)便可以實(shí)現(xiàn)精度20%的提升。

AI科技評(píng)論:這樣擁有快、慢思考的具身大模型會(huì)給機(jī)器人智能帶來怎樣的提升?

仉尚航:擁有這種架構(gòu)的機(jī)器人能夠擁有更強(qiáng)的推理與邏輯思考能力,能夠更好地分析解決長(zhǎng)程任務(wù),此外同時(shí)面向一些錯(cuò)誤的情況可以進(jìn)行自我糾正,利用自我糾正的機(jī)制可以快速適應(yīng)場(chǎng)景、學(xué)習(xí)新的技能。

我們認(rèn)為具備自我進(jìn)化能力的機(jī)器人才是解決所有任務(wù)所有場(chǎng)景的通用解。另外,一個(gè)能自主學(xué)習(xí)、自我進(jìn)化的機(jī)器人的驅(qū)動(dòng)方式也會(huì)有變化,一個(gè)比較遠(yuǎn)的設(shè)想這樣的機(jī)器人是可以使用prompt,甚至更高級(jí)的概念比如同理心、好奇心、成就感進(jìn)行驅(qū)動(dòng)的,甚至只需要機(jī)器人三定律就可以讓機(jī)器人出廠在人類環(huán)境進(jìn)行自我進(jìn)化。

AI科技評(píng)論:大腦大模型方面有什么進(jìn)展?

仉尚航:我們最近研發(fā)了一個(gè)面向具身智能的大腦大模型。它基于多模態(tài)大模型,可輸入多種模態(tài)的信息,包含視覺場(chǎng)景、指令、機(jī)器人狀態(tài)信息。將這些信息輸入給大腦大模型之后,能夠輸出多種模態(tài)的信息,包括關(guān)于任務(wù)的拆解和規(guī)劃,它可能是一種偽代碼的形式去輸出。

這樣的話大腦模型就生成了指令,接下來小腦大模型可以一步一步地按照指令去執(zhí)行。這樣就可以把一個(gè)長(zhǎng)程任務(wù)拆解成一個(gè)個(gè)原子任務(wù)。同時(shí),大腦模型還可以輸出像 Trajectory、Key points等信息,幫助小腦大模型縮減它的動(dòng)作執(zhí)行空間,這樣小腦大模型就相當(dāng)于去處理一些更加簡(jiǎn)單的原子任務(wù)就可以了。

AI科技評(píng)論:小腦大模型呢?

仉尚航:小腦大模型方面,我們最近有一個(gè)工作RoboMamba被 NeurIPS 接受,今年 12 月在加拿大會(huì)有一個(gè)展示。它是一個(gè)端到端的多模態(tài)大模型,輸入的是視覺、 場(chǎng)景和指令,輸出的是action,它的特點(diǎn)是既具有了推理能力,又具有了高效性。

RoboMamba借鑒了最近提出的狀態(tài)空間模型Mamba,在它的基礎(chǔ)上實(shí)現(xiàn)了高效推理和動(dòng)作預(yù)測(cè)能力,而且它可以保持較低的微調(diào)和推理成本。通過整合視覺編碼器與 Mamba 并對(duì)視覺標(biāo)記和語言嵌入進(jìn)行聯(lián)合訓(xùn)練,RoboMamba 具備了視覺常識(shí)和機(jī)器人推理能力。此外,通過簡(jiǎn)單策略頭進(jìn)行高效微調(diào),該模型以極少參數(shù)實(shí)現(xiàn)了 SE(3) 位姿預(yù)測(cè)。

RoboMamba的工作在一般的通用多模態(tài)推理評(píng)測(cè)基準(zhǔn)以及機(jī)器人評(píng)測(cè)基準(zhǔn)上,都展現(xiàn)出了比baseline更好的推理能力,并且它能夠只用 3.7 B 的參數(shù)就可以適配到各種機(jī)器人本體上。同時(shí)還具備準(zhǔn)確的end-effector pose預(yù)測(cè)能力,可以實(shí)現(xiàn)小腦大模型所需的功能。

而我們現(xiàn)在擁有的端到端大模型、分層大模型,在我們的研究體系里,可能又是分久必合、合久必分的狀態(tài),最終會(huì)統(tǒng)一成一個(gè) 4D 世界模型。


3
模型和數(shù)據(jù)就像蹺蹺板

AI科技評(píng)論:在大語言模型中會(huì)有算力、算法、數(shù)據(jù)這關(guān)鍵三要素,那么在具身智多模態(tài)大模型中是否也對(duì)應(yīng)著同樣的關(guān)鍵三要素?

仉尚航:是的。跟大模型一樣,具身大模型有自己的數(shù)據(jù)瓶頸,而且更難;大模型的算力要素對(duì)應(yīng)具身智能中的本體;大模型算法對(duì)應(yīng)具身模型的設(shè)計(jì)。

AI科技評(píng)論:大語言模型的 Scaling Law 能夠復(fù)制到具身大模型領(lǐng)域嗎?

仉尚航:可以,很多具身多模態(tài)大模型也初步展現(xiàn)了一個(gè)能力,即當(dāng)具身智能的模型規(guī)模變大、訓(xùn)練數(shù)據(jù)變多的時(shí)候,它確實(shí)具備了更強(qiáng)的泛化能力。

但同時(shí),由于目前訓(xùn)練等數(shù)據(jù)不夠多、模型還不足夠大, ScalingLaw 只是初見端倪,離 Gemini 或者 ChatGPT 系列模型能力還是需要很長(zhǎng)一段時(shí)間的路要走。

AI科技評(píng)論:具身大模型的數(shù)據(jù)與模型的關(guān)系,跟大語言模型中數(shù)據(jù)和模型之間的關(guān)系是一樣的嗎?

仉尚航:不太一樣。大模型的發(fā)展進(jìn)程是這樣的,先有大語言模型,再有多模態(tài)大模型,而現(xiàn)在還沒有非常多的視覺大模型,這一順序背后很重要原因就是數(shù)據(jù)的瓶頸。

為什么大語言模型先出來?因?yàn)槠溆?xùn)練數(shù)據(jù)容易獲取,它通過有效的自監(jiān)督學(xué)習(xí)就可以實(shí)現(xiàn)大規(guī)模的預(yù)訓(xùn)練,互聯(lián)網(wǎng)上有廣泛的、海量的數(shù)據(jù),部分不需要大量的標(biāo)注就可以去預(yù)訓(xùn)練。之后的多模態(tài)大模型,是借助大語言模型的能力再去做多模態(tài)能力,即視覺模態(tài)和語言模態(tài)的對(duì)齊,然后讓整個(gè)多模態(tài)模型也具備了大模型的涌現(xiàn)能力。

但到視覺大模型就有點(diǎn)難做了,純視覺大模型很少,因?yàn)橐曈X這個(gè)模態(tài)的標(biāo)注是很難獲取的,不像大語言模型那樣直接上網(wǎng)下載一些語料就可以訓(xùn)練。所以這也是為什么到了視覺大模型這邊反而進(jìn)程會(huì)很慢,因?yàn)槿备哔|(zhì)量的、有標(biāo)注的視覺數(shù)據(jù)。

再進(jìn)一步,到機(jī)器人的層面就更難了。因?yàn)闄C(jī)器人面臨的不僅是視覺世界,它還有action,甚至還有物理規(guī)律。首先數(shù)據(jù)怎么采集是問題,并不是互聯(lián)網(wǎng)下載就可以了,還得用真機(jī)去采,采完之后還得標(biāo)注。而且數(shù)據(jù)是多元化的,甚至包含了觸覺、聲音、力,這一系列過程都是非常難且昂貴的。

AI科技評(píng)論:數(shù)據(jù)難題如何解決呢?

仉尚航:機(jī)器人的數(shù)據(jù)金字塔最下層是海量的互聯(lián)網(wǎng)數(shù)據(jù),往上是仿真數(shù)據(jù),再往上是真機(jī)數(shù)據(jù)。其中精細(xì)標(biāo)注的真機(jī)數(shù)據(jù)是塔尖,真機(jī)數(shù)據(jù)肯定是越多越好的,只不過成本有點(diǎn)大,所以目前沒有辦法采集很多。再往下是仿真數(shù)據(jù),仿真數(shù)據(jù)面臨的一個(gè)很大的問題是從仿真到真實(shí)得 gap,仿真數(shù)據(jù)訓(xùn)練的模型遷移到真實(shí)的場(chǎng)景中難度較大。

機(jī)器人領(lǐng)域也可以下載大量的互聯(lián)網(wǎng)數(shù)據(jù),例如:互聯(lián)網(wǎng)人手操縱數(shù)據(jù),但是怎么利用這些海量的互聯(lián)網(wǎng)數(shù)據(jù)去訓(xùn)練一個(gè)機(jī)器人的模型是一個(gè)非常難的課題。

我覺得數(shù)據(jù)和模型就像是蹺蹺板,如果你對(duì)數(shù)據(jù)的要求變低了或者下載海量的互聯(lián)網(wǎng)數(shù)據(jù)了,那對(duì)模型設(shè)計(jì)的要求就會(huì)相應(yīng)變高了,就需要設(shè)計(jì)一個(gè)能夠利用互聯(lián)網(wǎng)數(shù)據(jù)去訓(xùn)練的大模型,那么這個(gè)模型的設(shè)計(jì)、算法的設(shè)計(jì)就變難了。如果模型變得簡(jiǎn)單一點(diǎn),那么對(duì)數(shù)據(jù)的需求就變大了,需要是高質(zhì)量的、大量的精標(biāo)數(shù)據(jù)。所以兩者就是一個(gè)蹺蹺板,一方的要求變低了之后,另外一方的要求就會(huì)變高。

AI科技評(píng)論:所以具身智能的多模態(tài)大模型需要從頭開始訓(xùn)練嗎?

仉尚航:既然已經(jīng)有一定多模態(tài)模型或者視覺預(yù)訓(xùn)練模型的基礎(chǔ)了,為什么不用呢?而且機(jī)器人大模型或者我們叫大腦大模型,它也是要像人一樣去推理的,所以我們一般不是完全地從頭開始訓(xùn)練。

AI科技評(píng)論:在數(shù)據(jù)收集上,多模態(tài)大模型研究中心是否有獨(dú)特的方法?

仉尚航:我所在的小組側(cè)重于真機(jī)的數(shù)據(jù)采集。第一,由于我們是跨本體的研究,所以我們收集的數(shù)據(jù)也不是只針對(duì)一種類型的機(jī)器人,會(huì)跨越靈巧手、手臂、整個(gè)身體、雙足機(jī)器人、機(jī)器狗等全都覆蓋掉;

第二,專門構(gòu)建一個(gè)機(jī)器人數(shù)據(jù)訓(xùn)練場(chǎng),面向家居、工業(yè)物流搭建了一系列場(chǎng)地專門用于采集數(shù)據(jù);

第三,會(huì)根據(jù)最新的方案,去開發(fā)數(shù)據(jù)采集的遙操作系統(tǒng);

第四,我們專門針對(duì)大模型的需求去定制了一個(gè)機(jī)器人數(shù)據(jù)的自動(dòng)標(biāo)注流程,并且實(shí)現(xiàn)了自動(dòng)標(biāo)注;

最后,由于我們比較擅長(zhǎng)做機(jī)器人大模型算法層面的事情,所以會(huì)形成一個(gè)數(shù)據(jù)和模型的閉環(huán),即我們不是只采數(shù)據(jù),也不是只做模型,而是兩者都了解。這樣我們就知道針對(duì)模型訓(xùn)練,應(yīng)該去采什么樣的數(shù)據(jù),可以保證采集的數(shù)據(jù)是切實(shí)可用的。


4
2D、3D到「Real World 4D」大模型

AI科技評(píng)論:現(xiàn)在的大模型大部分是集中在云端上,是沒法在機(jī)器人本體上跑的,因?yàn)闄C(jī)器人需要一個(gè)非常高算力的板卡,這意味著成本高、散熱成問題、功耗高,智源的具身多模態(tài)大模型如何跑在機(jī)器人本體上?

仉尚航:在CVPR2023和CVPR2024上,我們?cè)O(shè)計(jì)了一個(gè)端云協(xié)作的大小模型協(xié)同訓(xùn)練和部署的方式。可以在云端去訓(xùn)練這個(gè)大模型,然后通過知識(shí)蒸餾、模型量化的方式得到小模型,再把這個(gè)輕量化的小模型部署在終端上。

終端可以放一個(gè)NVIDIA的板子,這個(gè)板子上可以部署一個(gè)小的如1B的模型。在終端上放置一個(gè)輕量化的大模型,既能保持住大模型的能力,也可以更高效地部署。

AI科技評(píng)論:具身大模型部署到機(jī)器人本體上是一個(gè)待解決的難題嗎?

仉尚航:是的。目前我們?nèi)パ芯恳粋€(gè)具身多模態(tài)大模型,會(huì)讓其先具備推理能力、action 能力,也就是先做一個(gè)面向機(jī)器人場(chǎng)景,盡可能魯棒的大模型。在這基礎(chǔ)之上,再專門地去做模型的輕量化的方式。

我之前在伯克利的導(dǎo)師 Kurt Keutzer,他帶的一個(gè)研究組做了從 CNN 到 Transformer 到大模型一系列的輕量化工作,有很多技術(shù)儲(chǔ)備。因此于我們中心而言,不太擔(dān)心模型不容易部署的問題,更何況我們還有端云協(xié)作的系統(tǒng),可以實(shí)現(xiàn) online 的更新。

退一步講,如果模型輕量化之后能力沒有云端大模型那么強(qiáng),我們還可以借助端云協(xié)作的模型,在遇到特別難的 case 后,可以把給它傳到云端,讓云端更大的模型去進(jìn)行推理工作。所以輕量化部署的問題的話,并不一定是第一步就要解決的,我們的第一步還是要先把具身智能大模型做得盡可能強(qiáng)大。

AI科技評(píng)論:智源的具身多模態(tài)大模型主要落地到什么樣的機(jī)器人上?適配了哪些芯片?

仉尚航:我們?cè)谥窃丛O(shè)計(jì)的具身大模型是具備跨本體能力的,智源與國(guó)內(nèi)的多家人形、機(jī)械臂與靈巧手的公司進(jìn)行了合作,預(yù)期在國(guó)內(nèi)形成數(shù)據(jù)、模型以及本體和業(yè)務(wù)的生態(tài)循環(huán)。

有關(guān)芯片我們的考慮是先在Nvidia生態(tài)上的服務(wù)器和自動(dòng)駕駛端的芯片上進(jìn)行快速迭代,我們看到國(guó)產(chǎn)的芯片也在逐步往機(jī)器人具身任務(wù)上發(fā)力,比如地平線成立了地瓜機(jī)器人,華為也在支持機(jī)器人方向的落地,這些都是未來我們要合作的對(duì)象。

AI科技評(píng)論:為什么要研究「Real World 4D 模型」?

仉尚航:無論是端到端模型還是分層結(jié)構(gòu),最終都是為了讓機(jī)器人能更好地理解物理世界規(guī)律,更好地與環(huán)境交互,更好地執(zhí)行時(shí)序上的準(zhǔn)確行為。因此,我們同時(shí)提出了四維世界模型Robo4D,4D 即三維的空間加上一維的時(shí)間,就變成了四維的世界模型。

為世界模型構(gòu)建四維時(shí)空,以解決機(jī)器人在開放世界中任務(wù)操作的物體泛化以及場(chǎng)景泛化等問題。利用世界模型預(yù)測(cè)機(jī)器人與環(huán)境交互后的未來事件,從而生成準(zhǔn)確的行為,提前預(yù)測(cè)行為是正確還是失敗。實(shí)現(xiàn)真實(shí)世界的四維時(shí)空世界模型是邁向機(jī)器人整體AGI的重要一步。

四維世界模型將作為機(jī)器人的世界基礎(chǔ)模擬器,同時(shí)具備時(shí)間與空間智能,擁有長(zhǎng)短期記憶與物理概念學(xué)習(xí)等能力,與真實(shí)物理世界進(jìn)行交互并從中得到反饋。

真正的 4D 的世界模型,它可以集感知、導(dǎo)航、操控為一體,和真實(shí)世界交互,反映物理規(guī)律,更準(zhǔn)確地完成各種任務(wù)。

在機(jī)器人的整體AGI 概念中,預(yù)測(cè)是非常關(guān)鍵的步驟,例如,未來的機(jī)器人不是說向它發(fā)送了「要喝水」的指令,它就可以按照從一到五的步驟一次性地生成出來,而是機(jī)器人會(huì)根據(jù)每一步的操作再去決預(yù)測(cè)下一步,它會(huì)判斷第一步操作之后世界會(huì)發(fā)生了什么變化,再根據(jù)世界的變化去執(zhí)行第二步的操作。盡管我們?cè)诖笮∧X的路上充滿期待,但同時(shí)也意識(shí)以人為參照的話,具身大模型還缺少了“想象”這一環(huán)。這一環(huán)就是世界模型來補(bǔ)足的。

AI科技評(píng)論:如何實(shí)現(xiàn)一個(gè)「Real World 4D 模型」?

仉尚航:這需要在數(shù)據(jù)、模型結(jié)構(gòu)以及訓(xùn)練方式上都有創(chuàng)新,從我們的角度來看,在數(shù)據(jù)層面采集更多的真機(jī)數(shù)據(jù)進(jìn)行更系統(tǒng)的標(biāo)注與處理,并針對(duì)性的指導(dǎo)數(shù)據(jù)采集方向,探索能夠更高效將互聯(lián)網(wǎng)低成本數(shù)據(jù)使用起來的網(wǎng)絡(luò)結(jié)構(gòu)。

基礎(chǔ)模型層面我們部署自我糾正的機(jī)器人模型在現(xiàn)實(shí)世界進(jìn)行更大規(guī)模的數(shù)據(jù)采集以及自我進(jìn)化,模仿人類的思維方式,提出泛化性更強(qiáng)、更魯棒的基礎(chǔ)模型。我們并不只是堆砌數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,而是通過人和機(jī)器人與世界的交互來引導(dǎo)具身模型迭代,更系統(tǒng)性的構(gòu)建具身大模型與大數(shù)據(jù),從而實(shí)現(xiàn)real world 4d模型的訓(xùn)練數(shù)據(jù)構(gòu)建。

從模型結(jié)構(gòu)角度來說,我們也一直從各個(gè)角度在探索各種預(yù)測(cè)器。空間上我們近期研究了機(jī)器人場(chǎng)景下的4D重建模型,是在探討多視角的預(yù)測(cè)問題;時(shí)間尺度上我們近期從視頻生成模型的角度提出EVA,具身智能世界模型的視頻預(yù)測(cè)器,研究通用視頻生成模型在機(jī)器人任務(wù)下的泛化能力,都是對(duì)世界模型模型的探索。

此外更積極的擁抱機(jī)器人本體公司與算力生態(tài)的公司,推進(jìn)大模型在某些有價(jià)值的場(chǎng)景獲取更多真實(shí)的數(shù)據(jù)與更多的反饋。世界模型就是要讓我們、讓機(jī)器人、讓模型、讓數(shù)據(jù)快速的和真實(shí)世界交互反饋增強(qiáng),

AI科技評(píng)論:具身大腦有幾種技術(shù)路線分別是多模態(tài)、空間智能、世界模型。這幾條路線是漸進(jìn)式的關(guān)系嗎,先是多模態(tài),然后再是空間智能,然后再到 4D 世界模型?

仉尚航:路線確實(shí)有點(diǎn)漸進(jìn)的意思。

目前端到端和分層結(jié)構(gòu)是并行的,但是在端到端和分層結(jié)構(gòu)之后可能就要到世界模型了?,F(xiàn)在大部分處理的還是 2D 的問題,接下來就要處理3D幾何信息,包括我們團(tuán)隊(duì)現(xiàn)在正在做的就是 3D 具身智能大模型,下一步或者同時(shí)在進(jìn)行的另外一系列工作就是 4D 世界模型和4D VLA模型,所以從 2D 到 3D 到 4D 也是一個(gè)進(jìn)程。

但實(shí)際上并不意味著只有一條路線達(dá)到終點(diǎn)另外一條路線才會(huì)開始。具身智能現(xiàn)在是百家爭(zhēng)鳴的狀態(tài),各家有不同的理解和方法。但最終都是在研究時(shí)間和空間的理解,4D世界模型可能是一種大家都需要達(dá)到的最終形態(tài)。

AI科技評(píng)論:具身智能的基礎(chǔ)模型的終極形態(tài)會(huì)是4D世界模型嗎?

仉尚航:有可能,但目前還無法下定論。因?yàn)槿诉€有觸覺、嗅覺、力等其他維度,這些是當(dāng)下的機(jī)器人還不具備的,但至少它們已經(jīng)能夠幫人類完成很多現(xiàn)實(shí)生活中的任務(wù)了。

AI科技評(píng)論:在世界范圍內(nèi),4D 世界模型現(xiàn)在有什么樣的進(jìn)展?

仉尚航:目前在國(guó)內(nèi)外的話,有很多關(guān)于自動(dòng)駕駛的世界模型工作,機(jī)器人世界模型也有一些2D video的工作,但是4D世界模型的研究還是空白。

可能我們算是第一個(gè)提出的?,F(xiàn)在也已經(jīng)做有了初步的成果,馬上就會(huì)投稿到人工智能頂會(huì)上?!咐追寰W(wǎng)(公眾號(hào):雷峰網(wǎng))」「雷峰網(wǎng)」


雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

智源學(xué)者仉尚航:具身基礎(chǔ)模型最終狀態(tài)可能是「4D世界模型」丨具身先鋒十人談

分享:
相關(guān)文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說