丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給郭海惟
發(fā)送

0

北大盧宗青:現(xiàn)階段世界模型和 VLA 都不觸及本質(zhì)?|具身先鋒十人談

本文作者: 郭海惟   2025-06-20 16:19
導(dǎo)語:互聯(lián)網(wǎng)視頻數(shù)據(jù)是唯一可以 scale up 的道路。


北大盧宗青:現(xiàn)階段世界模型和 VLA 都不觸及本質(zhì)?|具身先鋒十人談


作為一名具身大腦的創(chuàng)業(yè)者,盧宗青有著金光閃閃的履歷:

他是緊隨DeepMind之后,中國新生代的強(qiáng)化學(xué)習(xí)研究者。北京大學(xué)計(jì)算機(jī)學(xué)院長聘副教授,擔(dān)任過智源研究院多模態(tài)交互研究中心負(fù)責(zé)人,負(fù)責(zé)過首個(gè)國家自然科學(xué)基金委原創(chuàng)探索計(jì)劃通用智能體項(xiàng)目,還同時(shí)在NeurIPS、ICLR、ICML等機(jī)器學(xué)習(xí)的國際頂級會(huì)議擔(dān)任領(lǐng)域主席。

早在2023年,他旗下團(tuán)隊(duì)便有利用多模態(tài)模型研究通用 Agent 的研究嘗試,讓 Agent 玩《荒野大鏢客2》和辦公,使其成為第一個(gè)從零開始在AAA級游戲中完成具體任務(wù)的 LLM 智能體。相關(guān)論文幾經(jīng)波折,今年終于被 ICML 2025 錄用。不過他自述對那份研究其實(shí)不夠滿意,因?yàn)椤胺夯圆蛔恪薄?/p>

當(dāng)完成那些研究以后,盧宗青意識到“當(dāng)前的多模態(tài)模型缺乏與世界交互的能力”。因?yàn)槟P腿鄙賹W(xué)習(xí)物理交互的數(shù)據(jù),所以我們看到的那些泛化的能力本質(zhì)都是“抽象”的,它終究無法理解動(dòng)作和世界的關(guān)系,自然也無法預(yù)測世界。

這如今成為他想在具身智能創(chuàng)業(yè)的起點(diǎn):開發(fā)一個(gè)通用的具身人工智能模型。

盧宗青微信頭像的氣質(zhì)是有些桀驁不馴的:一個(gè)戴著墨鏡的青年男人,留著冷峻的絡(luò)腮胡子,白色T恤上是一個(gè)墨色的蘋果。你下意識會(huì)以為,這是個(gè)隨時(shí)會(huì) solo 一段搖滾或者罵幾句臟話的文藝青年。不過當(dāng)你見到他,坐下來聊天的時(shí)候,你會(huì)發(fā)現(xiàn)他就是一個(gè)學(xué)者和老師的樣子,說話溫文爾雅,笑起來也很溫和,即便遇到些蠢問題也能忍住耐心講下去。然后直到你跟他聊技術(shù)的愿景,他又會(huì)變得桀驁有態(tài)度。

或許是因?yàn)?,他想要的東西實(shí)在是太大了。

在與 AI 科技評論的對談中,他反復(fù)傳達(dá)的事情是:他與其他人的立場出發(fā)點(diǎn)是不同的。其他人要的是落地、是應(yīng)用、大約是在現(xiàn)階段智能上限的基礎(chǔ)上修修補(bǔ)補(bǔ)。而他們的“taste”是去“追求更統(tǒng)一、更本質(zhì)的solution(解法)”。后者,大約可以理解為一個(gè)全新的、適用于通用具身智能的通用能力基座。

所以他會(huì)不斷說“VLA沒錯(cuò)”、“遙操作和真機(jī)數(shù)據(jù)有價(jià)值”,然后轉(zhuǎn)而接一個(gè)“但是”。你會(huì)覺得他確實(shí)是不欣賞那些東西的,或許他的關(guān)注點(diǎn)已經(jīng)不在那里了。他說“某些具身創(chuàng)業(yè)公司說的世界模型是在搞笑”,究其本質(zhì)僅僅是在建圖,最多只能像自動(dòng)駕駛做導(dǎo)航。那個(gè)瞬間他會(huì)表現(xiàn)出明顯的不悅,好像有人正在冒犯他?;蛟S是因?yàn)橛行┏墒斓募夹g(shù)市場人確實(shí)刻意混淆了一些概念,讓當(dāng)下和未來的范式變得模糊。

他所表達(dá)的對技術(shù)的審美,和楊立昆是有點(diǎn)相似的:他們堅(jiān)持認(rèn)為現(xiàn)階段的語言模型無法抵達(dá)一種通用泛化的人工智能,而只有更多元的視覺信息,才能通向 AGI。要實(shí)現(xiàn)這一點(diǎn),他們只能選擇一條路,即廣泛大量的互聯(lián)網(wǎng)視頻。

這其實(shí)就是盧宗青創(chuàng)立的公司「智在無界」BeingBeyond 正在的事情,他們通過標(biāo)注1500萬條互聯(lián)網(wǎng)視頻中人類關(guān)節(jié)的動(dòng)作,讓模型去學(xué)習(xí)人類的運(yùn)動(dòng)模式。

(https://beingbeyond.github.io/Being-M0/)

他們不會(huì)跟你講,互聯(lián)網(wǎng)視頻有多么難搞。他們只會(huì)說,互聯(lián)網(wǎng)視頻數(shù)據(jù)是唯一可以scale up的道路。我們除了這條路,再?zèng)]有別的路可以選擇,再苦再難華山也只有這么一條路,但不能因此就不上了。

大概出于類似的原因,Being Beyond 是現(xiàn)在為數(shù)不多的,將其第一代模型以 0 為開頭命名的團(tuán)隊(duì)(相比之下,一些公司直接將第一代產(chǎn)品序列命名為 3.5)。他甚至拒絕將第二代模型命名為 1,也拒絕透露他們接下來命名的數(shù)字規(guī)則。

所以在專訪的三天后,AI 科技評論在北京的一個(gè)知名大會(huì)上再次看到他時(shí),你會(huì)不由自主覺得他其實(shí)很孤獨(dú)。因?yàn)樗腥硕荚诹腣LA,聊世界模型,聊各種各樣的遙操和真機(jī)數(shù)據(jù)的采集、改進(jìn)與合成、聊場景、聊操控。他口中那些“有價(jià)值”但“不本質(zhì)”的玩意兒,在那個(gè)會(huì)場里幾乎淹沒了他。

這不由讓人想起,他聊強(qiáng)化學(xué)習(xí)歷史時(shí)說,中國強(qiáng)化學(xué)習(xí)起步相對晚一步,原因之一是 AlexNet 出來以后,大家都在搞CV。他聊融資時(shí)說,“很多投資人都說要投非共識,但投出來的全都是共識。”或許這句話不僅僅只是投資,在很多方面都是適用的。所以那場面很難不讓人想起,過去那些年的 AI 四小龍,它們也是在媒體鑼鼓喧天的氛圍中代表了一種人類進(jìn)步主義的未來。直到DeepMind 和 OpenAI 再次改寫了歷史,CV 路線的 AI 就仿佛一夜之間淡出了人們的視線。

我們不知道 BeingBeyond 能否真的能代表未來,更不知道這家年僅5個(gè)月的公司,是否真的能成為一家穿越周期的代表時(shí)代的技術(shù)領(lǐng)導(dǎo)者。我們甚至不知道,他提出的技術(shù)路線是否如他所言,真的能抵達(dá)他口中的星辰大海。

不過其中的一些問題,他可能也不全然知道答案。他很明白接下來的路有多難:當(dāng)他被問到,這條路多久能跑通、能scale up?他明顯停頓了一下,咬咬牙說兩三年吧??蓛扇暌埠荛L,變化會(huì)很多。他說路上還有別的事情可以做。他聊起 OpenAI 的時(shí)候眼睛會(huì)發(fā)亮,說他們早期真的搞了很多費(fèi)錢但沒有經(jīng)濟(jì)效益的事情。然后他又會(huì)拉回來,回到一個(gè)同樣反復(fù)出現(xiàn)的主題上:

如何在受限的情況下,把事情辦成了。

這是具身智能大腦的題中義:相比于大語言模型坐享人類文明幾千年的文字富礦,具身領(lǐng)域好用的視頻數(shù)據(jù)實(shí)在是窮得可憐。這當(dāng)然也是一個(gè)創(chuàng)業(yè)公司的題中義,絕非人人都能有 OpenAI 的金湯匙。BeingBeyond 剛宣布了聯(lián)想之星、星連資本“數(shù)千萬人民幣”的天使輪融資,錢不算少,但也絕不算充裕。

不過或許正如盧宗青所說,如果你站在一個(gè)終局解決方案的立場上來看,很多事情大概也就并不真的是個(gè)問題了。


北大盧宗青:現(xiàn)階段世界模型和 VLA 都不觸及本質(zhì)?|具身先鋒十人談

盧宗青和他的BeingBeyond

這是他創(chuàng)立 BeingBeyond 后接受的第一個(gè)專訪。我們簡單地回顧了他的學(xué)術(shù)歷史,并探討了具身智能泛化路線和公司的愿景。以下是本次專訪的內(nèi)容,AI 科技評論作了不改原意的整理與編輯:


01 研究強(qiáng)化學(xué)習(xí)是因?yàn)?DeepMind


AI科技評論:今天接受采訪的身份是創(chuàng)業(yè)者,還是教授?

盧宗青:(笑)還是聊聊技術(shù)吧。

AI科技評論:我們看到你在研究具身之前,其實(shí)有非常大的學(xué)術(shù)方向變化。

盧宗青:對,我本科是材料,研究生轉(zhuǎn)去電子學(xué)院,一直做計(jì)算機(jī)系統(tǒng)的相關(guān)工作,切入點(diǎn)更多是做算法的優(yōu)化問題,比如NP問題。在南洋理工讀完博士后,去賓州州立大學(xué)做了兩年多博士后,也是類似的事情。

選擇做強(qiáng)化學(xué)習(xí),是2017年回國后,加入北大后選擇的方向。一方面看到DeepMind跑Atari Game(雅達(dá)利游戲,知名復(fù)古游戲廠商)后發(fā)了一些成果,另一方面也看到強(qiáng)化學(xué)習(xí)確實(shí)在解決問題,例如來解決NP問題的案例。

AI科技評論:有什么印象特別深的例子嗎?

盧宗青:就還是David Silver(DeepMind首席科學(xué)家)吧,他們 2016 年在《Nature》上發(fā)的強(qiáng)化學(xué)習(xí)的論文(即《Mastering the game of Go with deep neural networks and tree search》,AlphaGo當(dāng)年憑借該論文中的呈現(xiàn)成果擊敗李世石)。

因?yàn)樵诖酥?,學(xué)術(shù)界還大多關(guān)注計(jì)算機(jī)感知層面的研究,而David Silver的團(tuán)隊(duì)在做決策層面的突破。而決策層的發(fā)展才能構(gòu)造更通用的智能。

AI科技評論:整個(gè)研究的愿景一下就大了。

盧宗青:對。其實(shí)我們現(xiàn)在研究的計(jì)算機(jī)系統(tǒng)領(lǐng)域的問題,大部分都已經(jīng)是決策問題了。比如最簡單的控制Transmission Power(信號傳輸功率),不管是WiFi還是無線基站的控制,根本上就是一個(gè)決策問題,而非感知問題。

AI科技評論:那是如何從強(qiáng)化學(xué)習(xí)領(lǐng)域轉(zhuǎn)投具身智能領(lǐng)域的探索呢?

盧宗青:轉(zhuǎn)變主要是在智源研究院的時(shí)候。2022年我在智源設(shè)立了“多模態(tài)交互研究中心”,當(dāng)時(shí)ChatGPT剛出來,我們想去探索強(qiáng)化學(xué)習(xí)和大模型的結(jié)合。當(dāng)然,不是現(xiàn)在的RLHF或者RL和推理的結(jié)合。我們更多是想說,把語言模型作為一個(gè)規(guī)劃者(Planner)的角色,如何跟下游的RL策略融合起來。

我們會(huì)基于開源模型,去訓(xùn)練一些多模態(tài)的模型,也會(huì)根據(jù)一些閉源模型做探索。比如2023年我們有一個(gè)研究,用GPT-4V去操控電腦,讓它去讀屏幕然后操作鼠標(biāo)和鍵盤。

AI科技評論:現(xiàn)在有很多 Agent 創(chuàng)業(yè)團(tuán)隊(duì)在做類似交互的事情,但你們2023年就在做了。

盧宗青:對,我們其實(shí)很早已經(jīng)做過了。

除了這個(gè),我們還跑了很多游戲的測試,像《RDR2》(荒野大鏢客2),相當(dāng)于一個(gè)比較早的agent,叫Cradle,那篇論文今年剛中了ICML。

其實(shí)《RDR2》這樣的3A游戲,已經(jīng)蠻像一個(gè)真實(shí)的物理世界的。但我們發(fā)現(xiàn)單純用互聯(lián)網(wǎng)信息訓(xùn)練出來的模型,決策能力非常差。它語義上做planning是可以的,但要和環(huán)境交互、預(yù)測事件的后果(比較難的)。

我們當(dāng)時(shí)為此做了很多工作,各種prompt engineering、In-context Learning、memory 機(jī)制。做完這些后我們認(rèn)為,當(dāng)前的多模態(tài)模型沒有和世界交互的能力。

(Cradle的論文正式發(fā)布于2024年3月,當(dāng)時(shí)它能夠在游戲《荒野大鏢客2》中完成長達(dá)40分鐘的主線任務(wù)并探索開放世界,可以獨(dú)立完成辦公、修圖、網(wǎng)頁瀏覽等任務(wù)。https://baai-agents.github.io/Cradle/)

北大盧宗青:現(xiàn)階段世界模型和 VLA 都不觸及本質(zhì)?|具身先鋒十人談


02 人類視頻是機(jī)器人通用智能的捷徑


AI科技評論:但如果我們的模型在游戲里都很難實(shí)現(xiàn)交互,那么在物理世界里的難度應(yīng)該就更大了。

盧宗青:如果只針對一個(gè)游戲去做訓(xùn)練,其實(shí)已經(jīng)可以做到不錯(cuò)的效果了。說它有不足,是因?yàn)楹茈y復(fù)用到其他的游戲中去,泛化能力很弱。

因?yàn)槟P推鋵?shí)沒有學(xué)習(xí)物理交互的數(shù)據(jù)。我們跟物理世界交互,往往動(dòng)作決定了世界的下一個(gè)狀態(tài)是什么樣子的。所以我們認(rèn)為,如果在物理世界中去訓(xùn)練,有真實(shí)的數(shù)據(jù),那(訓(xùn)出來的模型)就是可以有通用性的。

所以我們在 2024 年開始去探索具身以后,其實(shí)也嘗試了很多技術(shù)手段去采集數(shù)據(jù)。比如遙操、Sim2Real,還有最近比較流行的 Real2Sim2Real。

這些方法的泛化性都比較差,別說各式各樣的場景了,就是對簡單的物理層面的泛化、對 position 的泛化理解都很難。

2024年我們確定在智源研究院里去做這件事情后,內(nèi)部討論了很久,在各種限制條件下不同學(xué)習(xí)手段甚至范式,它們所能去觸摸到的 Upper-Bound(上限)到底是什么。

最終選擇的路線就是2024年初定下來的:利用人的運(yùn)動(dòng)信息去訓(xùn)練和驅(qū)動(dòng)模型。那里面用的數(shù)據(jù),主要就是互聯(lián)網(wǎng)的視頻?;蛘哒f,我們想用海量的互聯(lián)網(wǎng)中人的運(yùn)動(dòng)視頻,來 scale up人形機(jī)器人的學(xué)習(xí)。當(dāng)然,這里主要是指預(yù)訓(xùn)練部分。

AI科技評論:現(xiàn)在用互聯(lián)網(wǎng)視頻去研究機(jī)器人學(xué)習(xí)的團(tuán)隊(duì)也挺多的。

盧宗青:首先,你現(xiàn)在看到的很多所謂「互聯(lián)網(wǎng)視頻學(xué)習(xí)」,他們做的事情,比如訓(xùn)練 reward function(獎(jiǎng)勵(lì)函數(shù)),如剛才所說,我們2023年已經(jīng)做過類似的探索了,但我們認(rèn)為不直接。

所以,他們分析視頻,更多也focus(聚焦)在物體的運(yùn)動(dòng)軌跡上。比如說,一個(gè)視頻演示的是人拿杯子。其他人更多關(guān)注的是杯子的軌跡。而我們考慮的是,人的手怎么動(dòng)。二十多個(gè)自由度,每一個(gè)自由度,每一個(gè)關(guān)節(jié)的位置是什么?

這樣的好處是,它有更直接的方法和更明確的學(xué)習(xí)目標(biāo)。

我們可以把人手的位置,都從這到那兒都標(biāo)出來。其實(shí)互聯(lián)網(wǎng)的人手的視頻,本身就記錄了非常復(fù)雜的操作:比如翻手機(jī),這不是我們現(xiàn)在靈巧手能很好完成的事情,那么一個(gè)視頻里它就會(huì)記錄很多的信息。我們會(huì)直接把手這個(gè)姿態(tài)給標(biāo)出來,通過一些手部姿態(tài)3D模型來標(biāo)注,從而直接學(xué)習(xí),也能知道對應(yīng)文本下如何去操作。


北大盧宗青:現(xiàn)階段世界模型和 VLA 都不觸及本質(zhì)?|具身先鋒十人談

https://beingbeyond.github.io/MEgoHand/

最后,他們也沒有我們數(shù)據(jù)量大。他們可能對外宣傳說用了互聯(lián)網(wǎng)數(shù)據(jù),其實(shí)也只試了幾百條。而我們的目標(biāo)是要scale up,像我們的姿態(tài)生成模型,現(xiàn)在已經(jīng)拿到了1500萬條數(shù)據(jù)。

AI科技評論:為什么其他人沒有走你們的技術(shù)路線?你們的優(yōu)勢和難點(diǎn)在哪里?

盧宗青:我只能猜測一下。他們可能很多人在用gripper(夾爪)。如果做夾爪,其實(shí)不太需要考慮人的形態(tài)如何。我們因?yàn)橹耙恢弊龃竽P拖嚓P(guān)的事情,所以我們的研究 taste 就會(huì)想如何去更統(tǒng)一、更本質(zhì)地解決這個(gè)事情。

包括遙操采數(shù)據(jù)或者真機(jī)數(shù)據(jù),因?yàn)閿?shù)據(jù)量小,其實(shí)也只是面向應(yīng)用場景的解決方案、針對特定任務(wù)的優(yōu)化,這也不是我們終極想要做的事情。

我們相信,對于人形機(jī)器人和靈巧手來說,(假如要實(shí)現(xiàn)通用泛化的智能能力),用大量人的運(yùn)動(dòng)視頻數(shù)據(jù)做預(yù)訓(xùn)練,會(huì)是一個(gè)更好的方式。因?yàn)槿绻皇窃?Simulator(仿真器)里去學(xué)操作或者全身運(yùn)動(dòng)的策略的話,它(學(xué)習(xí)的數(shù)據(jù))是沒有任何先驗(yàn)的。

你用強(qiáng)化學(xué)習(xí)來學(xué),最后只是為了滿足獎(jiǎng)勵(lì)函數(shù)而已。比如,我們在實(shí)際生活中抓一個(gè)杯子可能是這么抓(正手正常拿杯子),但你在 Simulator 里訓(xùn)練的結(jié)果可能是這么抓(反手?jǐn)Q手臂握杯子)。

但是我們?nèi)绻ㄟ^人的數(shù)據(jù)做預(yù)訓(xùn)練的話,其實(shí)是 Encode(編碼)人的先驗(yàn)的(成功)經(jīng)驗(yàn)。而先驗(yàn)的東西對于一個(gè)比較難的問題,本身是有非常大的好處的。

AI科技評論:但有沒有可能機(jī)器人就是和人很不一樣。它可能到最后發(fā)現(xiàn),最合適它自己的抓取方式就是這樣抓杯子的(反手?jǐn)Q手臂握杯子)。

盧宗青:(笑)強(qiáng)化學(xué)習(xí)的目標(biāo)就是將獎(jiǎng)勵(lì)最大化,一切取決于你的獎(jiǎng)勵(lì)是怎么定的。那有可能獎(jiǎng)勵(lì)定義出來的就是這個(gè)樣子。

但強(qiáng)化學(xué)習(xí)從理論上來說,要讓每一個(gè)動(dòng)作都遍歷所有的 State-action space,然后才能學(xué)習(xí)到一個(gè)最大化的 Return 的策略。但是如果我們有一個(gè)先驗(yàn)的行為,那么就不需要把整個(gè) State-action space 去遍歷(Traversal)一遍。

AI科技評論:所以人的動(dòng)作雖然不一定是最完美的,但現(xiàn)階段是性價(jià)比最高、最容易scale up的方式,因?yàn)槲覀兛梢阅玫降臄?shù)據(jù)是最多的。

盧宗青:其實(shí)語言模型也不是讓模型學(xué)習(xí)如何用語言,而是在大量人已經(jīng)產(chǎn)生的數(shù)據(jù)集上面去學(xué)習(xí)。那么對于人形機(jī)器人,我們已經(jīng)有了人的行為和運(yùn)動(dòng)方式,為什么不去用呢?

而且人形有一個(gè)好處,即可以通過向下兼容。比如我們?nèi)丝梢钥刂埔粋€(gè)二指的夾爪去完成事情。那如果我們學(xué)會(huì)了人手的操作,模型可以(通過強(qiáng)化學(xué)習(xí)等后訓(xùn)練)去實(shí)現(xiàn)向下兼容。

包括雙足的機(jī)器人,我們做得好的話,也可以去向下兼容輪形移動(dòng)的機(jī)器人,后者控制比較簡單。

AI科技評論:但是其他采用類似遙操采集、數(shù)據(jù)工廠的團(tuán)隊(duì),他們對外也是說,手上這些東西未來要服務(wù)通用人工智能。

盧宗青:我覺得他們目標(biāo)更單純,就是商業(yè)上的目標(biāo),通過更好的軟件來賣出更多的本體。

我覺得一涉及到本體的話,容易把自己的技術(shù)路線帶偏,總是想著通過技術(shù)路線去更好地跟自己的本體去適配,來賣自己的本體。如果你要 overfit(過擬合)本體,遙操、真機(jī)肯定是有價(jià)值的。

但我覺得不是一個(gè)有效的途徑。因?yàn)楝F(xiàn)在的機(jī)器人的本體基本上都沒有收斂,數(shù)據(jù)很難復(fù)用。而且數(shù)據(jù)采集成本很高,也很難達(dá)到互聯(lián)網(wǎng)視頻的規(guī)模和多樣性。

而且現(xiàn)在真機(jī)采集數(shù)據(jù)更多是夾爪領(lǐng)域,大規(guī)模去遙操人形機(jī)器人是非常少的,只有一些科研方面的工作在做。如果你是說輪式+gripper的話,那也不是我們focus的機(jī)器人形態(tài)。

AI科技評論:現(xiàn)在我們手上有了1500萬數(shù)據(jù),你覺得數(shù)據(jù)量夠嗎?

盧宗青:1500萬主要是指全身運(yùn)動(dòng)控制,比如走路跑步這些。現(xiàn)在正在積累手部操作數(shù)據(jù),是第一人稱視頻。我們目前在逐步建立這方面的數(shù)據(jù)集,之前大概已經(jīng)有300萬,最近蘋果又開源了一個(gè)數(shù)據(jù)集,包括最近隨著智能眼鏡的普及,我相信這方面數(shù)據(jù)會(huì)越來越多。

至于數(shù)據(jù)量需求的問題,我們可能要先驗(yàn)證整個(gè)的pipeline后才能知道。

比如你如果幾年前問OpenAI需要多少語料,那么最終的答案是:他們用到了互聯(lián)網(wǎng)上所有的語料。我想具身也是同樣的。

AI科技評論:和海量文本數(shù)據(jù)量比,互聯(lián)網(wǎng)上能用的視頻內(nèi)容,是不是還有差距?

盧宗青:那看怎么比。如果從文件大小或者token來比的話,肯定(視頻)還是會(huì)大很多。

當(dāng)然,其實(shí)視頻和文字不一樣,文字是信息密度很高的信息形態(tài),視頻相對沒那么高。

AI科技評論:所以我們還沒有進(jìn)入大模型公司那種大力出奇跡的階段。

盧宗青:對,(笑)需要一萬張卡?,F(xiàn)在還不到時(shí)候,去年在智源探索時(shí)用了大概六七百張卡。

主要是姿態(tài)生成模型已經(jīng)基本定型了,而且我們現(xiàn)在正在驗(yàn)證pipeline,做一些后訓(xùn)練一些操作,所以肯定不需要這么多卡。

AI科技評論:但你剛才提到,我們的目標(biāo)還是要去做基座能力和智能泛化。

盧宗青:驗(yàn)證完pipeline之后肯定是需要更多的計(jì)算資源的。

最近Mary Meeker 有個(gè)報(bào)告,里面有提到,現(xiàn)在的訓(xùn)練代價(jià)是遠(yuǎn)遠(yuǎn)小于之前的語言模型的代價(jià),她說的可能也就是之前的百分之幾。

目前具身模型本質(zhì)也是一個(gè)語言模型,我們現(xiàn)在是基于語言模型的backbone去訓(xùn)練,這樣它可以更容易用語言去理解指令,只是我們加入了更多的模態(tài)信息。

當(dāng)然,這方面其實(shí)也需要更多的探索。我們是否真的需要一個(gè)語言模型來backbone,或者我們learning from scratch去訓(xùn)練一個(gè)專門針對具身的模型,我覺得這是后面需要回答的問題。

或許未來我們可以探索出視頻信息進(jìn)行預(yù)訓(xùn)練為主的模型,但可能要以后才知道。但現(xiàn)在基于語言模型去訓(xùn)練,其實(shí)是最省錢的。



03 現(xiàn)階段世界模型還很遠(yuǎn)


AI科技評論:一些原來自動(dòng)駕駛的人轉(zhuǎn)去具身大腦創(chuàng)業(yè)后,都在說世界模型這個(gè)概念。

盧宗青:世界模型不可能用。對機(jī)器人來說,世界模型用不了。

我跟你說什么樣的世界模型能用:要定義在action,手部的關(guān)節(jié),也就是操作層面。如果僅僅是語義層面的話,沒有太多幫助。

除了像自動(dòng)駕駛做導(dǎo)航外,沒有什么幫助。

AI科技評論:所以你是覺得它現(xiàn)階段落不到操作層面?所以沒有意義?

盧宗青:對機(jī)器人沒有意義,對游戲可能有意義。

我覺得很多機(jī)器人的公司,說把世界模型給具身用,不可能的。做機(jī)器人的公司要去做世界模型,簡直就是在搞笑。

而且車廠說的世界模型就是把整個(gè)環(huán)境構(gòu)圖建出來,如何去導(dǎo)航。那你可以理解它的世界模型(本質(zhì))就是在建圖。

而我們說的世界模型就是:我推一下,杯子倒了,要怎樣推,杯子才會(huì)怎樣倒?這涉及到動(dòng)作,沒有任何(先驗(yàn)的)數(shù)據(jù)可以給你的。

AI科技評論:所以你怎么定義世界模型這個(gè)概念?

盧宗青:(具身的)世界模型就是根據(jù)你當(dāng)前做的action,然后(預(yù)測)下一幀發(fā)生了什么樣的變化。杯子如果這樣放在這里(桌角),它就會(huì)掉到地上,一切要符合物理規(guī)律。

它要滿足兩個(gè)性質(zhì),一個(gè)是我們很多pysical engine,比如Mujoco,要符合物理規(guī)律,在視覺層面也能跟我們現(xiàn)實(shí)中的物理世界是一致的。(現(xiàn)在)不可能做到這個(gè)程度的。

機(jī)器人的世界模型應(yīng)該要和人類相似,因?yàn)槲覀兪且谖锢硎澜缃换サ摹?/p>

AI科技評論:所以我們終究可以到那個(gè)地方,只是現(xiàn)階段因?yàn)閿?shù)據(jù)的原因,所以不能成立?

盧宗青:現(xiàn)在大家想象的世界模型,和他們要做的世界模型,其實(shí)是兩個(gè)東西。

之前MIT的研究說語言模型已經(jīng)具備了world model的能力,但那個(gè)是abstract level層面的:

我做了什么事情,后面發(fā)生了什么?你是通過思考或者語言可以描述的,但是你不是去預(yù)測下一幀、下一個(gè)畫面是什么。而他們現(xiàn)在要做的世界模型是要預(yù)測下一個(gè)畫面是什么,不僅要做到這件事情,還要給機(jī)器人這樣的環(huán)境去訓(xùn)練。我認(rèn)為現(xiàn)階段的技術(shù)手段不足以做到這件事情。

AI科技評論:那你怎么看現(xiàn)在“不同版本不同名字”的VLA層出不窮?

盧宗青:如前面所說,我覺得VLA本身沒有錯(cuò)。只是大家更多是在gripper做操作,沒有touch到最本質(zhì)的問題。

AI科技評論:能再定義一下什么是最本質(zhì)的問題嗎?

盧宗青:怎么來學(xué),learning paradigm(學(xué)習(xí)范式)是什么。

我們到底是帶大量action數(shù)據(jù)去做預(yù)訓(xùn)練,還是說我只是在VLM上加入action head。這是兩個(gè)不一樣的范式。

我個(gè)人是希望大規(guī)模把互聯(lián)網(wǎng)上的動(dòng)作數(shù)據(jù),放到前面去學(xué)習(xí),然后再去對齊。他們是說,我現(xiàn)在有個(gè)VLM,訓(xùn)練完了以后,把真機(jī)數(shù)據(jù)堆在后面去訓(xùn)練。而且真機(jī)數(shù)據(jù)和互聯(lián)網(wǎng)數(shù)據(jù)也差了幾個(gè)量級的。

AI科技評論:所以你覺得未來范式的方向是前者。

盧宗青:是的,未來的范式會(huì)收斂到我們這一條路上:通過互聯(lián)網(wǎng)的視頻去學(xué)習(xí)人的行為。

當(dāng)然我說的只是人形機(jī)器人和靈巧手,gripper的形態(tài)不在我們的考慮范圍內(nèi)。




04 短期沒有商業(yè)化考量,融資是雙向選擇


AI科技評論:我們想要解決更本質(zhì)可能就意味著實(shí)現(xiàn)難度更大、商業(yè)化能力沒那么快。那你是怎么考慮這個(gè)問題?

盧宗青:我們盡可能把思路傳達(dá)給投資人,讓他們?nèi)uy in這樣一個(gè)技術(shù)路線,作為一個(gè)通用的解決方案,還是有一些投資人逐漸在認(rèn)可這樣的技術(shù)路線。

當(dāng)然我們一開始就沒有動(dòng)用特別多的計(jì)算資源,也是在一個(gè)相對受限的情況下去辦這件事情。

AI科技評論:有商業(yè)化的嘗試嗎或者規(guī)劃嗎?

盧宗青:規(guī)劃不太能說,但現(xiàn)在沒有商業(yè)化的嘗試。

AI科技評論:你現(xiàn)在有合伙人嗎?

盧宗青:沒有聯(lián)創(chuàng)這個(gè)級別的,正在培養(yǎng)團(tuán)隊(duì)成員,同時(shí)也在接觸中。

AI科技評論:你在跟投資人聊的時(shí)候,對于我們商業(yè)化落地方面的想法,投資人是完全沒有問題的嗎?

盧宗青:有些投資人肯定會(huì)問的,但這其實(shí)是個(gè)雙向選擇吧。有一些投資人聽了這個(gè)技術(shù)路線以后,他們會(huì)非常excited。

我覺得未來我們需要商業(yè)化的時(shí)候肯定會(huì)去嘗試,但現(xiàn)在通用的solution,近期之內(nèi)是不大可能性的。(停頓)至少一年之內(nèi)不可能。但沿途我們?nèi)プ鲆恍┥虡I(yè)化落地也是可以的,我自己是不排斥的。

AI科技評論:這有點(diǎn)像OpenAI,早期是一個(gè)非營利性的組織,有很多富人去支持,做了很多未來的嘗試。

盧宗青:對,我覺得現(xiàn)在環(huán)境會(huì)比之前好很多。包括Pi其實(shí)他們早期也就是研究,沒有任何產(chǎn)品。

AI科技評論:但坦率講,中國和美國的投資環(huán)境還是不太一樣的。國內(nèi)投資人可能嘴上很樂觀的,但心底對國內(nèi)的前沿探索是沒有那么自信的,還是偏好一些工程性的落地應(yīng)用的項(xiàng)目。

盧宗青:是的。確實(shí)就像你剛才說的,技術(shù)的發(fā)展是有非常大的不確定性,但是一些投資人就喜歡看到確定性的東西,其實(shí)本質(zhì)是相悖的,所以好多投資人說投什么非共識,最后投出來的項(xiàng)目全是共識。

但可能這幾年會(huì)變好一些。像DeepSeek和機(jī)器人硬件的成功是一種鼓勵(lì),尤其是機(jī)器人的硬件體系主要是在國內(nèi)的。

AI科技評論:其實(shí)具身大模型和語言大模型還不太一樣。語言大模型在Day One的時(shí)候,投資人就有共識,認(rèn)為這是美國一套、中國一套的生意模型,所以才有了后面快速起來的六小虎。但具身應(yīng)該沒有語言模型的政策壁壘,所以你們似乎從第一天開始就是全球競爭的格局。

盧宗青:我覺得很好啊,這也是全球性的機(jī)會(huì)。本來也不該有壁壘,本來就是該全部一起競爭的。


05 BeingBeyond 將分別是兩個(gè)模型的名字


AI科技評論:公司為什么叫 BeingBeyond?模型也是叫Being-M0。

盧宗青:Being其實(shí)就是生成和存在,Human Being里的 Being。而且它既是名詞又是正在進(jìn)行時(shí),所以我們后面加了一個(gè)Beyond。我們希望最后能做出Robot Being吧。

AI科技評論:所以這個(gè)名字里本來就暗含了實(shí)現(xiàn)AGI的愿景,因?yàn)橐俺酱嬖凇薄?/strong>

盧宗青:是的。我們是這樣安排的,我們的第一代模型基本會(huì)用 Being來開頭,后面的模型會(huì)考慮用Beyond開頭,但就不知道會(huì)是什么時(shí)候了。

AI科技評論:Beyond模型會(huì)側(cè)重什么呢?

盧宗青:如果發(fā)Beyond,那就代表我們真的是全球領(lǐng)先的模型了。

AI科技評論:其實(shí)我第一眼看到這個(gè)名字,我在想會(huì)不會(huì)是因?yàn)槟銈儾蛔觥氨倔w”機(jī)器人硬件,所以要超越本體。

盧宗青:是的,是一語雙關(guān)。而且如果在模型命名上,Being-0其實(shí)也代表正在進(jìn)行中的0號產(chǎn)品。

AI科技評論:這個(gè)命名也非常有意思,為什么是從0開始發(fā)布產(chǎn)品?

盧宗青:因?yàn)?號是我們最初一個(gè)還不夠成熟的嘗試,它不代表我們最終要做的事情,而這條路會(huì)是一個(gè)不斷迭代的過程。

而且后面的話,應(yīng)該也不會(huì)命名1。要命名為1的話,我感覺應(yīng)該是一個(gè)(停頓)跨越式的模型吧。

但是 Motion 模型的話,可能會(huì)出1,因?yàn)樗俏覀儎偛盘岬降?500萬條數(shù)據(jù)上已經(jīng)scale up的第一個(gè)東西。

AI科技評論:如果不用1的話,會(huì)怎么命名呢,0.1、0.5?

盧宗青:(笑)scale up了以后就會(huì)有1的。

AI科技評論:公司現(xiàn)在多少人?

盧宗青:全職員工其實(shí)就五個(gè)人,加上實(shí)習(xí)生大概二十來人。

AI科技評論:其實(shí)這個(gè)規(guī)模在創(chuàng)業(yè)公司里都算很精簡的了吧。

盧宗青:是的,但他們每個(gè)人都做了很多年模型相關(guān)的研究了。

AI科技評論:那如果給你一大筆錢呢?你會(huì)去配置一點(diǎn)資源去嘗試硬件嗎?或者你會(huì)去多買點(diǎn)卡之類的。

盧宗青:現(xiàn)在不是做硬件的最佳的時(shí)刻,因?yàn)橛布螒B(tài)還沒有收斂,而未來具身的很多地方肯定都會(huì)標(biāo)準(zhǔn)化的。

買卡也暫時(shí)不太會(huì)。(即便有錢了)可能我們還是這么幾個(gè)人,在這樣一個(gè)辦公室里。因?yàn)槭聝哼€沒有到要scale up的時(shí)候,我們暫時(shí)還不需要那么多資源。

AI科技評論:多久以后可以scale up?

盧宗青:我覺得兩三年吧。

AI科技評論:那確實(shí)需要很好的耐心,因?yàn)閮扇昕赡軙?huì)發(fā)生很多事情。

盧宗青:兩三年是指scale up的時(shí)間,這個(gè)過程不是說一直不做商業(yè)化,還是有一些公司對我們的技術(shù)路線有興趣的。

AI科技評論:你有特別喜歡的創(chuàng)業(yè)者或者公司嗎?

盧宗青:Steve Jobs。我認(rèn)為我們?nèi)绻袡C(jī)會(huì)的話,未來也可能有一天會(huì)做一個(gè)自己的機(jī)器人。因?yàn)樗械木呱砟P投际窃跈C(jī)器人上的,我們也很希望可以去直接面對客戶,只是不是今天而已。而且因?yàn)槲覀兊哪繕?biāo)是通用的,所以我們最終其實(shí)還是希望有2C的機(jī)器人。

AI科技評論:最后一個(gè)問題。因?yàn)槲覀冏畲蟮臄?shù)據(jù)集是人類的,所以如果實(shí)現(xiàn)通用泛化,機(jī)器人就自然會(huì)以人類動(dòng)作為主要參考形態(tài)。換言之,人類自己的運(yùn)動(dòng)模式,最終決定了這個(gè)文明未來機(jī)器人的形態(tài)。對嗎?

盧宗青:對。

(作者微信:hai2023zi  添加請備注公司-姓名)

(雷峰網(wǎng)(公眾號:雷峰網(wǎng))雷峰網(wǎng))

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

北大盧宗青:現(xiàn)階段世界模型和 VLA 都不觸及本質(zhì)?|具身先鋒十人談

分享:
相關(guān)文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個(gè)人簡介
為了您的賬戶安全,請驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請驗(yàn)證您的郵箱
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄