北大盧宗青：現(xiàn)階段世界模型和 VLA 都不觸及本質(zhì)?｜具身先鋒十人談

本文作者：郭海惟

2025-06-20 16:19

導(dǎo)語：互聯(lián)網(wǎng)視頻數(shù)據(jù)是唯一可以 scale up 的道路。

作為一名具身大腦的創(chuàng)業(yè)者，盧宗青有著金光閃閃的履歷：

他是緊隨DeepMind之后，中國新生代的強化學(xué)習(xí)研究者。北京大學(xué)計算機學(xué)院長聘副教授，擔(dān)任過智源研究院多模態(tài)交互研究中心負責(zé)人，負責(zé)過首個國家自然科學(xué)基金委原創(chuàng)探索計劃通用智能體項目，還同時在NeurIPS、ICLR、ICML等機器學(xué)習(xí)的國際頂級會議擔(dān)任領(lǐng)域主席。

早在2023年，他旗下團隊便有利用多模態(tài)模型研究通用 Agent 的研究嘗試，讓 Agent 玩《荒野大鏢客2》和辦公，使其成為第一個從零開始在AAA級游戲中完成具體任務(wù)的 LLM 智能體。相關(guān)論文幾經(jīng)波折，今年終于被 ICML 2025 錄用。不過他自述對那份研究其實不夠滿意，因為“泛化性不足”。

當(dāng)完成那些研究以后，盧宗青意識到“當(dāng)前的多模態(tài)模型缺乏與世界交互的能力”。因為模型缺少學(xué)習(xí)物理交互的數(shù)據(jù)，所以我們看到的那些泛化的能力本質(zhì)都是“抽象”的，它終究無法理解動作和世界的關(guān)系，自然也無法預(yù)測世界。

這如今成為他想在具身智能創(chuàng)業(yè)的起點：開發(fā)一個通用的具身人工智能模型。

盧宗青微信頭像的氣質(zhì)是有些桀驁不馴的：一個戴著墨鏡的青年男人，留著冷峻的絡(luò)腮胡子，白色T恤上是一個墨色的蘋果。你下意識會以為，這是個隨時會 solo 一段搖滾或者罵幾句臟話的文藝青年。不過當(dāng)你見到他，坐下來聊天的時候，你會發(fā)現(xiàn)他就是一個學(xué)者和老師的樣子，說話溫文爾雅，笑起來也很溫和，即便遇到些蠢問題也能忍住耐心講下去。然后直到你跟他聊技術(shù)的愿景，他又會變得桀驁有態(tài)度。

或許是因為，他想要的東西實在是太大了。

在與 AI 科技評論的對談中，他反復(fù)傳達的事情是：他與其他人的立場出發(fā)點是不同的。其他人要的是落地、是應(yīng)用、大約是在現(xiàn)階段智能上限的基礎(chǔ)上修修補補。而他們的“taste”是去“追求更統(tǒng)一、更本質(zhì)的solution（解法）”。后者，大約可以理解為一個全新的、適用于通用具身智能的通用能力基座。

所以他會不斷說“VLA沒錯”、“遙操作和真機數(shù)據(jù)有價值”，然后轉(zhuǎn)而接一個“但是”。你會覺得他確實是不欣賞那些東西的，或許他的關(guān)注點已經(jīng)不在那里了。他說“某些具身創(chuàng)業(yè)公司說的世界模型是在搞笑”，究其本質(zhì)僅僅是在建圖，最多只能像自動駕駛做導(dǎo)航。那個瞬間他會表現(xiàn)出明顯的不悅，好像有人正在冒犯他?；蛟S是因為有些成熟的技術(shù)市場人確實刻意混淆了一些概念，讓當(dāng)下和未來的范式變得模糊。

他所表達的對技術(shù)的審美，和楊立昆是有點相似的：他們堅持認為現(xiàn)階段的語言模型無法抵達一種通用泛化的人工智能，而只有更多元的視覺信息，才能通向 AGI。要實現(xiàn)這一點，他們只能選擇一條路，即廣泛大量的互聯(lián)網(wǎng)視頻。

這其實就是盧宗青創(chuàng)立的公司「智在無界」BeingBeyond 正在的事情，他們通過標(biāo)注1500萬條互聯(lián)網(wǎng)視頻中人類關(guān)節(jié)的動作，讓模型去學(xué)習(xí)人類的運動模式。

（https://beingbeyond.github.io/Being-M0/）

他們不會跟你講，互聯(lián)網(wǎng)視頻有多么難搞。他們只會說，互聯(lián)網(wǎng)視頻數(shù)據(jù)是唯一可以scale up的道路。我們除了這條路，再沒有別的路可以選擇，再苦再難華山也只有這么一條路，但不能因此就不上了。

大概出于類似的原因，Being Beyond 是現(xiàn)在為數(shù)不多的，將其第一代模型以 0 為開頭命名的團隊（相比之下，一些公司直接將第一代產(chǎn)品序列命名為 3.5）。他甚至拒絕將第二代模型命名為 1，也拒絕透露他們接下來命名的數(shù)字規(guī)則。

所以在專訪的三天后，AI 科技評論在北京的一個知名大會上再次看到他時，你會不由自主覺得他其實很孤獨。因為所有人都在聊VLA，聊世界模型，聊各種各樣的遙操和真機數(shù)據(jù)的采集、改進與合成、聊場景、聊操控。他口中那些“有價值”但“不本質(zhì)”的玩意兒，在那個會場里幾乎淹沒了他。

這不由讓人想起，他聊強化學(xué)習(xí)歷史時說，中國強化學(xué)習(xí)起步相對晚一步，原因之一是 AlexNet 出來以后，大家都在搞CV。他聊融資時說，“很多投資人都說要投非共識，但投出來的全都是共識。”或許這句話不僅僅只是投資，在很多方面都是適用的。所以那場面很難不讓人想起，過去那些年的 AI 四小龍，它們也是在媒體鑼鼓喧天的氛圍中代表了一種人類進步主義的未來。直到DeepMind 和 OpenAI 再次改寫了歷史，CV 路線的 AI 就仿佛一夜之間淡出了人們的視線。

我們不知道 BeingBeyond 能否真的能代表未來，更不知道這家年僅5個月的公司，是否真的能成為一家穿越周期的代表時代的技術(shù)領(lǐng)導(dǎo)者。我們甚至不知道，他提出的技術(shù)路線是否如他所言，真的能抵達他口中的星辰大海。

不過其中的一些問題，他可能也不全然知道答案。他很明白接下來的路有多難：當(dāng)他被問到，這條路多久能跑通、能scale up？他明顯停頓了一下，咬咬牙說兩三年吧。可兩三年也很長，變化會很多。他說路上還有別的事情可以做。他聊起 OpenAI 的時候眼睛會發(fā)亮，說他們早期真的搞了很多費錢但沒有經(jīng)濟效益的事情。然后他又會拉回來，回到一個同樣反復(fù)出現(xiàn)的主題上：

如何在受限的情況下，把事情辦成了。

這是具身智能大腦的題中義：相比于大語言模型坐享人類文明幾千年的文字富礦，具身領(lǐng)域好用的視頻數(shù)據(jù)實在是窮得可憐。這當(dāng)然也是一個創(chuàng)業(yè)公司的題中義，絕非人人都能有 OpenAI 的金湯匙。BeingBeyond 剛宣布了聯(lián)想之星、星連資本“數(shù)千萬人民幣”的天使輪融資，錢不算少，但也絕不算充裕。

不過或許正如盧宗青所說，如果你站在一個終局解決方案的立場上來看，很多事情大概也就并不真的是個問題了。

北大盧宗青：現(xiàn)階段世界模型和 VLA 都不觸及本質(zhì)?｜具身先鋒十人談

盧宗青和他的BeingBeyond

這是他創(chuàng)立 BeingBeyond 后接受的第一個專訪。我們簡單地回顧了他的學(xué)術(shù)歷史，并探討了具身智能泛化路線和公司的愿景。以下是本次專訪的內(nèi)容，AI 科技評論作了不改原意的整理與編輯：

01 研究強化學(xué)習(xí)是因為 DeepMind

AI科技評論：今天接受采訪的身份是創(chuàng)業(yè)者，還是教授？

盧宗青：（笑）還是聊聊技術(shù)吧。

AI科技評論：我們看到你在研究具身之前，其實有非常大的學(xué)術(shù)方向變化。

盧宗青：對，我本科是材料，研究生轉(zhuǎn)去電子學(xué)院，一直做計算機系統(tǒng)的相關(guān)工作，切入點更多是做算法的優(yōu)化問題，比如NP問題。在南洋理工讀完博士后，去賓州州立大學(xué)做了兩年多博士后，也是類似的事情。

選擇做強化學(xué)習(xí)，是2017年回國后，加入北大后選擇的方向。一方面看到DeepMind跑Atari Game（雅達利游戲，知名復(fù)古游戲廠商）后發(fā)了一些成果，另一方面也看到強化學(xué)習(xí)確實在解決問題，例如來解決NP問題的案例。

AI科技評論：有什么印象特別深的例子嗎？

盧宗青：就還是David Silver（DeepMind首席科學(xué)家）吧，他們 2016 年在《Nature》上發(fā)的強化學(xué)習(xí)的論文（即《Mastering the game of Go with deep neural networks and tree search》，AlphaGo當(dāng)年憑借該論文中的呈現(xiàn)成果擊敗李世石）。

因為在此之前，學(xué)術(shù)界還大多關(guān)注計算機感知層面的研究，而David Silver的團隊在做決策層面的突破。而決策層的發(fā)展才能構(gòu)造更通用的智能。

AI科技評論：整個研究的愿景一下就大了。

盧宗青：對。其實我們現(xiàn)在研究的計算機系統(tǒng)領(lǐng)域的問題，大部分都已經(jīng)是決策問題了。比如最簡單的控制Transmission Power（信號傳輸功率），不管是WiFi還是無線基站的控制，根本上就是一個決策問題，而非感知問題。

AI科技評論：那是如何從強化學(xué)習(xí)領(lǐng)域轉(zhuǎn)投具身智能領(lǐng)域的探索呢？

盧宗青：轉(zhuǎn)變主要是在智源研究院的時候。2022年我在智源設(shè)立了“多模態(tài)交互研究中心”，當(dāng)時ChatGPT剛出來，我們想去探索強化學(xué)習(xí)和大模型的結(jié)合。當(dāng)然，不是現(xiàn)在的RLHF或者RL和推理的結(jié)合。我們更多是想說，把語言模型作為一個規(guī)劃者（Planner）的角色，如何跟下游的RL策略融合起來。

我們會基于開源模型，去訓(xùn)練一些多模態(tài)的模型，也會根據(jù)一些閉源模型做探索。比如2023年我們有一個研究，用GPT-4V去操控電腦，讓它去讀屏幕然后操作鼠標(biāo)和鍵盤。

AI科技評論：現(xiàn)在有很多 Agent 創(chuàng)業(yè)團隊在做類似交互的事情，但你們2023年就在做了。

盧宗青：對，我們其實很早已經(jīng)做過了。

除了這個，我們還跑了很多游戲的測試，像《RDR2》（荒野大鏢客2），相當(dāng)于一個比較早的agent，叫Cradle，那篇論文今年剛中了ICML。

其實《RDR2》這樣的3A游戲，已經(jīng)蠻像一個真實的物理世界的。但我們發(fā)現(xiàn)單純用互聯(lián)網(wǎng)信息訓(xùn)練出來的模型，決策能力非常差。它語義上做planning是可以的，但要和環(huán)境交互、預(yù)測事件的后果（比較難的）。

我們當(dāng)時為此做了很多工作，各種prompt engineering、In-context Learning、memory 機制。做完這些后我們認為，當(dāng)前的多模態(tài)模型沒有和世界交互的能力。

（Cradle的論文正式發(fā)布于2024年3月，當(dāng)時它能夠在游戲《荒野大鏢客2》中完成長達40分鐘的主線任務(wù)并探索開放世界，可以獨立完成辦公、修圖、網(wǎng)頁瀏覽等任務(wù)。https://baai-agents.github.io/Cradle/）

北大盧宗青：現(xiàn)階段世界模型和 VLA 都不觸及本質(zhì)?｜具身先鋒十人談

02 人類視頻是機器人通用智能的捷徑

AI科技評論：但如果我們的模型在游戲里都很難實現(xiàn)交互，那么在物理世界里的難度應(yīng)該就更大了。

盧宗青：如果只針對一個游戲去做訓(xùn)練，其實已經(jīng)可以做到不錯的效果了。說它有不足，是因為很難復(fù)用到其他的游戲中去，泛化能力很弱。

因為模型其實沒有學(xué)習(xí)物理交互的數(shù)據(jù)。我們跟物理世界交互，往往動作決定了世界的下一個狀態(tài)是什么樣子的。所以我們認為，如果在物理世界中去訓(xùn)練，有真實的數(shù)據(jù)，那（訓(xùn)出來的模型）就是可以有通用性的。

所以我們在 2024 年開始去探索具身以后，其實也嘗試了很多技術(shù)手段去采集數(shù)據(jù)。比如遙操、Sim2Real，還有最近比較流行的 Real2Sim2Real。

這些方法的泛化性都比較差，別說各式各樣的場景了，就是對簡單的物理層面的泛化、對 position 的泛化理解都很難。

2024年我們確定在智源研究院里去做這件事情后，內(nèi)部討論了很久，在各種限制條件下不同學(xué)習(xí)手段甚至范式，它們所能去觸摸到的 Upper-Bound（上限）到底是什么。

最終選擇的路線就是2024年初定下來的：利用人的運動信息去訓(xùn)練和驅(qū)動模型。那里面用的數(shù)據(jù)，主要就是互聯(lián)網(wǎng)的視頻?；蛘哒f，我們想用海量的互聯(lián)網(wǎng)中人的運動視頻，來 scale up人形機器人的學(xué)習(xí)。當(dāng)然，這里主要是指預(yù)訓(xùn)練部分。

AI科技評論：現(xiàn)在用互聯(lián)網(wǎng)視頻去研究機器人學(xué)習(xí)的團隊也挺多的。

盧宗青：首先，你現(xiàn)在看到的很多所謂「互聯(lián)網(wǎng)視頻學(xué)習(xí)」，他們做的事情，比如訓(xùn)練 reward function（獎勵函數(shù)），如剛才所說，我們2023年已經(jīng)做過類似的探索了，但我們認為不直接。

所以，他們分析視頻，更多也focus（聚焦）在物體的運動軌跡上。比如說，一個視頻演示的是人拿杯子。其他人更多關(guān)注的是杯子的軌跡。而我們考慮的是，人的手怎么動。二十多個自由度，每一個自由度，每一個關(guān)節(jié)的位置是什么？

這樣的好處是，它有更直接的方法和更明確的學(xué)習(xí)目標(biāo)。

我們可以把人手的位置，都從這到那兒都標(biāo)出來。其實互聯(lián)網(wǎng)的人手的視頻，本身就記錄了非常復(fù)雜的操作：比如翻手機，這不是我們現(xiàn)在靈巧手能很好完成的事情，那么一個視頻里它就會記錄很多的信息。我們會直接把手這個姿態(tài)給標(biāo)出來，通過一些手部姿態(tài)3D模型來標(biāo)注，從而直接學(xué)習(xí)，也能知道對應(yīng)文本下如何去操作。

北大盧宗青：現(xiàn)階段世界模型和 VLA 都不觸及本質(zhì)?｜具身先鋒十人談

https://beingbeyond.github.io/MEgoHand/

最后，他們也沒有我們數(shù)據(jù)量大。他們可能對外宣傳說用了互聯(lián)網(wǎng)數(shù)據(jù)，其實也只試了幾百條。而我們的目標(biāo)是要scale up，像我們的姿態(tài)生成模型，現(xiàn)在已經(jīng)拿到了1500萬條數(shù)據(jù)。

AI科技評論：為什么其他人沒有走你們的技術(shù)路線？你們的優(yōu)勢和難點在哪里？

盧宗青：我只能猜測一下。他們可能很多人在用gripper（夾爪）。如果做夾爪，其實不太需要考慮人的形態(tài)如何。我們因為之前一直做大模型相關(guān)的事情，所以我們的研究 taste 就會想如何去更統(tǒng)一、更本質(zhì)地解決這個事情。

包括遙操采數(shù)據(jù)或者真機數(shù)據(jù)，因為數(shù)據(jù)量小，其實也只是面向應(yīng)用場景的解決方案、針對特定任務(wù)的優(yōu)化，這也不是我們終極想要做的事情。

我們相信，對于人形機器人和靈巧手來說，（假如要實現(xiàn)通用泛化的智能能力），用大量人的運動視頻數(shù)據(jù)做預(yù)訓(xùn)練，會是一個更好的方式。因為如果只是在 Simulator（仿真器）里去學(xué)操作或者全身運動的策略的話，它（學(xué)習(xí)的數(shù)據(jù)）是沒有任何先驗的。

你用強化學(xué)習(xí)來學(xué)，最后只是為了滿足獎勵函數(shù)而已。比如，我們在實際生活中抓一個杯子可能是這么抓（正手正常拿杯子），但你在 Simulator 里訓(xùn)練的結(jié)果可能是這么抓（反手擰手臂握杯子）。

但是我們?nèi)绻ㄟ^人的數(shù)據(jù)做預(yù)訓(xùn)練的話，其實是 Encode（編碼）人的先驗的（成功）經(jīng)驗。而先驗的東西對于一個比較難的問題，本身是有非常大的好處的。

AI科技評論：但有沒有可能機器人就是和人很不一樣。它可能到最后發(fā)現(xiàn)，最合適它自己的抓取方式就是這樣抓杯子的（反手擰手臂握杯子）。

盧宗青：（笑）強化學(xué)習(xí)的目標(biāo)就是將獎勵最大化，一切取決于你的獎勵是怎么定的。那有可能獎勵定義出來的就是這個樣子。

但強化學(xué)習(xí)從理論上來說，要讓每一個動作都遍歷所有的 State-action space，然后才能學(xué)習(xí)到一個最大化的 Return 的策略。但是如果我們有一個先驗的行為，那么就不需要把整個 State-action space 去遍歷（Traversal）一遍。

AI科技評論：所以人的動作雖然不一定是最完美的，但現(xiàn)階段是性價比最高、最容易scale up的方式，因為我們可以拿到的數(shù)據(jù)是最多的。

盧宗青：其實語言模型也不是讓模型學(xué)習(xí)如何用語言，而是在大量人已經(jīng)產(chǎn)生的數(shù)據(jù)集上面去學(xué)習(xí)。那么對于人形機器人，我們已經(jīng)有了人的行為和運動方式，為什么不去用呢？

而且人形有一個好處，即可以通過向下兼容。比如我們?nèi)丝梢钥刂埔粋€二指的夾爪去完成事情。那如果我們學(xué)會了人手的操作，模型可以（通過強化學(xué)習(xí)等后訓(xùn)練）去實現(xiàn)向下兼容。

包括雙足的機器人，我們做得好的話，也可以去向下兼容輪形移動的機器人，后者控制比較簡單。

AI科技評論：但是其他采用類似遙操采集、數(shù)據(jù)工廠的團隊，他們對外也是說，手上這些東西未來要服務(wù)通用人工智能。

盧宗青：我覺得他們目標(biāo)更單純，就是商業(yè)上的目標(biāo)，通過更好的軟件來賣出更多的本體。

我覺得一涉及到本體的話，容易把自己的技術(shù)路線帶偏，總是想著通過技術(shù)路線去更好地跟自己的本體去適配，來賣自己的本體。如果你要 overfit（過擬合）本體，遙操、真機肯定是有價值的。

但我覺得不是一個有效的途徑。因為現(xiàn)在的機器人的本體基本上都沒有收斂，數(shù)據(jù)很難復(fù)用。而且數(shù)據(jù)采集成本很高，也很難達到互聯(lián)網(wǎng)視頻的規(guī)模和多樣性。

而且現(xiàn)在真機采集數(shù)據(jù)更多是夾爪領(lǐng)域，大規(guī)模去遙操人形機器人是非常少的，只有一些科研方面的工作在做。如果你是說輪式+gripper的話，那也不是我們focus的機器人形態(tài)。

AI科技評論：現(xiàn)在我們手上有了1500萬數(shù)據(jù)，你覺得數(shù)據(jù)量夠嗎？

盧宗青：1500萬主要是指全身運動控制，比如走路跑步這些?，F(xiàn)在正在積累手部操作數(shù)據(jù)，是第一人稱視頻。我們目前在逐步建立這方面的數(shù)據(jù)集，之前大概已經(jīng)有300萬，最近蘋果又開源了一個數(shù)據(jù)集，包括最近隨著智能眼鏡的普及，我相信這方面數(shù)據(jù)會越來越多。

至于數(shù)據(jù)量需求的問題，我們可能要先驗證整個的pipeline后才能知道。

比如你如果幾年前問OpenAI需要多少語料，那么最終的答案是：他們用到了互聯(lián)網(wǎng)上所有的語料。我想具身也是同樣的。

AI科技評論：和海量文本數(shù)據(jù)量比，互聯(lián)網(wǎng)上能用的視頻內(nèi)容，是不是還有差距？

盧宗青：那看怎么比。如果從文件大小或者token來比的話，肯定（視頻）還是會大很多。

當(dāng)然，其實視頻和文字不一樣，文字是信息密度很高的信息形態(tài)，視頻相對沒那么高。

AI科技評論：所以我們還沒有進入大模型公司那種大力出奇跡的階段。

盧宗青：對，（笑）需要一萬張卡?，F(xiàn)在還不到時候，去年在智源探索時用了大概六七百張卡。

主要是姿態(tài)生成模型已經(jīng)基本定型了，而且我們現(xiàn)在正在驗證pipeline，做一些后訓(xùn)練一些操作，所以肯定不需要這么多卡。

AI科技評論：但你剛才提到，我們的目標(biāo)還是要去做基座能力和智能泛化。

盧宗青：驗證完pipeline之后肯定是需要更多的計算資源的。

最近Mary Meeker 有個報告，里面有提到，現(xiàn)在的訓(xùn)練代價是遠遠小于之前的語言模型的代價，她說的可能也就是之前的百分之幾。

目前具身模型本質(zhì)也是一個語言模型，我們現(xiàn)在是基于語言模型的backbone去訓(xùn)練，這樣它可以更容易用語言去理解指令，只是我們加入了更多的模態(tài)信息。

當(dāng)然，這方面其實也需要更多的探索。我們是否真的需要一個語言模型來backbone，或者我們learning from scratch去訓(xùn)練一個專門針對具身的模型，我覺得這是后面需要回答的問題。

或許未來我們可以探索出視頻信息進行預(yù)訓(xùn)練為主的模型，但可能要以后才知道。但現(xiàn)在基于語言模型去訓(xùn)練，其實是最省錢的。

03 現(xiàn)階段世界模型還很遠

AI科技評論：一些原來自動駕駛的人轉(zhuǎn)去具身大腦創(chuàng)業(yè)后，都在說世界模型這個概念。

盧宗青：世界模型不可能用。對機器人來說，世界模型用不了。

我跟你說什么樣的世界模型能用：要定義在action，手部的關(guān)節(jié)，也就是操作層面。如果僅僅是語義層面的話，沒有太多幫助。

除了像自動駕駛做導(dǎo)航外，沒有什么幫助。

AI科技評論：所以你是覺得它現(xiàn)階段落不到操作層面？所以沒有意義？

盧宗青：對機器人沒有意義，對游戲可能有意義。

我覺得很多機器人的公司，說把世界模型給具身用，不可能的。做機器人的公司要去做世界模型，簡直就是在搞笑。

而且車廠說的世界模型就是把整個環(huán)境構(gòu)圖建出來，如何去導(dǎo)航。那你可以理解它的世界模型（本質(zhì)）就是在建圖。

而我們說的世界模型就是：我推一下，杯子倒了，要怎樣推，杯子才會怎樣倒？這涉及到動作，沒有任何（先驗的）數(shù)據(jù)可以給你的。

AI科技評論：所以你怎么定義世界模型這個概念？

盧宗青：（具身的）世界模型就是根據(jù)你當(dāng)前做的action，然后（預(yù)測）下一幀發(fā)生了什么樣的變化。杯子如果這樣放在這里（桌角），它就會掉到地上，一切要符合物理規(guī)律。

它要滿足兩個性質(zhì)，一個是我們很多pysical engine，比如Mujoco，要符合物理規(guī)律，在視覺層面也能跟我們現(xiàn)實中的物理世界是一致的。（現(xiàn)在）不可能做到這個程度的。

機器人的世界模型應(yīng)該要和人類相似，因為我們是要在物理世界交互的。

AI科技評論：所以我們終究可以到那個地方，只是現(xiàn)階段因為數(shù)據(jù)的原因，所以不能成立？

盧宗青：現(xiàn)在大家想象的世界模型，和他們要做的世界模型，其實是兩個東西。

之前MIT的研究說語言模型已經(jīng)具備了world model的能力，但那個是abstract level層面的：

我做了什么事情，后面發(fā)生了什么？你是通過思考或者語言可以描述的，但是你不是去預(yù)測下一幀、下一個畫面是什么。而他們現(xiàn)在要做的世界模型是要預(yù)測下一個畫面是什么，不僅要做到這件事情，還要給機器人這樣的環(huán)境去訓(xùn)練。我認為現(xiàn)階段的技術(shù)手段不足以做到這件事情。

AI科技評論：那你怎么看現(xiàn)在“不同版本不同名字”的VLA層出不窮？

盧宗青：如前面所說，我覺得VLA本身沒有錯。只是大家更多是在gripper做操作，沒有touch到最本質(zhì)的問題。

AI科技評論：能再定義一下什么是最本質(zhì)的問題嗎？

盧宗青：怎么來學(xué)，learning paradigm（學(xué)習(xí)范式）是什么。

我們到底是帶大量action數(shù)據(jù)去做預(yù)訓(xùn)練，還是說我只是在VLM上加入action head。這是兩個不一樣的范式。

我個人是希望大規(guī)模把互聯(lián)網(wǎng)上的動作數(shù)據(jù)，放到前面去學(xué)習(xí)，然后再去對齊。他們是說，我現(xiàn)在有個VLM，訓(xùn)練完了以后，把真機數(shù)據(jù)堆在后面去訓(xùn)練。而且真機數(shù)據(jù)和互聯(lián)網(wǎng)數(shù)據(jù)也差了幾個量級的。

AI科技評論：所以你覺得未來范式的方向是前者。

盧宗青：是的，未來的范式會收斂到我們這一條路上：通過互聯(lián)網(wǎng)的視頻去學(xué)習(xí)人的行為。

當(dāng)然我說的只是人形機器人和靈巧手，gripper的形態(tài)不在我們的考慮范圍內(nèi)。

04 短期沒有商業(yè)化考量，融資是雙向選擇

AI科技評論：我們想要解決更本質(zhì)可能就意味著實現(xiàn)難度更大、商業(yè)化能力沒那么快。那你是怎么考慮這個問題？

盧宗青：我們盡可能把思路傳達給投資人，讓他們?nèi)uy in這樣一個技術(shù)路線，作為一個通用的解決方案，還是有一些投資人逐漸在認可這樣的技術(shù)路線。

當(dāng)然我們一開始就沒有動用特別多的計算資源，也是在一個相對受限的情況下去辦這件事情。

AI科技評論：有商業(yè)化的嘗試嗎或者規(guī)劃嗎？

盧宗青：規(guī)劃不太能說，但現(xiàn)在沒有商業(yè)化的嘗試。

AI科技評論：你現(xiàn)在有合伙人嗎？

盧宗青：沒有聯(lián)創(chuàng)這個級別的，正在培養(yǎng)團隊成員，同時也在接觸中。

AI科技評論：你在跟投資人聊的時候，對于我們商業(yè)化落地方面的想法，投資人是完全沒有問題的嗎？

盧宗青：有些投資人肯定會問的，但這其實是個雙向選擇吧。有一些投資人聽了這個技術(shù)路線以后，他們會非常excited。

我覺得未來我們需要商業(yè)化的時候肯定會去嘗試，但現(xiàn)在通用的solution，近期之內(nèi)是不大可能性的。（停頓）至少一年之內(nèi)不可能。但沿途我們?nèi)プ鲆恍┥虡I(yè)化落地也是可以的，我自己是不排斥的。

AI科技評論：這有點像OpenAI，早期是一個非營利性的組織，有很多富人去支持，做了很多未來的嘗試。

盧宗青：對，我覺得現(xiàn)在環(huán)境會比之前好很多。包括Pi其實他們早期也就是研究，沒有任何產(chǎn)品。

AI科技評論：但坦率講，中國和美國的投資環(huán)境還是不太一樣的。國內(nèi)投資人可能嘴上很樂觀的，但心底對國內(nèi)的前沿探索是沒有那么自信的，還是偏好一些工程性的落地應(yīng)用的項目。

盧宗青：是的。確實就像你剛才說的，技術(shù)的發(fā)展是有非常大的不確定性，但是一些投資人就喜歡看到確定性的東西，其實本質(zhì)是相悖的，所以好多投資人說投什么非共識，最后投出來的項目全是共識。

但可能這幾年會變好一些。像DeepSeek和機器人硬件的成功是一種鼓勵，尤其是機器人的硬件體系主要是在國內(nèi)的。

AI科技評論：其實具身大模型和語言大模型還不太一樣。語言大模型在Day One的時候，投資人就有共識，認為這是美國一套、中國一套的生意模型，所以才有了后面快速起來的六小虎。但具身應(yīng)該沒有語言模型的政策壁壘，所以你們似乎從第一天開始就是全球競爭的格局。

盧宗青：我覺得很好啊，這也是全球性的機會。本來也不該有壁壘，本來就是該全部一起競爭的。

05 BeingBeyond 將分別是兩個模型的名字

AI科技評論：公司為什么叫 BeingBeyond？模型也是叫Being-M0。

盧宗青：Being其實就是生成和存在，Human Being里的 Being。而且它既是名詞又是正在進行時，所以我們后面加了一個Beyond。我們希望最后能做出Robot Being吧。

AI科技評論：所以這個名字里本來就暗含了實現(xiàn)AGI的愿景，因為要“超越存在”。

盧宗青：是的。我們是這樣安排的，我們的第一代模型基本會用 Being來開頭，后面的模型會考慮用Beyond開頭，但就不知道會是什么時候了。

AI科技評論：Beyond模型會側(cè)重什么呢?

盧宗青：如果發(fā)Beyond，那就代表我們真的是全球領(lǐng)先的模型了。

AI科技評論：其實我第一眼看到這個名字，我在想會不會是因為你們不做“本體”機器人硬件，所以要超越本體。

盧宗青：是的，是一語雙關(guān)。而且如果在模型命名上，Being-0其實也代表正在進行中的0號產(chǎn)品。

AI科技評論：這個命名也非常有意思，為什么是從0開始發(fā)布產(chǎn)品？

盧宗青：因為0號是我們最初一個還不夠成熟的嘗試，它不代表我們最終要做的事情，而這條路會是一個不斷迭代的過程。

而且后面的話，應(yīng)該也不會命名1。要命名為1的話，我感覺應(yīng)該是一個（停頓）跨越式的模型吧。

但是 Motion 模型的話，可能會出1，因為它是我們剛才提到的1500萬條數(shù)據(jù)上已經(jīng)scale up的第一個東西。

AI科技評論：如果不用1的話，會怎么命名呢，0.1、0.5？

盧宗青：（笑）scale up了以后就會有1的。

AI科技評論：公司現(xiàn)在多少人？

盧宗青：全職員工其實就五個人，加上實習(xí)生大概二十來人。

AI科技評論：其實這個規(guī)模在創(chuàng)業(yè)公司里都算很精簡的了吧。

盧宗青：是的，但他們每個人都做了很多年模型相關(guān)的研究了。

AI科技評論：那如果給你一大筆錢呢？你會去配置一點資源去嘗試硬件嗎？或者你會去多買點卡之類的。

盧宗青：現(xiàn)在不是做硬件的最佳的時刻，因為硬件形態(tài)還沒有收斂，而未來具身的很多地方肯定都會標(biāo)準(zhǔn)化的。

買卡也暫時不太會。（即便有錢了）可能我們還是這么幾個人，在這樣一個辦公室里。因為事兒還沒有到要scale up的時候，我們暫時還不需要那么多資源。

AI科技評論：多久以后可以scale up？

盧宗青：我覺得兩三年吧。

AI科技評論：那確實需要很好的耐心，因為兩三年可能會發(fā)生很多事情。

盧宗青：兩三年是指scale up的時間，這個過程不是說一直不做商業(yè)化，還是有一些公司對我們的技術(shù)路線有興趣的。

AI科技評論：你有特別喜歡的創(chuàng)業(yè)者或者公司嗎？

盧宗青：Steve Jobs。我認為我們?nèi)绻袡C會的話，未來也可能有一天會做一個自己的機器人。因為所有的具身模型都是在機器人上的，我們也很希望可以去直接面對客戶，只是不是今天而已。而且因為我們的目標(biāo)是通用的，所以我們最終其實還是希望有2C的機器人。

AI科技評論：最后一個問題。因為我們最大的數(shù)據(jù)集是人類的，所以如果實現(xiàn)通用泛化，機器人就自然會以人類動作為主要參考形態(tài)。換言之，人類自己的運動模式，最終決定了這個文明未來機器人的形態(tài)。對嗎？

盧宗青：對。

（作者微信：hai2023zi 添加請備注公司-姓名）

（雷峰網(wǎng)(公眾號：雷峰網(wǎng))雷峰網(wǎng)）

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

0人收藏

相關(guān)文章

郭海惟

高級主筆

微信：hai2023zi

掃描關(guān)注作者微信

發(fā)私信

當(dāng)月熱門文章

北大盧宗青：現(xiàn)階段世界模型和 VLA 都不觸及本質(zhì)?｜具身先鋒十人談

01 研究強化學(xué)習(xí)是因為 DeepMind

02 人類視頻是機器人通用智能的捷徑

03 現(xiàn)階段世界模型還很遠

04 短期沒有商業(yè)化考量，融資是雙向選擇

05 BeingBeyond 將分別是兩個模型的名字

04 短期沒有商業(yè)化考量，融資是雙向選擇