0
本文作者: 郭海惟 | 2025-06-20 16:19 |
作為一名具身大腦的創(chuàng)業(yè)者,盧宗青有著金光閃閃的履歷:
他是緊隨DeepMind之后,中國新生代的強化學(xué)習(xí)研究者。北京大學(xué)計算機學(xué)院長聘副教授,擔(dān)任過智源研究院多模態(tài)交互研究中心負責(zé)人,負責(zé)過首個國家自然科學(xué)基金委原創(chuàng)探索計劃通用智能體項目,還同時在NeurIPS、ICLR、ICML等機器學(xué)習(xí)的國際頂級會議擔(dān)任領(lǐng)域主席。
早在2023年,他旗下團隊便有利用多模態(tài)模型研究通用 Agent 的研究嘗試,讓 Agent 玩《荒野大鏢客2》和辦公,使其成為第一個從零開始在AAA級游戲中完成具體任務(wù)的 LLM 智能體。相關(guān)論文幾經(jīng)波折,今年終于被 ICML 2025 錄用。不過他自述對那份研究其實不夠滿意,因為“泛化性不足”。
當(dāng)完成那些研究以后,盧宗青意識到“當(dāng)前的多模態(tài)模型缺乏與世界交互的能力”。因為模型缺少學(xué)習(xí)物理交互的數(shù)據(jù),所以我們看到的那些泛化的能力本質(zhì)都是“抽象”的,它終究無法理解動作和世界的關(guān)系,自然也無法預(yù)測世界。
這如今成為他想在具身智能創(chuàng)業(yè)的起點:開發(fā)一個通用的具身人工智能模型。
盧宗青微信頭像的氣質(zhì)是有些桀驁不馴的:一個戴著墨鏡的青年男人,留著冷峻的絡(luò)腮胡子,白色T恤上是一個墨色的蘋果。你下意識會以為,這是個隨時會 solo 一段搖滾或者罵幾句臟話的文藝青年。不過當(dāng)你見到他,坐下來聊天的時候,你會發(fā)現(xiàn)他就是一個學(xué)者和老師的樣子,說話溫文爾雅,笑起來也很溫和,即便遇到些蠢問題也能忍住耐心講下去。然后直到你跟他聊技術(shù)的愿景,他又會變得桀驁有態(tài)度。
或許是因為,他想要的東西實在是太大了。
在與 AI 科技評論的對談中,他反復(fù)傳達的事情是:他與其他人的立場出發(fā)點是不同的。其他人要的是落地、是應(yīng)用、大約是在現(xiàn)階段智能上限的基礎(chǔ)上修修補補。而他們的“taste”是去“追求更統(tǒng)一、更本質(zhì)的solution(解法)”。后者,大約可以理解為一個全新的、適用于通用具身智能的通用能力基座。
所以他會不斷說“VLA沒錯”、“遙操作和真機數(shù)據(jù)有價值”,然后轉(zhuǎn)而接一個“但是”。你會覺得他確實是不欣賞那些東西的,或許他的關(guān)注點已經(jīng)不在那里了。他說“某些具身創(chuàng)業(yè)公司說的世界模型是在搞笑”,究其本質(zhì)僅僅是在建圖,最多只能像自動駕駛做導(dǎo)航。那個瞬間他會表現(xiàn)出明顯的不悅,好像有人正在冒犯他?;蛟S是因為有些成熟的技術(shù)市場人確實刻意混淆了一些概念,讓當(dāng)下和未來的范式變得模糊。
他所表達的對技術(shù)的審美,和楊立昆是有點相似的:他們堅持認為現(xiàn)階段的語言模型無法抵達一種通用泛化的人工智能,而只有更多元的視覺信息,才能通向 AGI。要實現(xiàn)這一點,他們只能選擇一條路,即廣泛大量的互聯(lián)網(wǎng)視頻。
這其實就是盧宗青創(chuàng)立的公司「智在無界」BeingBeyond 正在的事情,他們通過標(biāo)注1500萬條互聯(lián)網(wǎng)視頻中人類關(guān)節(jié)的動作,讓模型去學(xué)習(xí)人類的運動模式。
(https://beingbeyond.github.io/Being-M0/)
他們不會跟你講,互聯(lián)網(wǎng)視頻有多么難搞。他們只會說,互聯(lián)網(wǎng)視頻數(shù)據(jù)是唯一可以scale up的道路。我們除了這條路,再沒有別的路可以選擇,再苦再難華山也只有這么一條路,但不能因此就不上了。
大概出于類似的原因,Being Beyond 是現(xiàn)在為數(shù)不多的,將其第一代模型以 0 為開頭命名的團隊(相比之下,一些公司直接將第一代產(chǎn)品序列命名為 3.5)。他甚至拒絕將第二代模型命名為 1,也拒絕透露他們接下來命名的數(shù)字規(guī)則。
所以在專訪的三天后,AI 科技評論在北京的一個知名大會上再次看到他時,你會不由自主覺得他其實很孤獨。因為所有人都在聊VLA,聊世界模型,聊各種各樣的遙操和真機數(shù)據(jù)的采集、改進與合成、聊場景、聊操控。他口中那些“有價值”但“不本質(zhì)”的玩意兒,在那個會場里幾乎淹沒了他。
這不由讓人想起,他聊強化學(xué)習(xí)歷史時說,中國強化學(xué)習(xí)起步相對晚一步,原因之一是 AlexNet 出來以后,大家都在搞CV。他聊融資時說,“很多投資人都說要投非共識,但投出來的全都是共識。”或許這句話不僅僅只是投資,在很多方面都是適用的。所以那場面很難不讓人想起,過去那些年的 AI 四小龍,它們也是在媒體鑼鼓喧天的氛圍中代表了一種人類進步主義的未來。直到DeepMind 和 OpenAI 再次改寫了歷史,CV 路線的 AI 就仿佛一夜之間淡出了人們的視線。
我們不知道 BeingBeyond 能否真的能代表未來,更不知道這家年僅5個月的公司,是否真的能成為一家穿越周期的代表時代的技術(shù)領(lǐng)導(dǎo)者。我們甚至不知道,他提出的技術(shù)路線是否如他所言,真的能抵達他口中的星辰大海。
不過其中的一些問題,他可能也不全然知道答案。他很明白接下來的路有多難:當(dāng)他被問到,這條路多久能跑通、能scale up?他明顯停頓了一下,咬咬牙說兩三年吧。可兩三年也很長,變化會很多。他說路上還有別的事情可以做。他聊起 OpenAI 的時候眼睛會發(fā)亮,說他們早期真的搞了很多費錢但沒有經(jīng)濟效益的事情。然后他又會拉回來,回到一個同樣反復(fù)出現(xiàn)的主題上:
如何在受限的情況下,把事情辦成了。
這是具身智能大腦的題中義:相比于大語言模型坐享人類文明幾千年的文字富礦,具身領(lǐng)域好用的視頻數(shù)據(jù)實在是窮得可憐。這當(dāng)然也是一個創(chuàng)業(yè)公司的題中義,絕非人人都能有 OpenAI 的金湯匙。BeingBeyond 剛宣布了聯(lián)想之星、星連資本“數(shù)千萬人民幣”的天使輪融資,錢不算少,但也絕不算充裕。
不過或許正如盧宗青所說,如果你站在一個終局解決方案的立場上來看,很多事情大概也就并不真的是個問題了。
盧宗青和他的BeingBeyond
這是他創(chuàng)立 BeingBeyond 后接受的第一個專訪。我們簡單地回顧了他的學(xué)術(shù)歷史,并探討了具身智能泛化路線和公司的愿景。以下是本次專訪的內(nèi)容,AI 科技評論作了不改原意的整理與編輯:
AI科技評論:今天接受采訪的身份是創(chuàng)業(yè)者,還是教授?
盧宗青:(笑)還是聊聊技術(shù)吧。
AI科技評論:我們看到你在研究具身之前,其實有非常大的學(xué)術(shù)方向變化。
盧宗青:對,我本科是材料,研究生轉(zhuǎn)去電子學(xué)院,一直做計算機系統(tǒng)的相關(guān)工作,切入點更多是做算法的優(yōu)化問題,比如NP問題。在南洋理工讀完博士后,去賓州州立大學(xué)做了兩年多博士后,也是類似的事情。
選擇做強化學(xué)習(xí),是2017年回國后,加入北大后選擇的方向。一方面看到DeepMind跑Atari Game(雅達利游戲,知名復(fù)古游戲廠商)后發(fā)了一些成果,另一方面也看到強化學(xué)習(xí)確實在解決問題,例如來解決NP問題的案例。
AI科技評論:有什么印象特別深的例子嗎?
盧宗青:就還是David Silver(DeepMind首席科學(xué)家)吧,他們 2016 年在《Nature》上發(fā)的強化學(xué)習(xí)的論文(即《Mastering the game of Go with deep neural networks and tree search》,AlphaGo當(dāng)年憑借該論文中的呈現(xiàn)成果擊敗李世石)。
因為在此之前,學(xué)術(shù)界還大多關(guān)注計算機感知層面的研究,而David Silver的團隊在做決策層面的突破。而決策層的發(fā)展才能構(gòu)造更通用的智能。
AI科技評論:整個研究的愿景一下就大了。
盧宗青:對。其實我們現(xiàn)在研究的計算機系統(tǒng)領(lǐng)域的問題,大部分都已經(jīng)是決策問題了。比如最簡單的控制Transmission Power(信號傳輸功率),不管是WiFi還是無線基站的控制,根本上就是一個決策問題,而非感知問題。
AI科技評論:那是如何從強化學(xué)習(xí)領(lǐng)域轉(zhuǎn)投具身智能領(lǐng)域的探索呢?
盧宗青:轉(zhuǎn)變主要是在智源研究院的時候。2022年我在智源設(shè)立了“多模態(tài)交互研究中心”,當(dāng)時ChatGPT剛出來,我們想去探索強化學(xué)習(xí)和大模型的結(jié)合。當(dāng)然,不是現(xiàn)在的RLHF或者RL和推理的結(jié)合。我們更多是想說,把語言模型作為一個規(guī)劃者(Planner)的角色,如何跟下游的RL策略融合起來。
我們會基于開源模型,去訓(xùn)練一些多模態(tài)的模型,也會根據(jù)一些閉源模型做探索。比如2023年我們有一個研究,用GPT-4V去操控電腦,讓它去讀屏幕然后操作鼠標(biāo)和鍵盤。
AI科技評論:現(xiàn)在有很多 Agent 創(chuàng)業(yè)團隊在做類似交互的事情,但你們2023年就在做了。
盧宗青:對,我們其實很早已經(jīng)做過了。
除了這個,我們還跑了很多游戲的測試,像《RDR2》(荒野大鏢客2),相當(dāng)于一個比較早的agent,叫Cradle,那篇論文今年剛中了ICML。
其實《RDR2》這樣的3A游戲,已經(jīng)蠻像一個真實的物理世界的。但我們發(fā)現(xiàn)單純用互聯(lián)網(wǎng)信息訓(xùn)練出來的模型,決策能力非常差。它語義上做planning是可以的,但要和環(huán)境交互、預(yù)測事件的后果(比較難的)。
我們當(dāng)時為此做了很多工作,各種prompt engineering、In-context Learning、memory 機制。做完這些后我們認為,當(dāng)前的多模態(tài)模型沒有和世界交互的能力。
(Cradle的論文正式發(fā)布于2024年3月,當(dāng)時它能夠在游戲《荒野大鏢客2》中完成長達40分鐘的主線任務(wù)并探索開放世界,可以獨立完成辦公、修圖、網(wǎng)頁瀏覽等任務(wù)。https://baai-agents.github.io/Cradle/)
AI科技評論:但如果我們的模型在游戲里都很難實現(xiàn)交互,那么在物理世界里的難度應(yīng)該就更大了。
盧宗青:如果只針對一個游戲去做訓(xùn)練,其實已經(jīng)可以做到不錯的效果了。說它有不足,是因為很難復(fù)用到其他的游戲中去,泛化能力很弱。
因為模型其實沒有學(xué)習(xí)物理交互的數(shù)據(jù)。我們跟物理世界交互,往往動作決定了世界的下一個狀態(tài)是什么樣子的。所以我們認為,如果在物理世界中去訓(xùn)練,有真實的數(shù)據(jù),那(訓(xùn)出來的模型)就是可以有通用性的。
所以我們在 2024 年開始去探索具身以后,其實也嘗試了很多技術(shù)手段去采集數(shù)據(jù)。比如遙操、Sim2Real,還有最近比較流行的 Real2Sim2Real。
這些方法的泛化性都比較差,別說各式各樣的場景了,就是對簡單的物理層面的泛化、對 position 的泛化理解都很難。
2024年我們確定在智源研究院里去做這件事情后,內(nèi)部討論了很久,在各種限制條件下不同學(xué)習(xí)手段甚至范式,它們所能去觸摸到的 Upper-Bound(上限)到底是什么。
最終選擇的路線就是2024年初定下來的:利用人的運動信息去訓(xùn)練和驅(qū)動模型。那里面用的數(shù)據(jù),主要就是互聯(lián)網(wǎng)的視頻?;蛘哒f,我們想用海量的互聯(lián)網(wǎng)中人的運動視頻,來 scale up人形機器人的學(xué)習(xí)。當(dāng)然,這里主要是指預(yù)訓(xùn)練部分。
AI科技評論:現(xiàn)在用互聯(lián)網(wǎng)視頻去研究機器人學(xué)習(xí)的團隊也挺多的。
盧宗青:首先,你現(xiàn)在看到的很多所謂「互聯(lián)網(wǎng)視頻學(xué)習(xí)」,他們做的事情,比如訓(xùn)練 reward function(獎勵函數(shù)),如剛才所說,我們2023年已經(jīng)做過類似的探索了,但我們認為不直接。
所以,他們分析視頻,更多也focus(聚焦)在物體的運動軌跡上。比如說,一個視頻演示的是人拿杯子。其他人更多關(guān)注的是杯子的軌跡。而我們考慮的是,人的手怎么動。二十多個自由度,每一個自由度,每一個關(guān)節(jié)的位置是什么?
這樣的好處是,它有更直接的方法和更明確的學(xué)習(xí)目標(biāo)。
我們可以把人手的位置,都從這到那兒都標(biāo)出來。其實互聯(lián)網(wǎng)的人手的視頻,本身就記錄了非常復(fù)雜的操作:比如翻手機,這不是我們現(xiàn)在靈巧手能很好完成的事情,那么一個視頻里它就會記錄很多的信息。我們會直接把手這個姿態(tài)給標(biāo)出來,通過一些手部姿態(tài)3D模型來標(biāo)注,從而直接學(xué)習(xí),也能知道對應(yīng)文本下如何去操作。
https://beingbeyond.github.io/MEgoHand/
最后,他們也沒有我們數(shù)據(jù)量大。他們可能對外宣傳說用了互聯(lián)網(wǎng)數(shù)據(jù),其實也只試了幾百條。而我們的目標(biāo)是要scale up,像我們的姿態(tài)生成模型,現(xiàn)在已經(jīng)拿到了1500萬條數(shù)據(jù)。
AI科技評論:為什么其他人沒有走你們的技術(shù)路線?你們的優(yōu)勢和難點在哪里?
盧宗青:我只能猜測一下。他們可能很多人在用gripper(夾爪)。如果做夾爪,其實不太需要考慮人的形態(tài)如何。我們因為之前一直做大模型相關(guān)的事情,所以我們的研究 taste 就會想如何去更統(tǒng)一、更本質(zhì)地解決這個事情。
包括遙操采數(shù)據(jù)或者真機數(shù)據(jù),因為數(shù)據(jù)量小,其實也只是面向應(yīng)用場景的解決方案、針對特定任務(wù)的優(yōu)化,這也不是我們終極想要做的事情。
我們相信,對于人形機器人和靈巧手來說,(假如要實現(xiàn)通用泛化的智能能力),用大量人的運動視頻數(shù)據(jù)做預(yù)訓(xùn)練,會是一個更好的方式。因為如果只是在 Simulator(仿真器)里去學(xué)操作或者全身運動的策略的話,它(學(xué)習(xí)的數(shù)據(jù))是沒有任何先驗的。
你用強化學(xué)習(xí)來學(xué),最后只是為了滿足獎勵函數(shù)而已。比如,我們在實際生活中抓一個杯子可能是這么抓(正手正常拿杯子),但你在 Simulator 里訓(xùn)練的結(jié)果可能是這么抓(反手擰手臂握杯子)。
但是我們?nèi)绻ㄟ^人的數(shù)據(jù)做預(yù)訓(xùn)練的話,其實是 Encode(編碼)人的先驗的(成功)經(jīng)驗。而先驗的東西對于一個比較難的問題,本身是有非常大的好處的。
AI科技評論:但有沒有可能機器人就是和人很不一樣。它可能到最后發(fā)現(xiàn),最合適它自己的抓取方式就是這樣抓杯子的(反手擰手臂握杯子)。
盧宗青:(笑)強化學(xué)習(xí)的目標(biāo)就是將獎勵最大化,一切取決于你的獎勵是怎么定的。那有可能獎勵定義出來的就是這個樣子。
但強化學(xué)習(xí)從理論上來說,要讓每一個動作都遍歷所有的 State-action space,然后才能學(xué)習(xí)到一個最大化的 Return 的策略。但是如果我們有一個先驗的行為,那么就不需要把整個 State-action space 去遍歷(Traversal)一遍。
AI科技評論:所以人的動作雖然不一定是最完美的,但現(xiàn)階段是性價比最高、最容易scale up的方式,因為我們可以拿到的數(shù)據(jù)是最多的。
盧宗青:其實語言模型也不是讓模型學(xué)習(xí)如何用語言,而是在大量人已經(jīng)產(chǎn)生的數(shù)據(jù)集上面去學(xué)習(xí)。那么對于人形機器人,我們已經(jīng)有了人的行為和運動方式,為什么不去用呢?
而且人形有一個好處,即可以通過向下兼容。比如我們?nèi)丝梢钥刂埔粋€二指的夾爪去完成事情。那如果我們學(xué)會了人手的操作,模型可以(通過強化學(xué)習(xí)等后訓(xùn)練)去實現(xiàn)向下兼容。
包括雙足的機器人,我們做得好的話,也可以去向下兼容輪形移動的機器人,后者控制比較簡單。
AI科技評論:但是其他采用類似遙操采集、數(shù)據(jù)工廠的團隊,他們對外也是說,手上這些東西未來要服務(wù)通用人工智能。
盧宗青:我覺得他們目標(biāo)更單純,就是商業(yè)上的目標(biāo),通過更好的軟件來賣出更多的本體。
我覺得一涉及到本體的話,容易把自己的技術(shù)路線帶偏,總是想著通過技術(shù)路線去更好地跟自己的本體去適配,來賣自己的本體。如果你要 overfit(過擬合)本體,遙操、真機肯定是有價值的。
但我覺得不是一個有效的途徑。因為現(xiàn)在的機器人的本體基本上都沒有收斂,數(shù)據(jù)很難復(fù)用。而且數(shù)據(jù)采集成本很高,也很難達到互聯(lián)網(wǎng)視頻的規(guī)模和多樣性。
而且現(xiàn)在真機采集數(shù)據(jù)更多是夾爪領(lǐng)域,大規(guī)模去遙操人形機器人是非常少的,只有一些科研方面的工作在做。如果你是說輪式+gripper的話,那也不是我們focus的機器人形態(tài)。
AI科技評論:現(xiàn)在我們手上有了1500萬數(shù)據(jù),你覺得數(shù)據(jù)量夠嗎?
盧宗青:1500萬主要是指全身運動控制,比如走路跑步這些?,F(xiàn)在正在積累手部操作數(shù)據(jù),是第一人稱視頻。我們目前在逐步建立這方面的數(shù)據(jù)集,之前大概已經(jīng)有300萬,最近蘋果又開源了一個數(shù)據(jù)集,包括最近隨著智能眼鏡的普及,我相信這方面數(shù)據(jù)會越來越多。
至于數(shù)據(jù)量需求的問題,我們可能要先驗證整個的pipeline后才能知道。
比如你如果幾年前問OpenAI需要多少語料,那么最終的答案是:他們用到了互聯(lián)網(wǎng)上所有的語料。我想具身也是同樣的。
AI科技評論:和海量文本數(shù)據(jù)量比,互聯(lián)網(wǎng)上能用的視頻內(nèi)容,是不是還有差距?
盧宗青:那看怎么比。如果從文件大小或者token來比的話,肯定(視頻)還是會大很多。
當(dāng)然,其實視頻和文字不一樣,文字是信息密度很高的信息形態(tài),視頻相對沒那么高。
AI科技評論:所以我們還沒有進入大模型公司那種大力出奇跡的階段。
盧宗青:對,(笑)需要一萬張卡?,F(xiàn)在還不到時候,去年在智源探索時用了大概六七百張卡。
主要是姿態(tài)生成模型已經(jīng)基本定型了,而且我們現(xiàn)在正在驗證pipeline,做一些后訓(xùn)練一些操作,所以肯定不需要這么多卡。
AI科技評論:但你剛才提到,我們的目標(biāo)還是要去做基座能力和智能泛化。
盧宗青:驗證完pipeline之后肯定是需要更多的計算資源的。
最近Mary Meeker 有個報告,里面有提到,現(xiàn)在的訓(xùn)練代價是遠遠小于之前的語言模型的代價,她說的可能也就是之前的百分之幾。
目前具身模型本質(zhì)也是一個語言模型,我們現(xiàn)在是基于語言模型的backbone去訓(xùn)練,這樣它可以更容易用語言去理解指令,只是我們加入了更多的模態(tài)信息。
當(dāng)然,這方面其實也需要更多的探索。我們是否真的需要一個語言模型來backbone,或者我們learning from scratch去訓(xùn)練一個專門針對具身的模型,我覺得這是后面需要回答的問題。
或許未來我們可以探索出視頻信息進行預(yù)訓(xùn)練為主的模型,但可能要以后才知道。但現(xiàn)在基于語言模型去訓(xùn)練,其實是最省錢的。
AI科技評論:一些原來自動駕駛的人轉(zhuǎn)去具身大腦創(chuàng)業(yè)后,都在說世界模型這個概念。
盧宗青:世界模型不可能用。對機器人來說,世界模型用不了。
我跟你說什么樣的世界模型能用:要定義在action,手部的關(guān)節(jié),也就是操作層面。如果僅僅是語義層面的話,沒有太多幫助。
除了像自動駕駛做導(dǎo)航外,沒有什么幫助。
AI科技評論:所以你是覺得它現(xiàn)階段落不到操作層面?所以沒有意義?
盧宗青:對機器人沒有意義,對游戲可能有意義。
我覺得很多機器人的公司,說把世界模型給具身用,不可能的。做機器人的公司要去做世界模型,簡直就是在搞笑。
而且車廠說的世界模型就是把整個環(huán)境構(gòu)圖建出來,如何去導(dǎo)航。那你可以理解它的世界模型(本質(zhì))就是在建圖。
而我們說的世界模型就是:我推一下,杯子倒了,要怎樣推,杯子才會怎樣倒?這涉及到動作,沒有任何(先驗的)數(shù)據(jù)可以給你的。
AI科技評論:所以你怎么定義世界模型這個概念?
盧宗青:(具身的)世界模型就是根據(jù)你當(dāng)前做的action,然后(預(yù)測)下一幀發(fā)生了什么樣的變化。杯子如果這樣放在這里(桌角),它就會掉到地上,一切要符合物理規(guī)律。
它要滿足兩個性質(zhì),一個是我們很多pysical engine,比如Mujoco,要符合物理規(guī)律,在視覺層面也能跟我們現(xiàn)實中的物理世界是一致的。(現(xiàn)在)不可能做到這個程度的。
機器人的世界模型應(yīng)該要和人類相似,因為我們是要在物理世界交互的。
AI科技評論:所以我們終究可以到那個地方,只是現(xiàn)階段因為數(shù)據(jù)的原因,所以不能成立?
盧宗青:現(xiàn)在大家想象的世界模型,和他們要做的世界模型,其實是兩個東西。
之前MIT的研究說語言模型已經(jīng)具備了world model的能力,但那個是abstract level層面的:
我做了什么事情,后面發(fā)生了什么?你是通過思考或者語言可以描述的,但是你不是去預(yù)測下一幀、下一個畫面是什么。而他們現(xiàn)在要做的世界模型是要預(yù)測下一個畫面是什么,不僅要做到這件事情,還要給機器人這樣的環(huán)境去訓(xùn)練。我認為現(xiàn)階段的技術(shù)手段不足以做到這件事情。
AI科技評論:那你怎么看現(xiàn)在“不同版本不同名字”的VLA層出不窮?
盧宗青:如前面所說,我覺得VLA本身沒有錯。只是大家更多是在gripper做操作,沒有touch到最本質(zhì)的問題。
AI科技評論:能再定義一下什么是最本質(zhì)的問題嗎?
盧宗青:怎么來學(xué),learning paradigm(學(xué)習(xí)范式)是什么。
我們到底是帶大量action數(shù)據(jù)去做預(yù)訓(xùn)練,還是說我只是在VLM上加入action head。這是兩個不一樣的范式。
我個人是希望大規(guī)模把互聯(lián)網(wǎng)上的動作數(shù)據(jù),放到前面去學(xué)習(xí),然后再去對齊。他們是說,我現(xiàn)在有個VLM,訓(xùn)練完了以后,把真機數(shù)據(jù)堆在后面去訓(xùn)練。而且真機數(shù)據(jù)和互聯(lián)網(wǎng)數(shù)據(jù)也差了幾個量級的。
AI科技評論:所以你覺得未來范式的方向是前者。
盧宗青:是的,未來的范式會收斂到我們這一條路上:通過互聯(lián)網(wǎng)的視頻去學(xué)習(xí)人的行為。
當(dāng)然我說的只是人形機器人和靈巧手,gripper的形態(tài)不在我們的考慮范圍內(nèi)。
AI科技評論:我們想要解決更本質(zhì)可能就意味著實現(xiàn)難度更大、商業(yè)化能力沒那么快。那你是怎么考慮這個問題?
盧宗青:我們盡可能把思路傳達給投資人,讓他們?nèi)uy in這樣一個技術(shù)路線,作為一個通用的解決方案,還是有一些投資人逐漸在認可這樣的技術(shù)路線。
當(dāng)然我們一開始就沒有動用特別多的計算資源,也是在一個相對受限的情況下去辦這件事情。
AI科技評論:有商業(yè)化的嘗試嗎或者規(guī)劃嗎?
盧宗青:規(guī)劃不太能說,但現(xiàn)在沒有商業(yè)化的嘗試。
AI科技評論:你現(xiàn)在有合伙人嗎?
盧宗青:沒有聯(lián)創(chuàng)這個級別的,正在培養(yǎng)團隊成員,同時也在接觸中。
AI科技評論:你在跟投資人聊的時候,對于我們商業(yè)化落地方面的想法,投資人是完全沒有問題的嗎?
盧宗青:有些投資人肯定會問的,但這其實是個雙向選擇吧。有一些投資人聽了這個技術(shù)路線以后,他們會非常excited。
我覺得未來我們需要商業(yè)化的時候肯定會去嘗試,但現(xiàn)在通用的solution,近期之內(nèi)是不大可能性的。(停頓)至少一年之內(nèi)不可能。但沿途我們?nèi)プ鲆恍┥虡I(yè)化落地也是可以的,我自己是不排斥的。
AI科技評論:這有點像OpenAI,早期是一個非營利性的組織,有很多富人去支持,做了很多未來的嘗試。
盧宗青:對,我覺得現(xiàn)在環(huán)境會比之前好很多。包括Pi其實他們早期也就是研究,沒有任何產(chǎn)品。
AI科技評論:但坦率講,中國和美國的投資環(huán)境還是不太一樣的。國內(nèi)投資人可能嘴上很樂觀的,但心底對國內(nèi)的前沿探索是沒有那么自信的,還是偏好一些工程性的落地應(yīng)用的項目。
盧宗青:是的。確實就像你剛才說的,技術(shù)的發(fā)展是有非常大的不確定性,但是一些投資人就喜歡看到確定性的東西,其實本質(zhì)是相悖的,所以好多投資人說投什么非共識,最后投出來的項目全是共識。
但可能這幾年會變好一些。像DeepSeek和機器人硬件的成功是一種鼓勵,尤其是機器人的硬件體系主要是在國內(nèi)的。
AI科技評論:其實具身大模型和語言大模型還不太一樣。語言大模型在Day One的時候,投資人就有共識,認為這是美國一套、中國一套的生意模型,所以才有了后面快速起來的六小虎。但具身應(yīng)該沒有語言模型的政策壁壘,所以你們似乎從第一天開始就是全球競爭的格局。
盧宗青:我覺得很好啊,這也是全球性的機會。本來也不該有壁壘,本來就是該全部一起競爭的。
AI科技評論:公司為什么叫 BeingBeyond?模型也是叫Being-M0。
盧宗青:Being其實就是生成和存在,Human Being里的 Being。而且它既是名詞又是正在進行時,所以我們后面加了一個Beyond。我們希望最后能做出Robot Being吧。
AI科技評論:所以這個名字里本來就暗含了實現(xiàn)AGI的愿景,因為要“超越存在”。
盧宗青:是的。我們是這樣安排的,我們的第一代模型基本會用 Being來開頭,后面的模型會考慮用Beyond開頭,但就不知道會是什么時候了。
AI科技評論:Beyond模型會側(cè)重什么呢?
盧宗青:如果發(fā)Beyond,那就代表我們真的是全球領(lǐng)先的模型了。
AI科技評論:其實我第一眼看到這個名字,我在想會不會是因為你們不做“本體”機器人硬件,所以要超越本體。
盧宗青:是的,是一語雙關(guān)。而且如果在模型命名上,Being-0其實也代表正在進行中的0號產(chǎn)品。
AI科技評論:這個命名也非常有意思,為什么是從0開始發(fā)布產(chǎn)品?
盧宗青:因為0號是我們最初一個還不夠成熟的嘗試,它不代表我們最終要做的事情,而這條路會是一個不斷迭代的過程。
而且后面的話,應(yīng)該也不會命名1。要命名為1的話,我感覺應(yīng)該是一個(停頓)跨越式的模型吧。
但是 Motion 模型的話,可能會出1,因為它是我們剛才提到的1500萬條數(shù)據(jù)上已經(jīng)scale up的第一個東西。
AI科技評論:如果不用1的話,會怎么命名呢,0.1、0.5?
盧宗青:(笑)scale up了以后就會有1的。
AI科技評論:公司現(xiàn)在多少人?
盧宗青:全職員工其實就五個人,加上實習(xí)生大概二十來人。
AI科技評論:其實這個規(guī)模在創(chuàng)業(yè)公司里都算很精簡的了吧。
盧宗青:是的,但他們每個人都做了很多年模型相關(guān)的研究了。
AI科技評論:那如果給你一大筆錢呢?你會去配置一點資源去嘗試硬件嗎?或者你會去多買點卡之類的。
盧宗青:現(xiàn)在不是做硬件的最佳的時刻,因為硬件形態(tài)還沒有收斂,而未來具身的很多地方肯定都會標(biāo)準(zhǔn)化的。
買卡也暫時不太會。(即便有錢了)可能我們還是這么幾個人,在這樣一個辦公室里。因為事兒還沒有到要scale up的時候,我們暫時還不需要那么多資源。
AI科技評論:多久以后可以scale up?
盧宗青:我覺得兩三年吧。
AI科技評論:那確實需要很好的耐心,因為兩三年可能會發(fā)生很多事情。
盧宗青:兩三年是指scale up的時間,這個過程不是說一直不做商業(yè)化,還是有一些公司對我們的技術(shù)路線有興趣的。
AI科技評論:你有特別喜歡的創(chuàng)業(yè)者或者公司嗎?
盧宗青:Steve Jobs。我認為我們?nèi)绻袡C會的話,未來也可能有一天會做一個自己的機器人。因為所有的具身模型都是在機器人上的,我們也很希望可以去直接面對客戶,只是不是今天而已。而且因為我們的目標(biāo)是通用的,所以我們最終其實還是希望有2C的機器人。
AI科技評論:最后一個問題。因為我們最大的數(shù)據(jù)集是人類的,所以如果實現(xiàn)通用泛化,機器人就自然會以人類動作為主要參考形態(tài)。換言之,人類自己的運動模式,最終決定了這個文明未來機器人的形態(tài)。對嗎?
盧宗青:對。
(作者微信:hai2023zi 添加請備注公司-姓名)
(雷峰網(wǎng)(公眾號:雷峰網(wǎng))雷峰網(wǎng))
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。