0
本文作者: 丁莉 | 2025-08-11 03:07 |
置身機器人這樣的大熱賽道,明星研究員總被如此之多的目光注視著。
但關于龐江淼,網(wǎng)絡查到的信息寥寥。為數(shù)不多的內(nèi)容是,聚焦計算機視覺,浙江大學博士,香港中文大學MMLab研究員,接下來一份經(jīng)歷就是現(xiàn)在了——上海AI實驗室青年科學家,具身智能團隊負責人。30歲出頭,屬實年輕。
在今天的具身智能領域里,CV出身的研究人員占據(jù)了相當大的比重,龐江淼算得上是其中很典型但又很顛覆的一個。
之所以說典型,是因為其早期成果全部集中于傳統(tǒng)CV范疇。他曾連續(xù)兩年斬獲MS COCO目標檢測挑戰(zhàn)賽冠軍,是MMLab視覺感知系列開源平臺MMDetection、MMTracking、MMDetection3D的作者,取得CVPR 2023最有影響力論文和ECCV 2024最佳論文提名。
而之所以又說顛覆,則是因為,龐江淼并未像多數(shù)CV出身的其他人一樣,停留在感知層面向機器人領域漸進過渡,而是從轉(zhuǎn)型之初就直接切入了底層的控制。
由他主導開發(fā)的人形機器人多姿勢站起控制算法是一個典型例證,這篇文章獲得了機器人學習頂級會議 RSS 2025 的最佳系統(tǒng)論文提名獎。這也是龐江淼第一次投稿 RSS,此后,他共有 6 篇文章相繼被RSS接收,中稿率 75%,主要涉及人形機器人與機械臂的運動控制方向。
用他自己的話來說,“我切得很直接,決定去做具身之后,就不再是僅僅用視覺去解決具身的問題。所以,盡管我是CV出身,但我現(xiàn)在的mindset其實挺不CV的。科研最關鍵的還是定義問題和解決問題的思維邏輯。只要找到合適的問題,聚焦并追求極致,總會有好的結果?!?/p>
這個跨越式的轉(zhuǎn)型發(fā)生在2021年前后。
據(jù)他回憶,當時,“老本行”目標檢測觸到瓶頸,技術“拱”不動了。同時,視覺本身很難產(chǎn)生閉環(huán)價值,業(yè)界開始熱議“感知與行為閉環(huán)”,視覺的獨立性被重新評估,成為機器人感知的一個模塊。驅(qū)動機器人行動,才會帶來價值。
而比這早一年,Marco Hutter團隊采用強化學習在仿真環(huán)境中訓練,再將之遷移到真實的四足機器人ANYmal上,使機器人實現(xiàn)高動態(tài)運動。這意味著機器人領域終于出現(xiàn)了data driven(數(shù)據(jù)驅(qū)動)的解決方案,也逐漸掀翻了傳統(tǒng)認知。
“舊的領域遇到了瓶頸,新的東西也出現(xiàn)了,那么轉(zhuǎn)型也是自然而然的了?!?/p>
在向雷峰網(wǎng) AI科技評論講述這段經(jīng)歷時,龐江淼向后靠坐在椅背,整個人似乎松懈了一下,但語速仍然很快——這也是對談中他留給人最鮮明的印象,思維敏捷、語速極快,問與答之間基本沒有留下思考的空檔。
在剛剛過去的WAIC期間,他帶領上海AI實驗室具身智能團隊發(fā)布了『書生』具身全棧引擎Intern-Robotics。發(fā)布結束后,雷峰網(wǎng)(公眾號:雷峰網(wǎng)) AI科技評論與之進行了對談。
以Intern-Robotics為錨點,你會發(fā)現(xiàn),他們的目標不在某個單一的技術點,而是一套開放共享的基礎設施,一個具身智能領域的“ChatGPT”時刻,讓整個行業(yè)的飛輪轉(zhuǎn)起來,轉(zhuǎn)得更快。這也是在對談中龐江淼數(shù)次想要強調(diào)的雄心。
AI科技評論:最近和很多行業(yè)內(nèi)人士聊,一部分聲音認為具身智能的研究逐漸收斂到了三個大方向——具身大腦、全身控制、大小腦協(xié)調(diào)。您認可嗎?
龐江淼:我個人不完全認同。所謂大小腦是更偏宏觀的劃分。
具身智能目前還很難做到任務泛化,任務層面可能包括空間感知、導航、操作、人形運控等;所有任務都可以有大腦負責推理,同時有小腦負責具體執(zhí)行,只不過有的任務側重大腦,有的任務側重小腦?,F(xiàn)在無法融合才會存在所謂大、小腦,再發(fā)展幾年可能就是一個模型。
AI科技評論:所以大小腦融合是大趨勢?
龐江淼:可以這么說。目前大小腦之所以無法快速融合,和端側算力水平有關,端側芯片還推不起大模型,這就意味著,要做低頻的思考和高頻的行動,也就是雙系統(tǒng),前者相當于大腦,后者相當于小腦,這種架構本質(zhì)上也符合人類行為學。
AI科技評論:你們在研究具身大模型的過程中會受限于算力水平嗎?
龐江淼:算力分為云端和終端兩部分,模型訓練肯定是在云端,但推理一定是在端側,目前主要是端側算力受限。當然,科研是可以用各種各樣的方式繞過它的,但如果走向了商業(yè)化落地場景,這個問題就繞不過去了。
AI科技評論:大腦層面,VLA是現(xiàn)在的共識路線了嗎?
龐江淼:VLA是重要的技術路線,有助于泛化能力的提升,但只有VLA應該也不夠,我們很關注一些傳統(tǒng)的控制理論,共同提升模型的能力。其實在VLA領域現(xiàn)在也標準不一,我們一直開玩笑說現(xiàn)在市面上有三種VLA。
Google在2023年發(fā)布的RT-2算是第一個具身智能VLA。當時谷歌在VL大模型中加入了一個A的模態(tài),將機器人動作映射為文本標記,和互聯(lián)網(wǎng)規(guī)模的視覺-語言數(shù)據(jù)集共同訓練,既保留多模態(tài)大模型的識別和交互能力,又能讓機器人動起來。這是最狹義的VLA。
但后來大家逐漸發(fā)現(xiàn)這種技術路線不是最優(yōu)的,因為機器人動作數(shù)據(jù)很少,加入后無法泛化。那就基于一個多模態(tài)大模型微調(diào)出來一個模型,只具備執(zhí)行能力,不具備思考能力,我們一般把這種叫做A式的VLA。
第三種是只要有視覺、文本、行為的encoder就叫VLA,這種可能就過于寬泛了。
AI科技評論:你剛剛提到任務劃分,具身領域的主流任務有哪些?
龐江淼:主要是四個比較核心的方向:感知、操作、導航、人形運控。
這幾個任務之間是平行的,也許最終會融合但目前還沒有。比如巡檢機器人公司可能只關心導航能力,工業(yè)機器人公司可能只關心機械臂的操作能力,而人形機器人目前則只關心人形運控……
不同的任務,VLA大模型的技術方案和表現(xiàn)也會有所不同。和真實世界的交互越多,真機數(shù)據(jù)的價值就越大。所以導航,以及pick and place等簡單任務,合成數(shù)據(jù)可以占據(jù)大部分比重。但如果復雜度進一步上升,仿真算法本身就會帶來新的挑戰(zhàn),也會帶來非常多有意思的研究課題。
AI科技評論:具身智能領域仍然有很多路線之爭。
龐江淼:是的,我覺得有兩個原因。
首先,復雜性太高了。拿計算機視覺舉例,這個領域在上個世紀就已經(jīng)形成了清晰的任務定義、數(shù)據(jù)集,比如目標檢測、分割、跟蹤等高維視覺,去模糊、超分辨等低維視覺……而具身智能的復雜度更大,子任務的拆分定義還是模糊的。
其次,高度復合,這意味著所有人都可以走向這個領域,NLP、視覺、機器人、IL、自動駕駛等等的人都會有自己的視角,選擇離自己最近的路線切入。
AI科技評論:在爭論仍舊很“嘈雜”的背景下,WAIC期間團隊發(fā)布的Intern-Robotics亮點在于什么?
龐江淼:我覺得可以從兩個維度看,一方面,科研層面肯定有其先進性,我們還會在接下來一段時間公開最新的工作;另一方面,定位比較清晰,它作為一個平臺,一個基礎工具鏈,能夠跟更多的伙伴合作,為領域內(nèi)其他團隊創(chuàng)造價值。
通過這次發(fā)布,實驗室把過去幾年的積累去以一種非常體系化的方式“給”了出去,我們也會以它為載體跟業(yè)內(nèi)交流、合作。也希望未來平臺用戶量越來越大,大家能聚集起來一起做一些事情,同時隨著數(shù)據(jù)積累形成公開數(shù)據(jù)集。
AI科技評論:但實驗室離場景有點遠,在提升大腦能力方面會不會受局限?
龐江淼:所以才需要跟公司合作,對方有數(shù)據(jù)和場景,我們提供模型能力,雙向助益。
AI科技評論:合作具體是怎么進行的?
龐江淼:以今年我們跟國地中心的合作為例,國地中心有場景、有本體,我們協(xié)助他們進行任務定義和數(shù)據(jù)采集規(guī)則的制定。我們內(nèi)部有一條合成數(shù)據(jù)的管線,場景數(shù)據(jù)給過來后,我們再做一些合成數(shù)據(jù),把兩種數(shù)據(jù)整合起來訓練模型,模型會部署到“青龍”上。本體落地應用的過程中又會產(chǎn)生一系列交互數(shù)據(jù),我們會利用這些逐步迭代模型能力、數(shù)據(jù)管線的能力。
慢慢地,這個領域可能會出現(xiàn)基模型,搭配上一系列工具鏈,行業(yè)內(nèi)的任何本體公司都可以“開箱即用”,輪子也就轉(zhuǎn)起來了。
AI科技評論:所以實驗室在具身智能方向的定位是做平臺?最終想達成的愿景是什么?
龐江淼:我們一直希望做平臺,但不僅僅是平臺。
最終目的是希望推動整個領域有更加歸一化的基準,比如在任務劃分、數(shù)據(jù)等方面,大家的努力能匯到一塊去,推動整個領域迭代更快一些。
AI科技評論:這種定位和團隊的發(fā)展歷程、優(yōu)勢基礎有關嗎?
龐江淼:實驗室在具身智能這個領域積淀的時間算是比較長了。2022年初我們團隊就已經(jīng)存在了,早期偏向前沿探索,最初是做足式機器人,但同期也有做操作。2024年年中,具身智能團隊更完善,方向也更加聚焦。
另外我們團隊組成足夠diverse,NLP、AGC、自動駕駛等等領域的人員都有,內(nèi)部還有一個 AIGC的團隊,能做Real2Sim。
總之,認知積累早、技術儲備全,公立的研發(fā)機構的身份也有助于開展類似的合作。所以我們有希望率先去解決領域內(nèi)關于任務定義、數(shù)據(jù)集等基礎問題。
AI科技評論:怎么吸引企業(yè)加入合作?
龐江淼:其實做平臺和賣芯片差不多,本質(zhì)是把生態(tài)做好,靠模型算法取勝。同時把用戶體驗做好,比如一套易用性很高的框架。
AI科技評論:平臺希望吸引更多人、沉淀更多數(shù)據(jù),對量級有沒有初步的規(guī)劃?
龐江淼:無論是用戶,還是數(shù)據(jù),我認為現(xiàn)在很難去判斷量級,因為沒什么參考。打個可能不太恰當?shù)谋确?,大模型有點像互聯(lián)網(wǎng),具身智能有點像制造業(yè)。制造業(yè)的本質(zhì)是價值閉環(huán)的流程更長,例如,一家車企銷量過百萬已經(jīng)算是很高的數(shù)值,但一家互聯(lián)網(wǎng)企業(yè)用戶上億都不算什么。所以討論用戶數(shù)的量級意義不大。
再者,數(shù)據(jù)量本身不產(chǎn)生價值,數(shù)據(jù)集的多樣性也不產(chǎn)生價值,利用這一數(shù)據(jù)集能訓練出來什么樣的模型,才決定了價值。
AI科技評論:那接下來平臺還有什么重點方向嗎?
龐江淼:現(xiàn)在具身智能主要的問題在于,泛化不足。包括今年以來很火的機器人跳舞,其實也是用模型去擬合一條軌跡。未來實驗室的目標是,在具身智能作業(yè)100%可靠性的前提下,實現(xiàn)本體泛化、場景泛化、任務泛化,這是總體的邏輯。
具身智能和大模型有一個非常明顯的不同,就是對作業(yè)成功率趨近 100% 的要求。大模型可以有幻覺,可以“再想一想”,但人形機器人摔倒了就是摔倒了。
現(xiàn)在我們正在做人形運控的基模型,當然它目前只是基模型的概念,但在參數(shù)量上還是一個小模型。我們也一直在尋找一些更難的場景來展示模型能力,比如高動態(tài)場景的交互,之后我們可能會出一個demo,讓異構的機器人從不同速度轉(zhuǎn)動的輪盤上把物體精準拿下來,再去做協(xié)作,這就同時能夠體現(xiàn)出上述三種泛化。
當然,短周期內(nèi)我們會先做好聚焦場景下的局部泛化,先解決最基礎和關鍵的問題,再去拓寬。剛剛提到了3種泛化、4種任務,我們會在這個大框架下找一些具體場景,橫向拉幾條比較窄的線去做。
AI科技評論:所以Intern-Robotics的“一腦多形”也呼應了其中的本體泛化?
龐江淼:是的,具身智能要面向應用需求,不限場景、任務。高成功率,本質(zhì)是需要一個好的后訓練技術。那么只要有一條通用的管線,基于前期預訓練的基模型,就可以在一定時間內(nèi)微調(diào)出一個具體行業(yè)領域的機器人。
如果基模型是允許“多形”的,也就相當于管線相通。在迭代過程中,我們可以逐漸把后訓練過程干掉,這樣也許可以出現(xiàn)一個可以零樣本泛化的“ChatGPT”。
AI科技評論:這也是業(yè)內(nèi)大家一直在追問的,具身智能領域的ChatGPT什么時候才能出現(xiàn)?這也是你們在做的東西對嗎?
龐江淼:其實我們是“沿途下蛋”。ChatGPT是終極目標,但并不是立刻就要做出來。這是一個一邊迭代、一邊落地,逐漸把后續(xù)微調(diào)工作壓縮下來的過程。
AI科技評論:除了本體泛化,還有場景泛化,之前你主導的可泛化地形人形機器人自主站立控制技術做了多久?
龐江淼:這項工作的周期并不長,也就3—6 個月。
技術突破其實是跟著整個領域的迭代節(jié)奏走,如果你真的覺得一些工作做得很好,它本質(zhì)只是領先了整個領域3—6個月,并不會超脫出領域發(fā)展的客觀規(guī)律。
AI科技評論:當時這個項目的idea是怎么出現(xiàn)的?
龐江淼:我們當時在做人形機器人運控,第一階段是盲走。沒有視覺的情況下,機器人動作是非常穩(wěn)定的,包括現(xiàn)在機器人打拳整個決策也是沒用到視覺的。
接下來要讓它上臺階,這時候就必須加入視覺了,但視覺會給系統(tǒng)帶來噪聲,使機器人經(jīng)常摔倒,每摔倒一次都要重新調(diào)試。所以我們覺得,如果機器人能自主站起來,整個系統(tǒng)會更加魯棒。所以這個項目就出來了。
其實從這個項目也能看出,我們的風格還是以解決具體問題為導向去做項目的。
AI科技評論:怎么處理視覺帶來的這些噪聲?
龐江淼:我們當時有一篇論文叫PIM(Perceptive Internal Model),利用傳統(tǒng)機器人領域的建圖技術,把機器人周圍環(huán)境精盡量精準構建起來。仿真訓練的過程可以直接拿到障礙物位置的真值,然后再把Sim和Real之間盡可能對齊。
AI科技評論:這套算法其實還解決了一些高難度地形上機器人的動作穩(wěn)定性,比如梅花樁這樣的稀疏落足點,甚至在機器人運動中突然加入障礙物。
龐江淼:梅花樁很簡單,只要在仿真里加一些這樣的地形,定向去微調(diào)一下。在通用的框架下,機器人就能完成相關動作。
動態(tài)地形的問題比較難,現(xiàn)在所有AI處理動態(tài)事物都非常困難,坦白講,我們最近并沒有什么能解決這個問題的辦法。動態(tài)相當于增加了多樣性,AI的邏輯很簡單,input多樣性越小,模型表現(xiàn)越好;多樣性上去了,模型表現(xiàn)就會下來。
AI科技評論:從多樣性的維度看,機器人動作仍然是背誦而非自學習的過程?
龐江淼:你可以理解它是在背誦,但當數(shù)據(jù)量足夠大,它會出現(xiàn)智能的涌現(xiàn)。
這也是ChatGPT最厲害的地方,它證明了,AI的本質(zhì)很有可能就是一種極致的 over fitting。它目前已經(jīng)在大語言模態(tài)下做到了,但語言是一維的,并且是結構化的,有海量的互聯(lián)網(wǎng)數(shù)據(jù)支撐,所以可以堆上去。
但在具身智能領域,數(shù)據(jù)的量級差距不可同日而語,數(shù)據(jù)量小是最本質(zhì)的問題。
AI科技評論:具身智能領域最匱乏的是哪一類數(shù)據(jù)?
龐江淼:主要是精準行為數(shù)據(jù)。
AI科技評論:團隊在訓練模型時數(shù)據(jù)來源有哪些?
龐江淼:現(xiàn)在還是一個數(shù)據(jù)金字塔的概念,最頂層是真機數(shù)據(jù),它最精準,但數(shù)量也最少;中間是仿真;下面是網(wǎng)絡視頻數(shù)據(jù),離機器人最遠,但數(shù)量最大。純粹依賴真機數(shù)據(jù)肯定不行,因為數(shù)據(jù)不夠,且沒辦法解決采集成本高昂的問題;純粹的合成數(shù)據(jù)也不行,它沒辦法做到復雜交互場景的完全精準合成。
因此主要在于如何搭建這個金字塔,訓練出一個足夠魯棒、泛化的模型。我們每種數(shù)據(jù)都會用,關鍵在于怎么融合。我個人會比較看好Real to Sim to Real這套技術路線,再配上一些真實世界的強化學習。
AI科技評論:你們會使用網(wǎng)絡視頻數(shù)據(jù)嗎?
龐江淼:視頻數(shù)據(jù)更多是做預訓練,但很難用于后訓練。二者的區(qū)別在于,預訓練的數(shù)據(jù)量非常大,含有更多領域的知識;但后訓練必須有非常精準的行為標簽。
AI科技評論:Real to Sim to Real的過程中,如何消除Sim和Real之間的gap?
龐江淼:Sim和Real之間最大的gap無非兩點。
一點是關節(jié)運動本身帶來的誤差,但這一點是相對可控的,因為電機是自己造的,所有的真值在機器人運動過程中都能拿到;
另一點是視覺帶來的誤差。加入視覺后就意味著需要在仿真器里做一個相機的仿真,相機仿真本身和真實世界就是有差距的,再加上機器人看到的事物的多樣性是沒有約束的,這是最大的困擾點,也是接下來需要重點研究的方向。
AI科技評論:大模型的scaling law會面臨瓶頸,具身智能也會如此嗎?
龐江淼:先解決從無到有,再解決從有到優(yōu)。大模型已經(jīng)用互聯(lián)網(wǎng)數(shù)據(jù)提升到了很高水平,面對接下來的瓶頸,需要更高質(zhì)量的數(shù)據(jù)做調(diào)優(yōu)。但具身智能還停留在前一個階段,即怎么把數(shù)據(jù)堆上去,現(xiàn)在談論scaling law瓶頸還為時尚早。
我對 scaling law 其實還有一個思考:它并不只是一條線性的增長曲線。我們可以在很多維度找到這種數(shù)量和性能的線性關系。它的關鍵其實是一個可以讓你放心 scaling 資源投入的支點,這也是我們正在探索的。
AI科技評論:之前元宇宙沒能做起來,也是類似的原因,比如3D內(nèi)容不夠豐富?,F(xiàn)在大家也會擔心具身智能會不會成為下一個元宇宙。你怎么看?
龐江淼:不會。具身智能的能力確實遠未達到落地的水平,但它和元宇宙最大的區(qū)別在于,它的行業(yè)需求是客觀且持續(xù)存在的,只要能做出來,下游有很多原本就存在的產(chǎn)業(yè)都在等待著。我對這個領域的感受是,絕對值不行,但動量非常大。
需求明確,只是當前技術不成熟,那么技術可以往前迭代,在接下來的周期里,技術會繼續(xù)往前跑,然后慢慢落地,就像剛剛說的沿途下蛋。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。