MIT 具身智能達(dá)人志

本文作者：賴文昕

2025-04-18 11:05

導(dǎo)語：導(dǎo)語：趙行、董思遠(yuǎn)、李瑞、原文禎、李昀燭、俞冠廷、陳濤、方浩樹......他們是貫穿所有齒輪的傳動軸，讓每個(gè)環(huán)節(jié)的「自轉(zhuǎn)」最終匯聚成機(jī)器人系統(tǒng)的「公轉(zhuǎn)」。

作者 | 賴文昕

編輯 | 陳彩嫻

「偉大的事情從來不是一個(gè)人做的，而是由一群人做的?！?/p>

智駕向左，具身向右

2015 年的一天，趙行走出 MIT的實(shí)驗(yàn)室，收到了浙大本科同級朋友董思遠(yuǎn)的消息，向同樣涉足過光學(xué)的他了解 CSAIL 里各位教授的具體研究方向，也想到 MIT 里做些 CV 的工作。

兩年前，這兩位青年從浙大畢業(yè)后赴美深造，都圍著視覺打轉(zhuǎn)：趙行到 MIT讀博，先后師從Ramesh Raskar和Antonio Torralba教授，研究計(jì)算成像和多模態(tài)學(xué)習(xí)；董思遠(yuǎn)到康涅狄格大學(xué)讀研，師從鄭國安，研究傅里葉疊層成像技術(shù)。

在接下來的十年里，兩位從 CV 出發(fā)的年輕人都面對著同一個(gè)問題：做自動駕駛還是做智能機(jī)器人？

迄今為止，他們已回答過兩遍這個(gè)問題，做出了兩次不同的選擇。

在 MIT 的頭兩年里，趙行意識到，計(jì)算成像的應(yīng)用，尤其是拍照的社會影響力不夠大——而自己想做能在現(xiàn)實(shí)世界產(chǎn)生價(jià)值、提高生產(chǎn)力的事。

MIT 具身智能達(dá)人志

2015 年，趙行決定不做計(jì)算成像后，開始參與多個(gè)項(xiàng)目探索自己感興趣的方向，首先找到了 MIT Cheetah 系列四足機(jī)器人的負(fù)責(zé)人 Sangbae Kim教授，提出做其機(jī)器人課的助教。

MIT Cheetah 是仿生機(jī)器人領(lǐng)域的里程碑式成果，通過全電機(jī)驅(qū)動系統(tǒng)和高性能控制算法，實(shí)現(xiàn)了高速奔跑（最高時(shí)速達(dá)48 km/h）、復(fù)雜地形適應(yīng)（如閉眼攀爬樓梯）以及動態(tài)平衡（如抗干擾穩(wěn)定），推動了四足機(jī)器人從實(shí)驗(yàn)室向?qū)嶋H場景（如救援、軍事巡檢）的落地，其在 2019 年開源的 Mini Cheetah，其中的準(zhǔn)直接驅(qū)動器的設(shè)計(jì)，更是影響了一波中國機(jī)器人企業(yè)的誕生與成長。

彼時(shí) Sangbae Kim 組里有液壓的人形和五個(gè)電驅(qū)機(jī)器狗，從硬件、結(jié)構(gòu)到控制均為團(tuán)隊(duì)自研，研發(fā)成本奇高。因系統(tǒng)不夠魯棒容易損壞，上飛機(jī)需要安排貨運(yùn)，參加一次展會的成本大約是 3 萬美元，團(tuán)隊(duì)往往只得放棄展示機(jī)會。

MIT 具身智能達(dá)人志

2015 年發(fā)布的 Cheetah 2

在Cheetah2項(xiàng)目里，趙行負(fù)責(zé)搭建感知系統(tǒng)，是唯一的華人成員。他曾向 Sangbae 力推深度學(xué)習(xí)，但當(dāng)時(shí)深度學(xué)習(xí)在控制領(lǐng)域效果遠(yuǎn)不及模型預(yù)測控制（MPC），因此控制派學(xué)者并不認(rèn)可，「做傳統(tǒng)控制的老師們都非常厲害且堅(jiān)信自己的道路，所以幾乎都看不上沒有數(shù)學(xué)保證的深度學(xué)習(xí)?！?/p>

后一年，趙行開始接觸自動駕駛，參與John Leonard教授發(fā)起的 Duckietown 項(xiàng)目，開發(fā)自動駕駛的研究和教學(xué)平臺，團(tuán)隊(duì)有來自不同實(shí)驗(yàn)室的十幾人，包括兩名博士生、博士后和老師，開設(shè)課程教授學(xué)生自駕系統(tǒng)各模塊的知識。

MIT 具身智能達(dá)人志

項(xiàng)目鏈接：https://hangzhaomit.github.io/papers/duckietown.pdf

具體來說，他們自己搭建一個(gè)微縮版的城市交通，并且自己設(shè)計(jì)低成本的輪式小車，裝上傳感器和計(jì)算單元，就實(shí)現(xiàn)了自動駕駛車的硬件系統(tǒng)。軟件上，搭建一個(gè) ROS 中間件，通過它定義自駕各模塊的接口，如感知、建圖、定位、導(dǎo)航、規(guī)劃、控制、人機(jī)共駕、多機(jī)協(xié)同、車路協(xié)同等。之后，各模塊的開發(fā)工作將分配給不同團(tuán)隊(duì)的成員，最后大家共享專業(yè)知識，共同構(gòu)建一個(gè)多智能體的自動駕駛交通系統(tǒng)。

作為助教，趙行負(fù)責(zé)搭建整個(gè)平臺，并參與深度學(xué)習(xí)感知模塊。該課程后來作為機(jī)器人系統(tǒng)的實(shí)踐課程，被全球 250 多個(gè)大學(xué)和 160 多個(gè)公司所采用。

而在多模態(tài)學(xué)習(xí)方面，趙行在Antonio的課題組提出了視覺-聲音跨模態(tài)學(xué)習(xí)方法 Sound of Pixels，解決語音領(lǐng)域長久以來的“雞尾酒問題”；和隔壁組的趙明民（現(xiàn) UPenn 助理教授）合作提出視覺-WiFi 跨模態(tài)學(xué)習(xí)方法 RF-Pose，用WiFi實(shí)現(xiàn)人體姿態(tài)識別。兩項(xiàng)工作都是多模態(tài)學(xué)習(xí)領(lǐng)域的典范，獲得了 NBC、BBC、Science 等媒體的廣泛報(bào)道。

2019 年趙行畢業(yè)時(shí)，他的求職目標(biāo)很明確：自己擅長的視覺和多模態(tài)學(xué)習(xí)對自駕和機(jī)器人很有價(jià)值。而既然機(jī)器人行業(yè)未成形，那便進(jìn)入最有價(jià)值、最硬核的自駕行業(yè)。

加上自駕車輛配備如毫米波雷達(dá)、激光雷達(dá)、相機(jī)、夜視儀等多種傳感器，為多模態(tài)學(xué)習(xí)提供了廣闊的應(yīng)用空間，如果能去頭部的 Waymo工作和學(xué)習(xí)，將這些技術(shù)應(yīng)用于自駕汽車，他就不再考慮其他機(jī)會。

當(dāng)時(shí)的Waymo如日中天，眾多頂尖人才齊聚于此。例如，坐在趙行身邊的 PointNet 作者 Charles Qi，VoxelNet 的作者周寅，還有自駕領(lǐng)域最早開展模仿學(xué)習(xí)工作 ChauffeurNet 的作者 Mayank Bansal 等人。

在 Waymo 研究院，趙行主要聚焦兩個(gè)方向。

一是多模態(tài)感知，涉及視覺、激光雷達(dá)、毫米波雷達(dá)和聲音等多傳感器數(shù)據(jù)融合；二是學(xué)習(xí)驅(qū)動的預(yù)測規(guī)劃，主要建模車輛與環(huán)境的交互。

很快趙行便結(jié)識了自己的最強(qiáng)搭檔高繼揚(yáng)，他早三個(gè)月加入 Waymo，其自驅(qū)力在公司內(nèi)尤為突出：既能高效開發(fā)產(chǎn)品，又主動推進(jìn)研究，幾乎是一人擔(dān)兩職。

彼時(shí)谷歌組織架構(gòu)高度扁平化，內(nèi)部合作極為靈活，二人便聯(lián)合 Google Research 的孫晨（高繼揚(yáng)學(xué)長，曾引薦其師從 Ram Nevatia），三人跨三組合作自駕軌跡預(yù)測的系列工作 VectorNet 和 TNT。

另一邊，在趙行逐步深入自駕行業(yè)之際，董思遠(yuǎn)也在 2015 年來到 MIT 讀博，先是加入了正從視覺向觸覺傳感轉(zhuǎn)型的 Ted Adelson 小組，意外開啟了觸覺與機(jī)器人的研究，跟著師姐原文禎學(xué)習(xí) GelSight 傳感器的原理和制作。

MIT 具身智能達(dá)人志

博二時(shí)因組里經(jīng)費(fèi)緊張，Ted 建議董思遠(yuǎn)和其他老師多交流以實(shí)現(xiàn)聯(lián)合培養(yǎng)。

恰好此時(shí)亞馬遜要舉辦第二屆機(jī)器人揀選挑戰(zhàn)賽（Amazon Picking Challenge），由傳統(tǒng)控制大牛 Alberto Rodriguez 帶領(lǐng)的 MIT 隊(duì)決定同普林斯頓大學(xué)宋舒然團(tuán)隊(duì)組成 MIT-普林斯頓聯(lián)隊(duì)參賽，因需設(shè)計(jì)一個(gè)基于觸覺反饋的抓取平臺，便提出同 Ted 合作。

董思遠(yuǎn)得以參與其中，逐漸轉(zhuǎn)到 Alberto 小組，開始聚焦操作領(lǐng)域（Manipulation），通過將觸覺信息融合至控制器與規(guī)劃器，系統(tǒng)性提升機(jī)器人任務(wù)執(zhí)行效能。

到了博四，董思遠(yuǎn)與 Ted 團(tuán)隊(duì)合作自己最具代表性的成果——觸覺反饋夾爪的線纜操作研究，并獲得機(jī)器人頂會 RSS 2020 最佳論文提名獎。

針對柔性物體難以物理建模的挑戰(zhàn)——理論上具有無限自由度，無法像剛體用六維位姿描述——該研究創(chuàng)新性利用觸覺反饋?zhàn)粉櫨€纜姿態(tài)，僅憑觸覺感知即可實(shí)現(xiàn)從線纜一端到另一端的精準(zhǔn)操控，突破了傳統(tǒng)視覺方案對柔性物體建模的復(fù)雜度瓶頸。

MIT 具身智能達(dá)人志

論文鏈接：https://arxiv.org/pdf/1910.02860

受深度學(xué)習(xí)浪潮影響，董思遠(yuǎn)開始探索其在機(jī)器人操作中的應(yīng)用。但因兩位導(dǎo)師都并非深度學(xué)習(xí)領(lǐng)域，尤其 Alberto 傾向基于模型的方法，所以在 MIT 的最后一年，董思遠(yuǎn)自行鉆研機(jī)器人學(xué)習(xí)在插拔任務(wù)中的應(yīng)用，開發(fā)了基于強(qiáng)化學(xué)習(xí)的高維觸覺控制框架。

強(qiáng)化學(xué)習(xí)在處理高維傳感器輸入（如視覺觸覺融合數(shù)據(jù)）的獨(dú)特優(yōu)勢得以展現(xiàn)——通過深度網(wǎng)絡(luò)構(gòu)建端到端控制器，突破了基于牛頓力學(xué)的傳統(tǒng)控制范式對低維抽象物理量的依賴，為高復(fù)雜度接觸敏感型任務(wù)提供了數(shù)據(jù)驅(qū)動的解決方案。

MIT 具身智能達(dá)人志

論文鏈接：https://drive.google.com/file/d/15FSgNIV9BfjqL9Yekx0ui1kfzJb3NBSf/view

2020 年，想繼續(xù)鉆研 RL 的董思遠(yuǎn)來到華盛頓大學(xué)做博士后，與 Byron Boots 合作，研究將學(xué)習(xí)算法應(yīng)用在四足狗上，使其在惡劣環(huán)境也能跑得更快，還幫助 Byron 帶著學(xué)生做了不少機(jī)器人操作與觸覺傳感的探索。

2022 年 6 月，董思遠(yuǎn)回國加入華為的終端部門，先是在機(jī)器人和具身智能方向做了些探索，但他很快意識到，機(jī)器人離大規(guī)模商用仍十分遙遠(yuǎn)，就連最頭部的特斯拉也僅是公布了 Optimus 的原型機(jī)。

一年后董思遠(yuǎn)所在部門面臨重組，他便帶著團(tuán)隊(duì)去了離具身智能機(jī)器人最近的自動駕駛部門，加入了華為車 BU，真正地走進(jìn)自駕領(lǐng)域。

過去做科研時(shí)，董思遠(yuǎn)需獨(dú)立搭建含控制器、規(guī)劃器等從軟到硬的整套系統(tǒng)，而更成熟的自駕領(lǐng)域則分工明確，僅需負(fù)責(zé)其中某模塊；自駕重感知的模式也讓其技術(shù)棧也得以更新，點(diǎn)亮了過去并非自己強(qiáng)項(xiàng)的感知算法。

最近，董思遠(yuǎn)又轉(zhuǎn)向端到端框架，直接將傳感器信號映射為規(guī)劃指令，繞過模塊分工實(shí)現(xiàn)「感知-控制閉環(huán)」，回歸自己感興趣及擅長的領(lǐng)域，把機(jī)器人學(xué)習(xí)算法運(yùn)用在自駕領(lǐng)域。

在他看來，機(jī)器人與自駕在技術(shù)底層已高度趨同——當(dāng)端到端架構(gòu)興起后，車輛本質(zhì)上已成為具身智能在物理世界的延伸載體，二者的核心邏輯都是通過海量示范數(shù)據(jù)訓(xùn)練控制器，使系統(tǒng)能模仿人類行為：自駕追求「類人化」的安全決策，機(jī)器人則需完成疊衣、烹飪等家庭場景任務(wù)。

差異僅在于任務(wù)復(fù)雜度，自駕面對的是規(guī)則化道路環(huán)境，而具身智能需應(yīng)對開放動態(tài)空間中的精細(xì)操作，這對硬件與數(shù)據(jù)提出了更苛刻的要求。

自駕之所以率先商業(yè)化，源于數(shù)據(jù)獲取門檻低和硬件生態(tài)成熟的兩大優(yōu)勢。反觀機(jī)器人，操作任務(wù)的示范數(shù)據(jù)采集極其困難，需依賴高成本遙操作或雇傭?qū)Ｈ松蓴?shù)據(jù)，且硬件層面仍缺乏能精準(zhǔn)復(fù)現(xiàn)人手靈活性的執(zhí)行器，更難以說服消費(fèi)者為高溢價(jià)卻低實(shí)用性的家用機(jī)器人買單。

「雖然具身智能創(chuàng)業(yè)熱潮涌動，但核心缺失在于涉及更復(fù)雜的物理交互與價(jià)值閉環(huán)的操作能力，唯有攻克，機(jī)器人才能真正創(chuàng)造人類可感知的應(yīng)用價(jià)值，這也是具身智能商業(yè)化落地的必經(jīng)之路?！?/p>

盡管決定繼續(xù)扎根自駕領(lǐng)域，董思遠(yuǎn)卻不認(rèn)為自己離開了具身智能，「我反而覺得當(dāng)前用海量數(shù)據(jù)去做學(xué)習(xí)訓(xùn)練的經(jīng)歷是非常寶貴的，這遠(yuǎn)比實(shí)驗(yàn)室小規(guī)模仿真更具工程價(jià)值，而且對于未來如果再做操作等具身智能任務(wù)，也非常有借鑒意義?！?/p>

與董思遠(yuǎn)相向而行，趙行則是從自動駕駛轉(zhuǎn)向機(jī)器人。

在 Waymo 的一年多后，趙行在 2020 年回國加入清華任教。因意識到深度學(xué)習(xí)使各領(lǐng)域邊界持續(xù)消融，他創(chuàng)立 MARS 實(shí)驗(yàn)室，希望不局限于單一研究方向，而做更廣泛的 AI研究，包括多模態(tài)學(xué)習(xí)、自動駕駛和機(jī)器人。

剛回國后，趙行與剛上任理想汽車算法負(fù)責(zé)人的浙大師弟王軼倫討論起自駕的技術(shù)進(jìn)展，基于共同興趣開展了視覺感知和無圖自動駕駛的研究，后來發(fā)展為了與理想的正式合作。

到了 2023 年，之前在Waymo的合作者高繼揚(yáng)這時(shí)候找到他聊起創(chuàng)業(yè)，他們感覺到具身智能領(lǐng)域的創(chuàng)業(yè)時(shí)機(jī)成熟，一切恰如 2016 年自駕的起步階段，并于年中正式成立星海圖智能。

二人再次成為搭檔合作尤其順暢，最初計(jì)劃開發(fā)輪式機(jī)器人，但在許華哲加入后，經(jīng)過深入探討，決定以仿人形雙臂輪式機(jī)器人作為首款產(chǎn)品，最終確定了產(chǎn)品形態(tài)。（許華哲加入星海圖的故事詳情在伯克利具身智能圖譜：深度強(qiáng)化學(xué)習(xí)浪尖上的中國 90 后們）

「自駕和 AR/VR 是我畢業(yè)時(shí)最火的倆方向，兩者技術(shù)都有難度但自駕因社會意義大，盡管過去十年一直在燒錢，一直有社會各界的支持。」趙行認(rèn)為做技術(shù)須兼具前沿性與社會價(jià)值，「相信具身智能機(jī)器人同樣是各方會持續(xù)投入人力和財(cái)力推動發(fā)展的行業(yè)。」

看似殊途的趙行和董思遠(yuǎn)，或許會在未來再次同行。

GelSight 的演進(jìn)

在董思遠(yuǎn)加入 Ted Adelson 組讀博的 2015 年，團(tuán)隊(duì)已從 CV 向視觸覺轉(zhuǎn)型，專攻 GelSight 的視觸覺研究和機(jī)器人應(yīng)用的發(fā)展。

長久以來，觸覺感知總被視為具身智能操作（Manipulation）的「最后一公里」，讓機(jī)器人在黑暗中也能「看見」物體的形狀、硬度與紋理，如同人類指尖在閉目時(shí)描繪世界的輪廓。

作為前沿中的前沿，觸覺感知的技術(shù)路線自然未收斂，但在一眾方案中，近年來受到最廣泛關(guān)注和認(rèn)可的觸覺傳感器 GelSight 正是誕生于 Ted Adelson 團(tuán)隊(duì)。

從聚焦視覺觀測的傳感器到結(jié)合上機(jī)器人觸覺感知的「完全體」，GelSight 的演進(jìn)離不開兩個(gè)關(guān)鍵人物：李瑞和原文禎。

回到 2009 年，視覺認(rèn)知和計(jì)算機(jī)視覺領(lǐng)域的泰斗、美國兩院院士 Edward (Ted) Adelson 和其博后 Micah Kimo Johnson 在 CVPR 上首次提出 GelSight，其命名直指技術(shù)內(nèi)核：通過有均勻反射涂層的透明凝膠材料形變捕捉信息，再利用光學(xué)成像和光度立體算法還原出接觸面的高精度三維形狀。

最初的 GelSight 是個(gè)邊長為 50 厘米的大盒子，跟機(jī)器人的觸覺毫無關(guān)系，更多是用來做物體表面微觀結(jié)構(gòu)的檢測，比如說表面的紋理和凸起等。

同年，在新加坡南洋理工大學(xué)畢業(yè)的李瑞來到 MIT 讀博，從 2005 年起他就開始做機(jī)器人和計(jì)算機(jī)視覺方面的研究。

2011 年秋，想繼續(xù)鉆研自己感興趣的機(jī)器人和 CV 領(lǐng)域的李瑞在一次和 Ted 的交談中討論起做機(jī)器人也能用的傳感器，幫助機(jī)器人更好實(shí)現(xiàn)類人的手眼協(xié)同操作，二人想法一致，便轉(zhuǎn)組加入了團(tuán)隊(duì)，成為其機(jī)器人方向的第一位畢業(yè)的 PhD。

MIT 具身智能達(dá)人志

2011 年，Ted 和 Kimo 二人在 SIGGRAPH 上展示了更強(qiáng)大的第二代 GelSight：通過優(yōu)化凝膠材料與多角度照明設(shè)計(jì)，將空間分辨率提升至驚人的 2 微米，甚至能無懼物體表面的光學(xué)特性（如反光或透明材質(zhì)）捕捉幾何細(xì)節(jié)——此時(shí)的 GelSight 用上了單反相機(jī)、已具備手持設(shè)備的雛形，但仍和機(jī)器人觸覺無關(guān)，離機(jī)器人實(shí)際應(yīng)用仍有較大差距。Kimo 也于同年創(chuàng)立了 GelSight Inc.公司，將 GelSight 技術(shù)主要應(yīng)用于缺陷檢測領(lǐng)域，但也與機(jī)器人并無關(guān)系。

彼時(shí)機(jī)器人操作領(lǐng)域的工作多是與視覺的結(jié)合，李瑞十分認(rèn)可第一性原理，認(rèn)為機(jī)器人若要像人一樣操作，觸覺不可或缺，極為重要。結(jié)合 GelSight 自身形變等特性，在 CV 領(lǐng)域深耕多年的李瑞和 Ted 設(shè)想將其改造成機(jī)器人觸覺傳感器。

李瑞從人的觸覺獲取靈感：一是能感知如紋理、形狀的物體本身性質(zhì)；二是可獲取接觸狀態(tài)、反映在人的手指形變里的信息。

「此前的觸覺傳感器其實(shí)更應(yīng)該叫壓力傳感器，僅能獲取很稀疏的法向力信息，而 GelSight 接觸物體時(shí)會像手指一樣發(fā)生形變，我要做的就是通過攝像頭捕捉多維的實(shí)時(shí)的形變信息，再用 CV 方法反推出觸覺信息。這樣其中一大好處就是可以獲得超高分辨率的多維觸覺信息。」

項(xiàng)目牽扯到硬件、軟件、算法等多方面的綜合，起初李瑞和 Ted 對能否成功都沒有十足把握，不過隨著李瑞完成視觸覺傳感器 Fingertip GelSight 雛形，他們對此路線愈發(fā)堅(jiān)定。2010-2015 年間，Ted 圍繞該方向陸續(xù)招收 3 名博士生，其他方向鮮少招人。隨著組內(nèi)其他學(xué)生陸續(xù)畢業(yè)，資源自然向視觸覺研究集中。

看看 Fingertip GelSight 的研發(fā)過程。

2011 年，GelSight 已有的幾個(gè)原型設(shè)備體積大、質(zhì)量重、運(yùn)行緩慢，用在機(jī)器人上既不實(shí)用也不合適，因此無論是電路、光路還是系統(tǒng)集成，都需要重新設(shè)計(jì)。

若僅算重大改動，主導(dǎo)項(xiàng)目的李瑞至少完成了二三十次版本迭代：為了兼顧滿足性能需求、成本低廉、反應(yīng)快速與尺寸小巧，測試了 40 多種攝像頭；光路設(shè)計(jì)也歷經(jīng)多次迭代，涉及諸多光源、彈性體、支撐板、導(dǎo)光板的選型等細(xì)節(jié)調(diào)整；軟件和算法上也要做到非常實(shí)時(shí)和精準(zhǔn)。

這些組件組合方式繁多，難以確定最佳方案，甚至不確定能否正常運(yùn)行，探索空間極大。他要在有限時(shí)間內(nèi)，研發(fā)出性能適配的傳感器及算法。

李瑞還跟 Ted 討論過是否將其更名為「GelFinger」以跟之前的 GelSight 作區(qū)分，最后師徒二人還是決定沿用原名，但加了個(gè)前綴「Fingertip」。

在 CVPR 2013 上，李瑞發(fā)布了包含 40 種觸覺紋理的數(shù)據(jù)庫，使傳感器能夠通過接觸識別多種不同的布料、砂紙、木材等材質(zhì)。

2014 年，在機(jī)器人領(lǐng)域頂會 IROS 上，GelSight 迎來了歷史性跨越，進(jìn)化為現(xiàn)在大家所熟知的形態(tài)：李瑞與 Ted 推出全球首款超高分辨率的視觸覺傳感器 Fingertip GelSight（GelSight 指尖傳感器，也稱 GelSight 2014），其尺寸僅如人類指尖，是個(gè)邊長約為 3 厘米的立方體。

MIT 具身智能達(dá)人志

論文鏈接：https://dspace.mit.edu/handle/1721.1/88136

這一設(shè)計(jì)讓機(jī)器人實(shí)現(xiàn)類人手指精細(xì)操作，如插拔 USB 接口、自適應(yīng)抓取等。大部分人類操作需手眼同時(shí)參與，即「手眼協(xié)同」，這對機(jī)器人實(shí)現(xiàn)類人通用操作同樣關(guān)鍵。借助視覺-觸覺閉環(huán)控制，機(jī)器人模仿人類「手眼協(xié)同」作業(yè)邏輯，完成精細(xì)操作：視覺粗定位與引導(dǎo)，觸覺精細(xì)化閉環(huán)控制，二者相輔相成，缺一不可。

李瑞展示的機(jī)器人插拔 USB 的操作，使用的是早期重復(fù)定位精度只是毫米級的協(xié)作機(jī)器人 Baxter，但通過 Fingertip GelSight 實(shí)現(xiàn)亞豪米級的精準(zhǔn)閉環(huán)操作，還展示了自適應(yīng)抓取雞蛋、薯片、樹葉等脆弱或柔性物體，機(jī)器人可依據(jù)多維力反饋動態(tài)調(diào)整動作，而無須事先設(shè)定好每個(gè)物體力的大小，實(shí)現(xiàn)類人的通用自適應(yīng)抓取能力，大大提升了機(jī)器人操作的能力上限。GelSight Inc.公司于 2022 年所推出的 GelSight Mini 傳感器，正是在這版設(shè)計(jì)上改進(jìn)而成。

除了傳感器自身的軟硬件和算法升級外，GelSight 技術(shù)在機(jī)器人觸覺感知的應(yīng)用也在不斷突破，為此從無到有搭建起體系并奠定了關(guān)鍵基礎(chǔ)的人，除了李瑞，還有晚一年進(jìn)組的原文禎。

原文禎本科就讀于清華機(jī)械工程系，在張文增指導(dǎo)下參與靈巧手和器械結(jié)構(gòu)設(shè)計(jì)項(xiàng)目，負(fù)責(zé)用視覺做手勢識別來控制靈巧手，參與過大量編程算法相關(guān)的軟件工作。她發(fā)現(xiàn)，打造出色的機(jī)器人離不開智能軟件與硬件的協(xié)同，希望找到二者最佳的結(jié)合方式，以此制造智能機(jī)器人。

因此，2012 年來到 MIT 后，對感知領(lǐng)域產(chǎn)生了濃厚興趣的原文禎主動和多位研究人類認(rèn)知科學(xué)與機(jī)械認(rèn)知科學(xué)融合的教授交流，其中便有 Ted。

Ted 稱自己已從視覺研究轉(zhuǎn)向觸覺，并向她展示了 GelSight，說打算做機(jī)器人觸覺傳感器，這與她想融合硬件與感知的想法不謀而合，遂決定加入團(tuán)隊(duì)。

MIT 具身智能達(dá)人志

作為一名機(jī)械系學(xué)生，原文禎進(jìn)組后受到了不小的沖擊。

GelSight 的核心硬件是帶涂層的透明軟膠，涉及化學(xué)流程，要親自準(zhǔn)備材料、做模具、融合材料，表面噴涂難度極大。

Ted 把原文禎帶到實(shí)驗(yàn)室，指著一堆瓶瓶罐罐，讓她抄錄，說是要做軟膠觸膜的噴涂。身旁 GelSight 方向的大師姐賈曉丹一邊教一邊說自己即將離開，之后這屋子和全組的軟膠研發(fā)制作就由她繼承了?？粗鴿M屋子化學(xué)器材，原文禎直接懵了，「本來想多寫寫代碼，結(jié)果卻先來搞化學(xué)了?！?/p>

在專注硬件開發(fā)之外，原文禎開展了 GelSight 力學(xué)建模研究，試圖從根本上理解測量信號的本質(zhì)。

原文禎以傳統(tǒng)機(jī)械工程思維開啟研究，聚焦機(jī)器人觸覺的核心問題——接觸力測量。面對復(fù)雜力學(xué)建模的挑戰(zhàn)，她通過大量實(shí)測建立基礎(chǔ)理論框架時(shí)，開創(chuàng)性地在物體表面配置黑色標(biāo)記點(diǎn)，意外發(fā)現(xiàn)這些標(biāo)記點(diǎn)的信號變化與抓取滑動（Slip）高度關(guān)聯(lián)。

在與副導(dǎo)師、觸覺先驅(qū) Mandayam Srinivasan 的深度探討中，她敏銳捕捉到解決「物體滑落」這一抓取難題的關(guān)鍵：將 GelSight 傳感器的高維信號優(yōu)勢（精度較傳統(tǒng)觸覺設(shè)備提升兩個(gè)數(shù)量級）與幾何學(xué)結(jié)合，耗時(shí)兩年最終構(gòu)建出基于標(biāo)記點(diǎn)的滑動檢測模型，并發(fā)表于 ICRA 2015，師兄李瑞也參與其中。

檢測抓取失敗、物體滑落是機(jī)器人觸覺領(lǐng)域的第一重要課題。此工作加上 2017 年同董思遠(yuǎn)的合作，系統(tǒng)性地研究、論證了全新的基于觸覺檢測機(jī)器人抓取后物體滑落的方法——比起傳統(tǒng)方法更普適、更穩(wěn)定，能真正地應(yīng)用于機(jī)器人上。

MIT 具身智能達(dá)人志

論文鏈接：https://ieeexplore.ieee.org/abstract/document/7139016

此時(shí)正值機(jī)器人觸覺領(lǐng)域低谷，受限于傳感器硬件、機(jī)器人算法及傳統(tǒng)傳感器價(jià)格穩(wěn)定性問題，行業(yè)認(rèn)為觸覺應(yīng)用天花板已至且實(shí)用價(jià)值有限，原文禎所發(fā)的文章也曾只有個(gè)位數(shù)的引用量、在會議上無人問津，甚至一度成為實(shí)驗(yàn)室唯一的學(xué)生。

對未來感到迷茫的她通過跨領(lǐng)域的交流與反思，認(rèn)識到關(guān)鍵在于「感知（Perception）」本身，要向整個(gè)機(jī)器人領(lǐng)域證明，高精度觸覺傳感器本身如何將物理本質(zhì)和認(rèn)知結(jié)構(gòu)結(jié)合起來，實(shí)現(xiàn)從未有過的認(rèn)知能力——這種新式傳感器能否催生新的感知范式？

她將目光投向硬度檢測這一傳統(tǒng)難題：傳統(tǒng)傳感器和純視覺方案均無法有效解決，是因?yàn)槲矬w軟硬度必須通過接觸才能感知。

而基于對 GelSight 信號的物理直覺，她設(shè)計(jì)系列實(shí)驗(yàn)驗(yàn)證猜想，成功實(shí)現(xiàn)復(fù)雜工況下的硬度檢測（接觸受力未知、物體形狀隨機(jī)且存在干擾力），并衍生出對布料/衣服等復(fù)雜可形變物體的感知工作。

這項(xiàng)探索分兩階段推進(jìn)：她先嘗試描述物理現(xiàn)象并進(jìn)行小規(guī)模測試，在化學(xué)實(shí)驗(yàn)室手工制作不同硬度硅膠球后，通過分析 GelSight 接觸信號，采用手動提取特征方法，構(gòu)建出能很好描述信號的低維物理模型，這篇發(fā)表于 IROS 2016 的研究雖僅適用標(biāo)準(zhǔn)球體，但驗(yàn)證了理論可行性。

彼時(shí) Ted 的辦公點(diǎn)仍在視覺圖形組，同 William Freeman 和 Antonio Torralba 為鄰，正趕上深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域跨越式發(fā)展的時(shí)刻，原文禎便常和周博磊（UCLA AP）、吳佳?。ㄋ固垢?AP）、薛天帆（港中文 AP）等做視覺、圖像的同學(xué)交流，學(xué)習(xí)最新的視覺領(lǐng)域進(jìn)展，從中獲得靈感。

為了實(shí)現(xiàn)廣泛應(yīng)用、測試任意物體的硬度，她與 William 組的 Andrew Owens 合作，將物理洞察與卷積神經(jīng)網(wǎng)絡(luò)結(jié)合——前者確保模型具備可解釋性，后者利用 CNN 和 RNN 處理高維信號的優(yōu)勢，最終實(shí)現(xiàn)對任意形狀物體的通用硬度檢測，并發(fā)表于 ICRA 2017。這項(xiàng)研究也讓原文禎成為了最早融合觸覺與深度學(xué)習(xí)的學(xué)者之一。

MIT 具身智能達(dá)人志

論文鏈接：https://arxiv.org/pdf/1704.03955

之后，原文禎積極探索其他將深度學(xué)習(xí)和高精度觸覺結(jié)合起來以增強(qiáng)觸覺感知的方式，比如以不同形式將觸覺和視覺結(jié)合在一起，使用深度學(xué)習(xí)，來獲取對布料、衣服的深入感知。

在 ICRA 2018 的工作中，她展示了機(jī)器人通過視覺定位主動抓取衣物，結(jié)合動態(tài)觸覺與深度學(xué)習(xí)，不僅能識別紋理，還能推斷厚度、蓬松度、光滑度等物理屬性，以及適用季節(jié)、洗滌方式等智能理解信息，初步實(shí)現(xiàn)了 Ted「做一個(gè)機(jī)器人在家里給衣服分類洗滌」的愿景。

「最早我認(rèn)為做好機(jī)器人，要靠精妙的機(jī)械結(jié)構(gòu)和用于感知和控制的優(yōu)秀算法，但事實(shí)證明機(jī)器人前沿發(fā)展的推動力，也依賴材料科學(xué)以及先進(jìn)的制造技術(shù)?！乖牡澑袊@，「機(jī)器人是一門綜合性很強(qiáng)的學(xué)科?！?/p>

對 GelSight 作出重要貢獻(xiàn)的二人至今仍在用不同方式探索著視觸覺領(lǐng)域，李瑞選擇了創(chuàng)業(yè)，原文禎則留在了學(xué)術(shù)界。

李瑞一直有著通用機(jī)器人的夢想，博士畢業(yè)論文里開篇提到的場景就是未來的機(jī)器人可以在家里和工廠里幫人類做各種各樣的事，而視觸覺傳感器和手眼協(xié)同便是其中重要的一環(huán)。

2015 年李瑞博士畢業(yè)時(shí)，Ted 問他要不要拿 GelSight 去創(chuàng)業(yè)，但他覺得時(shí)機(jī)未成熟，選擇在硅谷創(chuàng)立了無人配送小車公司 Robby Technologies，進(jìn)軍更成熟的自駕領(lǐng)域，研發(fā)了純視覺和無需依賴高精地圖的技術(shù)，與特斯拉的技術(shù)路徑不謀而合，項(xiàng)目也入選了硅谷創(chuàng)業(yè)加速器Y Combinator（YC），并得到了 OpenAI 董事等的投資。

直到去年 1 月，一直密切關(guān)注視觸覺領(lǐng)域發(fā)展的李瑞認(rèn)為機(jī)器人創(chuàng)業(yè)時(shí)機(jī)已到，便在國內(nèi)成立了緯鈦科技，以通用機(jī)器人為目標(biāo)，計(jì)劃根據(jù)核心視觸覺傳感器、視觸覺靈巧手、整機(jī)的漸進(jìn)式路徑研發(fā)，近 20 年跨領(lǐng)域的積累得以充分發(fā)揮，離其在博士論文中對通用機(jī)器人的愿景更近了一步，「做真正心靈手巧的機(jī)器人?！?/p>

原文禎則在斯坦福做了一年博士后之后，在 2019 年入職了 CMU RI，先是帶學(xué)生做出了難度極大的觸覺傳感器仿真器。她們同步推進(jìn)基于學(xué)習(xí)的方法和物理建模的方法，都取得了很好的效果，后續(xù)還把它與機(jī)器人仿真結(jié)合，實(shí)現(xiàn)了仿真到現(xiàn)實(shí)的遷移。

來到 UIUC 任教后，原文禎還針對觸覺傳感器硬件差異導(dǎo)致數(shù)據(jù)異構(gòu)的難題，提出基于深度學(xué)習(xí)的跨硬件統(tǒng)一表征網(wǎng)絡(luò)，通過仿真器生成萬級異構(gòu)傳感器數(shù)據(jù)集訓(xùn)練編碼器，實(shí)現(xiàn)跨硬件觸覺信息的標(biāo)準(zhǔn)化表達(dá)，為觸覺大模型奠定數(shù)據(jù)基礎(chǔ)。

上月，她也因在機(jī)器人觸覺領(lǐng)域的突出成就和宋舒然、朱玉可與劉暢流等學(xué)者一同獲得了 IEEE RAS 2025 的早期學(xué)術(shù)生涯獎。從畢業(yè)時(shí)只有少數(shù)頭部院校發(fā)教職 offer 到 GelSight 成為當(dāng)下最廣泛流行的觸覺傳感技術(shù)，原文禎感嘆，「這也算是當(dāng)年的堅(jiān)持受到了時(shí)代的肯定了。」

Learning「登堂入室」

MIT 的機(jī)器人研究曾長期由傳統(tǒng)方法主導(dǎo)——基于剛體動力學(xué)與精密控制，波士頓動力創(chuàng)始人 Marc Raibert 的早期工作（如動態(tài)平衡單足機(jī)器人）便是典范，加上 Russ Tedrake、Alberto Rodriguez 等大牛坐鎮(zhèn)，在學(xué)習(xí)方法展示出其能力前，自是沒必要顛覆過去的深厚積累。

但隨著環(huán)境復(fù)雜度提升，學(xué)習(xí)范式崛起之風(fēng)也逐漸吹向了 MIT，這從 Alberto 和 Russ 二位的學(xué)生的研究便可窺得一二。

Alberto 曾師從操作泰斗 Mathew Mason，屬于傳統(tǒng)機(jī)器人學(xué)一派，在 MIT 機(jī)械系帶領(lǐng)著操作與機(jī)械實(shí)驗(yàn)室（MCube），研究自主靈巧操作和機(jī)器人自動化，在 2023 年到波士頓動力領(lǐng)導(dǎo)機(jī)器人操作后，依舊同 MCube 合作緊密。

2015 至 2017 年，亞馬遜連續(xù)舉辦了三屆機(jī)器人挑戰(zhàn)賽（APC），旨在推動倉儲自動化中機(jī)器人無序分揀技術(shù)的突破，賽事瞄準(zhǔn)機(jī)器人操作領(lǐng)域的「圣杯問題」——Bin Picking（從雜亂箱體中抓取物體）。

Alberto 所帶領(lǐng)的 MIT 隊(duì)連續(xù)參與了三屆且均穩(wěn)居前三，其中組里的學(xué)生俞冠廷（Peter Yu）作為「三朝元老」與技術(shù)架構(gòu)總負(fù)責(zé)人自然功不可沒。

MIT 具身智能達(dá)人志

赴美前，俞冠廷先后在臺灣交通大學(xué)和臺灣國立大學(xué)讀完了計(jì)算機(jī)本科和碩士，并于 2013 年到 MIT 機(jī)械工程系讀博，師從精通靈巧操作的 Alberto Rodriguez 和擅長視覺導(dǎo)航的 John Leonard。

加入 MIT 的俞冠廷顯然是個(gè)比賽型人才。

2013 年，資助過十年無人車比賽的美國國防部高級研究計(jì)劃局（DARPA）轉(zhuǎn)而舉辦人形機(jī)器人挑戰(zhàn)賽，博一的俞冠廷加入 MIT 隊(duì)，也積極參與其中。

比賽賽程十分緊張：8 個(gè)月內(nèi)準(zhǔn)備虛擬機(jī)器人挑戰(zhàn)賽，暑假過后收到 Atlas 機(jī)器人，又要在短短 4 個(gè)月內(nèi)憑借真機(jī)再度參賽。MIT 隊(duì)從零開發(fā)了大量系統(tǒng)組件，比如兼容優(yōu)化的運(yùn)動學(xué)和動力學(xué)引擎、完整用戶界面，還集成了現(xiàn)有復(fù)雜軟件，其中俞冠廷主要負(fù)責(zé)研究感知問題。

MIT 具身智能達(dá)人志

2015 年再次參與 DARPA 機(jī)器人挑戰(zhàn)賽的同時(shí)，俞冠廷也開始參與亞馬遜機(jī)器人挑戰(zhàn)賽，擔(dān)任感知和軟件負(fù)責(zé)人。

比賽場景設(shè)定在一個(gè)類似自動化倉儲的倉庫中，機(jī)器人有 20 分鐘的時(shí)間從貨架上揀選物品，并將其放入塑料托盤中。貨架上的 12 個(gè)貨箱里存放著 25 種產(chǎn)品，每個(gè)貨箱都有一個(gè)目標(biāo)物品。機(jī)器人若成功揀選到目標(biāo)物品，可獲得 10 分的基礎(chǔ)分，若貨箱雜亂或物品難以處理，還能獲得額外加分；若揀選了錯(cuò)誤的物品、損壞或掉落物品，則會被扣分。

在 26 支隊(duì)伍中，MIT 最終以揀選 7 件物品、獲得 88 分的成績位居第二。不過在首屆賽事中，他們?nèi)圆捎脗鹘y(tǒng)感知-規(guī)劃-執(zhí)行架構(gòu)，重點(diǎn)解決物體識別、抓取規(guī)劃和軌跡計(jì)算問題，通過集成有限的傳感器反饋（視覺、壓力）實(shí)現(xiàn)部分任務(wù)級驗(yàn)證，但尚未達(dá)到完全的實(shí)時(shí)閉環(huán)控制。

因此在第二年他們決定和 Ted 組合作加上觸覺反饋以直接確認(rèn)抓取狀態(tài)，同時(shí)還和普林斯頓組成聯(lián)隊(duì)一起參賽。

最終 MIT-普林斯頓隊(duì)獲得 Stowing Task（裝載任務(wù)）第三名、挑揀任務(wù)的第四名，并提出一種基于多視角 RGB-D 數(shù)據(jù)的自監(jiān)督深度學(xué)習(xí)方法，通過全卷積神經(jīng)網(wǎng)絡(luò)分割場景并匹配 3D 模型，無需手動標(biāo)注即可生成訓(xùn)練數(shù)據(jù)，實(shí)現(xiàn)復(fù)雜場景下 6D 物體姿態(tài)的可靠估計(jì)。

MIT 具身智能達(dá)人志

論文鏈接：https://arxiv.org/pdf/1609.09475

第三年，MIT-普林斯頓隊(duì)再得裝載任務(wù)冠軍與 ICRA 2018 最佳系統(tǒng)論文獎。

值得一提的是，團(tuán)隊(duì)所設(shè)計(jì)的機(jī)器人抓取-識別系統(tǒng)核心突破在于實(shí)現(xiàn)了對未知物體的零樣本操作能力。

該系統(tǒng)包含多可供性抓取框架與跨域圖像匹配框架，前者基于全卷積網(wǎng)絡(luò)，無需物體分割和分類就能規(guī)劃抓取動作；后者利用雙流卷積網(wǎng)絡(luò)，無需額外訓(xùn)練即可識別新物體——在比賽中以 100% 成功率完成倉儲任務(wù)，成為賽事史上首個(gè)在限定時(shí)間內(nèi)精確處理所有已知與未知物體的解決方案。

MIT 具身智能達(dá)人志

論文鏈接：https://arxiv.org/pdf/1710.01330

2018 年 6 月，俞冠廷在博士畢業(yè)后，和同年畢業(yè)于 CMU 的好友周佳驥一起，在波士頓創(chuàng)立星猿哲（XYZ Robotics），為物流及工業(yè)自動化提供更好更快的機(jī)器人解決方案，成為最早一批機(jī)器人創(chuàng)業(yè)者。（周佳驥與CMU的故事詳情請看：CMU 具身智能風(fēng)云榜：從傳統(tǒng)到全面）

深度學(xué)習(xí)對機(jī)器人領(lǐng)域的影響更劇烈地發(fā)生在了 Russ Tedrake 的小組里。

2017 年，李昀燭從北大計(jì)算機(jī)系畢業(yè)來到 MIT 讀博，科研方向正從 CV 向深度強(qiáng)化學(xué)習(xí)拓展。想做智能體與環(huán)境交互研究的他自然想到了機(jī)器人技術(shù)同 CV 的結(jié)合，而 Russ 和 Antonio Torralba（也是趙行導(dǎo)師）正好也想共同指導(dǎo)學(xué)生，三人就匹配成功了。

Russ 側(cè)重基于物理的模型及模型優(yōu)化，Antonio 關(guān)注計(jì)算機(jī)視覺、深度學(xué)習(xí)和生成模型，雙方的應(yīng)用領(lǐng)域和方法大相徑庭，讓李昀燭在博士階段初期協(xié)調(diào)起來頗為吃力，需在不同思路間周旋。但另一方面，這也是難得的成長契機(jī)，他得以同時(shí)接觸機(jī)器人和計(jì)算機(jī)視覺兩個(gè)領(lǐng)域的前沿成果和視角。

MIT 具身智能達(dá)人志

一開始，李昀燭啟動了視觸覺研究，探索視覺與觸覺之間的相互預(yù)測，側(cè)重多模態(tài)交互。朱俊彥（現(xiàn) CMU AP）在加入 Antonio 組擔(dān)任博士后后也參與其中，協(xié)助李昀燭在模型訓(xùn)練、調(diào)試與設(shè)計(jì)等方面，推動項(xiàng)目順利開展并完成。隨后，兩人又與 Wojciech Matusik 的團(tuán)隊(duì)合作，開展觸覺手套項(xiàng)目，李昀燭主要負(fù)責(zé)模型與學(xué)習(xí)相關(guān)部分。

為投稿《自然》雜志，他們解答了為何選擇研發(fā)觸覺手套而非其他形式的觸覺傳感器：手是人體與環(huán)境交互的核心部位，觸覺手套不僅能實(shí)現(xiàn)技術(shù)突破、捕捉多模態(tài)交互信息，還能推動人類手部行為的科學(xué)研究，進(jìn)一步啟發(fā)機(jī)器人領(lǐng)域的發(fā)展。

投稿后不久，評審就給出了非常詳盡的反饋?！高@是我收到過最高質(zhì)量的審稿意見，沒有之一，」李昀燭感嘆道。意見中提出了許多他們在投稿前已考慮到和尚未想到的問題?？吹秸撐挠型唤邮?，幾位作者多次召開長達(dá)四小時(shí)的會議，深入頭腦風(fēng)暴如何恰當(dāng)回應(yīng)評審意見。最終，該工作成功發(fā)表在 2019 年的《自然》雜志上。

MIT 具身智能達(dá)人志

被展示在 MIT 博物館中的觸覺手套

論文鏈接：https://www.nature.com/articles/s41586-019-1234-z

此后，李昀燭持續(xù)深入觸覺研究領(lǐng)域，與 Wojciech 團(tuán)隊(duì)的羅亦悅（現(xiàn)華盛頓大學(xué) AP）合作，研發(fā)用于多模態(tài)大數(shù)據(jù)采集的觸覺織物與觸覺地毯，并推進(jìn)柔性、可擴(kuò)展的觸覺傳感器設(shè)計(jì)。與 GelSight 的實(shí)現(xiàn)方法不同，他們希望通過超薄且可擴(kuò)展的結(jié)構(gòu)，使傳感器能夠適應(yīng)人手、機(jī)械手的抓握部位及機(jī)器人皮膚等多種復(fù)雜表面。

觸覺以外，李昀燭更重要的研究主線是如今的熱點(diǎn)——彼時(shí)被稱為「Intuitive Physics（直覺物理）」的世界模型（World Models）。

這一研究起源于李昀燭與 Russ 關(guān)于建模方法的深入討論：我們究竟應(yīng)采用基于物理的建模與優(yōu)化，還是應(yīng)從數(shù)據(jù)中學(xué)習(xí)動力學(xué)模型？在具身智能交互中，每個(gè)系統(tǒng)都涉及機(jī)器人狀態(tài)與環(huán)境狀態(tài)的協(xié)同演化。相較而言，獲取機(jī)器人的狀態(tài)較為容易，因?yàn)槠鋫鞲衅飨到y(tǒng)可由設(shè)計(jì)者主動配置；而環(huán)境狀態(tài)及其動態(tài)變化則更難觀測與建模。人類對環(huán)境的物理理解正是通過與環(huán)境長期交互中逐步學(xué)習(xí)獲得的。因此，李昀燭希望能夠?qū)W習(xí)環(huán)境的動態(tài)模型，即所謂的“世界模型”——這一方向也正是他與兩位導(dǎo)師共同關(guān)注的研究重點(diǎn)。

彼時(shí) MIT 內(nèi)吳佳俊和其導(dǎo)師 Joshua Tenenbaum 在該領(lǐng)域成果顯著，李昀燭便向他們請教，恰好吳佳俊也對直覺物理在機(jī)器人領(lǐng)域的運(yùn)用很感興趣，雙方便開始了長期合作，共同研究環(huán)境的動態(tài)模型與世界模型。

博一下學(xué)期，李昀燭與吳佳俊合作提出了動態(tài)粒子交互網(wǎng)絡(luò)（DPI-Nets），以粒子作為環(huán)境表征，統(tǒng)一建模剛體、流體與可變形物體，并通過圖神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)粒子間的動力學(xué)關(guān)系。該研究發(fā)表于 ICLR 2019，為解決物理模擬與現(xiàn)實(shí)之間的偏差問題提供了新思路。DPI-Nets 能夠?qū)鞲衅鲾?shù)據(jù)轉(zhuǎn)換為粒子表示，從而實(shí)現(xiàn)多種物體動力學(xué)的高效模擬與控制，支撐機(jī)器人在復(fù)雜環(huán)境中操控不同材質(zhì)物體，完成多樣化的操作任務(wù)。

MIT 具身智能達(dá)人志

論文鏈接：https://arxiv.org/pdf/1810.01566

作為一個(gè)復(fù)雜的系統(tǒng)工程項(xiàng)目，DPI-Nets 涵蓋仿真和現(xiàn)實(shí)世界兩部分，而那時(shí)的仿真技術(shù)的實(shí)現(xiàn)遠(yuǎn)不如現(xiàn)在成熟，很多須用 C++ 和 CUDA 編寫。

為了將仿真與深度學(xué)習(xí)算法接起來，李昀燭還給英偉達(dá)的仿真器編寫 C++ 包裝層，使其內(nèi)部 API 能與 Python 對接；并搭建仿真環(huán)境，在其中進(jìn)行數(shù)據(jù)收集、模型學(xué)習(xí)、模型配置、控制規(guī)劃；仿真環(huán)節(jié)后又再將整套流程遷移到現(xiàn)實(shí)機(jī)器人上。

對他而言，這是一次絕佳的鍛煉：全程涉及圖形學(xué)、基于物理的模擬、模型學(xué)習(xí)、基于機(jī)器人模型的優(yōu)化與規(guī)劃，以及模擬到現(xiàn)實(shí)的遷移，讓他對機(jī)器人系統(tǒng)有了更深刻的理解。

當(dāng)時(shí)，吳佳俊在模型設(shè)計(jì)和項(xiàng)目規(guī)劃等方面提供了諸多建議，而 Russ 剛從人形機(jī)器人轉(zhuǎn)向操作研究，實(shí)驗(yàn)室也剛開始搭建現(xiàn)實(shí)世界中的機(jī)器人操作系統(tǒng)，整體架構(gòu)尚不成熟。通過這個(gè)項(xiàng)目，李昀燭不僅積累了大量實(shí)踐經(jīng)驗(yàn)，還系統(tǒng)性地認(rèn)識到感知、學(xué)習(xí)、建模與 Sim2Real 等關(guān)鍵問題，研究視野由此顯著拓展，選題也變得更加順暢，其中不少思路至今仍在延續(xù)。

李昀燭的一系列工作讓 Russ 看到學(xué)習(xí)算法在環(huán)境建模中的潛力；組里 Peter Florence 和 Lucas Manuelli 的論文《視覺運(yùn)動策略學(xué)習(xí)中的自監(jiān)督對應(yīng)關(guān)系》又讓 Russ 相信學(xué)習(xí)還能進(jìn)一步用于策略制定；最后在豐田研究院，Russ 同宋舒然（現(xiàn)斯坦福 AP）團(tuán)隊(duì)合作的基于擴(kuò)散模型的機(jī)器人動作生成策略「Diffusion Policy」則讓這位堅(jiān)定的「Model-Based 信徒」真正轉(zhuǎn)向了學(xué)習(xí)一派。

如今，李昀燭與 Russ 會在會議中偶然碰面，二人的討論發(fā)生了有趣的變化：李昀燭向 Russ 提出應(yīng)在學(xué)習(xí)系統(tǒng)中添加恰當(dāng)結(jié)構(gòu)以提升泛化性與樣本效率；Russ 卻主張構(gòu)建機(jī)器人基礎(chǔ)模型，像 VLA 模型和大型行為模型等，已然 all in 端到端的機(jī)器人基礎(chǔ)模型研究。Russ 還感慨，自己都未曾料到會有如此轉(zhuǎn)變。

2021 年，李昀燭和許華哲、吳佳俊等人合作了 RoboCraft 項(xiàng)目：許華哲在吳佳俊組里做博士后，二人經(jīng)討論認(rèn)為動力學(xué)模型學(xué)習(xí)（Dynamics Model Learning）是個(gè)不錯(cuò)的方向，想起李昀燭之前做的 DPI-Nets 也是相關(guān)工作，便提出了合作。

次年李昀燭畢業(yè)，來到斯坦福，在李飛飛和吳佳俊組里做博士后，順著 RoboCraft 繼續(xù)推進(jìn) RoboCook 工作，和史浩辰（斯坦福 PhD）合作，通過圖神經(jīng)網(wǎng)絡(luò)和預(yù)測控制算法讓機(jī)械臂學(xué)會操控各種軟體材料，比如借助工具完成包餃子任務(wù)，最終獲得了 CoRL 2023 的最佳系統(tǒng)論文獎。

MIT 具身智能達(dá)人志

論文鏈接：https://arxiv.org/abs/2306.14447

接著，李昀燭還和黃文龍、吳佳俊、李飛飛等人一起合作了 VoxPoser 項(xiàng)目。

一作黃文龍（斯坦福 PhD）曾在谷歌大腦參與 PaLM-E 項(xiàng)目，研究語言與機(jī)器人操作的融合問題。博士入學(xué)后，他在斯坦福與李昀燭等人展開深入討論，認(rèn)為盡管基礎(chǔ)模型在高層次任務(wù)上表現(xiàn)出色，但在生成機(jī)器人動作等低層次控制上，仍需結(jié)合結(jié)構(gòu)化框架以提升可靠性與可控性。

鑒于李昀燭之前在模型學(xué)習(xí)、基于模型的優(yōu)化和規(guī)劃方面有諸多經(jīng)驗(yàn)，便建議將基礎(chǔ)模型的高層次能力與低層次優(yōu)化相結(jié)合，從而充分發(fā)揮兩者優(yōu)勢，由此產(chǎn)生了 VoxPoser 的想法。

MIT 具身智能達(dá)人志

項(xiàng)目鏈接：https://voxposer.github.io/

VoxPoser 將大模型接入機(jī)器人，把復(fù)雜指令轉(zhuǎn)化為具體行動規(guī)劃，無需額外數(shù)據(jù)與訓(xùn)練；還結(jié)合大語言模型同視覺語言模型，在 3D 空間中分析目標(biāo)及需繞過的障礙，以零樣本的方式合成軌跡為機(jī)器人規(guī)劃行動。

盡管仍處于實(shí)驗(yàn)室演示階段，與實(shí)際商業(yè)應(yīng)用尚有不小差距，該工作首次展示了機(jī)器人在更通用場景中，基于語言指令與視覺觀測完成多種復(fù)雜操作任務(wù)的能力。論文發(fā)表在 CoRL 2023 后，迅速引發(fā)學(xué)術(shù)界、工業(yè)界及風(fēng)投圈的廣泛關(guān)注。此后幾乎每周都有多位投資人主動聯(lián)系作者團(tuán)隊(duì)，尋求進(jìn)一步交流與合作。

離開斯坦福后，李昀燭先后在 UIUC 和哥倫比亞大學(xué)任職，帶領(lǐng)學(xué)生持續(xù)推進(jìn)世界模型（World Models）、多模態(tài)感知（Multi-Modal Perception）與基礎(chǔ)模型應(yīng)用（Foundation Models for Robotics）三大方向的研究，「核心目標(biāo)是讓機(jī)器人能像人一樣，更加靈活通用地感知環(huán)境并與之交互?！?/p>

具身智能進(jìn)行時(shí)

2019 年初，MIT 開始籌備成立一個(gè)虛擬組織——具身人工智能研究小組（Embodied AI Group，簡稱 EI 小組）。

「在 EI 小組成立前，具身智能并不是一個(gè)熱詞。」在李昀燭的回憶里，此前大家更關(guān)心基于模型的方法，小組成立后合作交流更緊密。

EI 小組把研究計(jì)算機(jī)視覺、圖形學(xué)、機(jī)器人控制、機(jī)器人任務(wù)規(guī)劃等方面的老師聚集到一起，既方便申請資金，又組織講座等多種活動。

整個(gè) EI 基本都在 Stata Center 的三樓，各個(gè)實(shí)驗(yàn)室的距離都在百米內(nèi)，老師們有單獨(dú)辦公室，而不同實(shí)驗(yàn)室的學(xué)生則三兩交叉、混雜分布在不同辦公室里，以便更好地日常交流。

這年的錄取結(jié)果公布后，收到 offer 的陳濤到 MIT 實(shí)地交流時(shí)，就已經(jīng)了解到 EI 小組的不少安排：每學(xué)期會辦約八場講座，外部嘉賓和內(nèi)部交流五五開，還設(shè)一對一交流和共進(jìn)午餐等不同的機(jī)會；各大頂會前辦研討會，各組學(xué)生齊聚一堂互相分享討論投稿論文。

陳濤本科在上海交通大學(xué)的機(jī)械工程與自動化系，大四開始自學(xué)編程、機(jī)器學(xué)習(xí)、慢慢接觸 AI，畢業(yè)后先在人形機(jī)器人創(chuàng)企嶺先機(jī)器人工作了一年，探索室內(nèi)導(dǎo)航的 SLAM 系統(tǒng)搭建、強(qiáng)化學(xué)習(xí)上真機(jī)、物體檢測等方向，把機(jī)器人系統(tǒng)所用的 AI 技術(shù)摸了個(gè)遍。

確定想研究用 AI 方法尤其是強(qiáng)化學(xué)習(xí)去控制機(jī)器人系統(tǒng)后，陳濤便決定出國深造，在 2017 年到 CMU 讀研，師從 FAIR 機(jī)器人部門研究負(fù)責(zé)人、現(xiàn) Skild AI 創(chuàng)始人 Abhinav Gupta，做了關(guān)于智能體無任務(wù)獎勵下自主探索現(xiàn)實(shí)復(fù)雜 3D 環(huán)境的工作。

MIT 具身智能達(dá)人志

兩年后，想拓展新圈子、跟隨年輕老師的陳濤來到 MIT 讀博，師從剛從伯克利畢業(yè)后到 MIT 任教的 Pulkit Agrawal，成為其首位博士生，二人共同感興趣的方向。此前 MIT 的機(jī)器人探索更偏「硬核」，在傳統(tǒng)控制和硬件研發(fā)上成果斐然，Pulkit 加入后，則新添了深度強(qiáng)化學(xué)習(xí)的色彩。

進(jìn)組后，作為組里少數(shù)了解真機(jī)的成員，陳濤先是負(fù)責(zé)搭建真機(jī)平臺及 Infra，用 Python 寫 AI的控制軟件及脫離 ROS、以少量代碼實(shí)現(xiàn)機(jī)器人交互的庫。

接著陳濤又做強(qiáng)化學(xué)習(xí)打視頻游戲的研究，但因?qū)嶒?yàn)室計(jì)算資源有限，沒能擴(kuò)大規(guī)模；同時(shí)因 Pulkit 和 Sangbae Kim 的合作并行開啟了對四足機(jī)器人的探索，研究用強(qiáng)化學(xué)習(xí)算法讓四足機(jī)器人跳過溝壑，帶著本科生寫代碼；還會協(xié)助 Pulkit 備課，他首次在 MIT 熬夜便是幫 Pulkit 準(zhǔn)備編程作業(yè)。

博一接近尾聲時(shí)，陳濤終于找到了自己最感興趣的領(lǐng)域：機(jī)器人操作與靈巧手控制。

2019 年 10 月，OpenAI 發(fā)布的機(jī)器人轉(zhuǎn)魔方工作引起轟動，陳濤因此也有了做靈巧手的想法，于是在完成手頭的項(xiàng)目后，決定解決靈巧手中最難的控制問題，聚焦到把靈巧手做得更泛化（朝向任意方向），突破 OpenAI 靈巧手只能朝上的局限。

起初實(shí)驗(yàn)室沒有靈巧手，陳濤便在仿真器上開始探索，用強(qiáng)化學(xué)習(xí)和模仿學(xué)習(xí)訓(xùn)練靈巧手控制器，并且展示了靈巧手在手面朝下此最極端的情況下也能轉(zhuǎn)動任意形狀的物體，而且還通過無模型框架重新定位了超 2000 個(gè)形狀各異的物體，具有非常高的通用性。

他們還發(fā)現(xiàn)，當(dāng)靈巧手控制器足夠魯棒時(shí)，即使不知道物體形狀信息，也可以以高成功率轉(zhuǎn)動任意物體到指定朝向。

MIT 具身智能達(dá)人志

論文鏈接：https://proceedings.mlr.press/v164/chen22a/chen22a.pdf

彼時(shí)靈巧手控制領(lǐng)域十分冷門，傳統(tǒng)模型方法和遙操作方法各有難以逐一建模和數(shù)據(jù)不足的問題，用強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)突破的 OpenAI 也裁撤了其機(jī)器人團(tuán)隊(duì)，直到陳濤用強(qiáng)化學(xué)習(xí)完成遠(yuǎn)超以往難度、眾人未曾設(shè)想的靈巧手控制任務(wù)——此工作獲得了 CoRL 2021 的最佳論文獎。

除了用強(qiáng)化學(xué)習(xí)訓(xùn)練模型使機(jī)器人學(xué)習(xí)有用信息外，團(tuán)隊(duì)還將原本需數(shù)月的訓(xùn)練時(shí)長縮短至兩天內(nèi)以提升效率，并將模型從依賴大量設(shè)備、成本高達(dá)幾十萬美金的 OpenAI 早期模式轉(zhuǎn)變?yōu)閮H用一個(gè)幾百美金相機(jī)、一張 3090 顯卡及一周左右即可完成訓(xùn)練，通過網(wǎng)絡(luò)架構(gòu)優(yōu)化提出新框架，極大簡化整機(jī)部署系統(tǒng)，提升數(shù)據(jù)采集效率。

推進(jìn)此工作時(shí)陳濤也意識到，仿真器中充足的質(zhì)量、材質(zhì)、摩擦系數(shù)等信息其實(shí)屬于「作弊信息」，盡管做了大規(guī)模的理論驗(yàn)證說明它可以被遷移到真機(jī)上，但依舊難以在真機(jī)上部署，因此下一步得訓(xùn)練出在真實(shí)世界里能夠部署的解決方案，便緊接著發(fā)表第二篇論文解決在真機(jī)上實(shí)現(xiàn)時(shí)遇到的問題，投在了期刊雜志《Science Robotics》上。

有了這個(gè)魯棒的機(jī)器人控制器框架后，陳濤開展了大量應(yīng)用工作，解決如靈巧手抓物重定向、削水果蔬菜等問題，還制作觸覺傳感器用于機(jī)器人在桌面或封閉空間精準(zhǔn)定位目標(biāo)物體。

2024 年博士畢業(yè)，一直對創(chuàng)業(yè)很熱衷的陳濤拉上了上交大小兩級的師弟秦譽(yù)哲，一起在加州成立了 Dexmate，主攻機(jī)器人的靈巧操作。

秦譽(yù)哲在 UCSD 讀博，博導(dǎo)正是陳濤在 CMU 的學(xué)長王小龍，兩人通過王小龍認(rèn)識后發(fā)現(xiàn)經(jīng)歷十分相似，同樣從機(jī)械系轉(zhuǎn)到 AI，并專攻相對小眾的靈巧手，因此思路非常契合。

目前，Dexmate 的產(chǎn)品已迭代至接近穩(wěn)定的狀態(tài)，即將進(jìn)行小規(guī)模量產(chǎn)。區(qū)別于一般的人形機(jī)器人，他們選擇「輪式底盤+雙臂雙手」的操作形態(tài)，但沒有設(shè)計(jì)胸腔，而是讓機(jī)器人既可以蜷縮、折疊，也能展開到兩米多高。

「我們奉行實(shí)用主義，機(jī)器人要具備像人一樣的操作能力，而不需形態(tài)上像人，靈巧手也不一定是五指結(jié)構(gòu)。」

而在陳濤讀博的最后一年，算得上是我國本土培養(yǎng)的首位具身智能博士方浩樹也來到 Pulkit 組做博士后。

方浩樹在 2013 年入讀上海交大，是個(gè)在本科期間就嶄露頭角并敢于嘗試的年輕人。他在大三參加本科生研究計(jì)劃時(shí)跟隨閻威武學(xué)習(xí)機(jī)器學(xué)習(xí)知識后終于找到感興趣的研究方向，即神經(jīng)網(wǎng)絡(luò)和 CV；之后看到盧策吾的實(shí)習(xí)生招聘廣告，因興趣契合投遞簡歷并通過面試，就在大三結(jié)束后休學(xué)，在不同的科技公司實(shí)習(xí)，也去了UCLA訪問，同時(shí)一邊跟著盧策吾做實(shí)驗(yàn)。

MIT 具身智能達(dá)人志

休學(xué)兩年間，方浩樹聚焦 CV 陸續(xù)以一作發(fā)表四篇頂會論文，又在 2019 年本科畢業(yè)時(shí)，拿到多個(gè)北美知名實(shí)驗(yàn)室的 PhD offer，不過，他最終選擇直博到吳文俊人工智能博士班，繼續(xù)留在盧策吾團(tuán)隊(duì)。（盧策吾的具身智能故事請看：3D 視覺派：斯坦福具身智能人物關(guān)系圖）

過往的研究讓方浩樹對機(jī)器人越來越感興趣，便決定從視覺切入，先做抓取，開啟了基于二指夾爪的通用物體抓取工作 AnyGrasp，期間也提出了 GraspNet-1Billion 標(biāo)準(zhǔn)數(shù)據(jù)集。

耗時(shí)三年，方浩樹和團(tuán)隊(duì)終于在 TRO 2022上發(fā)表了 AnyGrasp：它能高效生成準(zhǔn)確、全自由度、密集且時(shí)間平滑的抓取姿態(tài)，面對較大深度傳感噪聲時(shí)運(yùn)行穩(wěn)健；清理裝有 300 多個(gè)未知物體的箱子，成功率達(dá) 93.3%，與受控條件下的人類表現(xiàn)相當(dāng)；單臂系統(tǒng)上處理速度超每小時(shí) 900 個(gè)物體；在動態(tài)抓取方面，還成功展示了水中捕獲游動機(jī)器魚的過程。

MIT 具身智能達(dá)人志

項(xiàng)目鏈接：https://graspnet.net/anygrasp.html

這是機(jī)器人首次在任意場景抓取任意物體時(shí)，表現(xiàn)出堪比人類的能力，既無需物體 CAD 模型和檢測，對硬件構(gòu)型、相機(jī)也無限制。因此，AnyGrasp 被很多研究者當(dāng)作抓取的通用模型使用。

除了抓取外，方浩樹也在思考如何用新范式做機(jī)器人操作。

2021 年 GPT-3 問世后，他發(fā)現(xiàn)采用序列建模，若數(shù)據(jù)充足，可借鑒 GPT 思路進(jìn)行機(jī)器人學(xué)習(xí)。研究 GPT 及此前模仿學(xué)習(xí)方向文章，他們注意到從 GPT-1 到 GPT-2 有重大思想轉(zhuǎn)變：GPT-1 時(shí)語言模型各任務(wù)需分開訓(xùn)練，GPT-2 則將不同任務(wù)作為輸入網(wǎng)絡(luò)，使一個(gè)網(wǎng)絡(luò)能同時(shí)處理不同任務(wù)，還引用了在機(jī)器人學(xué)習(xí)領(lǐng)域率先提出的單模型多任務(wù)的元學(xué)習(xí)（Meta Learning）論文，證明在大規(guī)模數(shù)據(jù)下多任務(wù)學(xué)習(xí)的可行性。

這讓方浩樹想用同樣方法研究機(jī)器人學(xué)習(xí)。他還參考腦科學(xué)文章，發(fā)現(xiàn)人類處理語言和日常操作的腦區(qū)高度重合，主要負(fù)責(zé)序列建模，且考古學(xué)文章表明語言因操作需求而產(chǎn)生，用于傳遞操作經(jīng)驗(yàn)，因此認(rèn)為語言建模方式適用于機(jī)器人操作。

但當(dāng)時(shí)更關(guān)鍵的是缺少合適的數(shù)據(jù)集，為此方浩樹和團(tuán)隊(duì)花數(shù)年采集 RH20T 數(shù)據(jù)集，包含了超過 11 萬機(jī)器人操作序列，提供了視覺、力、音頻、運(yùn)動軌跡、演示視頻和自然語言指令等多種數(shù)據(jù)模態(tài)，發(fā)布后不久便收到了谷歌的邀請，成為大中華區(qū)最早參與 Open X-Embodiment 數(shù)據(jù)集的一支隊(duì)伍。

MIT 具身智能達(dá)人志

項(xiàng)目鏈接：https://rh20t.github.io/

推進(jìn) RH20T 時(shí)，方浩樹發(fā)現(xiàn)基于遙操的數(shù)據(jù)采集方式并非最適合擴(kuò)大規(guī)模的方式，從 2021 年起便開始用外骨骼代替遙操作，開發(fā)了雙臂外骨骼設(shè)備 AirExo，讓人能穿著直接采集數(shù)據(jù)。

對硬件和靈巧操作的深入探索讓方浩樹意識到了觸覺的重要性，便打算再讀個(gè)博士后。恰好妹妹方曉霖在 MIT 讀博，同樣研究 AI 和機(jī)器人，她描述的MIT的研究風(fēng)格深深吸引了方浩樹。在跟董思遠(yuǎn)聊了之后，他認(rèn)為視觸覺大牛 Ted Adelson 組的研究與他之前的研究十分互補(bǔ)。

方浩樹給 Ted 發(fā)郵件表達(dá)了自己對用于操作的觸覺很感興趣，Ted 十分高興，但是稱自己只做觸覺不做操作，之后又聯(lián)系上了在MIT主攻機(jī)器人操作方向的教授 Pulkit。就這樣，方浩樹在 2023 年末前往 MIT，在兩位導(dǎo)師的指導(dǎo)下做博士后。

他先是作為共同一作負(fù)責(zé)學(xué)習(xí)算法的部分，在 IROS 2024 上發(fā)表了 EyeSight Hand，用模仿學(xué)習(xí)做靈巧操作，讓配備了視觸覺傳感器的三指靈巧手能完成切橡皮泥、單手開蓋等操作，這篇文章也獲得IROS 2024 RoboCup最佳論文提名。隨后，方浩樹也開始探索硬件設(shè)計(jì)。

MIT 具身智能達(dá)人志

項(xiàng)目鏈接：https://eyesighthand.github.io/

目前，方浩樹在 MIT 主要圍繞著靈巧操作研究，既設(shè)計(jì)靈巧手、外骨骼硬件和傳感器，也鉆研新的數(shù)據(jù)采集方式和學(xué)習(xí)方法。 MIT的研究經(jīng)歷讓他逐漸從一個(gè) Learning 背景的研究者轉(zhuǎn)變?yōu)閷浖布加猩羁桃娊獾膶W(xué)者。

「不少靈巧手的功能與二指夾爪類似，主要用于抓取，電機(jī)數(shù)量的增加卻不能帶來能力上的提升?！狗胶茦湔J(rèn)為靈巧操作中仍存在許多待解決的科學(xué)問題，「市面上靈巧手雖多，但關(guān)于哪種手的結(jié)構(gòu)、手指數(shù)量、自由度配置、觸覺傳感器的密度、靈敏度及排布方式更適合日常操作等問題均未得到妥善解答?！?/p>

結(jié)語

在 2019 年 EI 小組誕生前，MIT 就已經(jīng)孕育了好幾撥具身智能的探索者。

他們或從傳感器出發(fā)，或先探索更成熟的自駕領(lǐng)域，或在傳統(tǒng)控制方法上深深扎根。十年光陰，AI 和 Robotics 終于開始雙向奔赴。

趙行和董思遠(yuǎn)最早從視覺出發(fā)，如今前者在清華叉院和星海圖推進(jìn)機(jī)器人研究，后者在華為車 BU 鉆研自駕，以不同的路徑探索著具身智能；

李瑞和原文禎讓 GelSight 成為真正意義上的機(jī)器人視觸覺傳感器，現(xiàn)在一位創(chuàng)立緯鈦科技從傳感器開始做機(jī)器人，一位則在 UIUC 任教、探索觸覺大模型；

俞冠廷和李昀燭親歷 Learning 深刻改變機(jī)器人領(lǐng)域，目前前者仍在用心經(jīng)營星猿哲機(jī)器人，后者則在哥倫比亞大學(xué)任職推進(jìn)世界模型與多模態(tài)感知。

而在 EI 小組成立后來到 MIT 的陳濤和方浩樹則搭乘上最新的浪潮，無論是成立 Dexmate 研發(fā)機(jī)器人，還是作為博士后繼續(xù)科研，都在攻克著靈巧操作這一核心難題。

「分層系統(tǒng)與端到端 VLA 并不矛盾，當(dāng)前因端到端控制存在速度慢、閉環(huán)能力差等致命缺陷，可行方案是采用大模型規(guī)劃 + 端到端執(zhí)行的分層設(shè)計(jì)?！冠w行認(rèn)為，未來具身智能的研究方向是將端到端與大模型融合為一個(gè)系統(tǒng)，「強(qiáng)調(diào)結(jié)合動作模型與視覺語言模型以提升執(zhí)行能力，這在自駕和機(jī)器人領(lǐng)域的思路都是一致的?！?/p>

MIT 的校訓(xùn)是拉丁語「Mens et Manus（Minds and Hands）」，譯為「手腦并用」。巧合的是，具身智能同樣追求「心靈手巧」。

這些「傳動軸」們的故事或許會成為新的啟示：在 AI 與機(jī)器人的交叉地帶，真正的「心靈手巧」從來不是某個(gè)天才的靈光一現(xiàn)，而是一群攻堅(jiān)者們在齒輪咬合處的持續(xù)深耕——他們擰合的不僅是技術(shù)鏈條，更是讓智能從「云端」落地「指尖」的時(shí)代齒輪。

地基夯實(shí)，大廈將起。

（對于 MIT 派系及具身智能明星們的更多故事細(xì)節(jié)，歡迎添加雷峰網(wǎng)作者 anna042023 交流）雷峰網(wǎng)(公眾號：雷峰網(wǎng))

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

0人收藏

相關(guān)文章

賴文昕

資深編輯

關(guān)注具身智能。

發(fā)私信

當(dāng)月熱門文章