丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
人工智能 正文
發(fā)私信給賴文昕
發(fā)送

0

MIT 具身智能達人志

本文作者: 賴文昕   2025-04-18 11:05
導語:導語:趙行、董思遠、李瑞、原文禎、李昀燭、俞冠廷、陳濤、方浩樹......他們是貫穿所有齒輪的傳動軸,讓每個環(huán)節(jié)的「自轉」最終匯聚成機器人系統(tǒng)的「公轉」。

作者 | 賴文昕

編輯 | 陳彩嫻

「偉大的事情從來不是一個人做的,而是由一群人做的。」


智駕向左,具身向右

2015 年的一天,趙行走出 MIT的實驗室,收到了浙大本科同級朋友董思遠的消息,向同樣涉足過光學的他了解 CSAIL 里各位教授的具體研究方向,也想到 MIT 里做些 CV 的工作。

兩年前,這兩位青年從浙大畢業(yè)后赴美深造,都圍著視覺打轉:趙行到 MIT讀博,先后師從Ramesh Raskar和Antonio Torralba教授,研究計算成像和多模態(tài)學習;董思遠到康涅狄格大學讀研,師從鄭國安,研究傅里葉疊層成像技術。

在接下來的十年里,兩位從 CV 出發(fā)的年輕人都面對著同一個問題:做自動駕駛還是做智能機器人?

迄今為止,他們已回答過兩遍這個問題,做出了兩次不同的選擇。

在 MIT 的頭兩年里,趙行意識到,計算成像的應用,尤其是拍照的社會影響力不夠大——而自己想做能在現(xiàn)實世界產(chǎn)生價值、提高生產(chǎn)力的事。

MIT 具身智能達人志

2015 年,趙行決定不做計算成像后,開始參與多個項目探索自己感興趣的方向,首先找到了 MIT Cheetah 系列四足機器人的負責人 Sangbae Kim教授,提出做其機器人課的助教。

MIT Cheetah 是仿生機器人領域的里程碑式成果,通過全電機驅動系統(tǒng)和高性能控制算法,實現(xiàn)了高速奔跑(最高時速達48 km/h)、復雜地形適應(如閉眼攀爬樓梯)以及動態(tài)平衡(如抗干擾穩(wěn)定),推動了四足機器人從實驗室向實際場景(如救援、軍事巡檢)的落地,其在 2019 年開源的 Mini Cheetah,其中的準直接驅動器的設計,更是影響了一波中國機器人企業(yè)的誕生與成長。

彼時 Sangbae Kim 組里有液壓的人形和五個電驅機器狗,從硬件、結構到控制均為團隊自研,研發(fā)成本奇高。因系統(tǒng)不夠魯棒容易損壞,上飛機需要安排貨運,參加一次展會的成本大約是 3 萬美元,團隊往往只得放棄展示機會。

MIT 具身智能達人志

2015 年發(fā)布的 Cheetah 2

在Cheetah2項目里,趙行負責搭建感知系統(tǒng),是唯一的華人成員。他曾向 Sangbae 力推深度學習,但當時深度學習在控制領域效果遠不及模型預測控制(MPC),因此控制派學者并不認可,「做傳統(tǒng)控制的老師們都非常厲害且堅信自己的道路,所以幾乎都看不上沒有數(shù)學保證的深度學習?!?/p>

后一年,趙行開始接觸自動駕駛,參與John Leonard教授發(fā)起的 Duckietown 項目,開發(fā)自動駕駛的研究和教學平臺,團隊有來自不同實驗室的十幾人,包括兩名博士生、博士后和老師,開設課程教授學生自駕系統(tǒng)各模塊的知識。

MIT 具身智能達人志

項目鏈接:https://hangzhaomit.github.io/papers/duckietown.pdf

具體來說,他們自己搭建一個微縮版的城市交通,并且自己設計低成本的輪式小車,裝上傳感器和計算單元,就實現(xiàn)了自動駕駛車的硬件系統(tǒng)。軟件上,搭建一個 ROS 中間件,通過它定義自駕各模塊的接口,如感知、建圖、定位、導航、規(guī)劃、控制、人機共駕、多機協(xié)同、車路協(xié)同等。之后,各模塊的開發(fā)工作將分配給不同團隊的成員,最后大家共享專業(yè)知識,共同構建一個多智能體的自動駕駛交通系統(tǒng)。

作為助教,趙行負責搭建整個平臺,并參與深度學習感知模塊。該課程后來作為機器人系統(tǒng)的實踐課程,被全球 250 多個大學和 160 多個公司所采用。

而在多模態(tài)學習方面,趙行在Antonio的課題組提出了視覺-聲音跨模態(tài)學習方法 Sound of Pixels,解決語音領域長久以來的“雞尾酒問題”;和隔壁組的趙明民(現(xiàn) UPenn 助理教授)合作提出視覺-WiFi 跨模態(tài)學習方法 RF-Pose,用WiFi實現(xiàn)人體姿態(tài)識別。兩項工作都是多模態(tài)學習領域的典范,獲得了 NBC、BBC、Science 等媒體的廣泛報道。

2019 年趙行畢業(yè)時,他的求職目標很明確:自己擅長的視覺和多模態(tài)學習對自駕和機器人很有價值。而既然機器人行業(yè)未成形,那便進入最有價值、最硬核的自駕行業(yè)。

加上自駕車輛配備如毫米波雷達、激光雷達、相機、夜視儀等多種傳感器,為多模態(tài)學習提供了廣闊的應用空間,如果能去頭部的 Waymo工作和學習, 將這些技術應用于自駕汽車,他就不再考慮其他機會。

當時的Waymo如日中天,眾多頂尖人才齊聚于此。例如,坐在趙行身邊的 PointNet 作者 Charles Qi,VoxelNet 的作者周寅,還有自駕領域最早開展模仿學習工作 ChauffeurNet 的作者 Mayank Bansal 等人。

在 Waymo 研究院,趙行主要聚焦兩個方向。

一是多模態(tài)感知,涉及視覺、激光雷達、毫米波雷達和聲音等多傳感器數(shù)據(jù)融合;二是學習驅動的預測規(guī)劃,主要建模車輛與環(huán)境的交互。

很快趙行便結識了自己的最強搭檔高繼揚,他早三個月加入 Waymo,其自驅力在公司內尤為突出:既能高效開發(fā)產(chǎn)品,又主動推進研究,幾乎是一人擔兩職。

彼時谷歌組織架構高度扁平化,內部合作極為靈活,二人便聯(lián)合 Google Research 的孫晨(高繼揚學長,曾引薦其師從 Ram Nevatia),三人跨三組合作自駕軌跡預測的系列工作 VectorNet 和 TNT。

另一邊,在趙行逐步深入自駕行業(yè)之際,董思遠也在 2015 年來到 MIT 讀博,先是加入了正從視覺向觸覺傳感轉型的 Ted Adelson 小組,意外開啟了觸覺與機器人的研究,跟著師姐原文禎學習 GelSight 傳感器的原理和制作。

MIT 具身智能達人志

博二時因組里經(jīng)費緊張,Ted 建議董思遠和其他老師多交流以實現(xiàn)聯(lián)合培養(yǎng)。

恰好此時亞馬遜要舉辦第二屆機器人揀選挑戰(zhàn)賽(Amazon Picking Challenge),由傳統(tǒng)控制大牛 Alberto Rodriguez 帶領的 MIT 隊決定同普林斯頓大學宋舒然團隊組成 MIT-普林斯頓聯(lián)隊參賽,因需設計一個基于觸覺反饋的抓取平臺,便提出同 Ted 合作。

董思遠得以參與其中,逐漸轉到 Alberto 小組,開始聚焦操作領域(Manipulation),通過將觸覺信息融合至控制器與規(guī)劃器,系統(tǒng)性提升機器人任務執(zhí)行效能。

到了博四,董思遠與 Ted 團隊合作自己最具代表性的成果——觸覺反饋夾爪的線纜操作研究,并獲得機器人頂會 RSS 2020 最佳論文提名獎。

針對柔性物體難以物理建模的挑戰(zhàn)——理論上具有無限自由度,無法像剛體用六維位姿描述——該研究創(chuàng)新性利用觸覺反饋追蹤線纜姿態(tài),僅憑觸覺感知即可實現(xiàn)從線纜一端到另一端的精準操控,突破了傳統(tǒng)視覺方案對柔性物體建模的復雜度瓶頸。

MIT 具身智能達人志

論文鏈接:https://arxiv.org/pdf/1910.02860

受深度學習浪潮影響,董思遠開始探索其在機器人操作中的應用。但因兩位導師都并非深度學習領域,尤其 Alberto 傾向基于模型的方法,所以在 MIT 的最后一年,董思遠自行鉆研機器人學習在插拔任務中的應用,開發(fā)了基于強化學習的高維觸覺控制框架。

強化學習在處理高維傳感器輸入(如視覺觸覺融合數(shù)據(jù))的獨特優(yōu)勢得以展現(xiàn)——通過深度網(wǎng)絡構建端到端控制器,突破了基于牛頓力學的傳統(tǒng)控制范式對低維抽象物理量的依賴,為高復雜度接觸敏感型任務提供了數(shù)據(jù)驅動的解決方案。

MIT 具身智能達人志

論文鏈接:https://drive.google.com/file/d/15FSgNIV9BfjqL9Yekx0ui1kfzJb3NBSf/view

2020 年,想繼續(xù)鉆研 RL 的董思遠來到華盛頓大學做博士后,與 Byron Boots 合作,研究將學習算法應用在四足狗上,使其在惡劣環(huán)境也能跑得更快,還幫助 Byron 帶著學生做了不少機器人操作與觸覺傳感的探索。

2022 年 6 月,董思遠回國加入華為的終端部門,先是在機器人和具身智能方向做了些探索,但他很快意識到,機器人離大規(guī)模商用仍十分遙遠,就連最頭部的特斯拉也僅是公布了 Optimus 的原型機。

一年后董思遠所在部門面臨重組,他便帶著團隊去了離具身智能機器人最近的自動駕駛部門,加入了華為車 BU,真正地走進自駕領域。

過去做科研時,董思遠需獨立搭建含控制器、規(guī)劃器等從軟到硬的整套系統(tǒng),而更成熟的自駕領域則分工明確,僅需負責其中某模塊;自駕重感知的模式也讓其技術棧也得以更新,點亮了過去并非自己強項的感知算法。

最近,董思遠又轉向端到端框架,直接將傳感器信號映射為規(guī)劃指令,繞過模塊分工實現(xiàn)「感知-控制閉環(huán)」,回歸自己感興趣及擅長的領域,把機器人學習算法運用在自駕領域。

在他看來,機器人與自駕在技術底層已高度趨同——當端到端架構興起后,車輛本質上已成為具身智能在物理世界的延伸載體,二者的核心邏輯都是通過海量示范數(shù)據(jù)訓練控制器,使系統(tǒng)能模仿人類行為:自駕追求「類人化」的安全決策,機器人則需完成疊衣、烹飪等家庭場景任務。

差異僅在于任務復雜度,自駕面對的是規(guī)則化道路環(huán)境,而具身智能需應對開放動態(tài)空間中的精細操作,這對硬件與數(shù)據(jù)提出了更苛刻的要求。

自駕之所以率先商業(yè)化,源于數(shù)據(jù)獲取門檻低和硬件生態(tài)成熟的兩大優(yōu)勢。反觀機器人,操作任務的示范數(shù)據(jù)采集極其困難,需依賴高成本遙操作或雇傭專人生成數(shù)據(jù),且硬件層面仍缺乏能精準復現(xiàn)人手靈活性的執(zhí)行器,更難以說服消費者為高溢價卻低實用性的家用機器人買單。

「雖然具身智能創(chuàng)業(yè)熱潮涌動,但核心缺失在于涉及更復雜的物理交互與價值閉環(huán)的操作能力,唯有攻克,機器人才能真正創(chuàng)造人類可感知的應用價值,這也是具身智能商業(yè)化落地的必經(jīng)之路?!?/p>

盡管決定繼續(xù)扎根自駕領域,董思遠卻不認為自己離開了具身智能,「我反而覺得當前用海量數(shù)據(jù)去做學習訓練的經(jīng)歷是非常寶貴的,這遠比實驗室小規(guī)模仿真更具工程價值,而且對于未來如果再做操作等具身智能任務,也非常有借鑒意義?!?/p>

與董思遠相向而行,趙行則是從自動駕駛轉向機器人。

在 Waymo 的一年多后,趙行在 2020 年回國加入清華任教。因意識到深度學習使各領域邊界持續(xù)消融,他創(chuàng)立 MARS 實驗室,希望不局限于單一研究方向,而做更廣泛的 AI研究,包括多模態(tài)學習、自動駕駛和機器人。

剛回國后,趙行與剛上任理想汽車算法負責人的浙大師弟王軼倫討論起自駕的技術進展,基于共同興趣開展了視覺感知和無圖自動駕駛的研究,后來發(fā)展為了與理想的正式合作。

到了 2023 年,之前在Waymo的合作者高繼揚這時候找到他聊起創(chuàng)業(yè),他們感覺到具身智能領域的創(chuàng)業(yè)時機成熟,一切恰如 2016 年自駕的起步階段,并于年中正式成立星海圖智能。

二人再次成為搭檔合作尤其順暢,最初計劃開發(fā)輪式機器人,但在許華哲加入后,經(jīng)過深入探討,決定以仿人形雙臂輪式機器人作為首款產(chǎn)品,最終確定了產(chǎn)品形態(tài)。(許華哲加入星海圖的故事詳情在伯克利具身智能圖譜:深度強化學習浪尖上的中國 90 后們)

「自駕和 AR/VR 是我畢業(yè)時最火的倆方向,兩者技術都有難度但自駕因社會意義大,盡管過去十年一直在燒錢,一直有社會各界的支持?!冠w行認為做技術須兼具前沿性與社會價值,「相信具身智能機器人同樣是各方會持續(xù)投入人力和財力推動發(fā)展的行業(yè)?!?/p>

看似殊途的趙行和董思遠,或許會在未來再次同行。


GelSight 的演進

在董思遠加入 Ted Adelson 組讀博的 2015 年,團隊已從 CV 向視觸覺轉型,專攻 GelSight 的視觸覺研究和機器人應用的發(fā)展。

長久以來,觸覺感知總被視為具身智能操作(Manipulation)的「最后一公里」,讓機器人在黑暗中也能「看見」物體的形狀、硬度與紋理,如同人類指尖在閉目時描繪世界的輪廓。

作為前沿中的前沿,觸覺感知的技術路線自然未收斂,但在一眾方案中,近年來受到最廣泛關注和認可的觸覺傳感器 GelSight 正是誕生于 Ted Adelson 團隊。

從聚焦視覺觀測的傳感器到結合上機器人觸覺感知的「完全體」,GelSight 的演進離不開兩個關鍵人物:李瑞和原文禎。

回到 2009 年,視覺認知和計算機視覺領域的泰斗、美國兩院院士 Edward (Ted) Adelson 和其博后  Micah Kimo Johnson 在 CVPR 上首次提出 GelSight,其命名直指技術內核:通過有均勻反射涂層的透明凝膠材料形變捕捉信息,再利用光學成像和光度立體算法還原出接觸面的高精度三維形狀。

最初的 GelSight 是個邊長為 50 厘米的大盒子,跟機器人的觸覺毫無關系,更多是用來做物體表面微觀結構的檢測,比如說表面的紋理和凸起等。

同年,在新加坡南洋理工大學畢業(yè)的李瑞來到 MIT 讀博,從 2005 年起他就開始做機器人和計算機視覺方面的研究。

2011 年秋,想繼續(xù)鉆研自己感興趣的機器人和 CV 領域的李瑞在一次和 Ted 的交談中討論起做機器人也能用的傳感器,幫助機器人更好實現(xiàn)類人的手眼協(xié)同操作,二人想法一致,便轉組加入了團隊,成為其機器人方向的第一位畢業(yè)的 PhD。

MIT 具身智能達人志

2011 年,Ted 和 Kimo 二人在 SIGGRAPH 上展示了更強大的第二代 GelSight:通過優(yōu)化凝膠材料與多角度照明設計,將空間分辨率提升至驚人的 2 微米,甚至能無懼物體表面的光學特性(如反光或透明材質)捕捉幾何細節(jié)——此時的 GelSight 用上了單反相機、已具備手持設備的雛形,但仍和機器人觸覺無關,離機器人實際應用仍有較大差距。Kimo 也于同年創(chuàng)立了 GelSight Inc.公司,將 GelSight 技術主要應用于缺陷檢測領域,但也與機器人并無關系。

彼時機器人操作領域的工作多是與視覺的結合,李瑞十分認可第一性原理,認為機器人若要像人一樣操作,觸覺不可或缺,極為重要。結合 GelSight 自身形變等特性,在 CV 領域深耕多年的李瑞和 Ted 設想將其改造成機器人觸覺傳感器。

李瑞從人的觸覺獲取靈感:一是能感知如紋理、形狀的物體本身性質;二是可獲取接觸狀態(tài)、反映在人的手指形變里的信息。

「此前的觸覺傳感器其實更應該叫壓力傳感器,僅能獲取很稀疏的法向力信息,而 GelSight 接觸物體時會像手指一樣發(fā)生形變,我要做的就是通過攝像頭捕捉多維的實時的形變信息,再用 CV 方法反推出觸覺信息。這樣其中一大好處就是可以獲得超高分辨率的多維觸覺信息?!?/p>

項目牽扯到硬件、軟件、算法等多方面的綜合,起初李瑞和 Ted 對能否成功都沒有十足把握,不過隨著李瑞完成視觸覺傳感器 Fingertip GelSight 雛形,他們對此路線愈發(fā)堅定。2010-2015 年間,Ted 圍繞該方向陸續(xù)招收 3 名博士生,其他方向鮮少招人。隨著組內其他學生陸續(xù)畢業(yè),資源自然向視觸覺研究集中。

看看 Fingertip GelSight 的研發(fā)過程。

2011 年,GelSight 已有的幾個原型設備體積大、質量重、運行緩慢,用在機器人上既不實用也不合適,因此無論是電路、光路還是系統(tǒng)集成,都需要重新設計。

若僅算重大改動,主導項目的李瑞至少完成了二三十次版本迭代:為了兼顧滿足性能需求、成本低廉、反應快速與尺寸小巧,測試了 40 多種攝像頭;光路設計也歷經(jīng)多次迭代,涉及諸多光源、彈性體、支撐板、導光板的選型等細節(jié)調整;軟件和算法上也要做到非常實時和精準。

這些組件組合方式繁多,難以確定最佳方案,甚至不確定能否正常運行,探索空間極大。他要在有限時間內,研發(fā)出性能適配的傳感器及算法。

李瑞還跟 Ted 討論過是否將其更名為「GelFinger」以跟之前的 GelSight 作區(qū)分,最后師徒二人還是決定沿用原名,但加了個前綴「Fingertip」。

在 CVPR 2013 上,李瑞發(fā)布了包含  40 種觸覺紋理的數(shù)據(jù)庫,使傳感器能夠通過接觸識別多種不同的布料、砂紙、木材等材質。

2014 年,在機器人領域頂會 IROS 上,GelSight 迎來了歷史性跨越,進化為現(xiàn)在大家所熟知的形態(tài):李瑞與 Ted 推出全球首款超高分辨率的視觸覺傳感器 Fingertip GelSight(GelSight 指尖傳感器,也稱 GelSight 2014),其尺寸僅如人類指尖,是個邊長約為 3 厘米的立方體。

MIT 具身智能達人志

論文鏈接:https://dspace.mit.edu/handle/1721.1/88136

這一設計讓機器人實現(xiàn)類人手指精細操作,如插拔 USB 接口、自適應抓取等。大部分人類操作需手眼同時參與,即「手眼協(xié)同」,這對機器人實現(xiàn)類人通用操作同樣關鍵。借助視覺-觸覺閉環(huán)控制,機器人模仿人類「手眼協(xié)同」作業(yè)邏輯,完成精細操作:視覺粗定位與引導,觸覺精細化閉環(huán)控制,二者相輔相成,缺一不可。

李瑞展示的機器人插拔 USB 的操作,使用的是早期重復定位精度只是毫米級的協(xié)作機器人 Baxter,但通過 Fingertip GelSight 實現(xiàn)亞豪米級的精準閉環(huán)操作,還展示了自適應抓取雞蛋、薯片、樹葉等脆弱或柔性物體,機器人可依據(jù)多維力反饋動態(tài)調整動作,而無須事先設定好每個物體力的大小,實現(xiàn)類人的通用自適應抓取能力,大大提升了機器人操作的能力上限。GelSight Inc.公司于 2022 年所推出的 GelSight Mini 傳感器,正是在這版設計上改進而成。

除了傳感器自身的軟硬件和算法升級外,GelSight 技術在機器人觸覺感知的應用也在不斷突破,為此從無到有搭建起體系并奠定了關鍵基礎的人,除了李瑞,還有晚一年進組的原文禎。

原文禎本科就讀于清華機械工程系,在張文增指導下參與靈巧手和器械結構設計項目,負責用視覺做手勢識別來控制靈巧手,參與過大量編程算法相關的軟件工作。她發(fā)現(xiàn),打造出色的機器人離不開智能軟件與硬件的協(xié)同,希望找到二者最佳的結合方式,以此制造智能機器人。

因此,2012 年來到 MIT 后,對感知領域產(chǎn)生了濃厚興趣的原文禎主動和多位研究人類認知科學與機械認知科學融合的教授交流,其中便有 Ted。

Ted 稱自己已從視覺研究轉向觸覺,并向她展示了 GelSight,說打算做機器人觸覺傳感器,這與她想融合硬件與感知的想法不謀而合,遂決定加入團隊。

MIT 具身智能達人志

作為一名機械系學生,原文禎進組后受到了不小的沖擊。

GelSight 的核心硬件是帶涂層的透明軟膠,涉及化學流程,要親自準備材料、做模具、融合材料,表面噴涂難度極大。

Ted 把原文禎帶到實驗室,指著一堆瓶瓶罐罐,讓她抄錄,說是要做軟膠觸膜的噴涂。身旁 GelSight 方向的大師姐賈曉丹一邊教一邊說自己即將離開,之后這屋子和全組的軟膠研發(fā)制作就由她繼承了??粗鴿M屋子化學器材,原文禎直接懵了,「本來想多寫寫代碼,結果卻先來搞化學了。」

在專注硬件開發(fā)之外,原文禎開展了 GelSight 力學建模研究,試圖從根本上理解測量信號的本質。

原文禎以傳統(tǒng)機械工程思維開啟研究,聚焦機器人觸覺的核心問題——接觸力測量。面對復雜力學建模的挑戰(zhàn),她通過大量實測建立基礎理論框架時,開創(chuàng)性地在物體表面配置黑色標記點,意外發(fā)現(xiàn)這些標記點的信號變化與抓取滑動(Slip)高度關聯(lián)。

在與副導師、觸覺先驅 Mandayam Srinivasan 的深度探討中,她敏銳捕捉到解決「物體滑落」這一抓取難題的關鍵:將 GelSight 傳感器的高維信號優(yōu)勢(精度較傳統(tǒng)觸覺設備提升兩個數(shù)量級)與幾何學結合,耗時兩年最終構建出基于標記點的滑動檢測模型,并發(fā)表于 ICRA 2015,師兄李瑞也參與其中。

檢測抓取失敗、物體滑落是機器人觸覺領域的第一重要課題。此工作加上 2017 年同董思遠的合作,系統(tǒng)性地研究、論證了全新的基于觸覺檢測機器人抓取后物體滑落的方法——比起傳統(tǒng)方法更普適、更穩(wěn)定,能真正地應用于機器人上。

MIT 具身智能達人志

論文鏈接:https://ieeexplore.ieee.org/abstract/document/7139016

此時正值機器人觸覺領域低谷,受限于傳感器硬件、機器人算法及傳統(tǒng)傳感器價格穩(wěn)定性問題,行業(yè)認為觸覺應用天花板已至且實用價值有限,原文禎所發(fā)的文章也曾只有個位數(shù)的引用量、在會議上無人問津,甚至一度成為實驗室唯一的學生。

對未來感到迷茫的她通過跨領域的交流與反思,認識到關鍵在于「感知(Perception)」本身,要向整個機器人領域證明,高精度觸覺傳感器本身如何將物理本質和認知結構結合起來,實現(xiàn)從未有過的認知能力——這種新式傳感器能否催生新的感知范式?

她將目光投向硬度檢測這一傳統(tǒng)難題:傳統(tǒng)傳感器和純視覺方案均無法有效解決,是因為物體軟硬度必須通過接觸才能感知。

而基于對 GelSight 信號的物理直覺,她設計系列實驗驗證猜想,成功實現(xiàn)復雜工況下的硬度檢測(接觸受力未知、物體形狀隨機且存在干擾力),并衍生出對布料/衣服等復雜可形變物體的感知工作。

這項探索分兩階段推進:她先嘗試描述物理現(xiàn)象并進行小規(guī)模測試,在化學實驗室手工制作不同硬度硅膠球后,通過分析 GelSight 接觸信號,采用手動提取特征方法,構建出能很好描述信號的低維物理模型,這篇發(fā)表于 IROS 2016 的研究雖僅適用標準球體,但驗證了理論可行性。

彼時 Ted 的辦公點仍在視覺圖形組,同 William Freeman 和 Antonio Torralba 為鄰,正趕上深度學習在計算機視覺領域跨越式發(fā)展的時刻,原文禎便常和周博磊(UCLA AP)、吳佳?。ㄋ固垢?AP)、薛天帆(港中文 AP)等做視覺、圖像的同學交流,學習最新的視覺領域進展,從中獲得靈感。

為了實現(xiàn)廣泛應用、測試任意物體的硬度,她與 William 組的 Andrew Owens 合作,將物理洞察與卷積神經(jīng)網(wǎng)絡結合——前者確保模型具備可解釋性,后者利用 CNN 和 RNN 處理高維信號的優(yōu)勢,最終實現(xiàn)對任意形狀物體的通用硬度檢測,并發(fā)表于 ICRA 2017。這項研究也讓原文禎成為了最早融合觸覺與深度學習的學者之一。

MIT 具身智能達人志

論文鏈接:https://arxiv.org/pdf/1704.03955

之后,原文禎積極探索其他將深度學習和高精度觸覺結合起來以增強觸覺感知的方式,比如以不同形式將觸覺和視覺結合在一起,使用深度學習,來獲取對布料、衣服的深入感知。

在 ICRA 2018 的工作中,她展示了機器人通過視覺定位主動抓取衣物,結合動態(tài)觸覺與深度學習,不僅能識別紋理,還能推斷厚度、蓬松度、光滑度等物理屬性,以及適用季節(jié)、洗滌方式等智能理解信息,初步實現(xiàn)了 Ted「做一個機器人在家里給衣服分類洗滌」的愿景。

「最早我認為做好機器人,要靠精妙的機械結構和用于感知和控制的優(yōu)秀算法,但事實證明機器人前沿發(fā)展的推動力,也依賴材料科學以及先進的制造技術?!乖牡澑袊@,「機器人是一門綜合性很強的學科。」

對 GelSight 作出重要貢獻的二人至今仍在用不同方式探索著視觸覺領域,李瑞選擇了創(chuàng)業(yè),原文禎則留在了學術界。

李瑞一直有著通用機器人的夢想,博士畢業(yè)論文里開篇提到的場景就是未來的機器人可以在家里和工廠里幫人類做各種各樣的事,而視觸覺傳感器和手眼協(xié)同便是其中重要的一環(huán)。

2015 年李瑞博士畢業(yè)時,Ted 問他要不要拿 GelSight 去創(chuàng)業(yè),但他覺得時機未成熟,選擇在硅谷創(chuàng)立了無人配送小車公司 Robby Technologies,進軍更成熟的自駕領域,研發(fā)了純視覺和無需依賴高精地圖的技術,與特斯拉的技術路徑不謀而合,項目也入選了硅谷創(chuàng)業(yè)加速器Y Combinator(YC),并得到了 OpenAI 董事等的投資。

直到去年 1 月,一直密切關注視觸覺領域發(fā)展的李瑞認為機器人創(chuàng)業(yè)時機已到,便在國內成立了緯鈦科技,以通用機器人為目標,計劃根據(jù)核心視觸覺傳感器、視觸覺靈巧手、整機的漸進式路徑研發(fā),近 20 年跨領域的積累得以充分發(fā)揮,離其在博士論文中對通用機器人的愿景更近了一步,「做真正心靈手巧的機器人?!?/p>

原文禎則在斯坦福做了一年博士后之后,在 2019 年入職了 CMU RI,先是帶學生做出了難度極大的觸覺傳感器仿真器。她們同步推進基于學習的方法和物理建模的方法 ,都取得了很好的效果,后續(xù)還把它與機器人仿真結合,實現(xiàn)了仿真到現(xiàn)實的遷移。

來到 UIUC 任教后,原文禎還針對觸覺傳感器硬件差異導致數(shù)據(jù)異構的難題,提出基于深度學習的跨硬件統(tǒng)一表征網(wǎng)絡,通過仿真器生成萬級異構傳感器數(shù)據(jù)集訓練編碼器,實現(xiàn)跨硬件觸覺信息的標準化表達,為觸覺大模型奠定數(shù)據(jù)基礎。

上月,她也因在機器人觸覺領域的突出成就和宋舒然、朱玉可與劉暢流等學者一同獲得了 IEEE RAS 2025 的早期學術生涯獎。從畢業(yè)時只有少數(shù)頭部院校發(fā)教職 offer 到 GelSight 成為當下最廣泛流行的觸覺傳感技術,原文禎感嘆,「這也算是當年的堅持受到了時代的肯定了。」


Learning「登堂入室」

MIT 的機器人研究曾長期由傳統(tǒng)方法主導——基于剛體動力學與精密控制,波士頓動力創(chuàng)始人 Marc Raibert 的早期工作(如動態(tài)平衡單足機器人)便是典范,加上 Russ Tedrake、Alberto Rodriguez 等大牛坐鎮(zhèn),在學習方法展示出其能力前,自是沒必要顛覆過去的深厚積累。

但隨著環(huán)境復雜度提升,學習范式崛起之風也逐漸吹向了 MIT,這從 Alberto 和 Russ 二位的學生的研究便可窺得一二。

Alberto 曾師從操作泰斗 Mathew Mason,屬于傳統(tǒng)機器人學一派,在 MIT 機械系帶領著操作與機械實驗室(MCube),研究自主靈巧操作和機器人自動化,在 2023 年到波士頓動力領導機器人操作后,依舊同 MCube 合作緊密。

2015 至 2017 年,亞馬遜連續(xù)舉辦了三屆機器人挑戰(zhàn)賽(APC),旨在推動倉儲自動化中機器人無序分揀技術的突破,賽事瞄準機器人操作領域的「圣杯問題」——Bin Picking(從雜亂箱體中抓取物體)。

Alberto 所帶領的 MIT 隊連續(xù)參與了三屆且均穩(wěn)居前三,其中組里的學生俞冠廷(Peter Yu) 作為「三朝元老」與技術架構總負責人自然功不可沒。

MIT 具身智能達人志

赴美前,俞冠廷先后在臺灣交通大學和臺灣國立大學讀完了計算機本科和碩士,并于 2013 年到 MIT 機械工程系讀博,師從精通靈巧操作的 Alberto Rodriguez 和擅長視覺導航的 John Leonard。

加入 MIT 的俞冠廷顯然是個比賽型人才。

2013 年,資助過十年無人車比賽的美國國防部高級研究計劃局(DARPA)轉而舉辦人形機器人挑戰(zhàn)賽,博一的俞冠廷加入 MIT 隊,也積極參與其中。

比賽賽程十分緊張:8 個月內準備虛擬機器人挑戰(zhàn)賽,暑假過后收到 Atlas 機器人,又要在短短 4 個月內憑借真機再度參賽。MIT 隊從零開發(fā)了大量系統(tǒng)組件,比如兼容優(yōu)化的運動學和動力學引擎、完整用戶界面,還集成了現(xiàn)有復雜軟件,其中俞冠廷主要負責研究感知問題。

MIT 具身智能達人志

2015 年再次參與 DARPA 機器人挑戰(zhàn)賽的同時,俞冠廷也開始參與亞馬遜機器人挑戰(zhàn)賽,擔任感知和軟件負責人。

比賽場景設定在一個類似自動化倉儲的倉庫中,機器人有 20 分鐘的時間從貨架上揀選物品,并將其放入塑料托盤中。貨架上的 12 個貨箱里存放著 25 種產(chǎn)品,每個貨箱都有一個目標物品。機器人若成功揀選到目標物品,可獲得 10 分的基礎分,若貨箱雜亂或物品難以處理,還能獲得額外加分;若揀選了錯誤的物品、損壞或掉落物品,則會被扣分。

在 26 支隊伍中,MIT 最終以揀選 7 件物品、獲得 88 分的成績位居第二。不過在首屆賽事中,他們仍采用傳統(tǒng)感知-規(guī)劃-執(zhí)行架構,重點解決物體識別、抓取規(guī)劃和軌跡計算問題,通過集成有限的傳感器反饋(視覺、壓力)實現(xiàn)部分任務級驗證,但尚未達到完全的實時閉環(huán)控制。

因此在第二年他們決定和 Ted 組合作加上觸覺反饋以直接確認抓取狀態(tài),同時還和普林斯頓組成聯(lián)隊一起參賽。

最終 MIT-普林斯頓隊獲得 Stowing Task(裝載任務)第三名、挑揀任務的第四名,并提出一種基于多視角 RGB-D 數(shù)據(jù)的自監(jiān)督深度學習方法,通過全卷積神經(jīng)網(wǎng)絡分割場景并匹配 3D 模型,無需手動標注即可生成訓練數(shù)據(jù),實現(xiàn)復雜場景下 6D 物體姿態(tài)的可靠估計。

MIT 具身智能達人志

論文鏈接:https://arxiv.org/pdf/1609.09475

第三年,MIT-普林斯頓隊再得裝載任務冠軍與 ICRA 2018 最佳系統(tǒng)論文獎。

值得一提的是,團隊所設計的機器人抓取-識別系統(tǒng)核心突破在于實現(xiàn)了對未知物體的零樣本操作能力。

該系統(tǒng)包含多可供性抓取框架與跨域圖像匹配框架,前者基于全卷積網(wǎng)絡,無需物體分割和分類就能規(guī)劃抓取動作;后者利用雙流卷積網(wǎng)絡,無需額外訓練即可識別新物體——在比賽中以 100% 成功率完成倉儲任務,成為賽事史上首個在限定時間內精確處理所有已知與未知物體的解決方案。

MIT 具身智能達人志

論文鏈接:https://arxiv.org/pdf/1710.01330

2018 年 6 月,俞冠廷在博士畢業(yè)后,和同年畢業(yè)于 CMU 的好友周佳驥一起,在波士頓創(chuàng)立星猿哲(XYZ Robotics),為物流及工業(yè)自動化提供更好更快的機器人解決方案,成為最早一批機器人創(chuàng)業(yè)者。(周佳驥與CMU的故事詳情請看:CMU 具身智能風云榜:從傳統(tǒng)到全面)

深度學習對機器人領域的影響更劇烈地發(fā)生在了 Russ Tedrake 的小組里。

2017 年,李昀燭從北大計算機系畢業(yè)來到 MIT 讀博,科研方向正從 CV 向深度強化學習拓展。想做智能體與環(huán)境交互研究的他自然想到了機器人技術同 CV 的結合,而 Russ 和 Antonio Torralba(也是趙行導師)正好也想共同指導學生,三人就匹配成功了。

Russ 側重基于物理的模型及模型優(yōu)化,Antonio 關注計算機視覺、深度學習和生成模型,雙方的應用領域和方法大相徑庭,讓李昀燭在博士階段初期協(xié)調起來頗為吃力,需在不同思路間周旋。但另一方面,這也是難得的成長契機,他得以同時接觸機器人和計算機視覺兩個領域的前沿成果和視角。

MIT 具身智能達人志

一開始,李昀燭啟動了視觸覺研究,探索視覺與觸覺之間的相互預測,側重多模態(tài)交互。朱俊彥(現(xiàn) CMU AP)在加入 Antonio 組擔任博士后后也參與其中,協(xié)助李昀燭在模型訓練、調試與設計等方面,推動項目順利開展并完成。隨后,兩人又與 Wojciech Matusik 的團隊合作,開展觸覺手套項目,李昀燭主要負責模型與學習相關部分。

為投稿《自然》雜志,他們解答了為何選擇研發(fā)觸覺手套而非其他形式的觸覺傳感器:手是人體與環(huán)境交互的核心部位,觸覺手套不僅能實現(xiàn)技術突破、捕捉多模態(tài)交互信息,還能推動人類手部行為的科學研究,進一步啟發(fā)機器人領域的發(fā)展。

投稿后不久,評審就給出了非常詳盡的反饋?!高@是我收到過最高質量的審稿意見,沒有之一,」李昀燭感嘆道。意見中提出了許多他們在投稿前已考慮到和尚未想到的問題??吹秸撐挠型唤邮?,幾位作者多次召開長達四小時的會議,深入頭腦風暴如何恰當回應評審意見。最終,該工作成功發(fā)表在 2019 年的《自然》雜志上。

MIT 具身智能達人志

被展示在 MIT 博物館中的觸覺手套

論文鏈接:https://www.nature.com/articles/s41586-019-1234-z

此后,李昀燭持續(xù)深入觸覺研究領域,與 Wojciech 團隊的羅亦悅(現(xiàn)華盛頓大學 AP)合作,研發(fā)用于多模態(tài)大數(shù)據(jù)采集的觸覺織物與觸覺地毯,并推進柔性、可擴展的觸覺傳感器設計。與 GelSight 的實現(xiàn)方法不同,他們希望通過超薄且可擴展的結構,使傳感器能夠適應人手、機械手的抓握部位及機器人皮膚等多種復雜表面。

觸覺以外,李昀燭更重要的研究主線是如今的熱點——彼時被稱為「Intuitive Physics(直覺物理)」的世界模型(World Models)。

這一研究起源于李昀燭與 Russ 關于建模方法的深入討論:我們究竟應采用基于物理的建模與優(yōu)化,還是應從數(shù)據(jù)中學習動力學模型?在具身智能交互中,每個系統(tǒng)都涉及機器人狀態(tài)與環(huán)境狀態(tài)的協(xié)同演化。相較而言,獲取機器人的狀態(tài)較為容易,因為其傳感器系統(tǒng)可由設計者主動配置;而環(huán)境狀態(tài)及其動態(tài)變化則更難觀測與建模。人類對環(huán)境的物理理解正是通過與環(huán)境長期交互中逐步學習獲得的。因此,李昀燭希望能夠學習環(huán)境的動態(tài)模型,即所謂的“世界模型”——這一方向也正是他與兩位導師共同關注的研究重點。

彼時 MIT 內吳佳俊和其導師 Joshua Tenenbaum 在該領域成果顯著,李昀燭便向他們請教,恰好吳佳俊也對直覺物理在機器人領域的運用很感興趣,雙方便開始了長期合作,共同研究環(huán)境的動態(tài)模型與世界模型。

博一下學期,李昀燭與吳佳俊合作提出了動態(tài)粒子交互網(wǎng)絡(DPI-Nets),以粒子作為環(huán)境表征,統(tǒng)一建模剛體、流體與可變形物體,并通過圖神經(jīng)網(wǎng)絡學習粒子間的動力學關系。該研究發(fā)表于 ICLR 2019,為解決物理模擬與現(xiàn)實之間的偏差問題提供了新思路。DPI-Nets 能夠將傳感器數(shù)據(jù)轉換為粒子表示,從而實現(xiàn)多種物體動力學的高效模擬與控制,支撐機器人在復雜環(huán)境中操控不同材質物體,完成多樣化的操作任務。

MIT 具身智能達人志

論文鏈接:https://arxiv.org/pdf/1810.01566

作為一個復雜的系統(tǒng)工程項目,DPI-Nets 涵蓋仿真和現(xiàn)實世界兩部分,而那時的仿真技術的實現(xiàn)遠不如現(xiàn)在成熟,很多須用 C++ 和 CUDA 編寫。

為了將仿真與深度學習算法接起來,李昀燭還給英偉達的仿真器編寫 C++ 包裝層,使其內部 API 能與 Python 對接;并搭建仿真環(huán)境,在其中進行數(shù)據(jù)收集、模型學習、模型配置、控制規(guī)劃;仿真環(huán)節(jié)后又再將整套流程遷移到現(xiàn)實機器人上。

對他而言,這是一次絕佳的鍛煉:全程涉及圖形學、基于物理的模擬、模型學習、基于機器人模型的優(yōu)化與規(guī)劃,以及模擬到現(xiàn)實的遷移,讓他對機器人系統(tǒng)有了更深刻的理解。

當時,吳佳俊在模型設計和項目規(guī)劃等方面提供了諸多建議,而 Russ 剛從人形機器人轉向操作研究,實驗室也剛開始搭建現(xiàn)實世界中的機器人操作系統(tǒng),整體架構尚不成熟。通過這個項目,李昀燭不僅積累了大量實踐經(jīng)驗,還系統(tǒng)性地認識到感知、學習、建模與 Sim2Real 等關鍵問題,研究視野由此顯著拓展,選題也變得更加順暢,其中不少思路至今仍在延續(xù)。

李昀燭的一系列工作讓 Russ 看到學習算法在環(huán)境建模中的潛力;組里 Peter Florence 和 Lucas Manuelli 的論文《視覺運動策略學習中的自監(jiān)督對應關系》又讓 Russ 相信學習還能進一步用于策略制定;最后在豐田研究院,Russ 同宋舒然(現(xiàn)斯坦福 AP)團隊合作的基于擴散模型的機器人動作生成策略「Diffusion Policy」則讓這位堅定的「Model-Based 信徒」真正轉向了學習一派。

如今,李昀燭與 Russ 會在會議中偶然碰面,二人的討論發(fā)生了有趣的變化:李昀燭向 Russ 提出應在學習系統(tǒng)中添加恰當結構以提升泛化性與樣本效率;Russ 卻主張構建機器人基礎模型,像 VLA 模型和大型行為模型等,已然 all in 端到端的機器人基礎模型研究。Russ 還感慨,自己都未曾料到會有如此轉變 。

2021 年,李昀燭和許華哲、吳佳俊等人合作了 RoboCraft 項目:許華哲在吳佳俊組里做博士后,二人經(jīng)討論認為動力學模型學習(Dynamics Model Learning)是個不錯的方向,想起李昀燭之前做的 DPI-Nets 也是相關工作,便提出了合作。

次年李昀燭畢業(yè),來到斯坦福,在李飛飛和吳佳俊組里做博士后,順著 RoboCraft 繼續(xù)推進 RoboCook 工作,和史浩辰(斯坦福 PhD)合作,通過圖神經(jīng)網(wǎng)絡和預測控制算法讓機械臂學會操控各種軟體材料,比如借助工具完成包餃子任務,最終獲得了 CoRL 2023 的最佳系統(tǒng)論文獎。

MIT 具身智能達人志

論文鏈接:https://arxiv.org/abs/2306.14447

接著,李昀燭還和黃文龍、吳佳俊、李飛飛等人一起合作了 VoxPoser 項目。

一作黃文龍(斯坦福 PhD)曾在谷歌大腦參與 PaLM-E 項目,研究語言與機器人操作的融合問題。博士入學后,他在斯坦福與李昀燭等人展開深入討論,認為盡管基礎模型在高層次任務上表現(xiàn)出色,但在生成機器人動作等低層次控制上,仍需結合結構化框架以提升可靠性與可控性。

鑒于李昀燭之前在模型學習、基于模型的優(yōu)化和規(guī)劃方面有諸多經(jīng)驗,便建議將基礎模型的高層次能力與低層次優(yōu)化相結合,從而充分發(fā)揮兩者優(yōu)勢,由此產(chǎn)生了 VoxPoser 的想法。

MIT 具身智能達人志

項目鏈接:https://voxposer.github.io/

VoxPoser 將大模型接入機器人,把復雜指令轉化為具體行動規(guī)劃,無需額外數(shù)據(jù)與訓練;還結合大語言模型同視覺語言模型,在 3D 空間中分析目標及需繞過的障礙,以零樣本的方式合成軌跡為機器人規(guī)劃行動。

盡管仍處于實驗室演示階段,與實際商業(yè)應用尚有不小差距,該工作首次展示了機器人在更通用場景中,基于語言指令與視覺觀測完成多種復雜操作任務的能力。論文發(fā)表在 CoRL 2023 后,迅速引發(fā)學術界、工業(yè)界及風投圈的廣泛關注。此后幾乎每周都有多位投資人主動聯(lián)系作者團隊,尋求進一步交流與合作。

離開斯坦福后,李昀燭先后在 UIUC 和哥倫比亞大學任職,帶領學生持續(xù)推進世界模型(World Models)、多模態(tài)感知(Multi-Modal Perception)與基礎模型應用(Foundation Models for Robotics)三大方向的研究,「核心目標是讓機器人能像人一樣,更加靈活通用地感知環(huán)境并與之交互?!?/p>


具身智能進行時

2019 年初,MIT 開始籌備成立一個虛擬組織——具身人工智能研究小組(Embodied AI Group,簡稱 EI 小組)。

「在 EI 小組成立前,具身智能并不是一個熱詞?!乖诶铌罓T的回憶里,此前大家更關心基于模型的方法,小組成立后合作交流更緊密。

EI 小組把研究計算機視覺、圖形學、機器人控制、機器人任務規(guī)劃等方面的老師聚集到一起,既方便申請資金,又組織講座等多種活動。

整個 EI 基本都在 Stata Center 的三樓,各個實驗室的距離都在百米內,老師們有單獨辦公室,而不同實驗室的學生則三兩交叉、混雜分布在不同辦公室里,以便更好地日常交流。

這年的錄取結果公布后,收到 offer 的陳濤到 MIT 實地交流時,就已經(jīng)了解到 EI 小組的不少安排:每學期會辦約八場講座,外部嘉賓和內部交流五五開,還設一對一交流和共進午餐等不同的機會;各大頂會前辦研討會,各組學生齊聚一堂互相分享討論投稿論文。

陳濤本科在上海交通大學的機械工程與自動化系,大四開始自學編程、機器學習、慢慢接觸 AI,畢業(yè)后先在人形機器人創(chuàng)企嶺先機器人工作了一年,探索室內導航的 SLAM 系統(tǒng)搭建、強化學習上真機、物體檢測等方向,把機器人系統(tǒng)所用的 AI 技術摸了個遍。

確定想研究用 AI 方法尤其是強化學習去控制機器人系統(tǒng)后,陳濤便決定出國深造,在 2017 年到 CMU 讀研,師從 FAIR 機器人部門研究負責人、現(xiàn) Skild AI 創(chuàng)始人 Abhinav Gupta,做了關于智能體無任務獎勵下自主探索現(xiàn)實復雜 3D 環(huán)境的工作。

MIT 具身智能達人志

兩年后,想拓展新圈子、跟隨年輕老師的陳濤來到 MIT 讀博,師從剛從伯克利畢業(yè)后到 MIT 任教的 Pulkit Agrawal,成為其首位博士生,二人共同感興趣的方向。此前 MIT 的機器人探索更偏「硬核」,在傳統(tǒng)控制和硬件研發(fā)上成果斐然,Pulkit 加入后,則新添了深度強化學習的色彩。

進組后,作為組里少數(shù)了解真機的成員,陳濤先是負責搭建真機平臺及 Infra,用 Python 寫 AI的控制軟件及脫離 ROS、以少量代碼實現(xiàn)機器人交互的庫。

接著陳濤又做強化學習打視頻游戲的研究,但因實驗室計算資源有限,沒能擴大規(guī)模;同時因 Pulkit 和 Sangbae Kim 的合作并行開啟了對四足機器人的探索,研究用強化學習算法讓四足機器人跳過溝壑,帶著本科生寫代碼;還會協(xié)助 Pulkit 備課,他首次在 MIT 熬夜便是幫 Pulkit 準備編程作業(yè)。

博一接近尾聲時,陳濤終于找到了自己最感興趣的領域:機器人操作與靈巧手控制。

2019 年 10 月,OpenAI 發(fā)布的機器人轉魔方工作引起轟動,陳濤因此也有了做靈巧手的想法,于是在完成手頭的項目后,決定解決靈巧手中最難的控制問題,聚焦到把靈巧手做得更泛化(朝向任意方向),突破 OpenAI 靈巧手只能朝上的局限。

起初實驗室沒有靈巧手,陳濤便在仿真器上開始探索,用強化學習和模仿學習訓練靈巧手控制器,并且展示了靈巧手在手面朝下此最極端的情況下也能轉動任意形狀的物體,而且還通過無模型框架重新定位了超 2000 個形狀各異的物體,具有非常高的通用性。

他們還發(fā)現(xiàn),當靈巧手控制器足夠魯棒時,即使不知道物體形狀信息,也可以以高成功率轉動任意物體到指定朝向。

MIT 具身智能達人志

論文鏈接:https://proceedings.mlr.press/v164/chen22a/chen22a.pdf

彼時靈巧手控制領域十分冷門,傳統(tǒng)模型方法和遙操作方法各有難以逐一建模和數(shù)據(jù)不足的問題,用強化學習實現(xiàn)突破的 OpenAI 也裁撤了其機器人團隊,直到陳濤用強化學習完成遠超以往難度、眾人未曾設想的靈巧手控制任務——此工作獲得了 CoRL 2021 的最佳論文獎。

除了用強化學習訓練模型使機器人學習有用信息外,團隊還將原本需數(shù)月的訓練時長縮短至兩天內以提升效率,并將模型從依賴大量設備、成本高達幾十萬美金的 OpenAI 早期模式轉變?yōu)閮H用一個幾百美金相機、一張 3090 顯卡及一周左右即可完成訓練,通過網(wǎng)絡架構優(yōu)化提出新框架,極大簡化整機部署系統(tǒng),提升數(shù)據(jù)采集效率 。

推進此工作時陳濤也意識到,仿真器中充足的質量、材質、摩擦系數(shù)等信息其實屬于「作弊信息」,盡管做了大規(guī)模的理論驗證說明它可以被遷移到真機上,但依舊難以在真機上部署,因此下一步得訓練出在真實世界里能夠部署的解決方案,便緊接著發(fā)表第二篇論文解決在真機上實現(xiàn)時遇到的問題,投在了期刊雜志《Science Robotics》上。

有了這個魯棒的機器人控制器框架后,陳濤開展了大量應用工作,解決如靈巧手抓物重定向、削水果蔬菜等問題,還制作觸覺傳感器用于機器人在桌面或封閉空間精準定位目標物體。

2024 年博士畢業(yè),一直對創(chuàng)業(yè)很熱衷的陳濤拉上了上交大小兩級的師弟秦譽哲,一起在加州成立了 Dexmate,主攻機器人的靈巧操作。

秦譽哲在 UCSD 讀博,博導正是陳濤在 CMU 的學長王小龍,兩人通過王小龍認識后發(fā)現(xiàn)經(jīng)歷十分相似,同樣從機械系轉到 AI,并專攻相對小眾的靈巧手,因此思路非常契合。

目前,Dexmate 的產(chǎn)品已迭代至接近穩(wěn)定的狀態(tài),即將進行小規(guī)模量產(chǎn)。區(qū)別于一般的人形機器人,他們選擇「輪式底盤+雙臂雙手」的操作形態(tài),但沒有設計胸腔,而是讓機器人既可以蜷縮、折疊,也能展開到兩米多高。

「我們奉行實用主義,機器人要具備像人一樣的操作能力,而不需形態(tài)上像人,靈巧手也不一定是五指結構。」

而在陳濤讀博的最后一年,算得上是我國本土培養(yǎng)的首位具身智能博士方浩樹也來到 Pulkit 組做博士后。

方浩樹在 2013 年入讀上海交大,是個在本科期間就嶄露頭角并敢于嘗試的年輕人。他在大三參加本科生研究計劃時跟隨閻威武學習機器學習知識后終于找到感興趣的研究方向,即神經(jīng)網(wǎng)絡和 CV;之后看到盧策吾的實習生招聘廣告,因興趣契合投遞簡歷并通過面試,就在大三結束后休學,在不同的科技公司實習,也去了UCLA訪問,同時一邊跟著盧策吾做實驗。

MIT 具身智能達人志

休學兩年間,方浩樹聚焦 CV 陸續(xù)以一作發(fā)表四篇頂會論文,又在 2019 年本科畢業(yè)時,拿到多個北美知名實驗室的 PhD offer,不過,他最終選擇直博到吳文俊人工智能博士班,繼續(xù)留在盧策吾團隊。(盧策吾的具身智能故事請看:3D 視覺派:斯坦福具身智能人物關系圖)

過往的研究讓方浩樹對機器人越來越感興趣,便決定從視覺切入,先做抓取,開啟了基于二指夾爪的通用物體抓取工作 AnyGrasp,期間也提出了 GraspNet-1Billion 標準數(shù)據(jù)集。

耗時三年,方浩樹和團隊終于在 TRO 2022上發(fā)表了 AnyGrasp:它能高效生成準確、全自由度、密集且時間平滑的抓取姿態(tài),面對較大深度傳感噪聲時運行穩(wěn)??;清理裝有 300 多個未知物體的箱子,成功率達 93.3%,與受控條件下的人類表現(xiàn)相當;單臂系統(tǒng)上處理速度超每小時 900 個物體;在動態(tài)抓取方面,還成功展示了水中捕獲游動機器魚的過程。

MIT 具身智能達人志

項目鏈接:https://graspnet.net/anygrasp.html

這是機器人首次在任意場景抓取任意物體時,表現(xiàn)出堪比人類的能力,既無需物體 CAD 模型和檢測,對硬件構型、相機也無限制。 因此,AnyGrasp 被很多研究者當作抓取的通用模型使用。

除了抓取外,方浩樹也在思考如何用新范式做機器人操作。

2021 年 GPT-3 問世后,他發(fā)現(xiàn)采用序列建模,若數(shù)據(jù)充足,可借鑒 GPT 思路進行機器人學習。研究 GPT 及此前模仿學習方向文章,他們注意到從 GPT-1 到 GPT-2 有重大思想轉變:GPT-1 時語言模型各任務需分開訓練,GPT-2 則將不同任務作為輸入網(wǎng)絡,使一個網(wǎng)絡能同時處理不同任務,還引用了在機器人學習領域率先提出的單模型多任務的元學習(Meta Learning)論文,證明在大規(guī)模數(shù)據(jù)下多任務學習的可行性。

這讓方浩樹想用同樣方法研究機器人學習。他還參考腦科學文章,發(fā)現(xiàn)人類處理語言和日常操作的腦區(qū)高度重合,主要負責序列建模,且考古學文章表明語言因操作需求而產(chǎn)生,用于傳遞操作經(jīng)驗,因此認為語言建模方式適用于機器人操作。

但當時更關鍵的是缺少合適的數(shù)據(jù)集,為此方浩樹和團隊花數(shù)年采集 RH20T 數(shù)據(jù)集,包含了超過 11 萬機器人操作序列,提供了視覺、力、音頻、運動軌跡、演示視頻和自然語言指令等多種數(shù)據(jù)模態(tài),發(fā)布后不久便收到了谷歌的邀請,成為大中華區(qū)最早參與 Open X-Embodiment 數(shù)據(jù)集的一支隊伍。

MIT 具身智能達人志

項目鏈接:https://rh20t.github.io/

推進 RH20T 時,方浩樹發(fā)現(xiàn)基于遙操的數(shù)據(jù)采集方式并非最適合擴大規(guī)模的方式,從 2021 年起便開始用外骨骼代替遙操作,開發(fā)了雙臂外骨骼設備 AirExo,讓人能穿著直接采集數(shù)據(jù)。

對硬件和靈巧操作的深入探索讓方浩樹意識到了觸覺的重要性,便打算再讀個博士后。恰好妹妹方曉霖在 MIT 讀博,同樣研究 AI 和機器人,她描述的MIT的研究風格深深吸引了方浩樹。在跟董思遠聊了之后,他認為視觸覺大牛 Ted Adelson 組的研究與他之前的研究十分互補。

方浩樹給 Ted 發(fā)郵件表達了自己對用于操作的觸覺很感興趣,Ted 十分高興,但是稱自己只做觸覺不做操作,之后又聯(lián)系上了在MIT主攻機器人操作方向的教授 Pulkit。就這樣,方浩樹在 2023 年末前往 MIT,在兩位導師的指導下做博士后。

他先是作為共同一作負責學習算法的部分,在 IROS 2024 上發(fā)表了 EyeSight Hand,用模仿學習做靈巧操作,讓配備了視觸覺傳感器的三指靈巧手能完成切橡皮泥、單手開蓋等操作,這篇文章也獲得IROS 2024 RoboCup最佳論文提名。隨后,方浩樹也開始探索硬件設計。

MIT 具身智能達人志

項目鏈接:https://eyesighthand.github.io/

目前,方浩樹在 MIT 主要圍繞著靈巧操作研究,既設計靈巧手、外骨骼硬件和傳感器,也鉆研新的數(shù)據(jù)采集方式和學習方法。 MIT的研究經(jīng)歷讓他逐漸從一個 Learning 背景的研究者轉變?yōu)閷浖布加猩羁桃娊獾膶W者。

「不少靈巧手的功能與二指夾爪類似,主要用于抓取,電機數(shù)量的增加卻不能帶來能力上的提升。」方浩樹認為靈巧操作中仍存在許多待解決的科學問題,「市面上靈巧手雖多,但關于哪種手的結構、手指數(shù)量、自由度配置、觸覺傳感器的密度、靈敏度及排布方式更適合日常操作等問題均未得到妥善解答?!?/p>


結語

在 2019 年 EI 小組誕生前,MIT 就已經(jīng)孕育了好幾撥具身智能的探索者。

他們或從傳感器出發(fā),或先探索更成熟的自駕領域,或在傳統(tǒng)控制方法上深深扎根。十年光陰,AI 和 Robotics 終于開始雙向奔赴。

趙行和董思遠最早從視覺出發(fā),如今前者在清華叉院和星海圖推進機器人研究,后者在華為車 BU 鉆研自駕,以不同的路徑探索著具身智能;

李瑞和原文禎讓 GelSight 成為真正意義上的機器人視觸覺傳感器,現(xiàn)在一位創(chuàng)立緯鈦科技從傳感器開始做機器人,一位則在 UIUC 任教、探索觸覺大模型;

俞冠廷和李昀燭親歷 Learning 深刻改變機器人領域,目前前者仍在用心經(jīng)營星猿哲機器人,后者則在哥倫比亞大學任職推進世界模型與多模態(tài)感知。

而在 EI 小組成立后來到 MIT 的陳濤和方浩樹則搭乘上最新的浪潮,無論是成立 Dexmate 研發(fā)機器人,還是作為博士后繼續(xù)科研,都在攻克著靈巧操作這一核心難題。

「分層系統(tǒng)與端到端 VLA 并不矛盾,當前因端到端控制存在速度慢、閉環(huán)能力差等致命缺陷,可行方案是采用大模型規(guī)劃 + 端到端執(zhí)行的分層設計?!冠w行認為,未來具身智能的研究方向是將端到端與大模型融合為一個系統(tǒng),「強調結合動作模型與視覺語言模型以提升執(zhí)行能力,這在自駕和機器人領域的思路都是一致的?!?/p>

MIT 的校訓是拉丁語「Mens et Manus(Minds and Hands)」,譯為「手腦并用」。巧合的是,具身智能同樣追求「心靈手巧」。

這些 「傳動軸」們的故事或許會成為新的啟示:在 AI 與機器人的交叉地帶,真正的「心靈手巧」從來不是某個天才的靈光一現(xiàn),而是一群攻堅者們在齒輪咬合處的持續(xù)深耕——他們擰合的不僅是技術鏈條,更是讓智能從「云端」落地「指尖」的時代齒輪。

地基夯實,大廈將起。


(對于 MIT 派系及具身智能明星們的更多故事細節(jié),歡迎添加雷峰網(wǎng)作者 anna042023 交流)雷峰網(wǎng)(公眾號:雷峰網(wǎng))


雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉載。詳情見轉載須知。

MIT 具身智能達人志

分享:
相關文章

資深編輯

關注具身智能。
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說