0
本文作者: 吳華秀 | 2025-06-17 11:19 |
在具身智能快速崛起的當(dāng)下,靈巧手作為連接數(shù)字智能與物理世界的關(guān)鍵載體,正從傳統(tǒng)的執(zhí)行終端躍升為人工智能落地的核心突破口。
2025 年 5 月 25 日,雷峰網(wǎng)、AI 科技評(píng)論、GAIR Live 品牌舉辦了一場(chǎng)主題為“具身智能之靈巧手的探索與應(yīng)用“線上圓桌沙龍。
圓桌主持人為元禾原點(diǎn)合伙人樂(lè)金鑫,同時(shí)圓桌還邀請(qǐng)了新加坡國(guó)立大學(xué)助理教授 & RoboScience創(chuàng)始人邵林、上海交通大學(xué)副教授 & 千覺(jué)機(jī)器人創(chuàng)始人馬道林、浙江大學(xué)控制科學(xué)與工程學(xué)院百人計(jì)劃研究員 & 博士生導(dǎo)師葉琦,共同開(kāi)展一場(chǎng)深度交流。
會(huì)上,嘉賓們各自分享了與靈巧手的故事,并圍繞靈巧手軟硬件挑戰(zhàn)、數(shù)據(jù)與模型、落地與應(yīng)用等多個(gè)方面發(fā)表獨(dú)特見(jiàn)解。其中,三位嘉賓圍繞如何靈巧手?jǐn)?shù)據(jù)難題,分別給出了意見(jiàn)與想法。
馬道林指出,當(dāng)前靈巧手、夾爪相關(guān)的采集數(shù)據(jù)及其訓(xùn)練出的模型,仍處于整個(gè)具身智能領(lǐng)域的初期階段,而且數(shù)據(jù)模態(tài)更多是視覺(jué)和動(dòng)作方面,還未涵蓋觸覺(jué)。接下來(lái)一方面要采集更多多模態(tài)數(shù)據(jù),另一方面是解決采集后不同模態(tài)數(shù)據(jù)的處理以及融合等問(wèn)題。
邵林表示,數(shù)據(jù)難題早在 5 年、10 年,甚至 20 年前便存在,當(dāng)下隨著更多資源的投入,有望將數(shù)據(jù)規(guī)模跑起來(lái)。不過(guò),數(shù)據(jù)的多樣性分布難以改變,這需要一個(gè)海納百川的框架,能將不同數(shù)據(jù)囊括其中,從而達(dá)到數(shù)據(jù)飛輪的啟動(dòng)階段。
葉琦認(rèn)為,過(guò)往受限于不同形態(tài)的機(jī)器人本體,難以有統(tǒng)一數(shù)據(jù)集、Benchmark 及統(tǒng)一平臺(tái)來(lái)比較算法優(yōu)劣,而開(kāi)源機(jī)器人本體和數(shù)據(jù)集有助于為學(xué)術(shù)界提供研究算法及進(jìn)行算法迭代的可能性,打破以往研究數(shù)據(jù)不足的問(wèn)題。如果單靠研究員自己采集數(shù)據(jù),始終只能在小規(guī)模數(shù)據(jù)集上進(jìn)行驗(yàn)證,很難知道在更大規(guī)模的場(chǎng)景里是否依然有效。
以下是此次圓桌的精彩分享,AI 科技評(píng)論進(jìn)行了不改原意的編輯整理:
樂(lè)金鑫:我們討論的話題是具身智能之靈巧手的探索與應(yīng)用,我是元禾原點(diǎn)合伙人樂(lè)金鑫,我們是一家在國(guó)內(nèi) AI 板塊活躍的早期投資機(jī)構(gòu),隸屬于蘇州元禾控股,專(zhuān)注早期投資。今天我們也邀請(qǐng)了三位嘉賓一同交流, 請(qǐng)各位老師先簡(jiǎn)單自我介紹一下。
邵林:大家好,我是新加坡國(guó)立大學(xué)助理教授邵林,也是 RobotScience 創(chuàng)始人,我們主要關(guān)注具身操作、物體操作和具身系統(tǒng)的構(gòu)建上。
馬道林:大家好,我是上海交通大學(xué)副教授馬道林,回國(guó)前曾在 MIT 做博士后,2021 年回國(guó),去年我們創(chuàng)辦了千覺(jué)機(jī)器人,主要做觸覺(jué)感知,為夾爪和靈巧手提供多模態(tài)觸覺(jué)感知能力,讓大家能夠采到高質(zhì)量觸覺(jué)數(shù)據(jù)。
葉琦:大家好,我在浙江大學(xué)控制學(xué)院做機(jī)器人相關(guān)研究。與邵老師、馬老師不一樣的地方是,他們可能從博士到現(xiàn)在所做的方向都有比較大相似性,但我中間有過(guò)轉(zhuǎn)向。我讀博時(shí),包括在微軟亞洲研究院所做的工作都是偏視覺(jué)方向,做人手動(dòng)作感知。進(jìn)入浙大后,一方面是延續(xù)做三維視覺(jué)、三維場(chǎng)景感知、三維重建;另一方面是在靈巧手的工作基礎(chǔ)上繼續(xù)往前開(kāi)拓,包括手部動(dòng)作的生成,目標(biāo)是實(shí)現(xiàn)靈巧手與物理世界的泛化操作。
樂(lè)金鑫:今天的話題是靈巧手,請(qǐng)各位老師先談?wù)勛约簩?duì)靈巧手的理解與認(rèn)識(shí),與靈巧手之間有哪些故事,是如何專(zhuān)注于靈巧手領(lǐng)域?
葉琦:我原本從事的方向并非機(jī)器人領(lǐng)域,而是人的靈巧手感知方向。進(jìn)入浙大控制學(xué)院后,我開(kāi)始思考向機(jī)器人方向結(jié)合。當(dāng)時(shí),計(jì)算機(jī)視覺(jué)已經(jīng)發(fā)展多年,在人臉識(shí)別、手勢(shì)跟蹤、智能眼鏡等領(lǐng)域應(yīng)用逐漸成熟。我認(rèn)為視覺(jué)雖仍有問(wèn)題待解,但未來(lái)幾年的新突破點(diǎn)可能相對(duì)有限。
于是,我想結(jié)合控制學(xué)院在機(jī)器人方面的優(yōu)勢(shì),將視覺(jué)向?qū)嶓w遷移,比如人手動(dòng)作。當(dāng)時(shí)很多人形機(jī)器人動(dòng)作生成研究致力于讓生成的動(dòng)作符合物理約束,那我就在想能不能在仿真環(huán)境中符合物理約束?更進(jìn)一步能不能在實(shí)際環(huán)境中更符合物理約束?這成為我的轉(zhuǎn)折點(diǎn)——從計(jì)算機(jī)視覺(jué)轉(zhuǎn)向更注重物理約束和與物理世界接觸的方向,進(jìn)而進(jìn)入現(xiàn)在的行業(yè)。
我希望從讓靈巧手操作在物理層面實(shí)現(xiàn)更多泛化的角度出發(fā)。目前,仿真環(huán)境中動(dòng)作生成大多表現(xiàn)還可以,但在物理世界中,即使是抓取動(dòng)作也很難實(shí)現(xiàn)。因此,我認(rèn)為靈巧手的關(guān)鍵在于在物理世界中受物理約束并與物理世界交互,這是它與大部分生成式 AI 的不同之處,也是最困難的地方。
樂(lè)金鑫:感謝葉老師的回答,您剛剛提到的“物理約束”能再展開(kāi)談一談嗎?它更多是針對(duì)手部結(jié)構(gòu)和能力本身,還是說(shuō)真實(shí)物理世界?這兩者之間的互動(dòng)關(guān)系是什么?
葉琦:我感覺(jué)兩者都有,比如先不考慮實(shí)際物理,先單純看仿真環(huán)境中的物理層面,這時(shí)候更看重手部精細(xì)結(jié)構(gòu),像我們現(xiàn)在做的任務(wù),比如旋轉(zhuǎn)擰瓶蓋,完成動(dòng)作本身肯定是沒(méi)問(wèn)題的,也可以用 AI 生成手部視頻,但手部與物體接觸瞬間,你能不能接觸到,是第一點(diǎn),這是大部分工作所面臨的問(wèn)題。
比如 Machine Learning 的方法大多數(shù)是充當(dāng) Approximator(擬合器),如果你要大規(guī)模擬合數(shù)據(jù),就很難在局部保證精度,這就是擬合數(shù)據(jù)的誤差。擬合數(shù)據(jù)與真實(shí)接觸的問(wèn)題,是現(xiàn)在大多數(shù)單純生成式的方法難以去解決的。
我個(gè)人覺(jué)得,所有通過(guò)生成式 AI 的方法,要在毫米級(jí)或更細(xì)微精度下同時(shí)兼顧動(dòng)作多樣性和局部精度,單純?cè)跊](méi)有物理約束技術(shù)下,是很難實(shí)現(xiàn)的。
第二點(diǎn),比如一個(gè)細(xì)微的轉(zhuǎn)動(dòng),接觸時(shí)用多大的力,很難單純通過(guò)視覺(jué)外觀的數(shù)據(jù)獲取,而現(xiàn)在很多 AI 生成的數(shù)據(jù)都是從外觀獲取,缺乏物理交互中的力反饋信息,也難以通過(guò)單一場(chǎng)景自動(dòng)推導(dǎo)力控參數(shù)。
此外,機(jī)器人本體構(gòu)型差異會(huì)進(jìn)一步影響數(shù)據(jù)遷移后的操作精度,當(dāng)前單純依賴(lài)生成式 AI 的方法受限于數(shù)據(jù)來(lái)源和模型特性,難以解決上述物理約束問(wèn)題。
樂(lè)金鑫:葉老師分享了關(guān)于物理約束相關(guān)問(wèn)題,現(xiàn)在將問(wèn)題拋給馬老師,請(qǐng)馬老師分享與靈巧手之間的故事,介紹相關(guān)研究。
馬道林:與其說(shuō)我們選擇了靈巧手方向,不如說(shuō)是我們一直以來(lái)堅(jiān)持做機(jī)器人操作,而機(jī)器人操作的核心目標(biāo)選擇了以靈巧手作為執(zhí)行器。我們,這里指的是包括我回國(guó)前后的團(tuán)隊(duì),始終圍繞靈巧手與夾爪等末端執(zhí)行器開(kāi)展研究,核心方向是觸覺(jué)感知。
因?yàn)?2017 年參加亞馬遜機(jī)器人挑戰(zhàn)賽(日本站奪冠)時(shí)我們發(fā)現(xiàn),純靠視覺(jué)完成抓取放置(pick and place)的成功率很難突破 70%+?,F(xiàn)在很多具身智能公司也在做抓取放置任務(wù),大家現(xiàn)在能做到 90% 左右。
在當(dāng)時(shí),我們發(fā)現(xiàn)純靠視覺(jué)很難提升成功率。許多失敗案例源于執(zhí)行器缺乏與物體接觸瞬間及后續(xù)短時(shí)間內(nèi)的感知,視覺(jué)易受遮擋、視角等限制。因此我們意識(shí)到必須為末端執(zhí)行器賦予觸覺(jué)感知能力,讓靈巧手、夾爪能像人類(lèi)一樣,在接觸物體時(shí)感知接觸力、紋理、溫度、滑動(dòng)、運(yùn)動(dòng)等多模態(tài)觸覺(jué)信息。
近兩年人形機(jī)器人熱潮帶動(dòng)靈巧手成為焦點(diǎn),我們對(duì)此既感欣喜也保持冷靜。靈巧手是具身機(jī)器人系統(tǒng)中最復(fù)雜且關(guān)鍵的模組。如果從單臂加手部的執(zhí)行機(jī)構(gòu)看,其自由度占整個(gè)系統(tǒng)的 80% 以上,動(dòng)作自由度高、協(xié)同邏輯復(fù)雜、控制難度極大。正如剛才葉老師所言,高自由度的靈巧手在有限空間內(nèi)與物體進(jìn)行物理交互時(shí),僅從運(yùn)動(dòng)控制精度層面便面臨嚴(yán)峻挑戰(zhàn):如何在接觸瞬間使生成模型精準(zhǔn)預(yù)判接觸狀態(tài),以及接觸后通過(guò)微小動(dòng)作影響目標(biāo)物體?
我一直覺(jué)得這一控制復(fù)雜度遠(yuǎn)超 Locomotion ——盡管 Locomotion 對(duì)物理環(huán)境的感知具有不確定性,但它的核心是圍繞自身狀態(tài)進(jìn)行確定性調(diào)控,例如質(zhì)心平衡、傾斜度等,有一個(gè)明確的目標(biāo);而靈巧手操作的控制目標(biāo)高度依賴(lài)場(chǎng)景和操作對(duì)象。在此過(guò)程中,單純依靠視覺(jué)、動(dòng)作感知或局部觸覺(jué)信息,難以完成任務(wù),因?yàn)楦黝?lèi)信息不僅模態(tài)不同,信息流特征也存在顯著差異,必須實(shí)現(xiàn)多源信息的有效融合。
視覺(jué)獲取的全局信息通常呈連貫狀態(tài),比如視頻中每?jī)蓭蛞欢螘r(shí)間內(nèi)的數(shù)據(jù)流相對(duì)連續(xù);而觸覺(jué)在與物體真實(shí)接觸前幾乎無(wú)感知,接觸后才觸發(fā)局部信號(hào)——每個(gè)手指僅能感知所在區(qū)域的觸覺(jué),且需在同一框架內(nèi)實(shí)現(xiàn)多手指信號(hào)的協(xié)同與互補(bǔ)。
二者在感知特性上差異顯著。視覺(jué)對(duì)物體位置的感知精度可達(dá)毫米級(jí),而觸覺(jué)往往需要微米級(jí)、至少 0.0 幾毫米的精度。面對(duì)這類(lèi)精度不同、模態(tài)各異、連續(xù)性狀態(tài)有別的多源信息,首先需解決高效采集問(wèn)題,其次要將其有效整合到融合模型中,當(dāng)前熱議的 VLA 模型未來(lái)可能進(jìn)一步升級(jí)為包含觸覺(jué)的 VTLA 模型,以突破信息融合的技術(shù)瓶頸。
在靈巧手的多模態(tài)信息處理中,如何通過(guò)網(wǎng)絡(luò)架構(gòu)實(shí)現(xiàn)信息編碼與協(xié)同、生成控制信號(hào)以及設(shè)定控制目標(biāo)等問(wèn)題,蘊(yùn)含相當(dāng)多的技術(shù)難點(diǎn)。當(dāng)前 VLA 模型的進(jìn)展很大程度依賴(lài)模仿學(xué)習(xí)(Imitation Learning),需采集大量數(shù)據(jù)支撐,但向強(qiáng)化學(xué)習(xí)進(jìn)階時(shí)又面臨新挑戰(zhàn)。
總體而言,靈巧手不僅硬件復(fù)雜度高,需要攻克可靠性、耐用性、易用性等難題,其數(shù)據(jù)獲取與組織更是核心挑戰(zhàn)。
樂(lè)金鑫:馬老師,今天談到靈巧手,也會(huì)討論兩指、三指、五指,既有數(shù)據(jù)、模型等層面的訓(xùn)練,也有構(gòu)型上的選擇,從你們研究重點(diǎn)的邏輯順序來(lái)看,是否會(huì)有一個(gè)先后循序?哪一個(gè)可能更重要?
馬道林:我覺(jué)得都重要,這可能是分工的問(wèn)題。
樂(lè)金鑫:接下來(lái)請(qǐng)邵老師分享一下你們與靈巧手的故事,分別做了哪些工作。
邵林:剛才葉老師和馬老師都分享了非常精彩的故事,我的故事也很久了。當(dāng)時(shí)在斯坦福 AI lab 讀博,那時(shí)斯坦福有各種各樣的靈巧手設(shè)備,我開(kāi)始思考如何讓靈巧手具備抓取任意物體的能力。值得注意的是,斯坦福當(dāng)時(shí)不止一款靈巧手,是有多種不同構(gòu)型的設(shè)備,這引發(fā)了我們最初的思考:是否存在統(tǒng)一的構(gòu)型或框架,讓不同靈巧手完成對(duì)物體的抓取與操作?
我們的核心關(guān)注點(diǎn)是物體操作,靈巧手只是其中一個(gè)切入點(diǎn)。正如馬老師所說(shuō),靈巧手基本是機(jī)器人應(yīng)用系統(tǒng)中最復(fù)雜的體系之一,它集成并代表了具身智能與物體操作領(lǐng)域的各類(lèi)挑戰(zhàn)——從數(shù)據(jù)收集、感知到多模態(tài)融合等難點(diǎn)均蘊(yùn)含其中。這也正是靈巧手兼具趣味性、巨大挑戰(zhàn)性與未來(lái)機(jī)遇的原因,也是我們持續(xù)圍繞這一方向展開(kāi)各類(lèi)研究的初衷。
樂(lè)金鑫:邵老師你們聚焦在操作上,當(dāng)下有做了哪些具體工作嗎?你們是怎么看待靈巧手的?
邵林:我們希望抓取模型的軟件層能適配各類(lèi)硬件層,這是我們關(guān)注的模式。由于硬件迭代速度遠(yuǎn)快于軟件,如果軟件能適配硬件會(huì)是很好的選擇,這也是我們很早就開(kāi)展相關(guān)工作的原因。
早在斯坦福時(shí),我們就提出了較早期的數(shù)據(jù)驅(qū)動(dòng)靈巧手工作 UniGrasp ,并測(cè)試了多種不同靈巧手。目前該方向研究持續(xù)推進(jìn),近期在 ICRA 會(huì)議上,我們的工作 D(R,O)Grasp 榮獲機(jī)器人操作和運(yùn)動(dòng)領(lǐng)域最佳論文獎(jiǎng),這是對(duì)我們的認(rèn)可,我們也會(huì)繼續(xù)努力。
樂(lè)金鑫:邵老師,你們從軟件角度做了很多適配硬件的工作。剛才我問(wèn)馬老師的最后一個(gè)問(wèn)題也在探討,構(gòu)型在不同任務(wù)場(chǎng)景中千差萬(wàn)別,還沒(méi)最終確定,那在這種現(xiàn)狀下,軟件層面要做哪些工作?是做好中間層去適配所有可能出現(xiàn)的不同構(gòu)型的靈巧手,還是掌握一套方法論,讓整個(gè)體系更高效有效地運(yùn)行?
邵林:我們不光做算法,也參與硬件設(shè)計(jì)。之前和斯坦福的朋友Shenli Yuan做過(guò) Rolller Grasper v2 和 v3 相關(guān)工作。Shenli當(dāng)時(shí)把靈巧手的指尖從簡(jiǎn)單接觸面換成小球這種構(gòu)型,這是很有創(chuàng)意的想法。我們覺(jué)得這種構(gòu)型對(duì)于手內(nèi)操作有獨(dú)特優(yōu)勢(shì),所以我們?cè)谟布?、軟件方面都有思考與經(jīng)驗(yàn)。
關(guān)于如何回答剛才提到的問(wèn)題,實(shí)際要分兩部分來(lái)看。一部分是以物體為中心去描述如何抓取物體,本質(zhì)就是機(jī)器人手對(duì)物體不同區(qū)域施加操作,使物體狀態(tài)改變,這是從物體視角考慮的。從機(jī)器人本體視角考慮,則要關(guān)注各種構(gòu)型,以及如何設(shè)計(jì)其運(yùn)動(dòng)空間與運(yùn)動(dòng)模式。
我們要做的是將兩者結(jié)合,因?yàn)楸举|(zhì)上是機(jī)器人的手通過(guò)與物體接觸來(lái)改變物體狀態(tài),所以我們考慮的是如何從交互角度去設(shè)計(jì)靈巧手的各類(lèi)算法。
樂(lè)金鑫:把靈巧手概念泛化,從執(zhí)行末端角度看,這個(gè)領(lǐng)域有沒(méi)有亮眼、前沿的研究或解決方法?前段時(shí)間網(wǎng)上傳播的中科大相關(guān)研究,像章魚(yú)手之類(lèi)的軟體方案。這是個(gè)比較開(kāi)放的話題,老師們?cè)趺纯矗?/p>
邵林:很開(kāi)心看到靈巧手受到了社會(huì)各界越來(lái)越多的關(guān)注,對(duì)于我們研究這個(gè)領(lǐng)域的人來(lái)說(shuō),是一件令人高興的事。就像您剛才提到的柔性手,它有著自身獨(dú)特的優(yōu)勢(shì),無(wú)論是抓取方式還是接觸穩(wěn)定性方面,都有可取之處。
靈巧手其實(shí)是個(gè)很復(fù)雜的系統(tǒng),需要硬件、軟件、電子等各方向的人共同努力。我覺(jué)得比較關(guān)鍵的一點(diǎn)是要有一個(gè)方便高效的交流平臺(tái),這對(duì)促進(jìn)整個(gè)行業(yè)、整個(gè)領(lǐng)域向前發(fā)展極為重要。像柔性?shī)A爪、各類(lèi)傳感器,還有感知以及生成各種各樣的位姿合成(pose synthesis)這些方面,不同背景的人對(duì)它們的理解都會(huì)有各自獨(dú)特的見(jiàn)解。那如何融會(huì)、綜合并收集不同領(lǐng)域人的認(rèn)知?我覺(jué)得這是推動(dòng)這個(gè)領(lǐng)域繼續(xù)發(fā)展的一個(gè)關(guān)鍵方向。
馬道林:在這個(gè)領(lǐng)域中我們特別關(guān)注到,不同生態(tài)位的公司和學(xué)術(shù)團(tuán)隊(duì)都在做事,畢竟這是個(gè)很復(fù)雜的事,需要多領(lǐng)域協(xié)同合作。
在這兩年大家對(duì)靈巧手高度關(guān)注的形勢(shì)下,我們能看到其產(chǎn)生的牽引作用,上游的零部件企業(yè)開(kāi)始為這個(gè)領(lǐng)域打下基礎(chǔ),比如在驅(qū)動(dòng)單元方面,無(wú)論是做靈巧手整體設(shè)計(jì)的,還是研究團(tuán)隊(duì)自己要搭建相關(guān)硬件平臺(tái)的,都有了很好的選擇。以前大家可能只能用舵機(jī)或者別的電機(jī)來(lái)做驅(qū)動(dòng),而現(xiàn)在,在有效需求的牽引下,產(chǎn)業(yè)鏈上游能為大家提供很不錯(cuò)的驅(qū)動(dòng)設(shè)備了。
我們自身從傳感器角度出發(fā),也在努力為靈巧手的感知提供能獲取高質(zhì)量觸覺(jué)數(shù)據(jù)的硬件和算法。從整體來(lái)看,這是很有益的。而且有不少年輕團(tuán)隊(duì)在做靈巧手相關(guān)的創(chuàng)業(yè)項(xiàng)目。
這個(gè)領(lǐng)域高度工程化,存在諸多工程化挑戰(zhàn)。我覺(jué)得學(xué)校團(tuán)隊(duì)就別去攢靈巧手的硬件了,不妨等著產(chǎn)業(yè)界做出便宜又好用的硬件來(lái)使用。學(xué)校里的老師更應(yīng)該從更深刻、更底層的前沿研究入手,前瞻性地去發(fā)現(xiàn)其中的科學(xué)問(wèn)題以及有挑戰(zhàn)性的地方。
就像葉老師剛才講的,對(duì)于接觸、約束這些內(nèi)容,該如何有效地建模,又怎樣在擬合器、仿真器、生成器里進(jìn)行處理?我覺(jué)得這得往產(chǎn)業(yè)界前沿去探尋。
我在 MIT 的時(shí)候,受益很深的一點(diǎn)是我導(dǎo)師 Alberto Rodriguez 說(shuō)的話,他如今是波士頓動(dòng)力 Manipulation 方向的負(fù)責(zé)人。當(dāng)時(shí)他講,博士生或者學(xué)術(shù)領(lǐng)域的年輕人在選題時(shí),要選未來(lái) 5 到 10 年有重要需求的方向,如果當(dāng)下已經(jīng)有公司在做的事,從研究角度來(lái)說(shuō),就別涉足了。要看得更遠(yuǎn),要有前瞻性的判斷,看到 5 到 10 年之后所需的事,無(wú)論是在理論方面、算法層面,還是更高層級(jí)的控制模型層面。這本身就是學(xué)術(shù)研究的意義所在,要做基礎(chǔ)性、前瞻性的研究,也要敢于做有風(fēng)險(xiǎn)的研究。
葉琦:剛才馬老師說(shuō)的話讓我挺有感觸的。就拿谷歌的 RT 系列來(lái)說(shuō),在它通過(guò) VLA 采集數(shù)據(jù)之前,我們其實(shí)也考慮過(guò)用遙操的方式去采數(shù)據(jù),比如做一些演示數(shù)據(jù),我們課題組也有老師在做這方面工作。
我自己也嘗試過(guò)用遙操去抓取,可嘗試之后,我就感覺(jué)這不是我們課題組短期內(nèi)能做成的事。后來(lái) RT 火了,很多創(chuàng)業(yè)公司按此技術(shù)路徑采集數(shù)據(jù),我去不少工廠參觀,也用了他們的遙操設(shè)備,結(jié)果發(fā)現(xiàn)也挺難的,我大概操作了一分鐘,都沒(méi)能采出一條 Pick and Place(拾取和放置)的軌跡來(lái)。
所以從這個(gè)角度來(lái)看,大公司通過(guò) VLA 去采集數(shù)據(jù),或者采用眾包(cloud sourcing)這種方式,把現(xiàn)有的數(shù)據(jù)融合起來(lái),確實(shí)是很不錯(cuò)的途徑。但我自己覺(jué)得,像馬老師說(shuō)的,這些事可以由能集成很多資源的公司去做。
對(duì)于高校而言,像這種大規(guī)模的數(shù)據(jù)采集工作,我們很難去做。所以我就一直在思考,怎樣用更高效的方式去獲取數(shù)據(jù),以此來(lái)解決相關(guān)問(wèn)題。
近些年來(lái),尤其是近一年,我看到了一些挺亮眼的工作。一方面,我原本就一直秉持從人的角度去采集數(shù)據(jù)的思路,畢竟人是天然的智能體,向人學(xué)習(xí)是很自然的事。最近我學(xué)生跟我分享了一些工作,比如做三維視覺(jué)的老師,他們從人的角度出發(fā),學(xué)習(xí)人在操作過(guò)程中的動(dòng)作軌跡,把動(dòng)作軌跡拼湊出來(lái),再提取出接觸區(qū)域,然后用這些數(shù)據(jù)去訓(xùn)練,全程沒(méi)有用到一點(diǎn)機(jī)器人的數(shù)據(jù),卻能直接讓機(jī)器人實(shí)現(xiàn)相應(yīng)操作,雖說(shuō)不是特別復(fù)雜的操作,但這恰恰體現(xiàn)了研究界的可貴之處,通過(guò)這樣的 demo,為我們指明了一種可能性,也就是不一定要通過(guò)遙操作去做這件事,我覺(jué)得這是挺亮眼的一項(xiàng)工作。
另一方面,之前我們邀請(qǐng)邵老師來(lái)我們課題組做報(bào)告,邵老師介紹了他的一項(xiàng)工作,是用視頻生成的方式,去生成機(jī)械爪或者人在操作過(guò)程中的下一幀視頻。當(dāng)時(shí)我就特別喜歡這項(xiàng)工作,后來(lái)我思考了很久,對(duì)于這個(gè)領(lǐng)域來(lái)講,包括現(xiàn)在說(shuō)到的 World model 視頻生成,以及黃仁勛的一些觀念,都挺值得贊同。
從更長(zhǎng)遠(yuǎn)的未來(lái)來(lái)看,如果視頻生成能夠做到生成任意操作實(shí)例,那就意味著這個(gè)模型其實(shí)是隱含式地學(xué)習(xí)到了人該如何操作的相關(guān)信息。至于后續(xù)怎么從視頻里把這些信息提取出來(lái),那是另外一回事,或許還需要做大量工作。但模型本身吸納了這么多人操作(無(wú)論是人操作還是機(jī)械爪操作)的數(shù)據(jù),它其實(shí)就蘊(yùn)含了對(duì)這些操作的理解。
我個(gè)人覺(jué)得,上述這兩方面的工作是我目前非常喜歡的。一方面是從人的角度出發(fā),利用人的數(shù)據(jù),而且不一定要通過(guò)遙操作,畢竟遙操作很難規(guī)模化。另一方面是從視頻生成角度入手,直接基于視頻,模型里蘊(yùn)含著對(duì)視覺(jué)方面的理解。相較于現(xiàn)在很火的 VLA 來(lái)說(shuō),我覺(jué)得這兩方面的工作挺不錯(cuò)的。
樂(lè)金鑫:對(duì)靈巧手而言,數(shù)據(jù)是一難題,關(guān)于數(shù)據(jù)的來(lái)源、成本、獲取方法以及未來(lái)數(shù)據(jù)沉淀的安全性等問(wèn)題,老師們?cè)趺纯矗?/p>
馬道林:我們自己還沒(méi)有采集大量的數(shù)據(jù),尤其在操作任務(wù)層面。我們?cè)趯?shí)驗(yàn)室做研究時(shí),采集的數(shù)據(jù)規(guī)模比較小。
我們也看到這個(gè)領(lǐng)域里很強(qiáng)的團(tuán)隊(duì),像斯坦福團(tuán)隊(duì),還有他們開(kāi)源的 PI 模型,大家采集的是以視覺(jué)動(dòng)作類(lèi)為主的遙操作數(shù)據(jù)。同時(shí),也有國(guó)內(nèi)外的一些公司,從互聯(lián)網(wǎng)積累了幾十年的視頻數(shù)據(jù)里去提煉數(shù)據(jù),就跟挖礦一樣,盡可能把動(dòng)作數(shù)據(jù)以及與周?chē)h(huán)境交互的數(shù)據(jù)中有價(jià)值的信息提取出來(lái)。
正如葉老師講的,要通過(guò)這些讓其學(xué)習(xí)到,比如對(duì)世界模型的部分理解,還有對(duì)周?chē)锢硎澜绲恼J(rèn)知。
從數(shù)據(jù)角度來(lái)講,我很認(rèn)可這個(gè)領(lǐng)域里其他學(xué)者提出的數(shù)據(jù)金字塔說(shuō)法?;ヂ?lián)網(wǎng)數(shù)據(jù)作為底座,它的精度或許沒(méi)那么高,但量足夠大,涵蓋的場(chǎng)景、任務(wù)也足夠多,所以對(duì)泛化性的貢獻(xiàn)很大,而且目前獲取成本相對(duì)比較可控。
再往上就是仿真數(shù)據(jù),獲取仿真數(shù)據(jù)的成本要比直接從互聯(lián)網(wǎng)“挖礦”更難一些,得有仿真器,還要有好的控制器,甚至仿真器里還得涉及遙操作等等。而真機(jī)數(shù)據(jù)成本就更高了,要有足夠的硬件、操作工人等,一系列問(wèn)題也會(huì)隨之衍生出來(lái)。
實(shí)際上,不僅最底層的互聯(lián)網(wǎng)數(shù)據(jù)需要提煉挖掘的過(guò)程,仿真數(shù)據(jù)、真實(shí)數(shù)據(jù)也并非采集完就行,采集后還需進(jìn)行后端加工、質(zhì)檢等諸多流程,數(shù)據(jù)生產(chǎn)包含很多環(huán)節(jié)。數(shù)據(jù)數(shù)量固然重要,但質(zhì)量更為關(guān)鍵,高質(zhì)量數(shù)據(jù)是決定未來(lái)模型表現(xiàn)的重要要素。
只不過(guò)當(dāng)下,大家只能在相對(duì)有限的數(shù)據(jù)及質(zhì)量條件下展示一些成果。目前不管是靈巧手的采集數(shù)據(jù)及其訓(xùn)練出的模型,還是夾爪采集的數(shù)據(jù)及相應(yīng)模型,都還處于整個(gè)具身領(lǐng)域非常初期的階段。
當(dāng)大家真正能建立起可持續(xù)的數(shù)據(jù)飛輪,形成持續(xù)積累海量數(shù)據(jù)的模式后,我們相信無(wú)論是具身模型的規(guī)模,還是其表現(xiàn),都會(huì)比現(xiàn)在好得多。
目前來(lái)看,大家采集的數(shù)據(jù)模態(tài)更多是視覺(jué)和動(dòng)作方面的數(shù)據(jù),還沒(méi)把多模態(tài)的觸覺(jué)數(shù)據(jù)納入進(jìn)來(lái)。一方面要將多模態(tài)的數(shù)據(jù)采集出來(lái),另一方面采集后還會(huì)涉及不同模態(tài)數(shù)據(jù)的編碼以及它們之間的融合等諸多問(wèn)題。
而且就當(dāng)下的數(shù)據(jù)存量而言,把互聯(lián)網(wǎng)數(shù)據(jù)當(dāng)作底座的話,它本身是沒(méi)有觸覺(jué)數(shù)據(jù)這個(gè)模態(tài)的。鑒于數(shù)據(jù)本身有諸多需求,所以在仿真端,生成觸覺(jué)數(shù)據(jù)的必要性和壓力,其實(shí)比生成動(dòng)作數(shù)據(jù)對(duì)仿真的需求還要高些。
當(dāng)然,真機(jī)數(shù)據(jù)不管是動(dòng)作數(shù)據(jù)、視覺(jué)數(shù)據(jù)還是觸覺(jué)數(shù)據(jù),都很珍貴、很重要,只是成本也比較高。此外,我們也看到一種新形態(tài),就是大家通過(guò)商業(yè)方式去降低數(shù)據(jù)采集成本,這里面存在不少值得大家探索的機(jī)會(huì)。
邵林:葉老師和馬老師已經(jīng)總結(jié)得很到位了,馬老師把數(shù)據(jù)金字塔講完后,我其實(shí)沒(méi)什么額外要補(bǔ)充的了。
我們也覺(jué)得,如何獲取海量數(shù)據(jù)是比較關(guān)鍵的一點(diǎn),也很樂(lè)意看到越來(lái)越多的努力和工作投入到這個(gè)方向,比如去生成大量的靈巧手操作數(shù)據(jù)等等。葉老師團(tuán)隊(duì)最近在這個(gè)方向就有很棒的工作。
同時(shí),對(duì)于像馬老師提到的觸覺(jué)方向的數(shù)據(jù),獲取更多這類(lèi)數(shù)據(jù)也是很關(guān)鍵的一點(diǎn)。不過(guò)我更想說(shuō)的是,這些問(wèn)題在 5 年前、10 年前甚至 20 年前就存在了,數(shù)據(jù)的分布并沒(méi)有太大變化。只是近期有更多資源投入到這個(gè)方向,我們有可能把相關(guān)工作做得更具規(guī)模,這是比較關(guān)鍵的一點(diǎn)。
而且,數(shù)據(jù)的多樣性分布實(shí)際上沒(méi)辦法改變,這就意味著需要一個(gè)海納百川的框架,能將各種不同的數(shù)據(jù)囊括在一個(gè)系統(tǒng)里,讓它能夠逐漸達(dá)到數(shù)據(jù)飛輪的啟動(dòng)階段,也就是把數(shù)據(jù)流轉(zhuǎn)起來(lái),這一點(diǎn)極為關(guān)鍵。一旦數(shù)據(jù)流轉(zhuǎn)起來(lái),就會(huì)形成正反饋,有了數(shù)據(jù)驅(qū)動(dòng)的仿真加入進(jìn)來(lái),收集數(shù)據(jù)的代價(jià)會(huì)逐漸降低,數(shù)據(jù)量會(huì)逐漸增多,像視頻數(shù)據(jù)、模型產(chǎn)生的各類(lèi)數(shù)據(jù)等,都能逐漸整合起來(lái),這點(diǎn)非常關(guān)鍵。
樂(lè)金鑫:評(píng)論區(qū)有一位觀眾留言,想問(wèn)問(wèn)老師們?cè)趺纯创_(kāi)源數(shù)據(jù)集?
葉琦:我覺(jué)得開(kāi)源數(shù)據(jù)集很有價(jià)值,整個(gè)操作領(lǐng)域,雖說(shuō)已經(jīng)研究了好些年,但仍處于比較初始的階段。在機(jī)器人領(lǐng)域,以前受限于每個(gè)人的機(jī)器本體形態(tài)不同,很難有統(tǒng)一的數(shù)據(jù)集、統(tǒng)一的基準(zhǔn)(Benchmark)以及統(tǒng)一的平臺(tái)來(lái)做比較。
現(xiàn)在有了一些公開(kāi)數(shù)據(jù)集,這對(duì)學(xué)術(shù)界來(lái)說(shuō)意義重大??赡芄I(yè)界不太看重這些數(shù)據(jù)集,畢竟他們自己能獲取的數(shù)據(jù)量或許更大。但對(duì)于學(xué)術(shù)界而言,要是讓老師們?nèi)ゲ杉瘮?shù)據(jù)集,那難度可不小。有了這些公開(kāi)數(shù)據(jù)集,就好比巧婦有了米,學(xué)術(shù)界可以基于它們?nèi)ピu(píng)測(cè)、去研究算法了,能在算法層面推動(dòng)向前發(fā)展。
我覺(jué)得這就是公開(kāi)數(shù)據(jù)集特別有價(jià)值的地方,它為學(xué)術(shù)界這些像“小作坊”一樣的老師們提供了研究算法以及進(jìn)行算法迭代的可能性。
樂(lè)金鑫:剛才葉老師分享的時(shí)候,我原本覺(jué)得做前沿研究應(yīng)該沒(méi)那么多束縛,可聽(tīng)下來(lái)好像現(xiàn)在我們?cè)谘芯糠矫?,不管是?jīng)費(fèi)還是別的各種問(wèn)題,反倒給我們的研究工作帶來(lái)了不少束縛。葉老師會(huì)不會(huì)覺(jué)得商業(yè)化獲取資金更容易?
葉琦:這確實(shí)挺實(shí)際的,在高校做研究,經(jīng)費(fèi)很重要。像實(shí)驗(yàn)室的水電費(fèi)這些都得操心,更別說(shuō)其他事。哪怕只是做一些概念驗(yàn)證(proof concept)這樣簡(jiǎn)單的驗(yàn)證,也得自己去采集些數(shù)據(jù)。
要是沒(méi)有現(xiàn)在的公開(kāi)數(shù)據(jù)集或者 VLA 數(shù)據(jù)集,沒(méi)有眾多研究人員把數(shù)據(jù)匯總起來(lái)供我們使用,單靠每個(gè)研究者自己的話,始終只能在小規(guī)模數(shù)據(jù)集上驗(yàn)證。那樣的話,即便算法在小數(shù)據(jù)里驗(yàn)證沒(méi)問(wèn)題,效果各方面都好,可我們也很難知道這個(gè)算法放到更大規(guī)模場(chǎng)景里是否依然有效。畢竟測(cè)試的場(chǎng)景比較有限,這樣的算法也就很難被大家廣泛認(rèn)同。
所以對(duì)于學(xué)術(shù)界來(lái)說(shuō),經(jīng)費(fèi)以及商業(yè)合作肯定是有促進(jìn)作用的,尤其在當(dāng)下大模型時(shí)代,我們得抱緊工業(yè)界的“大腿”,多合作才行。工業(yè)界有數(shù)據(jù)、有資源,而且他們對(duì)產(chǎn)業(yè)問(wèn)題的認(rèn)識(shí)在很多時(shí)候能激發(fā)我們做更多事,也會(huì)給我們帶來(lái)不少靈感,讓我們知道該去關(guān)注哪些問(wèn)題,我覺(jué)得這非常重要。
馬道林:對(duì)于開(kāi)源數(shù)據(jù)集或者開(kāi)源工具這類(lèi)事,我淺顯地認(rèn)為,從商業(yè)理性角度看它是合理的。采集到的數(shù)據(jù)雖不會(huì)全部公開(kāi),像有些公司分享出的數(shù)據(jù)量挺大,但他們自己掌握的數(shù)據(jù)量更多,而且還會(huì)按場(chǎng)景區(qū)分,對(duì)商業(yè)落地重要的數(shù)據(jù)可能就不公布,相對(duì)寬泛的數(shù)據(jù)則會(huì)公布出來(lái),不過(guò)這些公布的數(shù)據(jù)依然很有價(jià)值,畢竟采集數(shù)據(jù)成本頗高。
這些數(shù)據(jù)提供給公共平臺(tái),對(duì)像葉老師提到的高校里相關(guān)領(lǐng)域做研究的老師來(lái)說(shuō)很有價(jià)值。因?yàn)樽寣W(xué)生搭建平臺(tái)、采集數(shù)據(jù),再形成一套數(shù)據(jù)質(zhì)量管理機(jī)制等,要耗費(fèi)大量時(shí)間、精力以及經(jīng)費(fèi)。
如果商業(yè)化的大平臺(tái)能提供這類(lèi)公共產(chǎn)品,最終它也是受益方。高校的研究成果會(huì)以論文等形式呈現(xiàn),但最核心的產(chǎn)出其實(shí)是人才,從高校走出來(lái)的人才會(huì)反哺到行業(yè)中,尤其會(huì)進(jìn)入行業(yè)里的頭部企業(yè)。這就是為什么頭部企業(yè)有動(dòng)力、有社會(huì)責(zé)任去做這類(lèi)事,像國(guó)外很多大企業(yè)會(huì)給高校捐贈(zèng)、支持高?;A(chǔ)研究,我在 MIT 時(shí),拿到的一些企業(yè)資助甚至都沒(méi)合同,就是純粹的饋贈(zèng),可隨意使用。很明顯,作為行業(yè)龍頭企業(yè),最終能吸納人才,也是技術(shù)成果的最大受益者。
所以從整個(gè)生態(tài)來(lái)講,這是有益的事。尤其從高校老師角度看,合理、有效地利用這些數(shù)據(jù)集開(kāi)展前沿研究、前瞻性研究,也是發(fā)揮自身特長(zhǎng)。高校老師做研究、帶學(xué)生做研究時(shí),對(duì)創(chuàng)新的追求很高,而創(chuàng)新往往意味著追求不確定性,大家都在追求這種不確定性高但一旦做成影響力就很大的事。企業(yè)很多時(shí)候得追求確定性,畢竟風(fēng)險(xiǎn)高,需要控制風(fēng)險(xiǎn),去做更可控的事。我覺(jué)得這種機(jī)制正好能協(xié)調(diào)雙方,讓大家以合理的方式做合理的事。
邵林:我也覺(jué)得開(kāi)源數(shù)據(jù)集挺好的,很鼓勵(lì)高校、研究機(jī)構(gòu)能開(kāi)源數(shù)據(jù)集。不過(guò),數(shù)據(jù)集的發(fā)布和維護(hù)確實(shí)是挺頭疼的事,要是有個(gè)更好的平臺(tái),能協(xié)調(diào)數(shù)據(jù)格式以及負(fù)責(zé)后期的數(shù)據(jù)維護(hù),那對(duì)整個(gè)行業(yè)的發(fā)展就非常重要了。
樂(lè)金鑫:接下來(lái)圍繞各位老師在研究或創(chuàng)業(yè)中,面對(duì)具體需求和場(chǎng)景落地需解決的問(wèn)題展開(kāi)。我們先聊聊靈巧手落地整體情況,寬泛來(lái)說(shuō),就是靈巧手面向場(chǎng)景需求解決問(wèn)題的效果及未解決好的問(wèn)題,老師們?cè)趺纯矗?/p>
邵林:我覺(jué)得靈巧手落地的前景挺廣闊的,接下來(lái)這段時(shí)間,應(yīng)該考慮一些落地場(chǎng)景,充分發(fā)揮靈巧手的高自由度,這是它相較于其他類(lèi)型執(zhí)行模塊的優(yōu)勢(shì)所在。
在這個(gè)過(guò)程中,觸覺(jué)融合是個(gè)很關(guān)鍵的點(diǎn),另外,靈巧手硬件本體的發(fā)展也是我們十分期待的一個(gè)方向。
樂(lè)金鑫:您剛提到高自由度,面向場(chǎng)景落地時(shí),一旦涉及場(chǎng)景,就得考慮成本、投資回報(bào)率(ROI)等問(wèn)題。那這高自由度,到底多高才算高?大家對(duì)此有共識(shí)嗎?
邵林:這其實(shí)取決于不同的落地場(chǎng)景。不過(guò)我要強(qiáng)調(diào)的是,靈巧手的高自由度有著自身獨(dú)特優(yōu)勢(shì),我們得選擇合適的場(chǎng)景,讓這些優(yōu)勢(shì)能夠充分放大,這才是最關(guān)鍵的一點(diǎn)。
馬道林:從落地角度看,靈巧手目前面臨的一大挑戰(zhàn)就是如何向終端客戶(hù)交付價(jià)值,也就是要明確在什么場(chǎng)景下能讓靈巧手得到應(yīng)用。現(xiàn)階段這都還處于很初步的階段,畢竟靈巧手自身在硬件、軟件、算法方面的完善程度還不夠高,導(dǎo)致其下游的一些應(yīng)用也處在起步階段,具身相關(guān)的公司目前也沒(méi)辦法在面向家庭的 C 端客戶(hù),或是面向工業(yè)的 B 端場(chǎng)景里交付靈巧手的使用。
所以,這個(gè)領(lǐng)域落地的關(guān)鍵在于進(jìn)一步打通整個(gè)鏈路,而這需要上下游協(xié)同配合,各自做好分內(nèi)之事。比如做硬件設(shè)計(jì)的,要提升硬件的可靠性、控制的穩(wěn)定性以及精度等。從感知角度來(lái)講,我們得為大家提供好傳感器采集數(shù)據(jù)的精度、一致性、質(zhì)量以及采集工具。
現(xiàn)在靈巧手即便把硬件做出來(lái)了,像葉老師一開(kāi)始說(shuō)的,單純靠遙操作來(lái)采集數(shù)據(jù)是有局限的,采集靈巧手的數(shù)據(jù)時(shí),哪怕是用遙操作來(lái)采集單向、無(wú)反饋的數(shù)據(jù),不管是采用視覺(jué)(region)的方式還是手套的方式,目前來(lái)看,其精度、自由度以及可靠性都會(huì)存在一定限制。
所以,怎么協(xié)同做好數(shù)據(jù)采集這一端,讓具身公司能采集到優(yōu)質(zhì)數(shù)據(jù)很關(guān)鍵,畢竟這些具身公司也在做自己的硬件,只有硬件數(shù)據(jù)好了,后續(xù)算法模型部署等相關(guān)事宜才能順利開(kāi)展,整個(gè)鏈路打通了,靈巧手才能真正在工業(yè)和生活中落地,我覺(jué)得這里面的挑戰(zhàn)還是蠻大。
樂(lè)金鑫:如果您站在 B 端客戶(hù)的角度,比如說(shuō)是一家車(chē)廠,它需要一個(gè)靈巧手概念的執(zhí)行末端,那您覺(jué)得這個(gè)價(jià)格處在什么區(qū)間比較合適呢? C 端呢?
馬道林:這個(gè)問(wèn)題太難了[捂臉]。也許,對(duì)于工業(yè)客戶(hù)而言,如果其能夠做到使用壽命能達(dá)到幾年以上,不用一兩年就更換,那么包含控制算法,與手臂集成的整套系統(tǒng),在當(dāng)前市場(chǎng)環(huán)境下,30 萬(wàn)到 40 萬(wàn)我覺(jué)得是可以接受的。
不過(guò)隨著市場(chǎng)競(jìng)爭(zhēng)加劇,往后大家對(duì)成本把控會(huì)更嚴(yán),成本肯定還會(huì)進(jìn)一步下降。要是扣除機(jī)械臂等成本,單就靈巧手這塊,畢竟還涉及采集大量數(shù)據(jù)訓(xùn)練算法、輸入模型等情況,大概在工業(yè)上能接受的成本得在 10 萬(wàn)左右。
而面向 C 端的情況大概率要比 B 端更晚實(shí)現(xiàn),并且C端對(duì)成本的承受能力也更低。我感覺(jué)未來(lái)要是面向 C 端的話,一個(gè)靈巧手的價(jià)格可能得控制在一兩萬(wàn)以?xún)?nèi),說(shuō)不定一對(duì)靈巧手加起來(lái)都不到 1 萬(wàn),不過(guò)這是比較遠(yuǎn)期的情況了。
邵林:與此同時(shí),價(jià)格下降其實(shí)類(lèi)似一種規(guī)模效應(yīng)(scaling law)的概念,當(dāng)部署的量增加后,價(jià)格就會(huì)快速下降。
葉琦:之前總有人跟我聊這行業(yè)很火,可我卻常常給他們“潑冷水”,因?yàn)槲覀€(gè)人切實(shí)感受到,從算法、硬件平臺(tái),到傳感等各方面,雖然幾位老師也都提到了相關(guān)內(nèi)容,但我還想再?gòu)?qiáng)調(diào)一下仿真技術(shù)。
我覺(jué)得在未來(lái)整個(gè)技術(shù)路線的發(fā)展中,仿真是不可或缺的。就像馬老師講過(guò)互聯(lián)網(wǎng)仿真數(shù)據(jù)、真機(jī)數(shù)據(jù),數(shù)據(jù)確實(shí)可以先離線采集下來(lái)再提供給模型。但既然是離線采集,那為何不讓智能體直接進(jìn)入環(huán)境去交互,還可以大規(guī)模并行地去探索,這樣帶來(lái)的收益是很大的。
畢竟很多時(shí)候,數(shù)據(jù)采集要覆蓋現(xiàn)實(shí)生活場(chǎng)景里各種各樣的可能性挺難的。而在仿真環(huán)境里去制造各種情況就相對(duì)簡(jiǎn)單些,雖說(shuō)也不是輕而易舉,但可以做很多隨機(jī)化的操作,比如今天把場(chǎng)景顏色換一下,明天換個(gè)別的顏色,或者把摩擦力調(diào)大調(diào)小等等,能制造出很多可能性。
在現(xiàn)實(shí)生活場(chǎng)景里,要把所有變量組合都采集起來(lái)是有難度的。未來(lái)真要面向落地的時(shí)候,不能是發(fā)現(xiàn)一個(gè)問(wèn)題就去采集一波數(shù)據(jù),那樣太難了??梢宰龅氖牵?dāng)發(fā)現(xiàn)用戶(hù)有某個(gè)問(wèn)題時(shí),給他構(gòu)造一個(gè)仿真環(huán)境,讓他自己去探索,要是光線方面有問(wèn)題,那就再給他渲染出合適的光線情況。
所以我覺(jué)得仿真平臺(tái)在之前提到的硬件、算法以及感知層面之上,未來(lái)是需要去補(bǔ)充和發(fā)展的。 機(jī)器本體在仿真平臺(tái)里進(jìn)行探索是很重要的一點(diǎn)。
說(shuō)到落地情況,現(xiàn)在很多資本市場(chǎng)覺(jué)得操作機(jī)器人、機(jī)器人領(lǐng)域存在泡沫,我倒不這么認(rèn)為。只是目前技術(shù)確實(shí)沒(méi)發(fā)展到那一步,但資本市場(chǎng)看重的就是可能性,人類(lèi)生活的發(fā)展也是著眼于未來(lái)的可能性,所以才有了如今的發(fā)展態(tài)勢(shì)。
以靈巧手為例,四五年前我們采購(gòu)機(jī)械手時(shí),國(guó)內(nèi)雖說(shuō)也有不少公司在做,但數(shù)量沒(méi)現(xiàn)在這么多,而且靈巧度也不太理想,那時(shí)我們大多只能采購(gòu)國(guó)外的靈巧手。
不過(guò),從前一兩年開(kāi)始,國(guó)家推動(dòng)這個(gè)方向發(fā)展,資本紛紛進(jìn)入這個(gè)領(lǐng)域,涌現(xiàn)出很多創(chuàng)業(yè)公司,你看現(xiàn)在,國(guó)內(nèi)做靈巧手的硬件本體的公司已經(jīng)有很多了,雖說(shuō)它們的產(chǎn)品可能還沒(méi)經(jīng)過(guò)市場(chǎng)的考驗(yàn),但起碼做出了 demo,產(chǎn)品形態(tài)也出來(lái)了。僅僅一兩年或者兩三年的時(shí)間,就有這么多靈巧手可供我們選用了。所以,之前大家覺(jué)得是泡沫,可資本一進(jìn)入,短短兩三年就有這么多靈巧手涌現(xiàn)出來(lái),我覺(jué)得未來(lái)特別值得期待。
后續(xù)要是有更多資本涌入,就會(huì)推動(dòng)人才往這個(gè)方向匯聚。雖說(shuō)目前受各方面技術(shù)限制,各方面都存在不足,但發(fā)展態(tài)勢(shì)著實(shí)讓我欣慰又激動(dòng)。
我覺(jué)得五年之后,或許在某個(gè)場(chǎng)景里,就像掃地機(jī)器人那樣,會(huì)出現(xiàn)面向特定領(lǐng)域、能開(kāi)始干活的機(jī)器人,雖說(shuō)可能還稍顯笨拙。而十年之后,說(shuō)不定就能出現(xiàn)面向特定領(lǐng)域、操作比較嫻熟的人形靈巧手或者人形機(jī)器人形態(tài)了。
所以說(shuō),雖然目前靈巧手落地在各方面都還需要大力發(fā)展,但在未來(lái)五年、十年內(nèi),它在特定行業(yè)落地是很有可能性的。這就是我的看法,不過(guò)具體到這個(gè)行業(yè)未來(lái)具體會(huì)怎樣,我確實(shí)不太確定。
樂(lè)金鑫:葉老師,據(jù)我了解,目前高??赡苁庆`巧手比較大的一個(gè)客戶(hù)場(chǎng)景。從使用者的角度來(lái)講,您覺(jué)得現(xiàn)在買(mǎi)的靈巧手價(jià)格貴不貴?
葉琦:其實(shí)我們是2020年開(kāi)始采購(gòu)的,當(dāng)時(shí)買(mǎi)的都是國(guó)外的靈巧手,那價(jià)格真是太貴了。不過(guò)現(xiàn)在我們也希望能和國(guó)內(nèi)的一些廠商、單位合作來(lái)做這事,只是我們抱著比較謹(jǐn)慎的心態(tài),畢竟國(guó)內(nèi)新生產(chǎn)出來(lái)的靈巧手可能還有很多需要優(yōu)化的地方,像穩(wěn)定性等各方面都得好好考察一番。
相對(duì)于國(guó)外的或者一些開(kāi)源性質(zhì)的靈巧手,比如邵老師推薦的一些,很多老師用過(guò)后覺(jué)得不錯(cuò),主要是價(jià)格便宜,還比較耐用,對(duì)我們來(lái)說(shuō)挺重要的。而且學(xué)生去學(xué)習(xí)使用它的成本也不高,沒(méi)太多問(wèn)題,有沒(méi)有開(kāi)源的、有沒(méi)有使用經(jīng)驗(yàn)以及有沒(méi)有社區(qū)能供大家相互討論,這些都很關(guān)鍵。
以前我們買(mǎi)的靈巧手本體都非常貴,畢竟是三四年前、四五年前買(mǎi)的?,F(xiàn)在價(jià)格雖然降下來(lái)了一些,但對(duì)我們的經(jīng)費(fèi)來(lái)說(shuō),還是挺有壓力的。哪怕是現(xiàn)在,一些帶有觸覺(jué)傳感器的手也挺貴,可能一雙也將近10萬(wàn)。而且往往一雙手不夠用,要是這雙手壞了,在要產(chǎn)出論文或者做相關(guān)工作的時(shí)候,總不能干等著它修好,肯定得準(zhǔn)備備用的,那就是得再加 10 萬(wàn)。要是加上整套研究系統(tǒng),相對(duì)來(lái)說(shuō),一套下來(lái)四五十萬(wàn)是常有的事,這對(duì)高校老師來(lái)講,確實(shí)是有一定壓力的。
樂(lè)金鑫:最后再拋一個(gè)更開(kāi)放的話題,想請(qǐng)各位老師對(duì)比中美在各自相關(guān)領(lǐng)域(靈巧手或具身領(lǐng)域)是否存在差距,如果有,具體體現(xiàn)在哪及差距大小。另外,各位老師回國(guó)后,在創(chuàng)業(yè)或研究中,相較于國(guó)外,國(guó)內(nèi)有哪些好的地方?
邵林:我覺(jué)得在當(dāng)前環(huán)境下,我們更要強(qiáng)調(diào)大家協(xié)同做事,也特別希望中美之間能有更開(kāi)放、多元且充分的交流。
說(shuō)到差異,我覺(jué)得具身領(lǐng)域就像一片大海,大家有著不同能量,在這片大海里會(huì)有各種各樣的協(xié)作方式,這才是很重要的。我們期望大家都能抱著合作的心態(tài)去做事,畢竟整個(gè)行業(yè)的發(fā)展必須得有開(kāi)放的心態(tài)。
我覺(jué)得在大層面上不存在什么差異,只是不同的研究團(tuán)隊(duì)、不同的機(jī)構(gòu)可能會(huì)有自己的想法,對(duì)于行業(yè)怎么發(fā)展、技術(shù)如何迭代以及具體怎么做等方面,每個(gè)人都會(huì)有不同的視角,這種開(kāi)放多元的情況是挺好的,要是所有人對(duì)同一件事的看法和做法都一樣,那整個(gè)行業(yè)的發(fā)展可就容易陷入瓶頸期了。
樂(lè)金鑫:那從更關(guān)注國(guó)內(nèi)的角度來(lái)講,對(duì)于咱們整個(gè)行業(yè)以及從業(yè)者,您覺(jué)得咱們中國(guó)這股力量在哪些方面能夠做得更突出些?您對(duì)此有什么期待?
邵林:我希望大家能對(duì)這個(gè)行業(yè)抱著樂(lè)觀、開(kāi)放的心態(tài),并且能有更多支持投入到這個(gè)方向上來(lái),畢竟這不是短期內(nèi)就能完成的事,它所產(chǎn)生的影響以及帶來(lái)的價(jià)值也不是短期內(nèi)就能顯現(xiàn)的。
馬道林:相對(duì)邵老師,我回國(guó)工作的時(shí)間相對(duì)長(zhǎng)一點(diǎn),就稍微比較下兩邊的情況吧。
從具身智能是人工智能衍生的角度,按照人工智能的三大要素,也就是數(shù)據(jù)、算力、算法這三塊來(lái)說(shuō)。在數(shù)據(jù)方面,咱們國(guó)內(nèi)是有優(yōu)勢(shì)的,不管是采集數(shù)據(jù)的成本,還是開(kāi)發(fā)采集數(shù)據(jù)的硬件相關(guān)工具,國(guó)內(nèi)都相對(duì)更勝一籌。尤其具身智能要將人工智能融入物理實(shí)體、走向現(xiàn)實(shí)世界,必然會(huì)涉及深刻的硬件迭代,而硬件迭代這塊,咱們國(guó)內(nèi)產(chǎn)業(yè)鏈的迭代效率比較高。
在算力和算法層面,咱們跟美國(guó)或許存在一點(diǎn)差距,但這差距并非本質(zhì)性的。
說(shuō)到人才方面,近些年來(lái)國(guó)內(nèi)有不少?gòu)暮M饣貋?lái)的年輕老師,他們帶著自己的團(tuán)隊(duì)在做這個(gè)領(lǐng)域最前沿的工作。雖說(shuō)暫時(shí)在影響力上可能比不上海外一些知名團(tuán)隊(duì),但大家緊跟最新方向,做創(chuàng)新性工作,咱們國(guó)內(nèi)團(tuán)隊(duì)多次能在國(guó)際會(huì)議上做出很開(kāi)創(chuàng)性的成果。所以我覺(jué)得國(guó)內(nèi)人才濟(jì)濟(jì),聰明又有才華的學(xué)生也很多,這方面情況挺好的。
從創(chuàng)新創(chuàng)業(yè)的產(chǎn)業(yè)氛圍來(lái)看,兩邊都挺熱鬧的。
我覺(jué)得在咱們國(guó)內(nèi)這個(gè)領(lǐng)域,大家要是協(xié)同起來(lái),能形成更完整的閉環(huán)鏈條。就拿上下游協(xié)同來(lái)說(shuō),國(guó)外的團(tuán)隊(duì)基本還得靠國(guó)內(nèi)廠商供應(yīng)一些基礎(chǔ)設(shè)備或者研發(fā)的硬件,而咱們國(guó)內(nèi)自己就能形成這樣的閉環(huán)。并且,咱們國(guó)內(nèi)頭部的具身公司也在努力打造生態(tài)。
從另一個(gè)角度看,國(guó)內(nèi)有著非常好的應(yīng)用場(chǎng)景,畢竟有著龐大的制造業(yè),能為大家提供極為寬廣的應(yīng)用場(chǎng)景,市場(chǎng)規(guī)模相當(dāng)大,就看大家能不能從中找到屬于自己的機(jī)會(huì)了。
我認(rèn)為具身智能行業(yè)目前還處于很早期的階段,雖然也存在競(jìng)爭(zhēng),但更多的還是要先練好自己的基本功,然后在這么大的市場(chǎng)需求以及現(xiàn)有的資本環(huán)境、政策環(huán)境下,努力把自己的事情做好。
葉琦:關(guān)于中美差距這個(gè)問(wèn)題,我覺(jué)得差距在一定程度上確實(shí)是存在的。畢竟美國(guó)發(fā)展了這么多年,過(guò)去那些年還吸引了全世界的人才,也有一些實(shí)力很強(qiáng)的企業(yè),這確實(shí)是它的優(yōu)勢(shì)。
不過(guò),我個(gè)人看到近年來(lái)國(guó)內(nèi)的研究界有了很大變化。咱們國(guó)家過(guò)去幾十年一直在推行各類(lèi)獎(jiǎng)學(xué)金計(jì)劃送人才出去同時(shí)引進(jìn)人才回國(guó)的舉措,再加上當(dāng)下中美關(guān)系的情況,有不少人才回歸國(guó)內(nèi)。對(duì)比我以前讀書(shū)時(shí)國(guó)內(nèi)和國(guó)外研究的氛圍及各方面情況,現(xiàn)在已經(jīng)有了非常大的改變。
從研究組的情況來(lái)看,我覺(jué)得很多國(guó)內(nèi)的研究組和國(guó)外那些非常有名的研究組相比,差異已經(jīng)不那么明顯了,甚至可以說(shuō)差不多了。我一直覺(jué)得人才是基礎(chǔ),現(xiàn)在國(guó)內(nèi)有大量人才,他們有過(guò)留學(xué)經(jīng)歷,既吸收了西方先進(jìn)的思想,又結(jié)合了國(guó)內(nèi)先進(jìn)的做法,在這樣龐大的人才儲(chǔ)備基礎(chǔ)上,從研究角度來(lái)講,我感覺(jué)中美之間的差距好像在慢慢縮小,基本處于一個(gè)逐漸持平的階段了。
當(dāng)然,美國(guó)也有它的優(yōu)勢(shì),而在國(guó)內(nèi)的產(chǎn)業(yè)界,我感覺(jué)就像馬老師說(shuō)的那樣,供應(yīng)鏈?zhǔn)欠浅H娴?。畢竟具身智能離不開(kāi)本體制造,而美國(guó)并非制造業(yè)強(qiáng)國(guó),這方面和咱們國(guó)內(nèi)是有區(qū)別的。 供應(yīng)鏈完整是中國(guó)發(fā)展多年積累下來(lái)的巨大優(yōu)勢(shì),對(duì)未來(lái)具身智能的發(fā)展來(lái)說(shuō)更是如此。
另外,國(guó)內(nèi)還有個(gè)更好的機(jī)會(huì)體現(xiàn),我有個(gè)朋友從帝國(guó)理工畢業(yè)時(shí),本來(lái)可以去美國(guó),但他沒(méi)去,我問(wèn)他為啥,他說(shuō)美國(guó)沒(méi)那么多創(chuàng)業(yè)機(jī)會(huì),他是浙江溫州人,本身就有創(chuàng)業(yè)想法,所以就決定回國(guó)回溫州了,從個(gè)人角度就能很強(qiáng)烈地感受到中美之間這些細(xì)微變化。
所以我覺(jué)得國(guó)內(nèi)有著很好的創(chuàng)業(yè)環(huán)境,而且國(guó)家對(duì)于我們現(xiàn)在從事的具身智能這類(lèi)方向也在大力推動(dòng),在這樣的情況下,大家都是受益者,我對(duì)此感受挺深刻的。
除了本身良好的創(chuàng)業(yè)生態(tài),還有國(guó)家助力行業(yè)向前發(fā)展,這都是很好的地方。
說(shuō)到對(duì)這個(gè)行業(yè)的長(zhǎng)期期望,我其實(shí)沒(méi)怎么接觸產(chǎn)業(yè),理解沒(méi)邵老師、馬老師那么深。我覺(jué)得雖然我們確實(shí)需要積極進(jìn)取、快速發(fā)展,但也要認(rèn)清,不管是具身智能還是靈巧手操作,目前都還處于發(fā)展初期階段。用客觀的技術(shù)發(fā)展眼光來(lái)看,看工業(yè)界和學(xué)術(shù)界展現(xiàn)的 demo,以及其他一些領(lǐng)域外的聽(tīng)著好像已經(jīng)落地的事情,都是挺正常的。
有時(shí)候一個(gè) demo 可能反復(fù)調(diào)試很多次才做出來(lái),甚至有些情況下還不奏效,這些都很正常。整個(gè)行業(yè)的發(fā)展不是看兩三年,可能得從 5 到 10 年的跨度去考量,從這個(gè)角度看待問(wèn)題的話,或許我們做決策時(shí),對(duì)其他一些情況的容忍度也就能更高一些。
樂(lè)金鑫:好的,謝謝老師。不知不覺(jué)間,兩個(gè)小時(shí)就過(guò)去了,期間是思想的碰撞與認(rèn)知的交匯。今天我們?nèi)患钨e,來(lái)自不同的高校,有著不同的創(chuàng)業(yè)背景,感謝邵老師、馬老師、葉老師在一起碰撞出了不少精彩的火花。
雷峰網(wǎng)雷峰網(wǎng)雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。