0
如果說大模型的出現(xiàn)引爆了通用人工智能的想象,那么,具身智能則讓 AI 擁有了可以感知、決策和行動的“身體”。而這一切的背后,都離不開一個至關重要的“生命線”——數(shù)據。
近日,雷峰網主辦了一場主題為《具身智能數(shù)據:賦能感知、決策與控制的智能之源》的線上圓桌論壇,邀請了香港大學助理教授李弘揚、光輪智能聯(lián)合創(chuàng)始人兼總裁楊海波、艾歐智能聯(lián)合創(chuàng)始人、技術總監(jiān)高飆三位重量級嘉賓,共同深入探討了具身智能從數(shù)據采集、合成到閉環(huán)學習的全過程,為行業(yè)揭示了構建具身智能“生命線”的核心挑戰(zhàn)與解決路徑。
具身智能數(shù)據面臨的挑戰(zhàn)比傳統(tǒng) AI 領域更為嚴峻。嘉賓們一致認為,數(shù)據是構建“機器人基礎模型”(Robotic Foundation Model)最關鍵的一環(huán),但目前行業(yè)面臨三大核心挑戰(zhàn):數(shù)據稀缺性與泛化能力、物理真實性與規(guī)?;倘?、商業(yè)與數(shù)據飛輪的脫鉤。
針對真機數(shù)據的稀缺性和高門檻,嘉賓們分享了各自的獨特解決方案:
李弘揚教授團隊發(fā)布的 AgiBot World 數(shù)據集,以其百萬條真機軌跡在業(yè)界受到關注。他指出,解決高質量數(shù)據稀缺性,需要建立人機協(xié)同的數(shù)據管線;
楊海波總明確指出,光輪智能的底層邏輯是“AI 進入物理世界”,并通過追求物理真實、強調人類示范在環(huán)、構建足夠豐富的場景、構建多樣性、數(shù)據閉環(huán)驗證四個維度創(chuàng)新來解決仿真與真實世界的“領域差距”;
艾歐智能選擇了一條與機器人本體解耦的技術路徑,來解決早期硬件不穩(wěn)定和數(shù)據過時的問題。他們通過多模態(tài)傳感器采集人類執(zhí)行復雜任務的行為數(shù)據,而非直接采集機器人本體數(shù)據;
嘉賓對具身智能的終極目標達成了共識:仿真合成數(shù)據是通往具身智能的必經之路。具身智能的未來,正是在虛實融合、人機協(xié)同中,加速這一數(shù)據飛輪的轉動,最終實現(xiàn)從感知到行動的智能體落地。
以下是此次圓桌討論的精彩分享,AI 科技評論進行了不改原意的編輯整理:
01
具身智能的核心挑戰(zhàn)
岑峰:各位線上的朋友們、各位行業(yè)同仁,大家晚上好!歡迎來到由雷峰網(公眾號:雷峰網)主辦的,主題為《具身智能數(shù)據:賦能感知、決策與控制的智能之源》線上圓桌論壇。我是今天的主持人雷峰網岑峰。
今天的線上圓桌,我們的目的正是聚焦具身智能的數(shù)據之源。我們將深入探討從數(shù)據采集、合成到閉環(huán)學習的全過程,共同挖掘如何構建具身智能的“生命線”,解決從感知到控制的復雜難題。
我非常榮幸地為大家介紹三位重量級的嘉賓,他們分別是:香港大學助理教授李弘揚、光輪智能的聯(lián)合創(chuàng)始人兼總裁楊海波、艾歐智能的聯(lián)合創(chuàng)始人、技術總監(jiān)高飆。
感謝三位嘉賓的到來。在傳統(tǒng)的 AI 領域,我們有海量的互聯(lián)網數(shù)據;但在具身智能領域,數(shù)據變得稀缺、昂貴且難以獲取。我想請三位嘉賓從各自的視角出發(fā)簡單概括,當前具身智能數(shù)據面臨的最核心的挑戰(zhàn)、或者你們最關注的是什么?

李弘揚(香港大學): 具身智能現(xiàn)在核心挑戰(zhàn)在于泛化能力、智能化和可靠性。從學術角度看,最大的挑戰(zhàn)是如何在不同的機器人本體下,高效地利用海量數(shù)據(真機、仿真、互聯(lián)網數(shù)據),真正建立起一個“機器人基礎模型”(Robotic Foundation Model)。相比于設計 VOA 、世界模型等,我個人認為數(shù)據是最關鍵的一環(huán)。
楊海波(光輪智能): 我們一直堅信 AI 已進入“數(shù)據為中心”的時代,具身智能的數(shù)據需求更為迫切。我們最關注如何利用仿真合成數(shù)據,提供足夠物理真實、大規(guī)模、高質量、高通用性和多樣性的數(shù)據去服務基礎模型(Foundation Model),從而幫助機器人基礎模型找到 Scaling law ,并迎來“ GPT 時刻”。
高飆(艾歐智能): 從我們的角度來說,目前具身智能數(shù)據面臨的核心挑戰(zhàn)是,缺乏可以同時完成商業(yè)閉環(huán)和數(shù)據飛輪閉環(huán)的落地場景。真機采集成本高、效率低,且數(shù)據與特定硬件強耦合,難以復用。我們關注如何通過閉環(huán)的方式,推動商業(yè)和數(shù)據飛輪的正向運轉,即通過人工操作機器人的方式,在使用過程中同步產生高質量訓練數(shù)據,打破數(shù)據積累的瓶頸。
02
真機數(shù)據與仿真數(shù)據、人機協(xié)同
岑峰: 我們接著嘉賓談到的幾個點展開。李老師,您團隊發(fā)布的 AgiBot World 數(shù)據集這一年來在學術界和產業(yè)界的進展如何?
李弘揚: AgiBot World 最大的特色是擁有100多萬條真機軌跡,涵蓋雙臂、單臂、靈巧手等復雜任務,今年3月份也發(fā)布了完整版,我們也收集了很多反饋。它在面對真機部署挑戰(zhàn)方面表現(xiàn)出色,但客觀來說,在高校的應用沒有像產業(yè)界的其他友商用得這么多,主要原因是數(shù)據格式稍復雜,且要求捆綁式上傳云與部署,與(學術界慣用的)Umi 和 Aloha 等完全開源的還是不一樣的。
近期我們對 AgiBot World 做了重大更新,徹底開源了 G1 模型和對比實驗結果,這個開源也是非常徹底的,和跟我們合作的公司還是做了非常大的這個爭取。我的學生也對四五萬行的代碼進行了重新的 refactor ,數(shù)據做了 pretrain ,確保論文結果是可復現(xiàn)的。我們認為:高質量的數(shù)據分布(Data Distribution)遠比單純積累技能(Skill)更重要。
過去一年的一些進展,非常歡迎大家在 open drive lab 的 GitHub 下面完整版的真機的模型代碼,非常歡迎大家來給我們批評指正。
岑峰: 您還提出了人機協(xié)同數(shù)據管線理念,能否結合 Agibot World ,具體說明是如何解決具身數(shù)據的高維度和稀缺性痛點的?
李弘揚: 人機協(xié)同的理念,我認為更多是著眼于解決高質量數(shù)據的稀缺性問題,以及如何從素材源端確保數(shù)據質量的配合。當前,業(yè)界比較主流的做法是制定非常完整詳細的數(shù)據采集規(guī)范(SOP)。以疊衣服為例,規(guī)范會詳細界定操作的順序,以及不同光照條件、物體高度或衣物種類的變化等。
要確保具身智能領域的健康有序發(fā)展,規(guī)范數(shù)據采集員的流程至關重要。不同的采集員,其操作習慣、甚至從 A 點到 B 點的速度控制都可能存在差異;早期開發(fā)的機器人本體,即便型號相同,其“手感”也往往不盡相同。
在這種背景下,便更需要數(shù)據層面的人機協(xié)同。這種協(xié)同,正如最近強化學習(RL)領域強調的 “從失敗中學習”思路,要求在采集長序列的復雜任務時,必須妥善設置斷點。它更要求在機器遭遇錯誤示范時,能夠實現(xiàn)及時的人工恢復。同時,還需要在素材源端詳細記錄這些操作的元數(shù)據(Meta data),以便進行高效的上傳和迭代。這些步驟對于保障數(shù)據質量和效率是極為重要的。
我個人雖身處高校,但曾在工業(yè)界工作過。我認為學術界,尤其是在做 AI 驅動的機器人研究時,必須做到與時俱進。如果仍抱持著不愿從事數(shù)據收集這類 “Dirty Work”,而僅僅專注于模型或算法創(chuàng)新的觀念,那很可能會被時代所淘汰。
岑峰: 楊總,光輪從自動駕駛拓展到具身智能,底層的邏輯是什么?相比自動駕駛,具身智能的合成數(shù)據有哪些特殊挑戰(zhàn)?
楊海波:我們并非從自動駕駛“拓展”至具身智能。自公司成立之初,我們所專注的便是“AI 進入物理世界”這一核心命題。自動駕駛和具身智能的底層邏輯是相通的,都是在賦能 AI 與物理世界的互動,而自動駕駛是我們在當時產業(yè)更成熟的背景下選擇的首個落地場景。因此,我們在引入自動駕駛相關技術時,始終會考量其是否能契合具身智能的未來需求。
誠然,具身智能與自動駕駛存在一些顯著差異,其中最大的區(qū)別在于:
物理交互的復雜度: 自動駕駛更像是一種“視覺游戲”,其唯一的物理交互主要涉及車輛和地面的動力學,解決的是避免碰撞的問題;具身智能則充滿了物理交互。無論是訓練數(shù)據,還是最終進入場景,機器人都需要與世界深度互動。例如,拉開冰箱門所需的力的大小,對溫度、光線的感知變化等。具身智能在物理真實性上的要求比自動駕駛更為復雜。
場景的豐富性: 自動駕駛總體上是在結構化道路上運行;而具身智能需要進入千行百業(yè)、千家萬戶,其場景的復雜度是更高的。從數(shù)據需求的量級而言,自動駕駛旨在取代“司機”這一職業(yè),而具身智能則旨在取代千行百業(yè),因此,其數(shù)據需求量至少將是自動駕駛的千倍以上。
數(shù)據積累的短缺: 盡管自動駕駛領域在數(shù)據上投入巨大,但其預訓練數(shù)據在現(xiàn)實世界中是有存量積累的,已有的海量汽車不斷在反饋數(shù)據。,我們更多的工作是對這些數(shù)據的處理(篩選、標注等)。但具身智能當前是本體和算法同步發(fā)明研發(fā)的階段,缺乏任何存量數(shù)據積累。因此,具身智能的預訓練數(shù)據是極其短缺的。這一點是其相對于自動駕駛的巨大差異,同時也構成了巨大的商業(yè)機會。
岑峰: 仿真數(shù)據與真實數(shù)據的 “領域差距” 是具身智能的關鍵瓶頸。針對這些數(shù)據特點,光輪做了哪些創(chuàng)新來解決仿真與真實世界的差距?
楊海波: 我們主要在四個方面努力,以解決保障仿真合成數(shù)據的有效性:
首先是追求物理真實。通過不斷演進物理仿真,確保如冰箱的磁吸和阻尼這樣的仿真資產和構建的場景不僅看起來真實,而且能夠進行真實的交互。同時,通過采集真實世界的物理參數(shù),如拉開冰箱門的力,來積累優(yōu)勢。
第二,強調人類示范。 在仿真環(huán)境下進行人工遙操(人的遙操),再對這些示范動作進行泛化,有效提升擴充數(shù)據規(guī)模。
第三是構建場景的多樣性,仿真能夠以極快的速度(一秒鐘)擴充場景多樣性。這種多樣性對于訓練 AI 至關重要,它能還原整個世界的分布,彌補真實采集場景的多樣性天花板。
最后是數(shù)據閉環(huán)驗證。我們具備可視化(VI)和反向訓練能力,能夠基于本體去驗證合成數(shù)據的有效性,并不斷提升和強調加強這種閉環(huán)驗證能力。
岑峰: 高總,具身智能的數(shù)據不僅僅需要訓練感知,更需要訓練決策和控制,而艾歐智能也更側重于后者。在實際操作中,您是如何構建人形機器人復雜任務的數(shù)據集,以及如何從零開始解決訓練決策和控制的問題?
高飆: 您提出的這個問題非常關鍵。在我們 2023 年創(chuàng)業(yè)初期,整個具身智能行業(yè),尤其是人形機器人本體的硬件,包括關節(jié)、電機、靈巧手、力控傳感器等核心部件,都處于快速迭代但尚未完全成熟的階段。在這種背景下,如果我們直接依賴特定的機器人本體去采集大量復雜任務的數(shù)據,將面臨兩個根本性的問題:其一,硬件的不穩(wěn)定性會導致數(shù)據采集失敗率較高;其二,硬件在快速迭代的過程中頻繁升級,會使已采集的數(shù)據迅速過時,難以形成有效的積累。
因此,我們當時選擇了一條與機器人本體解耦的技術路徑。我們不直接采集機器人執(zhí)行任務的數(shù)據,而是通過多模態(tài)傳感器采集人類執(zhí)行相同復雜任務的行為數(shù)據。
這種人類示范數(shù)據的路徑有一個核心優(yōu)勢:人的數(shù)據是一個通用的中間媒介,它不受任何特定機器人硬件構型的限制。不論是早期不成熟的本體,還是未來升級換代的新機型,甚至不同廠商打造的機器人,都可以基于這套人類數(shù)據進行策略學習和行為模仿。這為我們構建可遷移、可復用的數(shù)據資產奠定了良好的基礎。我們貢獻的這部分高質量人類示范數(shù)據,也參與了當時由 Google DeepMind 主導的 Open-X Embodiment 數(shù)據集的構建,并在 ICRA 2024一場會議上獲得了最佳論文獎,這從側面印證了人類行為數(shù)據在具身智能研究中的重要價值。
當然,我們清楚當前國內市場主流的數(shù)據采集方式仍是通過遙操作或機械臂直接采集機器人本體數(shù)據。但今年特斯拉公布的數(shù)據路線,也表明他們將以人類第一視角視頻和穿戴式設備采集為主,輔以部分真機遙操作數(shù)據。這種路線的官宣使我們看到,這種以人為媒介的范式正受到越來越多的研究者和行業(yè)的關注。因此,我們相信隨著具身模型在跨模態(tài)和泛化性能力上的持續(xù)突破,由人類穿戴采集設備產生高質量行為數(shù)據的方式,在未來應具備更大的潛力。
岑峰: 陳相宇羽陳總曾指出,“機器人缺乏數(shù)據飛輪閉環(huán)”,當前行業(yè)阻礙數(shù)據飛輪高效運轉的核心瓶頸是什么?艾歐通過 “遙控操作對齊特定機器人構型” 的策略,如何加速這一閉環(huán)的形成?
高飆: 如我一開場提到的,具身智能目前核心瓶頸是數(shù)據的不可復用性和采集的高門檻。真機采集成本高、迭代慢、有風險,導致數(shù)據積累效率低。
我們的策略是通過“遙操作 + 通用映射算法”來加速閉環(huán):
針對全新構型的機器人,我們快速冷啟動: 我們能在一周內完成構型映射的適配,快速啟動訓練數(shù)據采集。
模型部署后,在真實場景中出現(xiàn)失敗案例時,可以通過遙操作及時接管和糾正,完成閉環(huán)迭代(糾錯)。在這個過程中,就能采集到從失敗中恢復的高質量反饋數(shù)據,反哺模型優(yōu)化,形成數(shù)據飛輪的閉環(huán)。
03
產學協(xié)同與數(shù)據終局
岑峰: 李老師,從數(shù)據采集到訓練部署的閉環(huán)中,產學雙方可以通過怎樣不同的方式進行協(xié)同?
李弘揚: 當前具身智能領域普遍面臨數(shù)據短缺,高校的算力、硬件、數(shù)據資源有限,往往只能結合小規(guī)模仿真或有限真機數(shù)據來驗證模型架構。我們期望能有像 Waymo 在自動駕駛領域那樣的具有義務擔當?shù)墓荆暙I出高質量的具身真機數(shù)據,但目前國內外尚未出現(xiàn)具備這種級別影響力的真機數(shù)據集。
現(xiàn)在行業(yè)沉浸在一種“虛幻的繁榮”中:大家熱衷于發(fā)布炫酷視頻和技術博客,但對核心的工程細節(jié)如數(shù)據量、訓練 Trick、如何 Scale Up卻“藏著掖著”。真正的 Live Demo 往往不起推敲,因為沒有真正下場實踐。
我認為產學協(xié)同應該更緊密:
在這種背景下,產學協(xié)同有幾個關鍵點,首先是資源整合, 高校擁有算法和模型創(chuàng)新的能力,但缺乏大規(guī)模 Scale Up 的資源,需要依托擁有真機本體、仿真、動捕、互聯(lián)網爬取等不同資源的企業(yè),共同形成一個開放的素材或實訓平臺。
產學研的邊界正在模糊,如果還抱著傳統(tǒng)大學的思路,就會被時代淘汰。高校應該靈活擁抱變化,允許教師和學生深度參與產業(yè)合作,例如到創(chuàng)業(yè)公司擔任首席或獲取行業(yè)真實案例。
我們的最終目標是,高校追求影響力,企業(yè)追求盈利,兩者互為補充,并不矛盾。高??梢宰鳛?“Trainer”,培養(yǎng)基礎技術人才,而企業(yè)提供 “真實的作業(yè)題”,讓產學研結合更加緊密。
岑峰: 您在 AgiBot World 開源后,有沒有進一步和產業(yè)界進行合作的具體想法?
李弘揚: 回顧自動駕駛的經驗,偉大的數(shù)據集(如 Waymo、nuScenes)往往與一家擁有資源的、具有驅動力的公司強綁定,因為只有公司有資源和動力來做這件事(例如 Waymo、New THINGS)。
AgiBot World 在發(fā)布后,Open Drive Lab 團隊將保持中立,AgiBot World 未來需要依靠整個 Community(社區(qū)) 來維護。我們團隊傾向于保持中立,但未來計劃與多方資源進行合作,例如硬件本體廠商提供真機采集,仿真和互聯(lián)網數(shù)據公司提供合成數(shù)據和 Web Data,動捕公司提供行為數(shù)據,等等。
我們希望依托這些資源,最終形成一種開放式的素材平臺或實訓廠。盡管目前國內的新型研發(fā)機構還停留在比較初級的階段,但我相信這是朝著好的方向發(fā)展。我個人仍對未來樂觀,相信在未來一兩年內,具身智能領域一定會迎來像 ImageNet 或 Waymo 那樣的劃時代數(shù)據集。
岑峰: 您如何看待機器人領域中真機數(shù)據和合成數(shù)據的長期關系?
李弘揚: 包括動捕、遙操在內的真機數(shù)據、仿真數(shù)據和互聯(lián)網第一視角的 Web Data。這肯定是一個三者協(xié)同發(fā)展的關系。
在數(shù)據量上,Web Data 肯定最多,其次是仿真,真機最少,它不是一個固定的“數(shù)據金字塔”結構,三者的比例是可以調整的。
我認為仿真數(shù)據是非常必要的。 仿真數(shù)據在處理剛性物體(如 Pick and Place)時非常有效,但在處理對柔性物體(如疊衣服)等任務,仿真在短期內很難解決。因此,真機數(shù)據是不可或缺的。
長期趨勢上,大方向是真機和仿真兩個方向都要努力。真機團隊要研究 Data Efficiency(數(shù)據效率)和 Low-Cost Efficient Data Collection System(低成本高效數(shù)據采集系統(tǒng));仿真團隊要攻克自身的痛點。終有一天兩者會“會師”,屆時主要問題將是調節(jié)比例和解決 sim to real gap。
岑峰: 會師的時候是不是就是您之前提到的,真機數(shù)據普及化的具身智能的 ImageNet 時刻?
李弘揚: 是的。具身智能目前還遠遠沒到自動駕駛的下半場(以真車數(shù)據為主)。實現(xiàn) ImageNet 時刻需要滿足的條件是硬件穩(wěn)定性與形態(tài)的統(tǒng)一,具身智能本體形態(tài)差異極大,從五六個自由度的機械臂到幾十個自由度的人形機器人。只有等到硬件形態(tài)、靈巧手、視觸覺等達到相對統(tǒng)一,真機數(shù)據才會有用。只有硬件的穩(wěn)定性得到保障,形成了持久的影響力,才能被稱為 ImageNet 時刻。
04
數(shù)據服務模式創(chuàng)新、仿真與訓練整合的平臺化
岑峰:楊總,在具身智能的領域,您認為仿真技術最終會發(fā)展成獨立的一個產業(yè)鏈,還是成為一個標準化的工具,賦能所有的具身智能公司?光輪在這樣的一個趨勢下會怎么看?會做怎樣的一個布局?
楊海波:我覺得仿真肯定是越來越受到重視了。相較于自動駕駛,具身智能對于仿真的需求更為迫切,要求也更高。這主要是由于具身智能面臨著數(shù)據嚴重短缺和多樣性場景獲取困難等根本性問題,這些挑戰(zhàn)可能只有通過仿真才能有效地解決。。
在現(xiàn)階段,光輪仍主要根據客戶的具體需求,提供定制化的仿真合成數(shù)據服務。同時,我們正致力于構建一個“仿真與算力相結合的平臺”,旨在通過提供標準化的接口,直接服務于模型的訓練過程。我們?yōu)槭裁纯梢宰鲞@個平臺底層?是因為我們已經在仿真這塊構建了很多 Benchmark ,定義了很多具身仿真的事實標準。
例如,我們提出了一個名為 “LW Ready”(光輪就緒仿真完備)的資產和場景標準。這不僅僅要求資產達到物理真實性(Physical Ready),還要求其能支持遙操作,并滿足強化學習(RL Ready)的需求。基于這些積累的行業(yè)認知、經驗和規(guī)范,我們正逐步構建這一仿真平臺。未來,我們的服務模式可能將從單純的“購買數(shù)據”轉向“在我方平臺進行訓練”,即提供算力與數(shù)據整合的服務。,這是我們持續(xù)演進的方向,盡管目前仍處于為客戶提供定制化數(shù)據解決方案的階段。
岑峰: 您提到的這種模式是類似于云計算這樣的整合平臺模式嗎?
楊海波: 是的,可以類比。
岑峰: 光輪的仿真合成數(shù)據與世界模型生成的數(shù)據,兩者之間存在怎樣的關系?它們分別發(fā)揮著何種作用?以及光輪將如何規(guī)劃其數(shù)據產品布局?
楊海波: 這是一個行業(yè)普遍關注的焦點。我們的仿真合成數(shù)據實際上也服務于世界模型開發(fā)企業(yè),這些世界模型在生成數(shù)據時往往缺乏物理信息真實,因此它們需要我們的數(shù)據來彌補這種物理信息的缺失,從某種意義上說,它們也是我們的客戶。
剛才李老師也提到了數(shù)據金字塔,關于具身數(shù)據金字塔,我們的理解是:
塔底(量大價低): 例如視覺模型生成數(shù)據和互聯(lián)網數(shù)據,主要用于預訓練,目標是覆蓋更廣泛的多樣性。
中間層: 仿真遙操合成數(shù)據,質量和成本適中。
塔尖(量少質高): 真機數(shù)據,質量最高,主要用于后續(xù)的微調(Finetuning)。
我們致力于成為一個以仿真合成數(shù)據為中心,提供全要素數(shù)據解決方案的供應商。這意味著我們不僅提供核心的仿真合成數(shù)據,其邊界也將向上和向下擴展:向下延伸至服務視覺模型生成的數(shù)據,向上則會涉及真機數(shù)據。
岑峰: 光輪將重點關注數(shù)據金字塔的哪一個部分呢?
楊海波: 我們關注所有部分,但我們重點的技術和能力演進方向在于仿真合成數(shù)據這一層。雖然我們一定會涉獵真機數(shù)據等,但我們的中心始終聚焦于中間層,即仿真合成數(shù)據。
05
數(shù)據飛輪的構建:硬件演進與虛實融合
岑峰: 請教一下高總,您認為未來的硬件,比如說像傳感器、計算芯片的發(fā)展,會如何影響數(shù)據采集與處理的方向?艾歐是否已經針對這些趨勢調整自己的一些工具鏈?
高飆: 硬件無疑是具身智能這座大廈的基石,其演進必將深刻地影響整個行業(yè)的數(shù)據范式。未來的硬件發(fā)展將體現(xiàn)在以下幾個方面:
首先,新型傳感器將提升數(shù)據的維度和保真度。例如,更高分辨率的視觸覺傳感器、柔性電子皮膚等的出現(xiàn),使得機器人能夠獲得更接近人類的感知能力。這些傳感器不僅能捕捉觸覺、滑動、材質等細微信號,還具備高動態(tài)響應能力。這意味著我們采集到的數(shù)據將不再是簡單的動作和圖像,而是包含越來越多豐富的物理交互的多模態(tài)數(shù)據流。我們正在持續(xù)更新工具鏈,以支持這些新的模態(tài)數(shù)據,包括時間同步、數(shù)據預處理等功能,以及針對觸覺、力控信息的數(shù)據可視化和標注工具,幫助研究者和客戶更好地理解和利用這些提升后的數(shù)據。
其次,隨著傳感器硬件的成熟,其成本下降和普及也將是一個必然過程。例如,平價激光雷達的出現(xiàn),使得終端機器人也具備了 3D 環(huán)境感知能力。這種傳感器的普及要求我們的采集系統(tǒng)具備更大帶寬的存儲和數(shù)據處理能力。
第三,邊緣計算能力的提升使得“邊采集邊處理”成為可能。例如,我們在自研的動捕服中集成了端側預處理模塊,能夠在采集數(shù)據的過程中實時完成姿態(tài)解算、傳感器抗干擾和系統(tǒng)監(jiān)測等功能。這些硬件能力的提升,不僅提高了數(shù)據質量,也顯著加快了后續(xù)數(shù)據后處理的效率,讓數(shù)據采集本身更高效、更閉環(huán)。這是推動具身真機數(shù)據成本逐漸降低,并最終迎來李老師所說的 ImageNet 時刻的必備條件。隨著具身行業(yè)硬件的推陳出新,我們的工具鏈也在不斷地成長和完善。
岑峰: 在具身智能的數(shù)據飛輪這樣一個過程中,合成數(shù)據如果要成為獨立的一個商業(yè)化產品,艾歐作為全鏈路的服務商將會扮演怎樣的一個角色?
高飆: 我們判斷,在未來相當長的一段時間里,具身智能的發(fā)展將依賴于真實數(shù)據與合成數(shù)據的協(xié)同驅動。純粹依賴真機采集成本高、速度慢;而單純依賴合成數(shù)據則會面臨 "Sieem to Real Gap"(仿真與真實世界的差距)和物理真實性等挑戰(zhàn)。我們認為更可行的路徑是構建一個虛實融合的高效數(shù)據閉環(huán):用少量高質量真實數(shù)據冷啟動,通過合成數(shù)據進行大規(guī)模增廣,在仿真環(huán)境中驗證策略,最終再回到真實環(huán)境部署并收集反饋,形成持續(xù)迭代的數(shù)據飛輪。
在這個閉環(huán)中,艾歐希望扮演一個類似于連接器的角色。我們看到了幾個核心機會點:
第一,將真實世界的采集能力遷移到仿真環(huán)境。目前很多模型依賴強化學習在仿真中試錯,效率較低,且獎勵函數(shù)難以覆蓋復雜的長尾任務。艾歐積累的遙操作和多模態(tài)數(shù)據采集工具鏈,可以復用到仿真環(huán)境中,讓人類操作員在虛擬世界中遙控仿真機器人執(zhí)行任務,生成高質量的專家示教數(shù)據。這種“人在環(huán)路”的仿真數(shù)據生成方式,能夠在合成數(shù)據中保留人類真實操作的動作和決策邏輯。我們正與光輪等伙伴合作推進,打通動捕遙操作系統(tǒng)與高保真仿真引擎,構建虛實結合的數(shù)據生成流水線。
第二,成為合成數(shù)據的質量驗證方。當合成數(shù)據成熟到可以 API 形式對外服務時,如何評估其質量將成為關鍵。我們認為,真實世界采集的高質量人類示范數(shù)據或真機行為數(shù)據,應該成為衡量合成數(shù)據可信度的標準。艾歐長期積累的不同機器人構型、多模態(tài)、多任務真實數(shù)據集,可用于構建 Benchmark,評估不同合成數(shù)據源在任務成功率、行為合理性及物理一致性等方面的性能。未來,我們計劃開源更大規(guī)模的數(shù)據集,共同推動具身行業(yè)的發(fā)展。
岑峰: 從艾歐的視角上看,要突破哪些目前被忽視但是又很關鍵的問題?
高飆: 在達到通用智能體這個終極目標之前,還有很長的路要走。我們認為,當前被忽視但又很關鍵的問題是:找到一個能讓“商業(yè)閉環(huán)”和“數(shù)據閉環(huán)”同時存在的落地方式。
目前,單純?yōu)榱瞬杉瘮?shù)據而搭建數(shù)據采集場的模式,成本極高,很難通過這種模式達到 ImageNet 時刻。我們認為,需要有一個商業(yè)閉環(huán)的過程,讓機器人首先在真實環(huán)境中“用起來”。
舉例來說,即使機器人在工廠擰螺絲的效率(如 70%)暫時不如人類工人,但它在工作中同時產生真實場景的數(shù)據。這些數(shù)據對于模型公司和本體公司而言,是極有價值的資產。機器人在當前工作效率不及人類時,其產生的數(shù)據價值加上其工作價值,可能超過一個單純的人類崗位所產生的價值。
通過這種方式,讓機器人在真實環(huán)境中先運行起來,積累數(shù)據,進而在一些垂直場景跑通具身小模型(如商超模型、醫(yī)院模型)。通過真實的商業(yè)閉環(huán)和數(shù)據的反哺,不斷迭代,這才是最終通向通用智能體出現(xiàn)的前置階段。
06
觀眾問答:長尾數(shù)據與服務場景的挑戰(zhàn)
岑峰: 有觀眾提問,具身智能領域應如何解決數(shù)據長尾問題?
高飆: 數(shù)據長尾問題在技術和學術層面尚未獲得根本性解決,即便是已進入下半場的自動駕駛行業(yè)亦是如此。長尾問題涉及地面低矮障礙物、各種不規(guī)則的掉落物等難以窮舉的場景。
鑒于長尾問題在根本上難以消除,我們只能通過工程化策略和落地實踐來緩解。主要的解決途徑包括:
數(shù)據層面的增強: 以真實數(shù)據為基礎,利用仿真技術進行數(shù)據增廣,特別是在真實環(huán)境難以模擬的情況下,可完全采用合成數(shù)據來生成長尾場景,以增加數(shù)據量。
主動探索與失敗注入: 在真實數(shù)據采集中,不僅要記錄成功的案例,更要主動設計和誘導異常、失敗案例。例如,在一個收拾玩具的任務中,故意誘導機器人抓取失敗,然后記錄其從失敗中恢復并重新拾取的完整動作,這種“失敗數(shù)據注入”能有效緩解長尾問題。
模型學習方法創(chuàng)新: 引入小樣本學習(Few-shot Learning)或元學習(Meta-Learning)等新方法,使模型具備快速適應和舉一反三的能力,例如通過一到兩次的人類示范,快速啟動新的長尾任務。
解決長尾問題需要數(shù)據和模型學習方法兩個維度共同努力,構建一個持續(xù)收集長尾數(shù)據并反哺模型的飛輪。從學術角度根本解決此問題,仍需長期努力。
岑峰: 楊總,您對于長尾問題有何補充?自動駕駛的 Corner Case 與具身智能的長尾數(shù)據有何異同?光輪如何應對這些挑戰(zhàn)?
楊海波: 在自動駕駛領域,我們主要通過合成數(shù)據解決角點案例(Corner Case)。合成數(shù)據的核心優(yōu)勢之一就是處理這些罕見且關鍵的案例。鑒于我們已大規(guī)模服務于國內外頭部車企,我們認為這在自動駕駛中是行之有效的解法。
不過,我傾向于將其稱為“長尾場景數(shù)據”而非“角點案例”,因為后者常給人以稀少的感覺,而實際上它是一個非常龐大的長尾分布。對于具身智能而言,當前仍處于發(fā)展早期階段,數(shù)據積累不足,因此探討長尾問題尚為時過早,長尾現(xiàn)象通常在模型進入后續(xù)訓練(Finetuning)階段才會顯現(xiàn)。
岑峰: 具身智能在服務業(yè)有巨大需求。艾歐如何看待并實現(xiàn)類似護工這類需要與人互動的垂直場景?
高飆: 在當前階段,單純依靠 AI 模型來處理護工與人的互動是比較困難的。用戶期望機器人具備人類情感,但目前大語言模型的交互效果與公眾預期仍存在差距。
從我們的實踐來看,一種更為落地的方案是采用人機協(xié)同的遠程遙操作。即機器人背后由真人控制,通過攝像頭和麥克風與病人實時交互。這種模式能讓患者感知到機器背后有真人的存在,從而在接受護理服務時更為安心。
盡管目前市場上也有利用 AI 模型進行情感陪伴的產品,但多數(shù)大型語言模型的用戶數(shù)據顯示,將其用于情感交流和傾訴的比例很低。目前 AI 陪護應用更適合心智尚未成熟的兒童,例如 AI 陪伴玩具,這是 AI 完成陪護任務中較為落地的場景。
岑峰: 楊總,對于具身智能在服務業(yè)的落地,您如何從數(shù)據角度實現(xiàn)閉環(huán)?
楊海波: 在這個問題上,仿真和合成數(shù)據是放大器和加速器。當一個預訓練模型需要進入特定服務場景進行后續(xù)訓練時,傳統(tǒng)方法是直接在真實場景中采集數(shù)據。
我們更傾向于采用 “Real to 2Sim”(真實到仿真)再到 “Sim to 2Real”(仿真到真實)的路徑:
Real to 2Sim: 將目標服務場景(例如醫(yī)院病房)在仿真環(huán)境中重建出來。
Sim Training: 模型首先在仿真環(huán)境中高效地進行大規(guī)模訓練。
Sim to 2Real: 模型訓練成熟后,再部署到真實環(huán)境進行微調。
這種方式能極大地加速和提高效率。同時,我也認同高總的觀點,在模型尚不穩(wěn)定的現(xiàn)階段,一定程度的遙操作是必要的,它既能保障操作安全,也能在實踐中持續(xù)收集高質量數(shù)據,從而驅動數(shù)據飛輪高效運轉。
岑峰: 感謝兩位嘉賓們的深入討論。最后,請嘉賓用一句話總結今天的討論,并展望具身智能數(shù)據的未來。
楊海波: 仿真合成數(shù)據是通往具身智能的必經之路。
高飆: 具身智能的未來不在于誰擁有最多的數(shù)據,而在于誰能夠最快地讓數(shù)據飛輪轉起來。艾歐智能愿意成為推動數(shù)據飛輪轉動的第一推手。
雷峰網原創(chuàng)文章,未經授權禁止轉載。詳情見轉載須知。