丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給朱可軒
發(fā)送

0

香港大學(xué)李弘揚(yáng):「2025年具身智能新一代閉環(huán)智能系統(tǒng)」迫在眉睫丨具身先鋒十人談

本文作者: 朱可軒   2025-02-21 16:57
導(dǎo)語(yǔ):百萬(wàn)真機(jī)數(shù)據(jù)集的終極目標(biāo)是打造硬件加系統(tǒng)的 AI 次方模式,構(gòu)建真正智能的端到端具身系統(tǒng)。

作者丨朱可軒

編輯丨陳彩嫻

去年年底,全球首個(gè)基于全域真實(shí)場(chǎng)景、全能硬件平臺(tái)、全程質(zhì)量把控的百萬(wàn)真機(jī)數(shù)據(jù)集開(kāi)源項(xiàng)目 AgiBot World 發(fā)布,在機(jī)器人領(lǐng)域引起了廣泛關(guān)注。

AgiBot World(https://agibot-world.com/)的目標(biāo)是打造硬件加系統(tǒng)的 AI 次方模式,香港大學(xué)助理教授李弘揚(yáng)博士團(tuán)隊(duì)與上海智元機(jī)器人深入合作,開(kāi)展了機(jī)器人超大規(guī)模操作任務(wù)的前沿研究。

2019 年,李弘揚(yáng)在香港中文大學(xué)多媒體實(shí)驗(yàn)室(MMLab)獲博士學(xué)位,主攻計(jì)算機(jī)視覺(jué)和深度學(xué)習(xí)方向,于2021年在上海組建了 OpenDriveLab 團(tuán)隊(duì),專(zhuān)注具身智能與自動(dòng)駕駛的研究。

他曾在 CVPR、ICCV、ECCV、NeurIPS、RSS、CoRL、ICLR、TPAMI 等國(guó)際頂尖會(huì)議與期刊上發(fā)表論文三十余篇,并多次擔(dān)任會(huì)議領(lǐng)域主席(Area Chair),其中端到端自動(dòng)駕駛算法工作 UniAD 被評(píng)為 CVPR 2023 最佳論文。

博士畢業(yè)后直到 2023 年,李弘揚(yáng)主要聚焦在端到端自動(dòng)駕駛算法的研究,自去年年初開(kāi)始,他更多地開(kāi)始關(guān)注機(jī)器人方向。實(shí)際上,二者之間是存在許多可移植經(jīng)驗(yàn)的,比如都由感知、預(yù)測(cè)和規(guī)控構(gòu)成,而且都跟環(huán)境交互從算法識(shí)別到動(dòng)作執(zhí)行。其中,最關(guān)鍵的點(diǎn)在于端到端的訓(xùn)練范式能否復(fù)制到機(jī)器人任務(wù)中。

2024 年第二季度,團(tuán)隊(duì)便開(kāi)始論證調(diào)研如何在具身智能中驗(yàn)證 Scaling Law,他們和智元等團(tuán)隊(duì)合作 AgiBot World 的工作也始于這一階段。作為百萬(wàn)真機(jī)高質(zhì)量標(biāo)簽的數(shù)據(jù)集,AgiBot World 的物理形態(tài)趨于統(tǒng)一,這點(diǎn)區(qū)別于將不同子數(shù)據(jù)集簡(jiǎn)單堆砌到一起的超大規(guī)模數(shù)據(jù)集;同時(shí),前者在靈巧手操作、視觸覺(jué)多模態(tài)信號(hào)和多機(jī)協(xié)同等三方面也有著明顯的優(yōu)勢(shì)。

香港大學(xué)李弘揚(yáng):「2025年具身智能新一代閉環(huán)智能系統(tǒng)」迫在眉睫丨具身先鋒十人談

左:AgiBot World 數(shù)據(jù)集發(fā)布前團(tuán)隊(duì)同學(xué)通宵達(dá)旦進(jìn)行準(zhǔn)備。右:央視總臺(tái)和上海市經(jīng)信委對(duì)AgiBot World 數(shù)據(jù)集的發(fā)布進(jìn)行報(bào)道。

正基于此,AgiBot World 距離具身智能的兩個(gè)大目標(biāo)更近一步:一是真正智能化,二是如何定向驗(yàn)證 Scaling Law。“不是堆百萬(wàn)真機(jī)、堆 GPU 算力就行,而是說(shuō)百萬(wàn)真機(jī)能回答多樣性比數(shù)據(jù)量更重要;另一個(gè)是如何驗(yàn)證小規(guī)模數(shù)據(jù) ,例如 30 萬(wàn)數(shù)據(jù),就能達(dá)到某個(gè)性能,進(jìn)而達(dá)到降本增效”,李弘揚(yáng)強(qiáng)調(diào)。

AgiBot World 還有一個(gè)更加宏大的愿景,全量數(shù)據(jù)集將于 2025 年 3 月推出,同時(shí)也會(huì)在 CVPR、IROS 等場(chǎng)合舉辦挑戰(zhàn)賽;通過(guò)數(shù)據(jù)共享,讓整個(gè)產(chǎn)業(yè)、學(xué)界共同研究有價(jià)值的學(xué)術(shù)問(wèn)題,才能真正實(shí)現(xiàn)具身智能領(lǐng)域的“ImageNet 時(shí)刻”和共用共享。

2025 年,李弘揚(yáng)團(tuán)隊(duì)工作核心是探索如何構(gòu)建真正具有智能的具身系統(tǒng),使得機(jī)器人真正能夠適應(yīng)各種環(huán)境、學(xué)習(xí)各種新任務(wù)、能夠從自身行動(dòng)中獲得反饋并進(jìn)行反思。更多最新工作進(jìn)展,敬請(qǐng)?jiān)L問(wèn)團(tuán)隊(duì)主頁(yè) https://opendrivelab.com

香港大學(xué)李弘揚(yáng):「2025年具身智能新一代閉環(huán)智能系統(tǒng)」迫在眉睫丨具身先鋒十人談

我們認(rèn)為實(shí)現(xiàn)具有人工智能的具身智能系統(tǒng)需要模型具備三種能力:自適應(yīng)、能學(xué)習(xí)、會(huì)反思。

以下是 AI 科技評(píng)論與李弘揚(yáng)的對(duì)話(huà):


自動(dòng)駕駛與具身智能

AI 科技評(píng)論:博士畢業(yè)后,您有幾年時(shí)間是專(zhuān)注在端到端自動(dòng)駕駛的算法研究上。為什么會(huì)轉(zhuǎn)到機(jī)器人賽道?您對(duì)具身智能領(lǐng)域開(kāi)始感興趣的契機(jī)是什么?

李弘揚(yáng):自從 2019 年博士畢業(yè)之后,我的研究重心始終聚焦于具身智能領(lǐng)域。早期我們更專(zhuān)注于端到端自動(dòng)駕駛方向的研究,23 年 6 月團(tuán)隊(duì)提出了原創(chuàng)性的 UniAD 端到端自動(dòng)駕駛方案,也獲得了當(dāng)年 CVPR 的最佳論文。同年 12 月,特斯拉 FSD V12 全面推廣,到 24 年時(shí),端到端范式已經(jīng)在業(yè)內(nèi)全面鋪開(kāi)。從 24 年開(kāi)始,自動(dòng)駕駛已經(jīng)進(jìn)入下半場(chǎng),這一階段的發(fā)展不僅需要持續(xù)的技術(shù)突破,更面臨著工業(yè)化落地與企業(yè)級(jí)量產(chǎn)驗(yàn)證的挑戰(zhàn)。

團(tuán)隊(duì)從 23 年下半年開(kāi)始更多地往機(jī)器人方向傾斜,論證并啟動(dòng)了相關(guān)研究的布局。原因之一在于自動(dòng)駕駛和機(jī)器人有很多相同的技能棧,比如都是感知、預(yù)測(cè)、規(guī)控構(gòu)成的,都是跟環(huán)境交互從算法識(shí)別到動(dòng)作執(zhí)行的。我們關(guān)注的最大的點(diǎn)在于端到端的訓(xùn)練范式能否復(fù)制到機(jī)器人的任務(wù)里,因?yàn)樗麄兌际窍嗨?。其二?23、24 年開(kāi)始,隨著 OpenAI、特斯拉在機(jī)器人方面做了很多創(chuàng)新性的工作,在 AIGC 與環(huán)境感知領(lǐng)域取得突破性進(jìn)展后,技術(shù)發(fā)展的焦點(diǎn)已自然延伸至物理交互與執(zhí)行層面。將海量數(shù)據(jù)訓(xùn)練范式與大模型技術(shù)優(yōu)勢(shì)引入傳統(tǒng)機(jī)器人領(lǐng)域,既是學(xué)術(shù)界的前沿課題,也已成為產(chǎn)業(yè)界的戰(zhàn)略共識(shí)。

AI 科技評(píng)論:在具身智能方向,您接觸的第一個(gè)相關(guān)工作是什么?這個(gè)賽道有哪些研究工作、研究問(wèn)題讓您感興趣?主要想解決哪些問(wèn)題?

李弘揚(yáng):最近團(tuán)隊(duì)發(fā)表的比較重要的工作是在 24 年 7 月的 RSS 上,主要關(guān)注通過(guò)視覺(jué)預(yù)訓(xùn)練來(lái)提升機(jī)器人操縱能力,因?yàn)樵诂F(xiàn)在大數(shù)據(jù)的背景之下,以預(yù)訓(xùn)練作為切入點(diǎn)是比較自然的路徑。在這個(gè)領(lǐng)域,我主要關(guān)注以下三個(gè)核心問(wèn)題:首先是泛化能力,如何使機(jī)器人在面對(duì)不同場(chǎng)景和任務(wù)時(shí),都能展現(xiàn)出良好的適應(yīng)性和通用性;其次是智能性,不僅僅是完成諸如拿起杯子這樣的簡(jiǎn)單任務(wù),還要具備閉環(huán)反饋能力。例如,機(jī)器人需要根據(jù)實(shí)際情況進(jìn)行錯(cuò)誤糾正和自我調(diào)整,這樣才能體現(xiàn)出真正的智能;最后是高效性,現(xiàn)在的大模型不僅在自動(dòng)駕駛中面臨部署難題,應(yīng)用于機(jī)械臂上同樣存在挑戰(zhàn),就是如何在保證性能的同時(shí),實(shí)現(xiàn)高效、輕量化的部署。

AI 科技評(píng)論:UniAD 項(xiàng)目對(duì)于您之后的工作有沒(méi)有帶來(lái)哪些啟發(fā)?

李弘揚(yáng):UniAD 在自動(dòng)駕駛中把感知、預(yù)測(cè)和規(guī)控做到了一起,主要有兩點(diǎn)啟發(fā)。

第一是全局優(yōu)化能力,通過(guò)對(duì)整個(gè)神經(jīng)網(wǎng)絡(luò)進(jìn)行聯(lián)合調(diào)優(yōu),并最終以規(guī)劃優(yōu)化指標(biāo)為核心,可以有效彌補(bǔ)傳統(tǒng)方法中各模塊獨(dú)立運(yùn)作時(shí)存在的信息損失問(wèn)題。以前感知模塊僅傳遞目標(biāo)識(shí)別結(jié)果,預(yù)測(cè)模塊僅傳遞軌跡信息,而動(dòng)作執(zhí)行模塊則基于這些信息進(jìn)行操作,這個(gè)過(guò)程中不可避免地存在大量信息損耗。而在一個(gè)統(tǒng)一的網(wǎng)絡(luò)中,各模塊之間傳遞的是網(wǎng)絡(luò)學(xué)習(xí)到的特征,信息量非常豐富,從而實(shí)現(xiàn)了全局優(yōu)化。我們想把這個(gè)經(jīng)驗(yàn)放到機(jī)器人里來(lái),因?yàn)樵趥鹘y(tǒng)的機(jī)器人研究里,感知是非常粗糙的一種形式表達(dá),再到動(dòng)作執(zhí)行模塊,也有類(lèi)似相關(guān)信息損失。

第二是在海量數(shù)據(jù)的應(yīng)用上。在 UniAD 中,所有的軌跡數(shù)據(jù)可以一次性地采集完,從而進(jìn)行大量的數(shù)據(jù)采集工作,發(fā)揮 Scaling Law 的優(yōu)勢(shì)。在機(jī)器人領(lǐng)域,我們希望探索是否能夠復(fù)制這一經(jīng)驗(yàn),即在引入海量數(shù)據(jù)后,算法的性能提升是呈現(xiàn)線(xiàn)性增長(zhǎng)、指數(shù)級(jí)爆發(fā),還是最終達(dá)到瓶頸,數(shù)據(jù)量的增加是否能夠真正帶來(lái)機(jī)器人泛化能力的提升。我們計(jì)劃沿著 UniAD 的思路,特別是以數(shù)據(jù)驅(qū)動(dòng)學(xué)習(xí)為基礎(chǔ)的機(jī)器人操作研究方向,進(jìn)一步探究全局優(yōu)化與海量數(shù)據(jù)在機(jī)器人領(lǐng)域的應(yīng)用潛力。

AI 科技評(píng)論:您從自動(dòng)駕駛轉(zhuǎn)到機(jī)器人,會(huì)不會(huì)覺(jué)得有什么困難之處?

李弘揚(yáng):從算法來(lái)講,自動(dòng)駕駛里自由度很低,最終輸出通常僅涉及油門(mén)和方向盤(pán)的四個(gè)自由度。而在機(jī)器人領(lǐng)域,任務(wù)自由度可以根據(jù)需求靈活定義,例如靈巧手可能具有 6、12 甚至 20 個(gè)自由度,導(dǎo)致解空間非常復(fù)雜。但相對(duì)于自動(dòng)駕駛場(chǎng)景而言,機(jī)器人領(lǐng)域的場(chǎng)景變化沒(méi)那么豐富,主要集中于室內(nèi)導(dǎo)航、工業(yè)巡檢等特定領(lǐng)域。我們嘗試把自動(dòng)駕駛的經(jīng)驗(yàn)直接拿到機(jī)器人的過(guò)程中發(fā)現(xiàn),單純將全局優(yōu)化的理念直接遷移至機(jī)器人領(lǐng)域,需要對(duì)網(wǎng)絡(luò)結(jié)構(gòu)和訓(xùn)練范式進(jìn)行較大改進(jìn)。

另一方面,數(shù)據(jù)采集難度明顯增加。自動(dòng)駕駛領(lǐng)域中,車(chē)輛形態(tài)相似,只需要幾百臺(tái)同類(lèi)型車(chē)輛部署就可以采集到數(shù)百萬(wàn)條數(shù)據(jù),基本模型較為固定。而目前機(jī)器人硬件形態(tài)都沒(méi)有收斂,不同設(shè)備間存在較大差異,數(shù)據(jù)采集工作面臨更大挑戰(zhàn)。為此,我們提出了數(shù)據(jù)金字塔策略,即結(jié)合仿真數(shù)據(jù)、網(wǎng)絡(luò)數(shù)據(jù)、真機(jī)數(shù)據(jù)以及針對(duì)特定任務(wù)的少量真機(jī)特殊場(chǎng)景,期待能夠有效地解決數(shù)據(jù)上問(wèn)題。

AI 科技評(píng)論:現(xiàn)在業(yè)界有說(shuō)法認(rèn)為,自動(dòng)駕駛解決的是下肢問(wèn)題,而機(jī)器人要解決的是上肢問(wèn)題、典型任務(wù)是操作。您認(rèn)同這個(gè)說(shuō)法嗎?

李弘揚(yáng):我部分認(rèn)同這一觀(guān)點(diǎn)。自動(dòng)駕駛下肢問(wèn)題解的是軌跡規(guī)劃或者說(shuō)動(dòng)作執(zhí)行,因?yàn)楫?dāng)前的感知問(wèn)題已基本得到解決。對(duì)機(jī)器人來(lái)說(shuō),針對(duì)運(yùn)動(dòng)控制例如四足機(jī)器人的研究比較成熟了,各類(lèi)仿生犬型機(jī)器人在多樣場(chǎng)景中的表現(xiàn)穩(wěn)定,但上肢問(wèn)題主要涉及抓取與操作任務(wù),當(dāng)中要研究的問(wèn)題、優(yōu)化的思路非常多。

AI 科技評(píng)論:自動(dòng)駕駛視覺(jué)算法與機(jī)器人算法的不同之處體現(xiàn)在什么地方?

李弘揚(yáng):現(xiàn)在自動(dòng)駕駛算法的感知問(wèn)題解得已經(jīng)很好了,發(fā)展到今年,研究核心在于之后規(guī)控信號(hào)如何作為先驗(yàn)放到整個(gè)端到端體系里,發(fā)揮感知算法的優(yōu)勢(shì),可以設(shè)計(jì)一些聯(lián)調(diào),從而充分發(fā)揮感知算法的優(yōu)勢(shì)。目前自動(dòng)駕駛系統(tǒng)中,感知模塊占據(jù)主導(dǎo)地位,而規(guī)劃與控制部分則相對(duì)缺乏基于學(xué)習(xí)的方法,導(dǎo)致二者之間的整合存在一定問(wèn)題。

機(jī)器人方法的不同在于解空間非常復(fù)雜、自由度很高。通常在這種情況下,會(huì)采用一種快捷高效的整體聯(lián)調(diào)優(yōu)化方法,例如強(qiáng)化學(xué)習(xí)。但強(qiáng)化學(xué)習(xí)本身存在樣本效率較低的問(wèn)題。舉例來(lái)說(shuō),當(dāng)將強(qiáng)化學(xué)習(xí)應(yīng)用于人形機(jī)器人的全局優(yōu)化時(shí),就會(huì)面臨樣本效率低、獎(jiǎng)勵(lì)稀疏、訓(xùn)練收斂困難以及整體訓(xùn)練難度較大等諸多挑戰(zhàn)。


打造 ImageNet 時(shí)刻

AI 科技評(píng)論:不久前您參與的百萬(wàn)真機(jī)數(shù)據(jù)集 AgiBot World 發(fā)布,你們是從什么時(shí)候開(kāi)始做的?

李弘揚(yáng): AgiBot World 是我們和智元合作推出的百萬(wàn)真機(jī)數(shù)據(jù)集。具身包括算法、數(shù)據(jù)、硬件、應(yīng)用場(chǎng)景四個(gè)要素,盡管學(xué)術(shù)界在各類(lèi)算法研究上投入甚多,但普遍認(rèn)為算法性能的上限取決于數(shù)據(jù),因此數(shù)據(jù)的重要性日益凸顯,這也是我們團(tuán)隊(duì)工作的出發(fā)點(diǎn)之一。這個(gè)工作在 24 年 Q2 就開(kāi)始調(diào)研論證了。當(dāng)時(shí),我們希望與那些將硬件及應(yīng)用場(chǎng)景作為重要評(píng)估指標(biāo)的機(jī)器人企業(yè)共同成長(zhǎng),我們也走訪(fǎng)了很多國(guó)內(nèi)機(jī)器人公司,最后落腳到智元。

AI 科技評(píng)論:與 DROID、Open X-Embodiment 等業(yè)界知名數(shù)據(jù)集相比,AgiBot World 的最大亮點(diǎn)、差異化優(yōu)勢(shì)是什么?

李弘揚(yáng):目前業(yè)內(nèi)已經(jīng)有許多數(shù)據(jù)集,有點(diǎn)像 2010 年之前視覺(jué)領(lǐng)域數(shù)據(jù)集百家爭(zhēng)鳴的局面。在設(shè)計(jì) AgiBot World 數(shù)據(jù)集時(shí),我們著重在以下三點(diǎn)上進(jìn)行創(chuàng)新:

首先是靈巧手。許多現(xiàn)有數(shù)據(jù)集,包括谷歌的數(shù)據(jù)集,往往使用的是夾爪。而我們提供了 6 到 12 自由度的真實(shí)靈巧手,為機(jī)器人操作任務(wù)提供了更高的精度和靈活性。

其次是視觸覺(jué)。單純依靠圖像或點(diǎn)云數(shù)據(jù)無(wú)法有效完成任務(wù),尤其是在視覺(jué)遮擋的情況下,比如在擰瓶蓋或關(guān)門(mén)這類(lèi)任務(wù)中。我們?cè)O(shè)計(jì)了融合視觸覺(jué)的多模態(tài)數(shù)據(jù)采集,為這些復(fù)雜任務(wù)提供了更完整的感知能力。

最后是多機(jī)協(xié)同。現(xiàn)在很多在做靈巧手、視觸覺(jué)的類(lèi)似工作都是單點(diǎn)的,在數(shù)據(jù)集里集大成、把所有要素集到一起很少,我們?cè)O(shè)計(jì)了多機(jī)協(xié)同的任務(wù),確保所有機(jī)器連在一個(gè)中央時(shí)間戳上,否則數(shù)據(jù)采集起來(lái)很困難,也克服了很多工程上的問(wèn)題,包括怎么設(shè)計(jì)高效的硬件素材系統(tǒng)、數(shù)據(jù)采集系統(tǒng)等。

AI 科技評(píng)論:你們解決了當(dāng)前具身智能領(lǐng)域的哪些迫切問(wèn)題呢?

李弘揚(yáng):一是怎么實(shí)現(xiàn)真正的智能化?,F(xiàn)在把具身智能分 L1 到 L5,如果能夠解決 L2 級(jí)別的操作任務(wù),就能在有限場(chǎng)景內(nèi)實(shí)現(xiàn)真正意義上的泛化,可以說(shuō)它就是今年的 ImageNet。這里所指的有限場(chǎng)景主要涵蓋工業(yè)巡檢、汽車(chē)總裝線(xiàn)、居家服務(wù)等特定場(chǎng)景里的泛化。例如,在疊衣服任務(wù)中,無(wú)論是大衣、外衣,還是薄的、軟的衣服都可以疊;如果是汽車(chē)總裝線(xiàn),那么就是這個(gè)總裝線(xiàn)上安輪胎、安保險(xiǎn)杠、布線(xiàn)都能做。

其次,我們關(guān)注的是 Scaling Law。關(guān)鍵不在于僅僅堆砌百萬(wàn)真機(jī)數(shù)據(jù)或大量 GPU 算力,而在于探討百萬(wàn)真機(jī)數(shù)據(jù)是否能夠證明數(shù)據(jù)多樣性比數(shù)據(jù)規(guī)模更為關(guān)鍵。我們期望通過(guò)這一研究為后續(xù)實(shí)現(xiàn)真正意義上的 Scaling Law 評(píng)估提供參考依據(jù)。

AI 科技評(píng)論:可以分享一下你們采集數(shù)據(jù)收集的過(guò)程嗎?真機(jī)數(shù)據(jù)的采集有什么困難?你們又是如何解決的?

李弘揚(yáng):數(shù)據(jù)采集的過(guò)程中,我們參考了亞馬遜 SageMaker 整個(gè)流程。由于數(shù)據(jù)采集任務(wù)較為復(fù)雜,首先需要設(shè)計(jì)任務(wù)構(gòu)型并進(jìn)行試采;在數(shù)據(jù)量達(dá)到預(yù)期后,還需考慮如何高效存儲(chǔ)數(shù)據(jù)、培訓(xùn)數(shù)據(jù)采集人員以及處理采集過(guò)程中出現(xiàn)的反饋問(wèn)題。

另一方面,我們參考了《Human-in-the-Loop Machine Learning》中的相關(guān)概念。這本書(shū)里從學(xué)習(xí)角度探討了如何提升數(shù)據(jù)質(zhì)量。在 AgiBot World 項(xiàng)目中,我們不僅采集了大量數(shù)據(jù),還制定了詳盡的問(wèn)題清單,對(duì)流程不規(guī)范、步驟不完整、數(shù)據(jù)缺失等問(wèn)題進(jìn)行分類(lèi)統(tǒng)計(jì)。

此外,Human-in-the-Loop 不僅體現(xiàn)在問(wèn)題反饋上,更關(guān)鍵的是如何評(píng)估每條數(shù)據(jù)的質(zhì)量。高的數(shù)據(jù)質(zhì)量能夠使得在這一批數(shù)據(jù)發(fā)布后,研究人員可基于此開(kāi)展更多二次開(kāi)發(fā)和深入研究。

另外,數(shù)據(jù)采集過(guò)程中,我們會(huì)估計(jì)制造一些干擾。例如,在執(zhí)行內(nèi)存條任務(wù)時(shí),我們有意制造背景或內(nèi)存條的抖動(dòng),以考察算法或數(shù)據(jù)采集系統(tǒng)能否通過(guò)不斷試錯(cuò)恢復(fù)并完成任務(wù)。這與強(qiáng)化學(xué)習(xí)中負(fù)樣本和持續(xù)學(xué)習(xí)的概念密切相關(guān)。數(shù)據(jù)采集與算法高度耦合,因此在算法層面存在諸多需求和研究空間,這也是我們?cè)O(shè)計(jì)此數(shù)據(jù)集的初衷之一。

AgiBot World 發(fā)布到社區(qū)的第一天才標(biāo)志著項(xiàng)目的真正起步,我們預(yù)留了大量接口,供未來(lái)各類(lèi)強(qiáng)化學(xué)習(xí)、模仿學(xué)習(xí)、對(duì)齊算法等使用,目的在于保研究者在各自領(lǐng)域中不會(huì)因缺乏數(shù)據(jù)集而受到限制。

AI 科技評(píng)論:你們的下一步研究計(jì)劃是怎樣的?感覺(jué)還有哪些亟需突破的難題?

李弘揚(yáng):AgiBot World 是個(gè)非常大的項(xiàng)目,現(xiàn)在發(fā)布 Alpha 版本總共是十萬(wàn)真機(jī)數(shù)據(jù),短期研究計(jì)劃是擴(kuò)展到百萬(wàn)真機(jī)數(shù)據(jù),大概會(huì)在 25 年 3 月發(fā)布。

中期目標(biāo)方面,作為研發(fā)團(tuán)隊(duì),我們基于該數(shù)據(jù)集驗(yàn)證差異化的 Scaling Law,以探討如何實(shí)現(xiàn)智能化,相關(guān)成果預(yù)計(jì)將在今年下半年發(fā)布。

長(zhǎng)線(xiàn)計(jì)劃則針對(duì)未來(lái)兩三年,不只有 AgiBot World 這個(gè)數(shù)據(jù)集,我們還計(jì)劃搭建生態(tài)、辦比賽,讓大家真正地把數(shù)據(jù)集用起來(lái)。我們計(jì)劃在今年下半年 10 月舉辦 AgiBot World 挑戰(zhàn)賽,鼓勵(lì)研究人員基于該數(shù)據(jù)集開(kāi)展二次開(kāi)發(fā)和深入研究。并且還將會(huì)每年都舉辦這個(gè)比賽,持續(xù)地服務(wù)整個(gè)社區(qū)。

AI 科技評(píng)論:NeurIPS 2024 上,Ilya 提出解決大模型訓(xùn)練數(shù)據(jù)匱乏問(wèn)題的三大途徑之一是合成數(shù)據(jù)。您怎么看機(jī)器人領(lǐng)域中真機(jī)數(shù)據(jù)與合成數(shù)據(jù)的差別?

李弘揚(yáng):真機(jī)數(shù)據(jù)最大優(yōu)勢(shì)是沒(méi)有 Sim-to-Real 的問(wèn)題,我們選擇真機(jī)數(shù)據(jù)主要有兩個(gè)原因:其一,我們團(tuán)隊(duì)并非專(zhuān)注于仿真領(lǐng)域;其二,合成數(shù)據(jù)的構(gòu)建工作量巨大且周期較長(zhǎng),涉及諸如渲染技術(shù)和數(shù)據(jù)資產(chǎn)構(gòu)建等問(wèn)題,因此我們直接采用了真機(jī)數(shù)據(jù)。

現(xiàn)在大家都在抱怨真機(jī)數(shù)據(jù)很少,AgiBot World 是單一構(gòu)型的、百萬(wàn)真機(jī)的、可上量的數(shù)據(jù)集。單一構(gòu)型指的是物理形態(tài)都是一樣的,這與某些數(shù)據(jù)集將不同子數(shù)據(jù)堆砌在一起、聲稱(chēng)擁有百萬(wàn)真機(jī)數(shù)據(jù)形成鮮明對(duì)比。實(shí)際上,跨越不同視角、任務(wù)和硬件構(gòu)型的遷移非常困難,而 AgiBot World 的單一構(gòu)型擴(kuò)展策略類(lèi)似于在全球范圍內(nèi)采用數(shù)百萬(wàn)輛特斯拉 Model 3采集各類(lèi)數(shù)據(jù)。當(dāng)然,合成數(shù)據(jù)也是非常重要的,我們相信仿真數(shù)據(jù)一定會(huì)幫助最后的部署、落地,尤其在處理危險(xiǎn)場(chǎng)景時(shí)。


硬件形態(tài)待行業(yè)收斂

AI 科技評(píng)論:你們開(kāi)源 AgiBot World 的初衷是什么呢?開(kāi)源能給整個(gè)行業(yè)帶來(lái)哪些價(jià)值?

李弘揚(yáng):首先,我們開(kāi)源是希望打造具身智能領(lǐng)域的 “ImageNet 時(shí)刻”。當(dāng)前行業(yè)中,A 團(tuán)隊(duì)提出一套算法,并在論文中展示其性能為 80%,B 團(tuán)隊(duì)則提出另一套算法,性能為 82%。然而,由于硬件平臺(tái)不同,這些算法難以直接遷移或復(fù)現(xiàn),導(dǎo)致性能差異難以客觀(guān)評(píng)估。這并不意味著某一算法無(wú)效,而是缺乏統(tǒng)一的基準(zhǔn)。因此,我們希望通過(guò)建立類(lèi)似 ImageNet 的評(píng)測(cè)基準(zhǔn),使各類(lèi)算法能夠在統(tǒng)一的平臺(tái)上進(jìn)行公平對(duì)比,從而加速學(xué)術(shù)界和產(chǎn)業(yè)界的發(fā)展。

其次,我們希望通過(guò)開(kāi)源,使真機(jī)數(shù)據(jù)的采集范式更加低成本、易獲取。目前,采集高質(zhì)量真機(jī)數(shù)據(jù)的成本極高,例如,購(gòu)買(mǎi)一臺(tái)配備靈巧手的雙臂機(jī)器人,市場(chǎng)價(jià)格至少在 20 萬(wàn)人民幣左右,而若要搭建 100 臺(tái)設(shè)備,成本就到了 2000 萬(wàn)人民幣。因此,我們希望通過(guò)開(kāi)源 AgiBot World,降低行業(yè)門(mén)檻,使更多研究團(tuán)隊(duì)能夠參與其中,共同推動(dòng)具身智能的發(fā)展。

AI 科技評(píng)論:AgiBot 與機(jī)器人操作、世界模型等話(huà)題的關(guān)系是什么?

李弘揚(yáng):一是智元機(jī)器人的英文名就是 AgiBot,二是我們想實(shí)現(xiàn) AGI 的機(jī)器人,這方面是一語(yǔ)雙關(guān)。World 代表我們希望構(gòu)建一個(gè)完整的世界模型,涵蓋硬件、系統(tǒng)及 AI 算法生態(tài)。這不僅是 AgiBot World 項(xiàng)目的核心理念,也是我們最終希望實(shí)現(xiàn)的目標(biāo)。我們的愿景是通過(guò)數(shù)據(jù)集推動(dòng)硬件形態(tài)逐步收斂,并將其應(yīng)用于靈巧手、視觸覺(jué)系統(tǒng)以及輪式機(jī)器人上。同時(shí),結(jié)合系統(tǒng)和生態(tài)構(gòu)建,與行業(yè)伙伴共同完善數(shù)據(jù)集,并進(jìn)一步推動(dòng)學(xué)術(shù)研究和競(jìng)賽活動(dòng),以促進(jìn)整個(gè)領(lǐng)域的發(fā)展。

AI 科技評(píng)論:您認(rèn)為具身智能領(lǐng)域的模型訓(xùn)練會(huì)遵循 Scaling Law 嗎?

李弘揚(yáng):Scaling Law 是 2024 年下半年各個(gè)研究團(tuán)隊(duì)都在做的非常熱點(diǎn)的問(wèn)題,今年也會(huì)是無(wú)論工業(yè)界還是學(xué)術(shù)界要重點(diǎn)研究的事情。當(dāng)中可以凝練出諸多科學(xué)問(wèn)題,例如:多樣性和數(shù)據(jù)分布是否遵循某種規(guī)律;在有限數(shù)據(jù)量的條件下,能否通過(guò)算法的遷移學(xué)習(xí)獲得性能提升;以及投入產(chǎn)出比的考量,例如百萬(wàn)真機(jī)的數(shù)據(jù)采集背后涉及的人力成本、標(biāo)注成本、工程成本以及場(chǎng)地費(fèi)用等。

AI 科技評(píng)論:除了數(shù)據(jù)集,您的團(tuán)隊(duì)現(xiàn)在還有沒(méi)有研究具身智能的其他方向?目前主要在研究哪幾個(gè)具體問(wèn)題?

李弘揚(yáng):我們團(tuán)隊(duì)也在研究人形和一些硬件設(shè)備,一個(gè)重要的研究方向是 Whole Body Control,這是一個(gè)涉及全身動(dòng)作協(xié)調(diào)和多任務(wù)協(xié)同的研究目標(biāo)。目前,很多展示的炫酷 demo 雖然看起來(lái)非常吸引人,但往往是通過(guò)預(yù)設(shè)規(guī)則或者僅僅展示某些簡(jiǎn)單的動(dòng)作,比如走幾步或招手,這些動(dòng)作相對(duì)簡(jiǎn)單。而在上半身與其他部位的協(xié)同操作上,挑戰(zhàn)則更為復(fù)雜。當(dāng)然 Figure 01 或者 1X 也都展示出了很好的 demo,在工廠(chǎng)里機(jī)器人 Whole Body Control 也已經(jīng)做得非常好了。

AI 科技評(píng)論:您認(rèn)為除了數(shù)據(jù)集,當(dāng)前具身智能行業(yè)還有哪些被忽視、但關(guān)鍵問(wèn)題需要解決?

李弘揚(yáng):被忽略的問(wèn)題主要集中在硬件上,我甚至覺(jué)得具身智能的終極發(fā)展方向在于材料科學(xué)。這不僅涉及到視觸覺(jué)等傳感器的穩(wěn)定性,還包括在下一代硬件研發(fā)和設(shè)計(jì)過(guò)程中,對(duì)各類(lèi)傳感器形態(tài)的前瞻性考量。目前,硬件迭代速度相對(duì)緩慢。如果算法無(wú)法與硬件深度結(jié)合,尤其是在傳感器技術(shù)、磁感傳感器、人造皮膚等方面缺乏突破,機(jī)器人將難以實(shí)現(xiàn)人類(lèi)所能完成的復(fù)雜任務(wù)。因此,僅靠算法優(yōu)化無(wú)法全面推動(dòng)具身智能的發(fā)展。

我也希望更多來(lái)自機(jī)械工程、材料科學(xué),甚至航天航空等領(lǐng)域的學(xué)者,能夠投入到新一代傳感器及相關(guān)硬件的研究中。硬件的創(chuàng)新將帶來(lái)全新的應(yīng)用場(chǎng)景,這些場(chǎng)景不僅可以賦能機(jī)器人,還會(huì)吸引更多從事算法創(chuàng)新的科研力量。只有軟硬件協(xié)同進(jìn)化,具身智能行業(yè)才能真正取得突破性進(jìn)展。

AI 科技評(píng)論:目前你們?cè)谟布矫娑己湍男S(chǎng)商合作?

李弘揚(yáng):我們目前使用了來(lái)自七到八家不同廠(chǎng)商的設(shè)備,這些設(shè)備都屬于行業(yè)內(nèi)最頂尖的水平。我們希望,團(tuán)隊(duì)中的研究人員能夠基于最先進(jìn)的硬件平臺(tái)進(jìn)行研究,從而推動(dòng)具身智能領(lǐng)域的前沿發(fā)展。

AI 科技評(píng)論:現(xiàn)在也有很多人工智能從業(yè)者加入具身賽道,您覺(jué)得這在短期會(huì)給機(jī)器人領(lǐng)域帶來(lái)哪些顯著變化呢?

李弘揚(yáng):近期我們也走訪(fǎng)了許多知名學(xué)者,尤其是在傳統(tǒng)機(jī)器人領(lǐng)域深耕多年的專(zhuān)家。一些學(xué)者戲稱(chēng),人工智能領(lǐng)域的從業(yè)者正在“搶占”他們的領(lǐng)地,盡管這只是玩笑,但確實(shí)反映了行業(yè)格局的變化。整體來(lái)看,許多從事人工智能研究的學(xué)者,正積極投身于具身智能賽道中。我始終認(rèn)為,這并非競(jìng)爭(zhēng)關(guān)系,而是合作共贏的局面。人工智能領(lǐng)域出身的學(xué)者在神經(jīng)網(wǎng)絡(luò)上有很豐富的經(jīng)驗(yàn),而傳統(tǒng)機(jī)器人學(xué)者在硬件設(shè)計(jì)、系統(tǒng)架構(gòu)等方面擁有深厚的積累和卓越的專(zhuān)業(yè)能力。這種交匯與融合將促使雙方相互學(xué)習(xí)、共同進(jìn)步。在人工智能技術(shù)的加持下,傳統(tǒng)機(jī)器人行業(yè)有望迎來(lái)新一輪的變革浪潮。雷峰網(wǎng)雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

香港大學(xué)李弘揚(yáng):「2025年具身智能新一代閉環(huán)智能系統(tǒng)」迫在眉睫丨具身先鋒十人談

分享:
相關(guān)文章
當(dāng)月熱門(mén)文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話(huà)
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶(hù)安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)