0
| 本文作者: 賴文昕 | 2025-01-15 15:06 |
作者 | 賴文昕
編輯 | 陳彩嫻
不久前,我們發(fā)布《CMU 具身智能風(fēng)云榜:從傳統(tǒng)到全面》一文,介紹了來自 CMU 的一眾具身智能華人人才。
就在上個(gè)月,CMU 聯(lián)合18個(gè)研究機(jī)構(gòu)開源發(fā)布了一個(gè)生成式物理引擎——Genesis,引起了具身智能領(lǐng)域的廣泛討論與關(guān)注,在國內(nèi)與海外呈現(xiàn)出霸榜的熱度。Genesis 的核心團(tuán)隊(duì)為 12 位青年華人學(xué)者,其項(xiàng)目領(lǐng)導(dǎo)者為 CMU 機(jī)器人研究所剛畢業(yè)的博士生周銜。
憑借從底層開始重新設(shè)計(jì)和構(gòu)建的通用物理引擎,Genesis 將各種物理求解器及其耦合集成到一個(gè)統(tǒng)一的框架中,通過在更高層次上運(yùn)行的生成式智能體框架得到進(jìn)一步增強(qiáng),旨在為機(jī)器人技術(shù)及其他領(lǐng)域?qū)崿F(xiàn)全自動(dòng)數(shù)據(jù)生成。
據(jù)項(xiàng)目頁面介紹,與先前的模擬平臺(tái)相比,Genesis 具備多個(gè)關(guān)鍵特點(diǎn):
原生 Python,包括前端界面和后端物理引擎,全部用 Python 語法開發(fā)。底層由嵌套在 Python 內(nèi)的 GPU 加速的 DSL taichi支持。
輕松安裝,API 設(shè)計(jì)極其簡單且用戶友好。
并行模擬,速度空前:Genesis 是世界上最快的物理引擎,其模擬速度比現(xiàn)有的 GPU 加速機(jī)器人模擬器(Isaac Gym/Sim/Lab、Mujoco MJX 等)快一個(gè)多數(shù)量級(jí),且并沒有在模擬精度和保真度上為了優(yōu)化速度做妥協(xié)。
一個(gè)支持各種最先進(jìn)物理求解器的統(tǒng)一框架,可對(duì)大量材料和物理現(xiàn)象進(jìn)行建模。
具有優(yōu)化性能的逼真光線追蹤渲染。
可微性:Genesis 旨在與可微模擬完全兼容。目前,我們的物質(zhì)點(diǎn)法(MPM)求解器和工具求解器是可微的,其他求解器的可微性也將很快添加(從剛體模擬開始)。
物理精確且可微的觸覺傳感器。
原生支持生成式模擬,允許通過語言提示生成各種模態(tài)的數(shù)據(jù):交互式場景、任務(wù)提議、獎(jiǎng)勵(lì)、資產(chǎn)、角色動(dòng)作、策略、軌跡、相機(jī)運(yùn)動(dòng)、(物理精確的)視頻等等(這個(gè)框架會(huì)內(nèi)部的各模塊會(huì)慢慢放出)。

項(xiàng)目頁面:https://genesis-embodied-ai.github.io/
從速度來看,Genesis 在單臺(tái) RTX4090 設(shè)備上的數(shù)據(jù)量可以達(dá)到實(shí)時(shí)的 430000 倍,26 秒就能訓(xùn)練出可遷移至現(xiàn)實(shí)世界的機(jī)器人運(yùn)動(dòng)策略;從效果來看, Genesis 能生成 4D 物理世界,如機(jī)器人操作和運(yùn)動(dòng)策略、開放世界鉸接式物體、角色運(yùn)動(dòng)、3D 和完全交互式場景等等。
不過,在 Genesis 紛紛被認(rèn)可其實(shí)現(xiàn)大模型“創(chuàng)世紀(jì)”的可能性之際,也有一些質(zhì)疑的聲音對(duì)其精確度和速度表示懷疑。本周三,Genesis 團(tuán)隊(duì)更新了一份詳細(xì)技術(shù)報(bào)告,測評(píng)了各種場景下和主流并行仿真器的速度對(duì)比,并且開源了所有測試代碼。
主導(dǎo)項(xiàng)目的周銜本科就讀于新加坡南洋理工大學(xué)的機(jī)械工程系,以最高榮譽(yù)畢業(yè)后在 2017 年來到 CMU 讀博,成為導(dǎo)師 Katerina Fragkiadaki 組里首位研究機(jī)器人學(xué)習(xí)(Robot Learning)的PhD。

2022 年 5 月,周銜在師姐的牽線下來到 MIT-IBM Watson AI Lab 實(shí)習(xí),與淦創(chuàng)展開合作。也是從這時(shí)起,周銜的研究重點(diǎn)確認(rèn)為建立統(tǒng)一的神經(jīng)策略和數(shù)據(jù)引擎。
從“天馬行空”地嘗試復(fù)雜的流體操作任務(wù)開始,周銜逐漸與更多志同道合的華人學(xué)者相識(shí),就此開啟了 Genesis 的故事。
對(duì)于 Genesis 正在面臨的討論,周銜十分自信且坦誠,“我們肯定會(huì)長期維護(hù),要把它做成一個(gè)具身智能和物理AI最好用的仿真和數(shù)據(jù)平臺(tái),同時(shí)通過借助開源社區(qū)的力量把這個(gè)底層的平臺(tái)維護(hù)好。”
以下是 AI 科技評(píng)論與周銜的對(duì)話。
從仿真器到數(shù)據(jù)引擎
AI科技評(píng)論:22年您到 MIT-IBM Watson AI Lab 實(shí)習(xí),Genesis 的 idea 是怎么誕生的?
周銜:以前機(jī)器人做偏向于剛體的操作任務(wù),22 年到 MIT 時(shí)我想做與流體相關(guān)的復(fù)雜操作任務(wù),如咖啡拉花、與煙霧交互。但這些任務(wù)在現(xiàn)實(shí)中采集數(shù)據(jù)困難,因機(jī)器人置于水中易損壞,環(huán)境也雜亂,用強(qiáng)化學(xué)習(xí)或優(yōu)化軌跡時(shí),有水等液體的環(huán)境重置不易,所以自然就想到從仿真環(huán)境入手。
這也是我首次接觸仿真。此前仿真器多是計(jì)算機(jī)圖形學(xué)的學(xué)者在研究,當(dāng)時(shí)想用仿真器,卻發(fā)現(xiàn)沒有特別合適的,像英偉達(dá)的 Flex 及基于它的 SoftGym,雖有基本的水和衣服模擬,但無法實(shí)現(xiàn)不同性質(zhì)流體的交互,存在諸多問題。此外,我們希望仿真器可用,能借助其梯度信息搜尋策略。
正巧淦創(chuàng)老師組里之前有相關(guān)工作,還與發(fā)表“太極”編譯器的胡淵鳴合作過,于是我們?cè)O(shè)計(jì)了許多與各類流體交互的任務(wù),自己寫了一個(gè)流體仿真的環(huán)境和測評(píng)基準(zhǔn)“FluidLab”。
當(dāng)時(shí)我結(jié)識(shí)了宋舒然老師的學(xué)生許臻佳和在 MIT 的王尊玄(Johnson),然后我們大家一起合作做了幾個(gè)在不同領(lǐng)域但底層框架類似的項(xiàng)目,比如 Johnson 做軟體機(jī)器人模擬,許振佳做切水果、切牛排等任務(wù),然后我們分別為這些項(xiàng)目實(shí)現(xiàn)了底層的物理仿真,不過當(dāng)時(shí)更多聚焦于軟體、流體以及軟體機(jī)器人本身,且都是項(xiàng)目特定的,無法讓研究社區(qū)的使用者很容易的就安裝體驗(yàn)。
我們覺得一個(gè)統(tǒng)一的物理仿真平臺(tái)會(huì)對(duì)整個(gè)機(jī)器人領(lǐng)域有幫助,23 年初便決定將這些成果整合起來,打造一個(gè)對(duì)有軟體仿真需求的人而言好用、易配置環(huán)境并訓(xùn)練策略的框架——這就是 Genesis 的前身,我們致力于打造一個(gè)大一統(tǒng)的仿真平臺(tái),重點(diǎn)在軟體方面。后來我們覺得剛體很重要,但當(dāng)時(shí)這個(gè)超出了我們的知識(shí)范圍,于是就又找了馬里蘭大學(xué)的 PhD 喬懌凌,他做過一系列可微仿真的工作,加入后負(fù)責(zé)幫助我們實(shí)現(xiàn)整套剛體的仿真框架。
AI科技評(píng)論:那 Genesis 是如何從一個(gè)仿真器演進(jìn)為數(shù)據(jù)引擎的?
周銜:起初,我們本只想做一個(gè)仿真器。但到了 2022 年末,ChatGPT 問世且效果出色。
在此之前,即便我們能做出比英偉達(dá) Omniverse 更好的仿真環(huán)境,在仿真環(huán)境里收集數(shù)據(jù)仍需耗費(fèi)大量人力。
具體來說,在現(xiàn)實(shí)中收集機(jī)器人的視覺校準(zhǔn)數(shù)據(jù),即給定任務(wù)描述后,機(jī)器人依據(jù)所見規(guī)劃電機(jī)動(dòng)作與周圍環(huán)境交互來完成任務(wù),一般采用人力采集的范式,不管是用 VR、AR 設(shè)備還是其他操控裝置,本質(zhì)上數(shù)據(jù)量與人力呈線性關(guān)系,要采集上百億條數(shù)據(jù)極為困難。
在仿真環(huán)境中也不輕松,雖像人狗跑跳的演示是用強(qiáng)化學(xué)習(xí)在仿真中訓(xùn)練出來的,但在訓(xùn)練策略前,確定機(jī)器人學(xué)習(xí)的任務(wù)、學(xué)習(xí)環(huán)境、環(huán)境布置、物體交互方式以及獎(jiǎng)勵(lì)函數(shù)等環(huán)節(jié)都依賴人力。所以即便有了仿真環(huán)境,若要真正實(shí)現(xiàn)數(shù)據(jù)收集的規(guī)?;瘮U(kuò)展,依舊艱難。
GPT 出現(xiàn)后,推理能力質(zhì)的飛躍使其足以擔(dān)當(dāng)推理引擎。在機(jī)器人領(lǐng)域,很多人試圖直接讓 GPT 輸出動(dòng)作指令,但我們意識(shí)到此路不通。盡管 GPT 有推理能力和常識(shí),可它缺乏對(duì)物理動(dòng)力學(xué)、動(dòng)作等模態(tài)信息的理解。比如讓它關(guān)筆記本,它雖知道語言層面的操作步驟,卻不懂實(shí)際手部動(dòng)作的反饋、力度控制等物理細(xì)節(jié)。
經(jīng)過反復(fù)討論,我們?cè)?3年上半年有了新的思路:利用 GPT 等語言或視覺模型的正確方式,是提取其擅長的部分,比如確定機(jī)器人有意義的任務(wù)(如拿外賣、擦桌子等),以及每個(gè)任務(wù)適合的訓(xùn)練環(huán)境(如拿外賣對(duì)應(yīng)客廳的布局、物體設(shè)置等),還有任務(wù)完成與否的判定標(biāo)準(zhǔn),通過編寫代碼的方式生成獎(jiǎng)勵(lì)函數(shù)。
半年后,谷歌的“Language to Rewards for Robotic Skill Synthesis”和英偉達(dá)的“Eureka”接連發(fā)布,其思路與我們一致,即借助在代碼里設(shè)置獎(jiǎng)勵(lì)函數(shù)的手段,構(gòu)建起大語言模型在語言范疇對(duì)世界的認(rèn)知以及在物理領(lǐng)域同世界的交互聯(lián)系,待語義層面的靜態(tài)信息完整生成后,就可以把它們交給強(qiáng)化學(xué)習(xí),使其在物理引擎中對(duì)策略展開訓(xùn)練。
AI科技評(píng)論:團(tuán)隊(duì)很快就確認(rèn) Genesis 是一條行得通的路。
周銜:沒錯(cuò),想通這個(gè) pipeline 那晚的我們特別激動(dòng),因?yàn)橥蝗灰庾R(shí)到可以打通整個(gè)流程,從提出任務(wù)到獲取解決任務(wù)的行動(dòng)數(shù)據(jù),理論上完全無需人力,能靠算力自動(dòng)化生成機(jī)器人數(shù)據(jù)。這也是從大語言和視覺模型中提取其掌握范圍內(nèi)的信息,再通過物理仿真讓機(jī)器人試錯(cuò)、迭代,最終掌握演示方法。
23 年初到年中,我們?cè)囼?yàn)中發(fā)現(xiàn)這個(gè)全新框架雖各環(huán)節(jié)尚不成熟,但切實(shí)可行,從現(xiàn)有技術(shù)到最終實(shí)現(xiàn),每個(gè)環(huán)節(jié)都有清晰的提升路徑,不存在有一個(gè)環(huán)節(jié)在技術(shù)上還存在巨大鴻溝的情況,只需將各環(huán)節(jié)從四五十分提升到七八十分,就能打通流程獲取數(shù)據(jù)。從數(shù)據(jù)驅(qū)動(dòng)來看,若要使機(jī)器人策略模型達(dá)到 GPT、Sora 的水平,也需要海量數(shù)據(jù),那么這條路便是更具擴(kuò)展性的方法。
Genesis 的核心:易、快、準(zhǔn)、開
AI科技評(píng)論:Genesis 最大的亮點(diǎn)是什么?它和其他仿真引擎相比,有何異同?
周銜:我認(rèn)為有三大亮點(diǎn),分別是易用性、速度與功能。
易用性方面,雖不和技術(shù)強(qiáng)相關(guān),但是我個(gè)人最喜歡的部分。盡管還有很多滿足各種需求的 API 還沒有完全暴露給用戶,但已完成的部分 API 設(shè)計(jì)簡潔,學(xué)習(xí)和理解成本非常低,我還精心設(shè)計(jì)了整套可視化方式,從機(jī)器人狀態(tài)呈現(xiàn)到顏色、縮進(jìn)、emoji 運(yùn)用等都花費(fèi)很多沒有意義但是我很enjoy的時(shí)間,希望可以優(yōu)化特別是剛進(jìn)入具身智能和機(jī)器人領(lǐng)域研究者的用戶體驗(yàn)。
速度上,英偉達(dá)用 GPU 加速讓仿真的速度大幅提高,而我們?cè)诖嘶A(chǔ)上又將速度提升一個(gè)數(shù)量級(jí)。不過,目前我們還需研究如何更好利用此速度優(yōu)勢,開發(fā)新的強(qiáng)化學(xué)習(xí)訓(xùn)練方案。
功能上,多數(shù)成熟仿真環(huán)境只能做剛體仿真,像 Omniverse 對(duì)軟體和流體的仿真物理不準(zhǔn)。我們?cè)诮y(tǒng)一框架里集成各類物理求解器,如 MPM 等,支持多種物理性質(zhì)物體求解,也實(shí)現(xiàn)了不同求解器間交互,雖處于早期但會(huì)持續(xù)迭代,且前端用戶界面好用,后端用太極和 Python,語法透明,便于開發(fā)者貢獻(xiàn)和維護(hù)。
AI科技評(píng)論:感覺您對(duì)開源很有熱情。
周銜:這和我一個(gè)強(qiáng)烈的個(gè)人動(dòng)機(jī)相關(guān)。以往仿真環(huán)境多由計(jì)算機(jī)圖形學(xué)領(lǐng)域的人開發(fā),該領(lǐng)域人才厲害但壁壘高,也很少開源工作,雖現(xiàn)在逐漸開源但祖?zhèn)鰿++ 代碼依舊難懂,其成果應(yīng)用也比較難。
在機(jī)器人和具身智能領(lǐng)域,對(duì)仿真能力有依賴,但以往計(jì)算機(jī)圖形學(xué)研究者不懂機(jī)器人研究需求,機(jī)器人研究者不懂仿真物理原理,并且雙方都受英偉達(dá)閉源的 CUDA 生態(tài)制約。比如在仿真環(huán)境中制定策略部署到真機(jī)上,發(fā)現(xiàn)差異想回仿真環(huán)境調(diào)參卻因不了解原理而無法操作,導(dǎo)致兩個(gè)領(lǐng)域雖相互依賴卻存在巨大割裂。
所以我認(rèn)為當(dāng)下亟需讓計(jì)算機(jī)圖形學(xué)領(lǐng)域的優(yōu)秀人才和算法重?zé)ü獠?,讓其為機(jī)器人領(lǐng)域所用。具身智能領(lǐng)域能夠充分發(fā)揮計(jì)算機(jī)圖形學(xué)從渲染到仿真的技術(shù)和人才價(jià)值。因此,我有很強(qiáng)的動(dòng)力去打造一個(gè)完全透明、底層全開源、易于訪問、理解和貢獻(xiàn)的平臺(tái),無論是機(jī)器人領(lǐng)域人才還是其他相關(guān)人員都能輕松參與,這便是我愿意為此事投入大量時(shí)間的原因。
AI科技評(píng)論:可微分性的實(shí)現(xiàn)難度大、也容易和優(yōu)化策略產(chǎn)生沖突,現(xiàn)有的大多數(shù)物理引擎都不支持,為什么 Genisis 會(huì)采取這個(gè)路徑呢?
周銜:這里其實(shí)有個(gè)誤區(qū),大家以為我們的目標(biāo)是做可微仿真,實(shí)則不然,這只是我們提供的一個(gè)會(huì)幫助這個(gè)領(lǐng)域發(fā)展的重要feature。
最初在做流體等精細(xì)操作任務(wù)時(shí),我們意識(shí)到,單純依靠純強(qiáng)化學(xué)習(xí)通過大量采樣軌跡來尋找最優(yōu)路徑,而若有梯度信息,就能引導(dǎo)策略朝著正確方向發(fā)展,這在當(dāng)時(shí)極大地加速了訓(xùn)練過程。不過,利用可微仿真和梯度信息來加速強(qiáng)化學(xué)習(xí)的策略搜索,在學(xué)界至今仍處于研究階段,尚未達(dá)成共識(shí)。
目前的框架不成熟也不好用,屬于小眾探索領(lǐng)域。此前的工具如 Google 的物理模擬引擎 Brax,學(xué)習(xí)曲線很高,功能也不完善物,而之前我們做的 FluidLab 這些工作,因?yàn)楹偷讓拥?taichi 綁定比較深,對(duì)于外部用戶來說想要獲取梯度也存在困難。
所以,為了加速這一領(lǐng)域的研究,我們認(rèn)為有必要打造一個(gè)如同 Pytorch 般好用的工具,方便獲取梯度并與策略網(wǎng)絡(luò)連接。這并非我們主要的優(yōu)化方向,而是我們額外提供的工具和功能,旨在推動(dòng)可微仿真研究的加速發(fā)展,以便讓我們了解其對(duì)學(xué)習(xí)策略的提升作用。
“為愛發(fā)電”
AI科技評(píng)論:Genesis 歷時(shí)兩年,您覺得其中最大的困難是什么?又是如何克服的呢?
周銜:Genesis 如此龐大的系統(tǒng),涉及諸多方面的開發(fā),而個(gè)人的專業(yè)知識(shí)無法覆蓋全面。一方面,我們要尋覓各領(lǐng)域的專業(yè)人士,比如做生成式模塊時(shí),得拓展人脈,拉更多合作者加入。就像我自己,兩年前對(duì)仿真一竅不通,也是在這個(gè)過程中學(xué)習(xí)的。
我深感推進(jìn)這樣的大項(xiàng)目在學(xué)界極為困難,因?yàn)槲覀儾捎玫氖亲韵露系暮献鞣绞?。淦?chuàng)老師雖為項(xiàng)目顧問,卻并非傳統(tǒng)意義上的導(dǎo)師,大家是平等的合作者,他幫忙聯(lián)系一些人參與進(jìn)來。
一般的學(xué)術(shù)合作,導(dǎo)師手握經(jīng)費(fèi),學(xué)生為其工作,但這個(gè)項(xiàng)目由我來主導(dǎo)推進(jìn)統(tǒng)籌規(guī)劃,但卻無法給予任何人經(jīng)費(fèi)上的激勵(lì),全靠大家“為愛發(fā)電”。這就導(dǎo)致合作形式松散,每個(gè)人都有各自的學(xué)業(yè)得完成,時(shí)常忙得不可開交。
我其實(shí)有點(diǎn)完美主義,常常想花很多的功夫想把事情打磨到極致,然而在這種模式下,當(dāng)其他合作者不認(rèn)同我提出的需求時(shí),因?yàn)槲覀冞@種自下而上的合作方式,我很難以像PhD老板那樣要求他們。比如另一位核心貢獻(xiàn)者、馬里蘭大學(xué)博士喬懌凌負(fù)責(zé)剛體仿真框架的實(shí)現(xiàn),最初的版本因?yàn)槲覀兿虢y(tǒng)一各種材料的表示和全局的碰撞檢測和求解,速度很慢,當(dāng)時(shí)我希望可以在速度上至少可以達(dá)到 Isaac 和 MJX 的水平,但當(dāng)時(shí)的團(tuán)隊(duì)認(rèn)為可能很難實(shí)現(xiàn)。
于是我當(dāng)時(shí)唯一的選擇是自己把整套框架拿過來逐行拆解優(yōu)化,嘗試對(duì)每個(gè) GPU Kernel 內(nèi)的數(shù)據(jù)結(jié)構(gòu)和循環(huán)層級(jí)進(jìn)行優(yōu)化。當(dāng)時(shí)我連睡覺都想著如何給它提速,經(jīng)過多輪不懈努力后,最終我們成功實(shí)現(xiàn)比 Issac Gym 快了很多。類似情況還有很多,當(dāng)合作者缺乏達(dá)成目標(biāo)的動(dòng)力時(shí),我有時(shí)需要自己接手重新優(yōu)化和設(shè)計(jì),并證明一個(gè)更好的狀態(tài)是可行的。我們之間的信任就是在這樣的過程中建立起來。
無論如何,我們還是堅(jiān)持下來并完成了項(xiàng)目。若有一個(gè)高效的七八人工程師團(tuán)隊(duì),或許七八個(gè)月就能完成,而我們作為缺乏工程經(jīng)驗(yàn)的博士生,很多東西都是邊摸索邊做,把自己當(dāng)工程師使,在探索中學(xué)習(xí)如何設(shè)計(jì)、搭建和整合各個(gè)模塊。
AI科技評(píng)論:自學(xué)成為工程師是一種什么體驗(yàn)?
周銜:我覺得最有趣的是,過去大家常用的仿真環(huán)境代碼極為復(fù)雜,作為初學(xué)者,會(huì)被其復(fù)雜程度嚇到,還會(huì)揣測其背后是否真有不得不如此復(fù)雜的緣由,只是自己尚未理解。
但我個(gè)人傾向于精心打磨用戶體驗(yàn),期望每個(gè)功能都能通過一行代碼調(diào)用,簡單易用。而隨著自己的鉆研,我意識(shí)到大多代碼能大幅簡化。如今我簡化后的成果,收到很多用戶反饋,都說非常好用,對(duì)新手很友好。
這讓我有了另一個(gè)感悟:很多時(shí)候,我們以為一些事情復(fù)雜背后定有隱情,但當(dāng)自己親自上手去做,就會(huì)發(fā)現(xiàn)完全可以將其做得更好。
AI科技評(píng)論:當(dāng)時(shí)您有想過 Genesis 會(huì)耗時(shí)這么久嗎?
周銜:2023年初我開始做 Genesis 時(shí)以為大半年就能寫完,到2023年底時(shí),感覺已經(jīng)寫得差不多了。但后來發(fā)現(xiàn)距離成熟框架還差很遠(yuǎn),于是不斷迭代、修改。
要是最初有人跟我說這得做兩年,我可能都不會(huì)開始。我們有幾套成熟軟件框架,能直接在上面改,但大家都在抱怨現(xiàn)在的物理引擎難用,卻沒人去解決這個(gè)問題,我們就想著自己來試試。
從23年一月開始,最初我們只是想寫個(gè)仿真框架,到了三月有了新想法,可以真正實(shí)現(xiàn)自動(dòng)化,不僅有底層物理引擎,還能通過它自動(dòng)生成數(shù)據(jù),是能原生生成數(shù)據(jù)的引擎。這意味著這個(gè)工作上升到了一個(gè)新維度,特別令人興奮,所以我們就一直做下去了。
回應(yīng)質(zhì)疑
AI科技評(píng)論:Genesis發(fā)布之后熱度頗高,在收獲贊揚(yáng)的同時(shí)也有些對(duì)測試速度、精確度等方面的challenge,您怎么看待這些質(zhì)疑的聲音?
周銜:網(wǎng)傳的一份質(zhì)疑我們速度的報(bào)告賺足了很多眼球,一開始我們擔(dān)心確實(shí)是我們的疏漏導(dǎo)致早期的測試結(jié)果與實(shí)際不符,所以最初的兩天壓力非常大,于是這幾天一直在做各種測試,測試的結(jié)果是 Genesis 確實(shí)在速度上有很大的優(yōu)勢。
那份質(zhì)疑里有很多存在的問題,有些我們覺得不是作者的主觀意圖,比如沒有用相同的機(jī)器人模型,同時(shí)因?yàn)槲覀儍?nèi)部一個(gè)碰撞檢測的環(huán)節(jié)對(duì)于方塊的支撐函數(shù)實(shí)現(xiàn)中有個(gè)bug,導(dǎo)致那份測試報(bào)告的某個(gè)場景在打開自碰撞之后掉速嚴(yán)重,這個(gè)我們已經(jīng)修復(fù)了。其他地方我們發(fā)現(xiàn)有很多是事實(shí)性的錯(cuò)誤和有誤導(dǎo)性的設(shè)置,比如因?yàn)椴恢蚋牡袅斯俜绞褂玫那蠼馄鬟x擇,對(duì)于一些基本概念的錯(cuò)誤理解等等,這些我們?cè)诤妥髡叩臏贤ㄟ^程中對(duì)面也承認(rèn)了,并且承諾會(huì)更改這些錯(cuò)誤。
另外有關(guān)對(duì) Genesis 精確度方面的質(zhì)疑,認(rèn)為我們的物理引擎不如 PhysX,需要更多計(jì)算資源才能達(dá)到其精確度,但事實(shí)卻相反。學(xué)界公認(rèn) Mujoco 的物理引擎和英偉達(dá)的 PhysX 相比是更加符合解析解的 formulation,后者是比較接近 PBD(基于位置的動(dòng)力學(xué))的相對(duì)簡化的物理模型。我們構(gòu)造約束系統(tǒng)時(shí)遵循了 Mujoco 的約束,然后額外實(shí)現(xiàn)了 GPU 加速的碰撞檢測,在控制變量的情況下行為能和 Mujoco 完全保持一致的,像方塊掉落旋轉(zhuǎn)再回轉(zhuǎn),行為和時(shí)間點(diǎn)都能精準(zhǔn)匹配。
另外可能需要注意的是,抓取的穩(wěn)定性有時(shí)候和物理的準(zhǔn)確性并不完全對(duì)應(yīng),因?yàn)樵诂F(xiàn)實(shí)世界中很多時(shí)候的抓取也會(huì)存在不穩(wěn)定性,我們現(xiàn)在的這個(gè)模塊可以完全匹配Mujoco的求解結(jié)果。而我們下一個(gè)大版本的更新會(huì)支持 GPU 加速的 ABD(Affine Body Dynamics,仿射體動(dòng)力學(xué))和 IPC(Incremental Potential Contact,增量式潛在接觸),可以更加精確的建?,F(xiàn)實(shí)世界的接觸模型,這也是其他主流剛體仿真器不支持的。
AI科技評(píng)論:目前的機(jī)器人操作領(lǐng)域,大家的共識(shí)集中在真機(jī)而非仿真,為什么您會(huì)選擇非共識(shí)?您怎么看待仿真與真機(jī)數(shù)據(jù)呢?
周銜:我并非認(rèn)為只有仿真才能行得通而真機(jī)不行,我們更多的是覺得,所有有價(jià)值的路線都值得探索,而且需要推動(dòng)到極致。
仿真陷入瓶頸,一方面是生態(tài)不透明,無法在其基礎(chǔ)上迭代和貢獻(xiàn);另一方面,當(dāng)下眾多優(yōu)秀模型如 GPT 等的發(fā)展,離不開算力提升。
但完全依賴真機(jī)采集數(shù)據(jù)無法利用這一點(diǎn),難以指數(shù)級(jí)擴(kuò)展數(shù)據(jù)規(guī)模,人力成本又高。而仿真有很大優(yōu)勢,雖真機(jī)在縮小與真實(shí)世界的差距以及處理復(fù)雜物理現(xiàn)象上有優(yōu)勢,但仿真能提供大量數(shù)據(jù),讓機(jī)器人建立與物理世界交互的基本認(rèn)知,即便不精準(zhǔn),也可通過真機(jī)的精準(zhǔn)數(shù)據(jù)提升其局限性。
我認(rèn)為兩者應(yīng)結(jié)合,仿真占比絕大多數(shù),因?yàn)槠淇赏ㄟ^算力無限擴(kuò)展,雖質(zhì)量有欠缺,但能提供廣泛數(shù)據(jù)。
真機(jī)存在的問題是,如人形機(jī)器人通過強(qiáng)化學(xué)習(xí)行走等炫酷演示,只是數(shù)據(jù)驅(qū)動(dòng)的結(jié)果,并非真機(jī)有本質(zhì)科學(xué)突破,只是大家意識(shí)到數(shù)據(jù)重要性而暴力采集真機(jī)數(shù)據(jù),這就像“吸鴉片”,一旦真機(jī)數(shù)據(jù)帶來的 demo 效果達(dá)到飽和,便難以為繼。
總之,我認(rèn)為仿真和真機(jī)兩條路都要走,真機(jī)也有價(jià)值,做仿真不是認(rèn)定只有它行,而是其存在很多遺留的問題需要解決,所以我們希望可以把這條路繼續(xù)向前推進(jìn)。
AI科技評(píng)論:那接下來 Genesis 還會(huì)有更新嗎?后續(xù)會(huì)有更多對(duì) manipulation 的支持嗎?
周銜:我們肯定會(huì)持續(xù)更新,目標(biāo)是將其打造成對(duì)機(jī)器人最友好的平臺(tái),讓大家共同維護(hù)好這個(gè)開源社區(qū)。之后會(huì)組建一個(gè)成熟的工程師團(tuán)隊(duì)長期運(yùn)維,今年年初開始做整體的路線規(guī)劃及團(tuán)隊(duì)搭建。
關(guān)于 manipulation 方面,之前有一些聲音稱 Genesis 更支持移動(dòng)(locomotion),操作精度有仿真精度的問題,但實(shí)際上并非如此,我們不存在不支持操作的情況。而對(duì)于機(jī)器人領(lǐng)域有意義的功能、特性以及需要修復(fù)的漏洞等,我們都會(huì)以高效方式及時(shí)添加和解決。我們做這個(gè)平臺(tái)的初心就是可以有一個(gè)完全透明,所有人都可以貢獻(xiàn),而且功能強(qiáng)大的框架,作為一個(gè)平臺(tái)把計(jì)算機(jī)圖形學(xué),物理仿真,渲染,以及具身智能的學(xué)者可以團(tuán)結(jié)起來,一起來創(chuàng)造物理 AI。
關(guān)于具身智能領(lǐng)域的更多精彩故事,歡迎添加雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))作者微信 anna042023 交流。雷峰網(wǎng)
相關(guān)文章:
CMU 具身智能風(fēng)云榜:從傳統(tǒng)到全面
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。