0
本文作者: 饒舒瑋 | 2024-06-28 16:17 |
作者丨饒舒瑋
編輯丨岑峰
“既要又要”是何泰然的野心,也是決心。
在談到人形機(jī)器人遙操作的可行路徑時(shí),何泰然表示他既可以實(shí)現(xiàn)機(jī)器人的全身控制,還可以用強(qiáng)化學(xué)習(xí)來(lái)實(shí)現(xiàn)這一點(diǎn)。在他所探索的這條路上,不必因?yàn)榧夹g(shù)瓶頸或短期目標(biāo)而妥協(xié),可以“既要又要”。
遙操作,即遠(yuǎn)程操作(Teleoperation)。在機(jī)器人領(lǐng)域,人們通過(guò)某種設(shè)備操控機(jī)器人完成指令下的各種動(dòng)作,從而收集機(jī)器人的訓(xùn)練數(shù)據(jù),為后續(xù)自動(dòng)化學(xué)習(xí)提供數(shù)據(jù)。因此,機(jī)器人遙控幾乎是每一個(gè)機(jī)器人公司不可繞開(kāi)的部分。
盡管市場(chǎng)潛力無(wú)限,但在何泰然看來(lái),目前領(lǐng)域依然囿于技術(shù)難關(guān),并未得到長(zhǎng)足的發(fā)展。而現(xiàn)在,具身智能的興起,為這一領(lǐng)域帶來(lái)一些新的生機(jī)。
2015年前后,人工智能領(lǐng)域?qū)崿F(xiàn)了從“感知智能”向“認(rèn)知智能”研究范式的重大轉(zhuǎn)變。ResNet、Transformer 等創(chuàng)新架構(gòu)的提出,不僅推動(dòng)了深度學(xué)習(xí)技術(shù)的飛躍,更為大模型的問(wèn)世奠定了基礎(chǔ)。大模型以其空前的計(jì)算能力和數(shù)據(jù)處理能力,極大地拓展了機(jī)器學(xué)習(xí)在處理復(fù)雜任務(wù)時(shí)的邊界,尤其是在自然語(yǔ)言處理和計(jì)算機(jī)視覺(jué)等關(guān)鍵領(lǐng)域取得了革命性的進(jìn)步。這些技術(shù)進(jìn)步,為機(jī)器人的感知、決策和交互能力的提升,奠定了堅(jiān)實(shí)的算法基礎(chǔ)。
得益于此,自然語(yǔ)言處理、計(jì)算機(jī)視覺(jué)和機(jī)器學(xué)習(xí)領(lǐng)域的專家學(xué)者們,與機(jī)器人方向的研究者一道,成為引領(lǐng)這一波具身智能發(fā)展浪潮的關(guān)鍵力量。他們正推動(dòng)著具身智能不斷突破邊界,向著更加智能化、更具人性化的方向發(fā)展。
盡管具身智能被視為未來(lái)人工智能研究的一個(gè)重要方向,但其發(fā)展仍處于起步階段,正面臨著技術(shù)、規(guī)范、安全等多方面的挑戰(zhàn)。正如一百多年前汽車(chē)剛剛出現(xiàn)的時(shí)代,我們迫切需要打通從感知到認(rèn)知的層面,建立起一套更大、更統(tǒng)一的系統(tǒng)。
OmniH2O 項(xiàng)目正是孵化于這樣的一個(gè)時(shí)代背景之下。其發(fā)起者何泰然是卡內(nèi)基梅隆大學(xué)(CMU)的一名博士生,連同他在內(nèi)的9人小組就是一整個(gè)團(tuán)隊(duì)。在何泰然博士導(dǎo)師石冠亞、劉暢流以及之前在上海交通大學(xué)的導(dǎo)師張偉楠的指導(dǎo)和協(xié)助下,OmniH2O 不僅展示了全尺寸人形機(jī)器人的全身遙控和自主學(xué)習(xí)的能力,更是在人形機(jī)器人控制的自然性和靈活性上有所提升。
OmniH2O 項(xiàng)目的核心在于其基于學(xué)習(xí)的方法,通過(guò)使用運(yùn)動(dòng)學(xué)姿勢(shì)作為通用的控制接口,實(shí)現(xiàn)多種控制人形機(jī)器人的方式。項(xiàng)目的一個(gè)關(guān)鍵貢獻(xiàn)是其開(kāi)發(fā)的端到端全身策略,該策略協(xié)調(diào)了上半身和下半身的動(dòng)作,以支持靈巧的操控和穩(wěn)健的移動(dòng)。此外,OmniH2O項(xiàng)目還發(fā)布了首個(gè)針對(duì)人形機(jī)器人全身控制的數(shù)據(jù)集 OmniH2O-6,包含六個(gè)日常任務(wù),并通過(guò)這些任務(wù)展示了人形機(jī)器人全身技能的學(xué)習(xí)能力。
在AI科技評(píng)論對(duì)何泰然博士的專訪中,我們深入了解了 OmniH2O 項(xiàng)目的成立初衷、創(chuàng)新點(diǎn)以及其在具身智能領(lǐng)域中的潛在影響。何博士分享了他們團(tuán)隊(duì)如何通過(guò)遙操作實(shí)現(xiàn)數(shù)據(jù)收集和學(xué)習(xí),解鎖人形機(jī)器人的潛力,并討論了在這一過(guò)程中遇到的挑戰(zhàn)和解決經(jīng)驗(yàn)。
以下即為AI科技評(píng)論與何泰然就 OmniH2O 項(xiàng)目的訪談實(shí)錄,限于篇幅,AI科技評(píng)論進(jìn)行了不改原意的編輯:
AI科技評(píng)論:在具身智能領(lǐng)域的生態(tài)鏈中, OmniH2O 項(xiàng)目的定位是什么?
何泰然:我們這個(gè)工作自身是一個(gè)概念驗(yàn)證(Proof of Concept)的定位。我想通過(guò)這個(gè)項(xiàng)目證明,人可以通過(guò) VR 眼鏡或者其他的設(shè)備比如 RGB 相機(jī)遙操作一個(gè)人形機(jī)器人來(lái)收集數(shù)據(jù),使其完成日常生活的任務(wù)。
在這過(guò)程中,我們還希望能夠有一些新發(fā)現(xiàn),比如怎么樣可以把控制和自主性做的更好、更魯棒、更聰明。但我覺(jué)得在這一方面需要工業(yè)界的幫助,一起將整個(gè)系統(tǒng)進(jìn)行優(yōu)化升級(jí),單憑我們學(xué)術(shù)界的實(shí)驗(yàn)室很難把這件事推動(dòng)到極致。所以我稱這個(gè)工作只是一個(gè) Proof of Concept。
AI科技評(píng)論:為什么會(huì)選擇人形機(jī)器人這個(gè)載體進(jìn)行遙操作的研究?
何泰然:因?yàn)檫@個(gè)世界的所有設(shè)計(jì)都是圍繞人類(lèi)的身材和活動(dòng)規(guī)律來(lái)設(shè)計(jì)的,只有人形的機(jī)器人,才能夠無(wú)縫融入我們的物理世界。
此外,在遙操作一個(gè)機(jī)器人去進(jìn)行學(xué)習(xí)訓(xùn)練的過(guò)程中,因?yàn)樯眢w構(gòu)造的相似,使得我們?nèi)祟?lèi)遙控人形機(jī)器人的學(xué)習(xí)成本最低,這也是關(guān)鍵因素之一。人類(lèi)的大腦就是一個(gè)最強(qiáng)的預(yù)訓(xùn)練模型,我們可以將人類(lèi)大腦的認(rèn)知和控制能力提煉出來(lái)以此教會(huì)人形機(jī)器人,如此便可直接將人類(lèi)世界的經(jīng)驗(yàn)分享給機(jī)器人,從而進(jìn)行遙操作,沒(méi)必要再一切從頭開(kāi)始從零訓(xùn)練。
AI科技評(píng)論:那么,又為何會(huì)選擇 VR 頭盔進(jìn)行遙操作?
何泰然:當(dāng)時(shí)也有使用 RGB 相機(jī),從一些 2D 的圖像還原成 3D 的人類(lèi)姿態(tài)估計(jì),將這些數(shù)據(jù)去做遙操作然后喂給 tracking policy,這個(gè)方法可行,但精度和魯棒性不如頭戴式 VR。另外一些更好的 interface (比如動(dòng)作捕捉設(shè)備或者全身的外骨骼)又太貴了,性價(jià)比不高。
后來(lái)我們發(fā)現(xiàn)使用 VR 眼鏡可以很好地平衡價(jià)格和實(shí)用性。它有得天獨(dú)厚的兩個(gè)優(yōu)勢(shì),一是它本身就是個(gè)顯示器,可以完全代入機(jī)器人視角,相比別的設(shè)備更加直觀。二是,VR 眼鏡有非常準(zhǔn)確的頭、手追蹤和位置估計(jì)。像是蘋(píng)果就已經(jīng)把這點(diǎn)做到極致了,每個(gè)手有25個(gè)點(diǎn)位,長(zhǎng)什么樣?分別的角度是多少?Apple Vision Pro 可以預(yù)估得非常精準(zhǔn)。所以用這個(gè)設(shè)備來(lái)做遙操作,是再合適不過(guò)了。
所以目前來(lái)看,我們認(rèn)為 VR 這個(gè)賽道很好,但如果未來(lái)有更好的設(shè)備出現(xiàn),我們也會(huì)追求更好、更合適的設(shè)備來(lái)進(jìn)行遙操作和訓(xùn)練。
AI科技評(píng)論:ChatGPT 出現(xiàn)之后,會(huì)考慮將 ChatGPT 跟 OmniH2O 打通實(shí)現(xiàn)自主操作嗎?
何泰然:其實(shí)打通就是讓類(lèi)似 GPT-4o 這樣的大模型來(lái)替換人類(lèi)的遙操作員。但人類(lèi)的遙操作員不管通過(guò)什么設(shè)備,其所傳輸給下游的都是人形機(jī)器人的控制策略,也就是一些人形機(jī)器人關(guān)鍵點(diǎn)(頭/手/手指)的位置。我認(rèn)為,如果下游的控制策略做得好,那么上游來(lái)自什么其實(shí)不重要。
如果我們要利用 GPT-4o 進(jìn)行遙操作,就是通過(guò)人形機(jī)器人頭上相機(jī),將看到的東西實(shí)時(shí)傳給 GPT-4o,告訴它現(xiàn)在要怎么做。但目前如果讓 GPT-4o 直接執(zhí)行指令,它的響應(yīng)時(shí)間太長(zhǎng)了,所以我們讓 GPT-4o 進(jìn)行行動(dòng)的選擇,而不是完全自主決策,我覺(jué)得這對(duì)現(xiàn)在的方案來(lái)說(shuō)是最可行的。
當(dāng)然之后我覺(jué)得像 GPT-4o 這樣的 vision language model 一定會(huì)有非常大的進(jìn)步,到時(shí)候甚至可以不用上傳到云端,不會(huì)有網(wǎng)絡(luò)的延遲,可以在機(jī)器人自己的設(shè)備上進(jìn)行 inference。那個(gè)時(shí)候就不用做選擇題了,直接做寫(xiě)作題就行了。
AI科技評(píng)論:現(xiàn)在有和哪些工業(yè)界的公司進(jìn)行接觸和合作嗎?在和他們接觸的時(shí)候會(huì)如何介紹這個(gè)項(xiàng)目?
何泰然:現(xiàn)在和工業(yè)界的接觸還不多,一般我們是工業(yè)界的用戶。因?yàn)槲覀儗?shí)驗(yàn)室會(huì)買(mǎi)一些宇樹(shù)或是其他公司的機(jī)器人。我覺(jué)得對(duì)于每一個(gè)公司來(lái)說(shuō),人形機(jī)器人遙操作都是一個(gè)不可缺失的部分。現(xiàn)在學(xué)術(shù)界有很多成果,來(lái)自UCSD、清華、Stanford和CMU,我相信未來(lái)工業(yè)界一定會(huì)有相當(dāng)成熟的方案整合。
但現(xiàn)在很多公司在進(jìn)行機(jī)器人遙操作過(guò)程中都有或多或少的妥協(xié),要么是對(duì)上下半身分離控制,不做全身的控制,要么有些公司偏向于更穩(wěn)定成熟的傳統(tǒng)控制方法,不會(huì)選擇上強(qiáng)化學(xué)習(xí)。而我們現(xiàn)在在做的事就是想傳遞給工業(yè)界這樣一個(gè)信息:人形機(jī)器人遙操作可以既做全身控制又做強(qiáng)化學(xué)習(xí),還能夠達(dá)到很好的完成度。
AI科技評(píng)論:你們是如何解決在遙操作和自主學(xué)習(xí)方面遇到的一些技術(shù)障礙?
何泰然:我們不追求一步到位的解決。首先,我們會(huì)把問(wèn)題進(jìn)行拆分,比如我們會(huì)用一個(gè)很好的 interface (VR)來(lái)做遙操作,在下游用追蹤策略(tracking policy) 來(lái)追蹤人類(lèi)的動(dòng)作。由此,我們就把這個(gè)挑戰(zhàn)拆分成身體控制和認(rèn)知的的挑戰(zhàn),其中在認(rèn)知層面,我們就可以用遙操作來(lái)代替。
在我看來(lái),其實(shí)遙操作和自主學(xué)習(xí)這兩類(lèi)不同任務(wù)的邊界很模糊。因?yàn)楸举|(zhì)上,遙操作是為了讓機(jī)器人實(shí)現(xiàn)自主學(xué)習(xí)。而這一切的基礎(chǔ)都建立在一個(gè)非常好的控制策略上。上游的話,不論是來(lái)自人類(lèi)的大腦,或是自己訓(xùn)練的自動(dòng)智能體都是可行的。
AI科技評(píng)論:現(xiàn)在具身智能的發(fā)展需要各種各樣的數(shù)據(jù)集,你認(rèn)為哪些數(shù)據(jù)集比較重要?
何泰然:我覺(jué)得現(xiàn)在的問(wèn)題在于每一種機(jī)器人形態(tài)都有它的數(shù)據(jù)集,但是我們很難把不同的數(shù)據(jù)整合到一起。今年年初 Stanford 發(fā)布的一個(gè)研究成果叫 UMI ,就是一個(gè)很好的 Manipulation Data 的嘗試。
我認(rèn)為,不管是狗式的機(jī)器臂,還是人形機(jī)器人的機(jī)械臂,都可以共享數(shù)據(jù)。但人形機(jī)器人不同于純機(jī)械臂的manipulation,除了臂之外,腿、腰等部位的數(shù)據(jù)我覺(jué)得也相當(dāng)重要。
AI科技評(píng)論:除了遙操作之外,我們知道還可以通過(guò)仿真獲得數(shù)據(jù),你認(rèn)為 3D 仿真這種方式能從多大程度上解決數(shù)據(jù)問(wèn)題?
何泰然:我覺(jué)得會(huì)從很大程度上解決。正是因?yàn)槲覀儧](méi)有足夠機(jī)器人在真實(shí)世界的數(shù)據(jù),所以才需要仿真。雖然可能通過(guò)仿真獲得的數(shù)據(jù)并不是那么準(zhǔn)確,但能夠提供足夠好的起始數(shù)據(jù)。我相信未來(lái)最好的系統(tǒng),一定不會(huì)只由一種數(shù)據(jù)所訓(xùn)練出來(lái)。
老生常談,數(shù)據(jù)價(jià)值可以用金字塔的結(jié)構(gòu)來(lái)比喻,最易得的模擬器仿真數(shù)據(jù)在最低層,無(wú)窮無(wú)盡也大致正確;最高層的數(shù)據(jù)最難得,但價(jià)值也最高。未來(lái)最好的算法或者最強(qiáng)的機(jī)器人模型,一定會(huì)是那種完美地融合了不同數(shù)據(jù)來(lái)源的類(lèi)型。
AI科技評(píng)論:這個(gè)項(xiàng)目的數(shù)據(jù)集包含了哪些任務(wù)?未來(lái)還希望達(dá)到哪些任務(wù)目標(biāo)?
何泰然:數(shù)據(jù)集包含了 6 個(gè)任務(wù)。第一個(gè)是打拳擊,我作為教練,它要能夠識(shí)別并執(zhí)行拳套顏色和左右拳的指令。
第二個(gè)是玩兒石頭剪刀布,輸入游戲規(guī)則后,通過(guò)幾次訓(xùn)練,讓它學(xué)會(huì)怎么在石頭剪刀布中贏。
第三個(gè)是關(guān)于下蹲躲避障礙物的任務(wù)。我們?cè)O(shè)置了一個(gè)長(zhǎng)木橫杠的自動(dòng)裝置不斷向人形機(jī)器人靠近,如果機(jī)器人不能夠?qū)W會(huì)下蹲進(jìn)行躲避就會(huì)一直被打。
第四、五個(gè)都是抓取的任務(wù),機(jī)器人用右手抓取物體放置在一個(gè)盒子上,再用左手給放回原處,如此左右手重復(fù)此過(guò)程。
第六個(gè)任務(wù)是關(guān)于扔垃圾的,比如我們將垃圾遞給人形機(jī)器人,它要學(xué)會(huì)自主抓住,并使其放進(jìn)垃圾桶。
未來(lái)我們希望能將控制做得更好,在行動(dòng)效率、魯棒性和準(zhǔn)確性方面都有提升,這樣收集數(shù)據(jù)的效率也會(huì)更高,我們也會(huì)更多在日常生活場(chǎng)景中去收集數(shù)據(jù)。
AI科技評(píng)論:你認(rèn)為上述的數(shù)據(jù)集離實(shí)際應(yīng)用還有多遠(yuǎn)?
何泰然:這個(gè)數(shù)據(jù)集雖然包含了 6 個(gè)任務(wù)的高質(zhì)量數(shù)據(jù),但主要貢獻(xiàn)是為學(xué)術(shù)界和工業(yè)界收集數(shù)據(jù),驗(yàn)證機(jī)器人是否能擺脫遙操作進(jìn)行自主學(xué)習(xí)。
實(shí)際上這個(gè)數(shù)據(jù)量總共加起來(lái)其實(shí)不到一個(gè)小時(shí)的操作數(shù)據(jù)。若要真正實(shí)際應(yīng)用,可能需要收集幾千上萬(wàn)人長(zhǎng)時(shí)間的遙操作數(shù)據(jù),沒(méi)有人知道準(zhǔn)確答案。我認(rèn)為需要工業(yè)界和學(xué)術(shù)界一起去回答,要怎么樣更高效地收集、利用這些數(shù)據(jù),要怎么設(shè)計(jì)數(shù)據(jù)結(jié)構(gòu),才能使數(shù)據(jù)得到最大化使用。
AI科技評(píng)論:什么時(shí)候開(kāi)始對(duì)人形機(jī)器人遙操作這一領(lǐng)域產(chǎn)生興趣?在哪個(gè)階段有了想做 OmniH2O 項(xiàng)目的想法?
何泰然:我的興趣是從小時(shí)候那部科幻電影《鐵甲鋼拳》開(kāi)始的。那部電影講述了人類(lèi)通過(guò)遙操作機(jī)器人來(lái)代替自己進(jìn)行拳擊賽的未來(lái)??催^(guò)電影之后,我心里就埋下了種子,希望自己未來(lái)也能夠設(shè)計(jì)出電影里的那套機(jī)器人系統(tǒng)。
我在上海交通大學(xué)完成了我的本科學(xué)位,然后在2023年8月份來(lái)到 CMU 開(kāi)始我的博士生涯,也是在這里我正式開(kāi)始準(zhǔn)備 OmniH2O 項(xiàng)目。在 CMU 入學(xué)后,我就和導(dǎo)師石冠亞教授溝通了這個(gè)想法。除了個(gè)人興趣的原因,開(kāi)展 OmniH2O 項(xiàng)目也有一定的研究意義。這個(gè)項(xiàng)目可以利用遙操作技術(shù)收集到驅(qū)動(dòng)機(jī)器人的數(shù)據(jù)飛輪。
因?yàn)樵谟?jì)算機(jī)視覺(jué)和自然語(yǔ)言處理領(lǐng)域,可以通過(guò)網(wǎng)絡(luò)等方式找到語(yǔ)料庫(kù)作為數(shù)據(jù),但是在機(jī)器人領(lǐng)域目前并沒(méi)有現(xiàn)成的數(shù)據(jù)可以獲取。我認(rèn)為遙操作可以作為一種解決辦法,由人來(lái)控制機(jī)器人完成一些日常的重要任務(wù),以此收集數(shù)據(jù),開(kāi)啟研發(fā)自動(dòng)版機(jī)器人第一步,然后再讓自動(dòng)版機(jī)器人去迭代更多的數(shù)據(jù),形成數(shù)據(jù)飛輪。這是我認(rèn)為真正可以讓具身智能實(shí)現(xiàn)的一條路。
AI科技評(píng)論:在你看來(lái)的話,近十年來(lái),機(jī)器人的進(jìn)步主要體現(xiàn)在哪些方面?
何泰然:其實(shí)這十年來(lái)機(jī)器人的突破,比起 AI 的其他領(lǐng)域還是遠(yuǎn)遠(yuǎn)不足的。實(shí)話說(shuō),我認(rèn)為機(jī)器人的突破主要來(lái)自 AI 其他社區(qū)的進(jìn)步。
機(jī)器人領(lǐng)域主要分為感知、規(guī)劃和控制。我覺(jué)得第一大進(jìn)步是感知,第二個(gè)是硬件,如國(guó)內(nèi)的宇樹(shù)公司所造的人形機(jī)器人,成本低,性能也非常好。
另外,在控制上,我看到了強(qiáng)化學(xué)習(xí)在控制機(jī)器人上面的潛力。在10年前,世界上能夠讓一個(gè)人形機(jī)器人走起來(lái)的專家,一只手都數(shù)得過(guò)來(lái)?,F(xiàn)在因?yàn)樯疃葟?qiáng)化學(xué)習(xí)在 AlphaGo 之后得到了長(zhǎng)足的發(fā)展,使這項(xiàng)任務(wù)難度大大降低。
此外,芯片方面的支持也是一大助力。如果只是用單線程在 CPU 上跑模擬器的速度是做不了機(jī)器人的控制的。但是英偉達(dá)的 Isaac gym,包括像 Mujoco3,可以同時(shí)跑幾千甚至上萬(wàn)個(gè) environment,一秒可以跑幾十萬(wàn)甚至幾百萬(wàn)步,這在以前是不可想象的。
所以我認(rèn)為,近十年來(lái)機(jī)器人的進(jìn)步來(lái)自于計(jì)算機(jī)視覺(jué)的認(rèn)知能力,強(qiáng)化學(xué)習(xí)算法的進(jìn)步,以及機(jī)器人硬件和高度并行的 GPU 模擬環(huán)境的進(jìn)步。
AI科技評(píng)論:你怎么看待不同領(lǐng)域的研究者參與到具身智能領(lǐng)域的研究中?
何泰然:我覺(jué)得這是好事。如果一個(gè)人只懂計(jì)算機(jī)視覺(jué)或者只懂強(qiáng)化學(xué)習(xí)、NLP,那么具身智能都沒(méi)有辦法實(shí)現(xiàn)。不管是系統(tǒng)的設(shè)計(jì)控制,還是更高層的智能連接,要怎么實(shí)現(xiàn)最優(yōu)機(jī)器人系統(tǒng)需要大家一起討論。
在整個(gè)討論過(guò)程中,不同研究背景的人是如何思考問(wèn)題的,他們有什么好的解決方案,這背后有沒(méi)有什么共通的能夠讓機(jī)器人變得更好的邏輯等等,能碰撞出不同的火花。比如我們從 ChatGPT 里面學(xué)到 Scaling Law, 數(shù)據(jù)越多,模型越大,表現(xiàn)越好。但是同樣的 Scaling Law 我們?cè)趺醋屗跈C(jī)器人領(lǐng)域也同樣適用,怎么去獲得這個(gè)量級(jí)的數(shù)據(jù),怎么獲得一個(gè)機(jī)器人版本的 GPT?我非常喜歡大家沒(méi)有確定性答案的這種研究領(lǐng)域。大家擁有不同的背景,但都有對(duì)研究問(wèn)題的共同信仰——讓機(jī)器人變得更好,讓每個(gè)人的生活變得更好。
雷峰網(wǎng)雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))雷峰網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。