丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能 正文
發(fā)私信給鄭佳美
發(fā)送

0

BFM-Zero,讓人形機(jī)器人不再依賴高質(zhì)量動捕數(shù)據(jù)

本文作者: 鄭佳美   2025-11-27 10:54
導(dǎo)語:CMU×Meta 聯(lián)手,姚班李憶唐最新論文成果。

讓人形機(jī)器人真正走出實(shí)驗(yàn)室,一直是這個領(lǐng)域最難的挑戰(zhàn)。

仿真里的機(jī)器人往往動作流暢、執(zhí)行準(zhǔn)確,但一旦來到現(xiàn)實(shí)世界,很多看似強(qiáng)大的方法都會因?yàn)榄h(huán)境差異而迅速失效。地面摩擦稍微變一下、身體負(fù)載多一點(diǎn)、傳感器噪聲大一些,甚至只是被人輕輕推一把,機(jī)器人就可能動作僵硬、站不穩(wěn)甚至直接倒下。能不能讓機(jī)器人做到不依賴精細(xì)規(guī)則、不依賴昂貴數(shù)據(jù),也能在真實(shí)場景中保持穩(wěn)定、自然和可靠,這是近年來研究者們越來越關(guān)注的問題。

而最近 CMU 和 Meta 研究團(tuán)隊(duì)共同提出,清華姚班李憶唐為第一作者一篇論文引起了廣泛關(guān)注。這個研究項(xiàng)目嘗試用一種更統(tǒng)一更樸素的方式來訓(xùn)練機(jī)器人,讓模型在大規(guī)模仿真中通過無監(jiān)督交互自己積累經(jīng)驗(yàn),再把獎勵、姿態(tài)、動作序列等不同形式的任務(wù)提示一并壓縮到同一個潛在空間中。

通過這種設(shè)計,機(jī)器人不需要針對每個任務(wù)反復(fù)訓(xùn)練,只要生成合適的潛在向量,就能在現(xiàn)實(shí)環(huán)境中零樣本執(zhí)行動作,并能在面對擾動或條件變化時迅速恢復(fù)穩(wěn)定表現(xiàn)。

這項(xiàng)工作的亮點(diǎn)不在于某一個技巧,而在于它讓機(jī)器人在真實(shí)世界中的表現(xiàn)第一次呈現(xiàn)出一種自然的連貫性。例如它能像人一樣應(yīng)對推搡,能從摔倒中順勢滾動再站起來,能在噪聲很大的動作序列下依然跟隨指令,還能在負(fù)載或摩擦突然變化時,僅通過潛在空間搜索就重新找回穩(wěn)定動作。相比傳統(tǒng)需要大量規(guī)則、腳本和專門訓(xùn)練任務(wù)的做法,這種方式顯得更直接也更通用。

BFM-Zero,讓人形機(jī)器人不再依賴高質(zhì)量動捕數(shù)據(jù)

論文地址:https://arxiv.org/pdf/2511.04131

從仿真到現(xiàn)實(shí)的跨域能力

論文的實(shí)驗(yàn)結(jié)果可以分成三大部分:在仿真環(huán)境里的零樣本測試、在真實(shí)機(jī)器人上的零樣本部署,以及在特殊情況下利用很少的數(shù)據(jù)進(jìn)行快速適應(yīng)。整體來看,這些實(shí)驗(yàn)共同展示了 BFM Zero 的泛化能力、魯棒性和可擴(kuò)展性。

在仿真階段,研究者主要使用 Isaac 和 Mujoco 兩種物理模擬環(huán)境對模型進(jìn)行全面測試。這兩個環(huán)境的物理特性差異較大,因此能很好地檢驗(yàn)策略是否依賴某一種特定物理設(shè)定。

實(shí)驗(yàn)任務(wù)包括三類:動作跟蹤、目標(biāo)姿態(tài)到達(dá)以及獎勵驅(qū)動的行為生成。在動作跟蹤方面,模型在 Isaac 環(huán)境中加入大量物理隨機(jī)化后,雖然不如理想情況下那樣精準(zhǔn),但誤差只略有上升,屬于能接受的小幅變化。

而當(dāng)把模型直接放進(jìn)物理規(guī)律明顯不同的 Mujoco 中時,它的表現(xiàn)依然保持在一個穩(wěn)定水平,性能下降控制在百分之七以內(nèi),這說明模型學(xué)到的不是某個環(huán)境的“技巧”,而是一種具有普適性的運(yùn)動規(guī)律。

BFM-Zero,讓人形機(jī)器人不再依賴高質(zhì)量動捕數(shù)據(jù)

在獎勵優(yōu)化任務(wù)中,研究者讓模型根據(jù)不同獎勵定義,在沒有特定訓(xùn)練的情況下自動推斷應(yīng)該執(zhí)行的行為。這類任務(wù)的難點(diǎn)在于獎勵往往很稀疏,且目標(biāo)多樣。

例如某些獎勵要求機(jī)器人以指定速度朝某方向移動,但由于物理隨機(jī)化導(dǎo)致狀態(tài)分布變得復(fù)雜,有些任務(wù)會出現(xiàn)明顯波動,甚至個別情況表現(xiàn)很差。

這并不是模型本身退化,而是推斷獎勵時依賴 replay buffer 的隨機(jī)采樣,加上物理擾動讓數(shù)據(jù)更加分散。這種現(xiàn)象恰恰證明模型確實(shí)在面對復(fù)雜多變的條件,而不是在一個“干凈環(huán)境”里取巧。

BFM-Zero,讓人形機(jī)器人不再依賴高質(zhì)量動捕數(shù)據(jù)

對于目標(biāo)姿態(tài)到達(dá)任務(wù),模型表現(xiàn)得更為穩(wěn)健。無論目標(biāo)姿態(tài)是否在訓(xùn)練數(shù)據(jù)中出現(xiàn)過,它都能平穩(wěn)地向目標(biāo)靠攏,不會出現(xiàn)劇烈抖動或亂蹦亂跳的異常行為。更關(guān)鍵的是,即便從 AMASS 這類完全不同的動作庫中取姿態(tài),模型也能成功完成,這說明其潛在空間不僅能覆蓋訓(xùn)練數(shù)據(jù),還能擴(kuò)展到數(shù)據(jù)之外。

研究者甚至直接取 AMASS 中的動作片段讓模型跟隨,這些動作的風(fēng)格可能與訓(xùn)練用的 LAFAN1 數(shù)據(jù)差得很遠(yuǎn),但模型照樣能執(zhí)行,說明潛在空間已經(jīng)把這些動作映射到同一個“可控行為區(qū)域”中,風(fēng)格差異已經(jīng)不是障礙。

當(dāng)模型被部署到真實(shí)的 Unitree G1 humanoid 上時,它的零樣本能力表現(xiàn)得更為直觀和令人印象深刻。在動作跟蹤任務(wù)中,機(jī)器人不僅能走路、轉(zhuǎn)身,還能做較復(fù)雜的舞蹈動作、運(yùn)動動作甚至格斗姿態(tài)。

更重要的是當(dāng)它失穩(wěn)時,不會像傳統(tǒng)機(jī)器人那樣僵硬或者直接倒下,而是像人一樣進(jìn)行自然的調(diào)整,例如重心偏移、撐地、滾動緩沖等,然后重新站起來繼續(xù)任務(wù)。

BFM-Zero,讓人形機(jī)器人不再依賴高質(zhì)量動捕數(shù)據(jù)

這種自然的恢復(fù)動作完全來自策略本身的結(jié)構(gòu)化潛在空間與風(fēng)格約束,并不是單獨(dú)訓(xùn)練“摔倒恢復(fù)”之類的技能。甚至在給它用于跟蹤的動作是從單目視頻估計出來的、質(zhì)量很差的動作序列時,它依然能平穩(wěn)跟隨,說明模型對輸入質(zhì)量有很強(qiáng)的容錯能力。

在目標(biāo)姿態(tài)到達(dá)任務(wù)中,研究者隨機(jī)采樣了大量目標(biāo)姿態(tài),要求機(jī)器人按照順序逐一到達(dá)。機(jī)器人在姿態(tài)之間切換時動作十分平滑,不需要人為添加插值或過渡動作,這說明其內(nèi)部潛在空間具有天然的連續(xù)性。如果有些姿態(tài)本身不可能在現(xiàn)實(shí)中精確實(shí)現(xiàn)(例如關(guān)節(jié)角度超出極限),機(jī)器人會自動找到一個最接近同時又自然、安全的姿態(tài),而不是硬要模仿導(dǎo)致摔倒或抽搐。

在獎勵優(yōu)化任務(wù)中,研究者通過各種獎勵信號,讓機(jī)器人自動生成對應(yīng)行為。例如讓它降低骨盆高度,它就會坐下或蹲起;獎勵手部高度,它就會舉手;獎勵速度,它就會移動或轉(zhuǎn)向。這些不同獎勵還能組合,例如讓它一邊倒退一邊抬手。

這種可組合性意味著未來可以通過語言描述需求,再把語言解析成獎勵,就能讓機(jī)器人自動“理解”要做什么。更有趣的是,在相同獎勵下,通過不同 replay buffer 子樣本生成的潛在表達(dá)會略有不同,從而得到不同風(fēng)格的動作。這說明策略空間本身是多模態(tài)的,存在多個可行解,而不是一個死板的最優(yōu)動作。

BFM-Zero,讓人形機(jī)器人不再依賴高質(zhì)量動捕數(shù)據(jù)

在真實(shí)環(huán)境中面對巨大外力干擾時,機(jī)器人表現(xiàn)出極高的柔順性和穩(wěn)定性。當(dāng)被推搡、踢擊、拉倒時,它不會簡單僵硬反抗,而會以柔和方式吸收沖擊,例如后退幾步緩沖重心、調(diào)整手臂姿勢保持平衡等。

即便被完全摔倒在地,它也能通過自然流暢的動作爬起,然后回到原本任務(wù),比如繼續(xù)恢復(fù)站姿或目標(biāo)姿態(tài)。這些恢復(fù)動作不是硬性編寫的,而是策略在潛在空間中自然表達(dá)出來的,這讓機(jī)器人顯得更“像人”。

最后,研究者展示了模型的快速適應(yīng)能力。在適應(yīng)過程中并不需要調(diào)整網(wǎng)絡(luò)權(quán)重,只需要針對新情況對潛在向量進(jìn)行優(yōu)化就行。第一個適應(yīng)案例是在機(jī)器人 torso 上增加四公斤負(fù)載。原本零樣本 latent 并不足以支撐單腿站立,但通過二十次交叉熵優(yōu)化迭代后即可找到一個新的潛在向量,使機(jī)器人能在帶載情況下穩(wěn)定站立十五秒以上,而且優(yōu)化結(jié)果直接遷移到真實(shí)機(jī)器人上也能成功。

第二個案例是摩擦變化導(dǎo)致跳躍軌跡不穩(wěn)定。研究者通過雙重退火和采樣方法優(yōu)化潛在向量序列,最終使軌跡誤差降低了近三成,整體動作更穩(wěn)定。這個過程不依賴重新訓(xùn)練模型,而完全依賴潛在空間的靈活性。

BFM-Zero,讓人形機(jī)器人不再依賴高質(zhì)量動捕數(shù)據(jù)

通往通用行為模型的三步框架

總的來說這項(xiàng)研究的實(shí)驗(yàn)流程可以分成三個階段,分別是無監(jiān)督預(yù)訓(xùn)練、零樣本推理以及少量樣本適應(yīng)。

研究者希望讓機(jī)器人在面對不同類型的任務(wù)時,不必依賴多套不同的訓(xùn)練方式,而是通過同一個潛在空間表達(dá)就能理解任務(wù)、生成動作,并且在條件變化時仍能保持穩(wěn)定表現(xiàn)。這樣的設(shè)計不僅讓機(jī)器人在訓(xùn)練階段更加統(tǒng)一,也使后續(xù)的實(shí)際部署更加靈活。

在無監(jiān)督預(yù)訓(xùn)練階段,模型需要在沒有明確任務(wù)獎勵的情況下,通過與大量仿真環(huán)境的互動積累經(jīng)驗(yàn)。為了讓機(jī)器人能夠應(yīng)對多種類型的任務(wù),研究者構(gòu)建了一個統(tǒng)一的潛在空間,把獎勵、目標(biāo)姿態(tài)和動作序列等信息全部映射到同一種潛在表示中。雷峰網(wǎng)(公眾號:雷峰網(wǎng))

這個潛在空間的構(gòu)建依賴 forward-backward 方法,它能讓機(jī)器人通過觀察自身軌跡或任務(wù)提示,推斷出對應(yīng)的潛在向量。為了讓模型擁有足夠廣的經(jīng)驗(yàn)基礎(chǔ),訓(xùn)練過程中使用了 1024 個并行的 Isaac 物理模擬環(huán)境。這些環(huán)境以高頻率運(yùn)行,模擬了全身關(guān)節(jié)的動力學(xué)、地面接觸的摩擦特性以及重力的變化規(guī)律。整個訓(xùn)練過程中,模型累計獲得超過五百萬條交互樣本,使其形成較為全面的行為經(jīng)驗(yàn)庫。

除了大量的環(huán)境經(jīng)驗(yàn),訓(xùn)練過程還引入了豐富的物理隨機(jī)化。研究者會在仿真過程中隨機(jī)改變機(jī)器人各個部位的質(zhì)量分布、調(diào)整地面的摩擦系數(shù)、施加隨機(jī)外力、改變身體姿態(tài)初始狀態(tài),并加入傳感器噪聲。

這些隨機(jī)化設(shè)置逼近真實(shí)世界的不確定性,使得訓(xùn)練出的策略在現(xiàn)實(shí)部署時不會因?yàn)榄h(huán)境與仿真略有差異就崩潰。同時,為了讓機(jī)器人動作更符合人體特征,研究者還引入了動作數(shù)據(jù)集作為風(fēng)格參考,通過風(fēng)格判別器讓策略在生成動作時保留自然動作的結(jié)構(gòu)。例如手臂的擺動、身體的重心變化都會因?yàn)轱L(fēng)格約束顯得更貼近人類動作。

為了避免策略學(xué)到潛在危險動作,訓(xùn)練中還加入硬件相關(guān)的安全約束。例如限制關(guān)節(jié)角度范圍、防止與地面發(fā)生奇怪的碰撞、限制身體偏移過大等。這些輔助獎勵確保模型在龐大的訓(xùn)練空間中不會偏向那些雖然有效但不安全的動作模式,也保證它在未來的真實(shí)實(shí)驗(yàn)中不會損傷機(jī)器人硬件。

BFM-Zero,讓人形機(jī)器人不再依賴高質(zhì)量動捕數(shù)據(jù)

在零樣本推理階段,模型已經(jīng)具備解釋不同任務(wù)提示的能力,因此不再需要繼續(xù)訓(xùn)練其網(wǎng)絡(luò)結(jié)構(gòu)。當(dāng)它接收到新的任務(wù)時,只需要根據(jù)任務(wù)類型生成對應(yīng)的潛在向量 z。這種向量能夠明確表達(dá)任務(wù)需求,策略網(wǎng)絡(luò)根據(jù)它就能生成相應(yīng)動作。

如果任務(wù)是基于獎勵,那么潛在向量會從 replay buffer 的經(jīng)驗(yàn)中,通過獎勵信號與 backward embedding 的關(guān)系推斷出來。如果任務(wù)是姿態(tài)到達(dá),那么研究者直接將目標(biāo)狀態(tài)輸入 backward embedding 生成潛在向量。而在動作跟蹤任務(wù)中,模型會把未來幾個時間步的目標(biāo)動作都嵌入潛在空間,生成一段連續(xù)的潛在向量序列,再逐步執(zhí)行。

從效果上看,這意味著機(jī)器人不需要針對每個任務(wù)重新訓(xùn)練,只要能生成合適的潛在向量,它就能直接執(zhí)行動作、移動到目標(biāo)位置或根據(jù)獎勵調(diào)整行為。

在少量樣本適應(yīng)階段,模型面對的是訓(xùn)練中沒有遇到的新條件,例如突然增加的負(fù)載、變化的地面摩擦系數(shù)預(yù)測不到的動力學(xué)變化等。為了讓機(jī)器人在現(xiàn)實(shí)中快速恢復(fù)性能,研究者不修改網(wǎng)絡(luò)本身,而是在潛在空間中搜索更適合新條件的向量。

由于潛在空間的表達(dá)能力足夠強(qiáng),只要找到合適的向量,機(jī)器人就能重新恢復(fù)穩(wěn)定表現(xiàn)。在單一姿態(tài)任務(wù)中,研究者采用交叉熵優(yōu)化方法,通過不斷嘗試不同潛在向量并評估其表現(xiàn),逐步找到最優(yōu)解。

在動態(tài)軌跡任務(wù)中,則使用采樣式的雙重退火策略,通過不斷擾動與收斂搜索潛在向量序列,使機(jī)器人的運(yùn)動軌跡重新穩(wěn)定下來。因?yàn)檫@種適應(yīng)過程不需要大量數(shù)據(jù),成本低,收斂快,非常適合現(xiàn)實(shí)場景中的快速調(diào)整需求。

整體來看,這三個階段共同構(gòu)成了模型訓(xùn)練與部署的完整路徑:從在多樣化環(huán)境中學(xué)習(xí)通用動作結(jié)構(gòu),到在實(shí)際任務(wù)中無需訓(xùn)練直接執(zhí)行,再到遇到特殊情況時利用少量數(shù)據(jù)進(jìn)行微調(diào),使機(jī)器人在復(fù)雜環(huán)境下表現(xiàn)出良好的泛化能力和適應(yīng)能力。

BFM-Zero,讓人形機(jī)器人不再依賴高質(zhì)量動捕數(shù)據(jù)

通用化的關(guān)鍵一步

這項(xiàng)研究的意義體現(xiàn)在多個方面,對未來的人形機(jī)器人發(fā)展具有重要推動作用。

首先,它展示了無監(jiān)督強(qiáng)化學(xué)習(xí)也可以在真實(shí)的人形機(jī)器人上取得效果。過去成功讓人形機(jī)器人完成復(fù)雜動作的做法,大多依賴大量模仿數(shù)據(jù)或精心設(shè)計的任務(wù)獎勵,而這項(xiàng)工作證明,即使沒有明確獎勵,也沒有精細(xì)標(biāo)注的動作軌跡,機(jī)器人仍然能在大規(guī)模仿真中通過探索和風(fēng)格學(xué)習(xí)形成可泛化的行為能力。這讓人們看到,人形機(jī)器人不一定需要昂貴的數(shù)據(jù)成本,也能學(xué)會穩(wěn)定而豐富的運(yùn)動技能。雷峰網(wǎng)

其次,該方法生成的動作在自然性和柔順性上有明顯提升。傳統(tǒng)的人形機(jī)器人在面對外力時往往表現(xiàn)得非常僵硬,只能做出硬性的支撐動作,一旦外力方向稍有變化就可能失穩(wěn)。而本方法訓(xùn)練出的策略在遇到擾動時會呈現(xiàn)更連貫、更平滑的反應(yīng),例如輕微調(diào)整重心、改變步伐節(jié)奏、自然地把身體穩(wěn)定下來。

即使受到較大推搡,機(jī)器人也能以柔和而不突兀的方式處理,這種表現(xiàn)更接近人類的動作穩(wěn)定機(jī)制。這說明模型在潛在空間中學(xué)到的運(yùn)動規(guī)律具有內(nèi)在的協(xié)調(diào)性,而不是簡單的機(jī)械式糾正。

再者,這一方法為未來構(gòu)建能被提示控制、能理解泛化任務(wù)意圖的人形機(jī)器人打下基礎(chǔ)。由于所有行為都被統(tǒng)一映射到潛在空間,機(jī)器人可以依靠潛在向量組合和調(diào)整行為。

未來只需要給出高層的任務(wù)描述,例如目標(biāo)姿態(tài)、整體意圖或者獎勵偏好,機(jī)器人就能自動組織出相應(yīng)的動作,而不需要為每個任務(wù)重新訓(xùn)練專用策略。這種設(shè)計向“行為級基礎(chǔ)模型”邁出了一步,讓機(jī)器人變得更容易擴(kuò)展、更容易控制,也更加貼近通用智能的目標(biāo)。

同時,該方法具備強(qiáng)大的現(xiàn)實(shí)適應(yīng)能力。在訓(xùn)練中加入大量隨機(jī)化,使策略在面對不同動力學(xué)條件時也能保持穩(wěn)定。在真實(shí)環(huán)境里,當(dāng)負(fù)載改變、地面摩擦不同、動作需求突然變化時,機(jī)器人不需要重新訓(xùn)練,只需要在潛在空間里稍作調(diào)整,就能迅速恢復(fù)到可靠的表現(xiàn)。這使得模型在現(xiàn)實(shí)環(huán)境中的可用性明顯提升,能夠更好地應(yīng)對復(fù)雜多變的物理?xiàng)l件。

最后,這項(xiàng)研究擺脫了對高質(zhì)量動作捕捉數(shù)據(jù)的依賴。過去想讓機(jī)器人動作看起來自然,需要使用專業(yè)設(shè)備收集大量高精度人體動作數(shù)據(jù),成本極高。而這里使用的無標(biāo)注動作序列就足以讓模型學(xué)到人體動作的整體風(fēng)格,既減少數(shù)據(jù)采集難度,也讓訓(xùn)練更加靈活。

綜合來看,這項(xiàng)工作不僅提供了一套在仿真與現(xiàn)實(shí)之間高度一致的訓(xùn)練方法,還構(gòu)建了一個具備泛化、自然性、穩(wěn)定性與適應(yīng)性的潛在行為空間,為未來更智能、更通用的人形機(jī)器人奠定了基礎(chǔ)。

GAIR 2025,讓技術(shù)「走出」論文

2025年12月12-13日,第八屆 GAIR 全球人工智能與機(jī)器人大會,將在深圳南山·博林天瑞喜來登酒店舉辦。

世界模型是具身智能理解與改造世界的“認(rèn)知核心”,在 GAIR 大會世界模型分論壇中,我們已經(jīng)邀請到了國內(nèi)外頂級高校與研究機(jī)構(gòu)的多位知名學(xué)者,就世界模型與空間智能在具身機(jī)器人領(lǐng)域的探索突破,發(fā)布多篇主題報告,共同探討這一真實(shí)應(yīng)用中的最新進(jìn)展。

在論壇的圓桌對話環(huán)節(jié),學(xué)者們將圍繞“世界模型如何跨越仿真到現(xiàn)實(shí)的鴻溝”等關(guān)鍵議題展開深度研討。屆時,來自產(chǎn)業(yè)界的頂尖研發(fā)團(tuán)隊(duì)也將分享其將世界模型前沿理論落地于機(jī)器人實(shí)體,解決復(fù)雜場景任務(wù)的成功實(shí)踐。

我們期待與您共同見證,世界模型如何為具身智能注入真正的“靈魂”,開啟機(jī)器人自主決策與行動的新篇章。

BFM-Zero,讓人形機(jī)器人不再依賴高質(zhì)量動捕數(shù)據(jù)

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

BFM-Zero,讓人形機(jī)器人不再依賴高質(zhì)量動捕數(shù)據(jù)

分享:
相關(guān)文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說