丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能學(xué)術(shù) 正文
發(fā)私信給我在思考中
發(fā)送

0

告別CPU,加速100-1000倍!只用GPU就能完成物理模擬和強化學(xué)習(xí)訓(xùn)練

本文作者: 我在思考中 2021-09-02 10:27
導(dǎo)語:Isaac Gym由英偉達開發(fā),通過直接將數(shù)據(jù)從物理緩存?zhèn)鬟f到PyTorch張量進行通信,可以端到端地在GPU上實現(xiàn)物理模擬和神經(jīng)網(wǎng)絡(luò)策略訓(xùn)練,無需CPU。

告別CPU,加速100-1000倍!只用GPU就能完成物理模擬和強化學(xué)習(xí)訓(xùn)練

編譯 | 王曄
校對 | 青暮
Isaac Gym英偉達開發(fā),通過直接將數(shù)據(jù)從物理緩存?zhèn)鬟f到PyTorch張量進行通信,可以端到端地在GPU上實現(xiàn)物理模擬和神經(jīng)網(wǎng)絡(luò)策略訓(xùn)練,無需CPU。Isaac Gym提供了一個高性能的學(xué)習(xí)平臺,使得各種智能體訓(xùn)練能夠直接在GPU上進行。
與使用CPU模擬器和GPU神經(jīng)網(wǎng)絡(luò)的傳統(tǒng)RL訓(xùn)練相比,Isaac Gym大幅度縮減了復(fù)雜機器任務(wù)在單個GPU上的訓(xùn)練時間,使其訓(xùn)練速度提高了1-2個數(shù)量級。
告別CPU,加速100-1000倍!只用GPU就能完成物理模擬和強化學(xué)習(xí)訓(xùn)練
圖1:Isaac Gym使不同機器人在復(fù)雜環(huán)境中進行各種高性能訓(xùn)練。研究人員對8種不同的復(fù)雜環(huán)境進行了基準測試,并展示了模擬器在單個GPU上進行快速策略訓(xùn)練的優(yōu)勢。上面:Ant, Humanoid,F(xiàn)ranka-cube-stack,Ingenuity。下面:Shadow Hand, ANYmal, Allegro, TriFinger.
項目地址:https://sites.google.com/view/isaacgym-nvidia

1

簡介
近年來,強化學(xué)習(xí)(RL)已經(jīng)成為機器學(xué)習(xí)中最值得研究的領(lǐng)域之一,它在解決復(fù)雜決策問題方面擁有巨大的潛力。無論是圍棋、國際象棋等經(jīng)典策略游戲,還是《星際爭霸》、《DOTA》等即時戰(zhàn)略游戲,深度強化學(xué)習(xí)(Deep RL)對于這種具有挑戰(zhàn)性的任務(wù)表現(xiàn)得都很突出,它在機器人環(huán)境中的表現(xiàn)也令人印象深刻,包括腿部運動和靈巧的操作等。
模擬器可以提高學(xué)習(xí)過程中的安全性和迭代速度,在訓(xùn)練機器人的過程中發(fā)揮著關(guān)鍵作用。在真實世界中訓(xùn)練仿人機器人,比如讓它進行上下樓梯的訓(xùn)練,可能會破壞其器械和周邊環(huán)境,甚至有可能傷害到操控它的研究人員。有一種方法可以排除在現(xiàn)實世界中訓(xùn)練的安全隱患,那就是在模擬器內(nèi)進行訓(xùn)練。
模擬器可以提供一個高效、可擴展的平臺,允許進行大量試錯實驗。目前,大多數(shù)研究人員還是結(jié)合CPU和GPU來運行強化學(xué)習(xí)系統(tǒng),利用這兩個部分分別處理物理模擬和渲染過程的不同步驟。CPU用于模擬環(huán)境物理、計算獎勵和運行環(huán)境,而GPU則用于在訓(xùn)練和推理過程中加速神經(jīng)網(wǎng)絡(luò)模型,以及在必要時進行渲染。
然而,在優(yōu)化順序任務(wù)的CPU內(nèi)核和提供大規(guī)模并行性的GPU之間來回轉(zhuǎn)換,需要在訓(xùn)練中系統(tǒng)的不同部分的多個點之間傳輸數(shù)據(jù),這種做法從本質(zhì)上來說是非常低效的。因此,機器人深度強化學(xué)習(xí)的擴展面臨著兩個關(guān)鍵瓶頸:1)龐大的計算需求 2)模擬速度有限。機器人在進行高度自由的復(fù)雜學(xué)習(xí)行為時,這些問題尤為突出。
物理引擎如MuJoCo、PyBullet、DART、Drake、V-Rep等都需要大型CPU集群來解決具有挑戰(zhàn)性的RL任務(wù),這些無一不面臨著上述瓶頸。例如,在“Solving Rubik’s Cube with a Robot Hand”這項研究中,近30,000個CPU核心(920臺工人機器,每臺有32個核心)被用來訓(xùn)練機器人使用RL解決魔方任務(wù)。在一個類似研究“Learning dexterous in-hand manipulation”中,使用了一個由384個系統(tǒng)組成的集群,包含6144個CPU核,加上8個NVIDIA V100 GPU,進行30個小時的訓(xùn)練,RL才能收斂。
用硬件加速器可以加快模擬和訓(xùn)練。在計算機圖形學(xué)方面已經(jīng)取得巨大成功的GPU自然也能適用于高度并行的模擬?!癎pu-accelerated robotic simulation for distributed reinforcement learning”研究中采取了這種方法,并顯示了在GPU上運行模擬的令人喜出望外的結(jié)果,這證明了有可能可以極大縮減訓(xùn)練時間以及使用RL解決極具挑戰(zhàn)性的任務(wù)所需的計算資源。
但是,此項工作中仍有一些瓶頸沒有解決——模擬是在GPU上進行的,但物理狀態(tài)會被復(fù)制回CPU。因此,觀察和獎勵是用優(yōu)化的C++代碼計算的,接著再復(fù)制回GPU,在那里運行策略和價值網(wǎng)絡(luò)。此外,該項工作只訓(xùn)練了簡單的基于物理學(xué)的場景,而不是具有代表性的機器人環(huán)境,也沒有嘗試實現(xiàn)sim2real(從模擬環(huán)境遷移到現(xiàn)實環(huán)境)。
為了解決這些瓶頸問題,我們提出了Isaac Gym——一個端到端的高性能機器人模擬平臺。它可以運行一個端到端的GPU加速訓(xùn)練管道,使研究人員能夠克服上述限制,在連續(xù)控制任務(wù)中實現(xiàn)100倍-1000倍的訓(xùn)練速度。
Isaac Gym利用NVIDIA PhysX提供了一個GPU加速的模擬后端,使其能夠以使用高度并行才能實現(xiàn)的速度來收集機器人RL所需的經(jīng)驗數(shù)據(jù)。它提供了一個基于PyTorch張量的API來訪問GPU上的物理模擬結(jié)果。觀察張量可以作為策略網(wǎng)絡(luò)的輸入,產(chǎn)生的行動張量可以直接反饋給物理系統(tǒng)。我們注意到,其他研究人員最近已經(jīng)開始嘗試使用與Isaac Gym類似的方法,在硬件加速器上運行端到端訓(xùn)練。
通過端到端方法,包括觀察、獎勵和動作緩存的整個學(xué)習(xí)過程可以直接在GPU上進行,無需從CPU上讀回數(shù)據(jù)。這種設(shè)置允數(shù)以萬計的模擬環(huán)境在一個GPU上同時進行,使研究人員能夠只使用一個小型GPU服務(wù)器就能解決以前無法完成的任務(wù),輕松地在桌面級計算機上運行以前需要在整個數(shù)據(jù)中心才能進行的實驗。
Isaac Gym為創(chuàng)建和填充機器人及物體的場景提供了一個簡單的API,支持從常見的URDF和MJCF文件格式加載數(shù)據(jù)。每個環(huán)境可根據(jù)需要被復(fù)制多次,并且同時保留了副本的可變性(例如通過Domain Randomization來合成新數(shù)據(jù))。在不與其他環(huán)境互動的情況下,這些環(huán)境可以同時進行模擬。而且,研究人員用一個完全由GPU加速的模擬和訓(xùn)練管道降低了研究的門檻,使其可以用一個GPU解決以前只能在大規(guī)模CPU集群上實現(xiàn)的任務(wù)。
Isaac Gym還包括一個基本的近似策略優(yōu)化(PPO)執(zhí)行和一個簡單的RL任務(wù)系統(tǒng),用戶可以根據(jù)需要替換其他任務(wù)系統(tǒng)或RL算法。雖然一些研究使用PyTorch,但用戶也應(yīng)該能夠通過進一步的定制與TensorFlow訓(xùn)練庫整合。圖2提供了該系統(tǒng)的概覽。
告別CPU,加速100-1000倍!只用GPU就能完成物理模擬和強化學(xué)習(xí)訓(xùn)練
圖2:Isaac Gym管道的圖示。Tensor API為Python代碼提供了一個接口,可以直接在GPU上啟動PhysX后端,獲取和設(shè)置模擬器狀態(tài),從而使整個RL訓(xùn)練管道的速度提高100-1000倍,同時提供高保真模擬和與現(xiàn)有機器人模型連接的能力。

2

表征模擬性能
研究人員首先將模擬性能描述為環(huán)境數(shù)量的函數(shù)。當改變這個數(shù)字時,目的是通過按比例減少horizon length(即PPO的步驟數(shù),計算獎勵前智能體的執(zhí)行步驟數(shù))來保持RL智能體觀察到的整體經(jīng)驗不變,以便進行公平的比較。雖然我們在后面提供了許多環(huán)境的詳細訓(xùn)練研究,但這里只描述了 Ant、Humanoid 和Shadow Hand 的模擬性能,因為它們足夠復(fù)雜,可以測試模擬的極限,也代表了復(fù)雜性的逐步增加。這三種環(huán)境都使用前饋網(wǎng)絡(luò)進行訓(xùn)練。
  •  螞蟻(Ant)

告別CPU,加速100-1000倍!只用GPU就能完成物理模擬和強化學(xué)習(xí)訓(xùn)練

告別CPU,加速100-1000倍!只用GPU就能完成物理模擬和強化學(xué)習(xí)訓(xùn)練
圖3:螞蟻實驗的獎勵和有效FPS與并行環(huán)境的數(shù)量有關(guān)。最佳訓(xùn)練時間是在8192個環(huán)境和16個horizon length 的情況下實現(xiàn)的。
研究人員首先用標準的螞蟻環(huán)境進行實驗,在這個環(huán)境中,訓(xùn)練智能體在平地上運動。我們發(fā)現(xiàn),隨著智能體數(shù)量的增加,訓(xùn)練時間如預(yù)期的那樣減少了,也就是當把環(huán)境的數(shù)量從256個增加為8192個(增加了5個數(shù)量級)后,使得達到7000獎勵的訓(xùn)練時間減少了一個數(shù)量級,訓(xùn)練時間從1000秒(約16.6分鐘)減少到100秒(約1.6分鐘)。然而,請注意,螞蟻在單個GPU上僅用20秒就達到了3000獎勵的高性能運動。
由于螞蟻是最簡單的模擬環(huán)境之一,如圖3(b)所示,每秒并行環(huán)境步驟的數(shù)量可高達700K。由于horizon length減少,當環(huán)境數(shù)量從8192增加到16384時,沒有觀察到收益。
  • 人形物體(Humanoid)

告別CPU,加速100-1000倍!只用GPU就能完成物理模擬和強化學(xué)習(xí)訓(xùn)練

仿人環(huán)境有更多的自由度,需要智能體發(fā)現(xiàn)用兩只腳保持平衡并在地面上行走的步態(tài)。從圖4和圖5可以看出,與圖3中的螞蟻相比,訓(xùn)練時間增加了一個數(shù)量級。
告別CPU,加速100-1000倍!只用GPU就能完成物理模擬和強化學(xué)習(xí)訓(xùn)練
圖4:人形實驗的獎勵和有效FPS與并行環(huán)境的數(shù)量有關(guān)。最佳訓(xùn)練時間是在4096個環(huán)境和32個horizon length 的情況下實現(xiàn)的。
告別CPU,加速100-1000倍!只用GPU就能完成物理模擬和強化學(xué)習(xí)訓(xùn)練
圖5:人形實驗的獎勵和有效FPS與平行環(huán)境的數(shù)量有關(guān)。在4096和8192個環(huán)境中實現(xiàn)了最佳訓(xùn)練時間,horizon length 分別為64和32。
研究人員在圖中4還注意到,隨著智能體數(shù)量的增加,從256個增加到4096個,達到最高獎勵7000的訓(xùn)練時間從10^4秒(約2.7小時)減少到10^3秒(約17分鐘)的數(shù)量級。然而,獎勵為5000左右時,高性能運動出現(xiàn)了,訓(xùn)練時間僅為4分鐘。在這種情況下,如果超過4096個環(huán)境,就不會有進一步的收益,實際上會導(dǎo)致訓(xùn)練時間的增加和收斂于次優(yōu)步態(tài)。研究人員將此歸因于環(huán)境的復(fù)雜性,這使得在如此小的horizon length 上學(xué)習(xí)行走具有挑戰(zhàn)性。
可以通過對另一組環(huán)境和horizon length 的組合進行訓(xùn)練來驗證這一點,與圖4相比,horizon length 增加了2倍。如圖5所示,即使在8192和16384環(huán)境中,人形機器人也能行走,這兩個環(huán)境的horizon length 分別為32和16,但足夠長,可以進行學(xué)習(xí)。
另外值得注意的是,由于自由度的增加,每秒并行環(huán)境步驟的數(shù)量從螞蟻的700K減少到人形的200K,如圖4和5所示。
  • 影子手( Shadow Hand)

告別CPU,加速100-1000倍!只用GPU就能完成物理模擬和強化學(xué)習(xí)訓(xùn)練

告別CPU,加速100-1000倍!只用GPU就能完成物理模擬和強化學(xué)習(xí)訓(xùn)練
圖6:Shadow Hand實驗的獎勵和有效FPS與并行環(huán)境的數(shù)量有關(guān)。在8192和16384個環(huán)境以及16和8個horizon length 的情況下,達到最佳訓(xùn)練時間。
最后,研究人員用影子手進行實驗,讓它學(xué)習(xí)用手指和手腕將放在手掌上的立方體旋轉(zhuǎn)到目標方向。受所涉及的DoF數(shù)量和旋轉(zhuǎn)過程中的接觸影響,這項任務(wù)具有不小的挑戰(zhàn)。我們在 "影子手"環(huán)境中的結(jié)果也遵循類似的趨勢。隨著智能體數(shù)量的增加,在這種情況下,從256增加到16384,訓(xùn)練時間減少了一個數(shù)量級,從5×10^4秒(約14小時)到3×10^3秒(約1小時)。我們發(fā)現(xiàn),該環(huán)境在短短5分鐘內(nèi)就達到了連續(xù)10次成功的獎勵的靈巧性能。此外,16384個智能體的horizon length 為8,仍然允許學(xué)習(xí)重新擺放立方體。16384個智能體的最大有效幀率為每秒150K個并行環(huán)境步驟。
告別CPU,加速100-1000倍!只用GPU就能完成物理模擬和強化學(xué)習(xí)訓(xùn)練
圖7:運動環(huán)境和相應(yīng)的獎勵曲線
告別CPU,加速100-1000倍!只用GPU就能完成物理模擬和強化學(xué)習(xí)訓(xùn)練

告別CPU,加速100-1000倍!只用GPU就能完成物理模擬和強化學(xué)習(xí)訓(xùn)練

圖8:在模擬和真實機器人上測試的粗糙地形上的ANYmal的訓(xùn)練策略
告別CPU,加速100-1000倍!只用GPU就能完成物理模擬和強化學(xué)習(xí)訓(xùn)練
圖9:使用AMP訓(xùn)練的仿人角色模仿旋風(fēng)踢的動作
告別CPU,加速100-1000倍!只用GPU就能完成物理模擬和強化學(xué)習(xí)訓(xùn)練
圖10:Franka Cube堆疊環(huán)境和相應(yīng)的獎勵曲線
告別CPU,加速100-1000倍!只用GPU就能完成物理模擬和強化學(xué)習(xí)訓(xùn)練
圖11:在Isaac Gym中實現(xiàn)的三種手內(nèi)操縱環(huán)境:Shadow Hand, Trifinger和 Allegro
告別CPU,加速100-1000倍!只用GPU就能完成物理模擬和強化學(xué)習(xí)訓(xùn)練
圖12:在Isaac Gym中實現(xiàn)的三種手內(nèi)操縱環(huán)境的獎勵曲線。這些結(jié)果是通過(a)采用OpenAI觀察和LSTM的Shadow Handb)采用OpenAI觀察和前饋網(wǎng)絡(luò)的Shadow Hand(c)采用標準觀察的Shadow Handd)采用標準觀察的Allegro Hand獲得的。Shadow Hand OpenAI是用不對稱的actor-critic 和領(lǐng)域隨機化訓(xùn)練的,而Shadow Hand標準和Allegro Hand標準是用標準觀察和對稱的actor-critic訓(xùn)練的,沒有領(lǐng)域隨機化。

告別CPU,加速100-1000倍!只用GPU就能完成物理模擬和強化學(xué)習(xí)訓(xùn)練

圖13:(a)采用OpenAI觀察和LSTM的Shadow Hand,(b)采用OpenAI觀察和前饋網(wǎng)絡(luò)的Shadow Hand(c)采用標準觀察的Shadow Hand(d)采用標準觀察的Allegro Hand,每集的連續(xù)成功率。Shadow Hand Standard和Allegro Hand Standard都使用前饋網(wǎng)絡(luò)來實現(xiàn)策略和價值功能。

告別CPU,加速100-1000倍!只用GPU就能完成物理模擬和強化學(xué)習(xí)訓(xùn)練

圖14:Trifinger學(xué)習(xí)了各種靈巧的操縱行為,能夠?qū)⒘⒎襟w移動到正確的位置和方向。

3

總結(jié)
研究表明,Isaac Gym是一個高性能和高仿真的平臺,可以在單個NVIDIA A100 GPU上對許多具有挑戰(zhàn)性的模擬機器人環(huán)境進行快速訓(xùn)練,而以前使用傳統(tǒng)的RL設(shè)置和純CPU的模擬器則需要大型異構(gòu)集群的CPU和GPU。此外,模擬后端也適用于學(xué)習(xí)具有接觸的操作,這一點在我們用ANYmal運動和TriFinger立方體擺放進行的模擬到真實的遷移演示中得到了證實。

雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)

雷峰網(wǎng)特約稿件,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

告別CPU,加速100-1000倍!只用GPU就能完成物理模擬和強化學(xué)習(xí)訓(xùn)練

分享:
相關(guān)文章
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說