0
雷鋒網(wǎng) AI 科技評論按:多任務(wù)學(xué)習(xí),也就是讓單個(gè)智能體學(xué)習(xí)解決許多不同的問題,是人工智能研究中的長期目標(biāo)。最近,該領(lǐng)域取得了許多重大進(jìn)展,DQN 等智能體可以使用相同的算法玩不同的游戲,包括 Atari 游戲「Breakout」(打磚塊)和「Pong」(乒乓球)游戲。這些算法以前為每項(xiàng)任務(wù)分別訓(xùn)練不同的智能體。隨著人工智能研究深入到更多復(fù)雜的現(xiàn)實(shí)世界領(lǐng)域,構(gòu)建單個(gè)通用智能體(與多個(gè)分別擅長不同任務(wù)的智能體相反)來學(xué)習(xí)完成多個(gè)任務(wù)將變得至關(guān)重要。然而,截至目前,這一任務(wù)依然是一個(gè)重大挑戰(zhàn)。DeepMind 近期的一項(xiàng)研究就提出了自己的重大改進(jìn)。雷鋒網(wǎng) AI 科技評論把研究介紹編譯如下。
要做出能掌握多種不同任務(wù)的智能體的難點(diǎn)之一在于,強(qiáng)化學(xué)習(xí)智能體用來判斷成功的獎勵等級往往有所不同,導(dǎo)致他們將注意力集中在獎勵更高的任務(wù)上。拿「Pong」(乒乓球)游戲來舉例,智能體每一步有三種可能的獎勵:-1(AI沒接住對方發(fā)來的球,不僅沒掙分,反而倒貼一分)、0(AI接住了球,進(jìn)入了敵我雙反循環(huán)往復(fù)的彈球過程,費(fèi)了老勁卻沒有任何回報(bào))、+1(AI終于扳回了一局,才能得1分,實(shí)屬得之不易);但在吃豆人(Ms. Pac-Man)這個(gè)游戲里面就不同了,只要一出門,就可以吃到一連串的豆豆,因而智能體可以在單個(gè)步驟中獲得數(shù)百或數(shù)千分。即使單次獲得的獎勵的大小可以比較,但隨著智能體不斷進(jìn)化,獎勵的頻率可能會隨著時(shí)間發(fā)生變化。這意味著,只要不被敵人抓到,吃豆的獎勵明顯比打乒乓球高得多。那么,智能體當(dāng)然會沉迷吃豆(得分高的任務(wù)),全然忘記自己還肩負(fù)學(xué)會其它得分不易游戲的重任。
為了不放任智能體胡來,DeepMind推出了 PopArt。這一技術(shù)可以讓不同游戲的獎勵尺度互相適應(yīng)起來,無論每個(gè)特定游戲中可以得到的獎勵有多大,智能體都會認(rèn)為每個(gè)游戲具有同等的學(xué)習(xí)價(jià)值。研究人員用 PopArt 的正態(tài)化方法調(diào)整了當(dāng)前最先進(jìn)的強(qiáng)化學(xué)習(xí)智能體,使得一個(gè) AI 可以學(xué)會多達(dá) 57 種不同的 Atari 游戲了,而且在這些游戲中的得分也超過了人類得分的中位數(shù)。
從廣義上來說,深度學(xué)習(xí)依賴于神經(jīng)網(wǎng)絡(luò)權(quán)重更新,其輸出不斷逼近理想目標(biāo)輸出。神經(jīng)網(wǎng)絡(luò)用于深度強(qiáng)化學(xué)習(xí)中時(shí)也是如此。PopArt 的工作原理,就是估算各種目標(biāo)的均值以及分散程度(比如把游戲中的得分作為目標(biāo))。然后,在更新權(quán)重之前,用這些統(tǒng)計(jì)數(shù)據(jù),把更新網(wǎng)絡(luò)權(quán)重時(shí)作為參考的目標(biāo)歸一化。這樣一來,學(xué)習(xí)過程就會變得比較穩(wěn)定,不容易因?yàn)楠剟畛叨戎惖囊蛩馗淖兌l(fā)生改變。為了得到準(zhǔn)確的估計(jì)(如預(yù)期未來分?jǐn)?shù)),網(wǎng)絡(luò)的輸出可以通過反轉(zhuǎn)歸一化過程縮放到真實(shí)目標(biāo)范圍。
如果按照這樣的想法直接去做的話,目標(biāo)統(tǒng)計(jì)數(shù)據(jù)的每次更新都將改變所有未歸一化的輸出,包括那些已經(jīng)很好的輸出,這樣會造成表現(xiàn)的下降。DeepMind 研究人員的解決方案是,一旦統(tǒng)計(jì)數(shù)據(jù)有更新,他們就把網(wǎng)絡(luò)向著相反的方向更新;而這種做法是可以準(zhǔn)確地執(zhí)行的。這意味著我們既可以獲得尺度準(zhǔn)確的更新的好處,又能保持以前學(xué)習(xí)到的輸出不變。正是出于這些原因,該方法被命名為 PopArt:它在運(yùn)行中既能精確地保持輸出,又能自適應(yīng)地重新縮放目標(biāo)。
PopArt 作為修剪獎勵的替代方案
一般來說,研究人員會通過在強(qiáng)化學(xué)習(xí)算法中使用獎勵修剪來克服變化獎勵范圍的問題。這種修剪方法把太大的和太小的,都裁剪到 [-1, 1] 的區(qū)間里,粗略地歸一化期望獎勵。雖然這個(gè)方法會讓學(xué)習(xí)過程變得容易,但它也會讓學(xué)習(xí)目標(biāo)發(fā)生變化。仍然以吃豆人(Ms. Pac-Man)舉例,智能體的目標(biāo)就是吃豆和吃敵人,每顆豆 10 分,而每吃掉一個(gè)敵人會獲得 200 到 1600 不等的分?jǐn)?shù)。如果用獎勵裁剪的話,吃豆和吃敵人可能就沒區(qū)別了。這樣訓(xùn)練出來的AI,很可能只吃豆,完全不去追敵人,畢竟吃豆容易。如下圖所示。
當(dāng)移除獎勵裁剪方案,并使用 PopArt 歸一化代替剪裁步驟之后,訓(xùn)練效果就截然不同了。智能體會去追敵人了,得的分?jǐn)?shù)也高了許多。
DeepMind 將 PopArt 應(yīng)用于Importance-weighted Actor-Learner Architecture (IMPALA)上,這是 DeepMind此前提出的、最常用的深度強(qiáng)化學(xué)習(xí)智能體。在實(shí)驗(yàn)中,與沒有使用 PopArt 的基線智能體相比,PopArt 顯著提升了智能體的性能。不論仍然有獎勵修剪和還是去除了獎勵修剪,PopArt 智能體游戲得分的中位數(shù)都超越了人類玩家得分的中位數(shù)。這遠(yuǎn)遠(yuǎn)高于有著獎勵修剪的基線智能體,而直接去掉了獎勵修剪的基線智能體完全無法達(dá)到有意義的性能,因?yàn)樗鼰o法有效地處理游戲中獎勵規(guī)模的大范圍變化。
這是首次使用單個(gè)智能體在這種多任務(wù)環(huán)境中實(shí)現(xiàn)超越人類的表現(xiàn),表明 PopArt 可以為這樣的開放性研究問題提供線索,即如何在沒有手動修剪或縮放獎勵的情況下平衡不同的目標(biāo)函數(shù)。PopArt 實(shí)現(xiàn)在學(xué)習(xí)的同時(shí)自動適應(yīng)歸一化的能力在應(yīng)用 AI 到更加復(fù)雜的多模態(tài)領(lǐng)域時(shí)可能是很重要的,其中智能體必須學(xué)會權(quán)衡多個(gè)不同的具備變化獎勵的目標(biāo)函數(shù)。
via deepmind.com,雷鋒網(wǎng) AI 科技評論編譯
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。