0
本文作者: 叢末 | 2019-12-29 23:46 |
圍棋被攻克之后,多人在線戰(zhàn)術(shù)競(jìng)技游戲(MOBA)已經(jīng)成為測(cè)試檢驗(yàn)前沿人工智能的動(dòng)作決策和預(yù)測(cè)能力的重要平臺(tái)?;隍v訊天美工作室開(kāi)發(fā)的熱門(mén) MOBA 類(lèi)手游《王者榮耀》,騰訊 AI Lab 正努力探索強(qiáng)化學(xué)習(xí)技術(shù)在復(fù)雜環(huán)境中的應(yīng)用潛力。本文即是其中的一項(xiàng)成果,研究用深度強(qiáng)化學(xué)習(xí)來(lái)為智能體預(yù)測(cè)游戲動(dòng)作的方法,論文已被AAAI-2020接收。
此技術(shù)支持了騰訊此前推出的策略協(xié)作型 AI 「絕悟」1v1版本,該版本曾在今年8月上海舉辦的國(guó)際數(shù)碼互動(dòng)娛樂(lè)展覽會(huì)China Joy首次亮相,在2100多場(chǎng)和頂級(jí)業(yè)余玩家體驗(yàn)測(cè)試中勝率達(dá)到99.8%。
除了研究,騰訊AI Lab與王者榮耀還將聯(lián)合推出“開(kāi)悟”AI+游戲開(kāi)放平臺(tái),打造產(chǎn)學(xué)研生態(tài)。王者榮耀會(huì)開(kāi)放游戲數(shù)據(jù)、游戲核心集群(Game Core)和工具,騰訊AI Lab會(huì)開(kāi)放強(qiáng)化學(xué)習(xí)、模仿學(xué)習(xí)的計(jì)算平臺(tái)和算力,邀請(qǐng)高校與研究機(jī)構(gòu)共同推進(jìn)相關(guān)AI研究,并通過(guò)平臺(tái)定期測(cè)評(píng),讓“開(kāi)悟”成為展示多智能體決策研究實(shí)力的平臺(tái)。目前“開(kāi)悟”平臺(tái)已啟動(dòng)高校內(nèi)測(cè),預(yù)計(jì)在2020年5月全面開(kāi)放高校測(cè)試,并且在測(cè)試環(huán)境上,支持1v1,5v5等多種模式;2020年12月,我們計(jì)劃舉辦第一屆的AI在王者榮耀應(yīng)用的水平測(cè)試。
以下是本次入選論文的詳細(xì)解讀:
arxiv 鏈接:https://arxiv.org/abs/1912.09729
絕悟5v5版本達(dá)到職業(yè)水平:https://mp.weixin.qq.com/s/h7JOSs90MVQ8XzUnKJ48Iw
AI開(kāi)放平臺(tái)「開(kāi)悟」啟動(dòng):https://mp.weixin.qq.com/s/jaZJtkljVBib0mj1iOJQbg
在競(jìng)爭(zhēng)環(huán)境中學(xué)習(xí)具備復(fù)雜動(dòng)作決策能力的智能體這一任務(wù)上,深度強(qiáng)化學(xué)習(xí)(DRL)已經(jīng)得到了廣泛的應(yīng)用。在競(jìng)爭(zhēng)環(huán)境中,很多已有的 DRL 研究都采用了兩智能體游戲作為測(cè)試平臺(tái),即一個(gè)智能體對(duì)抗另一個(gè)智能體(1v1)。
其中 Atari 游戲和棋盤(pán)游戲已經(jīng)得到了廣泛的研究,比如 2015 年 Mnih et al. 使用深度 Q 網(wǎng)絡(luò)訓(xùn)練了一個(gè)在 Atari 游戲上媲美人類(lèi)水平的智能體;2016 年 Silver et al. 通過(guò)將監(jiān)督學(xué)習(xí)與自博弈整合進(jìn)訓(xùn)練流程中而將智能體的圍棋棋力提升到了足以擊敗職業(yè)棋手的水平;2017 年 Silver et al. 又更進(jìn)一步將更通用的 DRL 方法應(yīng)用到了國(guó)際象棋和日本將棋上。
本文研究的是一種復(fù)雜度更高一籌的MOBA 1v1 游戲。即時(shí)戰(zhàn)略游戲(RTS)被視為 AI 研究的一個(gè)重大挑戰(zhàn)。而MOBA 1v1 游戲就是一種需要高度復(fù)雜的動(dòng)作決策的 RTS 游戲。相比于棋盤(pán)游戲和 Atari 系列等 1v1 游戲,MOBA 的游戲環(huán)境要復(fù)雜得多,AI的動(dòng)作預(yù)測(cè)與決策難度也因此顯著提升。以 MOBA 手游《王者榮耀》中的 1v1 游戲?yàn)槔?,其狀態(tài)和所涉動(dòng)作的數(shù)量級(jí)分別可達(dá) 10^600 和 10^18000,而圍棋中相應(yīng)的數(shù)字則為 10^170 和 10^360,參見(jiàn)下表 1。
表 1:圍棋與 MOBA 1v1 游戲的比較
此外,MOBA 1v1 的游戲機(jī)制也很復(fù)雜。要在游戲中獲勝,智能體必須在部分可觀察的環(huán)境中學(xué)會(huì)規(guī)劃、攻擊、防御、控制技能組合以及誘導(dǎo)和欺騙對(duì)手。除了玩家與對(duì)手的智能體,游戲中還有其它很多游戲單位,比如小兵和炮塔。這會(huì)給目標(biāo)選擇帶來(lái)困難,因?yàn)檫@需要精細(xì)的決策序列和相應(yīng)的動(dòng)作執(zhí)行。
此外,MOBA 游戲中不同英雄的玩法也不一樣,因此就需要一個(gè)穩(wěn)健而統(tǒng)一的建模方式。還有一點(diǎn)也很重要:MOBA 1v1游戲缺乏高質(zhì)量人類(lèi)游戲數(shù)據(jù)以便進(jìn)行監(jiān)督學(xué)習(xí),因?yàn)橥婕以谕?1v1 模式時(shí)通常只是為了練習(xí)英雄,而主流 MOBA 游戲的正式比賽通常都采用 5v5 模式。
需要強(qiáng)調(diào),本論文關(guān)注的是 MOBA 1v1 游戲而非MOBA 5v5 游戲,因?yàn)楹笳吒⒅厮兄悄荏w的團(tuán)隊(duì)合作策略而不是單個(gè)智能體的動(dòng)作決策??紤]到這一點(diǎn),MOBA 1v1游戲更適合用來(lái)研究游戲中的復(fù)雜動(dòng)作決策問(wèn)題。
為了解決這些難題,本文設(shè)計(jì)了一種深度強(qiáng)化學(xué)習(xí)框架,并探索了一些算法層面的創(chuàng)新,對(duì) MOBA 1v1 游戲這樣的多智能體競(jìng)爭(zhēng)環(huán)境進(jìn)行了大規(guī)模的高效探索。文中設(shè)計(jì)的神經(jīng)網(wǎng)絡(luò)架構(gòu)包含了對(duì)多模態(tài)輸入的編碼、對(duì)動(dòng)作中相關(guān)性的解耦、探索剪枝機(jī)制以及攻擊注意機(jī)制,以考慮 MOBA 1v1 游戲中游戲情況的不斷變化。
為了全面評(píng)估訓(xùn)練得到的 AI 智能體的能力上限和策略穩(wěn)健性,新設(shè)計(jì)的方法與職業(yè)玩家、頂級(jí)業(yè)務(wù)玩家以及其它在 MOBA 1v1 游戲上的先進(jìn)方法進(jìn)行了比較。
本文有以下貢獻(xiàn):
對(duì)需要高度復(fù)雜的動(dòng)作決策的 MOBA 1v1 游戲 AI 智能體的構(gòu)建進(jìn)行了全面而系統(tǒng)的研究。在系統(tǒng)設(shè)計(jì)方面,本文提出了一種深度強(qiáng)化學(xué)習(xí)框架,能提供可擴(kuò)展的和異步策略的訓(xùn)練。在算法設(shè)計(jì)方面,本文開(kāi)發(fā)了一種用于建模 MOBA 動(dòng)作決策的 actor-critic 神經(jīng)網(wǎng)絡(luò)。網(wǎng)絡(luò)的優(yōu)化使用了一種多標(biāo)簽近端策略?xún)?yōu)化(PPO)目標(biāo),并提出了對(duì)動(dòng)作依賴(lài)關(guān)系的解耦方法、用于目標(biāo)選取的注意機(jī)制、用于高效探索的動(dòng)作掩碼、用于學(xué)習(xí)技能組合 LSTM 以及一個(gè)用于確保訓(xùn)練收斂的改進(jìn)版 PPO——dual-clip PPO。
在《王者榮耀》1v1 模式上的大量實(shí)驗(yàn)表明,訓(xùn)練得到的 AI 智能體能在多種不同類(lèi)型的英雄上擊敗頂級(jí)職業(yè)玩家。
1、系統(tǒng)設(shè)計(jì)
考慮到復(fù)雜智能體的動(dòng)作決策問(wèn)題可能引入高方差的隨機(jī)梯度,所以有必要采用較大的批大小以加快訓(xùn)練速度。因此,本文設(shè)計(jì)了一種高可擴(kuò)展低耦合的系統(tǒng)架構(gòu)來(lái)構(gòu)建數(shù)據(jù)并行化。具體來(lái)說(shuō),這個(gè)架構(gòu)包含四個(gè)模塊:強(qiáng)化學(xué)習(xí)學(xué)習(xí)器(RL Learner)、人工智能服務(wù)器(AI Server)、分發(fā)模塊(Dispatch Module)和記憶池(Memory Pool)。如圖 1 所示。
圖 1:系統(tǒng)設(shè)計(jì)概況
AI 服務(wù)器實(shí)現(xiàn)的是 AI 模型與環(huán)境的交互方式。分發(fā)模塊是用于樣本收集、壓縮和傳輸?shù)墓ぷ髡?。記憶池是?shù)據(jù)存儲(chǔ)模塊,能為RL 學(xué)習(xí)器提供訓(xùn)練實(shí)例。這些模塊是分離的,可靈活配置,從而讓研究者可將重心放在算法設(shè)計(jì)和環(huán)境邏輯上。這樣的系統(tǒng)設(shè)計(jì)也可用于其它的多智能體競(jìng)爭(zhēng)問(wèn)題。
2、算法設(shè)計(jì)
RL 學(xué)習(xí)器中實(shí)現(xiàn)了一個(gè) actor-critic 神經(jīng)網(wǎng)絡(luò),其目標(biāo)是建模 MOBA 1v1 游戲中的動(dòng)作依賴(lài)關(guān)系。如圖2所示。
圖 2:論文實(shí)現(xiàn)的actor-critic網(wǎng)絡(luò)
為了實(shí)現(xiàn)有效且高效的訓(xùn)練,本文提出了一系列創(chuàng)新的算法策略:
1.目標(biāo)注意力機(jī)制:用于幫助AI在 MOBA 戰(zhàn)斗中選擇目標(biāo)。
2.LSTM:為了學(xué)習(xí)英雄的技能釋放組合,以便AI在序列決策中,快速輸出大量傷害。
3.動(dòng)作依賴(lài)關(guān)系的解耦:用于構(gòu)建多標(biāo)簽近端策略?xún)?yōu)化(PPO)目標(biāo)。
4.動(dòng)作掩碼:這是一種基于游戲知識(shí)的剪枝方法,為了引導(dǎo)強(qiáng)化學(xué)習(xí)過(guò)程中的探索而開(kāi)發(fā)。
5.dual-clip PPO:這是 PPO 算法的一種改進(jìn)版本,使用它是為了確保使用大和有偏差的數(shù)據(jù)批進(jìn)行訓(xùn)練時(shí)的收斂性。如圖3所示。
圖 3:論文提出的dual-clip PPO算法示意圖,左為標(biāo)準(zhǔn)PPO,右為dual-clip PPO
有關(guān)這些算法的更多詳情與數(shù)學(xué)描述請(qǐng)參閱原論文。
3、實(shí)驗(yàn)
系統(tǒng)設(shè)置
測(cè)試平臺(tái)為熱門(mén) MOBA 游戲《王者榮耀》的 1v1 游戲模式。為了評(píng)估 AI 在現(xiàn)實(shí)世界中的表現(xiàn),這個(gè) AI 模型與《王者榮耀》職業(yè)選手和頂級(jí)業(yè)余人類(lèi)玩家打了大量比賽。實(shí)驗(yàn)中 AI 模型的動(dòng)作預(yù)測(cè)時(shí)間間隔為 133 ms,這大約是業(yè)余高手玩家的反應(yīng)時(shí)間。另外,論文方法還與已有研究中的基準(zhǔn)方法進(jìn)行了比較,其中包括游戲內(nèi)置的決策樹(shù)方法以及其它研究中的 MTCS 及其變體方法。實(shí)驗(yàn)還使用Elo分?jǐn)?shù)對(duì)不同版本的模型進(jìn)行了比較。
實(shí)驗(yàn)結(jié)果
探索動(dòng)作決策能力的上限
表 3 給出了AI和多名頂級(jí)職業(yè)選手的比賽結(jié)果。需要指出這些職業(yè)玩家玩的都是他們擅長(zhǎng)的英雄??梢钥吹?AI 能在多種不同類(lèi)型的英雄上擊敗職業(yè)選手。
表 3:AI 與職業(yè)選手使用不同類(lèi)型英雄比賽的結(jié)果
評(píng)估動(dòng)作決策能力的穩(wěn)健性
實(shí)驗(yàn)進(jìn)一步評(píng)估了 AI 學(xué)習(xí)的策略能否應(yīng)對(duì)不同的頂級(jí)人類(lèi)玩家。在2019年8月份,王者榮耀1v1 AI對(duì)公眾亮相,與大量頂級(jí)業(yè)余玩家進(jìn)行了2100場(chǎng)對(duì)戰(zhàn)。AI勝率達(dá)到99.81%。
表 4:AI 與不同頂級(jí)人類(lèi)玩家的比賽結(jié)果
基準(zhǔn)比較
可以看到,用論文新方法訓(xùn)練的 AI 的表現(xiàn)顯著優(yōu)于多種baseline方法。
圖 4:擊敗同一基準(zhǔn)對(duì)手的平均時(shí)長(zhǎng)比較
訓(xùn)練過(guò)程中模型能力的進(jìn)展
圖 5 展示了訓(xùn)練過(guò)程中 Elo 分?jǐn)?shù)的變化情況,這里給出的是使用射手英雄「狄仁杰」的例子。可以觀察到 Elo 分?jǐn)?shù)會(huì)隨訓(xùn)練時(shí)長(zhǎng)而增長(zhǎng),并在大約 80 小時(shí)后達(dá)到相對(duì)穩(wěn)定的水平。此外,Elo 的增長(zhǎng)率與訓(xùn)練時(shí)間成反比。
圖 5:訓(xùn)練過(guò)程中 Elo 分?jǐn)?shù)的變化情況
控制變量研究
為了理解論文方法中不同組件和設(shè)置的效果,控制變量實(shí)驗(yàn)是必不可少的。表 5 展示了使用同樣訓(xùn)練資源的不同「狄仁杰」AI 版本的實(shí)驗(yàn)結(jié)果。
表 5:控制變量實(shí)驗(yàn)
4、未來(lái)工作
本文提出的框架和算法將在未來(lái)開(kāi)源,而且為了促進(jìn)對(duì)復(fù)雜游戲的進(jìn)一步研究,騰訊也將在未來(lái)把《王者榮耀》的游戲內(nèi)核提供給社區(qū)使用,并且還會(huì)通過(guò)虛擬云的形式向社區(qū)提供計(jì)算資源。
雷鋒網(wǎng) AI 科技評(píng)論報(bào)道。雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。