雖又擊敗了人類選手，但我們認為 OpenAI 的 5v5 DOTA AI 不過如此

本文作者：楊曉凡

2018-06-26 19:58

導語：簡化環(huán)境里獲得的優(yōu)秀表現(xiàn)，但帶來了對強化學習的新的思考

雷鋒網 AI 科技評論按：各位讀者想必今天一睜眼就被「OpenAI 的人工智能在 DOTA 5v5 比賽中也打敗了人類選手」的新聞刷屏了。OpenAI 開發(fā)的 DOTA AI 去年在 1v1 solo 中打敗頂級職業(yè)選手 Dendi 和 Sumail 之后，緊接著就放出豪言還要在 5v5 的 DOTA 比賽中擊敗人類，這一天仿佛這么快就到來了。

5v5 AI，一個新的臺階，不過這個 AI 其實還比較初級

DOTA（以及 DOTA2）是目前最火熱的電子競技游戲之一，也是當之無愧的職業(yè)比賽規(guī)模最大、獎金最高的游戲。DOTA 游戲有很高的難度，對人類玩家來說都需要很長的學習時間，因為 DOTA 中有上百種英雄、上百種物品、多種游戲策略、不同英雄有不同的玩法、不同的英雄組合之間也有獨特的技能和裝備配合；除此之外玩家還需要審時度勢，同一個英雄在不同局面中也有不同的玩法。DOTA 的職業(yè)比賽也因此而變得激動人心，選手的局部小操作和整個團隊改變戰(zhàn)局的戰(zhàn)略執(zhí)行都會被玩家們津津樂道。

復雜的英雄、物品、配合、長短期策略結合等方面正是我們長期認為 DOTA 這樣的游戲對現(xiàn)階段的 AI 來說過于困難的原因。而且除了這些人類眼中的認知難題之外，DOTA 游戲的行動空間還非常龐大。相比于圍棋中每一步操作只需要在棋盤上剩余的空位中選一個落子，DOTA 中的行動是非常密集的（每分鐘操作在 100 次數(shù)量級）、考慮時間長短的（比如持續(xù)施法技能）、數(shù)值連續(xù)的（比如走位）、復雜多值化的（比如購買裝備）、信息是部分可觀察的（地圖上有大量的無視野區(qū)域），反饋也可以認為是稀疏的（勝負最為重要），所以主流觀點一度認為類似 DeepMind 開發(fā) AlphaGo 時那樣的純粹強化學習自我對弈是無法學會玩 DOTA （以及星際等即時戰(zhàn)略游戲）的，過大的行為空間會讓訓練過程長期停留在沒有有效反饋的區(qū)域從而無法收斂。層級強化學習被認為是一種有希望幫助訓練過程快速走出低效探索的方法，但發(fā)展仍不成熟。

OpenAI 對于 DOTA AI 的最終目標是開發(fā)出能夠打敗人類職業(yè)選手的 AI。顯然這樣的目標是無法一蹴而就的，所以他們的指導思想是分步走，從英雄、物品、地圖范圍、策略都有高度限制的 1v1 比賽開始，然后逐步減少限制，同時逐步改善模型，一步步接近最終目標；去年 TI（國際邀請賽）中 1v1 打敗 Dendi，以及在測試比賽中打敗 Sumail 的 DOTA AI 就是其中的第一步。對于這樣的結果，初看有些意外，但細想之下還是比較合理的。畢竟玩 Atari 游戲我們都已經司空見慣了。

雖又擊敗了人類選手，但我們認為 OpenAI 的 5v5 DOTA AI 不過如此

對于接下來的 5v5 AI（名為 OpenAI Five），自然也保留了諸多限制，游戲環(huán)境和各位玩家熟悉的樣子有諸多不同。OpenAI Five 在這個環(huán)境里做了多次迭代更新，4 月 23 日版本首次打敗了 OpenAI 自己編寫的基于腳本的基準模型，5 月 15 日的版本與 OpenAI 員工隊伍（天梯分段 2500，高于 46% 的玩家）打了一勝一負；而 6 月 6 日的版本則在與業(yè)余戰(zhàn)隊（天梯分段 4200，高于 93% 的玩家）和半職業(yè)戰(zhàn)隊（天梯分段 5500，高于 99% 的玩家）的比賽中都贏得了三局中的前兩局。

OpenAI Five 目前設定的游戲中的限制有以下這些方面：

比賽雙方都使用固定的瘟疫法師、冥界亞龍、矮人火槍手、水晶室女、巫妖 5 個英雄，而不是在超過 110 個英雄中任意選擇（顯然我們也可以推測出 OpenAI 就是以這組固定的英雄進行訓練的）
禁止使用守衛(wèi)，禁止使用隱身物品（消耗品及裝備）
禁止使用幻象和分身
禁止打肉山
禁止購買圣劍、魔瓶、壓制之刃、遠行鞋、知識之書、眼淚
禁止使用掃描
OpenAI Five 方有五個無敵的信使，不過也禁止使用這些信使看視野以及承受傷害

顯然各位 DOTA 玩家一看就知道，僅英雄選擇的限制這一項就極大降低了游戲的復雜度；隱身、肉山之類的禁用也縮小了戰(zhàn)略戰(zhàn)術的選擇空間；至于 5 個無敵的信使就更像是對 5 個 AI 之間（也許并不理想的）協(xié)作能力的妥協(xié)了。

不過，能打敗業(yè)余和半職業(yè)戰(zhàn)隊的表現(xiàn)畢竟還是有一些特色的，能在三局中贏得前兩局也說明了 AI 的策略選擇與執(zhí)行的效果。在幾場比賽中 OpenAI Five 的玩法體現(xiàn)出了這些特點：

采取的策略總是放空自己的優(yōu)勢路，攻擊對方的優(yōu)勢路（以及到中路的這小半場），以求造成壓力、形成優(yōu)勢。（所以人類職業(yè)選手到了第三局也就能夠反制這樣的固定策略了）

雖又擊敗了人類選手，但我們認為 OpenAI 的 5v5 DOTA AI 不過如此

OpenAI Five 五個英雄都集結在對方優(yōu)勢路到中塔之間的區(qū)域

快速主動地組織 gank 并推搭

雖又擊敗了人類選手，但我們認為 OpenAI 的 5v5 DOTA AI 不過如此

比賽開始 2 分鐘，AI 的 2 級冰女和 2 級毒龍 gank 中路

比賽前期給輔助英雄讓錢讓經驗，這讓輔助英雄更快地達到最高輸出，同時也更快地結束比賽

雖又擊敗了人類選手，但我們認為 OpenAI 的 5v5 DOTA AI 不過如此

人類方進攻高地，AI 冰女 BKB 跳大，配合隊友擊殺對方四人

復雜的強化學習任務比預想的要簡單？

即便游戲中有一些限制，但還是有足夠的復雜度，而且我們也看到了 AI 在游戲中的精彩表現(xiàn)。從技術角度來說，這也給了我們新的啟發(fā)。

正如前文提到的，DOTA 中復雜的行動空間以及對長短期策略結合的需求的讓領域內的研究者，甚至包括 OpenAI 的人自己都認為 DOTA 需要層次化強化學習這樣的全新的深度學習技術，但其實只通過雷鋒網 AI 科技評論也曾介紹過的近端策略優(yōu)化 PPO 就已經達到如此的水平 —— 至少是在用足夠大的規(guī)模做訓練，以及選用了合適的超參數(shù)平衡了探索行為的程度的時候。

OpenAI 使用了256 個 V100 GPU 和 128000 個 CPU 訓練模型，不使用人類數(shù)據(jù)，80% 的時間自我對弈，20% 的時間和過去的版本對弈。訓練中每天進行的游戲數(shù)量時長相當于大約 180 年。根據(jù) DOTA 解說 Blitz 評價，OpenAI Five 的補刀只是普通玩家水平，但整場游戲的長期策略執(zhí)行已經有了職業(yè)選手水準。用現(xiàn)有的方法就能達到短期策略和長期策略之間的均衡，算是一項驚喜的發(fā)現(xiàn)。

另一方面，OpenAI Five 中使用的模型架構也出人意料地簡單。每一個英雄由一個單獨的 LSTM 模型控制，而它只是一個單層的、含有 1024 個單元的 LSTM 網絡。網絡從 Value （DOTA2 制作公司）提供的 BOT API 獲取數(shù)據(jù)，然后通過多個不同的動作輸出接口進行控制。

雖又擊敗了人類選手，但我們認為 OpenAI 的 5v5 DOTA AI 不過如此

OpenAI Five 的網絡架構圖

OpenAI 對于反饋的設計也別有用心。除了輸贏之外也選用了人類選手常用的指標：總財產、擊殺數(shù)、死亡數(shù)、助攻數(shù)、補刀數(shù)等等。但是為了避免 AI 過于關注這些偏向于短期策略的數(shù)據(jù)，他們的反饋設計只鼓勵 AI 在這些方面做到人類玩家的平均水平。

還有一個項目是 AI 之間的合作。OpenAI 并沒有為 AI 之間設計顯式的溝通頻道，目前他們設計了一個名為「團隊精神」的超參數(shù)，這個 0 到 1 之間的值會反應每個英雄關注自己單獨的反饋和整個團隊的反饋之間的比例。在訓練中 OpenAI 通過退火來優(yōu)化這個值的具體大小。

總結

雖然我們說到目前的 5v5 OpenAI Five 的實際表現(xiàn)不過如此，但以現(xiàn)有的資源和方法就達到了超出預期的效果，這也值得我們反思以往的強化學習研究中，方法與實現(xiàn)是否有諸多做的不完善的地方才導致容易遇到訓練困難、表現(xiàn)瓶頸、表現(xiàn)不穩(wěn)定性等問題；另一方面，在現(xiàn)有方法的威力完全得到發(fā)揮的地方，我們也更容易清晰地看到繼續(xù)提升表現(xiàn)還需要哪些創(chuàng)新。

OpenAI 還會在 7 月 28 日組織頂尖人類職業(yè)玩家再與 OpenAI Five 進行比賽，這之前系統(tǒng)還會進行調試更新。我們期待 OpenAI Five 近期能有更新、更強的表現(xiàn)，也期待它早日在無限制的完全展現(xiàn)了 DOTA 復雜程度的環(huán)境中再展風姿，更與 OpenAI 全體一起期待這些用于 DOTA AI 的技術能為更多真實世界問題帶來幫助。

雷鋒網 AI 科技評論報道。

雷峰網原創(chuàng)文章，未經授權禁止轉載。詳情見轉載須知。