星際2玩家們，你們很快就會在天梯上為DeepMind的論文做貢獻(xiàn)了

本文作者：楊曉凡

2019-07-11 14:35

導(dǎo)語：記得要去歐服

雷鋒網(wǎng) AI 科技評論按：昨晚，暴雪聯(lián)合 DeepMind 發(fā)出一則新聞，DeepMind 開發(fā)的星際 2 AI「AlphaStar」很快就會出現(xiàn)在星際 2 歐洲服務(wù)器上的 1v1 天梯比賽中。人類玩家們不僅會有機(jī)會匹配到它們、和它們展開標(biāo)準(zhǔn)的比賽，比賽結(jié)果也會像正常比賽一樣影響自己的天梯分?jǐn)?shù)。

在星際 2 上做科研實(shí)驗(yàn)

正如人盡皆知的圍棋 AI AlphaGo，DeepMind 喜歡的強(qiáng)化學(xué)習(xí) AI 研究過程是在某個比賽（博弈）環(huán)境中進(jìn)行技術(shù)探索，在新技術(shù)的輔助下讓智能體從歷史數(shù)據(jù)中學(xué)習(xí)、從自我博弈中學(xué)習(xí)，然后與人類高手比賽，評估 AI 的水準(zhǔn)。樊麾、李世石、柯潔都光榮地成為了「人工智能測試高級工程師」。

星際2玩家們，你們很快就會在天梯上為DeepMind的論文做貢獻(xiàn)了

在此次星際 2 AI「AlphaStar」的研究過程中，DeepMind 繼續(xù)沿用這個思路，但這次他們更大膽一點(diǎn)，讓大批不同水準(zhǔn)的普通玩家參與到 AI 表現(xiàn)的評估中來，最終的比賽結(jié)果會寫到論述星際 2 AI 科研項(xiàng)目的論文里，向期刊投稿。這就是暴雪和 DeepMind 聯(lián)手把 AI 送上天梯比賽的最重要原因。

進(jìn)入星際 2 游戲，在 1v1 比賽設(shè)置了允許接入 DeepMind（DeepMind opt-in）之后，參加 1v1 天梯比賽的玩家們就可能會遇到 AlphaStar。為了控制所有的比賽都盡量接近正常的人類 1v1 天梯比賽，以及減小不同比賽之間的差異，AlphaStar 會隨機(jī)匹配到一部分玩家的天梯比賽中，并且 AI 會在游戲保持匿名，匹配到的玩家和星際 2 后臺都無法知道哪些比賽是有 AlphaStar 參與的。不過，設(shè)置了允許接入 AI 之后，相信玩家們立即就會開始對匹配到 AI 對手產(chǎn)生期待，而且在比賽開始之后也可能很快就會發(fā)現(xiàn)自己的對手有一些不尋常之處。

星際2玩家們，你們很快就會在天梯上為DeepMind的論文做貢獻(xiàn)了

一月的比賽中，AlphaStar 會建造大量工人，快速建立資源優(yōu)勢（超過人類職業(yè)選手的 16 個或 18 個的上限）

星際2玩家們，你們很快就會在天梯上為DeepMind的論文做貢獻(xiàn)了

一月的比賽中，AlphaStar 控制的兩個追獵者黑血極限逃生

今年一月時 AlphaStar 就曾與人類職業(yè)選手比賽并取得了全勝。相比于當(dāng)時的版本，此次更大規(guī)模測試的 AlphaStar 版本進(jìn)行了一些改動，其中一些改動明顯對人類有利：

一月的版本可以直接讀取地圖上所有的可見內(nèi)容，不需要用操作切換視角，這次需要自己控制視角，和人類一樣只能觀察到視野內(nèi)的單位，也只能在視野內(nèi)移動單位；
一月的版本僅使用了神族，這次 AlphaStar 會使用人族、蟲族、神族全部三個種族；
一月的版本在操作方面沒有明確的性能限制，這次，在與人類職業(yè)選手共同商議后，對 AlphaStar 的平均每秒操作數(shù)、平均每分鐘操作數(shù)（APM）、瞬時最高 APM 等一些方面都做了更嚴(yán)格的限制，減少操作方面相比人類的優(yōu)勢。

參與測試的 AlphaStar 都是從人類比賽 replay 和自我比賽中學(xué)習(xí)的，沒有從與人類的對局中學(xué)習(xí)，同時 AlphaStar 的表現(xiàn)會在整個測試期間保持不變，不進(jìn)行訓(xùn)練學(xué)習(xí)；這樣得到的測試結(jié)果能直接反應(yīng) DeepMind 目前的技術(shù)水準(zhǔn)到達(dá)了怎么樣的水平。另一方面，作為 AlphaStar 技術(shù)方案的一大亮點(diǎn)，參與測試的 AlphaStar 也會是 AlphaStar 種群（AlphaStar league，詳見下文）中的多個不同個體，匹配到的不同 AlphaStar 個體可能會有迥異的游戲表現(xiàn)。

AlphaStar 技術(shù)特點(diǎn)

在今年一月 DeepMind 首次公開 AlphaStar 與人類職業(yè)選手的比賽結(jié)果時，雷鋒網(wǎng) AI 科技評論就結(jié)合 DeepMind 官方博客對 AlphaStar 的技術(shù)特點(diǎn)進(jìn)行了報道。這里我們再把 AlphaStar 的技術(shù)特點(diǎn)總結(jié)如下：（詳細(xì)可以參見文章）

模型結(jié)構(gòu) - AlphaStar 使用的是一個長序列建模模型，模型從游戲接口接收的數(shù)據(jù)是單位列表和這些單位的屬性，經(jīng)過神經(jīng)網(wǎng)絡(luò)計(jì)算后輸出在游戲中執(zhí)行的指令。這個神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)是 Transformer 網(wǎng)絡(luò)，并且結(jié)合了一個深度 LSTM 網(wǎng)絡(luò)核心、一個帶有指針網(wǎng)絡(luò)的自動回歸策略頭，以及一個中心化的評分基準(zhǔn)。
AlphaStar league 中的個體形成了明顯的策略分布
訓(xùn)練策略 - AlphaStar 首先根據(jù)高水平人類比賽進(jìn)行監(jiān)督學(xué)習(xí)訓(xùn)練（模仿學(xué)習(xí)），然后進(jìn)行自我對弈。自我對弈的過程中使用了群體強(qiáng)化學(xué)習(xí)的思路：AlphaStar 自我對弈過程中始終都同時記錄、更新多個不同版本的網(wǎng)絡(luò)，保持一個群體，稱作 AlphaStar league；AlphaStar league 中不同的網(wǎng)絡(luò)具有不同的對戰(zhàn)策略、學(xué)習(xí)目標(biāo)等等，維持了群體的多樣性，整個群體的對弈學(xué)習(xí)保證了持續(xù)穩(wěn)定的表現(xiàn)提升，而且很新的版本也不會「忘記」如何擊敗很早的版本。
訓(xùn)練結(jié)果輸出 - 當(dāng)需要輸出一個網(wǎng)絡(luò)作為最終的訓(xùn)練結(jié)果時，以 AlphaStar league 中的納什分布進(jìn)行采樣，可以得到已經(jīng)發(fā)現(xiàn)的多種策略的綜合最優(yōu)解。
算力需求 - 為了支持大批不同版本 AlphaStar 智能體的對戰(zhàn)與更新，DeepMind 專門構(gòu)建了一個大規(guī)?？赏卣沟姆植际接?xùn)練環(huán)境，其中使用了最新的谷歌 TPUv3。AlphaStar league 的自我對戰(zhàn)訓(xùn)練過程用了 14 天，每個 AlphaStar 智能體使用了 16 個 TPU，最終相當(dāng)于每個智能體都有長達(dá) 200 年的游戲時間。訓(xùn)練結(jié)束后的模型在單塊消費(fèi)級 GPU 上就可以運(yùn)行。
操作統(tǒng)計(jì) - 在今年一月的版本中，AlphaStar 的平均 APM 為 280，峰值 APM 超過 1000，計(jì)算延時平均為 350 毫秒；切換關(guān)注區(qū)域的速度大約是每分鐘 30 次。

此次在 AlphaStar 中測試的大行動空間下的長序列建模，以及群體強(qiáng)化學(xué)習(xí)的訓(xùn)練策略，都是對提升強(qiáng)化學(xué)習(xí)算法表現(xiàn)上限、應(yīng)對復(fù)雜環(huán)境長期任務(wù)的積極技術(shù)探索。我們期待早日看到 DeepMind 的這篇論文成文，更早日看到基于強(qiáng)化學(xué)習(xí)的決策系統(tǒng)整個領(lǐng)域都發(fā)展得更成熟。當(dāng)然了，喜歡星際 2 的讀者，可以準(zhǔn)備起來，為 DeepMind 的這篇論文貢獻(xiàn)自己的一分力量吧！

雷鋒網(wǎng) AI 科技評論報道。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。