0
雷鋒網(wǎng) AI 科技評(píng)論按:昨晚,暴雪聯(lián)合 DeepMind 發(fā)出一則新聞,DeepMind 開(kāi)發(fā)的星際 2 AI「AlphaStar」很快就會(huì)出現(xiàn)在星際 2 歐洲服務(wù)器上的 1v1 天梯比賽中。人類(lèi)玩家們不僅會(huì)有機(jī)會(huì)匹配到它們、和它們展開(kāi)標(biāo)準(zhǔn)的比賽,比賽結(jié)果也會(huì)像正常比賽一樣影響自己的天梯分?jǐn)?shù)。
正如人盡皆知的圍棋 AI AlphaGo,DeepMind 喜歡的強(qiáng)化學(xué)習(xí) AI 研究過(guò)程是在某個(gè)比賽(博弈)環(huán)境中進(jìn)行技術(shù)探索,在新技術(shù)的輔助下讓智能體從歷史數(shù)據(jù)中學(xué)習(xí)、從自我博弈中學(xué)習(xí),然后與人類(lèi)高手比賽,評(píng)估 AI 的水準(zhǔn)。樊麾、李世石、柯潔都光榮地成為了「人工智能測(cè)試高級(jí)工程師」。
在此次星際 2 AI「AlphaStar」的研究過(guò)程中,DeepMind 繼續(xù)沿用這個(gè)思路,但這次他們更大膽一點(diǎn),讓大批不同水準(zhǔn)的普通玩家參與到 AI 表現(xiàn)的評(píng)估中來(lái),最終的比賽結(jié)果會(huì)寫(xiě)到論述星際 2 AI 科研項(xiàng)目的論文里,向期刊投稿。這就是暴雪和 DeepMind 聯(lián)手把 AI 送上天梯比賽的最重要原因。
進(jìn)入星際 2 游戲,在 1v1 比賽設(shè)置了允許接入 DeepMind(DeepMind opt-in)之后,參加 1v1 天梯比賽的玩家們就可能會(huì)遇到 AlphaStar。為了控制所有的比賽都盡量接近正常的人類(lèi) 1v1 天梯比賽,以及減小不同比賽之間的差異,AlphaStar 會(huì)隨機(jī)匹配到一部分玩家的天梯比賽中,并且 AI 會(huì)在游戲保持匿名,匹配到的玩家和星際 2 后臺(tái)都無(wú)法知道哪些比賽是有 AlphaStar 參與的。不過(guò),設(shè)置了允許接入 AI 之后,相信玩家們立即就會(huì)開(kāi)始對(duì)匹配到 AI 對(duì)手產(chǎn)生期待,而且在比賽開(kāi)始之后也可能很快就會(huì)發(fā)現(xiàn)自己的對(duì)手有一些不尋常之處。
今年一月時(shí) AlphaStar 就曾與人類(lèi)職業(yè)選手比賽并取得了全勝。相比于當(dāng)時(shí)的版本,此次更大規(guī)模測(cè)試的 AlphaStar 版本進(jìn)行了一些改動(dòng),其中一些改動(dòng)明顯對(duì)人類(lèi)有利:
一月的版本可以直接讀取地圖上所有的可見(jiàn)內(nèi)容,不需要用操作切換視角,這次需要自己控制視角,和人類(lèi)一樣只能觀察到視野內(nèi)的單位,也只能在視野內(nèi)移動(dòng)單位;
一月的版本僅使用了神族,這次 AlphaStar 會(huì)使用人族、蟲(chóng)族、神族全部三個(gè)種族;
一月的版本在操作方面沒(méi)有明確的性能限制,這次,在與人類(lèi)職業(yè)選手共同商議后,對(duì) AlphaStar 的平均每秒操作數(shù)、平均每分鐘操作數(shù)(APM)、瞬時(shí)最高 APM 等一些方面都做了更嚴(yán)格的限制,減少操作方面相比人類(lèi)的優(yōu)勢(shì)。
參與測(cè)試的 AlphaStar 都是從人類(lèi)比賽 replay 和自我比賽中學(xué)習(xí)的,沒(méi)有從與人類(lèi)的對(duì)局中學(xué)習(xí),同時(shí) AlphaStar 的表現(xiàn)會(huì)在整個(gè)測(cè)試期間保持不變,不進(jìn)行訓(xùn)練學(xué)習(xí);這樣得到的測(cè)試結(jié)果能直接反應(yīng) DeepMind 目前的技術(shù)水準(zhǔn)到達(dá)了怎么樣的水平。另一方面,作為 AlphaStar 技術(shù)方案的一大亮點(diǎn),參與測(cè)試的 AlphaStar 也會(huì)是 AlphaStar 種群(AlphaStar league,詳見(jiàn)下文)中的多個(gè)不同個(gè)體,匹配到的不同 AlphaStar 個(gè)體可能會(huì)有迥異的游戲表現(xiàn)。
在今年一月 DeepMind 首次公開(kāi) AlphaStar 與人類(lèi)職業(yè)選手的比賽結(jié)果時(shí),雷鋒網(wǎng) AI 科技評(píng)論就結(jié)合 DeepMind 官方博客對(duì) AlphaStar 的技術(shù)特點(diǎn)進(jìn)行了報(bào)道。這里我們?cè)侔?AlphaStar 的技術(shù)特點(diǎn)總結(jié)如下:(詳細(xì)可以參見(jiàn)文章)
模型結(jié)構(gòu) - AlphaStar 使用的是一個(gè)長(zhǎng)序列建模模型,模型從游戲接口接收的數(shù)據(jù)是單位列表和這些單位的屬性,經(jīng)過(guò)神經(jīng)網(wǎng)絡(luò)計(jì)算后輸出在游戲中執(zhí)行的指令。這個(gè)神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)是 Transformer 網(wǎng)絡(luò),并且結(jié)合了一個(gè)深度 LSTM 網(wǎng)絡(luò)核心、一個(gè)帶有指針網(wǎng)絡(luò)的自動(dòng)回歸策略頭,以及一個(gè)中心化的評(píng)分基準(zhǔn)。
訓(xùn)練策略 - AlphaStar 首先根據(jù)高水平人類(lèi)比賽進(jìn)行監(jiān)督學(xué)習(xí)訓(xùn)練(模仿學(xué)習(xí)),然后進(jìn)行自我對(duì)弈。自我對(duì)弈的過(guò)程中使用了群體強(qiáng)化學(xué)習(xí)的思路:AlphaStar 自我對(duì)弈過(guò)程中始終都同時(shí)記錄、更新多個(gè)不同版本的網(wǎng)絡(luò),保持一個(gè)群體,稱作 AlphaStar league;AlphaStar league 中不同的網(wǎng)絡(luò)具有不同的對(duì)戰(zhàn)策略、學(xué)習(xí)目標(biāo)等等,維持了群體的多樣性,整個(gè)群體的對(duì)弈學(xué)習(xí)保證了持續(xù)穩(wěn)定的表現(xiàn)提升,而且很新的版本也不會(huì)「忘記」如何擊敗很早的版本。
訓(xùn)練結(jié)果輸出 - 當(dāng)需要輸出一個(gè)網(wǎng)絡(luò)作為最終的訓(xùn)練結(jié)果時(shí),以 AlphaStar league 中的納什分布進(jìn)行采樣,可以得到已經(jīng)發(fā)現(xiàn)的多種策略的綜合最優(yōu)解。
算力需求 - 為了支持大批不同版本 AlphaStar 智能體的對(duì)戰(zhàn)與更新,DeepMind 專(zhuān)門(mén)構(gòu)建了一個(gè)大規(guī)模可拓展的分布式訓(xùn)練環(huán)境,其中使用了最新的谷歌 TPUv3。AlphaStar league 的自我對(duì)戰(zhàn)訓(xùn)練過(guò)程用了 14 天,每個(gè) AlphaStar 智能體使用了 16 個(gè) TPU,最終相當(dāng)于每個(gè)智能體都有長(zhǎng)達(dá) 200 年的游戲時(shí)間。訓(xùn)練結(jié)束后的模型在單塊消費(fèi)級(jí) GPU 上就可以運(yùn)行。
操作統(tǒng)計(jì) - 在今年一月的版本中,AlphaStar 的平均 APM 為 280,峰值 APM 超過(guò) 1000,計(jì)算延時(shí)平均為 350 毫秒;切換關(guān)注區(qū)域的速度大約是每分鐘 30 次。
此次在 AlphaStar 中測(cè)試的大行動(dòng)空間下的長(zhǎng)序列建模,以及群體強(qiáng)化學(xué)習(xí)的訓(xùn)練策略,都是對(duì)提升強(qiáng)化學(xué)習(xí)算法表現(xiàn)上限、應(yīng)對(duì)復(fù)雜環(huán)境長(zhǎng)期任務(wù)的積極技術(shù)探索。我們期待早日看到 DeepMind 的這篇論文成文,更早日看到基于強(qiáng)化學(xué)習(xí)的決策系統(tǒng)整個(gè)領(lǐng)域都發(fā)展得更成熟。當(dāng)然了,喜歡星際 2 的讀者,可以準(zhǔn)備起來(lái),為 DeepMind 的這篇論文貢獻(xiàn)自己的一分力量吧!
雷鋒網(wǎng) AI 科技評(píng)論報(bào)道。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。