OpanAI公布Dota AI比賽細(xì)節(jié)，自我對局讓它超越人類

本文作者：張馳

2017-08-18 08:47

導(dǎo)語：經(jīng)過約一周的時(shí)間，OpanAI最終公布了Dota AI的一些細(xì)節(jié)，不過它還是有所保留，沒有說明技術(shù)細(xì)節(jié)。最后，他們還說到最終的目的就是在5v5比賽中戰(zhàn)勝人類。

在攻克了圍棋以后，人工智能研究者們似乎不約而同地把電子競技游戲作為了下一個(gè)練兵場。雷鋒網(wǎng)上周報(bào)道，在Dota2國際邀請賽TI7上，OpenAI率先展示了自己的成果，在西雅圖讓AI在1v1比賽中擊敗了職業(yè)選手，又一次點(diǎn)燃了關(guān)于AI的討論。

雷鋒網(wǎng)對比賽結(jié)果也進(jìn)行了諸多分析，就目前的資料來看，其實(shí)1v1比賽可能較圍棋來得簡單，在1v1比賽中取勝，也不能說明在5v5的完整比賽中能戰(zhàn)勝人類，人類還保有一定的尊嚴(yán)。

經(jīng)過約一周的時(shí)間，OpanAI最終公布了Dota AI的一些細(xì)節(jié)，不過它還是有所保留，沒有說明技術(shù)細(xì)節(jié)。最后，他們還說到最終的目的就是在5v5比賽中戰(zhàn)勝人類。

OpanAI公布Dota AI比賽細(xì)節(jié)，自我對局讓它超越人類

上圖是游戲AI的TrueSkill評級(jí)（類似于國際象棋中的ELO評級(jí)）分?jǐn)?shù)變化，計(jì)算方式是模擬AI之間的游戲?qū)郑⒂^察勝率。TrueSkill系統(tǒng)是基于貝葉斯推斷的評分系統(tǒng)，由微軟研究院開發(fā)，主要用于多人游戲匹配。這套評分系統(tǒng)考慮到了玩家水平的不確定性，綜合考慮了玩家的勝率和可能的水平漲落，而不是簡單的基于勝率的評分。

圖中顯示的變化趨勢是線性的，這意味著AI的提升水平呈指數(shù)級(jí)增長。

OpenAI還具體介紹了項(xiàng)目的開發(fā)時(shí)間表。從某種角度看，15％的玩家低于1.5K MMR，58％的玩家低于3k，而99.99％低于7.5k。

MMR是比賽匹配分級(jí)系統(tǒng)，全稱是match making ranking，簡單理解就是Dota中常說的天梯分。

3月1日：在簡單的Dota環(huán)境中得到了第一個(gè)經(jīng)典強(qiáng)化學(xué)習(xí)下的結(jié)果，AI操作的黑暗游俠可以對付神牛了。
5月8日：1.5k MMR水平的測試員說自己的速度比AI要快。
6月初：擊敗1.5k MMR水平的測試者
6月30日：在與3k MMR測試者的比賽中多數(shù)會(huì)贏
7月8日：對戰(zhàn)7.5K MMR水平的半專業(yè)測試者，終于贏了一次。
8月7日：3-0擊敗Blitz（6.2k的前職業(yè)選手），2-1擊敗Pajkatt（8.5k的職業(yè)選手），3-0擊敗CC＆C（8.9k的職業(yè)選手），不過大家都認(rèn)為，系統(tǒng)還是打不過頂尖選手Sumail。
8月9日：10-0擊敗Arteezy（10k職業(yè)選手）10-0，但他還是認(rèn)為系統(tǒng)搞不定Sumail。
8月10日：6-0擊敗Sumail（8.3k職業(yè)選手，頂級(jí)1v1玩家），不過在與8月9日版的系統(tǒng)對戰(zhàn)結(jié)果是2-1。
8月11日：2-0擊敗Dendi（7.3k職業(yè)選手，前世界冠軍）2-0。這個(gè)時(shí)候的系統(tǒng)對戰(zhàn)前一天的版本，勝率是60％。

OpanAI公布Dota AI比賽細(xì)節(jié)，自我對局讓它超越人類

AI與Sumail比賽

完整的比賽是5v5版本的，不過1v1也出現(xiàn)在一些錦標(biāo)賽中。OpenAI寫到，系統(tǒng)是在標(biāo)準(zhǔn)比賽規(guī)則下對戰(zhàn)的，在1v1中沒有為AI做特別的簡化。

系統(tǒng)的操作環(huán)境如下：

觀察：使用游戲的Bot API接口，功能集與視角和人類玩家的一樣，會(huì)受英雄，小兵，信使和附近地形的影響。整個(gè)游戲?qū)I系統(tǒng)來說是部分可觀察的。
操作：也是調(diào)用Bot API，操作頻率被限定在與人類水平相當(dāng)，這包括移動(dòng)到某個(gè)位置，攻擊或使用某個(gè)物品的頻率。
反饋：系統(tǒng)在贏得比賽后會(huì)得到獎(jiǎng)勵(lì)，其它一些基本指標(biāo)，如英雄的生命狀態(tài)和最后一擊等，也會(huì)影響?yīng)剟?lì)。

系統(tǒng)還可以選擇使用的幾十個(gè)裝備道具，選擇后會(huì)有評估。OpenAI還用了傳統(tǒng)的強(qiáng)化技術(shù)單獨(dú)訓(xùn)練開局前的擋兵，這基本是1v1的標(biāo)準(zhǔn)操作。

OpanAI公布Dota AI比賽細(xì)節(jié)，自我對局讓它超越人類

AI與Arteezy比賽

OpenAI稱，他們使用的方法結(jié)合了少量的“教練”式訓(xùn)練與自我對戰(zhàn)，每天都能有很大的提升。比如在TI比賽的那段時(shí)間，周一晚上的時(shí)候Pajkatt還打贏了系統(tǒng)，當(dāng)時(shí)他使用了一個(gè)不尋常的裝備，即在早期購買了魔棒。后來OpenAI將這種操作加到了培訓(xùn)當(dāng)中。

星期三下午OpenAI再次測試了最新的系統(tǒng)。比賽中AI在第一波攻擊中就掉了一大半血，正當(dāng)研究人員覺得要把系統(tǒng)回復(fù)了原先版本的時(shí)候，他們注意到了驚人的發(fā)展，原來第一波攻擊是在誘使對方采用更激進(jìn)的攻擊方式。系統(tǒng)進(jìn)一步的自我對局逐漸解決了這個(gè)問題，并學(xué)會(huì)了抵制引誘策略。

在與Arteezy的比賽之后，OpenAI更新了擋兵模型，讓系統(tǒng)的TrueSkill分增加了一點(diǎn)。然后在與Sumail比賽之前又進(jìn)行了進(jìn)一步訓(xùn)練，把TrueSkill分增加了兩點(diǎn)。Sumail比完后說，AI甚至學(xué)會(huì)了在敵方的視線之外壓影炮，這樣可以打斷敵人在視野之外的回復(fù)。

Arteezy還與OpenAI的7.5k評級(jí)半專業(yè)測試員打了一場比賽。Arteezy贏了比賽，但測試人員用了從AI系統(tǒng)那學(xué)的一招，著實(shí)讓人吃驚。Arteezy后來說，這是他以前與Paparazi比賽時(shí)對方用過的招數(shù)，很少有人會(huì)用。

這種情況在圍棋中也曾出現(xiàn)過，當(dāng)AlphaGo戰(zhàn)勝李世石后，再到它與柯潔的比賽，人類棋手也越來越多地開始學(xué)習(xí)它的布局與下法。

Sumail在對戰(zhàn)后說，AI系統(tǒng)是“不可戰(zhàn)勝的”，但它仍然會(huì)在與之前遇到過的狀況非常不同的情況下不知混所措。在TI的比賽那段時(shí)間，OpenAI還設(shè)了一次局域網(wǎng)比賽讓很多人參加進(jìn)來，以各種方式與AI系統(tǒng)對戰(zhàn)，總共收集了1000多次比賽數(shù)據(jù)。最終還是發(fā)現(xiàn)了不少系統(tǒng)的破綻，可以戰(zhàn)勝它，主要有三類：

引兵：當(dāng)小兵進(jìn)攻的時(shí)候，可以不斷攻擊它們吸引火力，讓他們跟著你跑，這樣可以導(dǎo)致AI一方的防衛(wèi)塔被小兵消耗而亡。
淬毒之珠+風(fēng)靈之紋：買這兩個(gè)裝備可以在1級(jí)的時(shí)候帶來很大的移動(dòng)速度優(yōu)勢，這樣可以快速拿AI的一血。有了這樣好的開始戰(zhàn)勝電腦就很容易了。
1級(jí)影壓：用這一條戰(zhàn)勝電腦需要不少技巧，不過根據(jù)OpenAI的說法，有幾個(gè)6-7k水平的玩家能夠在較短時(shí)間內(nèi)壓3-5記影炮，在1級(jí)的時(shí)候就殺死AI系統(tǒng)。

以上都是在1v1比賽中的小bug，很容易修復(fù)錯(cuò)誤。但是對于5v5比賽來說，這樣的問題根本就不是漏洞了，這時(shí)候需要的是一個(gè)可以處理突發(fā)且怪異情況的系統(tǒng)。

最后，OpenAI表示還沒有準(zhǔn)備好對外公布開發(fā)的AI代理的具體構(gòu)造，團(tuán)隊(duì)的重點(diǎn)是首先解決5v5比賽。如果說1v1比賽很復(fù)雜，那5v5比賽就是復(fù)雜的集合，而解決這一問題會(huì)進(jìn)一步推動(dòng)AI的進(jìn)步。

OpenAI認(rèn)為，一個(gè)比較好的著手方式是行為克隆。Dota每天有大約一百萬場公開賽，這些比賽的重播數(shù)據(jù)會(huì)被存儲(chǔ)在Valve的服務(wù)器上兩周。雷鋒網(wǎng)了解到，自去年11月以來，OpenAI一直在下載每位專家級(jí)別玩家的重播數(shù)據(jù)，已經(jīng)收集了580萬局游戲的數(shù)據(jù)（每局都是10人參與的45分鐘游戲）。

OpenAI的Dota 2系統(tǒng)表明，如果有充分的計(jì)算，自我對局可以將機(jī)器學(xué)習(xí)系統(tǒng)的性能從遠(yuǎn)低于人類的水平提高到超越人類。在一個(gè)月的時(shí)間里，它們的系統(tǒng)就從比不上高水平玩家，發(fā)展到了擊敗頂級(jí)職業(yè)選手，而且還在繼續(xù)提升。有監(jiān)督深度學(xué)習(xí)系統(tǒng)只能與培訓(xùn)數(shù)據(jù)集一樣好，但在自我對局系統(tǒng)中，隨著代理越來越好，可用數(shù)據(jù)會(huì)自動(dòng)提升。

雷峰網(wǎng)版權(quán)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

0人收藏

相關(guān)文章

張馳

專業(yè)寫瞎

不受意識(shí)控制地報(bào)道那些讓人感動(dòng)的產(chǎn)品技術(shù)和事件......zhchsimons@gmail.com ；微信：nksimons；《腦洞》公眾號(hào)：hackmind

發(fā)私信

當(dāng)月熱門文章