丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
業(yè)界 正文
發(fā)私信給張馳
發(fā)送

1

OpanAI公布Dota AI比賽細(xì)節(jié),自我對局讓它超越人類

本文作者: 張馳 2017-08-18 08:47
導(dǎo)語:經(jīng)過約一周的時間,OpanAI最終公布了Dota AI的一些細(xì)節(jié),不過它還是有所保留,沒有說明技術(shù)細(xì)節(jié)。最后,他們還說到最終的目的就是在5v5比賽中戰(zhàn)勝人類。

OpanAI公布Dota AI比賽細(xì)節(jié),自我對局讓它超越人類

在攻克了圍棋以后,人工智能研究者們似乎不約而同地把電子競技游戲作為了下一個練兵場。雷鋒網(wǎng)上周報道,在Dota2國際邀請賽TI7上,OpenAI率先展示了自己的成果,在西雅圖讓AI在1v1比賽中擊敗了職業(yè)選手,又一次點燃了關(guān)于AI的討論。

雷鋒網(wǎng)對比賽結(jié)果也進行了諸多分析,就目前的資料來看,其實1v1比賽可能較圍棋來得簡單,在1v1比賽中取勝,也不能說明在5v5的完整比賽中能戰(zhàn)勝人類,人類還保有一定的尊嚴(yán)。

經(jīng)過約一周的時間,OpanAI最終公布了Dota AI的一些細(xì)節(jié),不過它還是有所保留,沒有說明技術(shù)細(xì)節(jié)。最后,他們還說到最終的目的就是在5v5比賽中戰(zhàn)勝人類。

OpanAI公布Dota AI比賽細(xì)節(jié),自我對局讓它超越人類

上圖是游戲AI的TrueSkill評級(類似于國際象棋中的ELO評級)分?jǐn)?shù)變化,計算方式是模擬AI之間的游戲?qū)?,并觀察勝率。TrueSkill系統(tǒng)是基于貝葉斯推斷的評分系統(tǒng),由微軟研究院開發(fā),主要用于多人游戲匹配。這套評分系統(tǒng)考慮到了玩家水平的不確定性,綜合考慮了玩家的勝率和可能的水平漲落,而不是簡單的基于勝率的評分。

圖中顯示的變化趨勢是線性的,這意味著AI的提升水平呈指數(shù)級增長。

OpenAI還具體介紹了項目的開發(fā)時間表。從某種角度看,15%的玩家低于1.5K MMR,58%的玩家低于3k,而99.99%低于7.5k。

MMR是比賽匹配分級系統(tǒng),全稱是match making ranking,簡單理解就是Dota中常說的天梯分。

  • 3月1日:在簡單的Dota環(huán)境中得到了第一個經(jīng)典強化學(xué)習(xí)下的結(jié)果,AI操作的黑暗游俠可以對付神牛了。

  • 5月8日:1.5k MMR水平的測試員說自己的速度比AI要快。

  • 6月初:擊敗1.5k MMR水平的測試者

  • 6月30日:在與3k MMR測試者的比賽中多數(shù)會贏

  • 7月8日:對戰(zhàn)7.5K MMR水平的半專業(yè)測試者,終于贏了一次。

  • 8月7日:3-0擊敗Blitz(6.2k的前職業(yè)選手),2-1擊敗Pajkatt(8.5k的職業(yè)選手),3-0擊敗CC&C(8.9k的職業(yè)選手),不過大家都認(rèn)為,系統(tǒng)還是打不過頂尖選手Sumail。

  • 8月9日:10-0擊敗Arteezy(10k職業(yè)選手)10-0,但他還是認(rèn)為系統(tǒng)搞不定Sumail。

  • 8月10日:6-0擊敗Sumail(8.3k職業(yè)選手,頂級1v1玩家),不過在與8月9日版的系統(tǒng)對戰(zhàn)結(jié)果是2-1。

  • 8月11日:2-0擊敗Dendi(7.3k職業(yè)選手,前世界冠軍)2-0。這個時候的系統(tǒng)對戰(zhàn)前一天的版本,勝率是60%。

OpanAI公布Dota AI比賽細(xì)節(jié),自我對局讓它超越人類

AI與Sumail比賽

完整的比賽是5v5版本的,不過1v1也出現(xiàn)在一些錦標(biāo)賽中。OpenAI寫到,系統(tǒng)是在標(biāo)準(zhǔn)比賽規(guī)則下對戰(zhàn)的 ,在1v1中沒有為AI做特別的簡化。

系統(tǒng)的操作環(huán)境如下:

  • 觀察:使用游戲的Bot API接口,功能集與視角和人類玩家的一樣,會受英雄,小兵,信使和附近地形的影響。整個游戲?qū)I系統(tǒng)來說是部分可觀察的。

  • 操作:也是調(diào)用Bot API,操作頻率被限定在與人類水平相當(dāng),這包括移動到某個位置,攻擊或使用某個物品的頻率。

  • 反饋:系統(tǒng)在贏得比賽后會得到獎勵,其它一些基本指標(biāo),如英雄的生命狀態(tài)和最后一擊等,也會影響?yīng)剟睢?/p>

系統(tǒng)還可以選擇使用的幾十個裝備道具,選擇后會有評估。OpenAI還用了傳統(tǒng)的強化技術(shù)單獨訓(xùn)練開局前的擋兵,這基本是1v1的標(biāo)準(zhǔn)操作。

OpanAI公布Dota AI比賽細(xì)節(jié),自我對局讓它超越人類

AI與Arteezy比賽

OpenAI稱,他們使用的方法結(jié)合了少量的“教練”式訓(xùn)練與自我對戰(zhàn),每天都能有很大的提升。比如在TI比賽的那段時間,周一晚上的時候Pajkatt還打贏了系統(tǒng),當(dāng)時他使用了一個不尋常的裝備,即在早期購買了魔棒。后來OpenAI將這種操作加到了培訓(xùn)當(dāng)中。

星期三下午OpenAI再次測試了最新的系統(tǒng)。比賽中AI在第一波攻擊中就掉了一大半血,正當(dāng)研究人員覺得要把系統(tǒng)回復(fù)了原先版本的時候,他們注意到了驚人的發(fā)展,原來第一波攻擊是在誘使對方采用更激進的攻擊方式。系統(tǒng)進一步的自我對局逐漸解決了這個問題,并學(xué)會了抵制引誘策略。

在與Arteezy的比賽之后,OpenAI更新了擋兵模型,讓系統(tǒng)的TrueSkill分增加了一點。然后在與Sumail比賽之前又進行了進一步訓(xùn)練,把TrueSkill分增加了兩點。Sumail比完后說,AI甚至學(xué)會了在敵方的視線之外壓影炮,這樣可以打斷敵人在視野之外的回復(fù)。

Arteezy還與OpenAI的7.5k評級半專業(yè)測試員打了一場比賽。Arteezy贏了比賽,但測試人員用了從AI系統(tǒng)那學(xué)的一招,著實讓人吃驚。Arteezy后來說,這是他以前與Paparazi比賽時對方用過的招數(shù),很少有人會用。

這種情況在圍棋中也曾出現(xiàn)過,當(dāng)AlphaGo戰(zhàn)勝李世石后,再到它與柯潔的比賽,人類棋手也越來越多地開始學(xué)習(xí)它的布局與下法。

Sumail在對戰(zhàn)后說,AI系統(tǒng)是“不可戰(zhàn)勝的”,但它仍然會在與之前遇到過的狀況非常不同的情況下不知混所措。在TI的比賽那段時間,OpenAI還設(shè)了一次局域網(wǎng)比賽讓很多人參加進來,以各種方式與AI系統(tǒng)對戰(zhàn),總共收集了1000多次比賽數(shù)據(jù)。最終還是發(fā)現(xiàn)了不少系統(tǒng)的破綻,可以戰(zhàn)勝它,主要有三類:

  • 引兵:當(dāng)小兵進攻的時候,可以不斷攻擊它們吸引火力,讓他們跟著你跑,這樣可以導(dǎo)致AI一方的防衛(wèi)塔被小兵消耗而亡。

  • 淬毒之珠+風(fēng)靈之紋:買這兩個裝備可以在1級的時候帶來很大的移動速度優(yōu)勢,這樣可以快速拿AI的一血。有了這樣好的開始戰(zhàn)勝電腦就很容易了。

  • 1級影壓:用這一條戰(zhàn)勝電腦需要不少技巧,不過根據(jù)OpenAI的說法,有幾個6-7k水平的玩家能夠在較短時間內(nèi)壓3-5記影炮,在1級的時候就殺死AI系統(tǒng)。

以上都是在1v1比賽中的小bug,很容易修復(fù)錯誤。但是對于5v5比賽來說,這樣的問題根本就不是漏洞了,這時候需要的是一個可以處理突發(fā)且怪異情況的系統(tǒng)。

最后,OpenAI表示還沒有準(zhǔn)備好對外公布開發(fā)的AI代理的具體構(gòu)造,團隊的重點是首先解決5v5比賽。如果說1v1比賽很復(fù)雜,那5v5比賽就是復(fù)雜的集合,而解決這一問題會進一步推動AI的進步。

OpenAI認(rèn)為,一個比較好的著手方式是行為克隆。Dota每天有大約一百萬場公開賽,這些比賽的重播數(shù)據(jù)會被存儲在Valve的服務(wù)器上兩周。雷鋒網(wǎng)了解到,自去年11月以來,OpenAI一直在下載每位專家級別玩家的重播數(shù)據(jù),已經(jīng)收集了580萬局游戲的數(shù)據(jù)(每局都是10人參與的45分鐘游戲)。

OpenAI的Dota 2系統(tǒng)表明,如果有充分的計算,自我對局可以將機器學(xué)習(xí)系統(tǒng)的性能從遠低于人類的水平提高到超越人類。在一個月的時間里,它們的系統(tǒng)就從比不上高水平玩家,發(fā)展到了擊敗頂級職業(yè)選手,而且還在繼續(xù)提升。有監(jiān)督深度學(xué)習(xí)系統(tǒng)只能與培訓(xùn)數(shù)據(jù)集一樣好,但在自我對局系統(tǒng)中,隨著代理越來越好,可用數(shù)據(jù)會自動提升。

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

分享:
相關(guān)文章

專業(yè)寫瞎

不受意識控制地報道那些讓人感動的產(chǎn)品技術(shù)和事件......zhchsimons@gmail.com ;微信:nksimons;《腦洞》公眾號:hackmind
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說