0
本文作者: 貝爽 | 2020-06-23 09:41 |
繼AlphaGo之后,AI在世界人機(jī)大戰(zhàn)中再一次獲勝。
6月21日,在啟元世界舉辦的國(guó)內(nèi)首屆《星際AI頂級(jí)職業(yè)選手挑戰(zhàn)賽》中,啟元“AI星際指揮官”以2:0的成績(jī)戰(zhàn)勝《星際爭(zhēng)霸I/II》全國(guó)冠軍黃慧明(TooDming)和黃金總決賽冠軍、最強(qiáng)人族選手李培楠(Time)。
與圍棋相比,《星際爭(zhēng)霸》屬于不完全信息博弈,戰(zhàn)爭(zhēng)迷霧對(duì)AI的戰(zhàn)略規(guī)劃、布局、決策提出了更高的要求。而且在決策空間上,圍棋只有361種,星際2大約有1026。因此,更具挑戰(zhàn)性的《星際爭(zhēng)霸》成為了AI與人類較量的下一個(gè)競(jìng)技場(chǎng)。
在第一場(chǎng)人族賽中,AI星際官僅用時(shí)11min,便讓全國(guó)總冠軍TooDming打出了GG。這場(chǎng)比賽中,AI星際官表現(xiàn)的相當(dāng)自信,進(jìn)攻干凈利索,直擊心臟。
不過,TooDming賽后還是不吝贊美AI的策略和打法讓他學(xué)到很多,而且在比賽過程中,他并沒有感覺自己是在和一個(gè)虛擬的機(jī)器人對(duì)戰(zhàn)。
如果說TooDming更擅長(zhǎng)打蟲族,那么AI與最強(qiáng)人族選手Time的對(duì)抗可以說是精彩絕倫。兩場(chǎng)比賽雙方博弈了20min之久,現(xiàn)場(chǎng)解說官都嘆為觀止,Time展現(xiàn)了韓服6500最強(qiáng)人族的實(shí)力,而AI星際官的宏觀策略和微觀操作也毫不遜色。不過,最終Time也沒能讓AI星際官打出GG。
賽后Time發(fā)微博稱:技不如人,甘拜下風(fēng)。
對(duì)于這一結(jié)果,AI星際官的創(chuàng)始人和陪練官也表示很意外,雖然近期AI星際官的決策能力一直呈指數(shù)級(jí)增長(zhǎng),他們有信心戰(zhàn)勝TooDming,但對(duì)于Time并沒有十足的把握。AI星際官的應(yīng)變和自主決策能力顯然已經(jīng)超出了所有人的預(yù)期。
那么,AI星際官到底在這場(chǎng)賽事中表現(xiàn)如何,我們一起來回顧精彩片段。
AI星際指揮官,由啟元世界研發(fā)的智能體(Agent),它是一種具備自我學(xué)習(xí)、自主決策能力的AI,在虛擬世界表現(xiàn)為數(shù)字人,在實(shí)體世界表現(xiàn)為機(jī)器人,類似的智能體還有AlphaGo、AlphaStar。
本場(chǎng)比賽采取三回合制,以人族為戰(zhàn)場(chǎng)。首場(chǎng)參賽職業(yè)選手黃慧明(TooDming),外號(hào)土豆明,效力于Zoo電子競(jìng)技俱樂部,擅長(zhǎng)蟲族,自2006年成為星際職業(yè)選手后,共攬獲11項(xiàng)冠軍,最高成就是《星際爭(zhēng)霸I/II》全國(guó)總冠軍。
Round 1 首場(chǎng)TooDming的打法比較保守,AI星際官率先發(fā)起兩波進(jìn)攻,TooDming成功防守。在人族對(duì)抗中,誰先占領(lǐng)場(chǎng)外控制權(quán)誰就獲得了游戲的主導(dǎo)權(quán)。但就在TooDming出平行開礦過程中,出現(xiàn)了一點(diǎn)點(diǎn)小失誤,AI星際官?zèng)]有給對(duì)手任何機(jī)會(huì),瞬間抓住漏洞,直擊心臟,用時(shí)11分游戲結(jié)束。
Round 2 TooDming調(diào)整了擴(kuò)張方式,更加注重防守策略,而AI也適時(shí)調(diào)整,步步為營(yíng),層層推進(jìn)而不是像上一局那樣猛烈進(jìn)攻。最終,TooDming還是難逃AI星際官的壓制。
據(jù)了解,AI星際官已經(jīng)掌握了260種打法,而這些打法偏向通用性,它們還會(huì)根據(jù)真實(shí)的應(yīng)戰(zhàn)場(chǎng)景,做出相應(yīng)的戰(zhàn)略調(diào)整,而這部分人類也無法預(yù)測(cè)。后來,在與Time的決戰(zhàn)中,AI將這種出其不意的打法發(fā)揮到了極致。
第二場(chǎng)參賽選手李培楠(Time),效力于KaiZiGaming電子競(jìng)技俱樂部,韓服天梯6500分以上的世界頂級(jí)職業(yè)選手。2018獲《星際爭(zhēng)霸I/II》黃金總決賽冠軍,曾在暴雪黃金總決賽擊敗過TooDming。
AI與Time的對(duì)戰(zhàn),可以說是世界范圍內(nèi)現(xiàn)場(chǎng)直播挑戰(zhàn)的最強(qiáng)一戰(zhàn)。
Round 1 這場(chǎng)比賽中,AI星際官將維京作為主戰(zhàn)和控制單位的打法,讓所有人嘆為觀止,此前從未見過這樣的戰(zhàn)術(shù),這也讓Time直接懵掉。解說官表示,這項(xiàng)戰(zhàn)術(shù)對(duì)于人類玩家非常有啟發(fā)意義。
值得一提的事,在對(duì)TooDming發(fā)出挑釁后,面對(duì)實(shí)力更強(qiáng)的Time,AI星際官發(fā)出了“Love and Peace”的對(duì)話框。不得不感嘆它的實(shí)時(shí)感知能力。
Round 2 Time更是背水一戰(zhàn),不過AI星際官的打法讓他摸不到頭緒,而且多線程的左右夾擊,他只能不停的防守,最后資源儲(chǔ)備出現(xiàn)明顯不足。整場(chǎng)賽事下來,觀看直播的網(wǎng)友紛紛表示,只有Time能夠抗住AI這樣的強(qiáng)勢(shì)進(jìn)攻。
還有網(wǎng)友建議,能堅(jiān)持到20min,很適合AI的陪練官,它會(huì)肯定會(huì)成長(zhǎng)的更快......
對(duì)于最終的賽事結(jié)果,AI星際官的陪練官表示,2:0戰(zhàn)勝TooDming是意料之中的事情,但是最終2:0戰(zhàn)勝Time他自己也是出乎意料,畢竟Time的實(shí)力眾所周知。另外,這也是AI星際官連續(xù)作戰(zhàn)20min之久,它頂住了長(zhǎng)盤壓力,做出了更好的應(yīng)變和執(zhí)行。
不過,AI星際官,或者AlphaGo、AlphaStar等智能體的出現(xiàn),其背后的意圖并不是為了戰(zhàn)勝人類,而是通過與人類的對(duì)抗訓(xùn)練,使AI獲得更好的自主學(xué)習(xí)和決策能力,由此所獲得的通用技術(shù),可以為更復(fù)雜、更廣泛的現(xiàn)實(shí)應(yīng)用場(chǎng)景提供幫助,實(shí)現(xiàn)最終的通用人工智能(AGI)。
這也是啟元世界、DeepMind、OpenAI等科技企業(yè)選擇在此發(fā)力的重要原因,只不過在AI訓(xùn)練的最佳場(chǎng)所上,他們共同選擇了即時(shí)戰(zhàn)略類的游戲。
為何押注《星際爭(zhēng)霸》?在AlphaGo以3:0戰(zhàn)勝圍棋頂級(jí)職業(yè)選手李世石后,DeepMind研究人員便開始向以非完全信息博弈為代表的即時(shí)戰(zhàn)略類游戲發(fā)起進(jìn)攻。
與圍棋/德州撲克,選手能夠相互觀察到對(duì)方的戰(zhàn)略進(jìn)攻相比,非完全信息博弈意味著選手只能”偵查“或”猜測(cè)“敵方情況。這為決策帶來非常大的不確定性。
星際爭(zhēng)霸具有典型的非完全信息的特征,同時(shí),它作為即時(shí)戰(zhàn)略類的經(jīng)典的游戲,其復(fù)雜程度更是成倍數(shù)級(jí)增長(zhǎng)。
首先從博弈的角度來講,星際爭(zhēng)霸不存在最佳策略,它需要根據(jù)實(shí)際戰(zhàn)況隨時(shí)調(diào)整策略,拓展資源,在宏觀經(jīng)濟(jì)和微觀操作中尋找最佳平衡。所以在此次比賽中,我們也看到了AI星際打出了此前人類從未見過的戰(zhàn)術(shù)。
另外,星際爭(zhēng)霸具有更大的決策空間,每分鐘可達(dá)3000-4000次。尤其是與同為即時(shí)戰(zhàn)略類的Dota相比,星際可操控的單元巨多,開礦造兵,偵查敵軍,發(fā)起進(jìn)攻,不同單元在時(shí)間和數(shù)量的上的不同組合,會(huì)對(duì)整個(gè)局勢(shì)產(chǎn)生決定性影響。
更重要的是,它的即時(shí)性要求選手必須做出毫秒級(jí)的反應(yīng),這是與傳統(tǒng)棋類最大的不同。
研究人員認(rèn)為,《星際爭(zhēng)霸》非??简?yàn)AI的綜合能力。它的不完全信息決策、長(zhǎng)期部署、實(shí)時(shí)對(duì)抗等特性與現(xiàn)實(shí)世界的環(huán)境和需求極為相似,同時(shí),這就要求AI不僅能實(shí)時(shí)感知、認(rèn)知環(huán)境,還需要適應(yīng)環(huán)境,做出數(shù)千步連續(xù)決策,因此,它可以作為AI訓(xùn)練的最佳虛擬場(chǎng)景。
不過,《星際爭(zhēng)霸》確實(shí)是一塊難啃的硬骨頭,直到近些年AI星際才有些出色的成績(jī)。
在本次AI星際挑戰(zhàn)賽之前,該領(lǐng)域中成績(jī)最為亮眼的要屬DeepMind推出的AlphaStar,歷時(shí)15年的技術(shù)研發(fā),AlphaStar在2018年先后以5:0的成績(jī)打敗了Team Liquid 的職業(yè)星際 2 選手 TLO和最強(qiáng)神族選手MaNa 。不過在后來的表演賽中,MaNa成功扳回一局,虐殺AlphaStar。
此次,AI星際官以2:0的戰(zhàn)績(jī)完敗世界頂級(jí)職業(yè)選手Time,達(dá)到了與DeepMind同等水平。但不同的是,啟元世界僅用了3年的時(shí)間便發(fā)出了如此強(qiáng)大的AI星際官,同時(shí)其算力僅占DeepMind的1%。
據(jù)研究人員透露,工程和算法是AI星際官的核心優(yōu)勢(shì)。他們通過獨(dú)創(chuàng)的“數(shù)據(jù)生成—傳輸—消費(fèi)”的一體化計(jì)算框架,使智能體訓(xùn)練的數(shù)據(jù)吞吐率提升了10倍以上。另外,在算法方面,啟元自主研發(fā)的Commander神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),結(jié)合高效率的群體演化訓(xùn)練方法,可在有限的算力條件下,既能增強(qiáng)智能體的魯棒性,又能實(shí)現(xiàn)智能體的快速進(jìn)化。
短短三年取得這樣的成績(jī),這家人工智能領(lǐng)域的初創(chuàng)公司不容小覷。
據(jù)了解,公司自成立之初,便圍繞《星際爭(zhēng)霸》展開智能體研究,其創(chuàng)始人袁泉曾是前阿里認(rèn)知計(jì)算實(shí)驗(yàn)室核心成員。同時(shí),公司的核心成員均是來自BAT、Netflix、IBM、香港科大、伯克利等國(guó)內(nèi)外知名高科技企業(yè)和一流學(xué)府。
此次,AI星際官的大獲全勝,預(yù)示著其智能體技術(shù)的初步成熟。研究人員介紹,AI星際官背后的秘密武器“智能體訓(xùn)練云平臺(tái)”已正式走向市場(chǎng),在交通調(diào)度、數(shù)字娛樂、公共科技、機(jī)器人等行業(yè)得到了廣泛應(yīng)用。
比如,在交通調(diào)度方面,智能體可以化身交通調(diào)度員,每隔幾秒鐘自動(dòng)調(diào)度和優(yōu)化紅綠燈,大大緩解交通擁堵,實(shí)現(xiàn)真正的智慧化城市。
最后一問:如果通用人工智能技術(shù)得以實(shí)現(xiàn),你最希望它可以賦能哪一行業(yè),解決什么問題?
雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)
更多賽事情況,可參看鏈接:
https://www.bilibili.com/video/BV1Yi4y1G7Xb?from=search&seid=11222559881555171335
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。