丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
業(yè)界 正文
發(fā)私信給付靜
發(fā)送

0

騰訊的 AI 進(jìn)化了!王者榮耀「絕悟」升級,全英雄池解禁

本文作者: 付靜 2020-11-28 17:29
導(dǎo)語:這一升級的背后,是騰訊策略協(xié)作型 AI 算法能力的進(jìn)一步提升。

AI 王者「絕悟」升級了,能達(dá)到精通金庸武俠里所有武功的那種水平。

今天,騰訊宣布,由騰訊 AI Lab 與王者榮耀聯(lián)合研發(fā)的策略協(xié)作型 AI「絕悟」推出升級版本“絕悟完全體”。

這一升級的背后,則是騰訊策略協(xié)作型 AI 算法能力的進(jìn)一步提升,與之相關(guān)的研究也已被 AI 頂級會議 NeurIPS 2020 與頂級期刊 TNNLS 收錄。

騰訊的 AI 進(jìn)化了!王者榮耀「絕悟」升級,全英雄池解禁

英雄池完全解禁

在王者榮耀中,若每個職業(yè)都有 4 個紫色熟練度英雄,就能解鎖“全能高手”稱號。但受到練習(xí)時間與精力限制,很少有人能精通所有英雄,但「絕悟」做到了。

那么,王者再進(jìn)化,將有多強(qiáng)?

據(jù)了解,「絕悟」一年內(nèi)掌握的英雄數(shù)從 1 增加到 100+,王者榮耀英雄池也實(shí)現(xiàn)了完全解禁,不但掌握了所有英雄的全部技能,能應(yīng)對高達(dá) 10 的 15 次方的英雄組合數(shù)變化,甚至還“自帶軍師”,可做出最佳的英雄博弈策略選擇,綜合自身技能與對手情況等多重因素,派出最優(yōu)英雄組合。

騰訊的 AI 進(jìn)化了!王者榮耀「絕悟」升級,全英雄池解禁

目前,“絕悟完全體”已在王者榮耀 App 限時開放,玩家都可與之對戰(zhàn),親身體驗(yàn) AI 在復(fù)雜策略、團(tuán)隊(duì)協(xié)作與微觀操作方面的強(qiáng)大能力。

11 月 14-30 日,「絕悟」在 20 個關(guān)卡的能力將不斷提升,最強(qiáng)的 20 級于 11 月 28 日開放,接受 5v5 組隊(duì)挑戰(zhàn)。

AI 教練的田忌賽馬術(shù)

AI+游戲研究,是騰訊攻克 AI 的終極研究難題,也是通用人工智能(AGI)的關(guān)鍵一步。

騰訊技術(shù)團(tuán)隊(duì)的長期目標(biāo)不僅是讓“絕悟”學(xué)會所有英雄的技能,而且每個英雄都要達(dá)到頂尖水平,可以根據(jù)陣型排列組合打出制勝局。

但難點(diǎn)就在于,「絕悟」的不同英雄會共享一個模型參數(shù),從零學(xué)會單個陣容易如反掌,但面對多英雄組合時就難如登天。對戰(zhàn)中,因?yàn)榈貓D龐大且信息不完備,不同的 10 個英雄組合有不同的策略規(guī)劃、技能應(yīng)用、路徑探索及團(tuán)隊(duì)協(xié)作方式,這將使決策難度幾何級增加。

同時不可忽略的是“災(zāi)難性遺忘”問題,模型容易邊學(xué)邊忘,這也長期困擾著開發(fā)者。

畢竟,一場比賽勝負(fù)的關(guān)鍵不僅在于擁有頂尖選手,排兵布陣的教練也非常重要。

基于此,技術(shù)團(tuán)隊(duì)為「絕悟」找了一個能排兵布陣的 AI 教練,也就是在游戲 BP 環(huán)節(jié)(禁選英雄)的最優(yōu)策略。

騰訊的 AI 進(jìn)化了!王者榮耀「絕悟」升級,全英雄池解禁

【絕悟 vs 人類 BP 測試】

受到圍棋 AI 算法的啟發(fā),研究團(tuán)隊(duì)創(chuàng)新地采用了蒙特卡洛樹搜索(MCTS)和神經(jīng)網(wǎng)絡(luò)結(jié)合的自動 BP 模型,能夠又快又準(zhǔn)地選出具備最大長期價值的英雄。

具體來講,先采用引入“老師分身”模型,每個 AI 老師在單個陣容上訓(xùn)練至精通,再引入一個 AI 學(xué)生模仿學(xué)習(xí)所有的 AI 老師。

最終,「絕悟」掌握了所有英雄的全部技能,正所謂“少林有七十二藝,功夫既有不同,練習(xí)之法,亦必各異。學(xué)者茍能盡之,則無敵于世矣。”

「絕悟」手握強(qiáng)兵善用兵

自然,團(tuán)隊(duì)的長期目標(biāo),就是要讓「絕悟」手握強(qiáng)兵,且每個英雄都能達(dá)到頂尖水平,因此技術(shù)上有了三項(xiàng)重點(diǎn)突破:

首先,團(tuán)隊(duì)構(gòu)建了一個最佳神經(jīng)網(wǎng)絡(luò)模型,讓模型適配 MOBA 類任務(wù)、表達(dá)能力強(qiáng)、還能對英雄操作精細(xì)建模。

模型綜合了大量 AI 方法的優(yōu)勢,如:

  • 在時序信息上引入長短時記憶網(wǎng)絡(luò)(LSTM)優(yōu)化部分可觀測問題;

  • 在圖像信息上選擇卷積神經(jīng)網(wǎng)絡(luò)(CNN)編碼空間特征;

  • 用注意力(Attention)方法強(qiáng)化目標(biāo)選擇;

  • 用動作過濾(Action Mask)方法提升探索效率;

  • 用分層動作設(shè)計加快訓(xùn)練速度;

  • 用多頭值估計(Multi-Head Value)方法降低估計方差。

騰訊的 AI 進(jìn)化了!王者榮耀「絕悟」升級,全英雄池解禁

其次,團(tuán)隊(duì)研究出了拓寬英雄池,讓「絕悟」掌握所有英雄技能的訓(xùn)練方法——CSPL(Curriculum Self-Play Learning,課程自對弈學(xué)習(xí))。

根據(jù)下圖可以看出,使用 CSPL 方法擴(kuò)展英雄池有明顯優(yōu)勢。

騰訊的 AI 進(jìn)化了!王者榮耀「絕悟」升級,全英雄池解禁

據(jù)悉,這是一種讓 AI 從易到難的漸進(jìn)式學(xué)習(xí)方法——第一步是挑選多組覆蓋全部英雄池的陣容,在小模型下用強(qiáng)化學(xué)習(xí)訓(xùn)練;第二步是蒸餾,把第一步得到的多個模型的能力遷移到同一個大模型中;第三步是隨機(jī)陣容的強(qiáng)化訓(xùn)練,在蒸餾后的大模型里,隨機(jī)挑選陣容繼續(xù)強(qiáng)化訓(xùn)練和微調(diào)。

騰訊的 AI 進(jìn)化了!王者榮耀「絕悟」升級,全英雄池解禁

最后,團(tuán)隊(duì)搭建了大規(guī)模訓(xùn)練平臺騰訊開悟(aiarena.tencent.com),依托項(xiàng)目積累的算法經(jīng)驗(yàn)、脫敏數(shù)據(jù)及騰訊云的算力資源,為訓(xùn)練所需的大規(guī)模運(yùn)算保駕護(hù)航。

2020 年 8 月,開悟平臺對 18 所高校開放,未來希望為更多科研人員提供技術(shù)與資源支持,深化課題研究。

早在 2018 年 12 月的 KPL 秋季總決賽中,「絕悟」就曾公開亮相對戰(zhàn)人類玩家。

當(dāng)時,團(tuán)隊(duì)研發(fā)了監(jiān)督學(xué)習(xí)(SL)方法,針對大局觀和微操策略同時建模,使得「絕悟」同時擁有優(yōu)秀的長期規(guī)劃和即時操作,達(dá)到了非職業(yè)玩家的頂尖水平。

騰訊的 AI 進(jìn)化了!王者榮耀「絕悟」升級,全英雄池解禁

但其實(shí),團(tuán)隊(duì)對于監(jiān)督學(xué)習(xí)的研發(fā)一直在進(jìn)行——今年 11 月 14 日起開放的絕悟第 1 到 19 級,就有多個關(guān)卡由監(jiān)督學(xué)習(xí)訓(xùn)練而成。

理論上,監(jiān)督學(xué)習(xí)訓(xùn)練出的 AI 表現(xiàn)遜于強(qiáng)化學(xué)習(xí)的結(jié)果,但這一方向極具研究與應(yīng)用價值,相關(guān)成果也入選了頂刊 TNNLS 。

騰訊的 AI 進(jìn)化了!王者榮耀「絕悟」升級,全英雄池解禁

如今,「絕悟」前有強(qiáng)兵,后有軍師,不折不扣的一代宗師終于練成了。

雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

分享:
相關(guān)文章

編輯

關(guān)注前沿科技。
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說