丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
業(yè)界 正文
發(fā)私信給貝爽
發(fā)送

0

碾壓1138支AI!騰訊『絕悟WeKick』在Kaggle足球競(jìng)賽中一舉奪冠

本文作者: 貝爽 2020-12-30 18:15
導(dǎo)語(yǔ):從圍棋、王者到足球,AI越來(lái)越強(qiáng)了!

你以為AI只會(huì)打王者?NO,踢足球也溜的很!

先來(lái)欣賞兩個(gè)精彩片段:

快、準(zhǔn)、直!一記完美的長(zhǎng)傳后,直射球門!

碾壓1138支AI!騰訊『絕悟WeKick』在Kaggle足球競(jìng)賽中一舉奪冠

連續(xù)突破重圍,輕松傳球4次。

碾壓1138支AI!騰訊『絕悟WeKick』在Kaggle足球競(jìng)賽中一舉奪冠

看到如此嫻熟的球技,你是不是和小編一樣誤以為是人類,其實(shí)賽場(chǎng)上的球員全部是AI代理。剛剛完成傳球、射門的黃色球衣球員正式騰訊的絕悟AI——足球版WeKick。

絕悟,是騰訊AI Lab與王者榮耀聯(lián)合研發(fā)的策略協(xié)作型AI,上個(gè)月剛剛升級(jí)為完全體(讓AI掌握了所有英雄的所有技能)。絕悟Wicke版是基于絕悟完全體遷移得到的,并針對(duì)足球任務(wù)進(jìn)行了針對(duì)性調(diào)整。

WeKick剛剛參加完首屆谷歌足球Kaggle競(jìng)賽,以上是賽場(chǎng)上傳來(lái)的精彩片段。在這場(chǎng)全球頂級(jí)AI足球賽中,WeKick憑借1785.8分分絕對(duì)性優(yōu)勢(shì),一舉擊敗了1138支優(yōu)秀團(tuán)隊(duì)奪得了本次競(jìng)賽的冠軍。

碾壓1138支AI!騰訊『絕悟WeKick』在Kaggle足球競(jìng)賽中一舉奪冠

這是絕悟完全體首次應(yīng)用于足球任務(wù),并參加大型國(guó)際足球競(jìng)賽,取得如此成績(jī),可見其背后深度強(qiáng)化學(xué)習(xí)方法的通用能力。

與王者榮耀一樣,足球競(jìng)賽也屬于即時(shí)策略型游戲,需要AI具備長(zhǎng)線思考、快速?zèng)Q策、處理復(fù)雜環(huán)境的能力。在本次競(jìng)賽中,一個(gè)球員需要一個(gè)智能體(11vs11賽制),AI代理不僅需要控制球員之間的相互配合,還要時(shí)刻觀察對(duì)手的行為,并做出及時(shí)應(yīng)對(duì)。

在瞬息萬(wàn)變的賽場(chǎng)上,這背后需要復(fù)雜的團(tuán)隊(duì)協(xié)作、實(shí)時(shí)決策和競(jìng)爭(zhēng)策略。

那么,在如此高難度的挑戰(zhàn)賽中,為何絕悟WeKick能夠殺出重圍,奪得冠軍?

WeKick背后的三大優(yōu)化策略

此次競(jìng)賽使用的是Google Research Football強(qiáng)化學(xué)習(xí)環(huán)境。

得益于深度強(qiáng)化學(xué)習(xí)在游戲領(lǐng)域突飛猛進(jìn),從Atari游戲,圍棋,再到多種不同的視頻游戲,AI智能體在不斷迭代中變得越來(lái)越強(qiáng),使足球運(yùn)動(dòng)團(tuán)隊(duì)策略的難關(guān)也得以被攻克。

碾壓1138支AI!騰訊『絕悟WeKick』在Kaggle足球競(jìng)賽中一舉奪冠

與MOBA游戲中不斷有經(jīng)濟(jì)、血量、經(jīng)驗(yàn)等實(shí)時(shí)學(xué)習(xí)信號(hào)不同,足球的游戲激勵(lì)非常稀疏,基本只能依靠進(jìn)球,而稀疏激勵(lì)一直是目前強(qiáng)化學(xué)習(xí)一大難題。

也就是說(shuō),單純的從零開始完全采用強(qiáng)化學(xué)習(xí)來(lái)訓(xùn)練足球AI也相當(dāng)困難。對(duì)此,騰訊AI Lab提出了三項(xiàng)改進(jìn)方案:

  • 基于絕悟完全體的架構(gòu)遷移,定制自博弈化強(qiáng)化學(xué)習(xí)框架。

  • 在特征與獎(jiǎng)勵(lì)設(shè)計(jì)上,生成對(duì)抗模擬學(xué)習(xí)(GAIL)與人工設(shè)計(jì)獎(jiǎng)勵(lì)相結(jié)合的方案

  • 采用League (若干策略池)多風(fēng)格強(qiáng)化學(xué)習(xí)訓(xùn)練方案。

首先是定制化框架,研究人員采用自博弈(Self-Play)強(qiáng)化學(xué)習(xí)來(lái)從零開始訓(xùn)練模型,并部署到異步的分布式強(qiáng)化學(xué)習(xí)框架中。

碾壓1138支AI!騰訊『絕悟WeKick』在Kaggle足球競(jìng)賽中一舉奪冠

雖然該異步架構(gòu)犧牲了訓(xùn)練階段的部分實(shí)時(shí)性能,但靈活性卻得到顯著提升,而且還支持在訓(xùn)練過(guò)程中按需調(diào)整計(jì)算資源,使其能適應(yīng) 11 智能體足球游戲訓(xùn)練環(huán)境。

此外,由于MOBA游戲和足球游戲任務(wù)目標(biāo)存在差異,絕悟WeKick采用了生成對(duì)抗模擬學(xué)習(xí)(GAIL)與人工設(shè)計(jì)的獎(jiǎng)勵(lì)結(jié)合的方式,在特征與獎(jiǎng)勵(lì)設(shè)計(jì)上進(jìn)行了擴(kuò)展和創(chuàng)新。

該方案利用了生成對(duì)抗訓(xùn)練機(jī)制來(lái)擬合專家行為的狀態(tài)和動(dòng)作分布,使絕悟WeKick可以從其它球隊(duì)學(xué)習(xí)。然后,再將 GAIL 訓(xùn)練的模型作為固定對(duì)手進(jìn)行進(jìn)一步自博弈訓(xùn)練,進(jìn)一步提升策略的穩(wěn)健性。

碾壓1138支AI!騰訊『絕悟WeKick』在Kaggle足球競(jìng)賽中一舉奪冠

但這種通過(guò)自博弈強(qiáng)化學(xué)習(xí)得到的模型有一個(gè)天然的缺點(diǎn):很容易收斂到單一風(fēng)格。在實(shí)際比賽的時(shí)候單一風(fēng)格的模型很容易發(fā)生由于沒(méi)見過(guò)某種打法而表現(xiàn)失常,最終導(dǎo)致成績(jī)不佳的情況。

因此,為了提升策略的多樣性和穩(wěn)健性,絕悟還采用了針對(duì)多智能體學(xué)習(xí)任務(wù)的League(若干策略池)多風(fēng)格強(qiáng)化學(xué)習(xí)訓(xùn)練方案。

碾壓1138支AI!騰訊『絕悟WeKick』在Kaggle足球競(jìng)賽中一舉奪冠

這種League多風(fēng)格強(qiáng)化學(xué)習(xí)訓(xùn)練方案的主要流程可簡(jiǎn)單總結(jié)為先專精后綜合,如下:

  • 首先訓(xùn)練一個(gè)具備一定程度競(jìng)技能力的基礎(chǔ)模型,比如運(yùn)球過(guò)人、傳球配合、射門得分;

  • 接著基于基礎(chǔ)模型訓(xùn)練出多個(gè)風(fēng)格化模型。每個(gè)模型專注一種風(fēng)格打法,在風(fēng)格化模型訓(xùn)練的過(guò)程中會(huì)定期加入主模型作為對(duì)手,避免過(guò)度堅(jiān)持風(fēng)格,丟失基本能力;

  • 最后基于多個(gè)基礎(chǔ)模型訓(xùn)練一個(gè)主模型,主模型除了以自己的歷史模型為對(duì)手以外,還會(huì)定期加入所有風(fēng)格化對(duì)手的最新模型作為對(duì)手,確保主模型能夠適應(yīng)風(fēng)格完全不同的對(duì)手。

內(nèi)部能力評(píng)分系統(tǒng)顯示,加入對(duì)手池訓(xùn)練以后的主模型,可以在基礎(chǔ)模型的基礎(chǔ)上提高200分,比最強(qiáng)的風(fēng)格化打法高80分。

碾壓1138支AI!騰訊『絕悟WeKick』在Kaggle足球競(jìng)賽中一舉奪冠

最后基于定制化的框架改進(jìn),生成對(duì)抗模擬學(xué)習(xí)(GAIL)方案以及 League (若干策略池)多風(fēng)格強(qiáng)化學(xué)習(xí)訓(xùn)練方案,使絕悟遠(yuǎn)超過(guò)其他AI球員,取得了1785.8的高分。

Kaggle首屆比賽,難度升級(jí)!

本屆比賽是Kaggle首次針對(duì)足球AI領(lǐng)域發(fā)布的賽題。Kaggle是全球最大的數(shù)據(jù)科學(xué)社區(qū)和數(shù)據(jù)科學(xué)競(jìng)賽平臺(tái),創(chuàng)立于2010年。

碾壓1138支AI!騰訊『絕悟WeKick』在Kaggle足球競(jìng)賽中一舉奪冠

由于足球運(yùn)動(dòng)團(tuán)隊(duì)策略因其復(fù)雜性、多樣性和高難度,一直是困擾世界頂尖AI研究團(tuán)隊(duì)的難題,加上稀疏的游戲激勵(lì)使其成為比MOBA游戲更難攻克的目標(biāo)。Google Research聯(lián)合英超曼城在Kaggle上舉辦了這場(chǎng)賽事,希望進(jìn)一步推動(dòng)多智能體技術(shù)研究。

碾壓1138支AI!騰訊『絕悟WeKick』在Kaggle足球競(jìng)賽中一舉奪冠

基于此,不同其他AI足球賽事,本屆比賽在難度上進(jìn)行了大幅度升級(jí),如前所述比賽采取11vs11賽制,參賽團(tuán)隊(duì)需要控制其中1個(gè)智能體與10個(gè)內(nèi)置智能體組成球隊(duì)。

當(dāng)完整的足球獨(dú)立智能體個(gè)數(shù)達(dá)到11個(gè),強(qiáng)化學(xué)習(xí)的難度將隨著智能體個(gè)數(shù)的增長(zhǎng)呈現(xiàn)指數(shù)級(jí)的爆炸增長(zhǎng),而且足球智能體之間差距不大,如何自動(dòng)形成角色分工以及在不同角色間的激勵(lì)分配將成為各個(gè)團(tuán)隊(duì)多智能體強(qiáng)化的一大挑戰(zhàn)。

在參加本屆比賽之前,騰訊絕悟團(tuán)隊(duì)已經(jīng)從足球比賽中的單個(gè)智能體控制轉(zhuǎn)向多智能體同時(shí)控制、協(xié)同作戰(zhàn)深入的研究方向。之前,在參加5v5形式(多智能體)的谷歌天梯比賽Google Research Football League中,騰訊絕悟團(tuán)隊(duì)也摘得了冠軍。

碾壓1138支AI!騰訊『絕悟WeKick』在Kaggle足球競(jìng)賽中一舉奪冠

此次,絕悟WeKick在足球競(jìng)賽中再次奪冠,可以看出完全體升級(jí)后的絕悟AI,其背后深度強(qiáng)化學(xué)習(xí)在處理復(fù)雜任務(wù)上的能力,以及其底層架構(gòu)的通用能力。

騰訊AI Lab在智能體領(lǐng)域已開發(fā)多年,從圍棋AI絕藝到MOBA游戲AI絕悟再到如今的AI足球隊(duì)WeKick,其深度強(qiáng)化學(xué)習(xí)智能體步步進(jìn)化,在逐漸向更復(fù)雜更多樣化的問(wèn)題遷移。騰訊AI Lab表示,他們的終極目標(biāo)是邁向通用人工智能,長(zhǎng)遠(yuǎn)來(lái)看,絕悟背后的研發(fā)經(jīng)驗(yàn)和算法積累,未來(lái)還將在AI與農(nóng)業(yè)、醫(yī)療及智慧城市等廣闊領(lǐng)域的結(jié)合上展現(xiàn)巨大潛力,創(chuàng)造出更大的實(shí)用價(jià)值。

論文:https://arxiv.org/abs/1912.09729

谷歌足球競(jìng)賽官網(wǎng):https://www.kaggle.com/c/google-football/leaderboard

雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)