丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給AI研習(xí)社-譯站
發(fā)送

0

谷歌發(fā)布一個(gè)新的強(qiáng)化學(xué)習(xí)環(huán)境:Google Research Football

本文作者: AI研習(xí)社-譯站 2019-06-21 17:29
導(dǎo)語(yǔ):強(qiáng)化學(xué)習(xí)(RL)的目標(biāo)是培養(yǎng)能夠與環(huán)境互動(dòng)并解決復(fù)雜任務(wù)的智能體,實(shí)現(xiàn)在機(jī)器人,自動(dòng)駕駛汽車等領(lǐng)域中的實(shí)際應(yīng)用

谷歌發(fā)布一個(gè)新的強(qiáng)化學(xué)習(xí)環(huán)境:Google Research Football

本文為 AI 研習(xí)社編譯的技術(shù)博客,原標(biāo)題 :

Introducing Google Research Football: A Novel Reinforcement Learning Environment

作者 | Karol Kurach、Olivier Bachem

翻譯 | 汪鵬       編輯 | 王立魚

原文鏈接:

https://ai.googleblog.com/2019/06/introducing-google-research-football.html

強(qiáng)化學(xué)習(xí)(RL)的目標(biāo)是培養(yǎng)能夠與環(huán)境互動(dòng)并解決復(fù)雜任務(wù)的智能體,實(shí)現(xiàn)在機(jī)器人,自動(dòng)駕駛汽車等領(lǐng)域中的實(shí)際應(yīng)用。通過(guò)讓智能體玩游戲,如標(biāo)志性的 Atari console games  , Alphago  ,或大型游戲,如Dota 2或魔獸世界 2 ,所有這些都提供了新算法和新算法的挑戰(zhàn)性環(huán)境,推動(dòng)了這一領(lǐng)域的快速發(fā)展??梢砸园踩?,可重復(fù)的方式快速測(cè)試想法。對(duì)于RL來(lái)說(shuō),足球比賽尤其具有挑戰(zhàn)性,因?yàn)樗枰诙唐诳刂?,學(xué)習(xí)概念(如傳球)和高水平戰(zhàn)略之間實(shí)現(xiàn)自然平衡。

今天我們很高興地宣布推出 Google Research Football Environment,這是一個(gè)全新的RL環(huán)境,智能體的目標(biāo)是掌握世界上最受歡迎的體育足球。以流行的足球游戲?yàn)槟P?,足球環(huán)境提供基于物理的3D足球模擬,其中智能體控制他們團(tuán)隊(duì)中的一個(gè)或所有足球運(yùn)動(dòng)員,學(xué)習(xí)如何在他們之間傳球,并設(shè)法克服對(duì)手的防守以進(jìn)球。足球環(huán)境提供了幾個(gè)關(guān)鍵組件:高度優(yōu)化的游戲引擎,一系列嚴(yán)格的研究問(wèn)題,稱為足球基準(zhǔn),以及足球?qū)W院,一組逐步變硬的RL場(chǎng)景。為了便于研究,我們?cè)贕ithub上發(fā)布了基礎(chǔ)開(kāi)源代碼的測(cè)試版。

足球引擎

足球環(huán)境的核心是一個(gè)高級(jí)的足球模擬,稱為足球引擎,它基于大量修改版本的游戲足球。根據(jù)兩支對(duì)方球隊(duì)的輸入動(dòng)作,它模擬了足球的比賽,包括進(jìn)球,犯規(guī),角球和點(diǎn)球,以及越位。 足球引擎采用高度優(yōu)化的C ++代碼編寫,允許它在現(xiàn)成的機(jī)器上運(yùn)行,無(wú)論是GPU還是沒(méi)有基于GPU的渲染。這使其在單個(gè)六核機(jī)器上達(dá)到每天大約2500萬(wàn)步的性能。

谷歌發(fā)布一個(gè)新的強(qiáng)化學(xué)習(xí)環(huán)境:Google Research Football

足球引擎是一種先進(jìn)的足球模擬,支持所有主要的足球規(guī)則,如開(kāi)球(左上),進(jìn)球(右上),犯規(guī),牌(左下),角球和點(diǎn)球(右下)和越位。

足球引擎還具有針對(duì)RL的額外功能。首先,它允許從不同的狀態(tài)表示中學(xué)習(xí),這些狀態(tài)表示包含諸如玩家位置之類的語(yǔ)義信息,以及從原始像素學(xué)習(xí)。其次,為了研究隨機(jī)性的影響,它可以在隨機(jī)模式(默認(rèn)啟用)中運(yùn)行,其中在環(huán)境和對(duì)手AI動(dòng)作中都存在隨機(jī)性,并且在確定性模式中,其中沒(méi)有隨機(jī)性。第三,足球引擎開(kāi)箱即用,與廣泛使用的OpenAI Gym API兼容。最后,研究人員可以通過(guò)使用鍵盤或游戲手柄與對(duì)方或其代理人對(duì)戰(zhàn)來(lái)獲得對(duì)游戲的感覺(jué)。

足球基準(zhǔn)

通過(guò)足球基準(zhǔn)測(cè)試,我們?yōu)榛谧闱蛞娴腞L研究提出了一系列基準(zhǔn)問(wèn)題。這些基準(zhǔn)的目標(biāo)是針對(duì)固定的基于規(guī)則的對(duì)手進(jìn)行足球的“標(biāo)準(zhǔn)”游戲,該對(duì)手是為此目的而手工設(shè)計(jì)的。我們提供三個(gè)版本:簡(jiǎn)單足球難度,中等難度和困難難度,對(duì)手的實(shí)力不同。

作為參考,我們提供兩種最先進(jìn)的強(qiáng)化學(xué)習(xí)算法的基準(zhǔn)測(cè)試結(jié)果:DQN和IMPALA,它們既可以在一臺(tái)機(jī)器上的多個(gè)過(guò)程中運(yùn)行,也可以在多臺(tái)機(jī)器上同時(shí)運(yùn)行。我們研究了為算法提供的唯一獎(jiǎng)勵(lì)是獲得的目標(biāo)以及我們?yōu)閷⑶蛞平繕?biāo)而提供額外獎(jiǎng)勵(lì)的設(shè)置。

我們的研究結(jié)果表明,足球基準(zhǔn)是各種困難的有趣研究問(wèn)題。特別是,簡(jiǎn)單足球難度似乎適用于單機(jī)算法的研究,而足球困難基準(zhǔn)則證明即使對(duì)于大規(guī)模分布式RL算法也具有挑戰(zhàn)性。基于環(huán)境的性質(zhì)和基準(zhǔn)的難度,我們期望它們可用于研究當(dāng)前的科學(xué)挑戰(zhàn),例如樣本有效RL,稀疏獎(jiǎng)勵(lì)或基于模型的RL。

谷歌發(fā)布一個(gè)新的強(qiáng)化學(xué)習(xí)環(huán)境:Google Research Football

不同基線的不同難度級(jí)別的代理與對(duì)手的平均目標(biāo)差異。 簡(jiǎn)單的對(duì)手可以被訓(xùn)練為2000萬(wàn)步的DQN代理打敗,而中等和困難的對(duì)手需要分布式算法,例如訓(xùn)練2億步的IMPALA

足球?qū)W院及未來(lái)方向

完整足球基準(zhǔn)下,訓(xùn)練智能體可能具有挑戰(zhàn)性,我們還提供足球?qū)W院,各種難度的各種場(chǎng)景。這使研究人員能夠開(kāi)始研究新的研究思路,允許測(cè)試高級(jí)概念(例如傳遞),并為研究課程學(xué)習(xí)研究思路提供基礎(chǔ),智能體可以從逐漸困難的情景中學(xué)習(xí)。足球?qū)W院場(chǎng)景的示例包括智能體必須學(xué)習(xí)如何針對(duì)空目標(biāo)進(jìn)行評(píng)分的設(shè)置,他們必須學(xué)習(xí)如何在玩家之間快速傳遞,以及他們必須學(xué)習(xí)如何執(zhí)行反擊。使用簡(jiǎn)單的API,研究人員可以進(jìn)一步定義自己的場(chǎng)景并訓(xùn)練代理來(lái)解決它們。

谷歌發(fā)布一個(gè)新的強(qiáng)化學(xué)習(xí)環(huán)境:Google Research Football

谷歌發(fā)布一個(gè)新的強(qiáng)化學(xué)習(xí)環(huán)境:Google Research Football

谷歌發(fā)布一個(gè)新的強(qiáng)化學(xué)習(xí)環(huán)境:Google Research Football

谷歌發(fā)布一個(gè)新的強(qiáng)化學(xué)習(xí)環(huán)境:Google Research Football

熱門:一個(gè)成功的策略,朝著目標(biāo)(根據(jù)需要,因?yàn)橐恍?duì)手追逐我們的球員)和對(duì)陣守門員的比分。第二:駕駛和完成反擊的美妙方式。第三:解決2對(duì)1比賽的簡(jiǎn)單方法。底部:角球后角球得分。

足球基準(zhǔn)和足球?qū)W院考慮標(biāo)準(zhǔn)的RL設(shè)置,其中智能體與固定的對(duì)手競(jìng)爭(zhēng),即,對(duì)手可以被認(rèn)為是環(huán)境的一部分。然而,實(shí)際上,足球是一個(gè)雙人游戲,兩個(gè)不同的團(tuán)隊(duì)競(jìng)爭(zhēng),而一個(gè)人必須適應(yīng)對(duì)方團(tuán)隊(duì)的行動(dòng)和戰(zhàn)略。足球引擎為研究這種環(huán)境提供了獨(dú)特的機(jī)會(huì),一旦我們完成了實(shí)現(xiàn)自我發(fā)揮的持續(xù)努力,就可以研究更有趣的研究設(shè)置。雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)

想要繼續(xù)查看該篇文章相關(guān)鏈接和參考文獻(xiàn)?

點(diǎn)擊谷歌發(fā)布一個(gè)新的強(qiáng)化學(xué)習(xí)環(huán)境:Google Research Football即可訪問(wèn)!

今日資源推薦:

一份可以作為Python編程語(yǔ)言的指南或者教程。它主要是為新手而設(shè)計(jì),不過(guò)對(duì)于有經(jīng)驗(yàn)的程序員來(lái)說(shuō),它同樣有用。即便你對(duì)計(jì)算機(jī)的了解只是如何在計(jì)算機(jī)上保存文本文件,你都可以通過(guò)本書學(xué)習(xí)Python。如果你有編程經(jīng)驗(yàn),你也可以使用本書學(xué)習(xí)Python。

點(diǎn)擊鏈接即可獲?。?/span>https://ai.yanxishe.com/page/resourceDetail/535

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

谷歌發(fā)布一個(gè)新的強(qiáng)化學(xué)習(xí)環(huán)境:Google Research Football

分享:
相關(guān)文章

知情人士

AI研習(xí)社(yanxishe.com)譯站頻道,傳播前沿人工智能知識(shí),讓語(yǔ)言不再成為學(xué)習(xí)知識(shí)的門檻。(原雷鋒字幕組)
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)