丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能學(xué)術(shù) 正文
發(fā)私信給黃善清
發(fā)送

0

如何訓(xùn)練出專屬的 OpenAI Five ?

本文作者: 黃善清 2019-04-17 14:42
導(dǎo)語(yǔ):作為競(jìng)爭(zhēng)性 AI 的 OpenAI Five 已經(jīng)退役了,但它所取得的進(jìn)步與技術(shù)進(jìn)展將繼續(xù)推動(dòng)未來(lái)的工作發(fā)展

雷鋒網(wǎng) AI 科技評(píng)論:上周末,成功擊敗 Dota 2 世界冠軍團(tuán)隊(duì) OG 的 OpenAI Five 再次贏得全球矚目。勝利的背后,OpenAI Five 的背后有哪些不為人知的故事呢?OpenAI 官方博客近日發(fā)布了一篇涉及幕后的解讀文章,雷鋒網(wǎng) AI 科技評(píng)論將之編譯如下。

如何訓(xùn)練出專屬的 OpenAI Five ?

OpenAI Five 是首個(gè)成功在電子競(jìng)技游戲中擊敗世界冠軍的人工智能,在本周末與 Dota 2 世界冠軍團(tuán)隊(duì) OG 的最終對(duì)決中,接連贏得了兩場(chǎng)比賽。在過去,無(wú)論 OpenAI Five 還是 DeepMind 的 AlphaStar 都曾私下?lián)魯∵^優(yōu)秀的職業(yè)選手,卻輸?shù)衄F(xiàn)場(chǎng)的職業(yè)比賽,因此,我們也可以將該事件視作 AI 第一次在直播中擊敗電子競(jìng)技專家。

在 OpenAI Five 與人類世界冠軍的最終對(duì)決中,我們發(fā)現(xiàn)了兩個(gè)意外的驚喜:

  1. OpenAI Five 自行發(fā)展出與人類隊(duì)友打配合的基本能力,盡管我們的訓(xùn)練過程主要專注于如何擊敗其他機(jī)器人。這種將競(jìng)爭(zhēng)性 AI 轉(zhuǎn)變?yōu)楹献餍?AI 的可能性,讓我們對(duì)未來(lái) AI 系統(tǒng)將如何通過積極的開發(fā)工作造福人類充滿了希望。

  2. 4 月 18 日——4 月 21 日期間,我們將 OpenAI Five 對(duì)全世界的 DOTA2 玩家開放,每個(gè)人都可以和 OpenAI Five 在線對(duì)戰(zhàn),無(wú)論是作為競(jìng)爭(zhēng)者亦或是還是合作者。最終的測(cè)試結(jié)果將能回答一個(gè)重要的研究問——OpenAI Five 可以在多大的程度上被人類所利用與依靠。這可能是有史以來(lái)最大規(guī)模的高強(qiáng)度深層強(qiáng)化學(xué)習(xí) agent 的部署行為,人們可以有意識(shí)地與之進(jìn)行交互。

感興趣的童鞋可點(diǎn)擊以下網(wǎng)址與 OpenAI Five 一同比賽:

https://arena.openai.com/#/

為何是 Dota?

我們之所以啟動(dòng) OpenAI Five 研究,目的是解決現(xiàn)有深度強(qiáng)化學(xué)習(xí)算法無(wú)法實(shí)現(xiàn)的問題。我們希望在這個(gè)當(dāng)前方法所無(wú)法解決的問題上努力,原以為需要大幅提升工具的性能,比如復(fù)雜的算法思想(例如:分層強(qiáng)化學(xué)習(xí)),但我們卻對(duì)最終的發(fā)現(xiàn)感到驚訝:該問題所需的根本改進(jìn)在于規(guī)模。如何實(shí)現(xiàn)該規(guī)模并加以運(yùn)用,其實(shí)并不容易,也是我們研究工作的主要內(nèi)容!

如何訓(xùn)練出專屬的 OpenAI Five ?

OpenAI Five 將世界視作一堆必須破譯的數(shù)字,使用的是同樣的通用學(xué)習(xí)代碼,無(wú)論這些數(shù)字代表的究竟是 Dota(約 20,000 個(gè)數(shù)字)還是機(jī)器臂(約 200 個(gè)數(shù)字)。

為了打造 OpenAI Five,我們創(chuàng)建一個(gè)名為 Rapid 的系統(tǒng),可以讓我們以前所未有的規(guī)模來(lái)運(yùn)行 PPO。最終結(jié)果超出了我們最高期望值,我們成功打造出世界級(jí)別的 Dota 機(jī)器人,基本不存在任何的基本性能限制。

當(dāng)今 RL 算法令人驚嘆的強(qiáng)大能力是以大量的經(jīng)驗(yàn)作為代價(jià)的,要想脫離游戲或模擬環(huán)境來(lái)實(shí)現(xiàn)是不切實(shí)際的。當(dāng)然,這種局限可能并沒有聽起來(lái)的那么糟糕——比如我們可以通過 Rapid 系統(tǒng)控制機(jī)械臂以靈巧地移動(dòng)方塊,首先在全模擬環(huán)境中進(jìn)行訓(xùn)練,然后在物理機(jī)器人上執(zhí)行。不過,我們認(rèn)為如何減少對(duì)經(jīng)驗(yàn)的依賴是 RL 的下一個(gè)挑戰(zhàn)。

我們今天宣布,作為競(jìng)爭(zhēng)性 AI 的 OpenAI Five 已經(jīng)退役了,但它所取得的進(jìn)步與技術(shù)進(jìn)展將繼續(xù)推動(dòng)我們未來(lái)的工作發(fā)展??傊?,這不是我們 Dota 工作的終點(diǎn)——我們認(rèn)為,比起現(xiàn)在慣用的標(biāo)準(zhǔn)環(huán)境,Dota 對(duì)于 RL 開發(fā)而言更具有趣味性與難度(如今已很好理解?。?/p>

計(jì)算力

將 OpenAI Five 周六的勝利與 The International 2018 的 losses 相比,會(huì)發(fā)現(xiàn)勝利是基于該項(xiàng)重大變化:增加了 8 倍的訓(xùn)練計(jì)算量。在項(xiàng)目的許多前期階段,我們都是通過提升訓(xùn)練規(guī)模來(lái)推動(dòng)研究進(jìn)程。但在 The International 以后,我們已將項(xiàng)目的絕大部分算力用于培訓(xùn)單一的 OpenAI Five 模型。因此,我們只能以唯一可行的方式來(lái)增加計(jì)算規(guī)模:更長(zhǎng)的訓(xùn)練時(shí)間。

如何訓(xùn)練出專屬的 OpenAI Five ?

OpenAI Five 的 TrueSkill,由于增加了額外的訓(xùn)練算力,其中線條劃分了主要系統(tǒng)的變化(轉(zhuǎn)向單一快遞;將 LSTM 的大小增加至 4096 units;升級(jí)至 7.20 和 7.21 補(bǔ)丁版本;以及開始學(xué)習(xí) buyback)。該圖大致上是線性的,這意味著 OpenAI Five 從額外的算力中不斷受益(請(qǐng)注意,這是一個(gè)對(duì)數(shù) - 對(duì)數(shù)圖,x 軸是計(jì)算的對(duì)數(shù),而 TrueSkill 大致對(duì)應(yīng)于指數(shù)的進(jìn)展)。該圖表評(píng)估了在最終游戲規(guī)則(1 個(gè) courier,7.21 補(bǔ)丁,等)上所有機(jī)器人的表現(xiàn)——包括那些在舊游戲規(guī)則上進(jìn)行訓(xùn)練過的機(jī)器人。任何在這些之后的陡坡則表明 OpenAI Five 適應(yīng)了這種變化;根據(jù)這種變化,該評(píng)估可能對(duì)早前版本的有些不公平。

總的來(lái)說,當(dāng)前版本的 OpenAI Five 已經(jīng)消耗了 800 petaflop / s-days,并且在 10 個(gè)實(shí)時(shí)月的時(shí)間內(nèi)經(jīng)歷了大約 45,000 年的 Dota 自行游戲(從 The International 的 1.5 個(gè)實(shí)時(shí)月份開始算起的話,大約晉級(jí)了 10,000 年),即是平均每天 250 年的模擬經(jīng)驗(yàn)??倹Q賽版本的 OpenAI Five 與 TI 版本相比,勝率為 99.9%。

遷移學(xué)習(xí)

盡管模型大小和游戲規(guī)則發(fā)生了變化(包括一些相當(dāng)大的游戲補(bǔ)丁更新和新實(shí)現(xiàn)的功能),但自 2018 年 6 月以來(lái),當(dāng)前版本的 OpenAI Five 一直在持續(xù)訓(xùn)練。在每一種情況下,我們都能夠轉(zhuǎn)移模型,并繼續(xù)對(duì)其他領(lǐng)域的 RL 進(jìn)行訓(xùn)練,這是一個(gè)開放的挑戰(zhàn)。據(jù)我們所知,這是第一次對(duì) RL 代理進(jìn)行長(zhǎng)期訓(xùn)練。

為了實(shí)現(xiàn)這一點(diǎn),我們繼續(xù)完善我們的工具,這樣我們就可以從經(jīng)過訓(xùn)練的參數(shù)開始,直至從根本上更改架構(gòu)。

更多英雄

我們看到從 5 到 18 位英雄的訓(xùn)練速度幾乎沒有慢下來(lái)。我們假設(shè)更多的英雄也會(huì)有同樣的情況,而在國(guó)際上,我們投入了大量的努力來(lái)整合新的英雄。

我們花了幾周時(shí)間訓(xùn)練多達(dá) 25 個(gè)英雄的英雄池,使這些英雄達(dá)到大約 5 千 MMR(約 95% 的 DOTA 玩家的水平)。雖然他們還在進(jìn)步,但他們的學(xué)習(xí)速度不夠快,無(wú)法在決賽前達(dá)到專業(yè)水平。我們還沒有時(shí)間來(lái)調(diào)查原因,但我們認(rèn)為原因可能是模型能力、需要更好地匹配擴(kuò)展的英雄池、需要更多的訓(xùn)練時(shí)間讓新英雄趕上舊英雄等。

我們相信這些問題是可以從根本上解決的,解決它們本身就很有趣??倹Q賽版本與 17 個(gè)英雄一起比賽,我們移除了巫妖,因?yàn)樗哪芰υ?DOTA7.20 版本中發(fā)生了顯著變化。

合作模式

感覺真好,我的冥界亞龍?jiān)谀硞€(gè)時(shí)刻為我獻(xiàn)出了生命。他試圖幫助我,他認(rèn)為「我確定她知道她在做什么」,但顯然我不知道。但你知道,他非常信任我。我對(duì)(人類)隊(duì)友不太了解。——Sheever

如何訓(xùn)練出專屬的 OpenAI Five ?

OpenAI Five 與人類一起玩的能力為人類和人工智能交互的未來(lái)提供了一個(gè)美好的愿景,在未來(lái),人工智能系統(tǒng)將與人類協(xié)作并增強(qiáng)人類體驗(yàn)。我們的測(cè)試人員說,他們感覺得到了機(jī)器人隊(duì)友的支持,他們從與這些先進(jìn)系統(tǒng)一起玩的過程中學(xué)到了經(jīng)驗(yàn),總體來(lái)說,這是一次有趣的體驗(yàn)。

值得注意的是,OpenAI Five 展示了零樣本遷移學(xué)習(xí)——它被訓(xùn)練為讓所有英雄都由自己的副本控制,但是可以控制英雄的一個(gè)子集,與人類是戰(zhàn)友或者敵人。我們很驚訝這項(xiàng)工作做得這么好。事實(shí)上,我們?cè)?jīng)考慮過在國(guó)際比賽中舉行一場(chǎng)合作賽,但這需要進(jìn)行專門的訓(xùn)練。

Arena

我們將推出 OpenAI Five Arena,這是一個(gè)公共實(shí)驗(yàn),我們將讓任何人以競(jìng)爭(zhēng)和合作的方式玩 OpenAI Five。我們的 1v1 機(jī)器人可以通過巧妙的策略加以利用,但我們不知道 OpenAI Five 在多大程度上可以做到這樣,我們很高興邀請(qǐng)社區(qū)幫助我們發(fā)現(xiàn)這一點(diǎn)!

Arena 將于太平洋時(shí)間 4 月 18 日下午 6 點(diǎn)開放,并將于 4 月 21 日下午 11:59 關(guān)閉。請(qǐng)注冊(cè)賬號(hào),以便我們確保您所在地區(qū)有足夠的服務(wù)器容量!所有比賽的結(jié)果將自動(dòng)報(bào)告到 Arena 的公共排行榜。

如何訓(xùn)練出專屬的 OpenAI Five ?

我們非常感謝 DOTA 社區(qū)在過去兩年里給予我們的所有支持,我們希望 Arena 也能成為回報(bào)的社區(qū)的一個(gè)小途徑。玩得開心!

接來(lái)下是什么

我們回顧了 Openai Five Arena 的成果,接下來(lái),我們將發(fā)布 Openai Five 的更加技術(shù)性的分析。

之后,我們將繼續(xù)在 OpenAI 中使用 DOTA2 環(huán)境。在過去兩年,我們見證了 RL 能力的快速發(fā)展,我們認(rèn)為 DOTA 2 將繼續(xù)幫助我們推進(jìn)未來(lái)的研究——無(wú)論是用更少的數(shù)據(jù)獲得更好的表現(xiàn),亦或是真正實(shí)現(xiàn)人和人工智能的合作。

via https://openai.com/blog/how-to-train-your-openai-five/

雷鋒網(wǎng) AI 科技評(píng)論

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

如何訓(xùn)練出專屬的 OpenAI Five ?

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說