丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能學(xué)術(shù) 正文
發(fā)私信給楊曉凡
發(fā)送

0

星際2玩家們,你們很快就會(huì)在天梯上為DeepMind的論文做貢獻(xiàn)了

本文作者: 楊曉凡 2019-07-11 14:35
導(dǎo)語(yǔ):記得要去歐服

星際2玩家們,你們很快就會(huì)在天梯上為DeepMind的論文做貢獻(xiàn)了

雷鋒網(wǎng) AI 科技評(píng)論按:昨晚,暴雪聯(lián)合 DeepMind 發(fā)出一則新聞,DeepMind 開(kāi)發(fā)的星際 2 AI「AlphaStar」很快就會(huì)出現(xiàn)在星際 2 歐洲服務(wù)器上的 1v1 天梯比賽中。人類(lèi)玩家們不僅會(huì)有機(jī)會(huì)匹配到它們、和它們展開(kāi)標(biāo)準(zhǔn)的比賽,比賽結(jié)果也會(huì)像正常比賽一樣影響自己的天梯分?jǐn)?shù)。

在星際 2 上做科研實(shí)驗(yàn)

正如人盡皆知的圍棋 AI AlphaGo,DeepMind 喜歡的強(qiáng)化學(xué)習(xí) AI 研究過(guò)程是在某個(gè)比賽(博弈)環(huán)境中進(jìn)行技術(shù)探索,在新技術(shù)的輔助下讓智能體從歷史數(shù)據(jù)中學(xué)習(xí)、從自我博弈中學(xué)習(xí),然后與人類(lèi)高手比賽,評(píng)估 AI 的水準(zhǔn)。樊麾、李世石、柯潔都光榮地成為了「人工智能測(cè)試高級(jí)工程師」。

星際2玩家們,你們很快就會(huì)在天梯上為DeepMind的論文做貢獻(xiàn)了

在此次星際 2 AI「AlphaStar」的研究過(guò)程中,DeepMind 繼續(xù)沿用這個(gè)思路,但這次他們更大膽一點(diǎn),讓大批不同水準(zhǔn)的普通玩家參與到 AI 表現(xiàn)的評(píng)估中來(lái),最終的比賽結(jié)果會(huì)寫(xiě)到論述星際 2 AI 科研項(xiàng)目的論文里,向期刊投稿。這就是暴雪和 DeepMind 聯(lián)手把 AI 送上天梯比賽的最重要原因。

進(jìn)入星際 2 游戲,在 1v1 比賽設(shè)置了允許接入 DeepMind(DeepMind opt-in)之后,參加 1v1 天梯比賽的玩家們就可能會(huì)遇到 AlphaStar。為了控制所有的比賽都盡量接近正常的人類(lèi) 1v1 天梯比賽,以及減小不同比賽之間的差異,AlphaStar 會(huì)隨機(jī)匹配到一部分玩家的天梯比賽中,并且 AI 會(huì)在游戲保持匿名,匹配到的玩家和星際 2 后臺(tái)都無(wú)法知道哪些比賽是有 AlphaStar 參與的。不過(guò),設(shè)置了允許接入 AI 之后,相信玩家們立即就會(huì)開(kāi)始對(duì)匹配到 AI 對(duì)手產(chǎn)生期待,而且在比賽開(kāi)始之后也可能很快就會(huì)發(fā)現(xiàn)自己的對(duì)手有一些不尋常之處。

星際2玩家們,你們很快就會(huì)在天梯上為DeepMind的論文做貢獻(xiàn)了

一月的比賽中,AlphaStar 會(huì)建造大量工人,快速建立資源優(yōu)勢(shì)(超過(guò)人類(lèi)職業(yè)選手的 16 個(gè)或 18 個(gè)的上限)

星際2玩家們,你們很快就會(huì)在天梯上為DeepMind的論文做貢獻(xiàn)了

一月的比賽中,AlphaStar 控制的兩個(gè)追獵者黑血極限逃生

今年一月時(shí) AlphaStar 就曾與人類(lèi)職業(yè)選手比賽并取得了全勝。相比于當(dāng)時(shí)的版本,此次更大規(guī)模測(cè)試的 AlphaStar 版本進(jìn)行了一些改動(dòng),其中一些改動(dòng)明顯對(duì)人類(lèi)有利:

  • 一月的版本可以直接讀取地圖上所有的可見(jiàn)內(nèi)容,不需要用操作切換視角,這次需要自己控制視角,和人類(lèi)一樣只能觀察到視野內(nèi)的單位,也只能在視野內(nèi)移動(dòng)單位;

  • 一月的版本僅使用了神族,這次 AlphaStar 會(huì)使用人族、蟲(chóng)族、神族全部三個(gè)種族;

  • 一月的版本在操作方面沒(méi)有明確的性能限制,這次,在與人類(lèi)職業(yè)選手共同商議后,對(duì) AlphaStar 的平均每秒操作數(shù)、平均每分鐘操作數(shù)(APM)、瞬時(shí)最高 APM 等一些方面都做了更嚴(yán)格的限制,減少操作方面相比人類(lèi)的優(yōu)勢(shì)。

參與測(cè)試的 AlphaStar 都是從人類(lèi)比賽 replay 和自我比賽中學(xué)習(xí)的,沒(méi)有從與人類(lèi)的對(duì)局中學(xué)習(xí),同時(shí) AlphaStar 的表現(xiàn)會(huì)在整個(gè)測(cè)試期間保持不變,不進(jìn)行訓(xùn)練學(xué)習(xí);這樣得到的測(cè)試結(jié)果能直接反應(yīng) DeepMind 目前的技術(shù)水準(zhǔn)到達(dá)了怎么樣的水平。另一方面,作為 AlphaStar 技術(shù)方案的一大亮點(diǎn),參與測(cè)試的 AlphaStar 也會(huì)是 AlphaStar 種群(AlphaStar league,詳見(jiàn)下文)中的多個(gè)不同個(gè)體,匹配到的不同 AlphaStar 個(gè)體可能會(huì)有迥異的游戲表現(xiàn)。

AlphaStar 技術(shù)特點(diǎn)

在今年一月 DeepMind 首次公開(kāi) AlphaStar 與人類(lèi)職業(yè)選手的比賽結(jié)果時(shí),雷鋒網(wǎng) AI 科技評(píng)論就結(jié)合 DeepMind 官方博客對(duì) AlphaStar 的技術(shù)特點(diǎn)進(jìn)行了報(bào)道。這里我們?cè)侔?AlphaStar 的技術(shù)特點(diǎn)總結(jié)如下:(詳細(xì)可以參見(jiàn)文章

  • 模型結(jié)構(gòu) - AlphaStar 使用的是一個(gè)長(zhǎng)序列建模模型,模型從游戲接口接收的數(shù)據(jù)是單位列表和這些單位的屬性,經(jīng)過(guò)神經(jīng)網(wǎng)絡(luò)計(jì)算后輸出在游戲中執(zhí)行的指令。這個(gè)神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)是 Transformer 網(wǎng)絡(luò),并且結(jié)合了一個(gè)深度 LSTM 網(wǎng)絡(luò)核心、一個(gè)帶有指針網(wǎng)絡(luò)的自動(dòng)回歸策略頭,以及一個(gè)中心化的評(píng)分基準(zhǔn)。

    星際2玩家們,你們很快就會(huì)在天梯上為DeepMind的論文做貢獻(xiàn)了

    AlphaStar league 中的個(gè)體形成了明顯的策略分布
  • 訓(xùn)練策略 - AlphaStar 首先根據(jù)高水平人類(lèi)比賽進(jìn)行監(jiān)督學(xué)習(xí)訓(xùn)練(模仿學(xué)習(xí)),然后進(jìn)行自我對(duì)弈。自我對(duì)弈的過(guò)程中使用了群體強(qiáng)化學(xué)習(xí)的思路:AlphaStar 自我對(duì)弈過(guò)程中始終都同時(shí)記錄、更新多個(gè)不同版本的網(wǎng)絡(luò),保持一個(gè)群體,稱作 AlphaStar league;AlphaStar league 中不同的網(wǎng)絡(luò)具有不同的對(duì)戰(zhàn)策略、學(xué)習(xí)目標(biāo)等等,維持了群體的多樣性,整個(gè)群體的對(duì)弈學(xué)習(xí)保證了持續(xù)穩(wěn)定的表現(xiàn)提升,而且很新的版本也不會(huì)「忘記」如何擊敗很早的版本。

  • 訓(xùn)練結(jié)果輸出 - 當(dāng)需要輸出一個(gè)網(wǎng)絡(luò)作為最終的訓(xùn)練結(jié)果時(shí),以 AlphaStar league 中的納什分布進(jìn)行采樣,可以得到已經(jīng)發(fā)現(xiàn)的多種策略的綜合最優(yōu)解。

  • 算力需求 - 為了支持大批不同版本 AlphaStar 智能體的對(duì)戰(zhàn)與更新,DeepMind 專(zhuān)門(mén)構(gòu)建了一個(gè)大規(guī)模可拓展的分布式訓(xùn)練環(huán)境,其中使用了最新的谷歌 TPUv3。AlphaStar league 的自我對(duì)戰(zhàn)訓(xùn)練過(guò)程用了 14 天,每個(gè) AlphaStar 智能體使用了 16 個(gè) TPU,最終相當(dāng)于每個(gè)智能體都有長(zhǎng)達(dá) 200 年的游戲時(shí)間。訓(xùn)練結(jié)束后的模型在單塊消費(fèi)級(jí) GPU 上就可以運(yùn)行。

  • 操作統(tǒng)計(jì) - 在今年一月的版本中,AlphaStar 的平均 APM 為 280,峰值 APM 超過(guò) 1000,計(jì)算延時(shí)平均為 350 毫秒;切換關(guān)注區(qū)域的速度大約是每分鐘 30 次。

此次在 AlphaStar 中測(cè)試的大行動(dòng)空間下的長(zhǎng)序列建模,以及群體強(qiáng)化學(xué)習(xí)的訓(xùn)練策略,都是對(duì)提升強(qiáng)化學(xué)習(xí)算法表現(xiàn)上限、應(yīng)對(duì)復(fù)雜環(huán)境長(zhǎng)期任務(wù)的積極技術(shù)探索。我們期待早日看到 DeepMind 的這篇論文成文,更早日看到基于強(qiáng)化學(xué)習(xí)的決策系統(tǒng)整個(gè)領(lǐng)域都發(fā)展得更成熟。當(dāng)然了,喜歡星際 2 的讀者,可以準(zhǔn)備起來(lái),為 DeepMind 的這篇論文貢獻(xiàn)自己的一分力量吧!

雷鋒網(wǎng) AI 科技評(píng)論報(bào)道。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

星際2玩家們,你們很快就會(huì)在天梯上為DeepMind的論文做貢獻(xiàn)了

分享:
相關(guān)文章

讀論文為生

日常笑點(diǎn)滴,學(xué)術(shù)死腦筋
當(dāng)月熱門(mén)文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)