丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能學(xué)術(shù) 正文
發(fā)私信給楊曉凡
發(fā)送

0

星際2玩家們,你們很快就會在天梯上為DeepMind的論文做貢獻(xiàn)了

本文作者: 楊曉凡 2019-07-11 14:35
導(dǎo)語:記得要去歐服

星際2玩家們,你們很快就會在天梯上為DeepMind的論文做貢獻(xiàn)了

雷鋒網(wǎng) AI 科技評論按:昨晚,暴雪聯(lián)合 DeepMind 發(fā)出一則新聞,DeepMind 開發(fā)的星際 2 AI「AlphaStar」很快就會出現(xiàn)在星際 2 歐洲服務(wù)器上的 1v1 天梯比賽中。人類玩家們不僅會有機(jī)會匹配到它們、和它們展開標(biāo)準(zhǔn)的比賽,比賽結(jié)果也會像正常比賽一樣影響自己的天梯分?jǐn)?shù)。

在星際 2 上做科研實驗

正如人盡皆知的圍棋 AI AlphaGo,DeepMind 喜歡的強(qiáng)化學(xué)習(xí) AI 研究過程是在某個比賽(博弈)環(huán)境中進(jìn)行技術(shù)探索,在新技術(shù)的輔助下讓智能體從歷史數(shù)據(jù)中學(xué)習(xí)、從自我博弈中學(xué)習(xí),然后與人類高手比賽,評估 AI 的水準(zhǔn)。樊麾、李世石、柯潔都光榮地成為了「人工智能測試高級工程師」。

星際2玩家們,你們很快就會在天梯上為DeepMind的論文做貢獻(xiàn)了

在此次星際 2 AI「AlphaStar」的研究過程中,DeepMind 繼續(xù)沿用這個思路,但這次他們更大膽一點(diǎn),讓大批不同水準(zhǔn)的普通玩家參與到 AI 表現(xiàn)的評估中來,最終的比賽結(jié)果會寫到論述星際 2 AI 科研項目的論文里,向期刊投稿。這就是暴雪和 DeepMind 聯(lián)手把 AI 送上天梯比賽的最重要原因。

進(jìn)入星際 2 游戲,在 1v1 比賽設(shè)置了允許接入 DeepMind(DeepMind opt-in)之后,參加 1v1 天梯比賽的玩家們就可能會遇到 AlphaStar。為了控制所有的比賽都盡量接近正常的人類 1v1 天梯比賽,以及減小不同比賽之間的差異,AlphaStar 會隨機(jī)匹配到一部分玩家的天梯比賽中,并且 AI 會在游戲保持匿名,匹配到的玩家和星際 2 后臺都無法知道哪些比賽是有 AlphaStar 參與的。不過,設(shè)置了允許接入 AI 之后,相信玩家們立即就會開始對匹配到 AI 對手產(chǎn)生期待,而且在比賽開始之后也可能很快就會發(fā)現(xiàn)自己的對手有一些不尋常之處。

星際2玩家們,你們很快就會在天梯上為DeepMind的論文做貢獻(xiàn)了

一月的比賽中,AlphaStar 會建造大量工人,快速建立資源優(yōu)勢(超過人類職業(yè)選手的 16 個或 18 個的上限)

星際2玩家們,你們很快就會在天梯上為DeepMind的論文做貢獻(xiàn)了

一月的比賽中,AlphaStar 控制的兩個追獵者黑血極限逃生

今年一月時 AlphaStar 就曾與人類職業(yè)選手比賽并取得了全勝。相比于當(dāng)時的版本,此次更大規(guī)模測試的 AlphaStar 版本進(jìn)行了一些改動,其中一些改動明顯對人類有利:

  • 一月的版本可以直接讀取地圖上所有的可見內(nèi)容,不需要用操作切換視角,這次需要自己控制視角,和人類一樣只能觀察到視野內(nèi)的單位,也只能在視野內(nèi)移動單位;

  • 一月的版本僅使用了神族,這次 AlphaStar 會使用人族、蟲族、神族全部三個種族;

  • 一月的版本在操作方面沒有明確的性能限制,這次,在與人類職業(yè)選手共同商議后,對 AlphaStar 的平均每秒操作數(shù)、平均每分鐘操作數(shù)(APM)、瞬時最高 APM 等一些方面都做了更嚴(yán)格的限制,減少操作方面相比人類的優(yōu)勢。

參與測試的 AlphaStar 都是從人類比賽 replay 和自我比賽中學(xué)習(xí)的,沒有從與人類的對局中學(xué)習(xí),同時 AlphaStar 的表現(xiàn)會在整個測試期間保持不變,不進(jìn)行訓(xùn)練學(xué)習(xí);這樣得到的測試結(jié)果能直接反應(yīng) DeepMind 目前的技術(shù)水準(zhǔn)到達(dá)了怎么樣的水平。另一方面,作為 AlphaStar 技術(shù)方案的一大亮點(diǎn),參與測試的 AlphaStar 也會是 AlphaStar 種群(AlphaStar league,詳見下文)中的多個不同個體,匹配到的不同 AlphaStar 個體可能會有迥異的游戲表現(xiàn)。

AlphaStar 技術(shù)特點(diǎn)

在今年一月 DeepMind 首次公開 AlphaStar 與人類職業(yè)選手的比賽結(jié)果時,雷鋒網(wǎng) AI 科技評論就結(jié)合 DeepMind 官方博客對 AlphaStar 的技術(shù)特點(diǎn)進(jìn)行了報道。這里我們再把 AlphaStar 的技術(shù)特點(diǎn)總結(jié)如下:(詳細(xì)可以參見文章

  • 模型結(jié)構(gòu) - AlphaStar 使用的是一個長序列建模模型,模型從游戲接口接收的數(shù)據(jù)是單位列表和這些單位的屬性,經(jīng)過神經(jīng)網(wǎng)絡(luò)計算后輸出在游戲中執(zhí)行的指令。這個神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)是 Transformer 網(wǎng)絡(luò),并且結(jié)合了一個深度 LSTM 網(wǎng)絡(luò)核心、一個帶有指針網(wǎng)絡(luò)的自動回歸策略頭,以及一個中心化的評分基準(zhǔn)。

    星際2玩家們,你們很快就會在天梯上為DeepMind的論文做貢獻(xiàn)了

    AlphaStar league 中的個體形成了明顯的策略分布
  • 訓(xùn)練策略 - AlphaStar 首先根據(jù)高水平人類比賽進(jìn)行監(jiān)督學(xué)習(xí)訓(xùn)練(模仿學(xué)習(xí)),然后進(jìn)行自我對弈。自我對弈的過程中使用了群體強(qiáng)化學(xué)習(xí)的思路:AlphaStar 自我對弈過程中始終都同時記錄、更新多個不同版本的網(wǎng)絡(luò),保持一個群體,稱作 AlphaStar league;AlphaStar league 中不同的網(wǎng)絡(luò)具有不同的對戰(zhàn)策略、學(xué)習(xí)目標(biāo)等等,維持了群體的多樣性,整個群體的對弈學(xué)習(xí)保證了持續(xù)穩(wěn)定的表現(xiàn)提升,而且很新的版本也不會「忘記」如何擊敗很早的版本。

  • 訓(xùn)練結(jié)果輸出 - 當(dāng)需要輸出一個網(wǎng)絡(luò)作為最終的訓(xùn)練結(jié)果時,以 AlphaStar league 中的納什分布進(jìn)行采樣,可以得到已經(jīng)發(fā)現(xiàn)的多種策略的綜合最優(yōu)解。

  • 算力需求 - 為了支持大批不同版本 AlphaStar 智能體的對戰(zhàn)與更新,DeepMind 專門構(gòu)建了一個大規(guī)??赏卣沟姆植际接?xùn)練環(huán)境,其中使用了最新的谷歌 TPUv3。AlphaStar league 的自我對戰(zhàn)訓(xùn)練過程用了 14 天,每個 AlphaStar 智能體使用了 16 個 TPU,最終相當(dāng)于每個智能體都有長達(dá) 200 年的游戲時間。訓(xùn)練結(jié)束后的模型在單塊消費(fèi)級 GPU 上就可以運(yùn)行。

  • 操作統(tǒng)計 - 在今年一月的版本中,AlphaStar 的平均 APM 為 280,峰值 APM 超過 1000,計算延時平均為 350 毫秒;切換關(guān)注區(qū)域的速度大約是每分鐘 30 次。

此次在 AlphaStar 中測試的大行動空間下的長序列建模,以及群體強(qiáng)化學(xué)習(xí)的訓(xùn)練策略,都是對提升強(qiáng)化學(xué)習(xí)算法表現(xiàn)上限、應(yīng)對復(fù)雜環(huán)境長期任務(wù)的積極技術(shù)探索。我們期待早日看到 DeepMind 的這篇論文成文,更早日看到基于強(qiáng)化學(xué)習(xí)的決策系統(tǒng)整個領(lǐng)域都發(fā)展得更成熟。當(dāng)然了,喜歡星際 2 的讀者,可以準(zhǔn)備起來,為 DeepMind 的這篇論文貢獻(xiàn)自己的一分力量吧!

雷鋒網(wǎng) AI 科技評論報道。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

星際2玩家們,你們很快就會在天梯上為DeepMind的論文做貢獻(xiàn)了

分享:
相關(guān)文章

讀論文為生

日常笑點(diǎn)滴,學(xué)術(shù)死腦筋
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說