丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

<label id="qtdnu"></label>

<li id="qtdnu"><legend id="qtdnu"></legend></li>

<span id="qtdnu"></span>

<label id="fh0hp"></label>

<span id="fh0hp"><small id="fh0hp"></small></span>

<label id="fh0hp"></label>

您正在使用IE低版瀏覽器，為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn)，強(qiáng)烈建議使用更快更安全的瀏覽器

此為臨時(shí)鏈接，僅用于文章預(yù)覽，將在時(shí)失效

人工智能正文

發(fā)私信給楊曉凡

發(fā)送

0

DeepMind和暴雪聯(lián)手發(fā)布開發(fā)工具和replay數(shù)據(jù)集，讓更多AI研究者玩上星際2

本文作者：楊曉凡

編輯：郭奕欣

2017-08-10 15:38

導(dǎo)語：我們已經(jīng)開始期待到時(shí)現(xiàn)場(chǎng)圍觀人類和AI的星際2挑戰(zhàn)賽了

雷鋒網(wǎng) AI 科技評(píng)論按：去年年底的時(shí)候，大家都知道了 DeepMind 的人工智能要開始玩星際了，今天DeepMind 也正式發(fā)布了論文和相關(guān)博文介紹了自己在這方面的成果，他們與暴雪聯(lián)手發(fā)布了一系列工具，方便更多的研究者參與到（讓人工智能）玩星際2中來。雷鋒網(wǎng) AI 科技評(píng)論編譯如下。

DeepMind 一直抱有這樣的一個(gè)科學(xué)目標(biāo)：構(gòu)建能學(xué)會(huì)解決復(fù)雜問題的系統(tǒng)，以此來不斷推進(jìn)人工智能的發(fā)展前沿。為此，DeepMind 開發(fā)了各種各樣的智能體，然后在自己搭建的 DeepMind Lab 平臺(tái)上用各種各樣的環(huán)境測(cè)試它們。

有一類重要的測(cè)試環(huán)境是游戲。它們雖然不是專門為人工智能研究設(shè)計(jì)的，但畢竟人類可以玩得很好，它們也就是評(píng)估人工智能表現(xiàn)的一種重要方法。在圍棋和 Atari 游戲都玩得比較熟練了以后，DeepMind 這次介紹了自己在新游戲中的研究進(jìn)展：星際2。

DeepMind和暴雪一起發(fā)布了SC2LE，這是一個(gè)幫助研究如何讓人工智能玩學(xué)會(huì)星際2這個(gè)RTS游戲的工具包。此次發(fā)布的 SC2LE 中包括：
一個(gè)機(jī)器學(xué)習(xí)API，由暴雪開發(fā)，它能夠幫研究者和開發(fā)者接入游戲。其中還首次包括了運(yùn)行在Linux上的工具。
一個(gè)匿名的游戲replay數(shù)據(jù)集，目前只有6萬5千場(chǎng)，在接下來幾周內(nèi)會(huì)增加到50萬場(chǎng)左右。
DeepMind的工具包PySC2的開源版本，研究者可以借助它輕松讓智能體使用暴雪的特征層API。
一篇DeepMind和暴雪聯(lián)合完成的論文，它大致介紹了環(huán)境的組成、在測(cè)試小游戲中取得的初期基準(zhǔn)成果、如何從replay監(jiān)督學(xué)習(xí)，以及與游戲內(nèi)置的 AI 進(jìn)行1v1的天梯對(duì)抗。

DeepMind和暴雪聯(lián)手發(fā)布開發(fā)工具和replay數(shù)據(jù)集，讓更多AI研究者玩上星際2

星際和星際2算得上是所有游戲里最大、最成功的那一批，玩家們?cè)谶@些游戲里廝殺也有超過20年了。不僅星際2，第一代星際也已經(jīng)被人工智能和機(jī)器學(xué)習(xí)研究者用作測(cè)試環(huán)境，每年的 AIIDE 上都會(huì)舉辦人工智能星際大賽。星際之所以如此長(zhǎng)壽，有相當(dāng)一部分原因是由于它豐富、多層面的游戲過程，這樣它也就成為了理想的人工智能研究環(huán)境。

比如，星際的最終目標(biāo)是要擊敗對(duì)手，但玩家還是需要執(zhí)行一系列收集資源、造建筑這樣的分目標(biāo)并在它們之間找到平衡。而且，一場(chǎng)游戲所花的時(shí)間短則幾分鐘，長(zhǎng)則一小時(shí)，那么在游戲早期采取的行動(dòng)就可能在很長(zhǎng)一段時(shí)間內(nèi)都看不到對(duì)應(yīng)的收獲。最后，地圖上只有一部分區(qū)域是可見的，智能體就需要綜合使用記憶和規(guī)劃能力，才能取得勝利。

除此之外，這個(gè)游戲還有一些別的方面也對(duì)研究者有吸引力，比如每天都有眾多的玩家在線上游戲中對(duì)抗。這就保證了會(huì)有海量的replay數(shù)據(jù)供智能體學(xué)習(xí)，而智能體將來也會(huì)有許許多多極具天賦的對(duì)手可以切磋。

不過，即便只是星際的操作都是一項(xiàng)不小的挑戰(zhàn)，每時(shí)每刻可以選擇的基礎(chǔ)操作超過300種。這就跟 Atari 游戲形成了明顯的區(qū)別，它里面可選的動(dòng)作不超過10種（比如上下左右）。在此基礎(chǔ)上，星際中的操作也是有層次的、可以修改以及增強(qiáng)的，其中的許多操作都需要在屏幕上點(diǎn)擊。就算只是一個(gè)84x84那樣的小屏幕，所有可能的操作加起來也會(huì)高達(dá)上億種。

DeepMind和暴雪聯(lián)手發(fā)布開發(fā)工具和replay數(shù)據(jù)集，讓更多AI研究者玩上星際2

對(duì)人類和智能體來說，根據(jù)選擇的單位不同，可以進(jìn)行的操作也不同

在這次的工具發(fā)布以后，研究者就可以用暴雪自己的工具解決一些上面提到的麻煩，這樣就可以更方便地構(gòu)建自己的任務(wù)和模型。

DeepMind 的 PySC2 工具可以把環(huán)境分類打包，從而為強(qiáng)化學(xué)習(xí)智能體提供了一個(gè)靈活易用的界面，幫助它們玩游戲。在此次發(fā)布的初始版本中，PySC2 把游戲中不同的元素劃分成了不同的“特征層”，比如不同類型的單位、生命值、地圖的可見性等等會(huì)相互分開，同時(shí)還能保持游戲核心的視覺和空間元素。

DeepMind和暴雪聯(lián)手發(fā)布開發(fā)工具和replay數(shù)據(jù)集，讓更多AI研究者玩上星際2

用不同的層顯示游戲中不同類型的內(nèi)容

SC2LE工具包里還包含一系列的測(cè)試小游戲，它們把整個(gè)游戲分為了多個(gè)不同的可控片段，這樣就可以測(cè)試智能體在特定任務(wù)上的表現(xiàn)，比如切換視角、采礦或者選擇單位等等。研究者可以在這樣的小游戲中測(cè)試他們的技術(shù)，同時(shí)也可以幫助建立更多的測(cè)試小游戲，便于更多的研究者繼續(xù)競(jìng)爭(zhēng)和評(píng)估。

DeepMind和暴雪聯(lián)手發(fā)布開發(fā)工具和replay數(shù)據(jù)集，讓更多AI研究者玩上星際2

簡(jiǎn)單的強(qiáng)化學(xué)習(xí)小游戲可以讓研究者測(cè)試智能體在特定任務(wù)中的表現(xiàn)

以DeepMind目前的研究進(jìn)展，他們的智能體已經(jīng)可以在這樣的特定任務(wù)小游戲中發(fā)揮不錯(cuò)的表現(xiàn)，但是到了整場(chǎng)游戲，即便是 A3C 這樣比較強(qiáng)的基準(zhǔn) AI 也根本打不贏“簡(jiǎn)單”的游戲內(nèi)置 AI。比如，下面動(dòng)圖里左邊的就是一個(gè)訓(xùn)練早期的智能體，它沒法讓礦工采礦，這件事對(duì)人類來說不費(fèi)吹灰之力。經(jīng)過訓(xùn)練之后，智能體表現(xiàn)出了有意義的動(dòng)作，但是如果要讓它們有競(jìng)爭(zhēng)性的話，還需要在深度強(qiáng)化學(xué)習(xí)和相關(guān)領(lǐng)域有更大突破。

DeepMind和暴雪聯(lián)手發(fā)布開發(fā)工具和replay數(shù)據(jù)集，讓更多AI研究者玩上星際2

DeepMind的研究人員發(fā)現(xiàn)了一種讓智能體學(xué)到更強(qiáng)策略的技巧，就是模仿學(xué)習(xí)。這樣的學(xué)習(xí)方法在暴雪的幫助下也很快就會(huì)變得容易，他們已經(jīng)答應(yīng)會(huì)繼續(xù)發(fā)布幾十萬局星際2天梯上的匿名游戲replay。這不僅可以讓研究者用監(jiān)督學(xué)習(xí)的方法訓(xùn)練智能體，而且也為序列預(yù)測(cè)、長(zhǎng)期記憶等等其它的研究領(lǐng)域提供了可能。

DeepMind希望這些新發(fā)布的工具可以讓人工智能大家庭在星際游戲上已有的研究成果再前進(jìn)一步，鼓勵(lì)更多的人從事深度強(qiáng)化學(xué)習(xí)研究，也讓研究者可以更輕松地跟上這個(gè)領(lǐng)域的前沿發(fā)展。DeepMind也期待人工智能大家庭可以有一些精彩的發(fā)現(xiàn)。

論文地址：https://deepmind.com/documents/110/sc2le.pdf

PySC2 github地址：https://github.com/deepmind/pysc2

暴雪的星際2 API地址（包含了Linux版的信息、游戲replay和其它相關(guān)內(nèi)容）：https://github.com/Blizzard/s2client-proto

via DeepMind Research Blog，雷鋒網(wǎng) AI 科技評(píng)論編譯

相關(guān)文章：

阿里推出多智能體雙向協(xié)調(diào)網(wǎng)絡(luò)BicNet，玩《星際爭(zhēng)霸》堪比人類

繼圍棋之后“阿爾法狗”又有新戰(zhàn)場(chǎng)，谷歌打算讓它去玩星際爭(zhēng)霸

雷峰網(wǎng)版權(quán)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

2人收藏

分享：

楊曉凡

讀論文為生

日常笑點(diǎn)滴，學(xué)術(shù)死腦筋

發(fā)私信

當(dāng)月熱門文章

最新文章

熱門搜索

微軟金融科技喬布斯工業(yè)互聯(lián)網(wǎng) 硅谷 OpenAI 語音識(shí)別 CVPR 知乎大華 Verizon

為了您的賬戶安全，請(qǐng)驗(yàn)證郵箱

您的郵箱還未驗(yàn)證,完成可獲20積分喲！

重發(fā)郵箱修改郵箱

請(qǐng)驗(yàn)證您的郵箱

立即驗(yàn)證

完善賬號(hào)信息

您的賬號(hào)已經(jīng)綁定，現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄

立即設(shè)置 以后再說

<span id="qakzu"></span>

<span id="qakzu"><small id="qakzu"></small></span>

<li id="qakzu"></li>

<dd id="qakzu"></dd>^{<dl id="qakzu"><nav id="qakzu"></nav></dl>}

<strong id="qakzu"></strong>