丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給楊曉凡
發(fā)送

0

多圖詳解 DeepMind 的超人類(lèi)水準(zhǔn)星際爭(zhēng)霸 AI 「AlphaStar」

本文作者: 楊曉凡 2019-01-25 08:19
導(dǎo)語(yǔ):DeepMind 對(duì)強(qiáng)化學(xué)習(xí)的理解越來(lái)越深

多圖詳解 DeepMind 的超人類(lèi)水準(zhǔn)星際爭(zhēng)霸 AI 「AlphaStar」

雷鋒網(wǎng) AI 科技評(píng)論按:英國(guó)當(dāng)?shù)貢r(shí)間 1 月 24 日,DeepMind 在倫敦組織線上直播,向全世界的游戲 AI 研究人員以及游戲愛(ài)好者們介紹自己的 AI 研發(fā)最新進(jìn)展。

多圖詳解 DeepMind 的超人類(lèi)水準(zhǔn)星際爭(zhēng)霸 AI 「AlphaStar」

參加直播的 DeepMind 研究人員是 DeepMind 團(tuán)隊(duì)聯(lián)合研發(fā)負(fù)責(zé)人 Oriol Vinyals 和 David Silver,后者也是 AlphaGo 項(xiàng)目的核心開(kāi)發(fā)人員,我們都比較熟悉了。

多圖詳解 DeepMind 的超人類(lèi)水準(zhǔn)星際爭(zhēng)霸 AI 「AlphaStar」

左 Oriol Vinyals ,右 David Silver

DeepMind 的星際爭(zhēng)霸 2  AI 名為「AlphaStar」,這個(gè)命名方式正如之前的圍棋 AI「AlphaGo」以及蛋白質(zhì)折疊計(jì)算 AI「AlphaFold」。

據(jù) DeepMind 介紹,AlphaStar 使用神族(Protoss),在 2018 年 12 月 10 日以 5:0 戰(zhàn)績(jī)打敗了 Team Liquid 的職業(yè)星際 2 選手 TLO,然后經(jīng)過(guò)更多訓(xùn)練后,在 12 月 19 日再次以 5:0 的完勝戰(zhàn)績(jī)打敗了來(lái)自同一個(gè)戰(zhàn)隊(duì)的職業(yè)選手 MaNa 。直播現(xiàn)場(chǎng)中回放、解說(shuō)了其中數(shù)場(chǎng)比賽的 replay。

多圖詳解 DeepMind 的超人類(lèi)水準(zhǔn)星際爭(zhēng)霸 AI 「AlphaStar」

AlphaStar 在比賽中展現(xiàn)出了職業(yè)選手般成熟的比賽策略,以及超越職業(yè)選手水平的微操,甚至可以同時(shí)在地圖上多個(gè)地點(diǎn)同時(shí)展開(kāi)戰(zhàn)斗(人類(lèi)選手在這種狀況下就會(huì)吃不少虧)。

多圖詳解 DeepMind 的超人類(lèi)水準(zhǔn)星際爭(zhēng)霸 AI 「AlphaStar」

職業(yè)選手式的建筑布局,并快速派出偵查兵探索地圖以及對(duì)方基地

多圖詳解 DeepMind 的超人類(lèi)水準(zhǔn)星際爭(zhēng)霸 AI 「AlphaStar」

AlphaStar 會(huì)建造大量工人,快速建立資源優(yōu)勢(shì)(超過(guò)人類(lèi)職業(yè)選手的 16 個(gè)或 18 個(gè)的上限)

多圖詳解 DeepMind 的超人類(lèi)水準(zhǔn)星際爭(zhēng)霸 AI 「AlphaStar」

AlphaStar 的追獵者從三面圍攻人類(lèi)選手 MaNa 的不朽者

多圖詳解 DeepMind 的超人類(lèi)水準(zhǔn)星際爭(zhēng)霸 AI 「AlphaStar」

AlphaStar 控制的兩個(gè)追獵者黑血極限逃生

在直播中 DeepMind 還再次讓 AlphaStar 與 MaNa 現(xiàn)場(chǎng)比賽。這次比賽中的 AlphaStar 是一個(gè)重新訓(xùn)練的新版本,它需要自己控制視角(而不像前面的版本可以直接讀取地圖上所有的可見(jiàn)內(nèi)容)。這次 MaNa 終于取得了勝利。

AlphaStar 的詳細(xì)介紹請(qǐng)見(jiàn)下文。

星際爭(zhēng)霸 AI 背景

自以圍棋為代表的完全信息博弈/游戲被 AlphaGo 攻克、取得超出人類(lèi)頂尖棋手的水平之后,研究人員們立刻向非完全信息博弈發(fā)起更加猛烈的進(jìn)攻。典型的非完全信息博弈比如德州撲克,玩家需要在看不到對(duì)手的牌面的狀況下做出決策,CMU 的德?lián)?nbsp;AI 論文也拿到了 NIPS 2017 的最佳論文獎(jiǎng)。

而另一方面,深度學(xué)習(xí)的研究人員們也希望借助深度強(qiáng)化學(xué)習(xí)的力量探索更復(fù)雜的博弈/游戲。德州撲克顯然不夠難,德?lián)?AI 之父表示其中沒(méi)有用到任何深度學(xué)習(xí);再看圍棋,雖然圍棋中可能出現(xiàn)的局面的總數(shù)目是一個(gè)天文數(shù)字,但具體到每一回合中,比賽的雙方只需要選擇在棋盤(pán)的某一處落一顆棋子即可。相比之下,現(xiàn)代的競(jìng)技類(lèi)電子游戲的行動(dòng)空間就復(fù)雜得多,比賽可以有 2 個(gè)以上的玩家參與、每個(gè)玩家可以同步做出行動(dòng)、每個(gè)行動(dòng)可以有不同的時(shí)間長(zhǎng)短、位移和移動(dòng)都是空間連續(xù)的、攻擊防御技能物品等還有很多的變化。

隨著當(dāng)年的狂熱玩家們?nèi)缃癯蔀橛?jì)算機(jī)科學(xué)領(lǐng)域的研究人員,電子競(jìng)技游戲 AI 研發(fā)也快速分出了兩大主要陣營(yíng):星際爭(zhēng)霸/星際爭(zhēng)霸2,以及 DOTA2。兩者都有廣泛的群眾基礎(chǔ),玩家們對(duì)游戲 AI 喜聞樂(lè)見(jiàn),也有許多高水平的職業(yè)選手可供 AI 切磋學(xué)習(xí)。

雖然都是 RTS (即時(shí)戰(zhàn)略)游戲,雖然都需要在收集資源和打架之間找到平衡,但星際和 DOTA2 也有不少區(qū)別。星際中需要控制多種不同類(lèi)型的單位,這些單位有各自的運(yùn)動(dòng)和攻擊特點(diǎn),而 DOTA2 中可以從頭到尾只控制同一個(gè)英雄;星際中每一方只有一位玩家,而 DOTA2 中每一方有五位玩家。由此帶來(lái)的游戲策略和執(zhí)行上的區(qū)別也讓星際 AI 研究和 DOTA2 AI 研究走出了不同的發(fā)展路線。

截至本次比賽前,星際 AI 研究領(lǐng)域和 DOTA2 AI 研究領(lǐng)域已經(jīng)見(jiàn)識(shí)過(guò)的最強(qiáng) AI 分別來(lái)自三星和 OpenAI

  • 2018 年 AIIDE 星際爭(zhēng)霸 AI 挑戰(zhàn)賽共有來(lái)自全世界的 27 支團(tuán)隊(duì)帶著自己的 AI 參賽,獲得冠軍的人族 bot 「SAIDA」來(lái)自三星。這個(gè) bot 的核心特點(diǎn)是有一個(gè)穩(wěn)定的游戲策略,它會(huì)首先考慮防守,然后在游戲中期伺機(jī)一波帶走對(duì)方。這種策略是從韓國(guó)的職業(yè)星際選手們身上學(xué)到的。這個(gè) bot 去年時(shí)還不能擊敗職業(yè)選手。

  • 星際爭(zhēng)霸 AI 普遍大量使用固定策略和手工規(guī)則,三星的 bot 應(yīng)用了一些機(jī)器學(xué)習(xí)技術(shù)來(lái)幫助控制單位、探索地圖,開(kāi)發(fā)團(tuán)隊(duì)也在嘗試更多地應(yīng)用機(jī)器學(xué)習(xí)技術(shù)。參加了同一個(gè)比賽的 Facebook 的蟲(chóng)族 bot「CherryPi」大量應(yīng)用了機(jī)器學(xué)習(xí)技術(shù),但只獲得第二名。(更多信息可以閱讀雷鋒網(wǎng) AI 科技評(píng)論 報(bào)道 )

  • 2018 年 8 月,OpenAI 組織線下比賽測(cè)試自己的 DOTA2 AI 系統(tǒng)「OpenAI Five」,前一次在有較多比賽限制的情況下對(duì)陣歐美前職業(yè)選手組成的團(tuán)隊(duì)取得了勝利,然后在稍后的 DOTA2 國(guó)際邀請(qǐng)賽 Ti8 中對(duì)陣中國(guó)(前)職業(yè)選手組成的團(tuán)隊(duì)時(shí)失敗。這之后 OpenAI 在持續(xù)不斷地進(jìn)行改進(jìn),并聲稱(chēng)后來(lái)的某個(gè)版本已經(jīng)大幅超越此前線下比賽中的版本。

  • 「OpenAI Five」是一套精心設(shè)計(jì)的深度強(qiáng)化學(xué)習(xí)系統(tǒng),由 5 個(gè)獨(dú)立的神經(jīng)網(wǎng)絡(luò)分別控制 5 個(gè)英雄。研究人員們使用了許多技巧引導(dǎo)智能體學(xué)習(xí) DOTA2 中的各種行為,也設(shè)計(jì)了超參數(shù)幫助網(wǎng)絡(luò)學(xué)習(xí)團(tuán)隊(duì)協(xié)作;但比賽過(guò)程中智能體之間沒(méi)有直接的溝通。(更多信息可以閱讀此前 報(bào)道

AlphaStar 技術(shù)介紹

在活動(dòng)預(yù)告文中,我們盤(pán)點(diǎn)了此前 DeepMind 在星際 2 AI 研究中的動(dòng)向。作為以深度強(qiáng)化學(xué)習(xí)著稱(chēng)的人工智能企業(yè),如今我們見(jiàn)到的 DeepMind 的星際 2 AI「AlphaStar」自然毫不意外地是一套基于深度強(qiáng)化學(xué)習(xí)的系統(tǒng)。

多圖詳解 DeepMind 的超人類(lèi)水準(zhǔn)星際爭(zhēng)霸 AI 「AlphaStar」

18 年 12 月的比賽時(shí),觀戰(zhàn)室中的 Oriol Vinyals 和 David Silver(以及你們看出來(lái)中間是誰(shuí)了嗎?)

AlphaStar 模型設(shè)計(jì)

AlphaStar 是一個(gè)把游戲看作長(zhǎng)序列建模學(xué)習(xí)任務(wù)的強(qiáng)化學(xué)習(xí)智能體,它的模型設(shè)計(jì)也就以長(zhǎng)序列建模為能力為核心。模型從游戲接口接收的數(shù)據(jù)是單位列表和這些單位的屬性,經(jīng)過(guò)神經(jīng)網(wǎng)絡(luò)計(jì)算后輸出在游戲中執(zhí)行的指令。這個(gè)神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)是 Transformer 網(wǎng)絡(luò),并且結(jié)合了一個(gè)深度 LSTM 網(wǎng)絡(luò)核心、一個(gè)帶有指針網(wǎng)絡(luò)的自動(dòng)回歸策略頭,以及一個(gè)中心化的評(píng)分基準(zhǔn)。這樣的網(wǎng)絡(luò)架構(gòu)是 DeepMind 對(duì)復(fù)雜序列建模任務(wù)的最新思考結(jié)果,他們也相信這樣的先進(jìn)模型可以在其他需要長(zhǎng)序列建模、有很大行動(dòng)空間的機(jī)器學(xué)習(xí)任務(wù)(比如機(jī)器翻譯、語(yǔ)言建模和視覺(jué)表示)中同樣發(fā)揮出優(yōu)秀的表現(xiàn)。

網(wǎng)絡(luò)設(shè)計(jì)的相關(guān)論文參見(jiàn):

AlphaStar 訓(xùn)練策略

AlphaStar 的初始訓(xùn)練策略與早期的 AlphaGo 相同,DeepMind 的研究人員首先用人類(lèi)比賽的比賽 replay 對(duì)模型進(jìn)行監(jiān)督學(xué)習(xí)訓(xùn)練,以模仿學(xué)習(xí)的思路讓模型快速學(xué)習(xí)到高水平玩家們?cè)谛请H爭(zhēng)霸天梯中使用的基礎(chǔ)策略和微操。這時(shí)候的 AlphaStar 就能夠以 95% 的勝率打敗星際爭(zhēng)霸 2 內(nèi)置的「精英」級(jí)別的 AI 了。(作為對(duì)比,OpenAI 的 DOTA2 AI 是完全從零開(kāi)始的強(qiáng)化學(xué)習(xí),初始階段花費(fèi)了很多時(shí)間在無(wú)意義的游戲操作上)

下面當(dāng)然就是強(qiáng)化學(xué)習(xí)的自我對(duì)弈、繼續(xù)提升水準(zhǔn)的階段了,而這也是和 AlphaGo 的訓(xùn)練策略有所不同的地方。在之前的報(bào)道中我們介紹過(guò),AlphaGo 自我對(duì)弈階段的棋局是由所有之前的迭代過(guò)程中出現(xiàn)的表現(xiàn)最好的一個(gè)版本生成的,也就是說(shuō)每一時(shí)刻都存在一個(gè)「最好的版本」,也不斷尋找比它還好要的版本并進(jìn)行替換。但對(duì)于星際爭(zhēng)霸,DeepMind 的研究人員們認(rèn)為不同的優(yōu)秀策略之間可能是相互克制的,沒(méi)有哪一個(gè)策略是可以完勝其它所有策略的。所以這次他們的做法是分別更新、記錄許多個(gè)不同版本的網(wǎng)絡(luò)(合稱(chēng)為 AlphaStar league)。

多圖詳解 DeepMind 的超人類(lèi)水準(zhǔn)星際爭(zhēng)霸 AI 「AlphaStar」

如上圖,AlphaStar 在人類(lèi)數(shù)據(jù)上初始訓(xùn)練后,繼續(xù)進(jìn)行多輪 AlphaStar league 中的自我對(duì)戰(zhàn),而每輪都會(huì)在之前的數(shù)個(gè)比較強(qiáng)的版本基礎(chǔ)上進(jìn)行分叉;分叉前的版本會(huì)被固定參數(shù)保留下來(lái),一直參與后續(xù)的多輪自我對(duì)戰(zhàn);不同的版本也可能會(huì)被人工安排不同的對(duì)戰(zhàn)策略和學(xué)習(xí)目標(biāo)。這樣的做法就在不斷提升網(wǎng)絡(luò)水平、提高對(duì)戰(zhàn)難度的同時(shí)也保留了足夠的多樣性。根據(jù)每輪自我對(duì)戰(zhàn)的結(jié)果,每個(gè)的網(wǎng)絡(luò)參數(shù)都會(huì)進(jìn)行更新;這種做法來(lái)自于群體強(qiáng)化學(xué)習(xí)的思想,保證了持續(xù)穩(wěn)定的表現(xiàn)提升,而且很新的版本也不會(huì)「忘記」如何擊敗很早的版本。

群體自我對(duì)弈的過(guò)程中可以產(chǎn)生許多不同的策略。有一些策略?xún)H僅是對(duì)早期策略的細(xì)微完善,也有一些策略會(huì)含有全新的建造順序、單位組合、微操模式;能夠穩(wěn)定擊敗早期策略的策略也開(kāi)始出現(xiàn)。比如在 AlphaStar league 自我對(duì)戰(zhàn)的早期,快速 rush 的策略有較高的勝率;但隨著訓(xùn)練過(guò)程持續(xù),其它的策略開(kāi)始展現(xiàn)出更高的勝率,比如用更多的工人快速擴(kuò)大基地,獲取更多的資源后建立經(jīng)濟(jì)優(yōu)勢(shì);或者用幾個(gè)兵去對(duì)方的基地騷擾,獲得發(fā)展速度的優(yōu)勢(shì)。這種策略的更替演化也和人類(lèi)選手們數(shù)年中的摸索之路非常類(lèi)似。如下圖,隨著總訓(xùn)練時(shí)間越來(lái)越長(zhǎng),智能體平均使用的單位數(shù)目也越來(lái)越多。

多圖詳解 DeepMind 的超人類(lèi)水準(zhǔn)星際爭(zhēng)霸 AI 「AlphaStar」

許多輪自我對(duì)戰(zhàn)結(jié)束后,研究人員們會(huì)以 AlphaStar league 中的納什分布采樣出一個(gè)版本來(lái),作為訓(xùn)練結(jié)束后最終得到的智能體。這樣的做法可以得到已經(jīng)發(fā)現(xiàn)的多種策略的綜合最優(yōu)解。

根據(jù) DeepMind 介紹,擊敗 TLO(蟲(chóng)族選手操作神族,并不是他最佳水平)和 MaNa 的 AlphaStar 版本分別來(lái)自第 9 天和第 14 天的自我對(duì)戰(zhàn)(如下圖),實(shí)際上在觀賽中選手和游戲解說(shuō)也都注意到了兩次比賽中 AlphaStar 水平的變化。

多圖詳解 DeepMind 的超人類(lèi)水準(zhǔn)星際爭(zhēng)霸 AI 「AlphaStar」

保證策略多樣性的努力

DeepMind 在技術(shù)介紹博客中提到,為了讓 AlphaStar league 中有盡量高的多樣性,他們實(shí)際上有意識(shí)地為不同的智能體設(shè)置了不同的學(xué)習(xí)目標(biāo)(這也符合我們的常識(shí),簡(jiǎn)單的隨機(jī)擾動(dòng)帶來(lái)的多樣性變化是非常有限的)。有的智能體要專(zhuān)門(mén)針對(duì)擊敗某個(gè)特定的智能體進(jìn)行學(xué)習(xí),或者為另一些智能體設(shè)定額外的內(nèi)部動(dòng)機(jī),比如具體地通過(guò)建造某種單位來(lái)?yè)魯∷惺褂媚愁?lèi)策略的智能體。這些目標(biāo)會(huì)在訓(xùn)練過(guò)程中進(jìn)行一些調(diào)節(jié)。DeepMind 可視化展示了最終形成的多種不同策略分布,如下圖。

多圖詳解 DeepMind 的超人類(lèi)水準(zhǔn)星際爭(zhēng)霸 AI 「AlphaStar」

在 AlphaStar league 的自我對(duì)戰(zhàn)中,每個(gè)智能體的網(wǎng)絡(luò)權(quán)重都會(huì)根據(jù)強(qiáng)化學(xué)習(xí)算法更新,優(yōu)化各自不同的學(xué)習(xí)目標(biāo)。權(quán)重更新規(guī)則來(lái)自于一種新的、高效的策略離線 actor-critic 算法, 其中含有經(jīng)驗(yàn)重放、自我模仿學(xué)習(xí)和策略蒸餾的思想。

AlphaStar 算力需求

為了支持大批不同版本 AlphaStar 智能體的對(duì)戰(zhàn)與更新,DeepMind 構(gòu)建了一個(gè)大規(guī)??赏卣沟姆植际接?xùn)練環(huán)境,其中使用了最新的谷歌 TPUv3,這個(gè)訓(xùn)練環(huán)境可以支持成群的 AlphaStar 智能體實(shí)例同時(shí)運(yùn)行;星際 2 游戲主體也有數(shù)千個(gè)實(shí)例同步運(yùn)行。AlphaStar league 的自我對(duì)戰(zhàn)訓(xùn)練過(guò)程用了 14 天,每個(gè) AlphaStar 智能體使用了 16 個(gè) TPU,最終相當(dāng)于每個(gè)智能體都有長(zhǎng)達(dá) 200 年的游戲時(shí)間。訓(xùn)練結(jié)束后的模型在單塊消費(fèi)級(jí) GPU 上就可以運(yùn)行。

AlphaStar 的游戲表現(xiàn)

由于 AlphaStar 首先從人類(lèi)玩家數(shù)據(jù)進(jìn)行模仿學(xué)習(xí),以及神經(jīng)網(wǎng)絡(luò)有一定的計(jì)算延時(shí),它的操作頻率其實(shí)比人類(lèi)選手還要低一些。MaNa 的 APM 達(dá)到了平均 390,而 AlphaStar 卻只有平均 280 左右而已。AlphaStar 的計(jì)算延時(shí)平均為 350 毫秒(從觀察到做出行動(dòng))。(相比之下,以往基于固定策略和手工規(guī)則的星際 AI 會(huì)保持上千的 APM)

多圖詳解 DeepMind 的超人類(lèi)水準(zhǔn)星際爭(zhēng)霸 AI 「AlphaStar」

DeepMind 也根據(jù) AlphaStar 和 MaNa 的一局比賽制作了智能體視角和內(nèi)部信息的可視化示意圖如下:其中展示了神經(jīng)網(wǎng)絡(luò)接收到的原始數(shù)據(jù)(左下角小圖中藍(lán)色點(diǎn)),神經(jīng)網(wǎng)絡(luò)內(nèi)部的激活狀況(中下方左側(cè)小圖)、智能體考慮點(diǎn)擊和建造建筑的地圖區(qū)域示意(中下方右側(cè)小圖,這也可以理解為智能體的注意力關(guān)注的區(qū)域)、智能體的操作輸出激活情況(右下角小圖)以及勝率預(yù)測(cè)。圖中同步也展示了 MaNa 的視角,游戲中 AlphaStar 是看不到對(duì)手的視角的。

多圖詳解 DeepMind 的超人類(lèi)水準(zhǔn)星際爭(zhēng)霸 AI 「AlphaStar」

在文章開(kāi)頭我們提到,兩次以 5:0 擊敗 TLO 和 MaNa 的 AlphaStar 是無(wú)需控制視角的,它可以直接讀取地圖上所有的可見(jiàn)內(nèi)容。相比之下,人類(lèi)選手顯然需要手動(dòng)把視角切換到地圖的不同位置才能看到部分信息。從這個(gè)角度說(shuō),AlphaStar 有欺負(fù)人類(lèi)選手的嫌疑。DeepMind 也針對(duì)這一點(diǎn)做了分析,他們的數(shù)據(jù)統(tǒng)計(jì)認(rèn)為 AlphaStar 切換關(guān)注區(qū)域的速度大約是每分鐘 30 次,這個(gè)次數(shù)和人類(lèi)職業(yè)選手相當(dāng)。

當(dāng)然了,最好的辦法還是做實(shí)驗(yàn)驗(yàn)證。所以 DeepMind 重新訓(xùn)練了需要自己控制視角的 AlphaStar ,也就是在直播中 MaNa 擊敗的那個(gè)版本(不過(guò)這個(gè)版本只訓(xùn)練了 7 天,而不是原始版本的 14 天)。這個(gè)版本的 AlphaStar 所能獲取的信息僅限于視角包含的部分,指令也一樣。DeepMind 提供的訓(xùn)練圖表也顯示出這帶來(lái)了一定的表現(xiàn)下降(雖然仍然能較快地追上)。不過(guò) DeepMind 認(rèn)為表現(xiàn)下降的幅度非常輕微,也體現(xiàn)出了 AlphaStar 的強(qiáng)大表現(xiàn)主要還是要?dú)w功于學(xué)習(xí)到了有效的游戲策略和強(qiáng)力的微操。

多圖詳解 DeepMind 的超人類(lèi)水準(zhǔn)星際爭(zhēng)霸 AI 「AlphaStar」

DeepMind 的展望

雖然這次的模型用在了星際爭(zhēng)霸 2  AI 上,但 DeepMind 認(rèn)為這是個(gè)足夠復(fù)雜、具有代表性的任務(wù),用來(lái)解決這個(gè)任務(wù)的技術(shù)也可以用在更多其他的復(fù)雜問(wèn)題上。比如這個(gè)為長(zhǎng)序列建模設(shè)計(jì)的網(wǎng)絡(luò)架構(gòu)可以用在更多不完全信息的長(zhǎng)序列建模任務(wù)中,比如天氣預(yù)測(cè)、氣候建模、語(yǔ)言理解等等。他們也會(huì)繼續(xù)開(kāi)發(fā) AlphaStar 項(xiàng)目,并利用其中的技術(shù)收獲改善更多的任務(wù)。

另一方面,DeepMind 認(rèn)為此次設(shè)計(jì)的訓(xùn)練策略也是通往安全、魯棒的 AI 的一條新路徑?,F(xiàn)階段的 AI 系統(tǒng)的一大難題就是難以預(yù)測(cè)系統(tǒng)會(huì)在多少種不同的情況下發(fā)生失效,星際爭(zhēng)霸的人類(lèi)職業(yè)選手們?nèi)?nbsp;AI 也往往就是依靠尋找并攻擊 AI 的弱點(diǎn)和錯(cuò)誤。AlphaStar 中提出的群體訓(xùn)練策略就是一種可靠得多、出錯(cuò)的可能性明顯減小的訓(xùn)練策略。DeepMind 的研究人員們認(rèn)為這種方法還有很多潛力可以挖掘,也許未來(lái)它就會(huì)成為安全因素非常關(guān)鍵的問(wèn)題中的重要一環(huán)。而最終,DeepMind 希望可以創(chuàng)建出真正智慧的系統(tǒng),幫助人類(lèi)解決一些全球最重要、最基礎(chǔ)的科學(xué)難題。

關(guān)于技術(shù)細(xì)節(jié)的更細(xì)致全面的介紹,DeepMind 也正在準(zhǔn)備一篇論文,并計(jì)劃投稿到期刊讓同行評(píng)議。我們可以共同期待正式論文的發(fā)出。

部分資料參考 DeepMind 技術(shù)博客 https://deepmind.com/blog/alphastar-mastering-real-time-strategy-game-starcraft-ii/。雷鋒網(wǎng) AI 科技評(píng)論報(bào)道

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知

多圖詳解 DeepMind 的超人類(lèi)水準(zhǔn)星際爭(zhēng)霸 AI 「AlphaStar」

分享:
相關(guān)文章

讀論文為生

日常笑點(diǎn)滴,學(xué)術(shù)死腦筋
當(dāng)月熱門(mén)文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)