0
本文作者: 楊文 | 2017-06-07 10:49 |
雷鋒網(wǎng)AI科技評論按:6.5號,微軟研究官網(wǎng)放出最近的Malmo項目挑戰(zhàn)賽的比賽結(jié)果,其中來自中國大陸的HelloJason團隊獲得微軟Azure研究津貼獎的第二名。協(xié)同AI可以說是AI未來發(fā)展的一個重要趨勢,此次大賽致力于推動協(xié)同AI的發(fā)展,同時微軟還為協(xié)同AI研究者提供了豐富的計算資源支持。以下內(nèi)容為雷鋒網(wǎng)編輯整理編譯。
當(dāng)從局限性AI過渡到通用性AI,給機器嵌入可以和代理以及人類協(xié)同工作的能力就會變得非常重要。Malmo 工程,是基于目前流行的多人游戲Minecraft開發(fā)的項目,也是如何訓(xùn)練智能代理間協(xié)同合作的AI研究工具。這個項目要求團隊運用代理間的合作來完成游戲,目的是將協(xié)同AI 做到極致。
Katja Hofmann,是Malmo項目的負責(zé)人,他總結(jié)了這次挑戰(zhàn)的意義。在Minecraft游戲中,游戲的玩法創(chuàng)新是無窮盡的。在Minecraft的框架下,Malmo項目嘗試不同的策略和方法來教代理工作。給團隊帶來的挑戰(zhàn)是證明代理有預(yù)測和學(xué)習(xí)是否協(xié)同以及如何成功地協(xié)同合作的能力。從這次挑戰(zhàn)中,我們了解了很多關(guān)于開發(fā)AI協(xié)同性的策略,例如基于計劃方法,基于深度神經(jīng)網(wǎng)絡(luò)方法,以及共同進化方法。
結(jié)果很令人滿意,有來自26個國家,由研究生組成的80多個團隊參與了此次挑戰(zhàn)賽。挑戰(zhàn)要求團隊訓(xùn)練代理玩一個協(xié)同小游戲——catch the pig,游戲中要求玩家合作實現(xiàn)共同目標(biāo)。之所以選這個挑戰(zhàn)是因為它反映了游戲原理。它是一個在單干和合作之間權(quán)衡的經(jīng)典案例。項目會關(guān)注參與者如何解決這個問題,用什么算法和策略表現(xiàn)的更好,并選出有潛力的未來研究方向。
每個團隊會將代碼提交到GitHub,寫出他們的方法自評,并制作一個視頻呈現(xiàn)他們的代理活動。獲勝者將會被邀請參加微軟研究AI夏令營,或微軟2萬美金的研究津貼。獲勝者的評選基于以下幾個標(biāo)準(zhǔn):代理獲得游戲高分的能力,團隊方法的創(chuàng)造性和新穎性。
以下是兩個不同獎項的獲獎團隊
獲獎?wù)邔⑻峁┪④浹芯緼I夏令營中的職位,博士生可以和微軟研究科學(xué)家一起在劍橋工作,可以學(xué)習(xí)通用研究技術(shù),了解MSR劍橋?qū)嶒炇遥硎芎虯I研究引領(lǐng)者交流的樂趣。
第一名 Bacon Gulch(英國)
第二名 Village People(羅馬尼亞)
第三名 The Danish Puppeteers(羅馬尼亞)
優(yōu)秀獎 AASMA (葡萄牙)
微軟Azure研究津貼獎得主
該獎項額外為學(xué)生團隊未來研究提供計算資源支持,微軟Azure為全球上百位研究者提供他們所需的基于云存儲,大數(shù)據(jù)平臺,互聯(lián)網(wǎng)解決方案,或一定規(guī)模的開源機器學(xué)習(xí)。
第一名: HogRider (新加坡)
第二名 (并列): HelloJason (中國大陸)
Bacon Gulch (英國)
第三名 (并列): The Danish Puppeteers (丹麥)
Village People (羅馬尼亞)
Bo An,南洋理工大學(xué)的助理教授,HogRider 團隊的導(dǎo)師,他說道,Malmo測試臺反映了AI協(xié)作的所有重要的規(guī)格參數(shù):不完全信息,局部/噪聲觀測,合作與競爭共存,序貫決策,等等。為了應(yīng)對這些挑戰(zhàn),團隊需要將不同領(lǐng)域的技術(shù)集成在一起。最后感謝所有的參賽團隊,為獲獎?wù)咚〉玫某煽儽硎咀YR。
設(shè)計Malmo項目的意義在于推動AI協(xié)同理解力的進步。以下是實驗收獲
針對這個問題沒有哪一個單一解決方法是明顯優(yōu)于其他參賽者的。如果單單看游戲得分,很多不同的方法都得出的是一個相似的結(jié)果。
不要貶低以前的工作。很多團隊取得成功都是通過結(jié)合經(jīng)典的AI方法和新的啟發(fā)和模型。
有時候最大的學(xué)習(xí)就是問接下來干什么,在AI協(xié)同中,其中一個最大的問題就是代理的能力,在一個動態(tài)的環(huán)境中調(diào)整信息的能力。通過引進未知特性和目標(biāo)的代理,代理必須與其合作從而解決團隊實時更新環(huán)境這一問題。因此,此次挑戰(zhàn)為AI代理適應(yīng)未知環(huán)境提供了有潛力的研究方向。
任何事情都是重要的。一些團隊把時間花費在問題分析上,另一些則花費在編碼效率上,還有一些花費在調(diào)整他們的模型上。所有的這三個領(lǐng)域的努力都為今后的研究工作提供了幫助。
via Microsoft Research Blog, 雷鋒網(wǎng)編譯
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。