0
本文作者: 奕欣 | 2017-07-15 10:49 | 專(zhuān)題:GAIR 2017 |
雷鋒網(wǎng) AI 科技評(píng)論按:想必大家都對(duì)前段時(shí)間火遍學(xué)術(shù)圈的 BiCNet 并不陌生,這個(gè) UCL 與阿里巴巴合作的多智能雙向協(xié)作網(wǎng)絡(luò),可在星際爭(zhēng)霸中研究多智能體間的協(xié)作學(xué)習(xí)。在今年由中國(guó)計(jì)算機(jī)學(xué)會(huì)(CCF)主辦,雷鋒網(wǎng)與香港中文大學(xué)(深圳)承辦的第二屆CCF-GAIR全球人工智能與機(jī)器人峰會(huì)上,我們榮幸地邀請(qǐng)到了倫敦大學(xué)學(xué)院(UCL)計(jì)算機(jī)系教授汪軍博士做了主題演講。
汪軍教授在題為《A Society of AI Agents》的演講中,從多智體群體的特征切入,介紹了多智體的強(qiáng)化學(xué)習(xí)特性。具體表現(xiàn)為:在同一環(huán)境下,不同的智體既可以單獨(dú)處理各自的任務(wù),又可以聯(lián)合在一起處理優(yōu)化一個(gè)主要的目標(biāo)方程,而且會(huì)根據(jù)具體的情況會(huì)有不同的變化。此外,汪軍教授還以多個(gè)例子闡述了強(qiáng)化學(xué)習(xí)與環(huán)境的關(guān)系。
演講全文:UCL計(jì)算機(jī)系教授汪軍:如何進(jìn)行大規(guī)模多智體強(qiáng)化學(xué)習(xí)?| CCF-GAIR 2017
汪軍教授告訴雷鋒網(wǎng) AI 科技評(píng)論,實(shí)際上他此前準(zhǔn)備的是《Artificial Collective Intelligence》的演講主題,但近期因?yàn)樵诙嘀悄荏w領(lǐng)域有了一些新的研究和嘗試,因此他在 CCF-GAIR 大會(huì)的演講中所引用的兩篇論文也是第一次在公開(kāi)場(chǎng)合露面。其實(shí)他在演講中想講的東西還有很多,因此在演講之后,雷鋒網(wǎng) AI 科技評(píng)論與汪軍進(jìn)行了一次對(duì)話(huà),雷鋒網(wǎng)整理如下:
目前學(xué)界少有人在多智能體上進(jìn)行深度學(xué)習(xí)方法的研究,這是因?yàn)榇蠹夷壳斑€只關(guān)注單個(gè)智能體的作用,還是說(shuō)這個(gè)議題本身就非常難?
其實(shí)多智能體是一個(gè)研究領(lǐng)域,也有自成一體的會(huì)議,研究的人也很多。但目前將多智能體結(jié)合強(qiáng)化學(xué)習(xí),特別是深度強(qiáng)化學(xué)習(xí),目前還是比較新的一個(gè)話(huà)題。
首先,研究者要解決只有一個(gè)智能體的問(wèn)題,比如說(shuō)象棋、圍棋,等這個(gè)問(wèn)題解決之后,可能就會(huì)接著用深度學(xué)習(xí)去處理更多的智能體。你可以看到,這有一個(gè)自然的脈絡(luò)在其中。所以今年就特別明顯,有很多多智能體的問(wèn)題采用了深度學(xué)習(xí)的方法去解決,包括 UC 伯克利的一個(gè)研究室,做了一個(gè)理解語(yǔ)言的研究。在一個(gè)給定的場(chǎng)景下,研究者讓多智能體們自己去通訊、去交流,但不告訴彼此交流的內(nèi)容,最終發(fā)現(xiàn)慢慢地,語(yǔ)言就有可能在其中產(chǎn)生。因此這個(gè)也非常有意思。
我們團(tuán)隊(duì)可能是從另一個(gè)角度出發(fā),想象這些場(chǎng)景在生物學(xué)上有沒(méi)有什么規(guī)律,比如有可能會(huì)出現(xiàn) Leader,那么我們可以在這個(gè)過(guò)程中理解領(lǐng)袖是如何產(chǎn)生的,是不是有些智能體自己就會(huì)成為領(lǐng)袖。我們現(xiàn)在所理解的內(nèi)容就是所謂的「grouping」,也就是在給定一些特定條件下,可能就會(huì)認(rèn)為這些多智能體可以成為一個(gè)團(tuán)隊(duì),這與人類(lèi)最早最原始的狀態(tài)其實(shí)是一樣的。最早的時(shí)候人需要捕獵,出于安全的考慮可能會(huì)組成一個(gè)團(tuán)隊(duì)。所以我們通過(guò)深度學(xué)習(xí)的方式,可以學(xué)習(xí)到以前完全學(xué)習(xí)不到的東西,甚至對(duì)人類(lèi)學(xué)可以了解。
更進(jìn)一步地,我們是不是可以學(xué)習(xí)宗教是如何產(chǎn)生的?宗教到底是什么,因?yàn)槊總€(gè)人都可能是自私的,或者每個(gè)人都有自己的利益,如果有一個(gè)宗教把這些人約束起來(lái),可能這個(gè)集團(tuán)的利益可能會(huì)最大化。當(dāng)然,我現(xiàn)在所說(shuō)的只是一個(gè)假設(shè),現(xiàn)在還沒(méi)有人去研究這個(gè),我們所做的研究也只是第一步。
您在演講中也提到,目前很少有人研究超過(guò) 20 個(gè)智能體的協(xié)作,但您也提到了比如說(shuō)像滴滴的調(diào)度問(wèn)題,還有共享單車(chē)的問(wèn)題。實(shí)際上 MSRA 的城市計(jì)算,或是滴滴研究院的調(diào)度系統(tǒng)都有類(lèi)似的交通系統(tǒng)研究,但它是屬于一個(gè)系統(tǒng)調(diào)動(dòng)所有的個(gè)體,那么將行為個(gè)體作為智能體的意義在什么地方?
在多智能體的情況下,你有兩種設(shè)置情況,一種情況是讓每個(gè)人之間只優(yōu)化自己的利益,利益之間雖然可能會(huì)有些聯(lián)系,但是每次做決定的時(shí)候,雙方不需要知道對(duì)方所做的決定。
還有一種是協(xié)作關(guān)系,在做決定之前需要相互獲取一些信息,最后聯(lián)合起來(lái)做一個(gè)決定。這兩個(gè)情況是不一樣的,如果你把它放到一個(gè)最特殊的情況,就像你剛才講的,我有一個(gè)大系統(tǒng),我把所有的多智能體全部一起優(yōu)化,這時(shí)候呢這個(gè)多智能體其實(shí)就轉(zhuǎn)化成了單智能體,你可以把它當(dāng)作一個(gè)智能體,只不過(guò)它的這個(gè)輸出太多了,每個(gè)都要輸出一個(gè)結(jié)果。但這個(gè)計(jì)算量太大,可能有一百萬(wàn)個(gè),如果每個(gè)都要去權(quán)衡決策的話(huà),這是不現(xiàn)實(shí)的。所以一般來(lái)說(shuō)會(huì)選擇一種完全獨(dú)立的,或者中間有雙向通訊的方式。
那這樣是不是也涉及到一個(gè)博弈問(wèn)題?
對(duì),博弈有兩種,一個(gè)是啊就是我們所謂的零和博弈,就像下棋一樣,你贏(yíng)了我就輸了,它是一個(gè)互相博弈的情況。那么還有一些協(xié)作的關(guān)系,比如我們倆的目標(biāo)是一樣的,那么會(huì)涉及到雙方的貢獻(xiàn)程度。
那么您在演講中所說(shuō)的生態(tài)系統(tǒng)的例子,其實(shí)是希望找到背后的一些生態(tài)學(xué)規(guī)律?這些理論性的內(nèi)容能夠如何被應(yīng)用呢?
其實(shí)有兩個(gè)層面。第一個(gè)是,我們想從科學(xué)上面理解它背后的規(guī)律,要滿(mǎn)足我們的好奇心。比如說(shuō)人工智能體在做出一個(gè)群體以后,是不是跟大自然的表現(xiàn)情況是一樣的,如果不一樣,有什么差別?如果一樣,為什么?我們完全不會(huì)考慮它可能會(huì)有什么(應(yīng))用,主要還是滿(mǎn)足我們的好奇心。
我們當(dāng)時(shí)做環(huán)境動(dòng)態(tài)變化研究的出發(fā)點(diǎn)在于,在玩游戲的時(shí)候,比如說(shuō)玩王者榮耀,如果你玩游戲的水平比較弱,如果對(duì)手設(shè)計(jì)得太強(qiáng)了,你玩一下就覺(jué)得沒(méi)意思了;如果你的水平很強(qiáng),但這個(gè)游戲?qū)κ值碾y度又很弱,你玩著也沒(méi)有意思。因此游戲難度的設(shè)計(jì),本身也就是優(yōu)化這個(gè)游戲本身的一個(gè)過(guò)程。
但游戲還是在一個(gè)虛擬環(huán)境下設(shè)計(jì)的,那么在實(shí)際情況和實(shí)際應(yīng)用里,如何進(jìn)行各種指標(biāo)的量化?
主要有兩點(diǎn),一個(gè)是在有些情況下你可以自己設(shè)定,那么進(jìn)行試錯(cuò)就可以了。如果是理論性更加的話(huà),還有一種叫「Inverse Reinforce Learning」的方法,就是說(shuō)反過(guò)來(lái)玩,我們有一些最優(yōu)化的策略作為訓(xùn)練集,然后把它放回強(qiáng)化學(xué)習(xí)系統(tǒng)里去學(xué)習(xí) reward ,然后用獲得的 reward 再去解決新問(wèn)題。
其實(shí)我看您的近期研究?jī)?nèi)容與 GAN 的聯(lián)系非常緊密,包括 SeqGAN、IRGAN 等。你覺(jué)得目前 GAN 是一個(gè)比較有效的方法嗎?還是說(shuō),與 GAN 的結(jié)合會(huì)是未來(lái)的一個(gè)趨勢(shì)?
我們的 SeqGAN 出來(lái)之后,現(xiàn)在是目前唯一一個(gè)可以用在離散數(shù)據(jù)上的有效方法,所以今年你會(huì)看到有很多論文用 SeqGAN 去解決文本問(wèn)題,所以我們那個(gè)文章的引用就變得非常高。
有研究者采用的是另外一個(gè)方法,那個(gè)方法理論很好,但是實(shí)際數(shù)據(jù)的表現(xiàn)還不是太好。所以我們現(xiàn)在也在嘗試,是不是要在一些標(biāo)準(zhǔn)的數(shù)據(jù)集上再好好地把效果提上去。
那如果引申到您非常擅長(zhǎng)的推薦系統(tǒng)與計(jì)算化廣告領(lǐng)域,您覺(jué)得應(yīng)該如何用深度學(xué)習(xí)結(jié)合起來(lái)?
比如像 GAN 的話(huà),我覺(jué)得現(xiàn)在就火得有點(diǎn)過(guò)了,它在解決某些問(wèn)題可能還是夠嗆。(比如說(shuō)呢?)比如說(shuō)像離散數(shù)據(jù)就比較難解決,我們也只是提出了一個(gè)方法,具體效果好壞大家也都還在嘗試。此外,在優(yōu)化的時(shí)候不一定效果很好,可能要試很多次,不像現(xiàn)在的 Deep Learning。
以 IRGAN 為例,這是您與學(xué)術(shù)界進(jìn)行合作的一個(gè)成果;而像 BiCNet 這樣的多智能體協(xié)作系統(tǒng)則是與工業(yè)界合作聯(lián)系的,那么在這兩個(gè)研究中,您感受到最大的不同之處在哪里?
公司具有很強(qiáng)的工程性,而且有數(shù)據(jù),比如說(shuō)有些論文如果是與工業(yè)界合作,你可以進(jìn)行在線(xiàn)測(cè)試,包括系統(tǒng)上的 A/B Testing,但在學(xué)校不可能讓幾個(gè)博士生去做這個(gè)事情。博士生必須在這幾年內(nèi)找到一個(gè)題目,直接去做科學(xué)的研究。
除了與雙界合作外,我了解到您也在北京創(chuàng)辦了一個(gè)公司,做個(gè)性化推薦的業(yè)務(wù),那么為何不選擇直接創(chuàng)業(yè),學(xué)術(shù)界對(duì)您的吸引力可能在什么地方?
不論是在學(xué)校還是在產(chǎn)業(yè)界,大家的出發(fā)點(diǎn)都是想解決一些技術(shù)問(wèn)題。我的興趣還是一直在學(xué)校,創(chuàng)立公司的目的也是希望通過(guò)這樣的方式實(shí)現(xiàn)技術(shù)轉(zhuǎn)化。像計(jì)算化廣告或是推薦系統(tǒng),如果沒(méi)有一個(gè)公司作為載體,可能我就不能拿到用戶(hù)的數(shù)據(jù),也不能做在線(xiàn)測(cè)試。
我覺(jué)得高校對(duì)我的吸引力在于解決一些最基礎(chǔ)的問(wèn)題,在企業(yè)界可能不太容易能實(shí)現(xiàn)這個(gè)狀態(tài),公司也有產(chǎn)品化的需求。
那么像阿里與高校合作研究星際爭(zhēng)霸,實(shí)際上是一個(gè)比較特殊的情況?因?yàn)樗⒉皇侵苯右援a(chǎn)品化為導(dǎo)向的?
是的,阿里做這個(gè)事情的確是一個(gè)比較特例的情況,而像 DeepMind 這樣的情況就更少了。DeepMind 給自己的定位是純研究機(jī)構(gòu),但實(shí)現(xiàn)的卻是商業(yè)化的運(yùn)作。實(shí)際上我認(rèn)為,母公司提供資金,讓基礎(chǔ)研究機(jī)構(gòu)以商業(yè)化模式去管理,做一些比較前沿的研究,它的回報(bào)率會(huì)更高。我一直想強(qiáng)調(diào)的一點(diǎn)是,為什么中國(guó)不能出現(xiàn)像 DeepMind、Magic Pony 這樣的公司?
如果是 VC 比較急功近利,那可能就做不了,第一年投錢(qián),第二年就想把產(chǎn)品做出來(lái),這對(duì)基礎(chǔ)研究來(lái)說(shuō)是不現(xiàn)實(shí)的。但如果把研究放回高校,高校的機(jī)制又存在著不足,也就是「一個(gè)蘿卜一個(gè)坑」。什么意思呢?一個(gè)博士生,他要在四年里獨(dú)立地完成一個(gè)項(xiàng)目。當(dāng)然我們有些機(jī)制可以讓學(xué)生們一起合作,但還是非常零散的狀態(tài)。不可能在高校里找 10 個(gè)最牛的學(xué)生去把星際這個(gè)問(wèn)題徹底搞定,只有在工業(yè)界中雇 10 個(gè)最牛的人去做這個(gè)事情,這其中有工程師、有程序員、有系統(tǒng)維護(hù),這樣才能產(chǎn)生一個(gè) AlphaGo。
現(xiàn)在國(guó)內(nèi)很多企業(yè)也在建研究院,是不是也在想向這種方向靠攏?
對(duì),但他們的研究院都是非常功利性的,都是研究院,但是都不研究。我覺(jué)得要解決這個(gè)問(wèn)題可能有兩種渠道,一個(gè)是大公司突然就覺(jué)悟了,要做一個(gè)全新的商業(yè)化運(yùn)作的純研究機(jī)構(gòu);另一個(gè)是創(chuàng)業(yè)公司自己帶頭做基礎(chǔ)研究,如果把 AlphaGo 這樣的研究做成了,我相信對(duì) VC 的價(jià)值也很高。比如星際爭(zhēng)霸這個(gè)事情,或者說(shuō)王者榮耀,如果能做到能與一般水平或者水平稍微好點(diǎn)的玩家對(duì)抗,那它的價(jià)值就非常大了。
后記:汪軍教授的微信簽名是「with a curious mind」,問(wèn)他這是不是一個(gè)對(duì)自己的評(píng)價(jià),他說(shuō),做學(xué)術(shù)就是這么回事,需要永遠(yuǎn)保持一顆好奇心。此外,這句簽名更多地也表達(dá)了他對(duì)生活的一種態(tài)度。汪軍教授表示,在回學(xué)校后打算繼續(xù)安安靜靜踏踏實(shí)實(shí)再做幾篇文章。「AI 可能今年火,那明年可能就不火了,那么你是要改行干別的嗎?肯定不是,你還得繼續(xù)往下走。」
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。
本專(zhuān)題其他文章