0
本文作者: 三川 | 2017-07-07 16:47 | 專題:GAIR 2017 |
2017 年 7 月 7 日,由中國計算機學會(CCF)主辦,雷鋒網(wǎng)與香港中文大學(深圳)承辦的 CCF - GAIR 大會,在深圳大中華喜來登酒店開幕。在 AI 學術前沿專場的第三場, 倫敦大學學院 UCL 的汪軍教授帶來了以《群體智能的社會》為主題的報告。報告內(nèi)容請看本篇雷鋒網(wǎng)的現(xiàn)場速記。
汪軍, 倫敦大學學院(UCL)計算機系教授、互聯(lián)網(wǎng)科學與大數(shù)據(jù)分析專業(yè)主任。主要研究智能信息系統(tǒng),主要包括數(shù)據(jù)挖掘,計算廣告學,推薦系統(tǒng),機器學習,強化學習,生成模型等等。他發(fā)表了100多篇學術論文,多次獲得最佳論文獎。是國際公認的計算廣告學和智能推薦系統(tǒng)杰出華人專家。
汪軍:潘院士今天早上講了人工智能 2.0。其中的一個方向,是多個智能體之間的協(xié)作與競爭。我們還可以從社會學角度,把多智能體看作是一個群體;研究整個群體、動態(tài)系統(tǒng)的特性是什么。對于該話題,我希望給大家做一個介紹。
大家都了解 AlphaoGo,它的一項核心技術就是強化學習。相比模式識別和監(jiān)督學習,它在缺乏訓練數(shù)據(jù)集的情況下仍然可以工作。強化學習系統(tǒng)能夠直接和環(huán)境交互,得到反饋信息,在此過程中不斷學習,因此更加自然、靈活。強化學習的一項主要特性,是以收益(reward)定義目標方程,生成優(yōu)化策略。
多智能體的強化學習
今天重點講的,是多智能體的強化學習。它們單獨的和環(huán)境進行交互。在一種情況下它們各自優(yōu)化自己的目標,但這些目標之間有約束;另一種情況下,它們聯(lián)合起來優(yōu)化一個主要的目標方程。根據(jù)具體的情況會有不同的變化。
案例 1:互聯(lián)網(wǎng)廣告
過去,我們再互聯(lián)網(wǎng)廣告領域做了很多工作,比較早得應用了強化學習方法:在環(huán)境交互的情況下,根據(jù)投放廣告以后用戶的反饋,系統(tǒng)不斷地進行學習。
目前我們可以在 10 毫秒之內(nèi)做好決策,在每天 10 億流量的情況下進行分析,幫助廣告主精準投放。
案例 2:星際爭霸
我們通過對星際爭霸單位的控制,找到多智體的規(guī)律。研究它們在游戲里怎么合作、競爭與通訊。近幾個月,我們和阿里巴巴合作開發(fā)了一套玩星際爭霸的 AI 系統(tǒng)。該項目中,我們最想解決的是 AI 智體之間的通訊問題——當它們想合作起來攻打?qū)Ψ降臅r候,必須要有效地合作。我們希望在計算的時候,計算量相對較小,同時又達到智體的協(xié)同目的;于是采用了一種雙向連通方式,效果非常明顯。
目前,多智體強化學習的研究仍處于非常初步的階段。這里,有兩個方面的關鍵問題:
目前的研究,主要集中于少量多智體之間的協(xié)同。在有上萬個智體的情況下,(應用研究成果的)效果就不是很明顯。而許多現(xiàn)實場景中的多智體數(shù)量,可以達到百萬、甚至千萬級。
案例 3:智能打車 APP
一個很明顯的例子是Uber、滴滴等智能打車應用。
這類例子中,每個用戶手上的終端、每個司機手上的終端,你都可以把它們想象成智能體。它們可以做出決定:到底什么樣的價錢我可以接受。系統(tǒng)層面甚至可以有一套機制合理分配資源。比如,出行高峰出租車比較少,但是需求量又比較大。而在其它的一些時候,可能出租車很多,但是需求量不大。系統(tǒng)怎么調(diào)配,這其實需要一個非常大的人工智能協(xié)作系統(tǒng)來分析。
案例 4:共享單車
共享單車的情況更加明顯。你可以想象,如果給每個自行車裝了芯片或者計算機,它就是一個很智能的東西,可以根據(jù)目前的情況,優(yōu)化車輛的地理位置分布。
今天,如果要做一個強化學習的模型,這個模型必須要可以處理百萬級的智體。只有在這個量級,我們才可以把人工智體組成的群體和生物群落做對比,觀察宏觀層面的活動規(guī)律。
應該怎么去做?我們可以從自然界里面獲得一些啟發(fā)。比如生態(tài)學的 self-organisation (“自組織”)理論:一些個體行為的簡單規(guī)則,能造成種群層面的宏觀規(guī)律。我們研究的課題之一,是探索多智能體組成的群體, 和自然界中的動物群體,是否有相通之處?其活動模式是否遵循同一套規(guī)律?
案例 5: Lotka-Volterra 模型
這里,有一個動物界的著名模型名為 Lotka-Volterra (LV)模型。該模型描述的是:相互競爭的兩個種群,它們種群數(shù)量之間的動態(tài)關系。我們根據(jù)該模型的理論,用深度學習和強化學習做了一個老虎和羊的多智體生態(tài)模型。我們發(fā)現(xiàn),如果關掉智體的學習能力(比如老虎),它們無法適應新環(huán)境,生態(tài)系統(tǒng)很快崩潰。
而給智體學習能力之后,模型出現(xiàn)的現(xiàn)象,與 LV 模型中猞猁抓兔子的動態(tài)現(xiàn)象十分相似。模擬出來的多智體生態(tài),和自然世界的生態(tài)圈都遵循一種動態(tài)的平衡,就好比多個 AI 智體形成了一個動物種群。這讓我們十分驚奇,人工智能體和生物群體可能有許多共同規(guī)律。
這個研究很有意思的一點是,我們發(fā)現(xiàn)有這樣的場景:智體之間可以聯(lián)合在一起優(yōu)化某一個目標,或者單獨優(yōu)化它們自己的目標。當出現(xiàn)這兩種情況的時候,作為一個群體,他們就有了內(nèi)在的規(guī)律。如果把這些規(guī)律找到,對于我們?nèi)ラ_發(fā)一些新的模型、新的計算機人工智能的方法,是非常有幫助的。
案例 6:宜家
傳統(tǒng)強化學習沒有深入探索過多智體環(huán)境問題,而往往把它作為一個假設前提:要么假設這個環(huán)境是不變的,要么假設這個環(huán)境有一定的概率在不斷變化。而這個概率是不變的(not designable),意味著無法設計這個環(huán)境,而是更加適應這個環(huán)境。但是實際情況下發(fā)現(xiàn),很多場景下,環(huán)境本身也需要一個適應的過程。在宜家的熱力圖上,我們可以看出谷歌在商場里的活動是非常平均的,這是一個非常好的現(xiàn)象。我們可以開發(fā)一個強化學習算法,讓環(huán)境(商品擺放)根據(jù)顧客的變化而變化。鑒于此,我們在 UCL 的團隊首創(chuàng)了對多智體環(huán)境的控制,并研究如何學習環(huán)境的深層因素。
這是一個建筑系教授進行的研究,他做了一個地圖模擬人在店鋪里面走的情況,根據(jù)熱力圖反饋到鋪面設計,來優(yōu)化用戶在這里面待的時間,或者說最大化用戶可能消費的情況。
案例 7:分揀機器人
單個智體(機器人)要進行優(yōu)化,以最快的路徑分揀快遞包裹。這個環(huán)境未必是最優(yōu)的,我們根據(jù)貨物的統(tǒng)計特性,設計我把發(fā)往南京的包裹通道放在北京旁邊還是放在上海旁邊。所以環(huán)境也需要很好的考量和設計。
案例 8:迷宮
一個人工智體,需要以最快的效率找到出口。而環(huán)境知道其智能水平,根據(jù)情況來設計迷宮,使得智體有最困難或者最小的概率可以出去。這是一個競爭的關系。
怎么優(yōu)化呢?你會發(fā)現(xiàn),該系統(tǒng)在兩個不同的維度進行。在人工智體的情況下,它會說給定一個環(huán)境,我想以最快的效率、最優(yōu)的策略走出來。當你把這個人工智體學到的東西定住以后,就可以在另外一個維度優(yōu)化環(huán)境:現(xiàn)在這個智體是這樣的屬性,能不能據(jù)此使得環(huán)境更困難?這兩個維度互相競爭、互相迭代,就可以達到優(yōu)化的情況。雷鋒網(wǎng)雷鋒網(wǎng)
相關文章:
第二屆 CCF-GAIR 開幕!中國 AI、機器人行業(yè)產(chǎn)學研跨界整合進入新時期| CCF-GAIR 2017
AAAI主席Subbarao:機器的學習過程與人類不一樣 | CCF - GAIR2017
中科院院士譚鐵牛:模式識別研究的回顧與展望 | CCF-GAIR 2017
CMU教授金出武雄演講:戶外機器人系統(tǒng) | CCF-GAIR 2017
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。
本專題其他文章