丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給三川
發(fā)送

0

UCL 教授汪軍:多智能體強(qiáng)化學(xué)習(xí)的兩大挑戰(zhàn) | CCF-GAIR 2017

本文作者: 三川 2017-07-07 16:47 專題:GAIR 2017
導(dǎo)語(yǔ):多智能體強(qiáng)化學(xué)習(xí)會(huì)不會(huì)締造下一個(gè) AlphaGo 奇跡?

UCL 教授汪軍:多智能體強(qiáng)化學(xué)習(xí)的兩大挑戰(zhàn) | CCF-GAIR 2017

2017 年 7 月 7 日,由中國(guó)計(jì)算機(jī)學(xué)會(huì)(CCF)主辦,雷鋒網(wǎng)與香港中文大學(xué)(深圳)承辦的 CCF - GAIR 大會(huì),在深圳大中華喜來(lái)登酒店開(kāi)幕。在 AI 學(xué)術(shù)前沿專場(chǎng)的第三場(chǎng), 倫敦大學(xué)學(xué)院 UCL 的汪軍教授帶來(lái)了以《群體智能的社會(huì)》為主題的報(bào)告。報(bào)告內(nèi)容請(qǐng)看本篇雷鋒網(wǎng)的現(xiàn)場(chǎng)速記。

汪軍, 倫敦大學(xué)學(xué)院(UCL)計(jì)算機(jī)系教授、互聯(lián)網(wǎng)科學(xué)與大數(shù)據(jù)分析專業(yè)主任。主要研究智能信息系統(tǒng),主要包括數(shù)據(jù)挖掘,計(jì)算廣告學(xué),推薦系統(tǒng),機(jī)器學(xué)習(xí),強(qiáng)化學(xué)習(xí),生成模型等等。他發(fā)表了100多篇學(xué)術(shù)論文,多次獲得最佳論文獎(jiǎng)。是國(guó)際公認(rèn)的計(jì)算廣告學(xué)和智能推薦系統(tǒng)杰出華人專家。

UCL 教授汪軍:多智能體強(qiáng)化學(xué)習(xí)的兩大挑戰(zhàn) | CCF-GAIR 2017

汪軍:潘院士今天早上講了人工智能 2.0。其中的一個(gè)方向,是多個(gè)智能體之間的協(xié)作與競(jìng)爭(zhēng)。我們還可以從社會(huì)學(xué)角度,把多智能體看作是一個(gè)群體;研究整個(gè)群體、動(dòng)態(tài)系統(tǒng)的特性是什么。對(duì)于該話題,我希望給大家做一個(gè)介紹。

大家都了解 AlphaoGo,它的一項(xiàng)核心技術(shù)就是強(qiáng)化學(xué)習(xí)。相比模式識(shí)別和監(jiān)督學(xué)習(xí),它在缺乏訓(xùn)練數(shù)據(jù)集的情況下仍然可以工作。強(qiáng)化學(xué)習(xí)系統(tǒng)能夠直接和環(huán)境交互,得到反饋信息,在此過(guò)程中不斷學(xué)習(xí),因此更加自然、靈活。強(qiáng)化學(xué)習(xí)的一項(xiàng)主要特性,是以收益(reward)定義目標(biāo)方程,生成優(yōu)化策略。

多智能體的強(qiáng)化學(xué)習(xí)

今天重點(diǎn)講的,是多智能體的強(qiáng)化學(xué)習(xí)。它們單獨(dú)的和環(huán)境進(jìn)行交互。在一種情況下它們各自優(yōu)化自己的目標(biāo),但這些目標(biāo)之間有約束;另一種情況下,它們聯(lián)合起來(lái)優(yōu)化一個(gè)主要的目標(biāo)方程。根據(jù)具體的情況會(huì)有不同的變化。

  • 案例 1:互聯(lián)網(wǎng)廣告

過(guò)去,我們?cè)倩ヂ?lián)網(wǎng)廣告領(lǐng)域做了很多工作,比較早得應(yīng)用了強(qiáng)化學(xué)習(xí)方法:在環(huán)境交互的情況下,根據(jù)投放廣告以后用戶的反饋,系統(tǒng)不斷地進(jìn)行學(xué)習(xí)。

目前我們可以在 10 毫秒之內(nèi)做好決策,在每天 10 億流量的情況下進(jìn)行分析,幫助廣告主精準(zhǔn)投放。

  • 案例 2:星際爭(zhēng)霸

UCL 教授汪軍:多智能體強(qiáng)化學(xué)習(xí)的兩大挑戰(zhàn) | CCF-GAIR 2017

我們通過(guò)對(duì)星際爭(zhēng)霸單位的控制,找到多智體的規(guī)律。研究它們?cè)谟螒蚶镌趺春献?、?jìng)爭(zhēng)與通訊。近幾個(gè)月,我們和阿里巴巴合作開(kāi)發(fā)了一套玩星際爭(zhēng)霸的 AI 系統(tǒng)。該項(xiàng)目中,我們最想解決的是 AI 智體之間的通訊問(wèn)題——當(dāng)它們想合作起來(lái)攻打?qū)Ψ降臅r(shí)候,必須要有效地合作。我們希望在計(jì)算的時(shí)候,計(jì)算量相對(duì)較小,同時(shí)又達(dá)到智體的協(xié)同目的;于是采用了一種雙向連通方式,效果非常明顯。

目前,多智體強(qiáng)化學(xué)習(xí)的研究仍處于非常初步的階段。這里,有兩個(gè)方面的關(guān)鍵問(wèn)題:

問(wèn)題 1:多智體協(xié)同研究中,智體數(shù)量少

目前的研究,主要集中于少量多智體之間的協(xié)同。在有上萬(wàn)個(gè)智體的情況下,(應(yīng)用研究成果的)效果就不是很明顯。而許多現(xiàn)實(shí)場(chǎng)景中的多智體數(shù)量,可以達(dá)到百萬(wàn)、甚至千萬(wàn)級(jí)。

  • 案例 3:智能打車 APP

一個(gè)很明顯的例子是Uber、滴滴等智能打車應(yīng)用。

這類例子中,每個(gè)用戶手上的終端、每個(gè)司機(jī)手上的終端,你都可以把它們想象成智能體。它們可以做出決定:到底什么樣的價(jià)錢我可以接受。系統(tǒng)層面甚至可以有一套機(jī)制合理分配資源。比如,出行高峰出租車比較少,但是需求量又比較大。而在其它的一些時(shí)候,可能出租車很多,但是需求量不大。系統(tǒng)怎么調(diào)配,這其實(shí)需要一個(gè)非常大的人工智能協(xié)作系統(tǒng)來(lái)分析。

  • 案例 4:共享單車

共享單車的情況更加明顯。你可以想象,如果給每個(gè)自行車裝了芯片或者計(jì)算機(jī),它就是一個(gè)很智能的東西,可以根據(jù)目前的情況,優(yōu)化車輛的地理位置分布。

今天,如果要做一個(gè)強(qiáng)化學(xué)習(xí)的模型,這個(gè)模型必須要可以處理百萬(wàn)級(jí)的智體。只有在這個(gè)量級(jí),我們才可以把人工智體組成的群體和生物群落做對(duì)比,觀察宏觀層面的活動(dòng)規(guī)律。

應(yīng)該怎么去做?我們可以從自然界里面獲得一些啟發(fā)。比如生態(tài)學(xué)的 self-organisation (“自組織”)理論:一些個(gè)體行為的簡(jiǎn)單規(guī)則,能造成種群層面的宏觀規(guī)律。我們研究的課題之一,是探索多智能體組成的群體, 和自然界中的動(dòng)物群體,是否有相通之處?其活動(dòng)模式是否遵循同一套規(guī)律?

  • 案例 5: Lotka-Volterra 模型

這里,有一個(gè)動(dòng)物界的著名模型名為 Lotka-Volterra (LV)模型。該模型描述的是:相互競(jìng)爭(zhēng)的兩個(gè)種群,它們種群數(shù)量之間的動(dòng)態(tài)關(guān)系。我們根據(jù)該模型的理論,用深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)做了一個(gè)老虎和羊的多智體生態(tài)模型。我們發(fā)現(xiàn),如果關(guān)掉智體的學(xué)習(xí)能力(比如老虎),它們無(wú)法適應(yīng)新環(huán)境,生態(tài)系統(tǒng)很快崩潰。

而給智體學(xué)習(xí)能力之后,模型出現(xiàn)的現(xiàn)象,與 LV 模型中猞猁抓兔子的動(dòng)態(tài)現(xiàn)象十分相似。模擬出來(lái)的多智體生態(tài),和自然世界的生態(tài)圈都遵循一種動(dòng)態(tài)的平衡,就好比多個(gè) AI 智體形成了一個(gè)動(dòng)物種群。這讓我們十分驚奇,人工智能體和生物群體可能有許多共同規(guī)律。

 這個(gè)研究很有意思的一點(diǎn)是,我們發(fā)現(xiàn)有這樣的場(chǎng)景:智體之間可以聯(lián)合在一起優(yōu)化某一個(gè)目標(biāo),或者單獨(dú)優(yōu)化它們自己的目標(biāo)。當(dāng)出現(xiàn)這兩種情況的時(shí)候,作為一個(gè)群體,他們就有了內(nèi)在的規(guī)律。如果把這些規(guī)律找到,對(duì)于我們?nèi)ラ_(kāi)發(fā)一些新的模型、新的計(jì)算機(jī)人工智能的方法,是非常有幫助的。

問(wèn)題 2:缺乏對(duì)多智體環(huán)境控制的研究

  • 案例 6:宜家

傳統(tǒng)強(qiáng)化學(xué)習(xí)沒(méi)有深入探索過(guò)多智體環(huán)境問(wèn)題,而往往把它作為一個(gè)假設(shè)前提:要么假設(shè)這個(gè)環(huán)境是不變的,要么假設(shè)這個(gè)環(huán)境有一定的概率在不斷變化。而這個(gè)概率是不變的(not designable),意味著無(wú)法設(shè)計(jì)這個(gè)環(huán)境,而是更加適應(yīng)這個(gè)環(huán)境。但是實(shí)際情況下發(fā)現(xiàn),很多場(chǎng)景下,環(huán)境本身也需要一個(gè)適應(yīng)的過(guò)程。在宜家的熱力圖上,我們可以看出谷歌在商場(chǎng)里的活動(dòng)是非常平均的,這是一個(gè)非常好的現(xiàn)象。我們可以開(kāi)發(fā)一個(gè)強(qiáng)化學(xué)習(xí)算法,讓環(huán)境(商品擺放)根據(jù)顧客的變化而變化。鑒于此,我們?cè)?UCL 的團(tuán)隊(duì)首創(chuàng)了對(duì)多智體環(huán)境的控制,并研究如何學(xué)習(xí)環(huán)境的深層因素。

這是一個(gè)建筑系教授進(jìn)行的研究,他做了一個(gè)地圖模擬人在店鋪里面走的情況,根據(jù)熱力圖反饋到鋪面設(shè)計(jì),來(lái)優(yōu)化用戶在這里面待的時(shí)間,或者說(shuō)最大化用戶可能消費(fèi)的情況。

  • 案例 7:分揀機(jī)器人

單個(gè)智體(機(jī)器人)要進(jìn)行優(yōu)化,以最快的路徑分揀快遞包裹。這個(gè)環(huán)境未必是最優(yōu)的,我們根據(jù)貨物的統(tǒng)計(jì)特性,設(shè)計(jì)我把發(fā)往南京的包裹通道放在北京旁邊還是放在上海旁邊。所以環(huán)境也需要很好的考量和設(shè)計(jì)。

  • 案例 8:迷宮

一個(gè)人工智體,需要以最快的效率找到出口。而環(huán)境知道其智能水平,根據(jù)情況來(lái)設(shè)計(jì)迷宮,使得智體有最困難或者最小的概率可以出去。這是一個(gè)競(jìng)爭(zhēng)的關(guān)系。

怎么優(yōu)化呢?你會(huì)發(fā)現(xiàn),該系統(tǒng)在兩個(gè)不同的維度進(jìn)行。在人工智體的情況下,它會(huì)說(shuō)給定一個(gè)環(huán)境,我想以最快的效率、最優(yōu)的策略走出來(lái)。當(dāng)你把這個(gè)人工智體學(xué)到的東西定住以后,就可以在另外一個(gè)維度優(yōu)化環(huán)境:現(xiàn)在這個(gè)智體是這樣的屬性,能不能據(jù)此使得環(huán)境更困難?這兩個(gè)維度互相競(jìng)爭(zhēng)、互相迭代,就可以達(dá)到優(yōu)化的情況。雷鋒網(wǎng)雷鋒網(wǎng)

相關(guān)文章:

第二屆 CCF-GAIR 開(kāi)幕!中國(guó) AI、機(jī)器人行業(yè)產(chǎn)學(xué)研跨界整合進(jìn)入新時(shí)期| CCF-GAIR 2017

AAAI主席Subbarao:機(jī)器的學(xué)習(xí)過(guò)程與人類不一樣 | CCF - GAIR2017

中科院院士譚鐵牛:模式識(shí)別研究的回顧與展望 | CCF-GAIR 2017

CMU教授金出武雄演講:戶外機(jī)器人系統(tǒng) | CCF-GAIR 2017

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

UCL 教授汪軍:多智能體強(qiáng)化學(xué)習(xí)的兩大挑戰(zhàn) | CCF-GAIR 2017

分享:
相關(guān)文章

用愛(ài)救世界
當(dāng)月熱門(mén)文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)