丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能學(xué)術(shù) 正文
發(fā)私信給我在思考中
發(fā)送

0

郝建業(yè):從囚徒困境到自動駕駛,蟄伏數(shù)十載的多智能體強化學(xué)習(xí),期待破繭成蝶

本文作者: 我在思考中 2021-08-19 17:41
導(dǎo)語:2019年郝建業(yè)的團隊獲得了第一屆DAI最佳論文獎,距離他那篇研究多智能體系統(tǒng)中的“囚徒困境”論文的發(fā)表時間,已經(jīng)整整過去了11年。
郝建業(yè):從囚徒困境到自動駕駛,蟄伏數(shù)十載的多智能體強化學(xué)習(xí),期待破繭成蝶

作者 | 青暮

編輯 | 王曄

2019年郝建業(yè)的團隊獲得了第一屆DAI最佳論文獎,距離他那篇研究多智能體系統(tǒng)中的“囚徒困境”論文的發(fā)表時間,已經(jīng)整整過去了11年。

郝建業(yè)也沒有想到,當(dāng)初那篇只是基于簡單博弈場景的研究成果,幾乎被遺忘。如今通過結(jié)合深度強化學(xué)習(xí),用于處理更復(fù)雜的場景,竟一下子成為了聚光燈下的寵兒,“仔細看DAI這篇文章里面的一些設(shè)計,其實都能在我以前的工作里找到原型。”

相對于以前的工作,這篇DAI 2019論文提出的模型,在參數(shù)空間上更加復(fù)雜,“盡管仍然是demo,但也是從理論走向?qū)嵺`的關(guān)鍵一步?!?/span>

在近期,AI科技評論與天津大學(xué)副教授、華為諾亞方舟實驗室科學(xué)家郝建業(yè)進行了交流,談了談他從讀博到科研工作期間的學(xué)術(shù)歷程,試圖理解他在十幾年內(nèi),從簡單的囚徒困境,跨越到復(fù)雜的囚徒困境,乃至自動駕駛等實際場景的研究和落地時,背后所付出的汗水,支撐他的信念,以及多智能體強化學(xué)習(xí)領(lǐng)域的時代剪影。


1

困于表格的囚徒

2009年7月,郝建業(yè)入學(xué)香港中文大學(xué)攻讀博士學(xué)位,拜師梁浩鋒,開啟了多智能體系統(tǒng)和強化學(xué)習(xí)的研究之路。在當(dāng)時,多智能體系統(tǒng)以及強化學(xué)習(xí)這兩個方向都還屬于冷門領(lǐng)域。

梁浩鋒教授是香港中文大學(xué)計算機科學(xué)與工程學(xué)系教授和社會學(xué)系教授,研究領(lǐng)域包括多智能體系統(tǒng)、博弈論分析、本體(知識圖譜)和大數(shù)據(jù)分析等。

郝建業(yè):從囚徒困境到自動駕駛,蟄伏數(shù)十載的多智能體強化學(xué)習(xí),期待破繭成蝶

在郝建業(yè)的印象中,當(dāng)時這兩個方向的研究對象也還很簡單,一般這些博弈問題都能以表格的形式表示。在深度強化學(xué)習(xí)概念還沒有形成的那個時期,學(xué)者們研究的場景都是相當(dāng)局限的,也就是基于表格的強化學(xué)習(xí)。

著名的囚徒困境就是一個典型的博弈場景,可以用下表來表示,在逼供場景下,囚徒有兩個選擇。

郝建業(yè):從囚徒困境到自動駕駛,蟄伏數(shù)十載的多智能體強化學(xué)習(xí),期待破繭成蝶

在囚徒困境問題中,囚徒不僅困于監(jiān)獄,亦困于僅有兩個選擇。但這些研究更多是在提出新的概念、范式、機制,偏向于理論,對于博弈論而言仍然具有很大的貢獻。

而彼時更受歡迎的是不包括深度學(xué)習(xí)的模式識別,數(shù)據(jù)挖掘等方向,但在梁教授的引導(dǎo)下,郝建業(yè)還是慢慢喜歡上了這兩個冷門方向。


2

長期主義

然而在剛?cè)雽W(xué)時,郝建業(yè)在數(shù)學(xué)和領(lǐng)域知識方面還是個“菜鳥”。

比如博弈論是多智能體系統(tǒng)中最關(guān)鍵的一套數(shù)學(xué)工具,為此,梁教授甚至專門為他開設(shè)了個人課堂。

看論文也是一門必修課,郝建業(yè)看遍了AAMAS近一兩年的幾乎所有相關(guān)論文,“泛讀的至少幾百篇,精讀的也有幾十篇?!卑凑债?dāng)年打印論文的習(xí)慣,這些論文大概得有半米的高度。AAMAS是多智能體領(lǐng)域最有影響力的會議,亦屬于機器人領(lǐng)域頂會。

堅持啃論文差不多一年時間以后,郝建業(yè)才初步對多智能體方向建立了系統(tǒng)的認知,以及了解自己到底對哪個topic感興趣。

“興趣應(yīng)該是做的過程中慢慢培養(yǎng)起來的。當(dāng)你對某樣?xùn)|西一無所知的時候,也很難引發(fā)興趣,而只是知道一個名詞而已。比如現(xiàn)在很多學(xué)生說對人工智能感興趣,但是你問對方‘什么是人工智能’,對方經(jīng)常都答不上來,這種其實不是真正的興趣,只是一時好奇?!?/span>在與梁教授的接觸中,郝建業(yè)才慢慢領(lǐng)悟到這個道理。

回溯至更早期時光,他恍然大悟。本科期間,他在香港理工大學(xué)張大鵬教授哈爾濱工業(yè)大學(xué)左旺孟教授指導(dǎo)下做研究時,“盡管對AI沒什么認知,但興趣就是在那個時候萌芽的?!?/span>

梁教授奉行“大方向把控,小方向自由”的培養(yǎng)風(fēng)格,因此會讓學(xué)生花費大量時間自己去找方向,同時實驗室的大方向都會聚焦在多智能體系統(tǒng)上。“這種培養(yǎng)方式,讓我養(yǎng)成了非常獨立的科研風(fēng)格?!?/span>

如果導(dǎo)師在方方面面都管的太細,容易造成學(xué)生被動,視野狹窄。“有了獨立的思考方式,和廣闊的研究視野和對方向脈絡(luò)的把握,就知道怎么規(guī)劃自己的未來方向,以及在做戰(zhàn)略轉(zhuǎn)型、跨界研究的時候,都能心中有數(shù)?!?/span>

這種自由又不同于放任的散養(yǎng)模式,在具體執(zhí)行層面,梁教授可謂細致入微,在郝建業(yè)寫的第一篇論文上,梁教授就加上了密密麻麻的紅色批注。


3

更加自由的囚徒

在博士期間,郝建業(yè)選擇了公平性和社會利益最優(yōu),作為多智能體系統(tǒng)領(lǐng)域下的研究方向。

在那時候,團隊以及相關(guān)領(lǐng)域的學(xué)者,都在研究怎么用強化學(xué)習(xí)等方法,在不同的博弈環(huán)境下快速學(xué)習(xí)到納什均衡。“納什均衡是博弈論里最核心的概念,甚至上世紀90年代的很多相關(guān)工作都沿著這個方向來做。”

在博弈論中,納什均衡是指在包含兩個或以上參與者的非合作博弈中,假設(shè)每個參與者都知道其他參與者的均衡策略的情況下,沒有參與者可以通過單方面改變自身策略使自身受益。

囚徒困境中兩個囚徒都選擇招供的策略,就是一個典型的納什均衡解。兩個囚徒無法與對方進行合作(或溝通),此時選擇招供就會比不招供收益更大。

那么,這類研究存在什么問題呢?很明顯,均衡解雖然穩(wěn)定,但不一定是最好的解。在囚徒困境中,雙方都不招供其實才是全局最優(yōu)解,而全局最優(yōu)解又存在不穩(wěn)定的問題。此外,公平性問題也是存在的,即在一個均衡點上,每一方的利益不一定對等。

因此,郝建業(yè)就在探索,怎么用強化學(xué)習(xí)的方法,讓智能體有意愿、有動力、有理性地去學(xué)習(xí)到社會全局最優(yōu)的、公平的解,以及研究是否存在新型的均衡解,即保留原始均衡穩(wěn)定性的特點,同時有具備公平性,社會最優(yōu)等屬性,也就是從“策略層面”而言的均衡 (strategy equilibrium)。

而當(dāng)初那些基于表格的toy example,在深度強化學(xué)習(xí)的助力下,得以應(yīng)對更加復(fù)雜的場景,智能體也得以產(chǎn)生更加多樣化和靈活的決策。“反過來說,如果我們細看現(xiàn)在的深度強化學(xué)習(xí)的代表工作,很多其實都是借鑒了上世紀90年代至2010年之前的工作,并擴展了深度學(xué)習(xí)方法?!?/span>然而目前大部分深度強化學(xué)習(xí)下的工作還沒有走到關(guān)注“策略均衡”的階段,還停留在類比于“基于表格強化學(xué)習(xí)的多智能體系統(tǒng)研究“相對早期的階段。

郝建業(yè)將“從簡單到復(fù)雜”的理念貫徹至今,并在2019年首屆國際分布式AI大會上,以復(fù)雜場景的囚徒困境研究獲得了DAI最佳論文獎。這一次,囚徒不再限于兩個選擇,而是無限個,雖然這也只讓其更自由了一點點。

郝建業(yè):從囚徒困境到自動駕駛,蟄伏數(shù)十載的多智能體強化學(xué)習(xí),期待破繭成蝶

經(jīng)典囚徒困境對囚徒的決策選擇做了很大限制,要么合作,要么背叛。但囚徒困境并不是憑空捏造的思維游戲,不只有《蝙蝠俠前傳2》中的小丑會玩。

在現(xiàn)實世界,也存在因為無法完全信任或推測對方心理,導(dǎo)致選擇相信就可能遭遇損失的情況??梢哉f,存在競爭和信任危機時都容易引發(fā)囚徒困境,比如戰(zhàn)爭,乃至任何形式的合作關(guān)系。畢竟,合作意味著妥協(xié),意味著出讓部分利益,這就讓背叛者有機可乘。在論文中,郝建業(yè)等人將這種背叛行為稱之為“剝削”。

因此,在這項工作中,郝建業(yè)等人應(yīng)用深度強化學(xué)習(xí),探索了在復(fù)雜場景下,能抵抗對手剝削,同時又能適當(dāng)合作的智能體策略。這其中的關(guān)鍵點,就在于推測對手心理。

他們提出了一個合作度檢測網(wǎng)絡(luò),它相當(dāng)于一個心理模型。給定對方的一系列動作,來預(yù)測對方的合作程度。該網(wǎng)絡(luò)結(jié)合了LSTM自編碼器,可以保證對觀察到的動作進行有效的特征提取,加快心理模型的訓(xùn)練速度,提高魯棒性。

郝建業(yè):從囚徒困境到自動駕駛,蟄伏數(shù)十載的多智能體強化學(xué)習(xí),期待破繭成蝶

合作度檢測網(wǎng)絡(luò)

比如在 Apple-Pear 游戲中,有一個紅蘋果和一個綠梨。藍色智能體喜歡蘋果,而紅色智能體喜歡梨。每個智能體有四個動作:上、下、左、右,每走一步都會產(chǎn)生 0.01 的成本。當(dāng)智能體走到水果對應(yīng)方格時,就能收集到水果。

郝建業(yè):從囚徒困境到自動駕駛,蟄伏數(shù)十載的多智能體強化學(xué)習(xí),期待破繭成蝶

當(dāng)藍色(紅色)智能體單獨收集一個蘋果(梨)時,它會獲得更高的獎勵 1。當(dāng)智能體收集到不喜歡的水果時,則只能獲得更低的獎勵 0.5。但是,當(dāng)它們分享一個梨或一個蘋果時,它們都會獲得相應(yīng)獎勵的一半。

以合作度為度量,智能體可以產(chǎn)生更加多樣化的決策。實驗結(jié)果也不意外地顯示,這兩個智能體合作程度越高,總體獎勵越高。

郝建業(yè):從囚徒困境到自動駕駛,蟄伏數(shù)十載的多智能體強化學(xué)習(xí),期待破繭成蝶

郝建業(yè)將這種博弈場景稱之為序列囚徒困境(SPD),它更加接近于現(xiàn)實世界中的博弈過程,即結(jié)合觀察來隨時調(diào)整策略。

訓(xùn)練方面,該方法包括兩個階段:離線和在線階段。離線階段生成不同合作度的策略并訓(xùn)練合作度檢測網(wǎng)絡(luò)。在線階段則根據(jù)檢測到的對手的合作程度,從連續(xù)的候選范圍中自適應(yīng)地選擇具有適當(dāng)合作程度的策略。

直觀地說,該算法是面向合作的,并且對對手的自私、剝削行為也有防御能力

郝建業(yè):從囚徒困境到自動駕駛,蟄伏數(shù)十載的多智能體強化學(xué)習(xí),期待破繭成蝶

論文地址:http://ala2018.it.nuigalway.ie/papers/ALA_2018_paper_18.pdf

科研更像是在撒播種子,學(xué)者們依靠期望和想象去支撐意志力,從而堅持不懈地耕耘。這一過程存在太大的不確定性,但每次或隔一個月、或隔十年回到原野時,都期盼能看到令人出乎意料的景觀。

郝建業(yè)坦言,“盡管最初只是非常簡單的模型,但時間的力量以及外部環(huán)境的助推,可以令其茁壯成長,并最終在現(xiàn)實中變成讓我們驚嘆的樣子?!?/span>

他沒有僅僅滿足于增加問題復(fù)雜度,而是進一步將目光聚焦到了更貼近現(xiàn)實的層面——研究自動駕駛場景的多智能體系統(tǒng)。


4

邁向自動駕駛

在華為諾亞方舟實驗室,他和團隊與上海交通大學(xué)、倫敦大學(xué)學(xué)院合作開發(fā)了一個自動駕駛模擬仿真平臺——SMARTS。

郝建業(yè):從囚徒困境到自動駕駛,蟄伏數(shù)十載的多智能體強化學(xué)習(xí),期待破繭成蝶


SMARTS針對的是仿真平臺的兩個限制性問題,一個是環(huán)境單一,比如大部分仿真平臺都只設(shè)置了晴天的天氣;另一個則是缺少與其它智能體的互動場景,比如下圖中的“雙重合并”。

郝建業(yè):從囚徒困境到自動駕駛,蟄伏數(shù)十載的多智能體強化學(xué)習(xí),期待破繭成蝶

可以說,多樣的互動場景是SMARTS的一大特色。

郝建業(yè):從囚徒困境到自動駕駛,蟄伏數(shù)十載的多智能體強化學(xué)習(xí),期待破繭成蝶

SMARTS的相關(guān)論文“SMARTS: Scalable Multi-Agent Reinforcement Learning Training School for Autonomous Driving”發(fā)表在機器人頂會之一CoRL 2020上,并斬獲最佳系統(tǒng)論文獎。

郝建業(yè):從囚徒困境到自動駕駛,蟄伏數(shù)十載的多智能體強化學(xué)習(xí),期待破繭成蝶

論文地址:https://arxiv.org/pdf/2010.09776.pdf

缺乏互動場景研究會導(dǎo)致一個問題,即自動駕駛汽車在遭遇復(fù)雜場景時,通常選擇更加保守的策略,比如放慢速度,而不是主動尋找另一條出路。即便是采用了保守的方案,也不見得安全。

在 2018 年的加利福尼亞州,57% 的自動駕駛汽車事故是追尾事故,29% 是側(cè)滑事故。所有這些都是其他汽車造成的,因此可以歸因于自動駕駛汽車的保守性。

類比于自動駕駛汽車的L0-L5級別,郝建業(yè)等人在這項研究中提出了“多智能體學(xué)習(xí)級別”,或簡稱“M級別”。

其中,M0級別的智能體為完全遵守規(guī)則的保守派;M1級別的智能體可以在線學(xué)習(xí),以增加應(yīng)對未知情況的能力;M2級別的智能體要學(xué)會建模其他智能體,但還沒有直接的信息交換;M3級別的智能體在訓(xùn)練期間會進行信息交換,在部署時則不需要;M4級別的智能體需要學(xué)會應(yīng)對局域交互場景,比如十字路口會車,找到符合納什均衡或其他均衡的策略;M5級別的智能體則需要在滿足全局最優(yōu)的前提下,去學(xué)習(xí)局域決策。

郝建業(yè)等人認為,迄今為止,自動駕駛研究主要集中在 M0,對 M1 和 M2 的嘗試非常有限,而一個關(guān)鍵原因是缺乏對道路上的異構(gòu)智能體之間交互的合適模擬??磥磉@個標準相比“L級別”要更加嚴苛。

在第二屆DAI(DAI 2020)上,華為諾亞基于該平臺舉辦了自動駕駛挑戰(zhàn)賽,郝建業(yè)回憶道,“比賽中,選手們沒有局限于強化學(xué)習(xí),提出了多種不同的解決方案,這是一個很好的現(xiàn)象?!?/span>

他進一步說道,“SMARTS有兩方面的價值,一方面是它作為平臺,可以讓所有做相關(guān)研究的人針對自動駕駛的不同場景做相關(guān)算法的研究。另一方面,我們希望通過這個平臺,生成多樣化的真實社會模型,從而讓自動駕駛算法在現(xiàn)實落地中安全、有效。”

17世紀,當(dāng)伽利略觀察金屬球在光滑的斜面上滾過時,不會想到這背后的物理學(xué)支撐著如今在天空中飛馳的蜻蜓狀龐然巨物。

多智能體強化學(xué)習(xí)從最初的表格學(xué)習(xí),進化到今天的自動駕駛模擬,亦宛如完成了《2001太空漫游》中的史詩級蒙太奇一般。

郝建業(yè):從囚徒困境到自動駕駛,蟄伏數(shù)十載的多智能體強化學(xué)習(xí),期待破繭成蝶

相信時間之力量的信念,或許有一部分來自郝建業(yè)在MIT期間受到的潛移默化的影響。


5

MIT往事

2013年,郝建業(yè)博士畢業(yè)于香港中文大學(xué),畢業(yè)后遠走美國,在MIT CSAIL做博士后研究。

“CSAIL給我的整體感覺是,學(xué)術(shù)氛圍非常濃厚。他們有最頂尖的人才,學(xué)生、老師之間交流起來沒有隔閡,沒有輩分顧慮,非常舒服,學(xué)術(shù)合作的效率也非常高?!?/span>

這種濃厚可以用“聽不完的講座,參加不完的學(xué)術(shù)競賽和研討會”來形容,也可以借鑒一句名言來體會。MIT第十三任校長、計算機科學(xué)與工程系教授Jerome Weisner曾經(jīng)說過“Getting an education from MIT is like taking a drinkfrom a fire hose.”這句話是說,在麻省理工學(xué)院讀書就像是從消防栓里喝水,“想想消防栓的水量,那是根本喝不完的。”

郝建業(yè)提到了一個有趣的細節(jié)。MIT CSAIL的學(xué)術(shù)大牛非常多,隨隨便便就能遇到,可能是你在食堂吃飯的時候,也可能是你在運動場上散步的時候,“我有一次在電梯里遇到了一位老學(xué)者Silvio Micali,其貌不揚,當(dāng)時沒注意,結(jié)果上課的時候才發(fā)現(xiàn),那是我們的授課老師,而且拿了當(dāng)年的圖靈獎?!?/span>

郝建業(yè):從囚徒困境到自動駕駛,蟄伏數(shù)十載的多智能體強化學(xué)習(xí),期待破繭成蝶

Silvio Micali

“不僅是學(xué)校和老師,MIT整體的學(xué)術(shù)氛圍也造就了實驗室博士生非常務(wù)實的研究風(fēng)格,希望博士期間作出有影響力的工作,而不是盲目于發(fā)論文。如果沒有做出自己滿意的成果,很多學(xué)生會主動要求延畢,7年畢業(yè)對于他們而言是很正常的。”

郝建業(yè):從囚徒困境到自動駕駛,蟄伏數(shù)十載的多智能體強化學(xué)習(xí),期待破繭成蝶

如果一個MIT博士生畢業(yè)時的學(xué)術(shù)成果不行,就會被評價學(xué)術(shù)潛力一般,這對以后的發(fā)展會有很大影響?!耙虼耍麄兦樵秆悠谝坏絻赡?,拿出有代表性的成果,再去找教職,或進入市場競爭。”

所謂的代表性成果,不是看論文數(shù)量,而是看工作的價值,“價值是要往長遠去看的,不管是學(xué)術(shù)層面的奠基性作用,還是應(yīng)用層面的普惠意義?!?/span>

在博士后期間,團隊研究課題聚焦在基于AI+形式化的方法來實現(xiàn)CPS系統(tǒng)安全,團隊大部分成員包括郝建業(yè)的導(dǎo)師、MIT計算機科學(xué)系教授Daniel Jackson,主要專注的領(lǐng)域是形式化驗證。


6

形式化的強化學(xué)習(xí)

形式化驗證即是用數(shù)學(xué)方法驗證系統(tǒng)是否存在bug,比如在CPU設(shè)計中用計算機模擬驗證是否存在潛在問題。因此,形式化驗證也可以叫軟件模擬,重點在于預(yù)防錯誤發(fā)生

在這里,郝建業(yè)探索了另一條研究道路——學(xué)科交叉。其實,在博士期間,他就在廣泛地做多學(xué)科閱讀,比如微觀經(jīng)濟學(xué)、行為科學(xué)等等,“多智能體系統(tǒng)是一個交叉學(xué)科,不會局限于計算機科學(xué)?!?/span>

甚至在本科大三實習(xí)期間,郝建業(yè)第一次接觸科研,也就是走進香港理工大學(xué)張大鵬教授的實驗室時,做的也不是多智能體系統(tǒng)研究,而是生物信息學(xué)方面的工作,這也是他在哈工大王寬全教授指導(dǎo)下研究的方向。當(dāng)時他做的課題是基于傳統(tǒng)機器學(xué)習(xí)的舌頭病變檢測,除了數(shù)據(jù)準備,也要做特征提取。在郝建業(yè)的思維里,“AI不只有端到端,不只有深度學(xué)習(xí)”的思想,從那時候就埋下了種子。

Daniel Jackson的指導(dǎo)下,郝建業(yè)探索了將多智能體系統(tǒng)和形式化驗證結(jié)合的方向,并卓有成效。

以智能交通為例,郝建業(yè)研究了如何在所有行人、車輛等智能體都遵循相同交通規(guī)則的前提下,保證行人、車輛之間都不會相撞,并找到滿足條件的最少規(guī)則。這里,相撞即是形式化驗證中要尋找的bug。

例如,為避免碰撞,兩列自主列車在同一條隧道中行駛,可以執(zhí)行“如果在隧道內(nèi)觀察到另一列列車,則不應(yīng)允許移動動作”的規(guī)則。也就是說,這項工作嘗試讓AI自動設(shè)計最適合的交通規(guī)則,并能夠自動化驗證該套規(guī)則是否安全可靠。

在形式化規(guī)則約束下,對于交通系統(tǒng)中的每輛車而言,它們都只知道在當(dāng)前局部場景下應(yīng)該遵守的規(guī)則,和可選的決策,而不知道遠處其它智能體的情況,但最終整個交通系統(tǒng)的效率能達到全局最優(yōu)。研究結(jié)果也顯示,AI找到的規(guī)則和手動設(shè)計的規(guī)則效果相當(dāng)。

而反觀現(xiàn)實中常見的堵車問題,郝建業(yè)指出,“這本質(zhì)上其實是缺乏規(guī)則共識。”每個人心中對于規(guī)則的認可程度都不一樣,導(dǎo)致單一的形式化系統(tǒng)的預(yù)測在現(xiàn)實中根本匹配不上。人與自動駕駛汽車之間也存在類似關(guān)系,“有一個說法是,只有真人駕駛汽車的道路,與只有自動駕駛汽車的道路,在通暢度上也會更好。”

郝建業(yè):從囚徒困境到自動駕駛,蟄伏數(shù)十載的多智能體強化學(xué)習(xí),期待破繭成蝶

”多閱讀交叉學(xué)科的文章,對以后的工作會有長期的啟發(fā)性影響?!?/span>郝建業(yè)在博士期間受到的提點,終于在這一刻有了真實的感悟。

在華為,郝建業(yè)也進一步將相關(guān)技術(shù)應(yīng)用到了自動駕駛技術(shù)的研發(fā)上,“由于可以保證車輛之間不碰撞,形式化系統(tǒng)的結(jié)合對于自動駕駛的安全性非常重要?!?/span>

郝建業(yè)認為,“仿真技術(shù)形式化驗證是兩條差別比較大的路線,可以說是兩個極端。其中基于深度強化學(xué)習(xí)的仿真技術(shù)笨一點,一般通過遍歷所有可能場景來尋找可行的方案,而形式化驗證則精一點,可以從理論上直接保證結(jié)果是可靠的,“但它們都是值得探索的方向,是互補的?!?/span>

在論文中,郝建業(yè)研究的也是相對簡單的場景。而如今,這項技術(shù)對于智能電網(wǎng)乃至智慧城市的開發(fā)都已具有非常重要的啟發(fā)意義。

郝建業(yè):從囚徒困境到自動駕駛,蟄伏數(shù)十載的多智能體強化學(xué)習(xí),期待破繭成蝶

論文地址:https://groups.csail.mit.edu/sdg/pubs/2016/norms-fse16.pdf

多學(xué)科交叉的有效性或許也可以從歷史中尋找淵源。博弈論最早起源于經(jīng)濟學(xué),但它的創(chuàng)始人,實際上是計算機之父馮·諾依曼,博弈論與計算機科學(xué)之間或許早就暗藏千絲萬縷的聯(lián)系,如今終于在AI時代被放大。

計算機科學(xué)在艾倫·圖靈提出圖靈機概念后,早就有了統(tǒng)治科學(xué)世界的野心。哪怕十分簡陋,如今做科研誰能離開計算機呢?深度學(xué)習(xí)正好在人們困惑、嘲笑計算機只能處理代碼,不能理解感官世界的豐富時,提供了一個連接橋梁。似乎在神經(jīng)網(wǎng)絡(luò)中,萬物都能被統(tǒng)一為無數(shù)的電脈沖,不同學(xué)科之間的隔閡亦不再厚重和神秘。


7

進化的強化學(xué)習(xí)

游戲是一個龐大的虛擬世界,疫情的到來更是將無數(shù)被困現(xiàn)實的新玩家涌入,讓這個虛擬世界急速擴張,而里面24小時活躍著的玩家、NPC都是多智能體系統(tǒng)天然的研究對象。

在與網(wǎng)易伏羲人工智能實驗室、南洋理工大學(xué)等合作完成的論文“Wuji: Automatic Online Combat Game Testing Using Evolutionary Deep Reinforcement Learning”中,郝建業(yè)等人延續(xù)多學(xué)科交叉道路,研究了如何將演化學(xué)習(xí)與強化學(xué)習(xí)結(jié)合起來,提出了動態(tài)游戲測試框架Wuji,從而將游戲測試自動化,并提高效率。

郝建業(yè):從囚徒困境到自動駕駛,蟄伏數(shù)十載的多智能體強化學(xué)習(xí),期待破繭成蝶

論文地址:https://nos.netease.com/mg-file/mg/neteasegamecampus/art_works/20200812/202008122020238586.pdf

測試游戲潛在bug的一個難點,就是觸發(fā),“有些bug可能非常隱蔽,大部分玩家都不會觸發(fā),比如它可能在某個難度很高的關(guān)卡中,而一旦觸發(fā)就會帶來非常不好的體驗。”

而現(xiàn)有深度強化學(xué)習(xí)主要聚焦于贏得勝利,獲取高分,因此在開發(fā)探索能力上受限于目標,也就是獎勵函數(shù)的設(shè)置。

例如,下圖展示了一個簡單的迷宮游戲,其中機器人需要尋找左上角的黃金。如果機器人到達圖中標記的綠點、黃點或紅點,就會觸發(fā)錯誤。機器人可以輕松到達黃點,因為它們靠近初始位置。然而,綠點和紅點更難到達,因為需要找到更精準的路徑,或者距離目標太遠。

郝建業(yè):從囚徒困境到自動駕駛,蟄伏數(shù)十載的多智能體強化學(xué)習(xí),期待破繭成蝶

強化學(xué)習(xí)算法的兩大階段是探索(exploration)和利用(exploitation),演化算法相當(dāng)于提升了強化學(xué)習(xí)算法的探索能力,從而得以遍歷不同的策略,觸及角落中隱藏的bug。這樣的策略,其實也相當(dāng)于一種游戲測試腳本,腳本指導(dǎo)智能體去玩游戲,遍歷各種場景和各種互動。

為了實現(xiàn)目標,Wuji不僅考慮完成任務(wù),還考慮尋找不同的方向,這兩種策略相輔相成。比如在迷宮游戲中,完成任務(wù)的策略有助于達到一般隨機策略難以覆蓋的綠點,探索的策略則有助于觸及可能不在游戲主線中的紅點。

當(dāng)時這項成果稱得上是業(yè)界第一個利用機器學(xué)習(xí)方法進行游戲測試的工具,幫助游戲測試人員發(fā)現(xiàn)了大量多人在線游戲中之前未知的bug。相關(guān)論文也在軟件工程頂級會議ASE 2019中獲得了ACM SIGSOFT 杰出論文獎。

郝建業(yè):從囚徒困境到自動駕駛,蟄伏數(shù)十載的多智能體強化學(xué)習(xí),期待破繭成蝶

郝建業(yè):從囚徒困境到自動駕駛,蟄伏數(shù)十載的多智能體強化學(xué)習(xí),期待破繭成蝶

部分測試場景示例


8

智能體的存在性

多智能體系統(tǒng)研究是一個非常復(fù)雜的全局優(yōu)化問題,它不像圖像識別、語音生成、文本生成,通常只有固定的少量輸入、輸出端口,而是有多少智能體,就得有多少的輸入、輸出。

系統(tǒng)除了要滿足全局優(yōu)化目標,即社會利益最優(yōu),還需要考慮每個智能體的利益問題,這就涉及到了公平性,也因此郝建業(yè)格外注重這兩個方面。甚至要考慮存在性問題,把多智能體系統(tǒng)類比為神經(jīng)網(wǎng)絡(luò),一個智能體在某些場景下是不能像一個神經(jīng)元那樣被輕易dropout的。映射到真實世界的人類社會,在滿足社會、企業(yè)利益目標的時候,一個普通人也不該被輕易地剝削或犧牲。

事實上,這一點在斯坦福大學(xué)計算機科學(xué)名譽教授Yoav Shoham于2006年發(fā)表的一篇論文中就有提到,即多智能體學(xué)習(xí)研究的其中一個重要目標——解釋現(xiàn)實世界,Yoav Shoham稱之為描述性范式。

郝建業(yè):從囚徒困境到自動駕駛,蟄伏數(shù)十載的多智能體強化學(xué)習(xí),期待破繭成蝶

當(dāng)時多智能體系統(tǒng)已經(jīng)受到了學(xué)界廣泛關(guān)注和研究,但圈子內(nèi)的學(xué)者也都在困惑,這些研究的意義是什么?
針對此現(xiàn)象,Yoav Shoham在這篇論文中提出了驚世之問:“If multi-agent learning is the answer, what is the question?”
他通過總結(jié)當(dāng)時的領(lǐng)域研究工作,提出了多智能體學(xué)習(xí)的5大目標:1. 計算性 2. 描述性 3. 規(guī)范性 4. 規(guī)定性,合作性 5. 規(guī)定性,非合作性。
這篇論文在當(dāng)時領(lǐng)域內(nèi)引發(fā)了很大反響,并對往后多智能體系統(tǒng)的研究產(chǎn)生了重要的指導(dǎo)作用。
郝建業(yè):從囚徒困境到自動駕駛,蟄伏數(shù)十載的多智能體強化學(xué)習(xí),期待破繭成蝶
論文地址:http://robotics.stanford.edu/users/shoham/www%20papers/LearningInMAS.pdf
在考慮每個智能體存在性的前提下,郝建業(yè)還談?wù)摿?/span>多智能體的通訊問題,并指深度強化學(xué)習(xí)和表征學(xué)習(xí),將是多智能體系統(tǒng)未來的重要方向。
類比于多模態(tài)學(xué)習(xí)中以向量空間作為共同表征空間,郝建業(yè)也認為智能體之間應(yīng)該形成共同語言。
智能體不僅需要為自己建模,為對環(huán)境的觀察建模,還需要為其它智能體建模,為其它智能體對環(huán)境的觀察建模,形成心理模型。通過頻繁通訊,對于某一事件,讓每個智能體學(xué)習(xí)到在所有智能體中都不變的表示,這個智能體也就有了共同語言,“這種表征不受觀察方式的限制,每個智能體都能理解?!?/span>
這是郝建業(yè)在華為諾亞天津大學(xué)的團隊都在重點關(guān)注的方向,“我取名叫自監(jiān)督強化學(xué)習(xí),也可以叫強化學(xué)習(xí)的表征學(xué)習(xí)?!?/span>
這種表征不僅具有還原性的特點,”比如在一個房間里有不同位置的攝像頭,我們分別用不同的攝像頭都能還原出房間的原本樣貌,即原始信息?!斑€具有功能性的特點,在原始信息的基礎(chǔ)上,我們還需要知道,在某個目標限制下,哪些方面才是最重要的,”這可以叫功能性注意力,比如我需要喝水的時候,不會管是杯子還是瓶子裝的水,我需要的是能盛住水的容器。“基于功能性注意力的決策,有助于提高泛化性。

9

時間的力量
回望十余年來的學(xué)術(shù)生涯,正是因為相信時間的力量,理解了多智能體系統(tǒng)的交叉學(xué)科本質(zhì),才讓郝建業(yè)不受限于象牙塔,逐漸走出小圈子,讓自己那片小小的原野變得廣袤,并看著當(dāng)初撒下的一粒粒種子生根發(fā)芽,終成參天大樹。
在華為諾亞方舟實驗室,郝建業(yè)繼續(xù)踐行著這個理念。他告訴我們,如今由他擔(dān)任負責(zé)人的決策與推理實驗室有5個研究方向的規(guī)劃:
首先是多智能體系統(tǒng),涉及了多智能體協(xié)作、聯(lián)邦學(xué)習(xí)、合作式與非合作式博弈等方面;第二是學(xué)習(xí)優(yōu)化,涉及了白盒優(yōu)化、黑盒優(yōu)化等方面;第三是知識表征與推理,涉及了表征學(xué)習(xí)與因果發(fā)現(xiàn)等方面;第四是安全控制,涉及數(shù)據(jù)中心安全等方面;最后是建模仿真,涉及基于AI的各種復(fù)雜數(shù)學(xué)模型求解等方面。
“我們內(nèi)部圍繞這5大方向都在開展基礎(chǔ)研究,并用于解決很多實際業(yè)務(wù)問題。比如多智能體系統(tǒng)研究可用于5G網(wǎng)絡(luò)參數(shù)優(yōu)化,學(xué)習(xí)優(yōu)化研究可用于各種復(fù)雜的白盒和黑盒控制決策優(yōu)化場景,如自動駕駛、無線優(yōu)化、芯片設(shè)計、物流優(yōu)化等,知識表征與推理研究可用于故障的根因定位和診斷修復(fù)等,安全控制研究可用于數(shù)據(jù)中心控制,自動駕駛等重要場景,建模仿真研究可用于自動駕駛仿真、無線、芯片設(shè)計等,”郝建業(yè)說道,“諾亞作為一個企業(yè)的研究院,在基礎(chǔ)研究和工程落地方面結(jié)合的非常好,每個研究員在這里結(jié)合自身優(yōu)勢特長,在研究和落地之間找到適合自己的平衡點。”
在新一代AI學(xué)子培養(yǎng)上,郝建業(yè)依然秉承恩師梁浩鋒執(zhí)著于細節(jié)的信念,強調(diào)養(yǎng)成科研好習(xí)慣的重要性,“科研習(xí)慣和興趣都很重要。第一個是有動力,第二個是要有好的做科研的方式,包括思維方式,包括系統(tǒng)的從發(fā)現(xiàn)問題到分析問題到解決問題的一套方法論。”
2015年入職天津大學(xué)至今,郝建業(yè)領(lǐng)導(dǎo)著深度強化學(xué)習(xí)實驗室,亦不忘“大方向把控,小方向自由”,“我們實驗室的研究方向比較聚焦,每個人做的課題有所差異,但都圍繞著單智能體、多智能體系統(tǒng),以及深度強化學(xué)習(xí)?!?/span>
基礎(chǔ)當(dāng)然也不能忽視。在多智能體系統(tǒng)方面,郝建業(yè)會要求學(xué)生讀Yoav ShohamKevin Leyton-Brown編寫的《Multiagent Systems:Algorithmic,Game-Theoretic, and Logical Foundations》在強化學(xué)習(xí)方面,他會要求學(xué)生讀Richard Sutton的《Reinforcement Learning》,并輔以David Silver的同名視頻課程的課件。
同時,他也不忘提醒學(xué)生堅持長期主義,“要做有價值的課題,而不是去跟風(fēng)寫大家都在搶著發(fā)的論文。”
“還要避免閉門造車”,他經(jīng)常跟學(xué)生說,“養(yǎng)成獨立思考習(xí)慣很重要,但也要多跟導(dǎo)師交流,要有勇氣走出實驗室,從實際問題出發(fā)提煉有價值的抽象問題?!?/span>
郝建業(yè):從囚徒困境到自動駕駛,蟄伏數(shù)十載的多智能體強化學(xué)習(xí),期待破繭成蝶
最后,對強化學(xué)習(xí)和多智能體系統(tǒng)方向感興趣的同學(xué),歡迎聯(lián)系報考,也歡迎從事相關(guān)研究(不局限于強化學(xué)習(xí))的同學(xué)來諾亞方舟實驗室實習(xí):jianye.hao@tju.edu.cn
雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)


雷峰網(wǎng)特約稿件,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

郝建業(yè):從囚徒困境到自動駕駛,蟄伏數(shù)十載的多智能體強化學(xué)習(xí),期待破繭成蝶

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說