1
本文作者: no name | 2016-09-01 17:43 |
應用場景導讀:多智能體系統(tǒng),例如移動傳感器、無人運載器等,作為分布式人工智能研究的一個重要分支,由于其具有較強的容錯性、魯棒性和可擴展性等優(yōu)點,被廣泛地應用于軍事、工農(nóng)業(yè)生產(chǎn)、醫(yī)學、交通、服務等各個領域。多智能體系統(tǒng)是由多個具有計算和移動能力的智能體所組成的集合,其中每個智能體是一個物理的或抽象的實體,能作用于自身和環(huán)境,并與其它智能體通訊。
標題:
具有社會意識的多智能體學習:面向社會最優(yōu)解
摘要:
在多智能體系統(tǒng)中,學習能力對每個智能體來說至關重要,這關乎其在動態(tài)環(huán)境中面對未知對手時如何正常反應。從系統(tǒng)設計者的角度說,非常希望智能體能學會面向社會最優(yōu)解的協(xié)作,同時避免被自私的對手利用。為此,我們提出一種新穎的梯度提升算法(SA-IGA),通過將社會意識納入策略更新過程來加強基本的梯度提升算法。我們從理論上分析了基于動態(tài)系統(tǒng)理論的SA-IGA的學習動態(tài),并且SA-IGA在包括對稱游戲的眾多游戲中都有線性動態(tài)。對兩個代表游戲(“囚徒困境”游戲和協(xié)調游戲)的學習動態(tài)進行了詳細分析。在SA-IGA概念的基礎上,我們進一步提出一個基于Q學習更新規(guī)則的多智能體學習算法,稱為SA-PGA。仿真結果表明,SA-PGA智能體相比以前面向有條件聯(lián)合行動學習者(CJAL)的社會最優(yōu)準則,可以獲得更高的社會福利,并通過納什均衡解決方案對獨立理性對手具有可抗性。
第一作者簡介:
李曉紅,女,1965年9月出生,工學博士學位,天津大學計算機及信息技術系、教授,博士生導師。計算機學會高級會員,ACM會員、軟件工程專委會委員;全國高等學校計算機教育研究會 常務理事;天津大學女工委員,學院工會副主席。近年來致力于安全軟件工程、可信軟件及信息安全領域的研究工作。
計算機學會高級會員,ACM會員、軟件工程專委會委員;全國高等學校計算機教育研究會 常務理事;國家科技獎勵評審專家;教育部學位與研究生教育發(fā)展中心學位論文評審、學科建設和評估咨詢專家 ;《計算機學報》、《計算機科學》等雜志審稿專家;軟件工程、信息安全相關領域國際期刊、國際會議審稿專家;計算機學院學位委員會委員、學術委員會委員、學科建設委員會成員、教學指導委員會委員兼秘書;學院985專家組成員兼秘書;天津大學女工委員,學院工會副主席。
近年來主持或參與完成國家級、省部級以及橫向科研課題近20項,近年來已發(fā)表學術論文50余篇,其中學位與研究生教育重要期刊20多篇,國際會議20多篇,被EI檢索20多篇, SCI檢索6篇。申報國家發(fā)明專利20余項,已授權6項。軟件著作權4項。專著1部,獲省部級科技獎1項?,F(xiàn)作為項目負責人主持國家基金重點項目1項(子課題負責人)、國家基金面上項目1項,天津市基礎重點項目1項、企業(yè)合作項目1項。
via PRICAI 2016
雷鋒網(wǎng)按: 本文由雷鋒網(wǎng)獨家編譯,未經(jīng)許可禁止轉載!
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉載。詳情見轉載須知。