論文精選 | AI學習也要先定個小目標，讓人工智能具有社會意識——《具有社會意識的多智能體學習：面向社會最優(yōu)解》

本文作者： no name

2016-09-01 17:43

導語：多智能體系統(tǒng)是由多個具有計算和移動能力的智能體所組成的集合，其中每個智能體是一個物理的或抽象的實體，能作用于自身和環(huán)境，并與其它智能體通訊。

應用場景導讀：多智能體系統(tǒng)，例如移動傳感器、無人運載器等，作為分布式人工智能研究的一個重要分支，由于其具有較強的容錯性、魯棒性和可擴展性等優(yōu)點，被廣泛地應用于軍事、工農(nóng)業(yè)生產(chǎn)、醫(yī)學、交通、服務等各個領域。多智能體系統(tǒng)是由多個具有計算和移動能力的智能體所組成的集合，其中每個智能體是一個物理的或抽象的實體，能作用于自身和環(huán)境，并與其它智能體通訊。

標題：

具有社會意識的多智能體學習：面向社會最優(yōu)解

摘要：

在多智能體系統(tǒng)中，學習能力對每個智能體來說至關重要，這關乎其在動態(tài)環(huán)境中面對未知對手時如何正常反應。從系統(tǒng)設計者的角度說，非常希望智能體能學會面向社會最優(yōu)解的協(xié)作，同時避免被自私的對手利用。為此，我們提出一種新穎的梯度提升算法(SA-IGA)，通過將社會意識納入策略更新過程來加強基本的梯度提升算法。我們從理論上分析了基于動態(tài)系統(tǒng)理論的SA-IGA的學習動態(tài)，并且SA-IGA在包括對稱游戲的眾多游戲中都有線性動態(tài)。對兩個代表游戲(“囚徒困境”游戲和協(xié)調游戲)的學習動態(tài)進行了詳細分析。在SA-IGA概念的基礎上，我們進一步提出一個基于Q學習更新規(guī)則的多智能體學習算法，稱為SA-PGA。仿真結果表明，SA-PGA智能體相比以前面向有條件聯(lián)合行動學習者(CJAL)的社會最優(yōu)準則，可以獲得更高的社會福利，并通過納什均衡解決方案對獨立理性對手具有可抗性。

第一作者簡介：

李曉紅，女，1965年9月出生，工學博士學位，天津大學計算機及信息技術系、教授，博士生導師。計算機學會高級會員，ACM會員、軟件工程專委會委員；全國高等學校計算機教育研究會常務理事；天津大學女工委員，學院工會副主席。近年來致力于安全軟件工程、可信軟件及信息安全領域的研究工作。

計算機學會高級會員，ACM會員、軟件工程專委會委員；全國高等學校計算機教育研究會常務理事；國家科技獎勵評審專家；教育部學位與研究生教育發(fā)展中心學位論文評審、學科建設和評估咨詢專家；《計算機學報》、《計算機科學》等雜志審稿專家；軟件工程、信息安全相關領域國際期刊、國際會議審稿專家；計算機學院學位委員會委員、學術委員會委員、學科建設委員會成員、教學指導委員會委員兼秘書；學院985專家組成員兼秘書；天津大學女工委員，學院工會副主席。

近年來主持或參與完成國家級、省部級以及橫向科研課題近20項，近年來已發(fā)表學術論文50余篇，其中學位與研究生教育重要期刊20多篇，國際會議20多篇，被EI檢索20多篇, SCI檢索6篇。申報國家發(fā)明專利20余項，已授權6項。軟件著作權4項。專著1部，獲省部級科技獎1項?，F(xiàn)作為項目負責人主持國家基金重點項目1項（子課題負責人）、國家基金面上項目1項，天津市基礎重點項目1項、企業(yè)合作項目1項。

via PRICAI 2016

論文原文件下載

雷鋒網(wǎng)按: 本文由雷鋒網(wǎng)獨家編譯，未經(jīng)許可禁止轉載！

論文精選 | AI學習也要先定個小目標，讓人工智能具有社會意識——《具有社會意識的多智能體學習：面向社會最優(yōu)解》