OpenAI新研究成果：如何讓AI智能體學(xué)會合作、競爭與交流？

本文作者：隔壁王大喵

編輯：郭奕欣

2017-06-10 11:33

導(dǎo)語：在多智能體環(huán)境中，智能體之間對資源的惡性競爭現(xiàn)象無疑是通往通用人工智能路上的一塊絆腳石。想知道OpenAI又做出了怎樣的貢獻(xiàn)嗎？快來看看吧

雷鋒網(wǎng)AI科技評論按：在多智能體環(huán)境（Multiagent environments）中，智能體之間對資源的惡性競爭現(xiàn)象無疑是通往通用人工智能（Artificial general intelligence, AGI）路上的一塊絆腳石。多智能體環(huán)境具有兩大實用的特性：首先，它提供了一個原生的課程（Natural curriculum）——這里環(huán)境的困難程度取決于競爭對手的能力（而如果你是與自身的克隆進(jìn)行競爭，則該環(huán)境與你的能力等級是相當(dāng)匹配的）；其次，多智能體環(huán)境不具有穩(wěn)定的平衡：因為無論智能體多么聰明，總是存在著更大壓力使得它更加聰明。這些環(huán)境與傳統(tǒng)環(huán)境有著非常大的不同，因此還有更多的研究有待進(jìn)行。

據(jù)雷鋒網(wǎng)了解，來自O(shè)penAI的研究員發(fā)明了一種新算法——MADDPG。該算法適用于多智能體環(huán)境下的集中式學(xué)習(xí)（Centralized learning）和分散式執(zhí)行（Decentralized execution），并且允許智能體之間學(xué)會協(xié)作與競爭。

OpenAI新研究成果：如何讓AI智能體學(xué)會合作、競爭與交流？

四個紅色智能體通過MADDPG算法進(jìn)行訓(xùn)練，它們的目標(biāo)任務(wù)是追逐圖中的兩個綠色智能體。其中四個紅色智能體為了獲得更高的回報，學(xué)會了互相配合，共同去追捕其中一個綠色智能體。而與此同時，兩個綠色智能體也學(xué)會了分開行動，其中一個智能體負(fù)責(zé)將四個紅色智能體吸引開，然后另一個綠色智能體則乘機(jī)去接近水源（由藍(lán)色圓圈表示）。

事實上，MADDPG算法并非完全原創(chuàng)，它擴(kuò)展自一個被稱為DDPG的增強(qiáng)學(xué)習(xí)（Reinforcement learning）算法，靈感則來源于基于Actor-Critic的增強(qiáng)學(xué)習(xí)技術(shù)。另外據(jù)雷鋒網(wǎng)了解，還有許多其它團(tuán)隊也正在探索這些算法的變種以及并行化實現(xiàn)。

該算法將模擬中的每個智能體視為一個“Actor”，并且每個Actor將從“Critic”那兒獲得建議，這些建議可以幫助Actor在訓(xùn)練過程中決定哪些行為是需要加強(qiáng)的。通常而言，Critic試圖預(yù)測在某一特定狀態(tài)下的行動所帶來的價值（比如，我們期望能夠獲得的獎勵），而這一價值將被智能體（Actor）用于更新它的行動策略。這么做比起直接使用獎勵來的更加穩(wěn)定，因為直接使用獎勵可能出現(xiàn)較大的差異變動。另外，為了使訓(xùn)練按全局協(xié)調(diào)方式行動的多個智能體（Multiple agents that can act in a globally-coordinated way）變得可行，OpenAI的研究員還增強(qiáng)了Critic的級別，以便于它們可以獲取所有智能體的行為和觀察，如下圖所示。

OpenAI新研究成果：如何讓AI智能體學(xué)會合作、競爭與交流？

據(jù)悉，MADDPG中的智能體在測試期間不需要訪問中央的Critic，智能體們將根據(jù)自己的觀察和對其它代理行為的預(yù)測而行動。由于每個智能體都有各自獨立的集中式Critic，該方法能被用于模擬智能體之間任意的獎勵結(jié)構(gòu)，包括獎勵沖突的對抗性案例。

OpenAI新研究成果：如何讓AI智能體學(xué)會合作、競爭與交流？

OpenAI的研究員已經(jīng)在多項任務(wù)中測試了該方法，并且實驗結(jié)果表明，MADDPG在所有任務(wù)中的表現(xiàn)均優(yōu)于DDPG。上邊的動圖自左向右依次展示了：兩個AI智能體（藍(lán)色圈）嘗試前往指定地點，并且它們學(xué)會分開行動，以便于向反對智能體（紅色圈）隱藏自己的目標(biāo)地點；其中一個智能體將地標(biāo)傳達(dá)給另一個智能體；最后是三個智能體通過協(xié)調(diào)共同到達(dá)各自的地標(biāo)，并且途中沒有發(fā)生碰撞。

OpenAI新研究成果：如何讓AI智能體學(xué)會合作、競爭與交流？

上圖展示了，通過MADDPG訓(xùn)練的紅色智能體比起通過DDPG訓(xùn)練的紅色智能體表現(xiàn)出了更加復(fù)雜的行為。在上圖的動畫中，通過MADDPG（左圖）和DDPG（右圖）訓(xùn)練的紅色智能體試圖追逐綠色智能體，這期間它們可能需要通過綠色的森林或者躲避黑色的障礙物。

傳統(tǒng)增強(qiáng)學(xué)習(xí)

傳統(tǒng)的分散式增強(qiáng)學(xué)習(xí)（Descentralized reinforcement learning）方法，比如DDPG，actor-critic learning，deep Q-learning等等，在多智能體環(huán)境下的學(xué)習(xí)總是顯得很掙扎，這是因為在每個步驟中，每個智能體都將嘗試學(xué)習(xí)預(yù)測其它智能體的行動，并且同時還要采取自己的行動，這在競爭的情況下尤為如此。MADDPG啟用了一個集中式Critic來向智能體提供同類代理的觀察和潛在行為的信息，從而將一個不可預(yù)測的環(huán)境轉(zhuǎn)換成可以預(yù)測的環(huán)境。

當(dāng)前，梯度策略方法（Policy gradient methods）面臨著更多的挑戰(zhàn)。因為當(dāng)獎勵不一致的時候，這些方法很難得到正確的策略，并且表現(xiàn)出了高度的差異。另外研究員還發(fā)現(xiàn)，加入了Critic之后雖然提高了穩(wěn)定性，但是依然無法解決多個環(huán)境之間諸如交流合作的問題。并且對于學(xué)習(xí)合作策略問題，在訓(xùn)練過程中綜合考慮其它智能體的行為似乎是非常重要的。

初步研究

據(jù)雷鋒網(wǎng)了解，在開發(fā)MADDPG之前，OpenAI研究員采用分散技術(shù)（Decentralized techniques）的時候，他們注意到，如果 Speaker發(fā)送不一致的消息，Listener通常會忽略掉發(fā)言智能體。然后，后者會將所有與Speaker的消息有關(guān)的權(quán)重設(shè)置為0，從而高效地忽略掉這些信息。

然而，一旦出現(xiàn)了這種情況，訓(xùn)練過程將難以恢復(fù)，因為缺乏了有效的反饋，Speaker永遠(yuǎn)也無法知道自己是否正確。為了解決這個問題，研究員發(fā)現(xiàn)了一個最近提出的分層強(qiáng)化學(xué)習(xí)(Hierarchical Reinforcement Learning)技術(shù)，該技術(shù)強(qiáng)制Listener將Speaker的消息納入其決策過程。但是這個方案沒有起到作用，因為盡管它強(qiáng)制Listener獲取Speaker的消息，但這并不能幫助后者弄清哪些是相關(guān)的。最終，OpenAI提出的集中式Critic方法幫助解決了這些挑戰(zhàn)，它幫助 Speaker了解哪些信息可能與其它智能體的行為是有關(guān)的。如果想獲取更多的結(jié)果，可以觀看原文鏈接里的視頻。

下一步

智能體建模在人工智能研究中具有豐富的歷史，并且其中許多的場景已經(jīng)被廣泛研究過了。以前的許多研究只在擁有很短的時長和很少的狀態(tài)空間的游戲中進(jìn)行。但是深度學(xué)習(xí)使得研究員們可以處理復(fù)雜的視覺輸入，另外增強(qiáng)學(xué)習(xí)為學(xué)習(xí)長時間行為提供了工具?，F(xiàn)在，研究員可以使用這些功能來一次性訓(xùn)練多個智能體，而不需要了解環(huán)境的動態(tài)變化（環(huán)境在每個時間步驟中是如何變化的），并且可以在學(xué)習(xí)來自環(huán)境的高維度信息的同時，解決涉及溝通和語言的更廣泛的問題。

最后是OpenAI的一則小廣告，如果你對探索不同的方法來推進(jìn)AI智能體的發(fā)展感興趣的話，不妨考慮加入OpenAI吧！

Via Learning to Cooperate, Compete, and Communicate

雷峰網(wǎng)版權(quán)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。