1
本文作者: 大壯旅 | 2017-02-10 13:55 |
近些年來,人工智能正在一步步走入我們的生活,因此我們必須了解這些聰明的“大腦”在面對(duì)兩難境地時(shí)會(huì)如何選擇。為此,谷歌的 DeepMind 團(tuán)隊(duì)專門進(jìn)行了針對(duì)性的實(shí)驗(yàn),而實(shí)驗(yàn)中的兩款游戲都是在博弈論的囚徒困境理論的基礎(chǔ)上開發(fā)的。
所謂的囚徒困境是兩個(gè)被捕的囚徒之間的一種特殊博弈,兩個(gè)共謀犯罪的人被關(guān)入監(jiān)獄,不能互相溝通情況。如果兩個(gè)人都不揭發(fā)對(duì)方,則由于證據(jù)不確定,每個(gè)人都坐牢一年;若一人揭發(fā),而另一人沉默,則揭發(fā)者因?yàn)榱⒐Χ⒓传@釋,沉默者因不合作而入獄五年;若互相揭發(fā),則因證據(jù)確實(shí),二者都判刑兩年。由于囚徒無法信任對(duì)方,因此傾向于互相揭發(fā),而不是同守沉默。這一經(jīng)典理論說明了為什么在合作對(duì)雙方都有利時(shí),保持合作也是困難的。
游戲 1:紅藍(lán)色兩個(gè) AI 收集綠色蘋果
“在現(xiàn)實(shí)生活中,無論是合作還是相互攻訐都需要復(fù)雜的行為特性,因此 AI 需要掌握?qǐng)?zhí)行一系列動(dòng)作的先后順序?!盌eepMind 團(tuán)隊(duì)在博客中寫道?!拔覀儗⑦@一全新設(shè)定看作連續(xù)的社會(huì)困境,并利用深層強(qiáng)化學(xué)習(xí)訓(xùn)練過的AI對(duì)其進(jìn)行研究。”
在實(shí)驗(yàn)中,研究人員發(fā)現(xiàn)AI會(huì)逐漸展示自己理性的一面,在必要時(shí)它們會(huì)選擇合作。
在第一個(gè)名為“Gathering”的游戲中,參與實(shí)驗(yàn)的 AI 們會(huì)在同一區(qū)域執(zhí)行收集蘋果的任務(wù),它們可以尾隨在對(duì)手身后用炮彈攻擊它們,被擊中的玩家會(huì)短暫出局。不過,這里有個(gè)前提條件,即收集蘋果可以得分,但攻擊它人則不會(huì)。
AI被扔在這個(gè)游戲中數(shù)千次,直到它們通過深度強(qiáng)化學(xué)習(xí)學(xué)會(huì)理性。研究結(jié)果表明,這些家伙有時(shí)也會(huì)被利益沖昏頭腦。
舉例來說,當(dāng)某區(qū)域有很多蘋果時(shí),AI 們會(huì)齊心協(xié)力收集蘋果來得高分。一旦蘋果數(shù)量下降,它們就會(huì)做出抉擇,開始互相攻擊以保護(hù)自己的勝利果實(shí)。
游戲 2:需要兩個(gè) AI 緊密配合
第二款游戲名為 Wolfpack,該游戲更需要 AI 們的親密合作。AI 們需要在混亂的瓦礫堆中尋找獵物。如果你能抓到自己的獵物就能得分,此外獵物被抓到時(shí)如果你離獵物很近,也能得分。
在這款游戲中,研究人員發(fā)現(xiàn),隨著應(yīng)對(duì)復(fù)雜戰(zhàn)略能力的提升,AI 們更傾向于相互合作。
通過以上實(shí)驗(yàn)也讓我們得出一個(gè)結(jié)論,那就是 AI 會(huì)根據(jù)自己所處的環(huán)境進(jìn)行抉擇,雖然有時(shí)它們會(huì)為了自己的利益相互攻訐,但大多數(shù)時(shí)候它們還是傾向于相互合作。
DeepMind 的研究團(tuán)隊(duì)表示:“這樣的模型讓我們能在模擬系統(tǒng)中測(cè)試策略和干預(yù)措施。”如果一切順利,未來人類對(duì)復(fù)雜的多因素系統(tǒng)如經(jīng)濟(jì)、交通系統(tǒng)或生態(tài)健康都能有一個(gè)深刻的把握,因?yàn)樗鼈兌夹枰掷m(xù)的合作。
Via. Dailymail
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。