獨(dú)家首發(fā) | NIPS 最佳論文視頻解讀！德州撲克背后的不完全信息博弈

本文作者： AI研習(xí)社-譯站

2017-12-05 15:17

導(dǎo)語：快來看全球最頂級的機(jī)器學(xué)習(xí)會(huì)議~

美國時(shí)間， 2017 年 12 月 4 日 8:00。

全球機(jī)器學(xué)習(xí)頂級會(huì)議 NIPS 在美國長灘開幕了。

本年度 NIPS 將持續(xù)一周，你現(xiàn)在才想?yún)⒓涌隙▉聿患埃驗(yàn)槠痹缇唾u光了。

為了讓你隔著太平洋都能跟上 NIPS 的節(jié)奏，雷鋒網(wǎng)帶你搶先看 NIPS 2017 的最佳論文。這篇 NIPS Talk 的時(shí)間是美國時(shí)間 12 月 5 日下午 2:50。

Safe and Nested Subgame Solving for Imperfect-Information Games

安全和嵌套子游戲解決不完全的信息博弈

不跨洋不翻墻

點(diǎn)擊觀看下方視頻

輕松解讀 NIPS 2017 最佳論文！

▼

那些關(guān)注過人機(jī)大戰(zhàn)的朋友們，你們肯定知道這篇論文在講什么。

不方便打開視頻的朋友們，可以看看雷鋒網(wǎng)簡版圖文：

今年年初，4 位頂尖德州撲克選手，在為期 20 天賽程里，與卡耐基梅隆大學(xué)（CMU）研發(fā)的人工智能系統(tǒng) Libratus 對決 12 萬手，爭奪 20 萬美元獎(jiǎng)金池。

獨(dú)家首發(fā) | NIPS 最佳論文視頻解讀！德州撲克背后的不完全信息博弈

最終，Libratus 擊潰了這組職業(yè)選手。Libratus 人工智能系統(tǒng)所用到的策略技巧，就是這篇論文的重點(diǎn)內(nèi)容。

論文將德州撲克之類的游戲所運(yùn)用的技巧，定義為一種不完美的信息博弈互動(dòng)策略。這種互動(dòng)策略不僅可以應(yīng)用于游戲中，還能應(yīng)用在談判、拍賣、網(wǎng)絡(luò)安全以及人身安全上。

獨(dú)家首發(fā) | NIPS 最佳論文視頻解讀！德州撲克背后的不完全信息博弈

為什么不能將 Alphago 或者 DeepBlue2 的技術(shù)應(yīng)用在德州撲克上呢？

這里有幾個(gè)原因，其中最重要的一個(gè)原因是，所有的完美游戲（例如五子棋、國際象棋）都有一種特性，那就是，當(dāng)你采取一些行動(dòng)時(shí)，你的對手也采取了一些行動(dòng)，當(dāng)你發(fā)現(xiàn)自己身處一個(gè)特別的子博弈環(huán)境時(shí)，完全可以忽略其它不相關(guān)的情況，決策點(diǎn)與最佳策略直接相關(guān)，你唯一需要做的事情就是，確定當(dāng)前的決策點(diǎn)。

但是德州撲克是一種不完美游戲，當(dāng)你處在一個(gè)特定的子博弈中時(shí)，隨即又會(huì)出現(xiàn)其他的子博弈，你不能從這個(gè)決策點(diǎn)出發(fā)，因?yàn)槠渌硬┺臅?huì)影響你當(dāng)前子博弈的最佳策略。換句話說，當(dāng)在不完美的信息博弈中進(jìn)行決策時(shí)，你必須考慮到這個(gè)博弈的全局策略，而并非子博弈的最佳策略。

過去，我們的策略都是預(yù)先計(jì)算出來的，2015 年有人就在小型的德州撲克程序庫中簡單預(yù)先計(jì)算了整個(gè)博弈的最佳策略。但情況不總是這么簡單，一旦遇到計(jì)算量龐大的游戲就最佳策略失靈了。

研究者針對不限注德州撲克做了相關(guān)的研究，針對整個(gè)游戲的玩法做了近似計(jì)算，在真實(shí)的不限注德州撲克中，發(fā)現(xiàn)了針對性的子博弈策略，這個(gè)技術(shù)叫做“嵌套的子博弈”。

獨(dú)家首發(fā) | NIPS 最佳論文視頻解讀！德州撲克背后的不完全信息博弈

在博弈樹下重復(fù)這個(gè)過程，會(huì)發(fā)現(xiàn)我們還處在另一個(gè)子博弈中，再次找到一個(gè)更好的針對性的子博弈策略。通過這個(gè)技術(shù)，能夠和已經(jīng)計(jì)算出的全局藍(lán)圖進(jìn)行很好的擬合。

所以你看，相比于之前的方法，不完美信息博弈的子博弈求解技術(shù)，有著更強(qiáng)的理論保證和更好的實(shí)際表現(xiàn)。同時(shí)，作者還展示了安全與非安全的子博弈求解技術(shù)，以及為嵌套子博弈求解引入了新方法。

Poker AI Libratus幕后的研究者：

卡耐基梅隆大學(xué)(CMU)Tuomas Sandholm 教授和他的學(xué)生 Noam Brown 是本篇論文的作者。更多幕后故事可以看雷鋒網(wǎng)報(bào)道德州撲克算法幕后研發(fā)者CMU博士Brown專訪：AI如何打敗頂級人類牌手？

獨(dú)家首發(fā) | NIPS 最佳論文視頻解讀！德州撲克背后的不完全信息博弈

Tuomas Sandholm 教授（右）與 Noam Brown 博士（左）

Tuomas Sandholm 是 CMU 計(jì)算機(jī)科學(xué)系教授，他在人工智能和自動(dòng)談判領(lǐng)域，研究超過 28 年。最早的成績要追溯到 1989 年前后，他做了一套自動(dòng)為卡車司機(jī)談判并分配任務(wù)的系統(tǒng)。

近年來，Sandholm 和他的團(tuán)隊(duì)成績顯赫，多次在國際機(jī)器學(xué)習(xí)會(huì)議（ICML）、人工智能會(huì)議（AAAI）獲獎(jiǎng)，現(xiàn)在 Sandholm 還拿到 NSF(美國國家科學(xué)基金會(huì))一筆為期三年的新投資，用以資助他繼續(xù)基于 AI Libratus 展開相關(guān)研究。

Noam Brown 是 Sandholm 的博士生，他的研究將強(qiáng)化學(xué)習(xí)和博弈論結(jié)合起來，在大量不完美信息多智能體交互中，做出能夠進(jìn)行戰(zhàn)略推理的 AI。

Brown 把他的研究應(yīng)用導(dǎo) AI Libratus 身上，AI Libratus 在不限注的撲克中擊敗頂級人類選手。他還曾創(chuàng)建了 Libratus 的前身 Claudico 以及 Baby Tartanian8、Tartanian7，都在近兩年的計(jì)算機(jī)撲克大賽中獲勝。

11 月 29 日，Noam Brown 在自己的 Twitter 上炫耀了一波，說拿了最佳論文，NIPS Talk 的時(shí)間是 12 月 5 日下午 2:50，邀請大家來跟 Poker AI Libratus 一決高下。

獨(dú)家首發(fā) | NIPS 最佳論文視頻解讀！德州撲克背后的不完全信息博弈