1
本文作者: 佳航 | 2017-02-08 16:52 |
四名世界上最好的職業(yè)撲克玩家一月份的大部分時間都貓在位于匹茲堡的大河賭場,品味著失敗。他們會在上午11點前準時出現(xiàn),身穿時髦的運動褲和有型的球鞋坐在電腦屏幕前。每個人在夜里回到賓館房間前差不多要打1500手在線無限級德州撲克的1對1單挑。這通常意味著每天工作都會超過晚上10點。在這漫長的一天里,星巴克杯和水樽散亂堆放在玩家鍵盤旁,Chipotle墨西哥卷餅快餐包裝袋散落在他們腳邊。
每當一個人類玩家打出一手牌,動作將會被傳送到5英里外的卡內基梅隆大學(Carnegie Mellon University)的計算機服務器。從那里,一個指令將會再傳遞另外12英里才能到達玩家的對手那,這是運行與位于近郊Monroeville的匹茲堡超級計算中心的軟件名為Libratus。Libratus立即打了8手牌---其中針對每個對手打兩手牌。它以一個刻意的,足夠讓人發(fā)狂的緩慢速率驅動著它人類對手之一的Jason Les?!斑@讓日子變得更漫長,”Les說,這個熱忱的,有著運動范的男人,,似乎急切渴望能在上個星期的這個下午休息幾分鐘?!奥L的等待不應該影響我才對,但有時你就像是感覺,‘好吧,這是已經快要結束了?’“
Libratus,當然是不需要休息的。它與人類玩家在其他方面也有所不同。當賭注更高的時候,人類往往會思考更長時間。而電腦玩家在小彩池上出牌最慢,這是因為必須根據手頭所剩更多的籌碼而遍歷所有的附加可能性而引起的。Libratus也傾向于做出巨大的,突然的賭注,違反標準的投注慣例而把它的賭資以一種不規(guī)則的金額和奇特的間隔押到彩池中。
從人類玩家的角度來看,這樣的舉止是令人氣憤和魯莽的,從長期來看還不“便宜”。但是Libratus作為撲克電腦玩家的主要屬性就是“壕無人性”。當這場在大河賭場舉行的20日比賽周一落下帷幕時,人類已經損失了180萬美元。(實際上并不需要真正付出現(xiàn)金,錢是作為在撲克中計算得分的方式。)Tuomas Sandholm 和 Noam Brown,兩位身為卡內基·梅隆大學的計算機科學家創(chuàng)造了人工智能Libratus,共同慶祝電腦首次在無限德州撲克--這個世界上最卓越的撲克游戲中打敗了頂級的人類玩家。
人工智能專家一直使用游戲作為開發(fā)和測試他們的“創(chuàng)造物”的一種方式。計算機們已經擊敗了國際象棋,國際跳棋,西洋雙陸棋和圍棋游戲中最杰出的人類選手。因為機會的因素和玩家也不知道他們的對手持有什么牌,所以撲克游戲是一種獨特的挑戰(zhàn)。這種所謂的非完美信息博弈需要某種人類的狡詐--例如欺騙對手并且能夠察覺到對方在欺騙你--而這是電腦所欠缺的。
“你在比賽中所看到的撲克游戲是無限德州撲克,它的聲譽更多的來自于藝術而更甚于科學,”Adam Kucharski說,他是《完美賭注:科學和數(shù)學是如何從賭博中排除幸運》的作者?!坝幸环N念頭是這個游戲將會因為這些機器而更長久的安全?!?/p>
這種思想在近幾個星期取得突破性進展。在一月初,阿爾伯塔大學(University of Alberta )的研究人員發(fā)表了一篇文章,內容是他們自己開發(fā)的名為DeepStack的AI擊敗了11個職業(yè)撲克玩家。
對于DeepStack是否能夠擊敗Libratus是一個有爭議的問題。Sandholm說,與他的機器人對陣的職業(yè)玩家比DeepStack擊敗的那些玩家更好。阿爾伯塔大學計算機程序負責人Michael Bowling承認這一點,但他也質疑這些人類玩家在連續(xù)奮戰(zhàn)了將近一個月時是否還處于最佳狀態(tài)。DeepStack的獲勝優(yōu)勢也是Libratus的三倍。
兩個人都認為撲克人工智能剛剛跨過了一個重要的門檻。對他們而言,這與撲克本身關系甚少。德州撲克只是他們尋找人工智能項目合作伙伴的一種方法,人工智能通過玩游戲的所得的收獲會傳回如網絡安全這樣的應用?!斑@是社區(qū)達成的主要基準數(shù)據,但這些算法并不是僅僅為了玩撲克而開發(fā)的,”Sandholm說到,他曾經是世界頂級的風帆運動員之一,外表看起來有點像比爾蓋茨?!巴鎿淇酥皇且环N通用的用途?!?/p>
Tuomas Sandholm領導卡內基梅隆大學的撲克研究項目
DeepStack和Libratus所玩的是一個特殊版本的撲克游戲。計算機匹配與每個對手單挑,而不是對抗一組玩家。每個玩家持有的籌碼數(shù)量在每手牌之后會重置,從而消除了那種擁有大量籌碼的玩家通過脅迫低端玩家進行高額投注而產生復雜的心理游戲。PokerStars--全球領先的在線撲克游戲平臺的發(fā)言人Eric Hollreiser表示,這限制了AI給撲克產業(yè)所帶來的威脅。 “雖然它在一個手動功能性基礎上模仿?lián)淇擞螒颍@與現(xiàn)實中牌桌上所發(fā)生的一切差別甚遠,”他說。
還有其他類似實驗在較少受控的環(huán)境中進行。自從科學家在實驗室建立它們以來,撲克機器人就一直在進行在線賭錢的游戲。它們歷來只玩低賭注游戲并從來沒有被認為是老手。但是賭博行業(yè)分析師和在線撲克行業(yè)報告的發(fā)布商Chris Grove說,撲克機器人正在向更高賭注的競賽中傳播。 “如果你是一個在線撲克運營商,這很可能是你的頭號欺詐憂慮,并且可能對相當大的利潤空間產生影響,”他說。
撲克產業(yè)和學術撲克界已經悄然合作多年, 每個參與的人都對細節(jié)閉口不談。 但是商業(yè)撲克機器人制造者和試圖打擊他們的人都密切關注學術工作的進展。 Bowling幾個的以前的弟子已經去為在線撲克公司打工,并且至少有一個在銷售用于在線博彩的機器人。
在撲克行話中,可以代替你玩游戲的程序被稱之為“夢境機器”。在線論壇的參與者交換關于何時的可疑活動可能說明你在跟機器人對戰(zhàn) - 或關于他們如何制作自己的撲克機器人的"戰(zhàn)爭故事"。
加拿大博彩公司Amaya旗下的撲克之星游戲平臺(PokerStars),專門雇用70人打擊這種欺詐行為。 這些反欺詐員工直接聯(lián)系可疑玩家并要求他們描述在某手牌上所采取的策略。 該公司還會向可疑玩家發(fā)送電子郵件,要求制作360度視頻以顯示其周圍環(huán)境,隨后玩超過一個小時的游戲,并且在整個過程中手和鍵盤要確保完全可見。
機器人不必擁有豐富的撲克游戲技巧就可以從游戲運營商那里獲得盈利- 這對整個行業(yè)是危險的。一個程序通過榨取普通玩家而獲得一定利潤可能就會讓人鋌而走險。但是位于英國的在線游戲公司Gamesys的撲克策略主管Darse Billings說,實際上“夢境機器”和學術界所研究的AI使用不一樣的技術,并試圖解決從根本上完全不同的挑戰(zhàn)。 打敗低端玩家的程序并不僅僅是一個打敗精英玩家程序的簡化版本, 這是兩個完全獨立的問題。
Billings 比任何人都了解這兩種撲克領域。 他在20世紀90年代獲得計算機科學碩士學位,然后成為一個職業(yè)撲克玩家,以償還學生貸款。 幾年后,他回到學校與阿爾伯塔大學(University of Alberta)的計算機科學家Jonathan Schaeffer合作,其最出名是編寫了可以完美進行國際跳棋比賽的軟件。 Billings說服Schaeffer下一步專注于撲克。
為解開國際跳棋的問題,Schaeffer使用了一種基本上試圖在任何情況下都計算最佳移動的方法,而并不去考慮到那一步發(fā)生了什么。但把每一步視為一個孤立問題在撲克這樣的游戲中是沒有意義的,因為這里涉及運氣,而且并不是每個人都能獲取到完整的信息。阿爾伯塔大學的研究人員開始制定一個整體戰(zhàn)略,這需要采用在博弈理論中被稱為納什均衡(Nash equilibrium)的策略 --這是一種應用于雙人博弈的方法,從長期來看不管對手做出什么反應都不會有損失。
納什均衡并不是一個理想的游戲風格。 在撲克游戲中執(zhí)行均衡戰(zhàn)略的關鍵是打出最強和最有潛力的一手牌的同時還保持不可琢磨?!爱斈阗€上你最強的一手牌的時候還是需要一絲謹慎的,”Billings說。該團隊開發(fā)了一個謹慎風格的AI,被稱為Pink先生,而另一個AI是積極進取風格,被稱為Agent Orange。很難描述一個計算機程序的所作所為,這聽起來不像你談論的東西卻實際上是你所思考的。
均衡策略吸引了阿爾伯塔大學的Bowling,其專長是博弈理論,并在2003年開始應用于撲克領域。Sandholm,作為卡內基梅隆大學Bowling的論文委員會一員,在接下來的一年轉向撲克領域,采取了類似的方法。 Sandholm和Bowling從2006年開始共同舉行年度的計算機撲克比賽,定期對頂尖的人類玩家。 撇開他們這種競爭關系,實驗室一直在關注彼此的研究成果。
這兩個項目在過去幾年大幅進化到了最終階段。 在2015年1月,Bowling的團隊發(fā)表了一篇文章,顯示它如何解決有限德州撲克單挑玩法--一種比無限制德州撲克簡單的雙人撲克游戲,因為玩家可以限制投注。 Sandholm和Brown(在過去五年里一直在撲克AI領域上與他一起工作的博士學生),在幾個月后在大河賭場舉行了他們第一次“人腦 vs AI”比賽。他們的機器,起名為Claudico,對抗四名職業(yè)玩家,在打了超過8萬手牌之后損失了$ 73.2萬。 Sandholm說,比賽勢均力敵可以稱之為平局,但至少有一個玩家對此表示有異議。
Sandholm和Brown說有自從那次比賽以來他們的AI在多個常規(guī)的方面有所改善。 Claudico在比賽的前期表現(xiàn)良好,但往往快結束時犯錯。 它在錯誤的時刻虛張聲勢,并且根據桌上所打的牌計算牌局的時候總會遇到麻煩。最簡單的情況,如果牌桌上有兩張王,而你手頭也有兩張王,這可以推斷出你的對手沒有王卡在手。 Libratus在所有這些方面都有改進,它的創(chuàng)造者仍然在其他方面保持謙虛的態(tài)度,尤其是在如何根據一天的比賽過程中所學習而進行調整。
Libratus所有的細節(jié)最終將會在其創(chuàng)造者發(fā)表成果時一一揭曉。這種學術研究成果往往以各種方式滲透到現(xiàn)實世界的撲克比賽中。 據布朗說,年度的電腦撲克比賽(The Annual Computer Poker Competitions)也包括了進入現(xiàn)金游戲的參賽者。 Bowling說他的研究論文在留言板上受到造機器人者的歡迎。 “有整個獨立的團隊閱讀并且試圖理解這些論文,”他說。
Billings在2008年加入了撲克行業(yè)。他是少數(shù)之一離開阿爾伯塔大學項目之后這么做的人,而大多數(shù)人都加入了運行游戲平臺的公司。 Richard Gibson 則自立門戶,創(chuàng)辦了一個名為機器人鯊魚游戲公司(Robot Shark Gaming ),其主要業(yè)務是構建AI程序學習和打戰(zhàn)略游戲,還創(chuàng)建了一個稱之為Sportsbid的幻想體育公司。
Gibson 在2013年完成了博士學位,當時一群職業(yè)玩家提出讓他提供可用于培訓的軟件并為此付費。 Gibson手頭只有其中一個人的名字而從來沒有私自會見過其中任何一個客戶,并不確認這群玩家到底有多少人?!凹词顾麄儾粚④浖糜谠诰W上賭博,這仍然是一個污點,”他說。
Gibson 開發(fā)了多個程序,并說他設計的軟件來演示各種策略的有效性; 程序并不能自己運行。 在他最賺錢的一年里,Gibson 在那個項目上賺了大約10萬美元,客戶又額外在運行軟件相關的計算能力上花了2萬到3萬美元。
匿名專業(yè)人士并不是Gibson的唯一客戶。 在有一個案例中,他說有人支付他幾萬美元花約6個月建立一個輕量級的撲克機器人。 他沒有詢問客戶將如何使用它 - 而且他并不想知道 - 但是設計方向指向一個特定的應用場景。 “我的客戶想要一個獨立運行的程序以便可以加載到他們的筆記本電腦,”他說。 “我想他們試圖利用它玩在線游戲“。
在大河賭場每個夜晚結束的時候,Les和他的撲克專家同伴將訂購外賣和仔細研究白天對戰(zhàn)的數(shù)據以便盡可能尋找Libratus的弱點。在月初,他們每天早上醒來的時候都充滿樂觀的情緒,因為他們有了一些新的訣竅。 “我們在頭幾天發(fā)現(xiàn)了一些特定的漏洞,”Les說。 “我們利用漏洞反復攻擊他們,但現(xiàn)在這些漏洞消失了。"
Libratus也在做出調整。 在白天,程序將其計算能力一部分分配在前臺進行博弈出牌,另一部分能力分配在Sandholm所說的“持續(xù)戰(zhàn)略改進”計算上。在晚上,程序完全側重于戰(zhàn)略分析,利用超級計算機的600個節(jié)點,相當于約 3,330臺高端MacBook協(xié)同工作。
在撲克和其他一些游戲中,AI在頂層博弈,電腦制定的策略反饋給人類玩家。 Les說他試圖弄清楚如何將一些Libratus的不規(guī)則投注行為適用于自己的比賽中。 ”這非常困難,我們基本上沒有足夠心智容量去做這個,”他說。
如果人類已經到達了對于他們來說電腦對手太過于完美這個節(jié)骨眼,像Sandholm 和Bowling所運營的實驗室卻面臨著幾乎相反的問題。與專業(yè)玩家一對一比賽是一回事。但將Libratus和DeepStack變成玩家有信心擊敗一群存在缺陷的人卻并沒有明確的演進路線。這是因為當其他人游戲的要點不是為了完美博弈而是為了識別和利用缺點,那AI使用的均衡策略在多人游戲中就會崩潰。
幾年前Bowling做了一個實驗,其中三個機器人互相對抗。 其中兩個使用他的實驗室最接近完美的機器人,而第三個機器人編程提高了魯莽特性。 在比賽結束時,最笨的機器人僅僅丟失了少量的錢。 其中一個完美的機器玩家獲得大勝,而另一個輸?shù)暮軓氐住?/p>
“這真的很困難。 如果你知道你要坐下來與不太優(yōu)秀的人類玩家或其他程序一起比賽,你該采取何種策略?“Bowling說。 “你必須為此做好準備。"
via bloomberg
雷峰網版權文章,未經授權禁止轉載。詳情見轉載須知。