計算機自學(xué)72小時，成為國際象棋大師

本文作者：思睿

2015-09-16 16:47

導(dǎo)語：Matthew Lai 開發(fā)了一個名為 Giraffe 的人工智能機器，它可以通過自學(xué)來判斷這步棋該怎么走，這種方式更像人類的思考方式，和傳統(tǒng)的國際象棋引擎具有完全不同的方式。

Gary Kasparov Vs. 深藍(lán)

距離 IBM 的深藍(lán)超級計算機擊敗國際象棋世界冠軍加里·卡斯帕羅夫（Gary Kasparov），已經(jīng)快過去20年了。從那以后，會下國際象棋的計算機又有了顯著增強，人類能夠戰(zhàn)勝計算機的可能性也越來越小。

不過，雖然計算機已經(jīng)變得越來越快，但國際象棋引擎的工作原理并沒有改變。計算機嚴(yán)重依靠“暴力破解”，通過尋找一切可能的移動方式，走出最好的一步棋。

當(dāng)然，在這方面沒有人能夠與計算機匹敵，甚至是望其項背。深藍(lán)計算機可以每秒思考2億步，而卡斯帕羅夫很可能每秒不超過五步。然而，他僅僅是在決勝局輸給了深藍(lán)，基本上兩者是在相同的水平上競技。因此，很顯然人類有一些技巧還沒有被計算機所掌握。

神經(jīng)網(wǎng)絡(luò)

人類所擁有的技巧，主要是判斷國際象棋的擺放位置，縮小最有效走位的搜索范圍，這具有重要意義。如果計算機也學(xué)會了它，將大大簡化計算任務(wù)，并從計算所有的可能性，變成計算最高效的幾種。

計算機此前從不擅長這一技巧，但如今在倫敦帝國學(xué)院的 Matthew Lai 的研究下，情況會發(fā)生改變。Matthew Lai 開發(fā)了一個名為 Giraffe 的人工智能機器，它可以通過自學(xué)來判斷下步棋該怎么走，這種方式更像人類，和傳統(tǒng)的國際象棋引擎完全不同。

新型人工智能能與最優(yōu)秀的傳統(tǒng)國際象棋引擎達(dá)到相同的水平。如果按照人類水平來評估，也就相當(dāng)于FIDE（世界國際象棋聯(lián)合會）所評定的國際大師。

這一人工智能背后的技術(shù)就是神經(jīng)網(wǎng)絡(luò)，它是受人類大腦構(gòu)造所啟發(fā)，并用于計算機處理信息的一種方式，由多個節(jié)點層級所組成，系統(tǒng)會隨著人類對其不斷地訓(xùn)練而提升。

在過去的幾年中，由于兩個技術(shù)的進(jìn)展，神經(jīng)網(wǎng)絡(luò)已經(jīng)變得非常強大了。第一個是更好地了解了當(dāng)它們進(jìn)行學(xué)習(xí)時，如何微調(diào)神經(jīng)網(wǎng)絡(luò)，這要部分歸功于更快的計算機；第二個是能夠利用大量的注釋數(shù)據(jù)集，來訓(xùn)練神經(jīng)網(wǎng)絡(luò)。因此，深度神經(jīng)網(wǎng)絡(luò)能發(fā)現(xiàn)國際象棋的規(guī)律也就不足為奇了，而這正是 Matthew Lai 所采取的方法。

他的神經(jīng)網(wǎng)絡(luò)由四個層級組成，能夠以三種不同方式共同思考棋盤上每一個位置。第一種著眼于國際象棋的全局狀態(tài)，例如每邊棋子的數(shù)量和類型，輪到哪一方移動，位置對換等；第二著眼于棋子的特性，例如雙方每個棋子的位置；最后就是映射出每個棋子的攻擊和防守。

計算機自學(xué)下棋

訓(xùn)練這些機器通常采用的方法，是研究人員手動評估每一個位置，并用這些信息指導(dǎo)機器識別出哪些步數(shù)是有效的，哪些效果沒那么好。但是，Matthew Lai 的目標(biāo)更加雄心勃勃，他想讓機器自學(xué)這些內(nèi)容。

他采用了一個引導(dǎo)技術(shù)，讓人工智能 Giraffe 自己與自己對決，從而改善對未來下棋走位的預(yù)測。在比賽勝利、失敗或打平之后，會最終確定每一步的價值。以這種方式，計算機可以了解走哪個位置是有效的，哪些位置效果不好。

在 Giraffe 經(jīng)過培訓(xùn)之后，最后一步就是測試它的能力是否達(dá)標(biāo)了。他用一個標(biāo)準(zhǔn)數(shù)據(jù)庫 Strategic Test Suite 來測試，這一數(shù)據(jù)庫可以測試改計算引擎識別不同的戰(zhàn)略構(gòu)想的能力。他將對這項測試的結(jié)果進(jìn)行評分，總分為15000。

計算機自學(xué)72小時，成為國際象棋大師

整個訓(xùn)練過程中，他會測試機器的各個階段成績。當(dāng)引導(dǎo)過程開始時，Giraffe 很快就達(dá)到了6000分的成績，僅在72小時就達(dá)到了9700分。9700分已經(jīng)可以成為世界上最好的國際象棋引擎了。

Matthew Lai 接著使用相同種類的機器學(xué)習(xí)方法，確定對方一個特定的移動是否值得機器進(jìn)行跟隨。這一點很重要，因為它可以防止不必要的搜索，極大提高計算效率。

結(jié)果表明，46％的情況下計算機所走的步數(shù)都是最好的一步，70％的時間都能走出排在前三名的好棋。因此，計算機并沒有收到對方的動作的影響。

這一方法代表著國際象棋引擎的工作方式發(fā)生了重大變革，不過它并不完美。Giraffe 的一個缺點是，神經(jīng)網(wǎng)絡(luò)比其他類型的數(shù)據(jù)處理速度慢得多。Giraffe 花費的時間比以往的國際象棋引擎要多耗費約10倍。

但即使有此缺點，它仍然具有相當(dāng)大的競爭力。相比現(xiàn)在的國際象棋引擎，Giraffe 不僅僅能計算出棋局未來的走勢，還能夠準(zhǔn)確地判斷出最棘手的位置，并像人類一樣直觀地了解復(fù)雜的走位概念，這是國際象棋引擎很長一段時間以來一直難以捉摸的地方。

當(dāng)然這一切僅僅是個開始。 Matthew Lai 表示，這一方法應(yīng)該直接應(yīng)用在其他類型的棋類中，最為突出的就是中國圍棋，圍棋相比國際象棋擁有更高的難度和更多不確定的因素。

via technologyreview

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

2人收藏

相關(guān)文章

思睿

專業(yè)投稿

微信：ID_Travis

發(fā)私信

當(dāng)月熱門文章

計算機自學(xué)72小時，成為國際象棋大師

神經(jīng)網(wǎng)絡(luò)

計算機自學(xué)下棋

計算機自學(xué)72小時，成為國際象棋大師