AI的進(jìn)階：Google人工智能教你重新做人

本文作者：溫曉樺

2016-05-24 08:20

導(dǎo)語：沒有AlphaGo的37手，又哪來“神之一手”的78？

編者按：借著谷歌IO大會(huì)的東風(fēng)，《連線》雜志發(fā)文深入剖析AI向人類進(jìn)化的整個(gè)過程，并提出，在這個(gè)過程中，雖然人類擔(dān)憂AI會(huì)取代人類等，但事實(shí)上，AI不僅不會(huì)取代人類，還能推動(dòng)人類進(jìn)步。以下為文章主要內(nèi)容：

人機(jī)圍棋大戰(zhàn)第二局，AlphaGo一手落向空白區(qū)域的37驚呆了世界——李世石看到后離開了，遠(yuǎn)程觀看并解說的雷德蒙同樣震撼。這個(gè)西方唯一的九段棋手表示，“我真的不知道這是一步好棋還是壞棋?！倍c此同時(shí)，美國圍棋協(xié)會(huì)通訊副總裁英語解說員克里斯·加洛克則表示，“這是一個(gè)錯(cuò)誤?！?/p>

這一步李世石長考了大約二十分鐘，但四個(gè)多小時(shí)候，他還是輸了。后來的后來，在這場(chǎng)人機(jī)大戰(zhàn)中，鏈接了數(shù)百個(gè)分布在世界各地的谷歌數(shù)據(jù)中心的AI程序，擊敗了可能是有史以來人類設(shè)計(jì)的最復(fù)雜的游戲中最好的選手。

對(duì)37手同樣產(chǎn)生疑惑的是樊麾，他不只是曾經(jīng)5比0輸給AlphaGo的歐洲圍棋冠軍，而且從那以后，他成為了AlphaGo的陪練。與李世石交戰(zhàn)前的五個(gè)多月里，樊麾與AlphaGo進(jìn)行了上百盤比賽。他看著AlphaGo一天天地長大。樊麾失敗的次數(shù)越來越多，但他是最了解AlphaGo的人?？粗鳤lphaGo的第37手，他深知這其中一定有常人難以理解的地方，計(jì)算10秒后，他表示“竟是如此妙手”。

對(duì)，大多數(shù)人認(rèn)為，AlphaGo的勝利是計(jì)算力的強(qiáng)勢(shì)碾壓，然而，第37手證明AlphaGo不只是計(jì)算，它表現(xiàn)出一定程度理解圍棋的能力，就像人類棋手一樣，具有“棋感”。所以，37手具有歷史性的意義，它表明機(jī)器和人類終于開始有了真正融合的一天。

AlphaGo創(chuàng)始人哈薩比斯1976年生于倫敦，他4歲開始接觸國際象棋，13歲晉身“大師級(jí)”（chess master），在14歲以下棋手中名列世界第二。AlphaGo團(tuán)隊(duì)的領(lǐng)導(dǎo)者席爾瓦說道，“我曾見他出現(xiàn)在我們鎮(zhèn)上，贏得了比賽，然后離開?！?他們兩人在劍橋讀本科時(shí)正式見了面。為了了解人類的思維，研究機(jī)器是否也能變得智能，兩人的專業(yè)都是計(jì)算神經(jīng)科學(xué)。哈薩比斯在倫敦大學(xué)學(xué)院（UCL）攻讀認(rèn)知神經(jīng)科學(xué)博士課程時(shí)，主攻腦部負(fù)責(zé)導(dǎo)航、回憶及想像的海馬回（hippocampus），為打造思考方式更近似人類的電腦打下基礎(chǔ)，他提出的新理論獲《科學(xué)》雜志評(píng)為2007年十大科技突破。

1997年IBM深藍(lán)電腦擊敗國際象棋冠軍時(shí)，正好是哈薩比斯在劍橋大學(xué)攻讀電腦科學(xué)的時(shí)候。那時(shí)他在劍橋內(nèi)第一次接觸到圍棋——這個(gè)已有千年歷史的棋類運(yùn)動(dòng)，而剛剛接觸圍棋的哈薩比斯忍不住思考：為什么機(jī)器從未破解這種智力游戲？也因?yàn)槿绱耍_比斯暗下決心，希望做出一個(gè)下圍棋勝過人類的電腦系統(tǒng)。用博弈論的術(shù)語講，圍棋與國際象棋和西洋跳棋一樣，是一種完全信息博弈游戲——毫無運(yùn)氣可言，信息完全公開。通常來說，電腦應(yīng)該輕松就能將其掌握，但其就是攻克不下圍棋。

哈薩比斯表示，在圍棋中，無論是人類還是機(jī)器都無法算出每一步的最終結(jié)果，頂級(jí)棋手靠的是直覺，而非硬算——即是棋感。“圍棋布局講究美學(xué)，好的布局看起來充滿美感?！?/p>

1998年，兩人畢業(yè)后合開了一家電子游戲公司。游戲是檢驗(yàn)人工智能的好辦法。但在2005年，他們的游戲公司倒閉了。席爾瓦去了阿爾伯塔大學(xué)研究人工智能的初級(jí)形式——增強(qiáng)學(xué)習(xí)。增強(qiáng)學(xué)習(xí)技術(shù)讓機(jī)器可以重復(fù)同樣的任務(wù)，找出效果最佳的決策，從而實(shí)現(xiàn)自主學(xué)習(xí)。哈薩比斯則去到了英國倫敦大學(xué)學(xué)院，獲得了神經(jīng)系統(tǒng)學(xué)的博士學(xué)位。兩人的專業(yè)都是計(jì)算神經(jīng)科學(xué)，為了研究機(jī)器是否也能變得智能。2010年，他們?cè)俅蜗嗑邸_比斯在倫敦成立了一個(gè)名為DeepMind的人工智能公司，席爾瓦則加入了他。

當(dāng)谷歌CEO布林遇見哈薩比斯時(shí)，哈薩比斯說：“幾年內(nèi)，DeepMind或許能打敗世界圍棋冠軍?！边B以遠(yuǎn)見卓著的布林也覺得不可思議，但他們做到了。

人機(jī)大戰(zhàn)第二局結(jié)束后，席爾瓦進(jìn)入AlphaGo的控制室，監(jiān)控其運(yùn)行是否正常，并跟蹤它對(duì)每場(chǎng)對(duì)弈結(jié)局的預(yù)測(cè)有何變化。席爾瓦調(diào)出了AlphaGo在對(duì)弈期間做出的決策記錄，查看AlphaGo在下出第37手的前一刻發(fā)生了什么。

在DeepMind和AlphaGo出現(xiàn)之前，機(jī)器下棋都依靠暴力破解的方法，即窮舉，IBM的深藍(lán)用的就是這種。當(dāng)時(shí)，深藍(lán)也走出了人類意料之外的一步，但是，暴力計(jì)算解決不了圍棋。圍棋有太多變化，電腦都無法硬算。

所以，DeepMind只能另辟蹊徑——機(jī)器學(xué)習(xí)。

DeepMind團(tuán)隊(duì)將3000萬步人類下出的圍棋步法輸入到一個(gè)深度神經(jīng)網(wǎng)絡(luò)中。這個(gè)網(wǎng)絡(luò)模擬人腦中的神經(jīng)網(wǎng)，團(tuán)隊(duì)也希望它能夠像人腦一樣思考，自主學(xué)習(xí)。比如Facebook的計(jì)算機(jī)視覺技術(shù)，谷歌的語音識(shí)別。觀察足夠多的貓，它就能認(rèn)出貓；輸入足夠多的語言數(shù)據(jù)，它就能聽懂自然語言；同樣，輸入足夠多的棋譜，它也能學(xué)會(huì)如何下棋。但是，創(chuàng)意聯(lián)想與規(guī)則運(yùn)用是兩碼事，比如37手并不在那3000萬步棋譜之中，那么它是如何做到的呢？事實(shí)上，AlphaGo還計(jì)算出，一名人類專業(yè)棋手下出這樣一步的概率大約只有萬分之一，但它還是選擇了這一步。

“它知道職業(yè)棋手這么下的幾率很低，但當(dāng)它經(jīng)過自己的計(jì)算后，它可以推翻原先輸入的棋譜參考，”席爾瓦解釋道，從某種意義上來說，AlphaGo開始自主思考。它做出的決定不是以其創(chuàng)造者在其數(shù)字DNA中編入的規(guī)則為基礎(chǔ)的，而是以其自學(xué)的算法為基礎(chǔ)的。

讓它自己學(xué)會(huì)了下棋后，席爾瓦讓AlphaGo和自己對(duì)弈——一個(gè)與其版本不一樣的神經(jīng)網(wǎng)絡(luò)。在自我對(duì)弈訓(xùn)練過程中，AlphaGo記錄起那些最優(yōu)的走法——這就是席爾瓦曾研究的增強(qiáng)學(xué)習(xí)技術(shù)。

給自己打譜——這是棋力提高的有效方法，但這是部分技巧。懂得分析局面、有了邏輯計(jì)算還不夠，在茫茫棋盤中找到妙手還要靠直覺，就是根據(jù)棋形進(jìn)行的感性預(yù)測(cè)。在增強(qiáng)學(xué)習(xí)技術(shù)實(shí)現(xiàn)后，席爾瓦的團(tuán)隊(duì)將這些非人類圍棋步法輸入到第二個(gè)神經(jīng)網(wǎng)絡(luò)中，教它像深藍(lán)那樣預(yù)測(cè)國際象棋棋局一樣預(yù)測(cè)圍棋的棋局。將其與自己對(duì)弈多場(chǎng)后收集到的所有信息輸進(jìn)去后，AlphaGo開始可以預(yù)測(cè)一場(chǎng)圍棋對(duì)弈可能展開的方式。這便是直覺。比如AlphaGo的37手。即使回到后臺(tái)查看過程的席爾瓦，也無法知道AlphaGo是如何得出這個(gè)結(jié)果——這就是棋感的形成。

AlphaGo是 DeepMind 跨入 AI 領(lǐng)域的重要一步，但對(duì)于“AI取代人類論”，哈薩比斯表示無需擔(dān)心，在他看來，AI是一個(gè)工具，一個(gè)結(jié)構(gòu)智慧，讓人類更好的工具。雖然AlphaGo目前有這樣的能力，但它未必真的知道“自己”在做什么。所以，利用這樣一個(gè)工具，哈薩比斯又是如何設(shè)想未來5年的AI世界的呢？谷歌花6.5億美元收購一家公司，不會(huì)只是玩一場(chǎng)棋牌游戲。

有了深度學(xué)習(xí)和自主思維能力，AlphaGo今天可以下棋，明天就可以學(xué)設(shè)計(jì)。深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)支撐著十多項(xiàng)由谷歌提供的服務(wù)，包括它那無所不能的搜索引擎。AlphaGo另一個(gè)不那么秘密的武器——增強(qiáng)學(xué)習(xí)已經(jīng)在教導(dǎo)該公司的實(shí)驗(yàn)室機(jī)器人們拿起并移動(dòng)各種物品。

但是，商業(yè)問題并不是最重要的。當(dāng)詢問哈薩比斯，看見李世石輸了比賽他作何感想時(shí)，他指著心口說：“我很難過?！?看到自己創(chuàng)造的成果他感到驕傲，但出于人類本能，他感到難過，他希望李世石能夠贏下一局。

AI的進(jìn)階：Google人工智能教你重新做人

然而到了第四局，AlphaGo用同樣神秘的手法掌控著棋盤上的主導(dǎo)權(quán)——當(dāng)李世石對(duì)棋盤上的特定區(qū)域發(fā)起猛攻時(shí)，AlphaGo的應(yīng)對(duì)體現(xiàn)出了驚人的大局觀，不僅能夠防住李世石的局部絞殺，還能為全盤埋下伏筆——在第37手時(shí)，AlphaGo將一枚黑色棋子置于一個(gè)旁邊只有一枚白棋的地方，遠(yuǎn)離主戰(zhàn)場(chǎng)。

然后的然后，到了AlphaGo下出第77手時(shí)，李世石再一次陷入長考。李世石走78手之前，AlphaGo計(jì)算出自己的勝率為70%。但就在這個(gè)時(shí)候，AlphaGo成為了下一個(gè)卡斯帕羅夫。它無法相信一個(gè)人類會(huì)下出那“神之一手”的78——其可能性接近萬分之一。但換個(gè)角度想，這個(gè)思維更可怕：它在挑戰(zhàn)人類的恐懼，它有僥幸心理。它有人類思維的有點(diǎn)，也有弱點(diǎn)。

AI的進(jìn)階：Google人工智能教你重新做人

78手逆轉(zhuǎn)后，李世石在右方發(fā)動(dòng)攻勢(shì)，AlphaGo專為防守。在這以守為攻的過程中，AlphaGo一度看似想在右方“提劫”，卻沒有成功，反而跑出“死子”。隨后，中后盤的每一次落子，AlphaGo平均都要思考3分鐘以上。到了“收官”階段，李世石仍舊小心翼翼，沒有出現(xiàn)失誤。最終，AlphaGo投子認(rèn)輸，李世石獲得首勝。這也是AlphaGo自戰(zhàn)勝樊麾以來首次向人類“投降”。

最后第五局雖然仍以李世石落敗告終，但雙方的奮力拼殺早已把勝負(fù)置之度外，這是一場(chǎng)原則的較量。人機(jī)大戰(zhàn)開始前，哈薩比斯簡稱AI是推動(dòng)人類進(jìn)步的工具，當(dāng)時(shí)這樣的說法毫無根據(jù)，但隨著AI投入現(xiàn)實(shí)生產(chǎn)和生活的應(yīng)用越多，就越讓人相信：機(jī)器也可以做得人性化，而且能與人類相互協(xié)同，相互促進(jìn)。最簡單的，沒有AlphaGo的37手，又哪來“神之一手”的78？

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

0人收藏

相關(guān)文章

溫曉樺

編輯

掃描關(guān)注作者微信

發(fā)私信

當(dāng)月熱門文章