0
雷鋒網(wǎng) AI 科技評(píng)論:昨日毫無(wú)疑問(wèn)是振奮人心的一天,深度學(xué)習(xí)界的 3 位「巨頭」齊齊獲得計(jì)算機(jī)界最高榮譽(yù)「圖靈獎(jiǎng)」,這里再次祝賀 Yoshua Bengio、 Yann LeCun 以及 Geoffrey Hinton!
談及今年頒獎(jiǎng)理由時(shí),美國(guó)計(jì)算機(jī)協(xié)會(huì)主席 Cherri M. Pancake 在一份聲明中表示:「人工智能的發(fā)展和繁榮,在很大程度上要?dú)w功于 Bengio、Hinton 和 LeCun 為之奠定基礎(chǔ)的深度學(xué)習(xí)的最新進(jìn)展。這些技術(shù)被數(shù)十億人使用。只要擁有智能手機(jī)的人現(xiàn)在都能實(shí)實(shí)在在地體驗(yàn)到自然語(yǔ)言處理和計(jì)算機(jī)視覺方面的進(jìn)步,而這些體驗(yàn)在 10 年前是想都不敢想的?!?/p>
不過(guò),在得獎(jiǎng)消息公布后,也有人在社交媒體上為落選的「遺珠」抱屈,他們認(rèn)為還有這么一批人,雖然名氣不大,對(duì)于 AI 研究的發(fā)展卻做出了不亞于三位巨頭的貢獻(xiàn)。
遞歸神經(jīng)網(wǎng)絡(luò)之父——Jürgen Schmidhuber
Jürgen Schmidhuber 是瑞士人工智能實(shí)驗(yàn)室(IDSIA)的研發(fā)主任,他所發(fā)明的 LSTM(長(zhǎng)短期記憶網(wǎng)絡(luò)),有效解決了人工智能系統(tǒng)的記憶問(wèn)題。
昨日頒獎(jiǎng)消息公布后,為他抱屈的聲音極多,部分人認(rèn)為「深度學(xué)習(xí)」少了他終究不夠圓滿。
推一下眼鏡的表情富含深意……
一戰(zhàn)成名的 LSTM
要了解 LSTM,還得從循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)開始說(shuō)起。
RNN 是一種用于處理序列數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò),相比一般的神經(jīng)網(wǎng)絡(luò),更擅于處理序列多變的數(shù)據(jù)(比如某個(gè)單詞的意思會(huì)因?yàn)樯衔奶岬降膬?nèi)容不同而有不同的含義)然而其技術(shù)缺陷也非常明顯,其中一項(xiàng)便是梯度消失:
RNN 模型在某些的取值上,梯度特別?。◣缀鯙?0)。這也意味著,如果在控制學(xué)習(xí)率不變的情況下,要么參數(shù)不變(學(xué)不到東西),要么就變化極大(學(xué)習(xí)成果推倒重來(lái))。
因此 RNN 在參數(shù)學(xué)習(xí)上很難表現(xiàn)出彩。
而 LSTM 則可以理解為 RNN 的升級(jí)版,其結(jié)構(gòu)天然可以解決梯度消失問(wèn)題。其內(nèi)部主要可以分為三個(gè)階段:
忘記階段
這個(gè)階段主要是對(duì)上一個(gè)節(jié)點(diǎn)傳進(jìn)來(lái)的輸入進(jìn)行選擇性忘記。簡(jiǎn)單來(lái)說(shuō)就是會(huì)「忘記不重要的,記住重要的」。
——由一個(gè)被稱為「遺忘門層」的 Sigmod 層組成的。它輸入 ht?1 和 xt, 然后在 Ct?1 的每個(gè)神經(jīng)元狀態(tài)輸出 0~1 之間的數(shù)字。「1」表示「完全保留這個(gè)」,「0」表示「完全遺忘這個(gè)」。
選擇記憶階段
這個(gè)階段將這個(gè)階段的輸入有選擇性地進(jìn)行「記憶」。哪些重要?jiǎng)t著重記錄下來(lái),哪些不重要,則少記一些。
——首先,一個(gè)被稱為「輸入門層」的 Sigmod 層決定我們要更新的數(shù)值。然后,一個(gè) tanh 層生成一個(gè)新的候選數(shù)值,Ct?, 它會(huì)被增加到神經(jīng)元狀態(tài)中。
輸出階段
這個(gè)階段將決定哪些將會(huì)被當(dāng)成當(dāng)前狀態(tài)的輸出。
——首先,我們使用 Sigmod 層決定哪一部分的神經(jīng)元狀態(tài)需要被輸出;然后我們讓神經(jīng)元狀態(tài)經(jīng)過(guò) tanh(讓輸出值變?yōu)?1~1 之間)層并且乘上 Sigmod 門限的輸出,我們只輸出我們想要輸出的。
Jürgen Schmidhuber 把這種人工智能訓(xùn)練比作人類大腦將大的時(shí)刻過(guò)濾成長(zhǎng)期記憶,而讓更平常的記憶消失的方式。「LSTM 可以學(xué)會(huì)把重要的東西放在記憶里,忽略那些不重要的東西。在當(dāng)今世界,LSTM 可以在許多非常重要的事情上表現(xiàn)出色,其中最著名的是語(yǔ)音識(shí)別和語(yǔ)言翻譯,還有圖像字幕,你可以在那里看到一個(gè)圖像,然后你就能寫出能解釋你所看到的東西的詞語(yǔ)?!顾绱吮硎镜?。
而現(xiàn)實(shí)正如 Jürgen Schmidhuber 所說(shuō)的,LSTM 確實(shí)足夠出色,以致無(wú)論是蘋果、谷歌、微軟、Facebook 還是亞馬遜都在自家業(yè)務(wù)中采用了 LSTM——Facebook 應(yīng)用 LSTM 完成每天 45 億次的翻譯;Google 29% 的數(shù)據(jù)中心計(jì)算能力使用 LSTM(CNN 僅占 5%);LSTM 不僅改善了近 10 億部 iPhone 手機(jī)中的 Siri 和 QuickType 功能,更為超過(guò) 20 億部 Android 手機(jī)語(yǔ)音識(shí)別提供支持;LSTM 還是亞馬遜 Alexa 和 Google 語(yǔ)音識(shí)別器的核心。
LSTM 的巨大成功,導(dǎo)致后來(lái)每當(dāng)有人提到利用 RNN 取得卓越成果時(shí),都會(huì)默認(rèn)是 LSTM 的功勞。
通用人工智能夢(mèng)
然而 Jürgen Schmidhuber 并未滿足于 LSTM 的成功,他的終極歸宿是 AGI(通用人工智能)。
兩年前接受雷鋒網(wǎng) AI 科技評(píng)論采訪時(shí),Jürgen Schmidhuber 明確表示自己有一項(xiàng)「商業(yè)上認(rèn)知不是很廣,但是卻是非常重要的研究」——如何讓機(jī)器具備自我學(xué)習(xí)、更聰明的能力。在他一篇 1987 年的論文中,他詳細(xì)描述了元學(xué)習(xí)(Meta Learning,或者叫做 Learning to Learn)計(jì)劃的第一個(gè)具體研究,即不僅學(xué)習(xí)如何解決問(wèn)題,而且學(xué)習(xí)提高自己的學(xué)習(xí)算法,通過(guò)遞歸自我學(xué)習(xí)最終成為超級(jí)人工智能。但這種設(shè)想受限當(dāng)時(shí)的計(jì)算性能力無(wú)法進(jìn)得到充分驗(yàn)證。
堅(jiān)信 AGI 一定能實(shí)現(xiàn)的背后,是他堅(jiān)信「我們生活在一個(gè)矩陣式的計(jì)算機(jī)模擬中」的理念?!高@就是我的想法,因?yàn)檫@是對(duì)一切事物最簡(jiǎn)單的解釋?!杆睦碚撜J(rèn)為,人類一開始就設(shè)定為要不斷追逐進(jìn)步,并將繼續(xù)制造更強(qiáng)大的計(jì)算機(jī),直到我們讓自己變得過(guò)時(shí)或者決定與智能機(jī)器合并為止。
為此,Schmidhuber 曾經(jīng)預(yù)言:「要么你變成了一個(gè)真正不同于人類的東西,要么你出于懷舊的原因依然以人的身份存在。但你不會(huì)成為一個(gè)主要的決策者,你不會(huì)在塑造世界的過(guò)程中扮演任何角色?!?/p>
爭(zhēng)議
在查閱資料的過(guò)程中,你會(huì)發(fā)現(xiàn) Jürgen Schmidhuber 的「傲氣」無(wú)處不在。
年輕的時(shí)候,他是那個(gè)會(huì)在履歷學(xué)術(shù)經(jīng)歷一欄寫上「拒絕加州理工學(xué)院的博士后錄取通知」的學(xué)術(shù)青年。2016 年的神經(jīng)信息處理系統(tǒng)大會(huì)上,他當(dāng)場(chǎng)質(zhì)疑 Ian Goodfellow 的「生成對(duì)抗網(wǎng)絡(luò)」是抄襲了他在 1992 年的一項(xiàng)研究。后來(lái),他在《自然》雜志的留言板上與所有人工智能大佬開懟,指責(zé)他們扭曲了人工智能的歷史,抹去了他和其他人最初的想法。
阿爾伯塔大學(xué)的研究人員 Kory Mathewson 說(shuō)過(guò),與 Jürgen Schmidhuber 起沖突甚至成為某種「潛在的儀式」,有些年輕的 AI 研究人員甚至期待有朝一日能夠獲得這個(gè)「待遇」。但對(duì)于一些資深的研究人員來(lái)說(shuō),Jürgen Schmidhuber 可能就是麻煩的存在,比如他經(jīng)常被認(rèn)為只會(huì)「抱怨」、「虛偽」、「自私」、「過(guò)分強(qiáng)調(diào)理論的價(jià)值」。
對(duì)此,他依然固守己見?!该慨?dāng)我看到有人做了重要的事情,而他沒有得到認(rèn)可,但有人又說(shuō)另一個(gè)人先做了那件事,那么我是第一個(gè)把這個(gè)信息傳遞給《自然》雜志、《科學(xué)》雜志或其他期刊上的人。你可以通過(guò)時(shí)間脈絡(luò)來(lái)證明誰(shuí)先做了什么。說(shuō)得好聽點(diǎn),其他的一切都是再創(chuàng)造,說(shuō)得難聽一點(diǎn),這是剽竊?!?/p>
因此,不少人懷疑,這正是 Jürgen Schmidhuber 無(wú)法在圖靈獎(jiǎng)名單上出現(xiàn)的原因。
支持向量機(jī)(SVM)之父——Vladimir Vapnik
另外一名呼聲極高的,是奠定了統(tǒng)計(jì)學(xué)習(xí)理論的 Vladimir Vapnik,他主要成就有二:
與另一名蘇聯(lián)數(shù)學(xué)家合寫了著名的統(tǒng)計(jì)學(xué)習(xí)理論 Vapnik–Chervonenkis theory(VC 維)
在上述理論基礎(chǔ)上發(fā)展出支持向量機(jī) (Support Vector Machine,簡(jiǎn)稱 SVM) 演算法
SVM 演算法
1971 年,Vladimir Vapnik 與 A. Chervonenkis 在論文《On the uniform convergence of relative frequencies of events to their probabilities》中提出了 Vapnik–Chervonenkis theory,它表明機(jī)器學(xué)習(xí)算法選擇的模型的錯(cuò)誤率,是兩個(gè)因素的作用結(jié)果:
模型類越大,分類器錯(cuò)誤率的聚集性 (收斂到泛化錯(cuò)誤率的速度) 就越差。
模型類越大,擬合數(shù)據(jù)效果也越好。
總的來(lái)說(shuō),根據(jù)泛化錯(cuò)誤率 <= 經(jīng)驗(yàn)錯(cuò)誤率 + 泛化界,我們必須權(quán)衡模型的復(fù)雜度,以最小化泛化錯(cuò)誤率。
在此基礎(chǔ)上,Vladimir Vapnik 等人對(duì)線性分類器提出了另一種設(shè)計(jì)最佳準(zhǔn)則。其原理從線性可分說(shuō)起,然后擴(kuò)展到線性不可分以及非線性函數(shù)中去,這種分類器被稱為支持向量機(jī)(Support Vector Machine,簡(jiǎn)稱 SVM)。SVM 最早是由 Vladimir N.Vapnik 和 Alexey Ya.Chervonenkis 在 1963 年提出,目前的版本(soft margin)是 Corinna Cortes 和 Vapnik 在 1993 年提出,1995 年發(fā)表。
SVM 主要是針對(duì)線性可分情況進(jìn)行分析,對(duì)于線性不可分的情況,通過(guò)使用非線性映射算法將低維輸入空間線性不可分的樣本轉(zhuǎn)化為高維特征空間使其線性可分,從而使得高維特征空間采用線性算法對(duì)樣本的非線性特征進(jìn)行線性分析成為可能。
這讓泛化對(duì)空間中數(shù)據(jù)點(diǎn)的測(cè)量誤差容忍度更大,再結(jié)合作為非線性擴(kuò)充的「內(nèi)核技巧」(kernel trick),支持向量機(jī)算法就成了機(jī)器學(xué)習(xí)中的重要支柱。
目前 SVM 已經(jīng)被廣泛運(yùn)用在各個(gè)領(lǐng)域,尤其是許多工程領(lǐng)域,并成功解決了許多真實(shí)界問(wèn)題背后的關(guān)鍵演算法,像是文字分類、超文本(網(wǎng)頁(yè)分類)、圖像辨識(shí)、生物資訊學(xué)(蛋白質(zhì)分類、癌癥特徵分類)、手寫筆跡辨識(shí)等。可說(shuō)是自動(dòng)分類技術(shù)中最重要的關(guān)鍵演算法之一。
一度「壓制」深度學(xué)習(xí)
當(dāng) Vapnik 和 Cortes 在 1995 年提出支持向量機(jī)(SVM)理論后,機(jī)器學(xué)習(xí)這一領(lǐng)域便分成了兩大流派——神經(jīng)網(wǎng)絡(luò)及支持向量機(jī)。2000 年內(nèi)核版的 SVM 被提出后,神經(jīng)網(wǎng)絡(luò)在這場(chǎng)競(jìng)爭(zhēng)中逐漸處于下風(fēng)。
換句話說(shuō),在深度學(xué)習(xí)還沒火起來(lái)以前,支持向量機(jī)(support vector machine)是毫無(wú)疑問(wèn)的主流。2002 - 2014 年期間,在 NEC Lab 工作的 Vladimir Vapnik 在支持向量機(jī)領(lǐng)域的地位與今天的 Geoffrey Hinton 之于深度學(xué)習(xí)不相伯仲。
對(duì)于支持向量機(jī)與深度學(xué)習(xí)的糾葛,阿里巴巴技術(shù)副總裁賈揚(yáng)清曾經(jīng)在知乎上有過(guò)這么一段論述:
這兩個(gè)冤家一直不爭(zhēng)上下,最近基于神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)因?yàn)?AlphaGo 等熱門時(shí)事,促使神經(jīng)網(wǎng)絡(luò)的熱度達(dá)到了空前最高。畢竟,深度學(xué)習(xí)那樣的多層隱含層的結(jié)構(gòu),猶如一個(gè)黑盒子,一個(gè)學(xué)習(xí)能力極強(qiáng)的潘多拉盒子。有人或許就覺得這就是我們真正的神經(jīng)網(wǎng)絡(luò),我們不知道它那數(shù)以百千計(jì)的神經(jīng)元干了什么,也不理解為何如此的結(jié)構(gòu)能誕生如此美好的數(shù)據(jù)——猶如復(fù)雜性科學(xué)般,處于高層的我們并不能知道底層的」愚群「為何能涌現(xiàn)。兩者一比起來(lái),SVM 似乎也沒有深度學(xué)習(xí)等那么令人狂熱,連 Hinton 都開玩笑說(shuō) SVM 不過(guò)是淺度學(xué)習(xí)(來(lái)自深度學(xué)習(xí)的調(diào)侃)。
不然,個(gè)人覺得相對(duì)于熱衷于隱含層的神經(jīng)網(wǎng)絡(luò),具有深厚的數(shù)學(xué)理論的 SVM 更值得讓我們研究。SVM 背后偉大的數(shù)學(xué)理論基礎(chǔ)可以說(shuō)是現(xiàn)今人類的偉大數(shù)學(xué)成就,因此 SVM 的解釋性也非神經(jīng)網(wǎng)絡(luò)可比,可以說(shuō),它的數(shù)學(xué)理論讓它充滿了理性,這樣的理性是一個(gè)理工科生向往的。
SVM 的高效性能并且在神經(jīng)網(wǎng)絡(luò)無(wú)法取得較好效果的領(lǐng)域的優(yōu)異表現(xiàn),此外,支持向量機(jī)能夠利用所有的先驗(yàn)知識(shí)做凸優(yōu)化選擇,產(chǎn)生準(zhǔn)確的理論和核模型,因此可以對(duì)不同的學(xué)科產(chǎn)生大的推動(dòng),產(chǎn)生非常高效的理論和實(shí)踐改善。
最后,想與各位聊聊,你心目中的圖靈獎(jiǎng)人選還有誰(shuí)?
參考文獻(xiàn):
1)《理解長(zhǎng)短期記憶(LSTM) 神經(jīng)網(wǎng)絡(luò)》. 元峰
https://zhuanlan.zhihu.com/p/24018768
2)《為什么相比于RNN,LSTM在梯度消失上表現(xiàn)更好?》. 劉通
https://www.zhihu.com/question/44895610/answer/616818627
3)《他是人工智能教父,卻快要被世人遺忘》. Joyce Lee . 機(jī)器人網(wǎng)
https://www.roboticschina.com/news/2018051811Schmidhuber.html
4)《Vapnik-Chervonenkis理論》. zccg
https://zhuanlan.zhihu.com/p/22457275
5)《如何理解SVM | 支持向量機(jī)之我見》. 煎魚不可能有BUG
https://www.jianshu.com/p/96e8fad1a2a4#
6)賈揚(yáng)清在知乎上的回答
https://www.zhihu.com/question/22290096/answer/52642714
雷鋒網(wǎng) AI 科技評(píng)論 雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。