4
雷鋒網(wǎng)按:繼移動互聯(lián)網(wǎng)之后,人工智能技術已經席卷全球。2017 年 3 月 3 日,中國人工智能學會(CAAI)將舉辦 AIDL2《機器學習前沿》會議,邀請了南京大學的周志華教授擔任學術負責人,他屆時也將在會議上發(fā)表致辭。而在今年 7 月份的 GAIR 大會上,雷鋒網(wǎng)也將邀請周志華教授進行主題演講的分享。
周志華教授是 ACM Fellow(美國計算機學會會士),AAAS Fellow(美國科學促進會會士),AAAI Fellow(國際人工智能學會會士),IEEE Fellow(國際電氣電子工程學會會士),IAPR Fellow(國際模式識別學會會士)。中國人工智能學會機器學習專業(yè)委員會前任主任,南京大學計算機軟件新技術國家重點實驗室常務副主任。在一流國際期刊和頂級國際會議發(fā)表論文 100 余篇,被引用逾兩萬次,H-index 73,被列入計算機領域 H-index 最高的前 100 位學者。
機器學習作為近年來非常火的一個概念,關注者追隨者甚眾,然而它的淵源及由來卻鮮有人知曉。在這篇周志華老師寫就的文章中,雷鋒網(wǎng)將帶領大家一睹機器學習的兩大派別,領略其在歷史長河中的變遷和進步。本文由雷鋒網(wǎng)編輯,并做了不改動原意的修改。
機器學習現(xiàn)在是一大熱門,研究的人特多,越來越多的新人涌進來。不少人其實并沒有真正想過,這是不是自己喜歡搞的東西,只不過看見別人都在搞,覺著跟大伙兒走總不會吃虧吧。
問題是,真有個「大伙兒」嗎?就不會是「兩伙兒」、「三伙兒」?如果有「幾伙兒」,那到底該跟著「哪伙兒」走呢?
很多人可能沒有意識到,所謂的 machine learning community,現(xiàn)在至少包含了兩個有著完全不同的文化、完全不同的價值觀的群體,稱為 machine learning “communities ”也許更合適一些。
第一個 community,是把機器學習看作人工智能分支的一個群體,這群人的主體是計算機科學家?,F(xiàn)在的「機器學習研究者」可能很少有人讀過 1983 年出的「Machine Learning: An Artificial Intelligence Approach」這本書。這本書的出版標志著機器學習成為人工智能中一個獨立的領域。它其實是一部集早期機器學習研究之大成的文集,收羅了若干先賢(例 如 Herbert Simon,那位把諾貝爾獎、圖靈獎以及各種各樣和他相關的獎幾乎拿遍了的科學天才)的大作,主編是 Ryszard S. Michalski(此君已去世多年了,他可算是機器學習的奠基人之一)、Jaime G. Carbonell(此君曾是 Springer 的 LNAI 的總編)、Tom Mitchell(此君是 CMU 機器學習系首任系主任、著名教材的作者,機器學習界沒人不知道他吧)。Machine Learning 雜志的創(chuàng)刊,正是這群人努力的結果。這本書值得一讀。雖然技術手段早就日新月異了,但有一些深刻的思想現(xiàn)在并沒有過時。各個學科領域總有不少東西,換了新裝之后又粉墨登場,現(xiàn)在熱火朝天的 transfer learning,其實就是 learning by analogy 的升級版。
人工智能的研究從以「推理」為重點到以「知識」為重點,再到以「學習」為重點,是有一條自然、清晰的脈絡。人工智能出身的機器學習研究者,絕大部分 是把機器學習作為實現(xiàn)人工智能的一個途徑,正如 1983 年的書名那樣。他們關注的是人工智能中的問題,希望以機器學習為手段,但具體采用什么樣的學習手段,是基于統(tǒng)計的、代數(shù)的、還是邏輯的、幾何的,他們并不 care。這群人可能對統(tǒng)計學習目前 dominating 的地位未必滿意??拷y(tǒng)計學習是不可能解決人工智能中大部分問題的,如果統(tǒng)計學習壓制了對其他手段的研究,可能不是好事。這群人往往也不 care 在文章里 show 自己的數(shù)學水平,甚至可能是以簡化表達自己的思想為榮。人工智能問題不是數(shù)學問題,甚至未必是依靠數(shù)學能夠解決的問題。人工智能中許多事情的難處,往往在于我們不知道困難的本質在哪里,不知道「問題」在哪里。一旦「問題」清楚了,解決起來可能并不困難。
第二個 community,是把機器學習看作「應用統(tǒng)計學」的一個群體,這群人的主體是統(tǒng)計學家。和純數(shù)學相比,統(tǒng)計學不太「干凈」,不少數(shù)學家甚至拒絕承認統(tǒng)計學是數(shù)學。但如果和人工智能相比,統(tǒng)計學就太干凈了,統(tǒng)計學研究的問題是清楚的,不象人工智能那樣,連問題到底在哪里都不知道。在相當長時間里,統(tǒng)計學家和機器學習一直保持著距離。慢慢地,不少統(tǒng)計學家逐漸意識到,統(tǒng)計學本來就該面向應用,而機器學習天生就是一個很好的切入點。因為機器學習雖然用到各種各樣的數(shù)學,但要分析大量數(shù)據(jù)中蘊涵的規(guī)律,統(tǒng)計學是必不可少的。統(tǒng)計學出身的機器學習研究者,絕大部分是把機器學習當作應用統(tǒng)計學。他們關注的是如何把統(tǒng)計學中的理論和方法變成可以在計算機上有效實現(xiàn)的算法,至于這樣的算法對人工智能中的什么問題有用,他們并不 care。
這群人可能對人工智能毫無興趣,在他們眼中,機器學習就是統(tǒng)計學習,是統(tǒng)計學比較偏向應用的一個分支,充其量是統(tǒng)計學與計算機科學的交叉。這群人對統(tǒng)計學習之外的學習手段往往是排斥的,這很自然,基于代數(shù)的、邏輯的、幾何的學習,很難納入統(tǒng)計學的范疇。
兩個群體的文化和價值觀完全不同。第一個群體認為好的工作,對于第二個群體而言可能覺得沒有技術含量,但第一個群體可能恰恰認為,簡單的才好,正因為很好地抓住了問題本質,所以問題變得容易解決。第二個群體欣賞的工作,第一個群體可能覺得是故弄玄虛,看不出他想解決什么人工智能問題,根本就不是在搞人工智 能、搞計算機,但別人本來也沒說自己是在「搞人工智能」、「搞計算機」,本來就不是在為人工智能做研究。兩個群體各有其存在的意義,應該寬容一點,不需要去互較什么短長。但是既然頂著 Machine Learning 這個帽子的不是「一伙兒」,而是「兩伙兒」,那么要「跟進」的新人就要謹慎了,先搞清楚自己更喜歡「哪伙兒」。
引兩位著名學者的話結尾,一位是人工智能大獎得主、一位是統(tǒng)計學習大家,名字我不說了,省得惹麻煩:
「I do not come to AI to do statistics.」
「I do not have interest in AI.」
附:近期由周志華老師擔任學術主任的《人工智能前沿講習班》于近日開班,其主題為《機器學習前沿》,借用周老師最近在CNCC2016的總結:“深度學習可能有寒冬,但機器學習不會有冬天”。歡迎對機器學習感興趣的同學點擊“閱讀原文”查看詳細信息。
雷峰網(wǎng)版權文章,未經授權禁止轉載。詳情見轉載須知。