0
本文作者: 恒亮 | 2017-03-27 17:30 |
可能許多剛剛接觸 AI 的新人們都產(chǎn)生過類似這樣的疑問:機器學習和數(shù)理統(tǒng)計,究竟有什么本質(zhì)區(qū)別?不都是玩數(shù)據(jù)的么。
如果從傳統(tǒng)意義上的數(shù)據(jù)分析師的觀點來說,這個問題的答案很簡單,無非是下面這兩點:
● 機器學習本質(zhì)上是一種算法,這種算法由數(shù)據(jù)分析習得,而且不依賴于規(guī)則導向的程序設計;
● 統(tǒng)計建模則是以數(shù)據(jù)為基礎,利用數(shù)學方程式來探究變量變化規(guī)律的一套規(guī)范化流程。
總結(jié)來說,機器學習的關鍵詞是預測、監(jiān)督學習和非監(jiān)督學習等。而數(shù)理統(tǒng)計是關于抽樣、統(tǒng)計和假設檢驗的科學。
這個答案看起來似乎無懈可擊,但其實機器學習和數(shù)理統(tǒng)計之間的關系遠沒有這么簡單。
按照數(shù)理統(tǒng)計學的大師級人物 Larry Wasserman 的說法,實際上“這兩門學科(機器學習和數(shù)理統(tǒng)計)關心的是同一件事,即我們能從數(shù)據(jù)中學到什么?”
根據(jù)他在個人博客中的總結(jié),以下這些在數(shù)理統(tǒng)計和機器學習中的常見術語實際上具有相同的含義。
除此之外,另一位學術界的專家,斯坦福大學著名統(tǒng)計學和機器學習大師 Robert Tibshirani 也一直將機器學習稱為“美化過的統(tǒng)計學”(glorified statistics)。
實際上,發(fā)展到今天,機器學習和統(tǒng)計學技術都已經(jīng)是模式識別、知識發(fā)現(xiàn)和數(shù)據(jù)挖掘等領域的常用技術。雖然根據(jù) SAS 于 2014 年發(fā)布的統(tǒng)計結(jié)果(如下圖),機器學習和數(shù)理統(tǒng)計之間的關系是相互獨立的,但實際上在近兩年他們之間的界限已經(jīng)已經(jīng)越來越模糊,甚至有相互融合的趨勢。
這樣看來,機器學習和數(shù)理統(tǒng)計的確具有相同的目標:從數(shù)據(jù)中學習。他們的核心都是探討如何從數(shù)據(jù)中提取人們需要的信息或規(guī)律。但是,這兩門學科在研究方法上卻有本質(zhì)的區(qū)別。
首先,機器學習是一個比較新的領域,是計算機科學與人工智能的一個分支,它更多地關心如何構建一個系統(tǒng)去分析數(shù)據(jù),而不是針對特定的程序化指令。
而統(tǒng)計建模則完全是數(shù)學的分支。雖然現(xiàn)在廉價的計算能力和海量的可用數(shù)據(jù)的支持下,數(shù)據(jù)科學家們已經(jīng)可以通過數(shù)據(jù)分析來訓練計算機的學習能力,即機器學習。但統(tǒng)計建模相對機器學習而言卻擁有悠久得多的歷史,實際上它早在計算機被發(fā)明之前就存在了。
另一方面,機器學習更多地強調(diào)優(yōu)化和性能,而統(tǒng)計學則更注重推導。
關于這一點,我們或許可以從下面這兩段分別來自統(tǒng)計學家和機器學習研究人員針對同一數(shù)據(jù)模型的描述上得到更深的體會。
● 機器學習研究人員:在給定 a、b 和 c 的前提下,該模型準確預測出結(jié)果 Y 的概率達到了 85%。
● 統(tǒng)計學家:在給定 a、b 和 c 的前提下,該模型準確預測出結(jié)果 Y 的概率達到了 85%;而且我有九成的把握你也會得到與此相同的結(jié)論。
第三,機器學習并不需要對有關變量之間的潛在關系提出先驗假設。研究人員只需要將所有的可用數(shù)據(jù)導入模型,等待算法的分析并輸出其中的潛在規(guī)律,然后將這一規(guī)律應用于新數(shù)據(jù)進行預測就可以了。對于研究人員來說,機器學習就像一個黑盒子,你只需要會用,但并不清楚其中的具體實現(xiàn)。機器學習通常應用于高維度的數(shù)據(jù)集,你的可用數(shù)據(jù)越多,預測通常就越準確。
相比之下,統(tǒng)計學則必須了解數(shù)據(jù)的收集方式,估計量(包括p值和無偏估計)的統(tǒng)計特征,被研究人群的潛在分布規(guī)律,以及多次試驗的期望參數(shù)的類型。研究人員需要非常清楚自己在做什么,并提出具有預測能力的參數(shù)。而且統(tǒng)計建模通常用于較低維度的數(shù)據(jù)集。
總結(jié)來說,我們可以認為機器學習和統(tǒng)計建模是預測建模領域的兩個不同分支。這兩者之間的差距在過去的 10 年中正在不斷縮小,而且它們之間存在許多相互學習和借鑒的地方。未來,它們之間的聯(lián)系將會更加緊密。
對開發(fā)者而言,充分了解機器學習和統(tǒng)計建模之間的差異和聯(lián)系,將有助于他們擴大自己的知識面,甚至將專業(yè)領域之外的分析方法引入研發(fā)流程之中。這一點也正是數(shù)據(jù)科學(data science)本身的核心理念,即彌合機器學習和統(tǒng)計建模之間的區(qū)別,讓二者逐漸趨于歸一化。最后需要肯定的是,這兩門以數(shù)據(jù)驅(qū)動的學科之間的協(xié)作和交流越頻繁,我們的生活就會變得越好。
來源:kdnuggets,雷鋒網(wǎng)編譯
雷鋒網(wǎng)(公眾號:雷鋒網(wǎng))相關閱讀:
一張圖看懂數(shù)據(jù)科學家、數(shù)據(jù)工程師和軟件工程師之間的區(qū)別
數(shù)據(jù)科學入門難?老司機為你盤點 24 門精品課程
雷峰網(wǎng)版權文章,未經(jīng)授權禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。