機(jī)器學(xué)習(xí)的本質(zhì)就是數(shù)理統(tǒng)計(jì)？答案可能沒這么簡單

本文作者：恒亮

2017-03-27 17:30

導(dǎo)語：可能許多剛剛接觸 AI 的新人們都產(chǎn)生過類似這樣的疑問：機(jī)器學(xué)習(xí)和數(shù)理統(tǒng)計(jì)，究竟有什么本質(zhì)區(qū)別？不都是玩數(shù)據(jù)的么。

可能許多剛剛接觸 AI 的新人們都產(chǎn)生過類似這樣的疑問：機(jī)器學(xué)習(xí)和數(shù)理統(tǒng)計(jì)，究竟有什么本質(zhì)區(qū)別？不都是玩數(shù)據(jù)的么。

如果從傳統(tǒng)意義上的數(shù)據(jù)分析師的觀點(diǎn)來說，這個(gè)問題的答案很簡單，無非是下面這兩點(diǎn)：

● 機(jī)器學(xué)習(xí)本質(zhì)上是一種算法，這種算法由數(shù)據(jù)分析習(xí)得，而且不依賴于規(guī)則導(dǎo)向的程序設(shè)計(jì)；
● 統(tǒng)計(jì)建模則是以數(shù)據(jù)為基礎(chǔ)，利用數(shù)學(xué)方程式來探究變量變化規(guī)律的一套規(guī)范化流程。

總結(jié)來說，機(jī)器學(xué)習(xí)的關(guān)鍵詞是預(yù)測、監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí)等。而數(shù)理統(tǒng)計(jì)是關(guān)于抽樣、統(tǒng)計(jì)和假設(shè)檢驗(yàn)的科學(xué)。

這個(gè)答案看起來似乎無懈可擊，但其實(shí)機(jī)器學(xué)習(xí)和數(shù)理統(tǒng)計(jì)之間的關(guān)系遠(yuǎn)沒有這么簡單。

相同點(diǎn)

按照數(shù)理統(tǒng)計(jì)學(xué)的大師級人物 Larry Wasserman 的說法，實(shí)際上“這兩門學(xué)科（機(jī)器學(xué)習(xí)和數(shù)理統(tǒng)計(jì)）關(guān)心的是同一件事，即我們能從數(shù)據(jù)中學(xué)到什么？”

根據(jù)他在個(gè)人博客中的總結(jié)，以下這些在數(shù)理統(tǒng)計(jì)和機(jī)器學(xué)習(xí)中的常見術(shù)語實(shí)際上具有相同的含義。

機(jī)器學(xué)習(xí)的本質(zhì)就是數(shù)理統(tǒng)計(jì)？答案可能沒這么簡單

除此之外，另一位學(xué)術(shù)界的專家，斯坦福大學(xué)著名統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)大師 Robert Tibshirani 也一直將機(jī)器學(xué)習(xí)稱為“美化過的統(tǒng)計(jì)學(xué)”（glorified statistics）。

實(shí)際上，發(fā)展到今天，機(jī)器學(xué)習(xí)和統(tǒng)計(jì)學(xué)技術(shù)都已經(jīng)是模式識(shí)別、知識(shí)發(fā)現(xiàn)和數(shù)據(jù)挖掘等領(lǐng)域的常用技術(shù)。雖然根據(jù) SAS 于 2014 年發(fā)布的統(tǒng)計(jì)結(jié)果（如下圖），機(jī)器學(xué)習(xí)和數(shù)理統(tǒng)計(jì)之間的關(guān)系是相互獨(dú)立的，但實(shí)際上在近兩年他們之間的界限已經(jīng)已經(jīng)越來越模糊，甚至有相互融合的趨勢。

機(jī)器學(xué)習(xí)的本質(zhì)就是數(shù)理統(tǒng)計(jì)？答案可能沒這么簡單

這樣看來，機(jī)器學(xué)習(xí)和數(shù)理統(tǒng)計(jì)的確具有相同的目標(biāo)：從數(shù)據(jù)中學(xué)習(xí)。他們的核心都是探討如何從數(shù)據(jù)中提取人們需要的信息或規(guī)律。但是，這兩門學(xué)科在研究方法上卻有本質(zhì)的區(qū)別。

不同點(diǎn)

首先，機(jī)器學(xué)習(xí)是一個(gè)比較新的領(lǐng)域，是計(jì)算機(jī)科學(xué)與人工智能的一個(gè)分支，它更多地關(guān)心如何構(gòu)建一個(gè)系統(tǒng)去分析數(shù)據(jù)，而不是針對特定的程序化指令。

而統(tǒng)計(jì)建模則完全是數(shù)學(xué)的分支。雖然現(xiàn)在廉價(jià)的計(jì)算能力和海量的可用數(shù)據(jù)的支持下，數(shù)據(jù)科學(xué)家們已經(jīng)可以通過數(shù)據(jù)分析來訓(xùn)練計(jì)算機(jī)的學(xué)習(xí)能力，即機(jī)器學(xué)習(xí)。但統(tǒng)計(jì)建模相對機(jī)器學(xué)習(xí)而言卻擁有悠久得多的歷史，實(shí)際上它早在計(jì)算機(jī)被發(fā)明之前就存在了。

另一方面，機(jī)器學(xué)習(xí)更多地強(qiáng)調(diào)優(yōu)化和性能，而統(tǒng)計(jì)學(xué)則更注重推導(dǎo)。

關(guān)于這一點(diǎn)，我們或許可以從下面這兩段分別來自統(tǒng)計(jì)學(xué)家和機(jī)器學(xué)習(xí)研究人員針對同一數(shù)據(jù)模型的描述上得到更深的體會(huì)。

● 機(jī)器學(xué)習(xí)研究人員：在給定 a、b 和 c 的前提下，該模型準(zhǔn)確預(yù)測出結(jié)果 Y 的概率達(dá)到了 85%。
● 統(tǒng)計(jì)學(xué)家：在給定 a、b 和 c 的前提下，該模型準(zhǔn)確預(yù)測出結(jié)果 Y 的概率達(dá)到了 85%；而且我有九成的把握你也會(huì)得到與此相同的結(jié)論。

第三，機(jī)器學(xué)習(xí)并不需要對有關(guān)變量之間的潛在關(guān)系提出先驗(yàn)假設(shè)。研究人員只需要將所有的可用數(shù)據(jù)導(dǎo)入模型，等待算法的分析并輸出其中的潛在規(guī)律，然后將這一規(guī)律應(yīng)用于新數(shù)據(jù)進(jìn)行預(yù)測就可以了。對于研究人員來說，機(jī)器學(xué)習(xí)就像一個(gè)黑盒子，你只需要會(huì)用，但并不清楚其中的具體實(shí)現(xiàn)。機(jī)器學(xué)習(xí)通常應(yīng)用于高維度的數(shù)據(jù)集，你的可用數(shù)據(jù)越多，預(yù)測通常就越準(zhǔn)確。

相比之下，統(tǒng)計(jì)學(xué)則必須了解數(shù)據(jù)的收集方式，估計(jì)量（包括p值和無偏估計(jì)）的統(tǒng)計(jì)特征，被研究人群的潛在分布規(guī)律，以及多次試驗(yàn)的期望參數(shù)的類型。研究人員需要非常清楚自己在做什么，并提出具有預(yù)測能力的參數(shù)。而且統(tǒng)計(jì)建模通常用于較低維度的數(shù)據(jù)集。

結(jié)論

總結(jié)來說，我們可以認(rèn)為機(jī)器學(xué)習(xí)和統(tǒng)計(jì)建模是預(yù)測建模領(lǐng)域的兩個(gè)不同分支。這兩者之間的差距在過去的 10 年中正在不斷縮小，而且它們之間存在許多相互學(xué)習(xí)和借鑒的地方。未來，它們之間的聯(lián)系將會(huì)更加緊密。

對開發(fā)者而言，充分了解機(jī)器學(xué)習(xí)和統(tǒng)計(jì)建模之間的差異和聯(lián)系，將有助于他們擴(kuò)大自己的知識(shí)面，甚至將專業(yè)領(lǐng)域之外的分析方法引入研發(fā)流程之中。這一點(diǎn)也正是數(shù)據(jù)科學(xué)（data science）本身的核心理念，即彌合機(jī)器學(xué)習(xí)和統(tǒng)計(jì)建模之間的區(qū)別，讓二者逐漸趨于歸一化。最后需要肯定的是，這兩門以數(shù)據(jù)驅(qū)動(dòng)的學(xué)科之間的協(xié)作和交流越頻繁，我們的生活就會(huì)變得越好。

來源：kdnuggets，雷鋒網(wǎng)編譯

雷鋒網(wǎng)(公眾號：雷鋒網(wǎng))相關(guān)閱讀：

一張圖看懂?dāng)?shù)據(jù)科學(xué)家、數(shù)據(jù)工程師和軟件工程師之間的區(qū)別

數(shù)據(jù)科學(xué)入門難？老司機(jī)為你盤點(diǎn) 24 門精品課程

雷峰網(wǎng)版權(quán)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。