丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能 正文
發(fā)私信給camel
發(fā)送

0

關(guān)于兩種統(tǒng)計模型文化的思考

本文作者: camel 2019-07-20 14:18
導(dǎo)語:精確性優(yōu)先于可解釋性?

雷鋒網(wǎng)按:本篇文章重新回顧了Breiman于2001年發(fā)表的《Statistical Modeling:The Two Cultures》一文,對數(shù)據(jù)建模和算法建模兩種文化做了詳細的反思,并指出要想發(fā)展統(tǒng)計學(xué),應(yīng)當秉持「先有模型準確性,再有模型可解釋」的觀點。

雷鋒網(wǎng)認為,這是值得深思的一篇文章。一起來看 Koehrsen 的觀點。

關(guān)于兩種統(tǒng)計模型文化的思考

本文作者:Will Koehrsen

編譯:camel,楊曉凡


在 2001 年的論文《Statistical Modeling: The Two Cultures》中,隨機森林、袋模型以及提升集成算法的提出者 Leo Breiman 總結(jié)了應(yīng)對統(tǒng)計建模問題的兩種截然不同的處理方式:

  • 數(shù)據(jù)建模:依靠直覺選擇一個簡單的描述數(shù)據(jù)生成機制的模型(比如線性模型)。這里的考慮重點在于模型的可解釋性以及可驗證性,然后在擬合度的反復(fù)檢驗中期待找到理想的建模結(jié)果。

  • 算法建模:完全不考慮模型的可解釋性,只需要選擇具有最高預(yù)測驗證準確率的模型即可。

當年寫這篇論文的時候,Leo Breiman 估計大約有 98% 的統(tǒng)計學(xué)學(xué)者都習(xí)慣用前一種數(shù)據(jù)建模方法,而使用算法建模方法的只有大概 2%。他自己屬于后者,所以他寫這篇論文的目的就是希望提醒統(tǒng)計學(xué)學(xué)者們,不要完全依賴數(shù)據(jù)建模方法(他認為這會帶來有誤導(dǎo)性的結(jié)論和沒有什么學(xué)術(shù)價值的理論),如今面對越來越大的數(shù)據(jù)集、越來越新穎也越貼近真實世界的問題,大家應(yīng)當轉(zhuǎn)向算法建模。

Breiman自己是位學(xué)者,他在UC伯克利研究統(tǒng)計學(xué)有21年了。不過在此之前他還做過13年的獨立顧問,這讓他同時也非常了解工業(yè)界是如何使用統(tǒng)計學(xué)的。

Breiman當時是很沮喪的,因為他知道數(shù)據(jù)建模沒辦法解決收集到的大規(guī)模數(shù)據(jù)中產(chǎn)生的新挑戰(zhàn),而且統(tǒng)計學(xué)的學(xué)術(shù)研究由于不斷拒絕這些新的工具(高預(yù)測表現(xiàn)、低可解釋性的復(fù)雜算法)而開始走向邊緣化。十八年之后,機器學(xué)習(xí)和統(tǒng)計學(xué)都有了許多變化,98%-2%的比例相信現(xiàn)在也有所不同,但他在論文中提出一些觀點如今仍然能對機器學(xué)習(xí)的實踐起到幫助,尤其是對于正在考慮從學(xué)術(shù)界轉(zhuǎn)向工業(yè)界的人。其中有這么幾點我覺得很有價值:

  • 根據(jù)不同的特征建立的模型經(jīng)常可以達到相似的預(yù)測準確率

  • 對于機器學(xué)習(xí)模型來說,往往需要在模型的可解釋性和預(yù)測表現(xiàn)之間做出權(quán)衡

  • 更多的特征可以提高復(fù)雜算法模型的表現(xiàn)

  • 隨著我們從世界中獲得的信息越來越多,我們的模型也從簡單模型逐漸發(fā)展為了復(fù)雜模型

總的來說,這篇論文想要表達的觀點和我自己在工業(yè)界的機器學(xué)習(xí)實踐中的感悟是相符的:首先關(guān)注模型準確率,然后只有在建立完畢一個具有很好預(yù)測表現(xiàn)的模型之后才開始考慮如何解釋它。一個高度復(fù)雜、高度準確、但難以解釋的模型,要比簡單、線性、完全理解但是預(yù)測準確率低下的模型有價值得多。

下面我談?wù)勗贐reiman這篇論文基礎(chǔ)上的一些個人想法。不過我也需要提前說明,我自己只有一年的學(xué)術(shù)經(jīng)驗和一年的工業(yè)界經(jīng)驗,要比Breiman寫這篇論文的時候稚嫩太多了。我建議各位首先閱讀一下Breiman的原文(以及,可能的話,對這篇論文的批評之聲),形成一個自己的基本判斷。

雖然機器學(xué)習(xí)的發(fā)展驚人地快,但是較早的論文、專著里仍然有許多很有價值的信息值得我們回看,像Breiman這樣對整個領(lǐng)域的發(fā)展產(chǎn)生了巨大影響的知名學(xué)者的論文尤其值得關(guān)注。


統(tǒng)計建模的兩種路線

在我們討論一個好的模型需要考慮哪些因素之前,我們需要首先理解,建模的目標同時包含了這兩點:

  • 預(yù)測:根據(jù)一組新的獨立變量,估計可能的結(jié)果(目標)

  • 信息:對于數(shù)據(jù)的產(chǎn)生過程有更多的了解

在不同的情境中,這兩個目標之間的權(quán)衡可以完全不同:如果你想要預(yù)測股價漲跌,你大概除了模型準確率之外什么都不關(guān)心;而如果是在醫(yī)學(xué)研究中使用,建模的主要目標很可能是為了了解某種疾病的誘因。不過,Breiman也在論文中提出,算法建模的方法其實對于任一個目標都更有優(yōu)勢。

一、數(shù)據(jù)建模

使用數(shù)據(jù)建模方法的研究人員首先構(gòu)建了數(shù)據(jù)生成方式的合理機制。(Breiman認為數(shù)據(jù)模型是線性回歸或邏輯回歸等)也就是說,研究人員想出了一個線性方程,它將自變量(特征)與直覺、經(jīng)驗或領(lǐng)域知識中的因變量(目標)聯(lián)系起來。

通過將其擬合到數(shù)據(jù)集來找到模型中的系數(shù)(特征權(quán)重)。得到的線性方程表示實際的數(shù)據(jù)生成機制——自然界產(chǎn)生因變量和自變量值的黑匣子。系數(shù)用作變量重要性的度量(權(quán)重),顯示特征對響應(yīng)的影響。

在數(shù)據(jù)建模中進行校驗是通過R^2或殘差分析等擬合優(yōu)度度量來完成的——兩者都是在訓(xùn)練數(shù)據(jù)集上測量的。這里很少考慮預(yù)測準確性;相反,模型的重點在于如何更好地解釋研究中的現(xiàn)象。如果系數(shù)上的p值足夠低,那么它們就是“重要的”,模型就成了“真理”,用Breiman的話來說,從模型中得出的任何結(jié)論都是絕對可靠的。

整個過程以直覺和主觀決策為指導(dǎo):研究人員不是讓數(shù)據(jù)說話,而是通過選擇來強加自己的個人理論,例如使用哪些特征以及將哪些數(shù)據(jù)點作為異常值拋出。

Breiman引用了Mosteller和Tukey的教科書來總結(jié)他對數(shù)據(jù)建模的失望:“整個引導(dǎo)回歸領(lǐng)域充滿了知識、統(tǒng)計、計算和主題的困難?!?br/>

換句話說,數(shù)據(jù)建模采用簡單的線性模型和直覺不是從數(shù)據(jù)中學(xué)習(xí)的客觀方法。然而據(jù)Breiman表示,這是98%的學(xué)術(shù)統(tǒng)計學(xué)家采取的方法!

難怪他對自己的領(lǐng)域感到沮喪。

二、算法建模

算法建模方法圍繞著這樣一個問題:模型在校驗數(shù)據(jù)上的性能是什么?

對于選擇模型,不考慮模型是否代表生成數(shù)據(jù)的基礎(chǔ)機制,而只考慮模型是否可以對新(或保持)觀察進行可靠估計。

Breiman將算法文化的興起歸功于新算法的發(fā)明,例如隨機森林(他自己的工作)、支持向量機和神經(jīng)網(wǎng)絡(luò)。這些都是——至少在當時——理論上并未得到很好理解的模型,但產(chǎn)生了非凡的預(yù)測準確性,特別是在大型數(shù)據(jù)集上。

算法社區(qū)的中心思想是:自然是一個黑盒子,我們的模型也應(yīng)該是一個黑盒子。

嘗試解釋一個不準確的模型幾乎沒有用處,因此在專注于從中學(xué)習(xí)任何有關(guān)自然的知識之前,首先要集中精力構(gòu)建具有最佳性能的模型。準確的模型,無論多么復(fù)雜,對于預(yù)測和信息收集都更有用。

算法文化不是來自學(xué)術(shù)統(tǒng)計,而是來自“年輕的計算機科學(xué)家、物理學(xué)家和工程師加上一些老化的統(tǒng)計學(xué)家”。換句話說,那些不怕采用(甚至發(fā)明)新技術(shù)來解決新問題的人。這些是從業(yè)者而不是理論家,他們使用神經(jīng)網(wǎng)絡(luò)和隨機森林來解決從醫(yī)學(xué),到基因組學(xué),到股票市場,到天文學(xué)等各個領(lǐng)域的問題。

Breiman在擔(dān)任企業(yè)顧問時,認識到計算機是一種非常寶貴的工具,因為它能夠?qū)?fù)雜的技術(shù)應(yīng)用于大量數(shù)據(jù)。回到學(xué)術(shù)界后,他對依賴數(shù)據(jù)模型而忽視預(yù)測準確性感到失望。 

即使你的主要目標是通過建模提取有關(guān)自然的信息,首要任務(wù)也應(yīng)該是準確性。

1、模型的多樣性

許多具有不同特征集的模型具有幾乎相同的預(yù)測精度。

我在最初建立的幾個模型中,被一個反復(fù)出現(xiàn)的模式所困擾。我試圖通過測量校驗分數(shù)來選擇“最佳”功能,但每次我嘗試不同的子集時,整體校驗分數(shù)幾乎保持相同。這令人很費解,但反復(fù)出現(xiàn):改變特征,甚至嘗試不同的超參數(shù)值仍然產(chǎn)生類似的性能。 

Breiman說,這沒什么可擔(dān)心的,對于大多數(shù)問題,當使用復(fù)雜模型時,有許多特征和超參數(shù)可以提供大致相同的性能。換句話說,單個最佳模型的想法是不存在的,所以我們不應(yīng)該操心如何找到它。

不過這樣的問題確實讓那些依賴數(shù)據(jù)模型的人感到不安,因為簡單的線性模型不能很好地處理大量特征,所以它們必須從中選擇,通常是用直覺或形式方法的組合。通過選擇特征和通過擬合計算系數(shù)而創(chuàng)建的從特征到目標的映射被假定為表示基礎(chǔ)事實,即數(shù)據(jù)生成過程。但是,如果實際上有許多特征可以提供相同的性能,那么如何才能成為真理的最終來源呢?實際上,有許多同樣好的模型,因此只選擇一個并不能準確地表示問題。

是什么導(dǎo)致模型的多樣性?我的經(jīng)驗是:特征相關(guān)(變量之間的關(guān)聯(lián))。盡管線性回歸假設(shè)輸入變量是獨立的,但在實際數(shù)據(jù)集中,幾乎所有特征都具有一定程度的相關(guān)性,而且通常相當高。因此,一個特征可以替代模型中的另一個特征而不會降低精度。 

構(gòu)建一個單一的數(shù)據(jù)模型并將其稱為真理的來源,會錯過所有其他可以執(zhí)行的模型。算法建模者就不用擔(dān)心選擇特征的問題:只需將它們?nèi)拷唤o隨機森林,讓它找出哪些是重要的;訓(xùn)練之后,要認識到擬合模型只是從特征到目標諸多映射中的一種可能表示。

2、機器學(xué)習(xí)權(quán)衡:簡單和準確

這是一個論文顯示年齡的時代。Breiman當年提出了一個主張,即:復(fù)雜的機器學(xué)習(xí)模型是完全無法解釋的(特別是隨機森林和神經(jīng)網(wǎng)絡(luò))。因此在選擇模型時,他說我們總是需要在可解釋性和提高準確率之間進行權(quán)衡。

然而,過去幾年在解釋負責(zé)模型方面取得了重大進展,特別是SHAP值和局部可解釋模型-不可知解釋(LIME)。這些操作基于構(gòu)建復(fù)雜模型的一般原則,然后使用簡單模型(如線性回歸)解釋其中的一部分(局部)。

(有關(guān)可解釋機器學(xué)習(xí)的課程,請參閱Kaggle的機器學(xué)習(xí)解釋性)。

這些模型解釋技術(shù)可以適用于從隨機森林到神經(jīng)網(wǎng)絡(luò)的任何模型,并提供對各個模型預(yù)測的合理解釋。

不過,Breiman對缺乏可解釋性的擔(dān)憂仍然是有效的。算法開發(fā)的速度比解釋快得多。這可以理解——我們需要在嘗試解釋它們之前確保算法是準確的。解釋不準確模型的預(yù)測沒有用處。現(xiàn)在,模型解釋技術(shù)已經(jīng)趕上了算法,我們可以同時具有預(yù)測背后的推理和高預(yù)測準確性。

雖然我們?nèi)祟惸軌驅(qū)ψ约旱男袨檫M行解釋,但要注意,人類對他們決定的解釋是很糟糕的。一個人做出選擇確實可以給出理由,但這事實上包含了影響決策的環(huán)境、遺傳、情境、情緒、神經(jīng)遞質(zhì)等各種因素。當我們問某人為什么上班遲到,他會告訴我們“因為我采取了不同的地鐵路線”,我們可能會接受這一點并不再提問。我們沒有深入研究推理或提出詳細的后續(xù)行動,因為這會導(dǎo)致更多后續(xù)行動(我們需要知道這個人整個人生歷史,甚至完全解釋他們做出的每一個選擇)。

我發(fā)現(xiàn)人們總想對任何事情得到一個解釋,不管這個解釋多么站不住腳;即使它是一個重言式(男孩將是男孩)或循環(huán)推理(因為我的拼寫很差,我犯了許多拼寫錯誤),人們都有可能接受。

與人類的原因相反,機器學(xué)習(xí)模型輸出的SHAP值則更加全面,它能夠顯示分配給每個變量的確切權(quán)重。從這一點來看,我更喜歡這些模型解釋技術(shù)中的數(shù)字,而不是人類給出的誤導(dǎo)性理由。相比于擔(dān)心模型可解釋性,也許我們更應(yīng)該處理人類決策的問題!

我們在解釋機器學(xué)習(xí)輸出方面取得了比弄清個人行為背后的復(fù)雜影響網(wǎng)絡(luò)方面取得了更多的進展。

3、使用算法模型,更多特征可以提高性能

在我讀研究生時上的數(shù)據(jù)科學(xué)建模課中,教授花了大量的時間使用方差膨脹因子(variance inflation factor)或互信息(mutual information)等技術(shù)進行特征選擇。在實驗室中,我也見到了許多特征選擇幾乎都是由直覺而不是標準化程序選擇的。原因聽起來也很合理:線性模型往往不能很好地處理許多特征,因為它們沒有足夠的能力對特征中的所有信息進行建模。但這里所使用的方法通常是主觀的,這導(dǎo)致模型更多的是人類驅(qū)動,而不是數(shù)據(jù)驅(qū)動。

相比之下,算法模型可以從大量特征中獲益。Breiman指出,更多的變量意味著更多的信息,而更有效的模型應(yīng)該能夠從噪聲中挑選出信號。像隨機森林這樣的模型可以用大量特征得到準確預(yù)測,即使變量的數(shù)量遠超數(shù)據(jù)點的數(shù)量。我們可以為算法模型提供所有特征,并讓它找出于任務(wù)最相關(guān)的特征,而不是花大量時間用直覺去選擇特征。此外,我們還可以根據(jù)現(xiàn)有變量生成輔助特征,以便提取更多信息。

直覺在算法建模文化中沒有地位,這與在數(shù)據(jù)模型不同。如果我們真的想從數(shù)據(jù)中學(xué)習(xí),那么我們就必須信任數(shù)據(jù)本身,而不是我們主觀的觀點。算法建模不需要我們選擇任何的特征;相反,我們保留所有特征,甚至添加更多新的特征,并以更少的工作量來獲得更好的性能。

4、科學(xué):簡單到復(fù)雜

隨著我們對世界的了解,我們需要更復(fù)雜的預(yù)測和學(xué)習(xí)信息的模型。

宇宙的早期模型是將中心置于地球,然后是移到太陽,而現(xiàn)在我們知道即使更大的銀河系也不過是數(shù)十億個星系中渺小的一個。在每一步改進中,模型都變得越來越復(fù)雜,因為我們收集了更多不適合現(xiàn)有模型的信息。牛頓萬有引力定律在幾百年中一直運作良好,直到我們觀察到它的局限性?,F(xiàn)在我們需要愛因斯坦的相對論才能確保GPS系統(tǒng)的準確性。

類似其他領(lǐng)域不斷開發(fā)出更復(fù)雜的模型來解決新的困難(例如為了解決微觀物理問題,人們開發(fā)除了量子力學(xué)),統(tǒng)計學(xué)也應(yīng)該拋棄在實用性方面已經(jīng)過時的線性模型,去擁抱更復(fù)雜的非線性模型。數(shù)據(jù)模型適用于一小部分問題,但我們現(xiàn)在在數(shù)據(jù)科學(xué)中面臨的挑戰(zhàn)要大得多。用于解決這些問題的技術(shù)也應(yīng)當擴展。

科學(xué)的其他部分正朝著更大的復(fù)雜性發(fā)展,為什么統(tǒng)計學(xué)要仍然堅持最簡單的模型呢?

目前,在統(tǒng)計領(lǐng)域仍然存在大量令人興奮的問題等待探索,去設(shè)計最合適的工具,或發(fā)明新的技術(shù)。所以這仍然是一個讓有學(xué)術(shù)抱負的人可以馳騁的學(xué)科。


批評

Breiman在其論文的附錄中貼出了4位統(tǒng)計學(xué)家的批評及對他們的回應(yīng)。我認為這種傳統(tǒng)對于科學(xué)來說是非常好的傳統(tǒng),科學(xué)可以通過公開討論來推進,因為沒有任何一個人能夠有正確的答案,提出一個想法,接受批評,對之改進,形成閉環(huán)的迭代過程,由此在科學(xué)創(chuàng)新上才能取得巨大的成功。

1、簡單模型仍然有用

這是Breiman承認的一點:在某些情況下,線性模型是合適的。例如,如果我們將距離建模為速率的函數(shù),則這是線性關(guān)系:距離=速率×?xí)r間。然而,自然界中很少有現(xiàn)象遵循這樣一個好機制(即使上面的例子幾乎從未在現(xiàn)實世界中存在過。)線性模型可以在非常小的數(shù)據(jù)集(特征很少)中使用,但在處理新問題時很快就會過時,在諸如天文學(xué)、氣候、股票市場預(yù)測、自然語言處理等領(lǐng)域,其數(shù)據(jù)集很大并且包含數(shù)千或更多變量。

算法文化不是放棄數(shù)據(jù)模型。其強調(diào)的重點是:在任何情況下都使用最合適的模型。如果線性模型在數(shù)據(jù)集上能夠獲得最高的預(yù)測準確度,那就選擇它。Breiman的觀點準確來說應(yīng)該是,我們不應(yīng)該提前假設(shè)正確模型。

2、過度擬合校驗數(shù)據(jù)

過度擬合是機器學(xué)習(xí)中的一個基本問題:在部分數(shù)據(jù)集上學(xué)習(xí)到的參數(shù),并不能代表問題面向的所有數(shù)據(jù)。通過選擇具有最佳分數(shù)的模型,我們可能無意中選擇了對未來數(shù)據(jù)概括并不那么好的模型。

但這不是算法模型所特有的問題,盡管使用更復(fù)雜的模型可能更容易過度擬合(因為有更多的自由參數(shù)來訓(xùn)練)。

解決方案不是追溯到更簡單的模型,而應(yīng)該是使用更魯棒的校驗。我個人更喜歡交叉驗證,使用多個訓(xùn)練/測試子集,這樣性能就不會受到隨機選擇的偏差。模型可能仍然會過度擬合(這應(yīng)該被稱為Kaggle效應(yīng)),但魯棒的校驗設(shè)置應(yīng)該能夠在新數(shù)據(jù)上提供一個良好的性能指標。

監(jiān)控模型在生產(chǎn)中的持續(xù)性能也至關(guān)重要。定期檢查模型精度是否降低,可以讓你捕獲模型或數(shù)據(jù)的漂移。一旦發(fā)生這種情況,你就需要構(gòu)建新的模型,收集更多其他數(shù)據(jù)或重新解決問題。

過度擬合是一個嚴重的問題,但可以用正確的方法解決。

3、特征重要性

Breiman 關(guān)于從復(fù)雜模型中提取信息的大部分論點都依賴于「特征重要性」的概念。他在論文中沒有定義,而是在對批評的回應(yīng)中給了定義。他的定義取決于準確率。特征的重要性通過以下問題來衡量:模型中的特征是否會提高性能?

傳統(tǒng)上,變量重要性是從線性模型的權(quán)重系數(shù)確定的。但我們已經(jīng)看到多個特征可以產(chǎn)生相同的性能,因此使用學(xué)習(xí)的權(quán)重作為重要性的度量并不能捕獲任何單一的基本事實。

事實上,變量重要性領(lǐng)域的問題仍未得到完全解決。當變量共線(高度相關(guān))時,由于特征重要性可能在特征之間分開,所以問題依然存在。目前,還沒有一種令人滿意的方法來確定哪些變量是最重要的,但基于準確率的方法比基于權(quán)重的方法更不主觀。SHAP 值提供了變量重要性的每個預(yù)測度量,可以讓我們看到每個特征值對輸出的確切影響。預(yù)測到的特征重要性可能并不代表特征本質(zhì)上的“真實”相關(guān)性,但它可以給我們變量之間的相對比較。

4、建模目標

一些統(tǒng)計學(xué)家認為建模的目標是預(yù)測,因此主張重視信息收集。我的回答是,沒有預(yù)測準確性的模型無法提供有關(guān)問題的任何有用信息。它可能提供模型權(quán)重,但如果不能導(dǎo)致準確預(yù)測,我們?yōu)槭裁匆獓L試從中學(xué)習(xí)呢?相反,我們應(yīng)該首先關(guān)注準確性 —— 也因此,我們知道我們的模型已經(jīng)學(xué)到了一些有用的東西 —— 然后再試著弄清楚模型是如何運作的。

模型必須準確,才能提供有用信息!

試圖去理解一個連簡單的非機器學(xué)習(xí)極限都比不過的線性模型,這本身其實沒有意義。目標集中在準確性上,然后才是花費你的時間來解釋模型。擁有一個還沒有解釋的精確模型,比提供了清晰解釋卻只能產(chǎn)生無意義信息的模型要好得多。


結(jié)論

Breiman 的這篇論文對我從學(xué)術(shù)轉(zhuǎn)向工業(yè)非常重要。一開始,我花費了大量時間試圖理解各種模型背后的理論,或者通過直覺來解決問題,而不是針對準確性并讓數(shù)據(jù)來決定模型。

通過這篇論文,讓我明白了至關(guān)重要的一點:先準確,再解釋。一個模型值得用于知識提取的前提是它有很高的預(yù)測能力;否則就沒有意義。

這在實踐中意味著什么(特別是對于那些在工業(yè)中的人)?很簡單:專注于建立一個強大的校驗方案并找到表現(xiàn)最佳的模型。在你知道模型有效之前,不要花太多時間擔(dān)心模型背后的理論。此外,經(jīng)驗表明,許多模型可以使用不同的特征集生成相同的精度,附加特征可以提高復(fù)雜算法的性能,并且模型可解釋性和準確性之間存在平衡,盡管新技術(shù)在很大程度上縮小了差距。

當我們看到預(yù)測或決定時,我們都想要解釋。但是,我們必須承認,當我們的知識和大腦限制我們時:我們根本無法處理現(xiàn)在面臨的數(shù)據(jù)量,我們必須依靠機器為我們做大部分推理。機器學(xué)習(xí)是用于解決數(shù)據(jù)問題的工具,我們應(yīng)該使用最好的工具。統(tǒng)計學(xué)是一個古老的領(lǐng)域,但這并不意味著它必須一直停留在過去:通過采用最新的算法,統(tǒng)計學(xué)家可以解決建模中出現(xiàn)的挑戰(zhàn)性的新問題。

雷鋒網(wǎng)報道。

原文鏈接:https://towardsdatascience.com/thoughts-on-the-two-cultures-of-statistical-modeling-72d75a9e06c2

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

關(guān)于兩種統(tǒng)計模型文化的思考

分享:
相關(guān)文章
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說