0
編者按:掌握一件工具之前,首先要搞清楚用它做什么。而本質(zhì)是工具的機器學習,近年來逐漸演變成一股潮流。
在美國企業(yè)數(shù)據(jù)方案咨詢師 Eric Brown 看來,當下無數(shù)公司置其數(shù)據(jù)資本和實際問題與不顧,一窩蜂上馬機器學習,實在是荒唐可笑。他特地發(fā)文表達了對該現(xiàn)象的批判和反思。雷鋒網(wǎng)編譯。

Eric Brown
Eric Brown:數(shù)據(jù)科學家要用數(shù)據(jù)說話。從數(shù)據(jù)上來看:你,和你的公司,并不需要機器學習。
我是認真的。
或許你不同意,那么聽我解釋。我說“從數(shù)據(jù)上看”,指的是對于當今世界的絕大多數(shù)公司,機器學習(ML)既非必要也無益處。各公司想要利用 ML 來處理的絕大部分任務(wù),都是十分直接的問題——使用某種形式的回歸即可完美解決。后者或許不是你在高中代數(shù)課上學到的線性回歸,但仍會是某個回歸函數(shù)。雷鋒網(wǎng)了解到,著名經(jīng)濟學家 Robin Hanson 最近發(fā)表了相同觀點,他在推特上說道:

“一個優(yōu)秀的計算機專家會說:大多數(shù)公司以為他們需要先進的 AI、ML 技術(shù),其實,他們真的只需要在干凈的數(shù)據(jù)上做線性回歸。”
這句話中,“干凈的數(shù)據(jù)“是重點。它極度、極度重要,但相當多的公司總是在處理數(shù)據(jù)時忘記、或者忽視這一點。若沒有合格的數(shù)據(jù)質(zhì)量,以及到位的數(shù)據(jù)治理、管理流程和系統(tǒng),有極大的可能性你會陷入垃圾數(shù)據(jù)陷阱——“向模型輸入的是垃圾,輸出的也是垃圾”。太多數(shù)據(jù)項目如此,結(jié)果不了了之。

我并不是一個數(shù)據(jù)管理、數(shù)據(jù)質(zhì)量方面的專家導師。但我對這個領(lǐng)域有一定的了解——足夠讓我清楚不合格、不到位的數(shù)據(jù)管理是什么樣。況且我經(jīng)常遇到這些情況。在我與公司客戶合作、幫助他們開展新數(shù)據(jù)項目的工作經(jīng)歷中(到現(xiàn)在已經(jīng)變成了主要是討論 ML 和深度學習),我問客戶的第一個問題永遠是:“告訴我你的數(shù)據(jù)管理流程”。如果對方不能合理地描述出這些流程,那么很顯然 ML 并不合適——他們還沒有做好準備。
過去的五年里,我估計有 75% 的情況下,客戶對我的數(shù)據(jù)管理問題的回答是:
“ 嗯……我們有一部分數(shù)據(jù)存在一個數(shù)據(jù)庫里,其他數(shù)據(jù)存在有合法權(quán)限的文件共享里?!?/em>
這不是數(shù)據(jù)管理,是數(shù)據(jù)存儲。
如果你或你的公司并沒有高質(zhì)量、干凈的數(shù)據(jù),幾乎可以斷定,你并不適合機器學習(機器學習也不適合你)。搞任何數(shù)據(jù)項目,數(shù)據(jù)管理都是第一步。

來找我的公司機構(gòu)里,有一小部分安排了合格的數(shù)據(jù)管理工作。他們理解對于好的數(shù)據(jù)、好的分析而言,質(zhì)量、治理和管理有多么重要。如果你的公司也是如此——恭喜你,在這方面你已經(jīng)超過了絕大部分競爭對手。
但我要給你潑點冷水。僅僅因為有干凈、高質(zhì)量的數(shù)據(jù),不意味你應(yīng)該/需要搞機器學習。當然你可以搞,但大多數(shù)情況下真沒這個必要。
過去五年向我咨詢過的所有公司里,我會說:他們原本要用機器學習解決的問題,有 90% 最后只用了普通回歸方式就完美解決。每當我推薦用簡單的回歸,來解決客戶眼中的“復雜、高深”問題(雷鋒網(wǎng)?。核麄兿露Q心要研發(fā)多重 ML、DL 模型來對付),人們總是相當驚訝。我也總是不得不向他們解釋,他們可以走機器學習的路線,而且那樣做或許也有價值。但能搞清楚基礎(chǔ)建模、回歸能為你做什么,ML/DL 是否在一些領(lǐng)域比基礎(chǔ)回歸函數(shù)更好,難道不是一件好事嗎?
我還能說啥?那就大膽去做!沒什么能阻擋你一直跋涉到 ML 和 DL 的深水區(qū)。畢竟機器學習有它的用處和舞臺。只是記住:在充分了解你的數(shù)據(jù),搞明白“經(jīng)典”方法能為你要解決的難題做到哪一步之前,不要一股腦兒得栽進機器學習。
via Eric Brown
相關(guān)文章:
自動化機器學習將成為下一個AI研究主流?聽聽數(shù)據(jù)科學家怎么說
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。