0
雷鋒網(wǎng)按:本文為「范式大學(xué)系列課程」第 3 篇文章:年薪百萬的機器學(xué)習(xí)專家,為什么不產(chǎn)生價值?
Part 1
一個朋友的企業(yè),他們招聘了 2 名機器學(xué)習(xí)方向的數(shù)據(jù)科學(xué)家,加起來年薪百萬。
但一段時間的蜜月期后,他們發(fā)現(xiàn)機器學(xué)習(xí)專家沒有給公司帶來實際價值。高管們不知道他們具體做了什么,業(yè)務(wù)人員每周都給他們提出預(yù)測需求,卻很少能在短時間得到回應(yīng)。
不到一年,公司和機器學(xué)習(xí)專家們就不歡而散了。
Part 2
巧合的是,從他們公司離職的機器學(xué)習(xí)專家是我的朋友。
當(dāng)我問他這個問題時,他說自己每天都忙得不可開交,卻得不到公司其他人的理解。他和我描述了自己的工作過程。
他花了很多時間搭建了機器學(xué)習(xí)需要的計算環(huán)境。
他花了很多時間做建模前的數(shù)據(jù)清洗和處理。
他花了很多時間做模型選擇和參數(shù)調(diào)整,以得到更好的結(jié)果。
他花了很多時間做實時預(yù)測的功能,為了達(dá)到毫秒級的延遲花費了大量心血。
……
實際上,要完成一個機器學(xué)習(xí)的模型要做很多事情。團(tuán)隊人數(shù)本來就少,事情又多,他的興趣只能集中在模型本身上了。
至于這些模型對應(yīng)的業(yè)務(wù)問題,例如怎么定義問題,確定哪個指標(biāo)?雖然也重要,但他覺得這些主要是業(yè)務(wù)人員去解決的。
(估計業(yè)務(wù)人員也覺得,這是屬于機器學(xué)習(xí)專家解決的事情)
Part 3
實際上,這個問題不是個例,大部分公司在引入機器學(xué)習(xí)專家后,都會面臨這樣的疑問。
來自 MIT 的機器學(xué)習(xí)研究員 Kalyan Veeramachaneni 曾經(jīng)做過一次調(diào)查,在一個 150 個機器學(xué)習(xí)愛好者的小組中,他詢問說:“你們有多少人建立過機器學(xué)習(xí)的模型?”大約有 1/3 的人舉手。而當(dāng)他進(jìn)一步問:“有多少人使用這個模型產(chǎn)生價值并衡量它?”結(jié)果沒有一個人舉手。
換句話說,機器學(xué)習(xí)專家們把 90% 的時間都放在了數(shù)據(jù)準(zhǔn)備、處理、特征工程、建模、調(diào)參上,而背后的業(yè)務(wù)問題和商業(yè)問題, 很多時候沒有納入嚴(yán)格的考慮。
但是要讓數(shù)據(jù)產(chǎn)生真正的價值,就要把數(shù)據(jù)和商業(yè)價值聯(lián)系起來,這至少要花費 50% 以上的精力。
Part 4
相比之下,更為理想的局面是建立機器學(xué)習(xí)工程和商業(yè)價值之間的平衡。一般來說有 5 個原則:
1.從最簡單的模型開始
邏輯回歸或者那些基于隨機森林、決策樹的模型,就足以解決大部分的問題。所以你的重點,應(yīng)該放在縮短數(shù)據(jù)采集和模型建立的時間。
2.探索更多問題
相比于通過一個難以置信的模型探索一個業(yè)務(wù)問題,你應(yīng)該探索數(shù)十個問題,然后為每個問題都創(chuàng)造一個相對簡單的預(yù)測模型,并評估模型背后的商業(yè)價值。
3.用全部的數(shù)據(jù)和特征訓(xùn)練模型
過去機器學(xué)習(xí)的能力不夠,很多時候是依靠人力篩選出樣本數(shù)據(jù)和特征進(jìn)行模型訓(xùn)練。但隨著計算資源越來越便宜,人力成本越來越高,你應(yīng)該用全部的數(shù)據(jù)和特征訓(xùn)練模型,以得到更好的效果。
4.業(yè)務(wù)驅(qū)動模型
讓機器學(xué)習(xí)專家和業(yè)務(wù)人員有更多的配合。實際上,很多想法都來自于業(yè)務(wù)部門的設(shè)想,機器學(xué)習(xí)專家和他們一起探索出對公司有價值的解決方案。
5.專注于自動化
為了更快地獲得第一個模型,縮短探索問題的速度,公司要自動執(zhí)行通常由手動完成的任務(wù)。我們發(fā)現(xiàn)在不同的數(shù)據(jù)問題中,背后都應(yīng)用了類似的數(shù)據(jù)處理技術(shù),無論是在數(shù)據(jù)清洗、準(zhǔn)備階段,還是在數(shù)據(jù)建模階段,亦或是在模型上線階段。
Part 5
這 5 個原則說的是,如果說機器學(xué)習(xí)是一場戰(zhàn)役,過去強調(diào)的是戰(zhàn)士的能力和經(jīng)驗,現(xiàn)在則更為強調(diào)軍火的選擇。
就像在伊拉克戰(zhàn)爭中,美國部隊強調(diào)的是每平方公里的彈藥投放量,最終投放了 60 億顆彈藥。雖然是一個不太恰當(dāng)?shù)谋扔?,但是機器學(xué)習(xí)未來的趨勢就是大規(guī)模機器學(xué)習(xí)平臺的出現(xiàn),通過大規(guī)模計算解決具體的業(yè)務(wù)問題。大規(guī)模機器學(xué)習(xí)平臺,就是企業(yè)未來最重要的軍火。
所以對于機器學(xué)習(xí)專家來說,他也許不能一個人就把事情做完,但是給他工具就可以了。
Part 6
在我的介紹下,那位機器學(xué)習(xí)專家又回到了那家公司,1 個人,1 個月,完成了過去 1 年都沒完成的工作。
參考資料:
Why You’re Not Getting Value from Your Data Science
Data has no value if it lacks a purpose
The Missing Link in Why You're Not Getting Value From Your Data Science
「范式大學(xué)」由第四范式發(fā)起,致力于成為“數(shù)據(jù)科學(xué)家”的黃埔軍校?!阜妒酱髮W(xué)系列課程」會和大家推薦戴文淵、楊強、陳雨強等機器學(xué)習(xí)領(lǐng)域頂尖從業(yè)人士的最新分享,以及由第四范式產(chǎn)品團(tuán)隊推薦和整理的機器學(xué)習(xí)材料。
雷峰網(wǎng)特約稿件,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。