丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
人工智能 正文
發(fā)私信給北冥乘海生
發(fā)送

1

21天混入數(shù)據(jù)科學家隊伍(上)

本文作者: 北冥乘海生 2016-10-17 22:14
導語:一天掌握一個,正好三周,你可以找到混入數(shù)據(jù)科學家隊伍的捷徑了。

雷鋒網(wǎng)按:本文原載于KDnuggets,譯者為白雪(某大型國企10年+IT從業(yè)者,初稿譯者)和龍星鏢局(互聯(lián)網(wǎng)從業(yè)者,終稿譯者),文章來自計算廣告(微信id:Comp_Ad),雷鋒網(wǎng)已獲授權。

21天混入數(shù)據(jù)科學家隊伍(上)

在KDnuggets上,《檢測偽數(shù)據(jù)科學家的20個問題》是1月份閱讀量最高的文章,由于作者只是提問而沒有給出答案,這篇文章也讓廚子和火車司機們混入數(shù)據(jù)科學家隊伍的難度大增。

現(xiàn)在好了!KDnuggets的編輯們湊在一塊解答了這些問題。另外,我還增加了一個經(jīng)常被忽略的問題。問題正好是21個,您一天掌握一個,正好三周時間,又可以找到混入數(shù)據(jù)科學家隊伍的捷徑了!

請大家特別注意文中用藍色字體標出的關鍵詞,即便你對于內(nèi)容完全無法理解,只要在日常交流中經(jīng)常使用這些術語,做到耗子啃尿盆兒——一肚子騷詞兒,也能算半個數(shù)據(jù)科學家了。

注:文中提到的一些重要參考資料和相關工具放在了網(wǎng)盤上,可請在公眾號后臺發(fā)送信息“data1”獲取。

第一天:  什么是正則化(regularization)?它有什么作用?【Matthew Mayo解答】

答:正則化項是保證模型平滑性的一個調(diào)節(jié)參數(shù),它可以起到防止過擬合的作用。正則化的通常做法,是將已有的權重向量經(jīng)過L1(Lasso)或者L2(ridge)變換,當然變換也可以是其他形式。最終的模型優(yōu)化目標,是加入了正則化項后的損失函數(shù)。Xavier Amatriain給了一個很好的例子,對L1和L2正則化進行比較。

 21天混入數(shù)據(jù)科學家隊伍(上)

Lp球:p值減小,對應Lp空間也減小

第二天:你最崇拜的數(shù)據(jù)科學家和創(chuàng)業(yè)公司有哪些?【Gregory Piatetsky解答】

答:這個問題沒有標準答案,下面是我個人最崇拜的12位數(shù)據(jù)科學家,排名不分先后。

21天混入數(shù)據(jù)科學家隊伍(上)

12位知名的數(shù)據(jù)科學家

  • Geoff Hinton, Yann LeCun, 和Yoshua Bengio在神經(jīng)網(wǎng)絡方面堅持不懈的努力開啟了當前深度學習(Deep Learning)的革命。

  • Demis Hassabis在DeepMind(AlphaGo發(fā)明者,Google子公司)的突出貢獻,使機器在玩Atari游戲以及最近進行的圍棋比賽中達到了人類或超人類的水平。

  • 來自DataKind的Jake Porway和U. Chicago/DSSG的Rayid Ghani,使數(shù)據(jù)科學可以在社會福利方面有所貢獻。

  • DJ Patil美國政府的第一位首席數(shù)據(jù)科學家,用數(shù)據(jù)科學服務于美國政府。

  • Kirk D. Borne以社交媒體上的影響力和領導力為大家所知。

  • Claudia Perlich在廣告生態(tài)方面有很出色的工作,他還是KDD 2014的主席。

  • Hilary Mason在Bitly的偉大貢獻,激勵著其他人成為大數(shù)據(jù)的搖滾明星。

  • Usama Fayyad在KDD和Data Science展現(xiàn)出的領導力和規(guī)劃才能,幫助和激勵著我和其他千千萬的數(shù)據(jù)科學工作者竭盡全力工作。

  • Hadley Wickham在基于R的數(shù)據(jù)科學和數(shù)據(jù)可視化方面的卓越工作,包括 dplyr, ggplot2, 和 Rstudio。

在數(shù)據(jù)科學領域有很多出色的創(chuàng)業(yè)公司。為了避免利益沖突,我就不將它們都列出來了。

第三天:用多元回歸(multiple regression)生成了一個量化輸出的預測模型,如何驗證其有效性?【Matthew Mayo.解答】

答:驗證多元回歸模型的方法有很多,我們推薦如下的一些方法:

  • 如果模型預測值遠在響應變量范圍之外,那么模型的預估準確性顯然存在問題。

  • 雖然預測值看起來合理,但是參數(shù)存在以下問題,也可以判斷存在預估問題或者多重共線性問題:與期望值相反的跡象;值特別大或特別??;在給模型輸入新數(shù)據(jù)時發(fā)現(xiàn)不一致。

  • 通過向模型輸入新的數(shù)據(jù),來做預測,然后用相關系數(shù)來評價模型的正確性。

  • 把數(shù)據(jù)分成兩份,一份用來訓練模型參數(shù),另一份用來驗證。

  • 如果數(shù)據(jù)集很小,就要使用 jackknife resampling技術,并用R平方和MSE(mean squared error)來測量效度。

第四天:什么是查準率(precision)和查全率(recall)?與ROC曲線的關系?【Gregory Piatetsky解答】

答:計算查準率查全率實際上很簡單。比如,在10,000個實例中有100個正例,如果你預測的結果有200個正例,那么顯然召回這100個正例的概率自然會大一些。根據(jù)你的預測結果和實際的標簽,將結果中正確或者錯誤的次數(shù)分別加起來,有如下四個統(tǒng)計量:

    1、 TN / True Negative:實例是負的,預測也是負的

    2、 TP / True Positive:實例是正的,預測也是正的

    3、 FN / False Negative:實例是正的,但是預測是負的

    4、 FP / False Positive:實例是負的,但是預測是正的

21天混入數(shù)據(jù)科學家隊伍(上)

現(xiàn)在可以回答如下三個問題:

1、 預測正確的百分比是?

回答:精度(accuracy)是(9,760 + 60) / 10,000 = 98.2%

2、 實際為正例的樣本你預測對了多少?

回答:查全率(recall)是60 / 100 = 60%

3、 預測為正例的樣本中實際為正例的百分比?

回答:查準率(precision)是60 / 200 = 30%

21天混入數(shù)據(jù)科學家隊伍(上)

查準率和查全率

ROC曲線體現(xiàn)了靈敏性(召回)[原文:sensitivity, (RECALL)]和特異性(不是精確度)[原文:specificity(Not PRECISION)]之間的關系。通常用于衡量二分類器的好壞。然而,當處理正負樣本分布得極不均勻數(shù)據(jù)集,PR曲線展示信息更具代表性。

第五天:如何證明對一個算法的改進的確是有用的?【Anmol Rajpurohit解答】

答:在對快速迭代(又叫“快速成名”)[原文:rapid innovation (aka “quick fame”)]的追逐中,違反科學方法論的原則常導致誤導性的創(chuàng)新,特別是一些很吸引人但沒經(jīng)過嚴格驗證的觀點??紤]如下場景,你要改進算法的效果,并且有好幾個改進思路。心急的做法,是盡快列出這些思路并實施。當需要支撐數(shù)據(jù)時,只有很局限的結果可以共享,這些結果很容易受到已知或未知的選擇偏差、或者誤導性的全局最優(yōu)(原因是缺乏適當變化的測試數(shù)據(jù))影響。

數(shù)據(jù)科學家最忌諱的是將情感凌駕于邏輯推理之上。雖然證明算法改進有效的方法要看實際案例,但仍有一些通用的指導原則:

  • 確定用于效果評測的測試數(shù)據(jù)沒有選擇偏差(selection bias)。

  • 確保測試數(shù)據(jù)有足夠的變化(variety),以便對真實數(shù)據(jù)有擴展性(有助于避免過擬合)。

  • 確保遵循對照實驗(controlled experiment)原則,比如當對比效果時,確保新舊算法的測試環(huán)境(硬件等)完全一致。

  • 確定試驗(近似)結果可以重復。

  • 檢查結果反映了局部極大值/極小值(local maxima/minima)或是全局極大值/極小值(global maxima/minima)。

遵循以上原則的通常做法是A/B測試,將兩個算法都放到相似的環(huán)境里運行相當長一段時間,并且將實際輸入數(shù)據(jù)隨機的劃分到兩個算法上。這種方法在網(wǎng)絡分析(Web Analytics)中很常用。

第六天:什么是根本原因分析(root cause analysis)?【Gregory Piatetsky解答】

答:維基百科上的解釋是:Root cause analysis (RCA)是確定錯誤或問題根本原因的方法。當把某個因素從問題故障序列中去除,能夠避免最終不良事件的再次發(fā)生,該因素就會被認定為根本原因;反之,誘因影響事件的結果,卻不是根本原因。

根本原因分析最初是用來分析工業(yè)事故,現(xiàn)在已經(jīng)在醫(yī)療保健、項目管理和軟件測試等領域廣泛應用。

本質(zhì)上來說,通過反復問“為什么”,就可以找到一個問題的根本原因和原因之間的關系,直到找到問題的根本。這個方法通常叫做“5 Whys”,當然問題的個數(shù)并不一定是5個。

21天混入數(shù)據(jù)科學家隊伍(上)

“為什么”分析法示例, 來自 The Art of Root Cause Analysis

第七天:你熟悉以下概念嗎?價格優(yōu)化(price optimization)、價格彈性(price elasticity)、庫存管理(inventory management)、競爭情報(competitive intelligence)。請舉例說明?!綠regory Piatetsky解答】

答:這些術語都來自經(jīng)濟學領域,在數(shù)據(jù)科學中并不常見。但是,了解這些術語很有意義。

價格優(yōu)化,是用數(shù)學工具來確定消費者對不同渠道獲得的產(chǎn)品或服務的不同價格的反應。

大數(shù)據(jù)和數(shù)據(jù)挖掘使個性化定價成為可能?,F(xiàn)在,像亞馬遜這樣的公司可以基于用戶的歷史行為,將價格優(yōu)化更進一步,實現(xiàn)不同用戶不同的價格。當然,這樣做是否公平仍存在很大的爭論。

價格彈性,分為需求價格彈性和供給價格彈性:

需求價格彈性是對價格敏感度的一種度量,其計算公式如下:

需求價格彈性 = 需求量變化的百分比 / 價格變化的百分比

[原文:Price Elasticity of Demand = % Change in Quantity Demanded / % Change in Price]供給的價格彈性(Price elasticity of supply)指的是商品或服務的供給數(shù)量隨商品價格變動而變動的情況。

庫存管理,是指對公司在生產(chǎn)過程中使用的各種物品的訂購、儲存和使用的監(jiān)督和控制,以及待售成品數(shù)量的監(jiān)督和控制。

競爭情報,維基百科上的定義如下:

Competitive intelligence: 定義、收集、分析、和發(fā)布有關產(chǎn)品、客戶、競爭對手以及制定戰(zhàn)略決策所需的任何方面的情報。 

像Google Trends, Alexa, Compete等工具都可以在網(wǎng)上獲得總體趨勢,進而分析競爭對手的情況。


第八天:什么是統(tǒng)計功效(statistical power)?【Gregory Piatetsky解答】 

答:維基百科這樣定義二元假設檢驗(binary hypothesis test)的統(tǒng)計功效或者靈敏度(sensitivity):當備選假設(alternative hypthesis)H1為真時,正確地拒絕零假設(null hypothesis)H0的概率。另一種說法,統(tǒng)計功效是當效應(effect)存在時,能夠檢測到效應的可能性。功效越高,出現(xiàn)II類錯誤(Type II error)可能性越低(即檢測結論沒有效應,但事實上是有的。譯者注:即假陰性)。

第九天:什么是重采樣(resampling)?它有什么用?有什么局限?【Gregory Piatetsky解答】

答:經(jīng)典的統(tǒng)計參數(shù)檢測把實測統(tǒng)計量當作理論抽樣分布。而重采樣是數(shù)據(jù)驅(qū)動的,而不是理論驅(qū)動的方法,它是在同一個樣本中反復采樣的技術。

以下各種方法都可以被稱為重采樣:

使用可用數(shù)據(jù)集的子集(jackknifing)或者隨機可重復采樣出一批的數(shù)據(jù)點(bootstrapping)來估計樣本統(tǒng)計量(中位數(shù)、方差、百分位數(shù))[原文:medians, variances, percentiles]的準確率。

在進行顯著性檢驗時交換數(shù)據(jù)點的標記(置換檢驗,也被稱為精確檢驗,隨機化檢驗,或重隨機化檢驗)[原文:permutation tests, also called exact tests, randomization tests, or re-randomization tests]

通過隨機子集驗證模型(bootstrapping,交叉驗證)[原文:bootstrapping, cross validation]

第十天:假陽性(false positive)多還是假陰性(false negative)多比較好?請說明原因?!綝evendra Desale解答】

答:這個問題取決于要解決的問題和領域。

比如,在醫(yī)學檢驗方面,假陰性會給病人和醫(yī)生提供錯誤的檢查信息,但病人有病時卻檢測為沒有病,這會導致病人得不到適合的治療。所以,這個時候我們希望多一些假陽性。

但是,在垃圾郵件過濾時,假陽性意味著會將正常郵件當成了垃圾郵件,從而干擾郵件的傳送。反垃圾郵件除了要能夠夠攔截或過濾大部分的垃圾郵件,但減少假陽性帶來的誤傷也非常重要。所以,這時我們希望多一些假陰性。

第十一天:什么是選擇偏差(selection bias)?它的重要性如何?怎樣才能避免?【Matthew Mayo解答】

答:一般來說,選擇偏差指的是由于非完全隨機的樣本引發(fā)錯誤的一種情況。舉例來說,如果有100個測試樣本,分別由60/20/15/5分成四類組成,但實際的訓練樣本中每類實例數(shù)量又是接近的,那么模型有可能給出錯誤的假設—每類占比是決定性的預測因素。避免非隨機采樣是解決選擇偏差的最好辦法,但當它在實踐中有困難時,使用類似重采樣(resampling)、boosting和加權(weighting)這樣的策略也有助于解決這個問題。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉載。詳情見轉載須知

21天混入數(shù)據(jù)科學家隊伍(上)

分享:
相關文章

專欄作者

計算改變世界,免費驅(qū)動互聯(lián) 。
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說