丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能開(kāi)發(fā)者 正文
發(fā)私信給三川
發(fā)送

0

別被數(shù)據(jù)分析師騙了!用數(shù)據(jù)說(shuō)謊的三種辦法

本文作者: 三川 2017-04-18 19:17
導(dǎo)語(yǔ):“用數(shù)據(jù)說(shuō)話” VS “用數(shù)據(jù)說(shuō)謊”

別被數(shù)據(jù)分析師騙了!用數(shù)據(jù)說(shuō)謊的三種辦法

雷鋒網(wǎng)按:日前,亞馬遜歐洲商業(yè)智能部門(mén)負(fù)責(zé)人、資深數(shù)據(jù)科學(xué)家 Karolis Urbonas,在發(fā)表了題為《用數(shù)據(jù)說(shuō)謊》的博文。文章總結(jié)了用數(shù)據(jù)誤導(dǎo)人最常見(jiàn)的三種方法。這三種做法,或許大家在潛意識(shí)里都知道,但未必會(huì)把它們與“用數(shù)據(jù)說(shuō)謊”聯(lián)系起來(lái)。

當(dāng)然,作者的目的,是希望數(shù)據(jù)科學(xué)、機(jī)器學(xué)習(xí)從業(yè)者引以為戒。全文由雷鋒網(wǎng)編譯,做了不改變?cè)獾膭h改。

別被數(shù)據(jù)分析師騙了!用數(shù)據(jù)說(shuō)謊的三種辦法

Karolis Urbonas

“用數(shù)據(jù)說(shuō)話”,這句話常被大家掛在口邊。

自大學(xué)起,那些希望我們養(yǎng)成批判、邏輯思維的老師,就一遍遍向我們灌輸“觀點(diǎn)”、“經(jīng)驗(yàn)主義”與“客觀事實(shí)”的區(qū)別,引導(dǎo)學(xué)生如何正確看待“嚴(yán)師出高徒”、“原湯化原食”、“君子坦蕩蕩,小人長(zhǎng)戚戚”、“天將降大任于斯人也,必先……”等等古代“智慧”結(jié)晶。

因此在潛意識(shí)里,會(huì)有人認(rèn)為,高質(zhì)量數(shù)據(jù)代表的就是事實(shí),而基于可靠數(shù)據(jù)的分析與結(jié)論,也應(yīng)當(dāng)是客觀、理性的。

但往往并不如此。

舉個(gè)例子,數(shù)據(jù)分析師會(huì)有意無(wú)意地有所傾向、偏頗,這很難避免;還會(huì)受到來(lái)自周圍同僚、上司的壓力或是期望,又或是項(xiàng)目趕時(shí)間。除此之外,數(shù)據(jù)分析和解讀的過(guò)程也存在天然的風(fēng)險(xiǎn),導(dǎo)致最后的“說(shuō)謊”行為。即便數(shù)據(jù)科學(xué)家的初衷十足高尚,最后的結(jié)果也未必能保證真實(shí)、客觀。

閑話少說(shuō),一起來(lái)看看用數(shù)據(jù)說(shuō)謊的三種方法。

總是用平均數(shù)

平均數(shù)是有史以來(lái)被濫用最嚴(yán)重的參數(shù),到處都有人利用它來(lái)創(chuàng)造謊言。

當(dāng)平均數(shù)被提供,請(qǐng)注意:除非數(shù)據(jù)是標(biāo)準(zhǔn)分布(基本上從來(lái)都不是),否則它不能代表任何反映真實(shí)情況的有價(jià)值信息。這背后的原因很簡(jiǎn)單,用通俗的話來(lái)講,就是大家常說(shuō)的“我上司收入 100 萬(wàn),我收入 20 萬(wàn),兩人的平均收入是 60 萬(wàn)”。在理論上講,平均數(shù)根本無(wú)法反映數(shù)據(jù)的結(jié)構(gòu)分布,而該信息至關(guān)重要。平均值并不是一個(gè)非??煽康亩攘繀?shù),它對(duì)邊緣數(shù)值以及任何偏離標(biāo)準(zhǔn)分布的樣本都非常敏感。

統(tǒng)計(jì)學(xué)家弄明白這一點(diǎn)已經(jīng)有幾十年,但企業(yè)、各類機(jī)構(gòu)、政府仍然把平均數(shù)作為核心統(tǒng)計(jì)參數(shù),并基于它來(lái)對(duì)涉及十億、百億、千億規(guī)模的問(wèn)題做決策,并且掩蓋真實(shí)問(wèn)題。

解決方案是什么呢?

不要用平均數(shù)!從今兒起不再用它,并有意識(shí)地考慮數(shù)據(jù)分布,不要弄出來(lái)一個(gè)只對(duì)個(gè)別情形有參考意義的統(tǒng)計(jì)報(bào)告。第一步,可以從使用中位數(shù)開(kāi)始,并且用 top 99%、bottom 1% 數(shù)值來(lái)對(duì)數(shù)據(jù)進(jìn)行概括。

平均數(shù)作為各門(mén)學(xué)科的權(quán)威參數(shù)已經(jīng)太久,它有太多不加質(zhì)疑的盲目追隨者,我們幾乎已經(jīng)可以把它看做是宗教。這事兒到底是怎么發(fā)生的呢?很久很久以前,自然科學(xué)的標(biāo)準(zhǔn)分布假設(shè)(雷鋒網(wǎng)注:使用平均數(shù)的前提)蔓延到了其他領(lǐng)域,比如商務(wù)分析以及其他商業(yè)數(shù)據(jù)應(yīng)用。這毒害了好幾代的數(shù)據(jù)分析師。

證實(shí)性偏見(jiàn)(ConfirmationBias)

這又是一個(gè)很經(jīng)典的誤導(dǎo)途徑,與心理學(xué)緊密相連。它發(fā)生于你搞清楚將解決的問(wèn)題之前,當(dāng)然,這一步也會(huì)影響該效應(yīng)。數(shù)據(jù)分析師看待需要解決的問(wèn)題的方式或角度,能在根本上改變?cè)镜目陀^立場(chǎng)。一旦牽涉到情感(不論是表達(dá)出來(lái)的,還是潛在的),顯而易見(jiàn)的,該效應(yīng)會(huì)大幅加強(qiáng)。對(duì)于該效應(yīng),一般很難甄別,這也是區(qū)別普通數(shù)據(jù)分析師和大師級(jí)分析師的主要分水嶺。

一個(gè)十分典型的場(chǎng)景,是在時(shí)間不足的情形下被要求完成數(shù)據(jù)分析。這會(huì)產(chǎn)生盡快下結(jié)論的壓力——通常會(huì)有重要決策要根據(jù)分析結(jié)果來(lái)制定。這時(shí)會(huì)有許多偏見(jiàn)、偏差一股腦兒地涌入項(xiàng)目中,證實(shí)性偏見(jiàn)卻是數(shù)據(jù)分析師最心甘情愿上鉤的一種。數(shù)據(jù)分析師隨后根據(jù)心里已有的假設(shè),忙著在最短時(shí)間內(nèi)回答或解決研究問(wèn)題。這意味著第一個(gè)出現(xiàn)的偽相關(guān)就有可能被當(dāng)做是答案。該情況下,分析師會(huì)主動(dòng)尋找能證實(shí)原先假設(shè)的證據(jù),而可能對(duì)其它證據(jù)視而不見(jiàn)。這便是“用數(shù)據(jù)來(lái)配合假設(shè)”。

這發(fā)生于數(shù)據(jù)分析師先入為主,認(rèn)定該問(wèn)題有一個(gè)“正確”的時(shí)候。當(dāng)分析師有意尋找符合該假設(shè)的證據(jù),該偏見(jiàn)便成功地把分析過(guò)程引到歧路。隨后,分析師對(duì)數(shù)據(jù)的壓縮、調(diào)整,僅是為了貼合與假設(shè)一致的結(jié)論。這里,非常重要的措施,是在一開(kāi)始就定義嚴(yán)格的研究要求,并收集支持正反兩面結(jié)論的數(shù)據(jù)和證據(jù)。

數(shù)據(jù)科學(xué)家對(duì)于在數(shù)據(jù)中找出某種模式、合理解釋,常常會(huì)心癢難耐。這時(shí),他們很可能會(huì)忽視一個(gè)事實(shí):并沒(méi)有足夠的數(shù)據(jù)來(lái)下結(jié)論、或回答問(wèn)題。后者是完全正常的。這時(shí)候,也可能問(wèn)題本身需要重新定義。

并不存在的模式

別被數(shù)據(jù)分析師騙了!用數(shù)據(jù)說(shuō)謊的三種辦法

人腦是如此善于在混亂中發(fā)現(xiàn)模式或圖案——有時(shí),它們開(kāi)始發(fā)現(xiàn)并不存在的模式。對(duì)于數(shù)據(jù)科學(xué)家而言,這是非常致命的。許多公司雇傭數(shù)據(jù)分析師就是為了發(fā)現(xiàn)模式,因而,發(fā)現(xiàn)的模式越多,證明該分析師的水平越高、洞察力非同一般,因?yàn)樗吹搅藙e人都看不到的東西。這類建立在謬誤之上的成功,導(dǎo)致許多工作被聚焦于發(fā)現(xiàn)模式、分段以及“非同尋常的東西”。當(dāng)然,許多時(shí)候這些都是正常存在的,真實(shí)數(shù)據(jù)中也會(huì)有許多噪音。

這就導(dǎo)致了很尷尬的局面——數(shù)據(jù)分析師“發(fā)現(xiàn)”了原本并不存在的模式,企業(yè)根據(jù)該結(jié)論做決策,然后這一決策影響了現(xiàn)實(shí)人群,竟然迫使該模式真的出現(xiàn)。簡(jiǎn)直是神奇。舉個(gè)非常簡(jiǎn)單的例子:尋找消費(fèi)者細(xì)分市場(chǎng),然后試圖把他們從一個(gè)市場(chǎng)區(qū)間“轉(zhuǎn)”到另一個(gè)。當(dāng)某細(xì)分市場(chǎng)被企業(yè)營(yíng)銷部門(mén)瞄準(zhǔn),想要把他們推向一個(gè)其實(shí)并不存在的區(qū)間,該神奇的現(xiàn)象就會(huì)發(fā)生,發(fā)揮現(xiàn)實(shí)影響。但是,這種事的風(fēng)險(xiǎn)很大,并且容易導(dǎo)向一系列昂貴的錯(cuò)誤決策。

小結(jié)

這當(dāng)然不是一個(gè)完整的“用數(shù)據(jù)說(shuō)謊”列表。如要徹底學(xué)習(xí),你應(yīng)該學(xué)習(xí)心理學(xué)理論中其它能影響你的主觀判斷以及洞察力的認(rèn)知偏差。 以上是最常見(jiàn)的數(shù)據(jù)分析陷阱,我看到許多分析師不小心掉進(jìn)去,并非故意的制造出數(shù)據(jù)“謊言”而不是尋找真實(shí)情況??陀^并不是一個(gè)容易實(shí)現(xiàn)的目標(biāo),它需要許多自律。

最成功的數(shù)據(jù)科學(xué)家,會(huì)把非常非常多的注意力放在提防這些偏見(jiàn)、偏差上,并對(duì)它們所能導(dǎo)致的這些謊言保持高度警覺(jué)。

via cyborgus

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

別被數(shù)據(jù)分析師騙了!用數(shù)據(jù)說(shuō)謊的三種辦法

分享:
相關(guān)文章

用愛(ài)救世界
當(dāng)月熱門(mén)文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)