丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能學(xué)術(shù) 正文
發(fā)私信給MrBear
發(fā)送

0

盲目崇拜數(shù)據(jù),是因?yàn)檫€不曾真正了解數(shù)據(jù)

本文作者: MrBear 編輯:幸麗娟 2019-09-04 14:04
導(dǎo)語(yǔ):這是一幅治療數(shù)據(jù)崇拜癥的良方。

雷鋒網(wǎng)AI科技評(píng)論按:我們正處于數(shù)據(jù)驅(qū)動(dòng)的人工智能浪潮中,在折服于數(shù)據(jù)的強(qiáng)大力量的同時(shí),有些同學(xué)會(huì)對(duì)數(shù)據(jù)望而生畏,盲目崇拜。本文將深入淺出地介紹數(shù)據(jù)收集、統(tǒng)計(jì)、利用的全過程,幫助大家克服「數(shù)據(jù)崇拜癥」。

盡管人腦中存儲(chǔ)的數(shù)據(jù)還有待進(jìn)一步開發(fā)和探索,但不可否認(rèn),我們的感官感覺到的一切都是數(shù)據(jù)!好記性不如爛筆頭,將這些數(shù)據(jù)寫下來貌似會(huì)更可靠一些,特別是將它們寫入電腦。如果我們將這些筆記組織地很好,我們就可以將它們稱為「數(shù)據(jù)」(盡管我也看到有人把一些寫得亂七八糟的近乎于涂鴉的文件也命名為「數(shù)據(jù)」)。說實(shí)話,我不知道為什么有些人會(huì)把數(shù)據(jù)看做很高大上的東西,對(duì)其敬畏有加。

為什么要盲目崇拜數(shù)據(jù)呢?

我們需要學(xué)會(huì)面對(duì)數(shù)據(jù)采取一種平常心的實(shí)用主義態(tài)度,所以本文旨在幫助初學(xué)者了解數(shù)據(jù)背后的秘密,并幫助從業(yè)人員向那些有「數(shù)據(jù)崇拜癥」的新人解釋數(shù)據(jù)的基本知識(shí)。

盲目崇拜數(shù)據(jù),是因?yàn)檫€不曾真正了解數(shù)據(jù)

感知和感官

在開啟數(shù)據(jù)之旅時(shí),如果你直接使用從網(wǎng)上購(gòu)買的數(shù)據(jù)(http://bit.ly/gcp-publicdata),你很有可能會(huì)忘記這些數(shù)據(jù)是從何而來。在本文中,我將從頭開始向大家展示數(shù)據(jù)產(chǎn)生的過程,讀者可以在任何時(shí)間、任何地點(diǎn)創(chuàng)建自己的數(shù)據(jù)。

如下圖所示,地板上擺放著我的食物儲(chǔ)藏柜中常年儲(chǔ)備的「彈藥」。

盲目崇拜數(shù)據(jù),是因?yàn)檫€不曾真正了解數(shù)據(jù)本文作者簡(jiǎn)直堪稱酵母醬代言人。圖中有三種尺寸的酵母醬。

實(shí)際上,這張圖片本身就是數(shù)據(jù)——我們將其作為信息存儲(chǔ)下來,而你的設(shè)備則使用它向你展示豐富的色彩。(如果你想知道,當(dāng)你可以看到圖像的數(shù)字矩陣時(shí),圖像的存儲(chǔ)形式是怎樣的,請(qǐng)參閱本文作者關(guān)于監(jiān)督學(xué)習(xí)的簡(jiǎn)介:http://bit.ly/quaesita_slkid

讓我們來梳理一下我們看到的信息吧!至于你想要關(guān)注什么、記住什么信息,我們有無數(shù)種選擇。下圖是我在觀察這張圖片時(shí),所看到的東西。

盲目崇拜數(shù)據(jù),是因?yàn)檫€不曾真正了解數(shù)據(jù)

以克為單位的重量并不一定是最值得注意的信息。我們可以選擇容量、價(jià)格、原產(chǎn)國(guó)或者其它任何我們關(guān)注的信息作為數(shù)據(jù)的內(nèi)容。

如果閉上你的眼睛,你還能記得剛才你看到的每一個(gè)細(xì)節(jié)嗎?是不是記不太清了?這正是我們需要收集數(shù)據(jù)的重要原因。如果我們能在腦海中完美地記住并且處理它,那就沒有必要收集數(shù)據(jù)了?;ヂ?lián)網(wǎng)就像是隱居在山洞里的世外高人,以上帝視角記錄著人類所有產(chǎn)生的數(shù)據(jù),并且可以將這些數(shù)據(jù)完美地呈現(xiàn)出來。

好記性不如爛筆頭

由于人類的記憶就像是一個(gè)漏斗,如果我們就像在學(xué)校里修統(tǒng)計(jì)學(xué)的「原始年代」中一樣將信息都記錄下來,將會(huì)是很有幫助的。是的,朋友們,我們可以把信息直接記錄在紙上。 

盲目崇拜數(shù)據(jù),是因?yàn)檫€不曾真正了解數(shù)據(jù)就是數(shù)據(jù)。所以,告訴我為什么我們要崇拜數(shù)據(jù)呢?數(shù)據(jù)往往是為了迎合它的人類作者的喜好而對(duì)現(xiàn)實(shí)進(jìn)行的經(jīng)過「加工」之后的描述。這里面充滿了微妙的選擇,我們應(yīng)該記錄物體的干重還是濕重?如何處理容量的單位?而且,我們還可能在創(chuàng)建數(shù)據(jù)時(shí)犯錯(cuò)。如果你繼承并使用我的數(shù)據(jù),那么你就不能只相信你所看到的,除非你知道在數(shù)據(jù)收集的過程中發(fā)生了什么。

記錄在紙上的數(shù)據(jù)(相較于存儲(chǔ)在我的海馬體重的記憶,或者放在地板上的食物)要好得多,它更加耐用、更可靠。

人類的記憶是一個(gè)漏斗。

我們認(rèn)為進(jìn)行「記憶革命」是理所應(yīng)當(dāng)?shù)?,這種革命早在幾千年前就開始了,那時(shí)商人需要一種可靠的方式記錄下「誰(shuí)向誰(shuí)賣了多少蒲式耳的東西」。不妨體會(huì)一下,擁有一個(gè)能夠比我們的大腦更好地存儲(chǔ)數(shù)字的通用書寫系統(tǒng)是一件多么棒的事情。當(dāng)我們記錄數(shù)據(jù)時(shí),我們可能會(huì)對(duì)我們已經(jīng)形成的對(duì)于現(xiàn)實(shí)世界的充分感知的一種破壞。但是在那之后,我們可以通過完全無損的方式將數(shù)據(jù)的副本傳遞出來。將數(shù)據(jù)記錄下來的力量是驚人的!只有很少的思想和記憶會(huì)被遺漏。

當(dāng)我們分析數(shù)據(jù)時(shí),我們正在訪問別人的記憶。

你會(huì)擔(dān)心機(jī)器智能超越人腦嗎?現(xiàn)在看來,僅憑紙張也可以做到這一點(diǎn)。要讓你的大腦記住這 27 個(gè)小數(shù)字并非易事,而如果你將它們記錄在紙上,那就可以長(zhǎng)期保存該信息。

盡管數(shù)據(jù)的持久性得到了保證,但使用紙張?zhí)幚頂?shù)據(jù)會(huì)讓人產(chǎn)生很多煩惱。例如,如果我突發(fā)奇想,想要把這些數(shù)字從大到小重新排列一遍,那該怎么辦呢?難道我們要祈求魔法的幫助,念出「紙??!請(qǐng)給我一個(gè)更好的排序吧!」這樣的咒語(yǔ)嗎?這太荒謬了。

計(jì)算機(jī)和魔法咒語(yǔ)

你知道計(jì)算機(jī)軟件最神奇的地方是什么嗎?它能讓上面的咒語(yǔ)成為現(xiàn)實(shí)!所以,現(xiàn)在讓我們從使用紙張工作進(jìn)化到使用電腦處理數(shù)據(jù)。

盲目崇拜數(shù)據(jù),是因?yàn)檫€不曾真正了解數(shù)據(jù)

電子表格是計(jì)算機(jī)初學(xué)者們接觸到的第一個(gè)數(shù)據(jù)處理軟件。如果你很早就接觸過電子表格,會(huì)因?yàn)槭煜ざ鴮?duì)它們倍感親切。不過,電子表格的功能相當(dāng)有限,這也是數(shù)據(jù)分析師更喜歡用 Python 或 R 語(yǔ)言來處理數(shù)據(jù)的原因。

我覺得電子表格還是弱了一點(diǎn)。與當(dāng)前流行的數(shù)據(jù)科學(xué)工具相比,它們的功能相當(dāng)有限。我更喜歡使用 R 和 Python 語(yǔ)言的組合,那么這次讓我們重點(diǎn)了解一下 R 語(yǔ)言。你可以在你的瀏覽器中使用 Jupyter 開發(fā)環(huán)境執(zhí)行下面的步驟(http://bit.ly/jupyter_try):

  • (1)點(diǎn)擊「with R」(http://bit.ly/jupyter_try);

  • (2)點(diǎn)幾下剪刀圖標(biāo),直到所有的內(nèi)容都被刪除掉;

  • (3)恭喜你,你只需要花 5 秒鐘復(fù)制粘貼下面的代碼片段,然后按下「Shift+Enter」來運(yùn)行它們。

weight <- c(50, 946, 454, 454, 110, 100, 340, 454, 200, 148, 355, 907, 454, 822, 127, 750, 255, 500, 500, 500, 8, 125, 284, 118, 227, 148, 125)

weight <- weight[order(weight, decreasing = TRUE)]

print(weight)

如果你是初學(xué)者,你會(huì)認(rèn)為 R 語(yǔ)言中的排序「咒語(yǔ)」并沒有那么明顯。

然而,「咒語(yǔ)」本身就是這樣,電子表格軟件中的菜單也是這樣。你只知道這些是因?yàn)槟憬佑|過它們,而不是因?yàn)樗鼈儽旧砭褪瞧毡楦怕?。要使用?jì)算機(jī)進(jìn)行工作,你需要向資深「占卜師」們請(qǐng)教這些「魔法咒語(yǔ)/手勢(shì)」,然后勤加練習(xí)。而「互聯(lián)網(wǎng)」則是我最崇敬的「圣人」,它的洞曉世間的一切。

盲目崇拜數(shù)據(jù),是因?yàn)檫€不曾真正了解數(shù)據(jù)

在瀏覽器的 Jupyter 開發(fā)環(huán)境下運(yùn)行代碼片段的結(jié)果。我在代碼中加入了一些注釋,用來解釋每一行的作用。

為了加速的你學(xué)習(xí)「魔法」的進(jìn)程,不要僅僅復(fù)制粘貼這些「咒語(yǔ)」,不妨試著對(duì)它們進(jìn)行修改,看看會(huì)發(fā)生什么。例如,如果將上面代碼片段中的「TURE」改成「FALSE」,會(huì)發(fā)生什么變化?

你很快就可以得到答案,是不是很神奇?。课曳浅釔劬幊?,其中一個(gè)原因就是,它是「魔法咒語(yǔ)」和「樂高積木」的混合體。

如果你希望自己能夠成為神奇的「魔術(shù)師」,那就學(xué)著去寫代碼吧。

簡(jiǎn)單地說,這種編程模式就是:在互聯(lián)網(wǎng)上查詢?nèi)绾巫瞿臣拢媚銊倓倢W(xué)到的「魔術(shù)咒語(yǔ)」,看看如果你對(duì)其進(jìn)行調(diào)整會(huì)發(fā)生什么,然后把它們像樂高積木一樣堆在一起,執(zhí)行你的命令。

數(shù)據(jù)分析和總結(jié)

實(shí)際上,就算這 27 個(gè)數(shù)字被排好了序,對(duì)我們也沒有多大的意義!當(dāng)我們閱讀這一串?dāng)?shù)字時(shí),我們會(huì)忘記剛剛讀過的內(nèi)容。人類的大腦就是這樣,給定排好序的一百萬(wàn)個(gè)數(shù)字的列表,我們最多只能記住最后幾個(gè)數(shù)。我們需要一種快速的方法對(duì)數(shù)據(jù)進(jìn)行排序和總結(jié),這樣我們就會(huì)對(duì)我們?cè)诳吹臄?shù)據(jù)有很好的掌握。

這就是數(shù)據(jù)分析(http://bit.ly/quaesita_datasci)的作用!

median(weight)

使用了正確的「咒語(yǔ)」后,我們就可以馬上知道重量的中位數(shù)是多少。

盲目崇拜數(shù)據(jù),是因?yàn)檫€不曾真正了解數(shù)據(jù)

對(duì)電影的品味和我一樣的人就能看懂這張圖(http://bit.ly/fish_called_wanda

這個(gè)問題的答案是 248g。誰(shuí)不喜歡這種馬上就能得到結(jié)果的函數(shù)呢?!有很多可以用來進(jìn)行總結(jié)的函數(shù)可供選擇:min(),max(),mean(),median(),mode(),variance()...不妨把這些函數(shù)都試試。你也可以試著使用下面這個(gè)神奇的函數(shù),看看會(huì)發(fā)生什么:

summary(weight)

順便說一下,這里得到的東西被稱為統(tǒng)計(jì)量。計(jì)算統(tǒng)計(jì)量會(huì)破壞你的原始數(shù)據(jù)。這不是統(tǒng)計(jì)學(xué)領(lǐng)域的內(nèi)容,有興趣的讀者可以觀看下面這個(gè) 8 分鐘的學(xué)科介紹視頻:http://bit.ly/quaesita_statistics。 

盲目崇拜數(shù)據(jù),是因?yàn)檫€不曾真正了解數(shù)據(jù)

繪圖和數(shù)據(jù)可視化

本節(jié)關(guān)注的是通過圖片對(duì)數(shù)據(jù)進(jìn)行總結(jié)。事實(shí)證明,一圖勝千言,每個(gè)數(shù)據(jù)點(diǎn)都可以通過一張圖代表,也可以用圖片代表很多的數(shù)據(jù)點(diǎn)。(在本例中,我們會(huì)制作一張只包含 27 個(gè)重量數(shù)據(jù)的圖)。 

盲目崇拜數(shù)據(jù),是因?yàn)檫€不曾真正了解數(shù)據(jù)

小費(fèi)罐可以看作自然形成的條形圖,它的高度越高意味著服務(wù)越受歡迎。除了類別是安排好的,直方圖與它幾乎是相同的東西。

如果我們想知道我們數(shù)據(jù)中的重量是是如何分布的,例如,是否有更多的項(xiàng)介于 0 到 200g 之間,還是有更多的項(xiàng)介于 600g 到 800g 之間?那么直方圖是我們的首選。

盲目崇拜數(shù)據(jù),是因?yàn)檫€不曾真正了解數(shù)據(jù)

自然界中的「直方圖」

直方圖是總結(jié)和顯示我們的示例數(shù)據(jù)的方法之一。直方圖中的數(shù)據(jù)塊更高代表這種數(shù)據(jù)出現(xiàn)的更頻繁。

將條形圖和直方圖看做是人氣比賽。

要想在電子圖表軟件中制作直方圖,「魔法咒語(yǔ)」是點(diǎn)擊一長(zhǎng)串的不同的菜單。而在 R 語(yǔ)言中,這個(gè)過程要快得多:

hist(weight)

下面是我們通過這行代碼得到的結(jié)果:

盲目崇拜數(shù)據(jù),是因?yàn)檫€不曾真正了解數(shù)據(jù)

這是一個(gè)看起來很「丑」的直方圖,但是我已經(jīng)習(xí)慣了生活中美好的事務(wù),而且知道你可以通過幾行 R 語(yǔ)言代碼讓它變得更漂亮(http://bit.ly/histogram_tutorial)。拋開美觀性不談,這張圖可以很好地說明基本的知識(shí)。

我們需要關(guān)注什么?

在橫軸上,我們有幾個(gè)「桶」。我們默認(rèn)以 200g 為一個(gè)「桶」的寬度,但是我們很快就可以改變這個(gè)寬度。在縱軸上的刻度是計(jì)數(shù):在數(shù)據(jù)中,我們有多少次看到重量是在 0g 到 200g 之間?直方圖中顯示的是 11 次。那么 600g 到 800g 之間有多少次呢?只有 1 次。(食鹽的重量)。

我們可以自己選擇「桶」的寬度,在不對(duì)代碼進(jìn)行修改的默認(rèn)情況下,我們得到的是寬度為 200g 的「桶」,但是也許我們也應(yīng)該改用寬度為 100g 的「桶」。沒問題!訓(xùn)練中的「魔術(shù)師」可以改進(jìn)我們的「咒語(yǔ)」來發(fā)現(xiàn)它是如何起作用的。

hist(weight, col = "salmon2", breaks = seq(0, 1000, 100))

運(yùn)行結(jié)果如下: 

盲目崇拜數(shù)據(jù),是因?yàn)檫€不曾真正了解數(shù)據(jù)

現(xiàn)在我們可以清楚地看到,最常見的類別是 100-200 和 400-500。真的有人在乎這個(gè)結(jié)果嗎?也許并有。但我們只是想告訴大家我們可以這么做。另一方面,一個(gè)真正的數(shù)據(jù)分析師,應(yīng)該擅長(zhǎng)快速查看數(shù)據(jù),并且掌握尋找有趣的信息的藝術(shù)。如果他們業(yè)務(wù)精湛(http://bit.ly/quaesita_analysts),那就價(jià)值連城了。

什么是數(shù)據(jù)分布?

如果我們繼續(xù)使用這 27 條數(shù)據(jù)(http://bit.ly/quaesita_popwrong),我們也可以使用剛才的直方圖來表示人口分布。

這差不多就是一個(gè)數(shù)據(jù)分布的樣子:如果你針對(duì)整體的人口(所有你關(guān)注的信息,http://bit.ly/quaesita_statistics)數(shù)據(jù),而不是針對(duì)某個(gè)示例(你現(xiàn)在恰好擁有的數(shù)據(jù))應(yīng)用「hist()」函數(shù),你得到的直方圖就可以表示數(shù)據(jù)的分布。

盲目崇拜數(shù)據(jù),是因?yàn)檫€不曾真正了解數(shù)據(jù)

數(shù)據(jù)分布可以為你提供關(guān)于整體人口統(tǒng)計(jì)數(shù)據(jù)的「人氣比賽」結(jié)果。它基本上就是人口直方圖。橫軸:人口數(shù)據(jù)值??v軸:相對(duì)頻率。

如果我們將人口都看做包裝食品,那么分布就會(huì)像所有食品重量的直方圖一樣。這種分布只是我們腦海中的一種理論上的概念——一些包裝食品已經(jīng)消失在時(shí)間的迷霧中了。即使我們想要,我們也不能生成這個(gè)數(shù)據(jù)集,所以我們能做的最好的事情就是使用一個(gè)好的樣本來估計(jì)它。

何為數(shù)據(jù)科學(xué)?

這個(gè)問題的答案眾說紛紜,但我贊成的定義是:「數(shù)據(jù)科學(xué)(http://bit.ly/quaesita_datasci)是使數(shù)據(jù)變得有用的學(xué)科」。它的三個(gè)子領(lǐng)域包括:

(1)挖掘大量信息,從而獲得啟發(fā)(數(shù)據(jù)分析,http://bit.ly/quaesita_analysts

(2)根據(jù)有限的信息明智地做出決策(數(shù)據(jù)統(tǒng)計(jì),http://bit.ly/quaesita_statistics)

(3)使用數(shù)據(jù)中的模式自動(dòng)化任務(wù)(機(jī)器學(xué)習(xí)/人工智能,http://bit.ly/quaesita_emperor

所有的數(shù)據(jù)科學(xué)都可以歸結(jié)為:知識(shí)就是力量。

宇宙間充斥著各種各樣的信息,它們有待于人們發(fā)掘并好好利用。雖然我們的大腦在引導(dǎo)我們完成現(xiàn)實(shí)任務(wù)的方面具有驚人的能力,但它們并不擅長(zhǎng)存儲(chǔ)和處理某些非常有用的信息。

這也就是為什么我們?nèi)祟愐婚_始采用泥版文書的方式記錄數(shù)據(jù),之后用紙張,再之后用硅芯片來記錄數(shù)據(jù)。我們開發(fā)了迅速查看信息的軟件,現(xiàn)在知道如何使用它的人將自己稱作數(shù)據(jù)科學(xué)家或數(shù)據(jù)分析師。而那些開發(fā)出這些工具,并且讓從業(yè)者更好、更快地掌握信息的人,才是真正的幕后英雄。順便說一下,即使是互聯(lián)網(wǎng)也是一種分析工具(我們很少這么想,因?yàn)榧词故切∨笥岩材茏鲞@種「數(shù)據(jù)分析」)。

盲目崇拜數(shù)據(jù),是因?yàn)檫€不曾真正了解數(shù)據(jù)

升級(jí)你的記憶

我們所感知到的一切都會(huì)被存儲(chǔ)在某個(gè)地方(至少是暫時(shí)存儲(chǔ))。數(shù)據(jù)并沒有什么神奇的(除了將它寫下來比用大腦來管理更加可靠)。有些信息是有用的,有些信息是誤導(dǎo)性的,其它信息都沒有太大意義。數(shù)據(jù)也是如此。

我們都是數(shù)據(jù)分析師,一直都是。

我們認(rèn)為我們具有的驚人的生物能力是理所應(yīng)當(dāng)?shù)模⑶铱浯罅宋覀冃畔⑻幚砟芰蜋C(jī)器輔助的各種系統(tǒng)之間的差距。這種不同之處在于持久性、處理速度和規(guī)模...但相同的常識(shí)規(guī)則同時(shí)適用于二者。為什么這些規(guī)則在方程的第一個(gè)符號(hào)出現(xiàn)時(shí)就被忽視了呢? 

盲目崇拜數(shù)據(jù),是因?yàn)檫€不曾真正了解數(shù)據(jù)

你還在盲目崇拜數(shù)據(jù)嗎? 

我很高興能夠?qū)?shù)據(jù)作為人類科學(xué)進(jìn)步的燃料,但盲目崇拜數(shù)據(jù),把它奉為神秘的東西是沒有意義的。我們最好能夠簡(jiǎn)單地討論數(shù)據(jù),因?yàn)閺哪撤N意義上說,人人都是數(shù)據(jù)分析師,一直如此!  雷鋒網(wǎng) 雷鋒網(wǎng)

Via:https://towardsdatascience.com/what-is-data-8f94ae3a56b4

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

盲目崇拜數(shù)據(jù),是因?yàn)檫€不曾真正了解數(shù)據(jù)

分享:
相關(guān)文章

知情人士

當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說