1
本文作者: 李尊 | 2016-09-26 19:21 |
聯(lián)合編譯:Blake、高斐
編者注:作者Alec Smith是數(shù)據(jù)科學(xué)領(lǐng)域中資深HR,之所以寫這篇文章是因為經(jīng)常被問到一個問題:“如何才能獲得一份數(shù)據(jù)科學(xué)家的職位?” 不僅這個問題經(jīng)常被問引起了注意,另外問這個問題的人不同的背景也非常很令人感興趣。作者曾經(jīng)和以下這些職業(yè)的人有過類似對話:軟件工程師、數(shù)據(jù)庫開發(fā)者、數(shù)據(jù)架構(gòu)師、保險精算師、數(shù)學(xué)家、學(xué)術(shù)界人士(不同領(lǐng)域)、生物學(xué)家、天文學(xué)家、理論物理學(xué)家—我還能接著往下數(shù)。通過和他們的這些談話,作者發(fā)現(xiàn)在這之中有很大的誤解存在,很多人都非常困惑——為了闖入這個領(lǐng)域的話,他們需要做些什么?
本文是如何成為一名數(shù)據(jù)學(xué)家的第二部分。
我們正在取得進步!成功地消化了第一章的內(nèi)容之后,你現(xiàn)在要做好準備開始制定個人目標(biāo)。但是,我們首先要回顧一下——不妨來杯咖啡,尋一隅安靜之所,深思下面的問題:
1.你為什么想要成為一名數(shù)據(jù)科學(xué)家?
2.對哪一類型的數(shù)據(jù)科學(xué)感興趣?
3.你已經(jīng)具備了哪些天賦或相關(guān)技能?
為什么認真思考這些問題是重要的?
簡而言之:數(shù)據(jù)科學(xué)是一個專業(yè)的研究領(lǐng)域,因而,除非你已經(jīng)掌握了我們在第一章中提到的知識與技能,否則從事該領(lǐng)域的研究并不是一種輕松的選擇。講到這里,有一點對合理解決前兩個問題尤為重要:你需要為從事數(shù)據(jù)科學(xué)領(lǐng)域的研究找到合理的理由,否則,當(dāng)遇到困難時,很容易半途而廢。
為了詳細闡釋上面的觀點,我們來聽聽Dylan Hogg的見地。Dylan之前是一名軟件工程師,現(xiàn)在是數(shù)據(jù)科學(xué)研究協(xié)會的領(lǐng)導(dǎo)者,數(shù)據(jù)科學(xué)研究會為運用機器學(xué)習(xí)(NLP)為雇主和相關(guān)候選人員建立聯(lián)系搭建了一個平臺。Dylan是如何從軟件工程師成功地轉(zhuǎn)型為數(shù)據(jù)科學(xué)家的(他仍然處于轉(zhuǎn)型期),下面我們將討論轉(zhuǎn)型過程中應(yīng)當(dāng)具備的條件,他講到:
“不論學(xué)歷高低,經(jīng)歷豐富與否,有一些內(nèi)在的東西尤為重要,那就是一個人的求知欲、決心和毅力。你會遇到很多困難:也許是算法方面出錯,也許是遇到技術(shù)瓶頸。不論遇到什么樣的困難,你都能夠找到最優(yōu)的方法來研究機器學(xué)習(xí)算法或軟件工程,但是,倘若你的信心不夠堅定,你將會放棄或無法克服遇到的困難。”
這下你會懂了:在學(xué)習(xí)過程中,你不僅僅會遇到困難;在工作生活中,你會接二連三地遇到難題,因而,你最好能夠保證有合理的理由來激勵自己,而不僅僅因為你覺得擁有“科學(xué)家”這一頭銜有多酷。
但是,我們應(yīng)當(dāng)如何應(yīng)對第三個問題?為什么擁有相關(guān)技能是重要的?對,一個人的起點會對選擇最適合自己的數(shù)據(jù)科學(xué)類型及你應(yīng)當(dāng)從自己感興趣的領(lǐng)域?qū)W到的知識產(chǎn)生影響?為了能夠恰當(dāng)?shù)鼗卮疬@個問題,有必要探尋通往數(shù)據(jù)科學(xué)領(lǐng)域的典型途徑,我們應(yīng)當(dāng)首先從更為廣闊的科學(xué)領(lǐng)域開始。
注:在許多定量學(xué)科中有許多人具備向數(shù)據(jù)科學(xué)轉(zhuǎn)型的素質(zhì)。在這里我就不一一列舉了,但是,需要強調(diào)的重點是:如果你花費時間來真正理解每種類型數(shù)據(jù)科學(xué)之間存在的細微差異,不論你的知識背景如何,你都將會意識到自己所具備的相關(guān)技能的重要性。
其他科學(xué)學(xué)科
這不是通往數(shù)據(jù)科學(xué)領(lǐng)域最平凡的道路;我們接下來將要討論統(tǒng)計學(xué)與計算機科學(xué)在數(shù)據(jù)科學(xué)研究中的重要性。但是,許多領(lǐng)域的科學(xué)家都具有嫻熟的相關(guān)技能(特別是物理學(xué)領(lǐng)域),許多人在這一方面已經(jīng)跳過了。
為了對此進行解釋,請允許我介紹Will Hanninger,澳洲聯(lián)邦銀行數(shù)據(jù)科學(xué)家。之前,Will是歐洲核子研究中心的粒子物理學(xué)家,發(fā)現(xiàn)了希格斯玻色子,下面是他的語錄:
“在物理學(xué)界,你能夠自然而然地學(xué)習(xí)到所需要的數(shù)據(jù)科學(xué)領(lǐng)域的知識:編程、操作數(shù)據(jù),獲取原始數(shù)據(jù)并根據(jù)實用性對數(shù)據(jù)進行轉(zhuǎn)換。你能夠?qū)W習(xí)到統(tǒng)計學(xué)知識,重要的是:你將學(xué)到解決問題的能力。這些是作為一名數(shù)據(jù)科學(xué)家應(yīng)當(dāng)具備的基本技能?!?/p>
因此,技能組合具有高度可轉(zhuǎn)換性,最重要的是獲取解決問題的能力。工具與技術(shù)兩者之間將會產(chǎn)生差異,例如,盡管機器學(xué)習(xí)是數(shù)據(jù)科學(xué)的同義詞,但是,就更為寬泛的科學(xué)而言,這種同義關(guān)系是不常見的。在上述討論中,我們一直談及的是高智商人才,他們具有在短時間內(nèi)學(xué)會使用工具與技術(shù)的能力。
下面我們以Sean Farrell的科研經(jīng)歷為例。Sean所學(xué)專業(yè)是天體物理學(xué),之后進入澳大利亞商業(yè)數(shù)據(jù)科學(xué)研究領(lǐng)域,在研究過程,他就“為什么科學(xué)家在數(shù)據(jù)科學(xué)領(lǐng)域的損失反而是收獲”這一題目寫了一篇著名的博文。下面這段話尤為中肯:
“至今為止,尚未發(fā)現(xiàn)一種能夠培養(yǎng)出一位數(shù)據(jù)科學(xué)家的正式訓(xùn)練方法。多數(shù)數(shù)據(jù)科學(xué)家都來自統(tǒng)計學(xué)或計算機科學(xué)領(lǐng)域。然而,盡管其他研究領(lǐng)域也能夠培養(yǎng)上述列舉的技能,但是不能涵蓋所有的相關(guān)技能。統(tǒng)計學(xué)家非常擅長數(shù)學(xué)和統(tǒng)計,通常在編程這一塊兒的技能稍顯欠缺。計算機科學(xué)家非常擅長編程,但是,在理解統(tǒng)計學(xué)知識方面存在難度。兩個領(lǐng)域的科學(xué)家都具備高水平的(盡管不同的)數(shù)據(jù)分析技能,但是不擅長創(chuàng)新性地解決問題,這種技能也是難以教會的?!?/p>
為了避免誤解,請記得我們今天討論的上下文語境。Sean的一席話并不意味著來自統(tǒng)計學(xué)或計算機科學(xué)領(lǐng)域的所有數(shù)據(jù)科學(xué)家都缺乏創(chuàng)新性解決問題的能力;他的觀點是:相比統(tǒng)計學(xué)和計算機科學(xué),廣泛意義上的科學(xué)對解決問題的技能要求很高。
統(tǒng)計學(xué)
談及到科學(xué),應(yīng)當(dāng)仔細研究統(tǒng)計學(xué)。近來,許多統(tǒng)計學(xué)中的分支學(xué)科被重新冠以數(shù)據(jù)科學(xué)之名,因此,在某種程度上,我們好像正在談?wù)撜Z義學(xué)知識。但是,正如我先前談到的,我認為科學(xué)方法應(yīng)當(dāng)被當(dāng)作一門科學(xué):難道提出假設(shè),設(shè)計可行的實驗方案等研究步驟不能稱得上“方法論”嗎?倘若不是的話,也許像“統(tǒng)計學(xué)家”或“模型分析師”這樣的頭銜更為貼切。
暫且將這一問題放一放,倘若你是產(chǎn)業(yè)界的一名統(tǒng)計員或者剛剛從統(tǒng)計學(xué)專業(yè)畢業(yè),那么你可能已經(jīng)擁有成為一名數(shù)據(jù)科學(xué)家應(yīng)當(dāng)具備的知識與素養(yǎng)。相關(guān)知識素養(yǎng)的形成主要依靠以下因素:
首先,你在機器學(xué)習(xí)技能方面有何經(jīng)驗?正如我們在第一章提到的,統(tǒng)計建模與機器學(xué)習(xí)是相互關(guān)聯(lián)的,但是,在應(yīng)用到大型數(shù)據(jù)集中,后者具有更多的優(yōu)勢。當(dāng)機器學(xué)習(xí)在產(chǎn)業(yè)界的應(yīng)用越來越受到關(guān)注,實際上,機器學(xué)習(xí)已經(jīng)成為各種類型的數(shù)據(jù)科學(xué)。
其次,我們再重復(fù)一遍,你對數(shù)據(jù)科學(xué)的哪一領(lǐng)域感興趣?很明顯,擁有統(tǒng)計學(xué)背景更加有利于你勝任A類型職位,因而,如果你將目標(biāo)設(shè)定為B類型職位,未來還需要學(xué)習(xí)很多知識。
最后,你是否擁有處理數(shù)據(jù)的實際經(jīng)驗?正如我們在第一章中提到的,手動轉(zhuǎn)換數(shù)據(jù)是商業(yè)數(shù)據(jù)科學(xué)的重要組成部分,而來自統(tǒng)計學(xué)領(lǐng)域的科學(xué)家手動轉(zhuǎn)換數(shù)據(jù)的能力相對薄弱。
計算機科學(xué)/軟件工程
如果你在人工智能或計算機科學(xué)領(lǐng)域的學(xué)習(xí)已經(jīng)達到前沿水平,你極有可能已經(jīng)能夠勝任B類型的數(shù)據(jù)科學(xué)研究工作。但是,我們這里將要考慮一條數(shù)據(jù)科學(xué)家常走的科研道路:一名經(jīng)驗豐富的軟件工程師想要轉(zhuǎn)型進入數(shù)據(jù)科學(xué)領(lǐng)域。
一名軟件工程師在機器學(xué)習(xí)領(lǐng)域可能富有經(jīng)驗,也可能經(jīng)驗甚少。但是,B類型數(shù)據(jù)科學(xué)要求在軟件工程原則方面擁有扎實的基礎(chǔ),因而,不論怎樣,擁有軟件工程方面的學(xué)術(shù)背景將使你更適合該領(lǐng)域的研究。我曾經(jīng)與澳洲聯(lián)邦銀行高級數(shù)據(jù)科學(xué)家(先前是一名軟件工程師)就此問題交流過,以下是他的觀點:
“大量數(shù)據(jù)科學(xué)工作其實都涉及到軟件工程方面的知識,不僅僅包括設(shè)計健全的系統(tǒng),而且包括簡單地編寫軟件。你可以通過自動化完成眾多任務(wù),如果想要開展實驗,你需要編寫代碼,如果你能夠快速編碼,將對實驗進展產(chǎn)生重大影響。在攻讀博士學(xué)位過程中,我每天要做成千上萬項實驗,如此浩大的工程是不可能通過人工完成的。擁有軟件工程專業(yè)的學(xué)術(shù)背景意味著我能夠快速完成設(shè)定的實驗任務(wù),然而,許多其他學(xué)術(shù)背景的學(xué)生需要費力處理基本的軟件問題:他們真的非常擅長數(shù)學(xué),但是要切實證明他們的觀點還需要耗費大量時間?!?/p>
Dylan對于該問題補充道:
“如果你想要在生產(chǎn)環(huán)境中高效運用機器學(xué)習(xí)算法,良好的軟件工程實踐能力是非常寶貴的。這其中涉及到各種各樣的軟件工程知識——如可維護的代碼,可供分享的代碼庫,以便于更多的人能夠投入到數(shù)據(jù)科學(xué)領(lǐng)域的研究中,如在計算機中記錄信息,排除生產(chǎn)過程中的故障,算法擴展,你應(yīng)當(dāng)認識到:一旦這些知識得到加強,你便能夠通過這樣的方式構(gòu)建數(shù)據(jù)科學(xué)領(lǐng)域的知識框架。因此,如果你正在尋找一份能夠有效利用所掌握的知識的工作,這將使得軟件工程學(xué)術(shù)背景變得更為重要?!?/p>
我認為,上述兩名數(shù)據(jù)科學(xué)家已經(jīng)對如何成功實現(xiàn)轉(zhuǎn)型這一問題做出了詳細闡釋,下面由我來總結(jié)如下:如果你是一名軟件工程師,而且很喜歡數(shù)學(xué),這將有助于你成為一名(B類型)數(shù)據(jù)科學(xué)家,前提是你已經(jīng)做好準備在工作中掌握統(tǒng)計學(xué)/機器學(xué)習(xí)領(lǐng)域的知識。
數(shù)學(xué)
很容易得出這樣一個結(jié)論:數(shù)學(xué)知識為數(shù)據(jù)科學(xué)的所有研究領(lǐng)域打下堅實的基礎(chǔ)。因而,期望許多數(shù)學(xué)家從事數(shù)據(jù)科學(xué)家的研究工作是合理的。但是,相對來講,少之又少的數(shù)學(xué)家成功轉(zhuǎn)型成為數(shù)據(jù)科學(xué)家,這一現(xiàn)象引發(fā)了我濃厚的興趣。
針對這一現(xiàn)象,有一種解釋:與其他研究領(lǐng)域相比,數(shù)學(xué)(純理論數(shù)學(xué)與應(yīng)用數(shù)學(xué))領(lǐng)域有相對較少的畢業(yè)生。但是,這種解釋未免顯得牽強。為了深究導(dǎo)致這種現(xiàn)象的原因,我曾經(jīng)同Building IQ(一家新成立的運用先進的算法優(yōu)化商業(yè)建筑中能源應(yīng)用的公司)首席數(shù)據(jù)科學(xué)家Boris Sackovic交談過。Boris擁有電氣工程與應(yīng)用數(shù)學(xué)雙重學(xué)術(shù)背景,與當(dāng)時許多數(shù)學(xué)家合作過,以下是他對該現(xiàn)象的見解:
“許多數(shù)學(xué)家為理論層面的問題,美麗的方程著迷,能夠洞察眾多數(shù)學(xué)原理所蘊含的深層意義,當(dāng)時商業(yè)數(shù)據(jù)科學(xué)研究講求實證性,涉及到的多種多樣的知識與能力。一些數(shù)學(xué)家喜歡這種實證性,而一些則表現(xiàn)出討厭的態(tài)度。真實的情況更為復(fù)雜,你不能兼顧所有的情況,因而得具備能夠靈活處理所遇到難題的能力。而這是商業(yè)數(shù)據(jù)科學(xué)的重點所在:找到更快更好、切實可行的掙錢方案。對于那些具有濃厚數(shù)學(xué)背景或理論背景的科學(xué)家而言,要理解商業(yè)數(shù)據(jù)科學(xué)領(lǐng)域的運行模式可能存在不少難題。我曾經(jīng)遇到過很多數(shù)學(xué)專業(yè)的博士,他們在由學(xué)術(shù)界向商業(yè)數(shù)據(jù)科學(xué)領(lǐng)域過度期間可是吃了不少苦頭?!?/p>
需要注意的是,Boris在這里談及的是純理論數(shù)學(xué)家,當(dāng)然,他也補充說,在自己的職業(yè)生涯中也曾與許多優(yōu)秀的應(yīng)用數(shù)學(xué)家打過交道。這樣一來上面的討論便講得通了,因為純理論數(shù)學(xué)家可能會吸引那些熱愛理論的人,而不會吸引那些熱愛解決實際問題的人。理論研究工作并未涉及到太多數(shù)據(jù)處理問題,但是,我們都知道數(shù)據(jù)對于數(shù)據(jù)科學(xué)領(lǐng)域的研究極為重要。
就工作類型匹配度問題,多數(shù)數(shù)學(xué)家可能更適合學(xué)習(xí)A類型數(shù)據(jù)科學(xué)領(lǐng)域的工具和理論。但是,也有一些學(xué)習(xí)計算機科學(xué)的(實質(zhì)上,理論計算機科學(xué)屬于數(shù)學(xué)的一個分支)數(shù)學(xué)家,因此,具備這種學(xué)術(shù)背景的數(shù)學(xué)家可能更適合B類型數(shù)據(jù)科學(xué)領(lǐng)域的工作。
從上述討論結(jié)果中可以得出一條非常重要的觀點,即要理解商業(yè)數(shù)據(jù)科學(xué)真正要求數(shù)據(jù)科學(xué)家具備哪些知識和技能。倘若你能夠真正清楚地認識到面臨的挑戰(zhàn),所需要做的便是為了自己的目標(biāo)努力前行。但是,倘若相比實際應(yīng)用,你更熱衷于理論研究,你可能要三思而后行。
一塊空白的畫布
如果你剛剛起步,也許你還是一名學(xué)生,喜歡數(shù)學(xué)、科學(xué)與計算,喜歡數(shù)據(jù)科學(xué),這對你來講不失為一則好消息:你可以不受先前學(xué)術(shù)背景的限制,選擇屬于自己的科研道路。
現(xiàn)在有許多與數(shù)據(jù)科學(xué)相關(guān)的專業(yè)課程,涵蓋計算機科學(xué)和數(shù)學(xué)/統(tǒng)計學(xué)等。當(dāng)然你不可能一夜之間成為一名數(shù)據(jù)科學(xué)家,現(xiàn)階段你需要樹立不斷學(xué)習(xí)的理念,利用各種數(shù)據(jù)科學(xué)領(lǐng)域的學(xué)習(xí)資源, 累積數(shù)據(jù)處理方面的實際經(jīng)驗,具備與人交流溝通的能力,積極迎接商業(yè)數(shù)據(jù)科學(xué)領(lǐng)域未來的挑戰(zhàn)!
相關(guān)閱讀
PS : 本文由雷鋒網(wǎng)獨家編譯,未經(jīng)許可拒絕轉(zhuǎn)載!
via Alec Smith
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。