丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給AI研習(xí)社-譯站
發(fā)送

0

給有抱負(fù)的數(shù)據(jù)科學(xué)家的六條建議

本文作者: AI研習(xí)社-譯站 2019-04-09 10:35
導(dǎo)語:現(xiàn)在數(shù)據(jù)科學(xué)的需求量很大,似乎一部分原因是因?yàn)閿?shù)據(jù)科學(xué)家需要有從業(yè)經(jīng)驗(yàn)。

給有抱負(fù)的數(shù)據(jù)科學(xué)家的六條建議

本文為 AI 研習(xí)社編譯的技術(shù)博客,原標(biāo)題 :

Six Recommendations for Aspiring Data Scientists

作者 | Ben Weber

翻譯 | DarrickBM         

校對(duì) | 鄧普斯?杰弗        審核 | 醬番梨       整理 | 立魚王

原文鏈接:

https://towardsdatascience.com/six-recommendations-for-aspiring-data-scientists-93d12aeb9b9


給有抱負(fù)的數(shù)據(jù)科學(xué)家的六條建議

圖片來源: https://www.maxpixel.net/Art-Colourful-Gears-Creativity-Cogs-Colorful-1866468

現(xiàn)在數(shù)據(jù)科學(xué)的需求量很大,似乎一部分原因是因?yàn)閿?shù)據(jù)科學(xué)家需要有從業(yè)經(jīng)驗(yàn)。但其實(shí),許多那些和我工作過的最好的數(shù)據(jù)科學(xué)家都來自不同的背景,從人類學(xué)到神經(jīng)科學(xué)都有,而且要有實(shí)踐經(jīng)驗(yàn)才能脫穎而出。對(duì)于一個(gè)想轉(zhuǎn)行開始數(shù)據(jù)科學(xué)生涯的畢業(yè)生或數(shù)據(jù)分析人員來說,要在這個(gè)領(lǐng)域做一些事來展現(xiàn)自己的技能是很有挑戰(zhàn)的。我會(huì)同時(shí)站在企業(yè)招聘數(shù)據(jù)科學(xué)家的角度和求職者應(yīng)聘數(shù)據(jù)科學(xué)家的角度,來談一談這個(gè)職業(yè)需要的幾點(diǎn)關(guān)鍵經(jīng)驗(yàn):

  1. 親自嘗試過云計(jì)算

  2. 創(chuàng)建過一個(gè)新的數(shù)據(jù)集

  3. 能夠?qū)⒏鞣N信息關(guān)聯(lián)起來

  4. 提供一個(gè)服務(wù)

  5. 做過酷炫的可視化

  6. 寫過白皮書

我將在后面詳細(xì)解釋以上幾點(diǎn)。但首先,數(shù)據(jù)科學(xué)領(lǐng)域最關(guān)鍵的要義還是要能夠創(chuàng)造出能為企業(yè)創(chuàng)造價(jià)值的數(shù)據(jù)產(chǎn)品。一個(gè)能夠創(chuàng)造端到端數(shù)據(jù)產(chǎn)品的數(shù)據(jù)科學(xué)家是企業(yè)的寶貴財(cái)富,因此應(yīng)聘數(shù)據(jù)科學(xué)家的時(shí)候,很必要去證明你有這些技能。

   親身嘗試云計(jì)算

現(xiàn)在許多公司都在找有云計(jì)算經(jīng)驗(yàn)的數(shù)據(jù)科學(xué)家,因?yàn)樵破脚_(tái)提供的工具可以擴(kuò)大數(shù)據(jù)流和預(yù)測(cè)模型的規(guī)模。未來你也可能在日常工作中用上一個(gè)云平臺(tái),比如亞馬遜的AWS和谷歌云平臺(tái)(GCP)。

好消息是許多平臺(tái)提供了免費(fèi)版從而讓更多人能夠了解云平臺(tái)。比如AWS就有免費(fèi)版的EC2實(shí)例和免費(fèi)使用的服務(wù)(比如支持少量請(qǐng)求的Lambda),GCP則提供給用戶300美元的免費(fèi)額度用來試玩平臺(tái)上的絕大部分功能,而Databricks則提供了社區(qū)版本的平臺(tái)。雖然你不能在這些平臺(tái)上免費(fèi)跑大數(shù)據(jù)集,但是你可以積累在平臺(tái)親身實(shí)踐的經(jīng)驗(yàn)。

我的一個(gè)建議是你可以嘗試這些平臺(tái)的不同功能,去看看你是否能夠用一些工具去訓(xùn)練及部署模型。比如我在一篇講模型類服務(wù)的文章中,用了我熟悉的SKlearn,并且研究了如何把一個(gè)模型包裝成Lambda函數(shù)。

   創(chuàng)建一個(gè)新的數(shù)據(jù)集

在課堂上或者在數(shù)據(jù)科學(xué)比賽中,你經(jīng)常需要一個(gè)干凈的數(shù)據(jù)集,從而使整個(gè)項(xiàng)目能集中在數(shù)據(jù)探索和數(shù)據(jù)建模上。然而,在很多實(shí)際項(xiàng)目中,你需要做數(shù)據(jù)整理,從而將原始數(shù)據(jù)集轉(zhuǎn)換成一個(gè)更有利與分析建模的數(shù)據(jù)集。通常,數(shù)據(jù)整理需要收集額外的數(shù)據(jù)集去做數(shù)據(jù)轉(zhuǎn)換。比如我曾處理過美聯(lián)儲(chǔ)的數(shù)據(jù)來更好地理解富裕家庭的資產(chǎn)配置情況。

這是一個(gè)有趣的項(xiàng)目,我用了第三方數(shù)據(jù)去評(píng)估一手?jǐn)?shù)據(jù)的準(zhǔn)確性。所以我的第二個(gè)建議是進(jìn)一步深入實(shí)踐,去構(gòu)建一個(gè)數(shù)據(jù)集。這個(gè)過程會(huì)可能包含從網(wǎng)站爬取數(shù)據(jù),從數(shù)據(jù)統(tǒng)計(jì)網(wǎng)站(如steamspy)采樣數(shù)據(jù),又或者要整合不同數(shù)據(jù)源從而創(chuàng)造一個(gè)新的數(shù)據(jù)集。例如,我在研究生期間創(chuàng)造了一個(gè)星際爭霸(StartCraft)比賽回放的數(shù)據(jù)集,這就能證明我有能力在一個(gè)新生成的數(shù)據(jù)集上做數(shù)據(jù)整理。

   將各種信息關(guān)聯(lián)起來

有一種能力我會(huì)希望數(shù)據(jù)科學(xué)家去展現(xiàn):就是能將不同的組件或者系統(tǒng)連接起來從而完成一項(xiàng)任務(wù)。在數(shù)據(jù)科學(xué)家這個(gè)角色中,也許沒有一個(gè)清晰的路徑來使模型產(chǎn)品化,所以你可能需要構(gòu)造一些獨(dú)特的東西讓系統(tǒng)跑起來。一個(gè)理想化的數(shù)據(jù)科學(xué)團(tuán)隊(duì)會(huì)有工程師來做系統(tǒng)搭建及運(yùn)行,但是原型開發(fā)對(duì)數(shù)據(jù)科學(xué)家來說其實(shí)是一個(gè)很棒的技能,它可以讓你跑得很快。

關(guān)于這點(diǎn),我的建議是去嘗試將不同的系統(tǒng)或組件整合進(jìn)數(shù)據(jù)科學(xué)工作流中。這個(gè)嘗試可以包含用一些工具比如Airflow去開發(fā)一個(gè)數(shù)據(jù)管道。也可以包含搭建連接不同系統(tǒng)的橋梁,例如我在JNI-BWAPI項(xiàng)目中,就開發(fā)了基于Java的接口來連接星際爭霸:母巢之戰(zhàn)的API庫?;蛘呖梢园瑢⒉煌慕M件整合到一個(gè)平臺(tái)上,比如用GCP數(shù)據(jù)流(DataFlow)來獲取BigQuery的數(shù)據(jù)然后應(yīng)用到預(yù)測(cè)模型上,再把預(yù)測(cè)結(jié)果儲(chǔ)存到云數(shù)據(jù)存儲(chǔ)(Cloud Datastore)上。雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)

   提供一個(gè)服務(wù)

作為數(shù)據(jù)科學(xué)家,你將經(jīng)常需要提供服務(wù)來讓公司的其他團(tuán)隊(duì)使用。舉例來說,這可以是一個(gè)Flask應(yīng)用,用來給出一個(gè)深度學(xué)習(xí)模型的計(jì)算結(jié)果。如果你能夠開發(fā)出這個(gè)服務(wù),這意味著其他團(tuán)隊(duì)將能更快地使用到你的數(shù)據(jù)產(chǎn)品。

關(guān)于這點(diǎn),我的建議是嘗試使用一些工具(比如Flask或者Gunicorn)去配置web端點(diǎn)(endpoint),然后用Dash在Python中創(chuàng)建交互式的web應(yīng)用。當(dāng)然,在Docker中嘗試配置這當(dāng)中的一些服務(wù)也會(huì)對(duì)你頗有幫助。

   做過的酷炫的可視化

雖然偉大的工作自然會(huì)脫穎而出,但在你解釋一個(gè)分析或模型如何重要之前,仍有必要獲得眾人的關(guān)注。關(guān)于這點(diǎn),我的建議是學(xué)習(xí)各種可視化工具來創(chuàng)建一個(gè)引人入勝的數(shù)據(jù)可視化。

可視化同時(shí)還能改進(jìn)一系列的工作。

下面的博客展示了我作為數(shù)據(jù)科學(xué)家在過去10年中發(fā)現(xiàn)的一些工具和數(shù)據(jù)集。

做數(shù)據(jù)可視化的10年:

https://towardsdatascience.com/10-years-of-data-science-visualizations-af1dd8e443a7

   寫白皮書

在數(shù)據(jù)科學(xué)的所有技能中,有一項(xiàng)一直以來我都十分推薦,那就是能夠通過白皮書來解釋項(xiàng)目。白皮書是一種概要,它探討了研究如何被應(yīng)用,并提供了關(guān)于研究方法和結(jié)果的詳細(xì)介紹。白皮書是為了讓更多的讀者一目了然地理解你的研究,并且使其他數(shù)據(jù)科學(xué)家也可以在你的基礎(chǔ)上繼續(xù)研究。

博客或其他形式的輸出都可以很好地增加寫作經(jīng)驗(yàn)。我對(duì)這點(diǎn)的建議是嘗試去面向大眾寫一些數(shù)據(jù)科學(xué)的文章,這樣當(dāng)你要表達(dá)你的想法時(shí),你會(huì)知道如何針對(duì)不同人群闡釋不同程度的細(xì)節(jié)。

  結(jié)語

數(shù)據(jù)科學(xué)需要對(duì)很多工具有實(shí)踐經(jīng)驗(yàn)。幸運(yùn)的是,其中越來越多的工具降低了使用門檻,并且讓構(gòu)建數(shù)據(jù)科學(xué)的工作組合變得越來越容易。

Ben Weber,Zynga首席科學(xué)家,Mischief顧問。

想要繼續(xù)查看該篇文章相關(guān)鏈接和參考文獻(xiàn)?

點(diǎn)擊給有抱負(fù)的數(shù)據(jù)科學(xué)家的六條建議即可訪問:

https://ai.yanxishe.com/page/TextTranslation/1585

AI入門、大數(shù)據(jù)、機(jī)器學(xué)習(xí)免費(fèi)教程

35本世界頂級(jí)原本教程限時(shí)開放,這類書單由知名數(shù)據(jù)科學(xué)網(wǎng)站 KDnuggets 的副主編,同時(shí)也是資深的數(shù)據(jù)科學(xué)家、深度學(xué)習(xí)技術(shù)愛好者的Matthew Mayo推薦,他在機(jī)器學(xué)習(xí)和數(shù)據(jù)科學(xué)領(lǐng)域具有豐富的科研和從業(yè)經(jīng)驗(yàn)。

點(diǎn)擊鏈接即可獲?。?a target="_blank" rel=nofollow>https://ai.yanxishe.com/page/resourceDetail/417


雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

給有抱負(fù)的數(shù)據(jù)科學(xué)家的六條建議

分享:
相關(guān)文章

知情人士

AI研習(xí)社(yanxishe.com)譯站頻道,傳播前沿人工智能知識(shí),讓語言不再成為學(xué)習(xí)知識(shí)的門檻。(原雷鋒字幕組)
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說