丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
人工智能 正文
發(fā)私信給AI研習社-譯站
發(fā)送

0

杰出數(shù)據(jù)科學家的關鍵技能是什么?

本文作者: AI研習社-譯站 2019-02-13 10:54
導語:關鍵在于知道如何根據(jù)數(shù)據(jù)創(chuàng)建分析視圖。

杰出數(shù)據(jù)科學家的關鍵技能是什么?

本文為 AI 研習社編譯的技術博客,原標題 :

What is the key skill that the best data scientists have?

作者 | André Sionek

翻譯 | kylechenoO、Ophria

校對 | 醬番梨          整理 | 菠蘿妹

原文鏈接:

https://towardsdatascience.com/what-is-the-key-skill-that-the-best-data-scientists-have-655edea228ac


學習如何應用不同的Python或R算法真的很簡單:眾所周知, 我們只需要修改一兩行代碼,就能將線性回歸遷移到神經(jīng)網(wǎng)絡、SVM,或者你喜歡的其他模型。

定義超參數(shù)也不是那么困難:只需為這些參數(shù)創(chuàng)建一個交叉驗證和網(wǎng)格搜索,以提高模型精度。部署一個模型可能會更為復雜,需要有一點點耐心和堅持、大量的教程和不斷嘗試與試錯,您就可以上傳一個每分鐘可以處理數(shù)百萬個請求的模型(或者您可以使用諸如marvin這樣的工具,它將替你做大量的工作)。但究竟是什么讓你突顯出你的優(yōu)勢呢?最優(yōu)秀的數(shù)據(jù)科學家需要掌握的關鍵技能又是什么?

簡而言之:關鍵在于知道如何根據(jù)數(shù)據(jù)創(chuàng)建分析視圖。

交易數(shù)據(jù)庫-那些存儲交易數(shù)據(jù)的數(shù)據(jù)庫,如訂單、付款、訪問日志等-是為存儲應用程序交易數(shù)據(jù)而定制的,對數(shù)據(jù)科學沒有直接幫助。構建這些數(shù)據(jù)庫的開發(fā)人員卻不這么認為,也許不應該考慮如何使用這些數(shù)據(jù)進行分析。他們只是簡單地創(chuàng)建了數(shù)據(jù)模型,以提高應用程序的性能。

嘗試創(chuàng)建基于事務的機器學習模型是行不通的,除非你希望對某一項事務進行預測。數(shù)據(jù)科學家工作時通常需要基于數(shù)據(jù)分析。那么,究竟應該如何基于數(shù)據(jù)分析呢?它又如何區(qū)別于基于事務?


  分析數(shù)據(jù)庫究竟是什么?

分析數(shù)據(jù)庫是為了某項特定的研究而設計的?;诳蛻袅魇У念A測與基于購物車中的產(chǎn)品推薦不同。然而,兩者的數(shù)據(jù)源可能是相同的:事務性數(shù)據(jù)庫??蛻袅魇ьA測必須對每個客戶的行為數(shù)據(jù)進行分組,因此可以隨著時間的推移觀察客戶的行為。至于產(chǎn)品推薦,數(shù)據(jù)必須按會話分組,以預測哪些項目與購物車關聯(lián)。

杰出數(shù)據(jù)科學家的關鍵技能是什么?

能夠創(chuàng)建分析數(shù)據(jù)庫比精通多種算法更重要。

了解如何創(chuàng)建分析基礎是數(shù)據(jù)科學家需要培養(yǎng)的最重要技能之一。同時,它也是課程、MOOC和教程中教得較少的課程之一。為了將事務性數(shù)據(jù)轉換為可以分析的數(shù)據(jù),必須真正了解你正在處理的業(yè)務。這一點,加上批判性思維,是正確界定問題的基礎。

創(chuàng)建目標與分析數(shù)據(jù)一致性并不容易:它需要一個長期的調研過程,這往往會讓您的經(jīng)理失望。

數(shù)據(jù)科學家經(jīng)常需要target來訓練他/她的模型。如果看一看Kaggle,你會發(fā)現(xiàn)無數(shù)的比賽和數(shù)據(jù)集,其中的target已經(jīng)定義,并可以在培訓和評估中直接使用。但是,事務性數(shù)據(jù)庫通常沒有準備好的target。數(shù)據(jù)科學家必須明確客戶何時需要放棄服務, 以便創(chuàng)建客戶流失模型。并且需要定義什么是不良付款行為,即使難以預測到。創(chuàng)建目標和分析數(shù)據(jù)一致性并不是那么容易:它需要一個長期的調查過程,這通常會讓您的經(jīng)理失望(直到現(xiàn)在,他們都相信自己擁有所有的數(shù)據(jù),他們所需要的只是一個數(shù)據(jù)科學家)。

事實上,數(shù)據(jù)科學遠大于將數(shù)據(jù)輸入模型并評估性能指標的即插即用過程。


數(shù)據(jù)探索

設想一種情況,在這種情況下,您有一個數(shù)據(jù)庫,幾個銷售分析師根據(jù)行為概況對銷售線索進行分類。為了對客戶進行分類,分析師必須在談判過程中判斷銷售線索的行為,然后為客戶選擇一個適當?shù)拿枋霾⑻顚懸粡埍砀瘛N覀冞@里有一些潛在的問題:

  1. 在同一談判過程中,分析師對潛在客戶的判斷不一定與其他分析師的判斷相同。不同的分析師可以對同一個潛在客戶可能會進行不同的分類。

  2. 分析師真的了解每個行為特征代表什么嗎?是否有明確的標準來將潛在客戶分類為“描述X”而不是“描述Y”?

  3. 在收集期間,流程是否發(fā)生變化,如插入新的行為類別/描述?如果是這樣的話,那么在定義目標時,你必須決定如何考慮它們。

  4. 如何收集數(shù)據(jù)?在與潛在客戶的每次新接觸中,行為模式是否都會改變,以便分析師真正選擇最佳的模式?

  5. 管理者是否要求準確地對其分類?如果要求分析師回答的只是一個“無聊”的過程,那么很有可能有些分類是“因為他們必須”填寫的。當行為模式總是以相同的順序呈現(xiàn)給分析師時,這個問題變得更加明顯:目標可能偏向于第一個選項。

在這個過程之后,您可能會得出這樣的結論:到目前為止收集的數(shù)據(jù)是完全無用的,因為沒有標準和過程。這肯定會讓很多人失望(甚至你也可能會失望)。


  為信用違約預測創(chuàng)建分析數(shù)據(jù)庫(行為評分)

為了使創(chuàng)建分析數(shù)據(jù)庫的過程更清晰,讓我們看看正確定義問題和創(chuàng)建用于執(zhí)行預測的分析數(shù)據(jù)庫所需的一組過程的示例。

杰出數(shù)據(jù)科學家的關鍵技能是什么?

創(chuàng)建一個預測客戶信用違約的模型涉及一系列業(yè)務和技術決策,這些決策必須由數(shù)據(jù)科學家做出。

假設你與金融服務部門合作,并且面臨以下問題:

我們需要創(chuàng)建一個模型來識別哪些客戶在不久的將來不會支付他們的發(fā)票。

為此,你需要創(chuàng)建描述客戶付款的變量。然后有必要創(chuàng)建一個回歸模型,能夠區(qū)分好的和壞的付款人。最后,你需要計算客戶好壞的概率。


1.定義目標是什么

在數(shù)據(jù)庫中的任何地方都找不到一個類別變量,它指示某個客戶是好的還是壞的付款人。首先,有必要定義什么是好客戶或壞客戶。為此,我們可以研究逾期付款。例如,你可能會發(fā)現(xiàn)平均延遲為20天,但75%的發(fā)票在到期日后17天內支付。

你可以通過逾期天數(shù)內的付款來設計累積分布。因此,你將能夠核實,30天后,87%的發(fā)票已經(jīng)支付。但6個月后,這個百分比將上升到90%。然后,我們可以使用貝葉斯推理來預測客戶在逾期30天后支付發(fā)票的概率。

代碼查看請點擊鏈接:https://ai.yanxishe.com/page/TextTranslation/1405

我們可以得出的結論是,如果客戶的付款已經(jīng)延遲了30天,那么他/她將來償還債務的可能性非常低(只有23%)。要決定什么是好的或壞的付款行為,需要對業(yè)務有深入的了解,因為你需要了解這種可能性是否足夠低,以便將延遲30天以內的客戶分類為好的付款方,而那些超過30天的客戶則是壞的付款方。 


2.創(chuàng)建觀察和性能框架

我們感興趣的是,利用過去一段時間內客戶行為的數(shù)據(jù),預測未來一段時間內客戶違約的可能性。選擇這些框架的大小是一個比統(tǒng)計更重要的業(yè)務/談判決策,請記住,它們必須足夠大,能夠包含多個客戶的行為觀察結果。窗口太短會增加觀察結果的方差,因此模型會失去精度。

定義:

根據(jù)客戶過去12個月的行為,我想預測他/她在未來6個月內成為一個好付款人的可能性。

為了實現(xiàn)這一定義,你需要:

  • 定義至少比當前日期早6個月的觀察點。

  • 定義一個觀察框架,該框架在觀察點之前12個月開始并在其中結束。

  • 定義一個性能框架,該框架在觀察點之后擴展6個月。

  • 定義一個好的付款人是什么。我們剛才做的!

杰出數(shù)據(jù)科學家的關鍵技能是什么?

在創(chuàng)建分析數(shù)據(jù)庫的過程中,時間框架問題是一個非常重要的步驟。

注意,這個定義帶來了一些含義:

  • 你需要至少18個月的數(shù)據(jù)

  • 你的預測必然會有一個時間框架。每次運行模型時,它都會計算出未來6個月內的默認概率。

  • 在分析數(shù)據(jù)庫中創(chuàng)建特征時,觀察點和時間范圍的大小始終是您的參考。


3.創(chuàng)建目標功能

既然我們已經(jīng)定義了什么是我們的目標,什么是觀察和性能框架,我們就可以最終在數(shù)據(jù)庫上創(chuàng)建目標了。為此,您將計算績效時間范圍內每個客戶的最大逾期天數(shù),并根據(jù)以下規(guī)則創(chuàng)建一個好的付款方變量:

if max(delay) >= 30 days then is bad = 0
If max(delay) < 30 days then is good = 1

因此,如果在履行期限內,客戶的付款延遲超過30天,即使發(fā)票延遲付款,他/她也將被歸類為不良。

我們輸入0代表壞,1代表好,因為我們要定義分數(shù)越高,默認概率越低。


4.除外條款

現(xiàn)在我們需要對業(yè)務結構有廣泛的了解,所以我們可以從我們的基地執(zhí)行一些排除。實例:

  • 排除觀察點沒有信用額度的所有客戶

  • 排除在觀察點發(fā)票過期超過30天的所有客戶,因為我們已經(jīng)知道他們是壞人

  • 排除所有從未進行過交易的客戶


5.特色結構

對于本研究,必須按客戶對基礎進行分組。每個變量必須描述觀察時間框架內客戶的特定行為。以下是一些可處理變量的示例:

杰出數(shù)據(jù)科學家的關鍵技能是什么?

創(chuàng)建的分析數(shù)據(jù)庫示例,用于提供預測客戶違約的行為評分模型。

狀態(tài):個人信息功能-表示客戶居住的省/州

年齡:個人信息功能-表示在觀察點計算的客戶年齡

性別:個人信息功能-表示客戶的性別

MOB:客戶簽到到觀察點后的月數(shù)

平均限額:觀察12個月內限額使用的平均百分比

最大限值:觀察12個月內最大限值使用百分比

采購總額:觀察12個月內的采購總額

dpd_op:觀察點過期天數(shù)

max_dpd:觀察12個月內到期的最長天數(shù)。如果所有發(fā)票都提前支付,則可能為負數(shù)。

平均每日住院天數(shù):觀察12個月內到期的平均天數(shù)。如果所有發(fā)票都提前支付,則可能為負數(shù)。

到期前數(shù)量:觀察12個月內到期前支付的發(fā)票數(shù)量。

好的付款人:target-表示客戶在績效窗口的6個月內,發(fā)票是否延遲超過30天。


6.表現(xiàn)的時間到了!

現(xiàn)在我們終于要討論建立一個模型了!你現(xiàn)在可以應用你在數(shù)據(jù)科學課程中學到的所有知識。您的分析基礎已經(jīng)設計好,可以開始在這種情況下數(shù)據(jù)處理和應用模型的行動。

最簡單的解決方案是使用上面創(chuàng)建的變量應用邏輯回歸,以預測好的付款人目標。模型將為每個客戶返回0和1之間的值,表明他/她是一個好付款人的概率。

務必正確解釋結果:

分數(shù)將表明某個客戶在未來6個月內不會延遲付款超過30天的可能性。


你喜歡嗎?

這篇文章對你有用嗎?分享!我說了什么蠢話嗎?糾正我!想添加一些內容嗎?請留言!


想要繼續(xù)查看該篇文章相關鏈接和參考文獻?

長按鏈接點擊打開【杰出數(shù)據(jù)科學家的關鍵技能是什么?】:

https://ai.yanxishe.com/page/TextTranslation/1405


AI研習社每日更新精彩內容,觀看更多精彩內容:雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)

命名實體識別(NER)綜述

杰出數(shù)據(jù)科學家的關鍵技能是什么?

初學者怎樣使用Keras進行遷移學習

如果你想學數(shù)據(jù)科學,這 7 類資源千萬不能錯過


等你來譯:

如何在神經(jīng)NLP處理中引用語義結構 

你睡著了嗎?不如起來給你的睡眠分個類吧! 

高級DQNs:利用深度強化學習玩吃豆人游戲

深度強化學習新趨勢:谷歌如何把好奇心引入強化學習智能體 


雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉載。詳情見轉載須知。

杰出數(shù)據(jù)科學家的關鍵技能是什么?

分享:
相關文章

知情人士

AI研習社(yanxishe.com)譯站頻道,傳播前沿人工智能知識,讓語言不再成為學習知識的門檻。(原雷鋒字幕組)
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說