丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能開發(fā)者 正文
發(fā)私信給孔慶強(qiáng)
發(fā)送

0

不均衡數(shù)據(jù)怎么破?對付它的七種武器!

本文作者: 孔慶強(qiáng) 2017-06-14 18:02
導(dǎo)語:大多數(shù)機(jī)器學(xué)習(xí)算法在不均衡數(shù)據(jù)集的表現(xiàn)都不太好,希望以下七種技術(shù)可以幫到你。

不均衡數(shù)據(jù)怎么破?對付它的七種武器!

先問大家一個(gè)問題:

銀行欺詐識別、市場實(shí)時(shí)交易、網(wǎng)絡(luò)入侵檢測等領(lǐng)域的數(shù)據(jù)集,有哪些共通點(diǎn)?

答案是:“關(guān)鍵”事件在數(shù)據(jù)中的占比經(jīng)常少于1%(例如:信用卡行騙者、點(diǎn)擊廣告的用戶或被攻破的服務(wù)器的網(wǎng)絡(luò)掃描)。

然而,大多數(shù)機(jī)器學(xué)習(xí)算法在不均衡數(shù)據(jù)集的表現(xiàn)都不太好。以下七種技術(shù)可以幫到你,訓(xùn)練一個(gè)分類器用于檢測不正常類別數(shù)據(jù)。


不均衡數(shù)據(jù)怎么破?對付它的七種武器!

 1. 使用正確指標(biāo)評估權(quán)值

對于不均衡數(shù)據(jù)生成的模型,使用不恰當(dāng)?shù)脑u估方法很危險(xiǎn)。架設(shè)訓(xùn)練數(shù)據(jù)是上圖展示的數(shù)據(jù)。若準(zhǔn)確度是衡量模型好壞的指標(biāo),把所有測試樣本為劃分為“0”,將得到非常高的準(zhǔn)確率(99.8%),但顯然,這模型不能為我們提供任何有價(jià)值的信息。

 對于這個(gè)情況,可以用其它評估指標(biāo):

  • 準(zhǔn)確率(Precision/Specificity): 選擇的實(shí)例有多少是相關(guān)的;

  • 召回率(Recall/Sensitivity): 選擇了多少相關(guān)實(shí)例;

  • F值(F1 score): 準(zhǔn)確率與召回率的調(diào)和平均數(shù);

  • MCC: 觀察值與預(yù)測值之間的相關(guān)性系數(shù);

  • AUC: 正陽性與假陽性的關(guān)系。

2. 訓(xùn)練集重抽樣 

除了使用不同的評估標(biāo)準(zhǔn),還可以想辦法獲取其他數(shù)據(jù)集。有兩種方法能把不均衡數(shù)據(jù)集轉(zhuǎn)化為均衡數(shù)據(jù)集那就是欠抽樣以及過抽樣。

2.1.欠抽樣

欠抽樣通過刪減大比例類的樣本量來平衡數(shù)據(jù)集。這方法適用于數(shù)據(jù)量充足的情況。通過保留所有的小比例類數(shù)據(jù)樣本并從大比例類數(shù)據(jù)中隨機(jī)選取同等數(shù)量的樣本,產(chǎn)生一個(gè)新的可用于后續(xù)模型的均衡數(shù)據(jù)集。

2.2.過抽樣

反之,當(dāng)數(shù)據(jù)量不足時(shí)則采用過抽樣方法。通過增加小比例類的樣本量來平衡數(shù)據(jù)集。不再是去掉冗余樣本,通過如數(shù)據(jù)復(fù)制(repetition)、拔靴法(boostrapping)或合成少數(shù)過采樣技術(shù)(SMOTE)產(chǎn)生了新的小比例類樣本[1]。

注意:兩種方法沒有絕對優(yōu)勢。關(guān)鍵是看情況使用兩種方法。過抽樣與欠抽樣合組合使用也常有效解決不均衡問題。

3. 恰當(dāng)使用K-折交叉驗(yàn)證法

值得注意的是,當(dāng)使用過抽樣法來解決不均衡問題時(shí),交叉驗(yàn)證法是需要合理應(yīng)用的。

雷鋒網(wǎng)提醒:過抽樣法會(huì)提取出小比例類的觀察數(shù)據(jù) ,用拔靴法根據(jù)分布函數(shù)隨機(jī)生成新數(shù)據(jù)。如果交叉驗(yàn)證法在過抽樣后使用,基本上會(huì)讓模型過擬合到一個(gè)特別的偽拔靴法結(jié)果。這就是為什么交叉驗(yàn)證應(yīng)該在過抽樣前完成,正如如何實(shí)現(xiàn)特征選擇。只有當(dāng)數(shù)據(jù)反復(fù)地重抽樣,數(shù)據(jù)集才具有隨機(jī)性來確保不會(huì)有過擬合問題。

4. 融合不同的重抽樣數(shù)據(jù)集 

成功泛化一個(gè)模型,最簡單的方法是使用更多數(shù)據(jù)。問題是,現(xiàn)成的分類器,如邏輯回歸或隨機(jī)森林,傾向于通過拋棄掉小比例類數(shù)據(jù)進(jìn)行泛化。一個(gè)簡單的實(shí)踐方法,是使用所有小比例類樣本,和劃分為n份的互斥大比例類樣本,共同建立n個(gè)模型。例如保留 1000個(gè)小比例類別樣本,對大比例類別隨機(jī)抽樣10,000個(gè)樣本,你只需要把10,000個(gè)樣本分為10份并訓(xùn)練10個(gè)不同的模型。

不均衡數(shù)據(jù)怎么破?對付它的七種武器!


這方法很簡單,并在水平方向完美的可擴(kuò)展 (假如你有很多的數(shù)據(jù)),因?yàn)槟憧梢栽诓煌毓?jié)點(diǎn)上訓(xùn)練并跑你的模型。模型融合泛化效果更好,這使得這方法易于處理。

5. 不同的比率重抽樣 

上述方法,還可以通過調(diào)整小比例類別與大比例類別之間不同的比率來調(diào)優(yōu)。最佳比率十分依賴于數(shù)據(jù)和使用的模型。但不要用同樣的比率去訓(xùn)練 ensemble 里的所有模型,值得試著用不同比率模型融合。所以如果訓(xùn)練10個(gè)模型,一個(gè)模型使用1:1的比率(少類別:多類別)、另一個(gè)使用1:3、或2:1可能都合理。取決于模型,這會(huì)影響類別的權(quán)重。


不均衡數(shù)據(jù)怎么破?對付它的七種武器!

6. 聚類多類別

Sergey在Quora提出了一個(gè)優(yōu)雅的方法 [2]。不再依賴隨機(jī)抽樣,去保留訓(xùn)練樣本的多樣性,他建議把大比例類別聚類進(jìn)r個(gè)組,r是它里面的案例數(shù)。對于每個(gè)組,僅保留質(zhì)心(聚類的中心)。然后模型僅用小比例類別和質(zhì)心數(shù)據(jù)進(jìn)行訓(xùn)練。

7.設(shè)計(jì)你自己的模型 

所有之前的方法注重?cái)?shù)據(jù),并保持模型不變。但實(shí)際上,假如模型適合于不均衡數(shù)據(jù),那就不需要對數(shù)據(jù)重抽樣。假如數(shù)據(jù)傾斜不是太嚴(yán)重,采用著名的XGBoost算法是一個(gè)很好的開始,因?yàn)樗鼜膬?nèi)部確保訓(xùn)練的數(shù)據(jù)包不會(huì)是不均衡的。在算法內(nèi)部,數(shù)據(jù)其實(shí)秘密地重抽樣了。

設(shè)計(jì)一個(gè)成本函數(shù),對小比例類別誤分類的懲罰,要多于大比例類別的誤分類,這可能會(huì)產(chǎn)生自然地傾向小比例類別進(jìn)行泛化的模型。例如,調(diào)整SVM來通過同樣的比率(占總樣本的比例),去懲罰小比例類別的誤分類。


不均衡數(shù)據(jù)怎么破?對付它的七種武器!

總結(jié) 

最后,雷鋒網(wǎng)提醒,這不是一個(gè)完整的技術(shù)列表,僅僅是一個(gè)處理不均衡數(shù)據(jù)的開始。其實(shí),并沒有一個(gè)能適配所有的問題的、最好的方法或模型。所以強(qiáng)烈建議嘗試不同的技術(shù)和模型,去評估哪個(gè)的效果最好??梢試L試創(chuàng)新地同時(shí)使用幾種不同的方法。另外很重要的一點(diǎn)是,在很多不均衡類別發(fā)生的領(lǐng)域(如欺詐檢測、實(shí)時(shí)交易),“市場規(guī)則”是經(jīng)常改變的。所以,請檢查過去的數(shù)據(jù)是否已過期。

via kdnuggets,雷鋒網(wǎng)編譯

相關(guān)文章:

如何解決機(jī)器學(xué)習(xí)中的數(shù)據(jù)不平衡問題?

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

不均衡數(shù)據(jù)怎么破?對付它的七種武器!

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個(gè)人簡介
為了您的賬戶安全,請驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說