丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能開(kāi)發(fā)者 正文
發(fā)私信給奕欣
發(fā)送

1

阿里巴巴WSDM Cup 2018奪得第二名,獲獎(jiǎng)?wù)撐娜庾x

本文作者: 奕欣 2018-03-06 15:14
導(dǎo)語(yǔ):在WSDM 2018上,阿里集團(tuán) AliOS 算法團(tuán)隊(duì)獲得 WSDM Cup 挑戰(zhàn)賽第二名的成績(jī)

雷鋒網(wǎng) AI 科技評(píng)論按:在 2 月份舉行的第 11 屆網(wǎng)絡(luò)搜索與數(shù)據(jù)挖掘國(guó)際會(huì)議(WSDM 2018)上,阿里集團(tuán) AliOS 算法團(tuán)隊(duì)獲得 WSDM Cup 挑戰(zhàn)賽第二名的成績(jī),這是中國(guó)企業(yè)首次在該賽事上取得的最高名次。

WSDM 被譽(yù)為信息檢索領(lǐng)域最頂級(jí)的會(huì)議之一,會(huì)議的關(guān)注點(diǎn)為搜索、數(shù)據(jù)檢索、數(shù)據(jù)挖掘、算法設(shè)計(jì)、算法分析、經(jīng)濟(jì)影響方面的實(shí)際且嚴(yán)謹(jǐn)?shù)难芯?,以及?duì)準(zhǔn)確率和運(yùn)行速度的深入實(shí)驗(yàn)探究。今年已經(jīng)是 WSDM 的第十一屆會(huì)議。

本次 WSDM Cup 有來(lái)自全球 575 支隊(duì)伍參賽。會(huì)議共收到論文投稿 514 篇,接受論文 84 篇,接受率約 16%。

此次比賽出題方是一家名為 KKBOX 的流媒體音樂(lè)公司,賽題內(nèi)容是預(yù)測(cè) 3 月訂閱到期的用戶(hù)中,哪些會(huì)流失。為解決該題,阿里巴巴使用了兩層 Stacking Model,第一層采用邏輯回歸、隨機(jī)森林、XGBoost 算法,第二層又采用 XGBoost 算法把第一層的結(jié)果融合。流失用戶(hù)預(yù)測(cè),對(duì)有會(huì)員體系的業(yè)務(wù)場(chǎng)景都可以使用,其中會(huì)員付費(fèi)為主要收入的業(yè)務(wù)就更為關(guān)鍵,比如像 Apple Music、蝦米音樂(lè)。多層 Stacking Model 由 AliOS 神燈研發(fā),極大提升了分類(lèi)預(yù)測(cè)的準(zhǔn)確率,已廣泛應(yīng)用于 AliOS 多項(xiàng)業(yè)務(wù)中。

以下為阿里集團(tuán)的論文解讀。

阿里巴巴WSDM Cup 2018奪得第二名,獲獎(jiǎng)?wù)撐娜庾x

1. 介紹

KKBOX 是亞洲一家音樂(lè)流媒體公司,其業(yè)務(wù)模式與 Spotify 和 Apple Music 類(lèi)似。對(duì)于音樂(lè)流媒體業(yè)務(wù)來(lái)說(shuō),付費(fèi)會(huì)員非常重要,不僅直接影響訂閱收入,還會(huì)間接影響廣告收入。

本次比賽的目標(biāo)是利用 KKBOX 真實(shí)的用戶(hù)行為數(shù)據(jù),預(yù)測(cè)會(huì)員是否會(huì)流失。比賽中我們面臨了很多挑戰(zhàn),如正負(fù)樣本不均衡、臟數(shù)據(jù)等問(wèn)題。我們采取了一些列措施來(lái)解決這些問(wèn)題,比如建立數(shù)據(jù)清洗和交叉驗(yàn)證機(jī)制,使用 Stacking Model 來(lái)提升準(zhǔn)確率。

2. 問(wèn)題定義

本次比賽的目標(biāo)是預(yù)測(cè)當(dāng)月會(huì)員到期的用戶(hù)中哪些會(huì)流失。這里「流失」的定義是會(huì)員到期后 30 天內(nèi)沒(méi)有續(xù)費(fèi)。

本次比賽的結(jié)果采用 Log Loss 進(jìn)行評(píng)估,Log Loss 的計(jì)算公式如下:

阿里巴巴WSDM Cup 2018奪得第二名,獲獎(jiǎng)?wù)撐娜庾x

公式中,N 表示測(cè)試樣本數(shù),表示測(cè)試樣本最終是否流失(1 表示流失,0 表示沒(méi)有流失),為模型預(yù)測(cè)用戶(hù)是否會(huì)流失的概率(取值 0-1)。

3. 方法

考慮到模型的數(shù)據(jù)量和開(kāi)發(fā)效率,我們采用了阿里云的 DataWorks 作為開(kāi)發(fā)平臺(tái)。

3.1 數(shù)據(jù)預(yù)處理

比賽提供了三份數(shù)據(jù),分別是用戶(hù)的訂單明細(xì)、聽(tīng)歌日志和人口統(tǒng)計(jì)學(xué)信息。見(jiàn)下表:

阿里巴巴WSDM Cup 2018奪得第二名,獲獎(jiǎng)?wù)撐娜庾x

臟數(shù)據(jù)問(wèn)題例如年齡數(shù)值小于 0 或者大于 100,注冊(cè)時(shí)間和支付金額中的極端異常值。我們處理臟數(shù)據(jù)的方式包括根據(jù)分布將異常值轉(zhuǎn)換為合理取值,刪除無(wú)法解釋且不包含重要信息的數(shù)據(jù)。

訓(xùn)練樣本中,is_churn 是樣本的 label,訓(xùn)練樣本取自 2017 年 2 月和 3 月訂閱到期的用戶(hù)。訓(xùn)練數(shù)據(jù)的正負(fù)樣本極不均衡,以 2 月份訂閱到期的訓(xùn)練樣本為例,在總共 992931 條數(shù)據(jù)中,is_churn = 1 的樣本只有 63471,占比 6.4%。

傳統(tǒng)的分類(lèi)算法比如決策樹(shù)和邏輯回歸都是對(duì)正負(fù)樣本比例有要求。我們使用欠采樣的方式對(duì)訓(xùn)練樣本進(jìn)行了處理,分別嘗試了 1:3,1:5,1:8 的正負(fù)樣本配比,在最終模型中,我們根據(jù)交叉驗(yàn)證的結(jié)果選擇了最優(yōu)配比。

3.2 特征工程

特征工程階段,我們從計(jì)算邏輯、時(shí)間窗、額外條件三個(gè)維度將數(shù)據(jù)進(jìn)行組合。如下圖,右邊特征列表中 last_7_auto_tran_cnt 表示最近 7 天(時(shí)間窗)自動(dòng)完成的(額外條件)訂單筆數(shù)(計(jì)算邏輯)。特征組合完成后,我們對(duì)特征還要一系列的處理,如 log 轉(zhuǎn)換、one-hot 編碼。

阿里巴巴WSDM Cup 2018奪得第二名,獲獎(jiǎng)?wù)撐娜庾x

我們通過(guò)交叉驗(yàn)證來(lái)測(cè)試特征的有效性。在交叉驗(yàn)證中我們發(fā)現(xiàn),最有效的特征包括:1. 最近 60 或 90 天自動(dòng)完成的訂單筆數(shù) 2. 最近一筆交易是否被取消或自動(dòng)完成 3. 賬號(hào)注冊(cè)的方式。最終,我們提取了 300 多個(gè)特征,并根據(jù)交叉驗(yàn)證的結(jié)果留下了 204 個(gè)特征。

3.3 模型

我們使用了一個(gè)兩階段模型來(lái)預(yù)測(cè)最終的流失情況。如下圖,在第一階段,提取出的特征會(huì)輸入邏輯回歸、隨機(jī)森林、XGBoost 三個(gè)模型,而第一階段模型的輸出會(huì)被當(dāng)做第二階段的特征,最終組成一個(gè) Stacking Model。

阿里巴巴WSDM Cup 2018奪得第二名,獲獎(jiǎng)?wù)撐娜庾x

如下圖,我們采用了 5-fold stacking 策略。

在第一階段,將訓(xùn)練數(shù)據(jù)均勻地分成 5 份,使用「留一法」訓(xùn)練 5 個(gè)邏輯回歸模型,用這 5 個(gè)模型分別去預(yù)測(cè)剩下的一份訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù),將 5 份預(yù)測(cè)的訓(xùn)練數(shù)據(jù)合并,可以得到一份新的訓(xùn)練數(shù)據(jù) NewTrainingData,將 5 份預(yù)測(cè)的測(cè)試數(shù)據(jù)采用均值法合并,得到一份新的測(cè)試數(shù)據(jù) NewTestData。用同樣的方法再分別訓(xùn)練隨機(jī)森林和 XGBoost,新的訓(xùn)練和測(cè)試數(shù)據(jù)上,就可以得到 3 個(gè)模型的分?jǐn)?shù)。

第二階段,將上一階段的 NewTraningData 作為訓(xùn)練數(shù)據(jù),NewTestData 作為測(cè)試數(shù)據(jù),重新訓(xùn)練一個(gè) XGBoost 模型,得到最終的預(yù)測(cè)分?jǐn)?shù)。這種方法可以避免過(guò)擬合,學(xué)習(xí)出特征之間組合的信息,還能提高預(yù)測(cè)的準(zhǔn)確率。

阿里巴巴WSDM Cup 2018奪得第二名,獲獎(jiǎng)?wù)撐娜庾x

3.4 模型評(píng)估

交叉驗(yàn)證不僅可以做特征篩選,在模型階段,還給調(diào)參、Stacking Model 策略的調(diào)整提供依據(jù)。下圖可以看到我們每一步的優(yōu)化帶來(lái)的提升,最初的 LR 模型可以得到 0.2106 的分?jǐn)?shù),XGBoost 和特征提取技術(shù)可以把分?jǐn)?shù)提升到 0.1151,最終 Stacking Model 和調(diào)參讓我們得到 0.0934 的分?jǐn)?shù)。

阿里巴巴WSDM Cup 2018奪得第二名,獲獎(jiǎng)?wù)撐娜庾x

4. 結(jié)論

本文我們介紹了在參加 WSDM Cup 2018 中所做的實(shí)踐,最終我們獲得了第二名的成績(jī)。對(duì)幾個(gè)關(guān)鍵的優(yōu)化技術(shù)在文中做了闡述,如數(shù)據(jù)預(yù)處理階段的欠采樣、特征提取方式、Stacking Model。通過(guò)分析和測(cè)試,我們發(fā)現(xiàn)這些方法都可以提升預(yù)測(cè)的準(zhǔn)確率,后續(xù)我們還將測(cè)試更多的超參數(shù),并引入深度學(xué)習(xí)進(jìn)行優(yōu)化。

論文原文地址:

https://wsdm-cup-2018.kkbox.events/pdf/7_A_Practical_Pipeline_with_Stacking_Models_for_KKBOXs_Churn_Prediction_Challenge.pdf


現(xiàn)在關(guān)注“雷鋒網(wǎng)”微信公眾號(hào)(leiphone-sz),回復(fù)關(guān)鍵詞【2018】,隨機(jī)抽送價(jià)值 3999 元的參會(huì)門(mén)票 3 張

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

阿里巴巴WSDM Cup 2018奪得第二名,獲獎(jiǎng)?wù)撐娜庾x

分享:
相關(guān)文章
當(dāng)月熱門(mén)文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話(huà)
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶(hù)安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)