1
本文作者: 奕欣 | 2018-03-06 15:14 |
雷鋒網(wǎng) AI 科技評(píng)論按:在 2 月份舉行的第 11 屆網(wǎng)絡(luò)搜索與數(shù)據(jù)挖掘國(guó)際會(huì)議(WSDM 2018)上,阿里集團(tuán) AliOS 算法團(tuán)隊(duì)獲得 WSDM Cup 挑戰(zhàn)賽第二名的成績(jī),這是中國(guó)企業(yè)首次在該賽事上取得的最高名次。
WSDM 被譽(yù)為信息檢索領(lǐng)域最頂級(jí)的會(huì)議之一,會(huì)議的關(guān)注點(diǎn)為搜索、數(shù)據(jù)檢索、數(shù)據(jù)挖掘、算法設(shè)計(jì)、算法分析、經(jīng)濟(jì)影響方面的實(shí)際且嚴(yán)謹(jǐn)?shù)难芯?,以及?duì)準(zhǔn)確率和運(yùn)行速度的深入實(shí)驗(yàn)探究。今年已經(jīng)是 WSDM 的第十一屆會(huì)議。
本次 WSDM Cup 有來(lái)自全球 575 支隊(duì)伍參賽。會(huì)議共收到論文投稿 514 篇,接受論文 84 篇,接受率約 16%。
此次比賽出題方是一家名為 KKBOX 的流媒體音樂(lè)公司,賽題內(nèi)容是預(yù)測(cè) 3 月訂閱到期的用戶(hù)中,哪些會(huì)流失。為解決該題,阿里巴巴使用了兩層 Stacking Model,第一層采用邏輯回歸、隨機(jī)森林、XGBoost 算法,第二層又采用 XGBoost 算法把第一層的結(jié)果融合。流失用戶(hù)預(yù)測(cè),對(duì)有會(huì)員體系的業(yè)務(wù)場(chǎng)景都可以使用,其中會(huì)員付費(fèi)為主要收入的業(yè)務(wù)就更為關(guān)鍵,比如像 Apple Music、蝦米音樂(lè)。多層 Stacking Model 由 AliOS 神燈研發(fā),極大提升了分類(lèi)預(yù)測(cè)的準(zhǔn)確率,已廣泛應(yīng)用于 AliOS 多項(xiàng)業(yè)務(wù)中。
以下為阿里集團(tuán)的論文解讀。
KKBOX 是亞洲一家音樂(lè)流媒體公司,其業(yè)務(wù)模式與 Spotify 和 Apple Music 類(lèi)似。對(duì)于音樂(lè)流媒體業(yè)務(wù)來(lái)說(shuō),付費(fèi)會(huì)員非常重要,不僅直接影響訂閱收入,還會(huì)間接影響廣告收入。
本次比賽的目標(biāo)是利用 KKBOX 真實(shí)的用戶(hù)行為數(shù)據(jù),預(yù)測(cè)會(huì)員是否會(huì)流失。比賽中我們面臨了很多挑戰(zhàn),如正負(fù)樣本不均衡、臟數(shù)據(jù)等問(wèn)題。我們采取了一些列措施來(lái)解決這些問(wèn)題,比如建立數(shù)據(jù)清洗和交叉驗(yàn)證機(jī)制,使用 Stacking Model 來(lái)提升準(zhǔn)確率。
本次比賽的目標(biāo)是預(yù)測(cè)當(dāng)月會(huì)員到期的用戶(hù)中哪些會(huì)流失。這里「流失」的定義是會(huì)員到期后 30 天內(nèi)沒(méi)有續(xù)費(fèi)。
本次比賽的結(jié)果采用 Log Loss 進(jìn)行評(píng)估,Log Loss 的計(jì)算公式如下:
公式中,N 表示測(cè)試樣本數(shù),表示測(cè)試樣本最終是否流失(1 表示流失,0 表示沒(méi)有流失),為模型預(yù)測(cè)用戶(hù)是否會(huì)流失的概率(取值 0-1)。
考慮到模型的數(shù)據(jù)量和開(kāi)發(fā)效率,我們采用了阿里云的 DataWorks 作為開(kāi)發(fā)平臺(tái)。
3.1 數(shù)據(jù)預(yù)處理
比賽提供了三份數(shù)據(jù),分別是用戶(hù)的訂單明細(xì)、聽(tīng)歌日志和人口統(tǒng)計(jì)學(xué)信息。見(jiàn)下表:
臟數(shù)據(jù)問(wèn)題例如年齡數(shù)值小于 0 或者大于 100,注冊(cè)時(shí)間和支付金額中的極端異常值。我們處理臟數(shù)據(jù)的方式包括根據(jù)分布將異常值轉(zhuǎn)換為合理取值,刪除無(wú)法解釋且不包含重要信息的數(shù)據(jù)。
訓(xùn)練樣本中,is_churn 是樣本的 label,訓(xùn)練樣本取自 2017 年 2 月和 3 月訂閱到期的用戶(hù)。訓(xùn)練數(shù)據(jù)的正負(fù)樣本極不均衡,以 2 月份訂閱到期的訓(xùn)練樣本為例,在總共 992931 條數(shù)據(jù)中,is_churn = 1 的樣本只有 63471,占比 6.4%。
傳統(tǒng)的分類(lèi)算法比如決策樹(shù)和邏輯回歸都是對(duì)正負(fù)樣本比例有要求。我們使用欠采樣的方式對(duì)訓(xùn)練樣本進(jìn)行了處理,分別嘗試了 1:3,1:5,1:8 的正負(fù)樣本配比,在最終模型中,我們根據(jù)交叉驗(yàn)證的結(jié)果選擇了最優(yōu)配比。
3.2 特征工程
特征工程階段,我們從計(jì)算邏輯、時(shí)間窗、額外條件三個(gè)維度將數(shù)據(jù)進(jìn)行組合。如下圖,右邊特征列表中 last_7_auto_tran_cnt 表示最近 7 天(時(shí)間窗)自動(dòng)完成的(額外條件)訂單筆數(shù)(計(jì)算邏輯)。特征組合完成后,我們對(duì)特征還要一系列的處理,如 log 轉(zhuǎn)換、one-hot 編碼。
我們通過(guò)交叉驗(yàn)證來(lái)測(cè)試特征的有效性。在交叉驗(yàn)證中我們發(fā)現(xiàn),最有效的特征包括:1. 最近 60 或 90 天自動(dòng)完成的訂單筆數(shù) 2. 最近一筆交易是否被取消或自動(dòng)完成 3. 賬號(hào)注冊(cè)的方式。最終,我們提取了 300 多個(gè)特征,并根據(jù)交叉驗(yàn)證的結(jié)果留下了 204 個(gè)特征。
3.3 模型
我們使用了一個(gè)兩階段模型來(lái)預(yù)測(cè)最終的流失情況。如下圖,在第一階段,提取出的特征會(huì)輸入邏輯回歸、隨機(jī)森林、XGBoost 三個(gè)模型,而第一階段模型的輸出會(huì)被當(dāng)做第二階段的特征,最終組成一個(gè) Stacking Model。
如下圖,我們采用了 5-fold stacking 策略。
在第一階段,將訓(xùn)練數(shù)據(jù)均勻地分成 5 份,使用「留一法」訓(xùn)練 5 個(gè)邏輯回歸模型,用這 5 個(gè)模型分別去預(yù)測(cè)剩下的一份訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù),將 5 份預(yù)測(cè)的訓(xùn)練數(shù)據(jù)合并,可以得到一份新的訓(xùn)練數(shù)據(jù) NewTrainingData,將 5 份預(yù)測(cè)的測(cè)試數(shù)據(jù)采用均值法合并,得到一份新的測(cè)試數(shù)據(jù) NewTestData。用同樣的方法再分別訓(xùn)練隨機(jī)森林和 XGBoost,新的訓(xùn)練和測(cè)試數(shù)據(jù)上,就可以得到 3 個(gè)模型的分?jǐn)?shù)。
第二階段,將上一階段的 NewTraningData 作為訓(xùn)練數(shù)據(jù),NewTestData 作為測(cè)試數(shù)據(jù),重新訓(xùn)練一個(gè) XGBoost 模型,得到最終的預(yù)測(cè)分?jǐn)?shù)。這種方法可以避免過(guò)擬合,學(xué)習(xí)出特征之間組合的信息,還能提高預(yù)測(cè)的準(zhǔn)確率。
3.4 模型評(píng)估
交叉驗(yàn)證不僅可以做特征篩選,在模型階段,還給調(diào)參、Stacking Model 策略的調(diào)整提供依據(jù)。下圖可以看到我們每一步的優(yōu)化帶來(lái)的提升,最初的 LR 模型可以得到 0.2106 的分?jǐn)?shù),XGBoost 和特征提取技術(shù)可以把分?jǐn)?shù)提升到 0.1151,最終 Stacking Model 和調(diào)參讓我們得到 0.0934 的分?jǐn)?shù)。
本文我們介紹了在參加 WSDM Cup 2018 中所做的實(shí)踐,最終我們獲得了第二名的成績(jī)。對(duì)幾個(gè)關(guān)鍵的優(yōu)化技術(shù)在文中做了闡述,如數(shù)據(jù)預(yù)處理階段的欠采樣、特征提取方式、Stacking Model。通過(guò)分析和測(cè)試,我們發(fā)現(xiàn)這些方法都可以提升預(yù)測(cè)的準(zhǔn)確率,后續(xù)我們還將測(cè)試更多的超參數(shù),并引入深度學(xué)習(xí)進(jìn)行優(yōu)化。
論文原文地址:
現(xiàn)在關(guān)注“雷鋒網(wǎng)”微信公眾號(hào)(leiphone-sz),回復(fù)關(guān)鍵詞【2018】,隨機(jī)抽送價(jià)值 3999 元的參會(huì)門(mén)票 3 張
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。