丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能開發(fā)者 正文
發(fā)私信給汪思穎
發(fā)送

1

看阿里 AliOS 神燈團(tuán)隊(duì)在推薦系統(tǒng)上的獨(dú)門秘籍

本文作者: 汪思穎 編輯:郭奕欣 2018-04-12 09:51
導(dǎo)語(yǔ):神燈項(xiàng)目團(tuán)隊(duì)主要負(fù)責(zé) AliOS 端上智能與服務(wù)的算法研發(fā),攻克方向是推薦領(lǐng)域。他們希望能像阿拉丁神燈一樣,讓用戶通過(guò)其服務(wù)獲得滿足。
開發(fā)
企業(yè):阿里巴巴
操作:專訪
內(nèi)容:專訪阿里 AliOS 神燈團(tuán)隊(duì)

阿拉丁神燈的故事想必大家都聽過(guò),對(duì)著神燈許下心愿,你的愿望就會(huì)實(shí)現(xiàn)。而今天,在阿里 AliOS 有一支神燈團(tuán)隊(duì),他們希望能像阿拉丁神燈一樣,讓用戶通過(guò)其服務(wù)獲得滿足。團(tuán)隊(duì)成員王智楠對(duì)雷鋒網(wǎng) AI 研習(xí)社說(shuō)道,「我們希望讓客戶擁有一種想要什么服務(wù)就能得到什么服務(wù)的感覺,這是取名『神燈』的初衷。」

神燈項(xiàng)目團(tuán)隊(duì)主要負(fù)責(zé) AliOS 端上智能與服務(wù)的算法研發(fā),攻克方向是推薦領(lǐng)域。項(xiàng)目組共有八名成員,大家的背景也很多元,涉及統(tǒng)計(jì)、廣告、NLP,甚至還有心理學(xué)。

看阿里 AliOS 神燈團(tuán)隊(duì)在推薦系統(tǒng)上的獨(dú)門秘籍

目前,他們的算法主要應(yīng)用于車機(jī)智能推薦系統(tǒng),例如幫助客戶預(yù)測(cè)線路、推薦周邊街道、關(guān)聯(lián)附近的停車場(chǎng)、介紹好吃的餐廳等。

其中,他們自研的多層 Stacking Model 極大提升了分類預(yù)測(cè)的準(zhǔn)確率,已廣泛應(yīng)用于 AliOS 多項(xiàng)業(yè)務(wù)。值得一提的是,年初在 WSDM Cup 2018 挑戰(zhàn)賽上,得益于這一模型,AliOS 神燈團(tuán)隊(duì)小組在比賽中表現(xiàn)優(yōu)異,團(tuán)隊(duì)成員王智楠也受邀在會(huì)議 Workshop 上做了主題分享。

WSDM 被譽(yù)為信息檢索領(lǐng)域最頂級(jí)的會(huì)議之一,會(huì)議的關(guān)注點(diǎn)為搜索、數(shù)據(jù)檢索、數(shù)據(jù)挖掘、算法設(shè)計(jì)、算法分析、經(jīng)濟(jì)影響方面的實(shí)際且嚴(yán)謹(jǐn)?shù)难芯?,以及?duì)準(zhǔn)確率和運(yùn)行速度的深入實(shí)驗(yàn)探究。每屆 WSDM 都會(huì)像 KDD 一樣,舉辦一個(gè)數(shù)據(jù)挖掘類比賽。今年的比賽的出題方是流媒體音樂(lè)公司 KKBOX(與 Spotify、Apple Music 等類似),共有兩個(gè)任務(wù),一是用戶流失預(yù)測(cè),二是音樂(lè)個(gè)性化推薦,阿里團(tuán)隊(duì)在前一個(gè)任務(wù)上一舉奪得亞軍。

雷鋒網(wǎng) AI 研習(xí)社以此次比賽為契機(jī),與王智楠展開討論,了解到阿里神燈團(tuán)隊(duì)獲勝的獨(dú)門秘籍、經(jīng)驗(yàn)教訓(xùn)以及多層 Stacking Model 的相關(guān)信息。

WSDM Cup 挑戰(zhàn)賽

在 KKBOX 的用戶流失預(yù)測(cè)任務(wù)中,參賽者需要根據(jù)主辦方提供的數(shù)據(jù),預(yù)測(cè) 2017 年 3 月訂閱到期的用戶中,哪些會(huì)流失。

談及參加此次比賽的原因,王智楠對(duì) AI 研習(xí)社說(shuō)道,「算法團(tuán)隊(duì)需要經(jīng)常關(guān)注數(shù)據(jù)挖掘類比賽,獲取最新信息。得知這一比賽時(shí),恰好神燈團(tuán)隊(duì)在做音樂(lè)推薦項(xiàng)目,我們就想拿 KKBOX 的數(shù)據(jù)練練手。另外,我此前參加過(guò) WSDM 2017,對(duì)此次會(huì)議也有一定了解。」

這次比賽是一個(gè)比較典型的二分類問(wèn)題。王智楠表示,二分類問(wèn)題中,他們主要考慮兩個(gè)方面:

  • 一是特征,希望能將更多的信息融入進(jìn)來(lái);

  • 二是模型,在單模型上,業(yè)內(nèi)用的都差不多,這一階段重點(diǎn)考慮融合。

主辦方提供的數(shù)據(jù)有如下三類:

  • 訂單數(shù)據(jù)。2017 年 3 月之前兩年的訂單交易信息,包括用戶 id、付款方式、購(gòu)買的會(huì)員周期、價(jià)格、時(shí)間、是否是自動(dòng)續(xù)訂等。

  • 用戶聽歌日志。2017 年 3 月之前兩年的用戶聽歌日志,包括用戶 id,日期,聽歌數(shù)量、時(shí)長(zhǎng)等。

  • 用戶人口統(tǒng)計(jì)學(xué)信息。截止 2017 年 3 月的用戶信息,包括所在城市、年齡、性別、注冊(cè)時(shí)間等。

在數(shù)據(jù)預(yù)處理階段,他們主要碰到兩類問(wèn)題,一是臟數(shù)據(jù),二是正負(fù)樣本比例不均衡。

  • 針對(duì)臟數(shù)據(jù)問(wèn)題,例如年齡數(shù)值小于 0 或者大于 100,注冊(cè)時(shí)間和支付金額中的極端異常值,他們處理的方式有根據(jù)分布將異常值轉(zhuǎn)換為合理取值,刪除無(wú)法解釋且不包含重要信息的數(shù)據(jù)等。

  • 對(duì)正負(fù)樣本分布不均衡的問(wèn)題,他們使用欠采樣的方式對(duì)訓(xùn)練樣本進(jìn)行處理,分別嘗試了 1:3,1:5,1:8 的正負(fù)樣本配比,在最終模型中,根據(jù)交叉驗(yàn)證的結(jié)果選擇了最優(yōu)配比。

在特征工程階段,他們做了很多數(shù)據(jù)分析工作,比如統(tǒng)計(jì)用戶的注冊(cè)方式、注冊(cè)渠道,每個(gè)渠道的注冊(cè)人數(shù),是否過(guò)濾掉特別小的渠道等。

針對(duì)出題方給的三份數(shù)據(jù),神燈團(tuán)隊(duì)起初對(duì)每份數(shù)據(jù)都進(jìn)行了分析,大概一周之后,發(fā)現(xiàn)除了訂單數(shù)據(jù),聽歌日志和用戶人口統(tǒng)計(jì)學(xué)信息起的作用很小,這時(shí)候他們進(jìn)行了策略上的調(diào)整——把聽歌日志和用戶人口統(tǒng)計(jì)學(xué)信息放在一邊,集中精力處理訂單數(shù)據(jù)。直到比賽的最后階段,他們也沒有特別花時(shí)間研究另外兩個(gè)數(shù)據(jù)。

最終,他們使用兩層 Stacking Model,第一層采用邏輯回歸、隨機(jī)森林、XGBoost 算法,第二層又采用 XGBoost 算法把第一層的結(jié)果融合,在最后取得第二名。

在此次比賽中,他們也有一套方法論:「我們內(nèi)部有一個(gè)稱為 MVM(minimum variable model)——最簡(jiǎn)可用模型的策略,即先上線一個(gè)最小的模型,之后通過(guò)每次提交結(jié)果獲得反饋,再不斷修改原來(lái)的模型?!?/p>

目前,AliOS 神燈團(tuán)隊(duì)已經(jīng)在利用深度學(xué)習(xí)做推薦系統(tǒng),但在比賽中并沒有使用這一方法,王智楠表示,這次的場(chǎng)景不太適合利用深度學(xué)習(xí),更加適合傳統(tǒng)特征工程的構(gòu)造方式。他說(shuō)道,「比賽時(shí),主辦方提供的數(shù)據(jù)都是經(jīng)過(guò)加工的數(shù)據(jù),比如用戶聽歌日志,主辦方已經(jīng)把這個(gè)數(shù)據(jù)整理到某人每天聽了多少歌的粒度,這種細(xì)?;臄?shù)據(jù)導(dǎo)致不太適合用深度學(xué)習(xí)方法解決。而我們平時(shí)利用深度學(xué)習(xí)做推薦可以從最原始的數(shù)據(jù)開始,將這些數(shù)據(jù)直接輸入到模型里,得到一個(gè)處理過(guò)的向量值?!?/p>

細(xì)節(jié)分享

比賽并非一帆風(fēng)順,王智楠表示,中途出現(xiàn)了戲劇性的情況:比賽開始沒多久,由于出題方的失誤——在驗(yàn)證數(shù)據(jù)階段沒有對(duì)用戶的結(jié)果進(jìn)行隨機(jī)打斷,導(dǎo)致很多選手的比賽得分接近于滿分?!钙陂g中斷了大概兩到三周,后來(lái)主辦方又公布了一批新的數(shù)據(jù),大家得以重回到比賽中?!挂?yàn)檫@一問(wèn)題,他們之后再重新修改模型時(shí),狀態(tài)不如之前,因此花了一段時(shí)間進(jìn)行調(diào)整與追趕。

此外,分析了冠軍和其他選手的方案,他總結(jié)出兩方面的教訓(xùn)。

  • 第一是時(shí)間管控與模型調(diào)試。王智楠表示,他們?cè)谧詈髢芍芰舻臅r(shí)間太緊張了,導(dǎo)致沒有足夠的時(shí)間調(diào)整線上模型超參?!钙渌麉①悎F(tuán)隊(duì)可能會(huì)這么嘗試——每周把參數(shù)上調(diào)一個(gè)點(diǎn),然后觀察線上分?jǐn)?shù)的變化情況。此外,如果我們能夠在前面階段將速度放快,就可以為比賽后期預(yù)留更多時(shí)間,把參數(shù)調(diào)的更好一點(diǎn)?!?/p>

  • 第二是特征處理和數(shù)據(jù)分析。他在這里重點(diǎn)提到冠軍的方案。王智楠對(duì)雷鋒網(wǎng) AI 研習(xí)社說(shuō)道,從模型上對(duì)比他們與冠軍的方案,神燈團(tuán)隊(duì)更占優(yōu)勢(shì),但冠軍在特征工程上做得比他們更加細(xì)致。他以日期為例,對(duì)于這一參數(shù),他們會(huì)將其轉(zhuǎn)化成一個(gè)數(shù)值來(lái)構(gòu)造特征,但冠軍還會(huì)把日期轉(zhuǎn)化成 one-hot 特征?!赣幸恍┤掌?,比如是否月底,其實(shí)還是具有一些信息量的,但是當(dāng)時(shí)我們沒有考慮到這個(gè)問(wèn)題。不單是這次比賽,在做其他比賽和業(yè)務(wù)的時(shí)候,也需要這么細(xì)致的考慮?!?/p>

他們團(tuán)隊(duì)主要是進(jìn)行推薦算法的設(shè)計(jì),之前也有相關(guān)的經(jīng)驗(yàn)積累,那么,在工作中的算法是否能直接應(yīng)用于此次比賽呢?

王智楠表示,參加比賽和實(shí)際業(yè)務(wù)場(chǎng)景還是存在極大差異?!副荣悤r(shí)可以不用考慮計(jì)算成本、線上服務(wù),效率問(wèn)題。但在實(shí)際場(chǎng)景下,如果模型做得太過(guò)復(fù)雜,后臺(tái)計(jì)算就會(huì)特別復(fù)雜,時(shí)間可能會(huì)特別長(zhǎng),用戶體驗(yàn)就不那么美好了。例如用戶想要一個(gè)推薦服務(wù),請(qǐng)求之后,1 秒鐘都沒有回復(fù),這就存在極大問(wèn)題?!?/p>

多層 Stacking Model

其實(shí)除了此次比賽,AliOS 的推薦算法團(tuán)隊(duì)還在多項(xiàng)國(guó)際大賽上獲得優(yōu)勝,例如 2015 ACM RecSys Challenge 亞軍,2016 ACM RecSys Challenge 冠軍,2016 KDD CUP Phase1 第二名。此外,他們團(tuán)隊(duì)在阿里天池的天貓推薦大賽、LBS 推薦大賽等多個(gè)內(nèi)部賽上都曾獲得獎(jiǎng)項(xiàng)。

而這次比賽中使用的多層 Stacking model,也是源于 2016 年 KDD Cup。當(dāng)時(shí)在比賽中為了提升效果,他們不斷搜集資料,研究出這一模型。后來(lái),他們嘗試在線上使用這一方法,發(fā)現(xiàn)提升顯著,于是有了這一模型的完備方案以及大規(guī)模應(yīng)用。

他坦誠(chéng)表示,雖然這一模型可以極大提升預(yù)測(cè)準(zhǔn)確率,但目前也存在一個(gè)問(wèn)題——線上消耗資源量比較大。「以前可能只用訓(xùn)練一個(gè)模型,但現(xiàn)在用兩層 Stacking Model 就要多訓(xùn)練 4 個(gè)模型?!共贿^(guò)相較該模型帶來(lái)的優(yōu)勢(shì),資源的消耗相對(duì)來(lái)說(shuō)變得不那么重要:「對(duì)于一些場(chǎng)景,比如廣告場(chǎng)景,雖然資源消耗多,但性價(jià)比相對(duì)來(lái)說(shuō)比較高。」

目前,他們也在研究如何用最少的資源來(lái)訓(xùn)練模型。

談到該算法的實(shí)際應(yīng)用,王智楠說(shuō)道,現(xiàn)在主要還是集中在 AliOS 系統(tǒng)互聯(lián)網(wǎng)汽車的音樂(lè)推薦上。目前,上汽集團(tuán)大概有 50 萬(wàn)輛互聯(lián)網(wǎng)汽車上裝載 AliOS 系統(tǒng),這些用戶能優(yōu)先體驗(yàn)到推薦算法帶來(lái)的便利。

相關(guān)文章:

阿里巴巴WSDM Cup 2018奪得第二名,獲獎(jiǎng)?wù)撐娜庾x

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

看阿里 AliOS 神燈團(tuán)隊(duì)在推薦系統(tǒng)上的獨(dú)門秘籍

分享:
相關(guān)文章

編輯

關(guān)注AI學(xué)術(shù),例如論文
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)