丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能開(kāi)發(fā)者 正文
發(fā)私信給楊鯉萍
發(fā)送

4

CIKM 2019 挑戰(zhàn)杯「用戶(hù)行為預(yù)測(cè)」冠軍方案:層次GNN模型在推薦中的應(yīng)用

本文作者: 楊鯉萍 2019-11-13 14:34
導(dǎo)語(yǔ):基于歷史數(shù)據(jù),預(yù)測(cè)用戶(hù)行為

雷鋒網(wǎng) AI 開(kāi)發(fā)者按:近日,在中國(guó)北京舉辦 CIKM 2019 AnalytiCup 中,由來(lái)自浙江大學(xué)、中央財(cái)經(jīng)大學(xué)、阿里巴巴等機(jī)構(gòu)組成的團(tuán)隊(duì) WWG 摘得「用戶(hù)行為預(yù)測(cè)」賽道的桂冠。

CIKM 是中國(guó)計(jì)算機(jī)學(xué)會(huì)(CCF)推薦的數(shù)據(jù)庫(kù)/數(shù)據(jù)挖掘/內(nèi)容檢索領(lǐng)域的 B 類(lèi)會(huì)議。 CIKM AnalytiCup 挑戰(zhàn)賽是會(huì)議同期舉行的國(guó)際數(shù)據(jù)挖掘比賽,今年由 CIKM、阿里媽媽、阿里巴巴算法大學(xué)、阿里云天池共同承辦,挑戰(zhàn)賽分為兩個(gè)賽道,用戶(hù)興趣高效檢索(Efficient User Interests Retrieval)和用戶(hù)行為多樣性預(yù)測(cè)(Predicting User Behavior Diversities in A Dynamic Interactive Environment)。

現(xiàn)雷鋒網(wǎng) AI 開(kāi)發(fā)者將 WWG 團(tuán)隊(duì)冠軍方案整理如下,希望能給開(kāi)發(fā)者們一些經(jīng)驗(yàn)與啟發(fā)。

CIKM 2019 挑戰(zhàn)杯「用戶(hù)行為預(yù)測(cè)」冠軍方案:層次GNN模型在推薦中的應(yīng)用

冠軍團(tuán)隊(duì)

本次冠軍團(tuán)隊(duì)WWG成員分別來(lái)自浙江大學(xué),中央財(cái)經(jīng)大學(xué),阿里巴巴等機(jī)構(gòu);兩位學(xué)生孟憲令和焦宇航在阿里巴巴搜索推薦事業(yè)部的商業(yè)賦能算法團(tuán)隊(duì)實(shí)習(xí)期間,參與了該比賽;比賽過(guò)程中,團(tuán)隊(duì)負(fù)責(zé)人李朝博士,以及兩位師兄潘旭明和鄒朋成在算法的創(chuàng)新和思路上給予了一定的輔導(dǎo)。

阿里巴巴搜索推薦事業(yè)部的商業(yè)賦能團(tuán)隊(duì),致力于通過(guò)對(duì)電商平臺(tái)的海量用戶(hù)和商品的精準(zhǔn)理解,從需求側(cè)驅(qū)動(dòng)供給側(cè)的新商業(yè)賦能,給平臺(tái)的消費(fèi)者和賣(mài)家都提供更好的服務(wù)。

賽題簡(jiǎn)介和分析

基本問(wèn)題

根據(jù)歷史用戶(hù)-商品交互行為、用戶(hù)屬性和商品屬性,對(duì)給定用戶(hù)進(jìn)行未來(lái)點(diǎn)擊預(yù)測(cè),選出該用戶(hù)未來(lái)三天最可能點(diǎn)擊的商品 top50;其中,在復(fù)賽中需特別注意一點(diǎn),即用戶(hù)歷史點(diǎn)擊商品并不在未來(lái)可能出現(xiàn)的點(diǎn)擊商品可選池中。

評(píng)估指標(biāo) Recall@50

CIKM 2019 挑戰(zhàn)杯「用戶(hù)行為預(yù)測(cè)」冠軍方案:層次GNN模型在推薦中的應(yīng)用

其中為用戶(hù)在未來(lái)三天內(nèi)的實(shí)際點(diǎn)擊商品集合,為用戶(hù)在未來(lái)三天內(nèi)的預(yù)測(cè)點(diǎn)擊商品集合,此處需要注意,預(yù)測(cè)點(diǎn)擊商品集合的數(shù)量需滿(mǎn)足,即返回商品數(shù)量嚴(yán)格約束為 50 個(gè)。

簡(jiǎn)要分析

僅僅看題目描述我們可以發(fā)現(xiàn),這個(gè)題目本質(zhì)上是一個(gè)召回預(yù)估問(wèn)題。更具體的,這個(gè)問(wèn)題應(yīng)該以 u-i 對(duì)為輸入,經(jīng)過(guò)一定模型的判斷,最終給出一個(gè) u-i 對(duì)對(duì)應(yīng)的分?jǐn)?shù),再根據(jù)每個(gè) user 對(duì)應(yīng)的 u-i 對(duì)分?jǐn)?shù)從大到小的排序,取出 top50 的 item 作為最終得到預(yù)測(cè)點(diǎn)擊商品集合。

同時(shí),考慮到規(guī)模問(wèn)題,對(duì)于千萬(wàn)級(jí)別的獨(dú)立 user 和 item,直接去做全集的 u-i 對(duì)預(yù)測(cè)顯然既不現(xiàn)實(shí)又不經(jīng)濟(jì),因此我們?cè)诮Y(jié)題初期就確定了「初篩-精排」兩階段求解框架,如圖 1 所示:

CIKM 2019 挑戰(zhàn)杯「用戶(hù)行為預(yù)測(cè)」冠軍方案:層次GNN模型在推薦中的應(yīng)用

圖 1 「初篩-精排」兩階段求解框架

然而,這個(gè)題目的標(biāo)題為用戶(hù)行為預(yù)測(cè),在賽題官方的描述里也多次提到 Graph 的概念。從這一角度思考,這個(gè)問(wèn)題可以描述為 u-i 二部圖的 link prediction 問(wèn)題,雖然從模型的角度來(lái)看可能和剛剛說(shuō)到的類(lèi)似,但這一特點(diǎn)似乎在暗示圖結(jié)構(gòu)信息在這一比賽當(dāng)中的重要性。

因此,我們決定從兩個(gè)角度對(duì)此問(wèn)題進(jìn)行分析和求解:傳統(tǒng)的基于靜態(tài)屬性信息的統(tǒng)計(jì)特征工程,以及基于 u-i 二部圖的結(jié)構(gòu)特征工程。

解題思路

統(tǒng)計(jì)特征的提取在我們的工作中相對(duì)簡(jiǎn)略,因此在本節(jié)中,我們著重介紹我們對(duì)圖結(jié)構(gòu)特征的思考和使用。

算法動(dòng)機(jī)

為了可以預(yù)測(cè)用戶(hù)未來(lái)的點(diǎn)擊行為,我們需要對(duì)用戶(hù)和商品進(jìn)行更為精準(zhǔn)的刻畫(huà)和表達(dá),由于本次賽題的主視角是用戶(hù)視角(用戶(hù)會(huì)點(diǎn)哪些商品),所以我們認(rèn)為,解決 u-i 對(duì)預(yù)測(cè)問(wèn)題的核心思想是:如何更好的表達(dá)用戶(hù)的偏好。即什么樣的商品用戶(hù)會(huì)點(diǎn)擊,歷史的交互行為所傳達(dá)出來(lái)的哪些信息對(duì)未來(lái)點(diǎn)擊的預(yù)測(cè)是有效的。

通過(guò)對(duì)用戶(hù)的行為進(jìn)行思考和分析,我們發(fā)現(xiàn)用戶(hù)的偏好存在如下兩類(lèi)的關(guān)系:

  • 如果一名用戶(hù)點(diǎn)擊了某個(gè)商品,那么該用戶(hù)對(duì)該商品所在類(lèi)目的商品具有一定程度的偏好,如:iPhone,Mate 30->MI MIX Alpha(智能手機(jī)類(lèi)目);

  • 如果一名用戶(hù)點(diǎn)擊了某個(gè)商品,那么該用戶(hù)對(duì)該商品所在主題的商品具有一定程度的偏好,如:沙灘褲,太陽(yáng)眼鏡->防曬霜(沙灘旅行主題)。

層次關(guān)系

更深入的,我們發(fā)現(xiàn)這兩類(lèi)關(guān)系存在相對(duì)明晰的層次關(guān)系,如:

  • 基于類(lèi)目的層次偏好:iPhone,Mate 30->MI MIX Alpha(智能手機(jī))->Canon EOS 相機(jī)(電子產(chǎn)品);

  • 基于用戶(hù)興趣主題的層次偏好:沙灘褲,太陽(yáng)眼鏡->防曬霜(沙灘旅行)->運(yùn)動(dòng)鞋(戶(hù)外旅行)。這里的沙灘旅行和戶(hù)外旅行都是用戶(hù)興趣層面的表達(dá)。

這兩類(lèi)偏好關(guān)系廣泛存在與用戶(hù)的歷史行為中,具體如圖 2 所示;因此,如何合理捕捉這兩類(lèi)層次特征,是我們接下來(lái)算法的重點(diǎn)。

CIKM 2019 挑戰(zhàn)杯「用戶(hù)行為預(yù)測(cè)」冠軍方案:層次GNN模型在推薦中的應(yīng)用

圖 2 層次偏好特征表達(dá)示意圖

解決方案

在接下來(lái)的算法中,我們將基于類(lèi)目的層次偏好稱(chēng)為顯式層次偏好,將基于用戶(hù)興趣主題的層次偏好稱(chēng)為隱式層次偏好。我們的解決方案一共包含以下四部分:

CIKM 2019 挑戰(zhàn)杯「用戶(hù)行為預(yù)測(cè)」冠軍方案:層次GNN模型在推薦中的應(yīng)用

圖 3 解決方案大綱

數(shù)據(jù)預(yù)處理

由于數(shù)據(jù)集本身是存在不同日期,不同交互行為(點(diǎn)擊,購(gòu)買(mǎi),加購(gòu),收藏)的,我們首先通過(guò)引入時(shí)間衰減因子和行為衰減因子兩個(gè)超參數(shù),對(duì)原始數(shù)據(jù)集進(jìn)行處理,并構(gòu)建完成 user-item 二部圖(如圖 4)。

與此同時(shí),也根據(jù) user 特征數(shù)據(jù)集和 item 特征數(shù)據(jù)集構(gòu)建一系列統(tǒng)計(jì)特征,以及 user 和 item 的屬性特征。

CIKM 2019 挑戰(zhàn)杯「用戶(hù)行為預(yù)測(cè)」冠軍方案:層次GNN模型在推薦中的應(yīng)用

圖 4 user-item 二部圖

顯式層次特征提取

顯式層次特征主要基于 item-cate-cate1 的層次關(guān)系,通過(guò)將歷史行為與 item 特征進(jìn)行匹配,可以分別構(gòu)建出 user-item,user-cate,user-cate1 三張二部圖,對(duì)三個(gè)層次分別實(shí)現(xiàn)協(xié)同過(guò)濾算法,從而得出 user 對(duì)不同 item,不同 cate 以及不同 cate1 的相似性得分。我們可以看到顯性的層次特征是只有 item 維度的。

CIKM 2019 挑戰(zhàn)杯「用戶(hù)行為預(yù)測(cè)」冠軍方案:層次GNN模型在推薦中的應(yīng)用

圖 5 顯性層次特征提取

隱式層次特征提取

隱式層次特征的提取相對(duì)困難,因?yàn)榕d趣主題并不像類(lèi)目一樣,每個(gè)商品并沒(méi)有被標(biāo)定一個(gè)顯式的興趣主題。為了比較好的解決這一問(wèn)題,我們提出 Hierarchical Graph Neural Network(HGNN)算法,對(duì)圖結(jié)構(gòu)進(jìn)行表達(dá)。

具體的,我們對(duì)原始的 u-i 二部圖做 GraphSAGE 算法,以具有邊的 user,item 的向量表達(dá)相似(余弦相似度)為目標(biāo)(注意,這里嚴(yán)格意義上應(yīng)該區(qū)分兩個(gè)向量空間,在比賽中我們?yōu)榱颂岣咝蕦蓚€(gè)向量空間的維度設(shè)定成了相同的 16 維,因此可以實(shí)現(xiàn)余弦相似度的計(jì)算),做無(wú)監(jiān)督的 Graph Embedding 訓(xùn)練。待網(wǎng)絡(luò)穩(wěn)定后,我們可以得到每個(gè) user 和 item 的向量表達(dá)。這一向量即為該 user/item 的一級(jí)隱式特征。

為了表達(dá)出層次特性,我們根據(jù) user/item 的一級(jí)隱式特征,分別在 user 和 item 的向量空間中做聚類(lèi)(比賽中采用 K-means 聚類(lèi)),以聚類(lèi)簇的平均特征向量作為簇節(jié)點(diǎn)的向量,以簇間原始節(jié)點(diǎn)關(guān)聯(lián)關(guān)系的統(tǒng)計(jì)作為簇與簇之間的關(guān)聯(lián)(邊)。這樣,我們便通過(guò)聚類(lèi)操作,將原始 u-i 二部圖粗化,變?yōu)榱艘粋€(gè)以主題用戶(hù)簇和主題商品簇為節(jié)點(diǎn),節(jié)點(diǎn)數(shù)量更少的粗化圖。對(duì)粗化圖做和原始 u-i 二部圖相同基于 GraphSAGE 的 Graph Embedding 操作,我們便可以得到粗化隱式特征,原始節(jié)點(diǎn)的二級(jí)隱式特征即為其所屬簇的粗化隱式特征。

對(duì)于每個(gè) user/item,將其一級(jí)隱式特征和二級(jí)隱式特征級(jí)聯(lián),即得到該節(jié)點(diǎn)的隱式層次特征。在實(shí)際計(jì)算 u-i 對(duì)相似度時(shí),將層次隱式特征分級(jí)比較即可得到這一部分的相似分。我們可以看到隱性層次特征是既有 user 維度,也有 item 維度的。

CIKM 2019 挑戰(zhàn)杯「用戶(hù)行為預(yù)測(cè)」冠軍方案:層次GNN模型在推薦中的應(yīng)用

圖 5 隱性層次特征提取

排序模型

在 Candidate Generation 階段(初篩階段),我們采用計(jì)算效率相對(duì)較高的顯式層次特征(即采用協(xié)同過(guò)濾分)對(duì)所有商品進(jìn)行初篩,對(duì)每個(gè) user,保留其最有可能點(diǎn)擊的 2000 個(gè)商品進(jìn)行 Ranking 階段的精排。需要注意的是,在初賽中歷史商品也可能在未來(lái)曝光并被點(diǎn)擊,所以歷史商品無(wú)需特殊處理。而復(fù)賽階段由于歷史商品不會(huì)在未來(lái)曝光,所以復(fù)賽階段在初篩階段的結(jié)尾要對(duì)歷史出現(xiàn)過(guò)的商品做篩除,以避免無(wú)效精排。

Ranking 階段基本上每個(gè) user 要處理 2000 個(gè)左右的商品,因此我們的預(yù)測(cè)模型選擇了相對(duì)簡(jiǎn)單高效的 LR 模型,將前置工作中得到的顯式層次特征,隱式層次特征和統(tǒng)計(jì)特征進(jìn)行不同階的特征交叉后引入 LR 模型后,將 LR 模型的輸出作為排序分?jǐn)?shù), 取分?jǐn)?shù) top50 作為最終的預(yù)測(cè)結(jié)果進(jìn)行輸出。

這里交叉特征的引入本質(zhì)是一個(gè) kernel 函數(shù)的思想, 輔助提高了 LR 模型的非線(xiàn)性能力,我們先后采用了顯性層次特征和隱性層次特征之間 2 階的特征交叉以及 3 階特征交叉; 分別對(duì)最后的模型效果有一定提升。

CIKM 2019 挑戰(zhàn)杯「用戶(hù)行為預(yù)測(cè)」冠軍方案:層次GNN模型在推薦中的應(yīng)用

圖 6 排序模型圖

成果展示

以下是我們算法迭代過(guò)程中的一些重要節(jié)點(diǎn):

  • version1 基于協(xié)同過(guò)濾+統(tǒng)計(jì)特征

  • version2 基于顯性層次特征+統(tǒng)計(jì)特征

  • version3 基于顯性/隱形層次特征+統(tǒng)計(jì)特征

  • version4 基于二階結(jié)構(gòu)特征交叉+統(tǒng)計(jì)特征

  • version5 基于三階結(jié)構(gòu)特征交叉+統(tǒng)計(jì)特征

CIKM 2019 挑戰(zhàn)杯「用戶(hù)行為預(yù)測(cè)」冠軍方案:層次GNN模型在推薦中的應(yīng)用

圖 7 重要節(jié)點(diǎn)示意圖

可以發(fā)現(xiàn),通過(guò)引入層次結(jié)構(gòu)特征,尤其是隱式層次結(jié)構(gòu)特征的提取,我們對(duì)這一問(wèn)題進(jìn)行了較好的求解,從結(jié)論上可以看出,結(jié)構(gòu)特征確實(shí)對(duì)整個(gè)預(yù)測(cè)準(zhǔn)確度帶來(lái)了較大的性能提升,后續(xù)對(duì)結(jié)構(gòu)特征信息做了特征交叉之后,性能也有了進(jìn)一步的提高。

總結(jié)及未來(lái)計(jì)劃

本次比賽我們嘗試了 Hierarchical GNN 模型來(lái)獲取用戶(hù)和商品的隱性層次特征,獲得了非常不錯(cuò)的效果,由于比賽時(shí)間非常有限,我們的排序模型使用了 LR, 以便于快速迭代并調(diào)整相應(yīng)參數(shù),使用了 point-wise 的訓(xùn)練方式。

如果還有足夠的時(shí)間,我們還會(huì)嘗試更多的排序模型,比如 xgboost, deepFM, wide&deep 等,并對(duì)模型做相應(yīng)的融合,再采樣 pair-wise 的訓(xùn)練方式,相信還會(huì)進(jìn)一步提升模型效果。

CIKM 2019 挑戰(zhàn)杯「用戶(hù)行為預(yù)測(cè)」冠軍方案:層次GNN模型在推薦中的應(yīng)用

圖 8 冠軍獲獎(jiǎng)合影

更多信息請(qǐng)參考大賽官網(wǎng):

https://tianchi.aliyun.com/markets/tianchi/cikm19_en_copy?spm=a2c22.265802.1380778.2.4cdb2b2cFZlc5l&wh_ttid=pc 

雷鋒網(wǎng) AI 開(kāi)發(fā)者

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

CIKM 2019 挑戰(zhàn)杯「用戶(hù)行為預(yù)測(cè)」冠軍方案:層次GNN模型在推薦中的應(yīng)用

分享:
當(dāng)月熱門(mén)文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話(huà)
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶(hù)安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)