0
本文作者: AI研習(xí)社-譯站 | 2020-12-06 09:06 |
譯者:AI研習(xí)社(聽風(fēng)1996)
雙語原文鏈接:What Twitter learned from the Recsys 2020 Challenge
ecommender系統(tǒng)是現(xiàn)代社交網(wǎng)絡(luò)和電子商務(wù)平臺的重要組成部分。它們旨在最大限度地提高用戶滿意度以及其他重要的商業(yè)目標(biāo)。與此同時,在以根據(jù)用戶興趣定制內(nèi)容為目的來建立新模型基準(zhǔn)測試時,缺乏供學(xué)界研究使用的大規(guī)模的公共社交網(wǎng)絡(luò)數(shù)據(jù)集。而在過去的一年里,我們努力解決了這個問題。
Twitter與RecSys會議展開合作以支持2020挑戰(zhàn)賽。在兩周的時間里,我們發(fā)布了一個包含推文和用戶參與度組成的數(shù)據(jù)集,其中有1.6億條公開推文用于訓(xùn)練,4000萬條公開推文用于驗證和測試。
在這篇文章中,我們描述了數(shù)據(jù)集以及Nvidia、Learner和Wantely團隊提交的三個獲獎作品。我們試圖對幫助獲獎?wù)呷〉贸煽兊倪x擇做出一般性的結(jié)論,特別是:
以最快的實驗速度用于特征選擇和模型訓(xùn)練
有利于泛化的對抗驗證[1]
上下文特征的使用
在神經(jīng)網(wǎng)絡(luò)上使用決策樹
我們希望這些研究結(jié)果對更廣泛的研究界有用,并啟發(fā)推薦系統(tǒng)的未來研究方向。
挑戰(zhàn)賽的參與者被要求預(yù)測用戶參與四種互動中任何一種互動的可能性:贊、回復(fù)、轉(zhuǎn)發(fā)和引用tweet。我們根據(jù)以下兩個指標(biāo)對提交的作品進(jìn)行評估:相對于我們所提供的簡單基準(zhǔn)方法的相對交叉熵(RCE),以及Precision-Recall曲線下的面積(PR-AUC)。
隨時間的變化的訓(xùn)練、測試和驗證數(shù)據(jù)集的表示
我們要特別注意(我們所使用的)維持?jǐn)?shù)據(jù)集需與Twitter平臺同步。數(shù)據(jù)集反映了平臺上的變化,例如,當(dāng)其中的一條推文被刪除,有用戶將其個人資料變?yōu)樗接谢蛲耆珓h除。所以提交的數(shù)據(jù)就會被重新評估,排行榜也會根據(jù)重新計算的指標(biāo)進(jìn)行更新[2]。
數(shù)據(jù)集的特征表示。它們分為用戶特征(針對作者和讀者)、推文特征和參與度特征。
今年的挑戰(zhàn)賽競爭尤為激烈,注冊用戶超過1000人。在整個挑戰(zhàn)過程中,參賽者積極提交解決方案,并在挑戰(zhàn)的第一階段(根據(jù)提交指南)修改了他們的團隊組成。最后階段有20個競爭者,平均團隊規(guī)模為4名成員。此外,各隊總計設(shè)計了127種不同的方法,來嘗試贏得挑戰(zhàn)比賽。在整個挑戰(zhàn)過程中,參賽者的活躍度很高,在最后幾天,參賽者對提交的作品進(jìn)行了改進(jìn),達(dá)到了做最優(yōu)性能。最終的結(jié)果出現(xiàn)在排行榜上。
與之相伴的RecSys Challenge 2020研討會收到了12篇論文,程序委員會對這些論文進(jìn)行了審閱。其中9篇論文被接受。
數(shù)據(jù)集的特征表示。它們分為用戶特征(針對作者和讀者)、推文特征和參與度特征。
今年的挑戰(zhàn)賽競爭尤為激烈,注冊用戶超過1000人。在整個挑戰(zhàn)過程中,參賽者積極提交解決方案,并在挑戰(zhàn)的第一階段(根據(jù)提交指南)修改了他們的團隊組成。最后階段有20個競爭者,平均團隊規(guī)模為4名成員。此外,各隊總計設(shè)計了127種不同的方法,來嘗試贏得挑戰(zhàn)比賽。在整個挑戰(zhàn)過程中,參賽者的活躍度很高,在最后幾天,參賽者對提交的作品進(jìn)行了改進(jìn),達(dá)到了做最優(yōu)性能。最終的結(jié)果出現(xiàn)在排行榜上。
與之相伴的RecSys Challenge 2020研討會收到了12篇論文,程序委員會對這些論文進(jìn)行了審閱。其中9篇論文被接受。
第一名:英偉達(dá)
GPU Accelerated Feature Engineering and Training for Recommender Systems.
Nvidia的論文[3]描述了訓(xùn)練xgboost模型來預(yù)測每個交互事件??傮w的關(guān)注點在于為該模型生成有用的特征。文章強調(diào)快速提取特征和模型訓(xùn)練是該方法成功的關(guān)鍵。本文在附錄中提供了4種模型中每種模型的15個最有用的特征列表。
從數(shù)據(jù)集中快速提取特征并進(jìn)行再訓(xùn)練是冠軍和亞軍的關(guān)鍵區(qū)別。特征工程流程和訓(xùn)練流程的運行時間都不到一分鐘。除此之外,對不同的分類特征和特征組合采用目標(biāo)編碼(均值編碼+加法平滑),包括這些組合的目標(biāo)均值。作者還從推文的內(nèi)容中創(chuàng)建了分類特征(如最受歡迎的兩個詞和最不受歡迎的兩個詞)。用于特征重要性評估和選擇的對抗性驗證 通過選擇更通用的特征來防止過擬合。 采用基于樹模型的集成方法用于生成最終模型。
Predicting Twitter Engagement With Deep Language Models.
Learner[4]融合了深度學(xué)習(xí)與梯度提升決策樹(GBDT),并專注于不同特征的創(chuàng)建。作者使用啟發(fā)式方法設(shè)計了467個特征,并使用BERT和XLM-R生成了推文的文本表示(同時使用了目標(biāo)Twitter文本以及最近參與的Twitter文本)。
該條目與其他條目的關(guān)鍵區(qū)別在于使用了預(yù)訓(xùn)練的自然語言處理(NLP)模型BERT和XLM-R,并進(jìn)行了微調(diào)。第一層的微調(diào)是以無監(jiān)督的方式進(jìn)行的。接下來,將語言模型與其他特征結(jié)合以有監(jiān)督的方式進(jìn)行微調(diào)。。該模型是一個多層感知機(MLP),有四個頭,每個頭代表一種參與類。本文還引入注意力機制生成了用戶過去十次互動的嵌入向量。以目標(biāo)推文為關(guān)鍵,利用注意力機制對每個的嵌入向量進(jìn)行組合。此外,還使用了啟發(fā)式特征,如參與用戶、推文創(chuàng)建者、推文特征和用戶與創(chuàng)建者交互特征的不同表示。與其他條目一樣,本文使用xgboost進(jìn)行特征工程和選擇,并將Yeo-Johnson transformation應(yīng)用于分類特征和非標(biāo)準(zhǔn)化連續(xù)特征。
A Stacking Ensemble Model for Prediction of Multi-type Tweet Engagements.
Wantely的投稿[5]提出了一種預(yù)測tweet參與度的兩階段方法。第一階段的分類器是輕量級的,只使用在不同目標(biāo)(Like、Retweet等)中通用的特征,并且具有相似的訓(xùn)練/測試精度。第二階段分類器將輕量級分類器的輸出與特定于目標(biāo)的特征一起用作特征。
上游的通用模型生成下游模型所需的特征。作者認(rèn)為,通過這樣的方式,每種參與類型的下游模型都可以從所有其他參與的數(shù)據(jù)中受益。除此之外,除此之外,如Nvidia條目所示,本文通過對抗性驗證直接評估訓(xùn)練和測試數(shù)據(jù)集之間的特征分布差異,從而確定了哪些特征是可通用的。
在所有提交的論文中,有許多相同的見解。我們重點介紹以下主題:
勝出模型中使用的有用特征—目標(biāo)編碼是王道。首先,目標(biāo)編碼(用目標(biāo)變量的平均值替換分類變量)使問題變得更簡單。它同時用于用戶和作者id,因此編碼了用戶的平均參與率。其次,使用了大量特征交叉[6]。
快速實驗進(jìn)行特征選擇。快速檢驗許多假設(shè)的能力一直是數(shù)據(jù)科學(xué)競賽中不可或缺的一部分,并再次證明在這一挑戰(zhàn)中具有決定性作用。Nvidia團隊能夠在GPU上運行整個流程。這讓他們只需2分18秒就能訓(xùn)練出一個模型(包括特征工程),而在CPU上則需花費數(shù)小時。
通過對抗性驗證來應(yīng)對過度擬合。比賽選手常用的一種技術(shù)是建立一個判別器來預(yù)測訓(xùn)練和測試/驗證集之間的差異。根據(jù)模型選擇特征時使用的重要性分?jǐn)?shù),通過去除最重要的特征,可以幫助模型更好地泛化。此技術(shù)有助于避免訓(xùn)練數(shù)據(jù)過擬合。
上下文特征的使用。今年的數(shù)據(jù)集和之前的數(shù)據(jù)集的一個重要區(qū)別是我們提供的上下文特征。在三篇獲獎?wù)撐闹?,有兩篇對基于上下文特征的BERT進(jìn)行了復(fù)雜的使用。NLP中的深度學(xué)習(xí)方法已經(jīng)證明了它對推薦系統(tǒng)的有用性,盡管我們認(rèn)為在這個領(lǐng)域還有更多的改進(jìn)空間。
決策樹與深度學(xué)習(xí)。梯度增強決策樹(GBDT)的一個顯著優(yōu)勢是,無需對單個特征的尺度進(jìn)行歸一化和計算。這使得所有勝出論文的迭代速度更快。
在計算機視覺和NLP等領(lǐng)域,深度學(xué)習(xí)模型已經(jīng)通過利用CNNs和transfomer展示了令人印象深刻的進(jìn)展?;谶@一挑戰(zhàn)的結(jié)果,我們?nèi)匀徊幻靼自谕扑]系統(tǒng)中什么構(gòu)成良好的深度學(xué)習(xí)架構(gòu)。我們呼吁研究界共同尋找推薦器系統(tǒng)的最佳深度學(xué)習(xí)架構(gòu)。
我們也注意到,雖然我們只對提交的模型的性能進(jìn)行了評估,但在生產(chǎn)系統(tǒng)中還有許多其他限制。對我們來說,延遲是一個大問題:模型需要在毫秒內(nèi)對推文進(jìn)行評分。在這種情況下,需要仔細(xì)檢查集成方法的使用。集成中每一步的附加延遲都可能會導(dǎo)致它們對我們的目標(biāo)來說太慢。
我們感謝所有參與者和我們的同事使這得一挑戰(zhàn)成為可能。我們相信,發(fā)布大規(guī)模數(shù)據(jù)集將有助于解鎖推薦系統(tǒng)領(lǐng)域的新進(jìn)展。Twitter現(xiàn)在比以往任何時候都致力于幫助外部研究,并且最近為學(xué)術(shù)研究人員發(fā)布了新的API端口,以幫助促進(jìn)進(jìn)一步的探索和合作。
[1] J. Pan et al. Adversarial validation approach to concept drift problem in user targeting automation systems at Uber (2020) arXiv:2004.03045. Introduces adversarial validation, a powerful technique used by several participants.
[2] L. Belli et al. Privacy-Aware Recommender Systems Challenge on Twitter’s Home Timeline (2020) arXiv:2004.13715 provides the details about the challenge and the dataset.
[3] B. Schifferer et al., GPU Accelerated Feature Engineering and Training for Recommender Systems (2020). Proc. Recommender Systems Challenge 2020. Nvidia’s submission, also described in their blog post.
[4] M. Volkovs et al., Predicting Twitter Engagement With Deep Language Models (2020). Proc. Recommender Systems Challenge 2020. Learner’s submission.
[5] S. Goda et al., A Stacking Ensemble Model for Prediction of Multi-Type Tweet Engagements (2020). Proc. Recommender Systems Challenge 2020. Wantely’s submission.
[6] The full list of features with importance for different objectives like Retweet/Reply is available in the appendix of the Nvidia paper.
AI研習(xí)社是AI學(xué)術(shù)青年和AI開發(fā)者技術(shù)交流的在線社區(qū)。我們與高校、學(xué)術(shù)機構(gòu)和產(chǎn)業(yè)界合作,通過提供學(xué)習(xí)、實戰(zhàn)和求職服務(wù),為AI學(xué)術(shù)青年和開發(fā)者的交流互助和職業(yè)發(fā)展打造一站式平臺,致力成為中國最大的科技創(chuàng)新人才聚集地。
如果,你也是位熱愛分享的AI愛好者。歡迎與譯站一起,學(xué)習(xí)新知,分享成長。
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。