Twitter從Recsys 2020挑戰(zhàn)中學(xué)到了什么

本文作者： AI研習(xí)社-譯站

2020-12-06 09:06

導(dǎo)語：Twitter 圖學(xué)習(xí)研究負(fù)責(zé)人 Michael Bronstein 親述。

譯者：AI研習(xí)社（聽風(fēng)1996）

雙語原文鏈接：What Twitter learned from the Recsys 2020 Challenge

ecommender系統(tǒng)是現(xiàn)代社交網(wǎng)絡(luò)和電子商務(wù)平臺的重要組成部分。它們旨在最大限度地提高用戶滿意度以及其他重要的商業(yè)目標(biāo)。與此同時，在以根據(jù)用戶興趣定制內(nèi)容為目的來建立新模型基準(zhǔn)測試時，缺乏供學(xué)界研究使用的大規(guī)模的公共社交網(wǎng)絡(luò)數(shù)據(jù)集。而在過去的一年里，我們努力解決了這個問題。

Twitter與RecSys會議展開合作以支持2020挑戰(zhàn)賽。在兩周的時間里，我們發(fā)布了一個包含推文和用戶參與度組成的數(shù)據(jù)集，其中有1.6億條公開推文用于訓(xùn)練，4000萬條公開推文用于驗證和測試。

在這篇文章中，我們描述了數(shù)據(jù)集以及Nvidia、Learner和Wantely團(tuán)隊提交的三個獲獎作品。我們試圖對幫助獲獎?wù)呷〉贸煽兊倪x擇做出一般性的結(jié)論，特別是:

以最快的實驗速度用于特征選擇和模型訓(xùn)練

有利于泛化的對抗驗證[1]
上下文特征的使用
在神經(jīng)網(wǎng)絡(luò)上使用決策樹

我們希望這些研究結(jié)果對更廣泛的研究界有用，并啟發(fā)推薦系統(tǒng)的未來研究方向。

挑戰(zhàn)賽的參與者被要求預(yù)測用戶參與四種互動中任何一種互動的可能性：贊、回復(fù)、轉(zhuǎn)發(fā)和引用tweet。我們根據(jù)以下兩個指標(biāo)對提交的作品進(jìn)行評估：相對于我們所提供的簡單基準(zhǔn)方法的相對交叉熵（RCE），以及Precision-Recall曲線下的面積（PR-AUC）。

Twitter從Recsys 2020挑戰(zhàn)中學(xué)到了什么

隨時間的變化的訓(xùn)練、測試和驗證數(shù)據(jù)集的表示

我們要特別注意（我們所使用的）維持?jǐn)?shù)據(jù)集需與Twitter平臺同步。數(shù)據(jù)集反映了平臺上的變化，例如，當(dāng)其中的一條推文被刪除，有用戶將其個人資料變?yōu)樗接谢蛲耆珓h除。所以提交的數(shù)據(jù)就會被重新評估，排行榜也會根據(jù)重新計算的指標(biāo)進(jìn)行更新[2]。

數(shù)據(jù)集的特征表示。它們分為用戶特征（針對作者和讀者）、推文特征和參與度特征。

今年的挑戰(zhàn)賽競爭尤為激烈，注冊用戶超過1000人。在整個挑戰(zhàn)過程中，參賽者積極提交解決方案，并在挑戰(zhàn)的第一階段（根據(jù)提交指南）修改了他們的團(tuán)隊組成。最后階段有20個競爭者，平均團(tuán)隊規(guī)模為4名成員。此外，各隊總計設(shè)計了127種不同的方法，來嘗試贏得挑戰(zhàn)比賽。在整個挑戰(zhàn)過程中，參賽者的活躍度很高，在最后幾天，參賽者對提交的作品進(jìn)行了改進(jìn)，達(dá)到了做最優(yōu)性能。最終的結(jié)果出現(xiàn)在排行榜上。

與之相伴的RecSys Challenge 2020研討會收到了12篇論文，程序委員會對這些論文進(jìn)行了審閱。其中9篇論文被接受。

Twitter從Recsys 2020挑戰(zhàn)中學(xué)到了什么

數(shù)據(jù)集的特征表示。它們分為用戶特征（針對作者和讀者）、推文特征和參與度特征。

與之相伴的RecSys Challenge 2020研討會收到了12篇論文，程序委員會對這些論文進(jìn)行了審閱。其中9篇論文被接受。

第一名：英偉達(dá)

GPU Accelerated Feature Engineering and Training for Recommender Systems.

Nvidia的論文[3]描述了訓(xùn)練xgboost模型來預(yù)測每個交互事件?？傮w的關(guān)注點在于為該模型生成有用的特征。文章強(qiáng)調(diào)快速提取特征和模型訓(xùn)練是該方法成功的關(guān)鍵。本文在附錄中提供了4種模型中每種模型的15個最有用的特征列表。

從數(shù)據(jù)集中快速提取特征并進(jìn)行再訓(xùn)練是冠軍和亞軍的關(guān)鍵區(qū)別。特征工程流程和訓(xùn)練流程的運(yùn)行時間都不到一分鐘。除此之外，對不同的分類特征和特征組合采用目標(biāo)編碼（均值編碼+加法平滑），包括這些組合的目標(biāo)均值。作者還從推文的內(nèi)容中創(chuàng)建了分類特征（如最受歡迎的兩個詞和最不受歡迎的兩個詞）。用于特征重要性評估和選擇的對抗性驗證通過選擇更通用的特征來防止過擬合。采用基于樹模型的集成方法用于生成最終模型。

第二名：Learner

Predicting Twitter Engagement With Deep Language Models.

Learner[4]融合了深度學(xué)習(xí)與梯度提升決策樹（GBDT），并專注于不同特征的創(chuàng)建。作者使用啟發(fā)式方法設(shè)計了467個特征，并使用BERT和XLM-R生成了推文的文本表示（同時使用了目標(biāo)Twitter文本以及最近參與的Twitter文本）。

該條目與其他條目的關(guān)鍵區(qū)別在于使用了預(yù)訓(xùn)練的自然語言處理（NLP）模型BERT和XLM-R，并進(jìn)行了微調(diào)。第一層的微調(diào)是以無監(jiān)督的方式進(jìn)行的。接下來，將語言模型與其他特征結(jié)合以有監(jiān)督的方式進(jìn)行微調(diào)。。該模型是一個多層感知機(jī)（MLP），有四個頭，每個頭代表一種參與類。本文還引入注意力機(jī)制生成了用戶過去十次互動的嵌入向量。以目標(biāo)推文為關(guān)鍵，利用注意力機(jī)制對每個的嵌入向量進(jìn)行組合。此外，還使用了啟發(fā)式特征，如參與用戶、推文創(chuàng)建者、推文特征和用戶與創(chuàng)建者交互特征的不同表示。與其他條目一樣，本文使用xgboost進(jìn)行特征工程和選擇，并將Yeo-Johnson transformation應(yīng)用于分類特征和非標(biāo)準(zhǔn)化連續(xù)特征。

第三名：Wantely

A Stacking Ensemble Model for Prediction of Multi-type Tweet Engagements.

Wantely的投稿[5]提出了一種預(yù)測tweet參與度的兩階段方法。第一階段的分類器是輕量級的，只使用在不同目標(biāo)（Like、Retweet等）中通用的特征，并且具有相似的訓(xùn)練/測試精度。第二階段分類器將輕量級分類器的輸出與特定于目標(biāo)的特征一起用作特征。

上游的通用模型生成下游模型所需的特征。作者認(rèn)為，通過這樣的方式，每種參與類型的下游模型都可以從所有其他參與的數(shù)據(jù)中受益。除此之外，除此之外，如Nvidia條目所示，本文通過對抗性驗證直接評估訓(xùn)練和測試數(shù)據(jù)集之間的特征分布差異，從而確定了哪些特征是可通用的。

在所有提交的論文中，有許多相同的見解。我們重點介紹以下主題：

勝出模型中使用的有用特征—目標(biāo)編碼是王道。首先，目標(biāo)編碼（用目標(biāo)變量的平均值替換分類變量）使問題變得更簡單。它同時用于用戶和作者id，因此編碼了用戶的平均參與率。其次，使用了大量特征交叉[6]。

快速實驗進(jìn)行特征選擇。快速檢驗許多假設(shè)的能力一直是數(shù)據(jù)科學(xué)競賽中不可或缺的一部分，并再次證明在這一挑戰(zhàn)中具有決定性作用。Nvidia團(tuán)隊能夠在GPU上運(yùn)行整個流程。這讓他們只需2分18秒就能訓(xùn)練出一個模型（包括特征工程），而在CPU上則需花費(fèi)數(shù)小時。

通過對抗性驗證來應(yīng)對過度擬合。比賽選手常用的一種技術(shù)是建立一個判別器來預(yù)測訓(xùn)練和測試/驗證集之間的差異。根據(jù)模型選擇特征時使用的重要性分?jǐn)?shù)，通過去除最重要的特征，可以幫助模型更好地泛化。此技術(shù)有助于避免訓(xùn)練數(shù)據(jù)過擬合。

上下文特征的使用。今年的數(shù)據(jù)集和之前的數(shù)據(jù)集的一個重要區(qū)別是我們提供的上下文特征。在三篇獲獎?wù)撐闹?，有兩篇對基于上下文特征的BERT進(jìn)行了復(fù)雜的使用。NLP中的深度學(xué)習(xí)方法已經(jīng)證明了它對推薦系統(tǒng)的有用性，盡管我們認(rèn)為在這個領(lǐng)域還有更多的改進(jìn)空間。

決策樹與深度學(xué)習(xí)。梯度增強(qiáng)決策樹（GBDT）的一個顯著優(yōu)勢是，無需對單個特征的尺度進(jìn)行歸一化和計算。這使得所有勝出論文的迭代速度更快。

在計算機(jī)視覺和NLP等領(lǐng)域，深度學(xué)習(xí)模型已經(jīng)通過利用CNNs和transfomer展示了令人印象深刻的進(jìn)展?；谶@一挑戰(zhàn)的結(jié)果，我們?nèi)匀徊幻靼自谕扑]系統(tǒng)中什么構(gòu)成良好的深度學(xué)習(xí)架構(gòu)。我們呼吁研究界共同尋找推薦器系統(tǒng)的最佳深度學(xué)習(xí)架構(gòu)。

我們也注意到，雖然我們只對提交的模型的性能進(jìn)行了評估，但在生產(chǎn)系統(tǒng)中還有許多其他限制。對我們來說，延遲是一個大問題：模型需要在毫秒內(nèi)對推文進(jìn)行評分。在這種情況下，需要仔細(xì)檢查集成方法的使用。集成中每一步的附加延遲都可能會導(dǎo)致它們對我們的目標(biāo)來說太慢。

我們感謝所有參與者和我們的同事使這得一挑戰(zhàn)成為可能。我們相信，發(fā)布大規(guī)模數(shù)據(jù)集將有助于解鎖推薦系統(tǒng)領(lǐng)域的新進(jìn)展。Twitter現(xiàn)在比以往任何時候都致力于幫助外部研究，并且最近為學(xué)術(shù)研究人員發(fā)布了新的API端口，以幫助促進(jìn)進(jìn)一步的探索和合作。

[1] J. Pan et al. Adversarial validation approach to concept drift problem in user targeting automation systems at Uber (2020) arXiv:2004.03045. Introduces adversarial validation, a powerful technique used by several participants.

[2] L. Belli et al. Privacy-Aware Recommender Systems Challenge on Twitter’s Home Timeline (2020) arXiv:2004.13715 provides the details about the challenge and the dataset.

[3] B. Schifferer et al., GPU Accelerated Feature Engineering and Training for Recommender Systems (2020). Proc. Recommender Systems Challenge 2020. Nvidia’s submission, also described in their blog post.

[4] M. Volkovs et al., Predicting Twitter Engagement With Deep Language Models (2020). Proc. Recommender Systems Challenge 2020. Learner’s submission.

[5] S. Goda et al., A Stacking Ensemble Model for Prediction of Multi-Type Tweet Engagements (2020). Proc. Recommender Systems Challenge 2020. Wantely’s submission.

[6] The full list of features with importance for different objectives like Retweet/Reply is available in the appendix of the Nvidia paper.

AI研習(xí)社是AI學(xué)術(shù)青年和AI開發(fā)者技術(shù)交流的在線社區(qū)。我們與高校、學(xué)術(shù)機(jī)構(gòu)和產(chǎn)業(yè)界合作，通過提供學(xué)習(xí)、實戰(zhàn)和求職服務(wù)，為AI學(xué)術(shù)青年和開發(fā)者的交流互助和職業(yè)發(fā)展打造一站式平臺，致力成為中國最大的科技創(chuàng)新人才聚集地。

如果，你也是位熱愛分享的AI愛好者。歡迎與譯站一起，學(xué)習(xí)新知，分享成長。

Twitter從Recsys 2020挑戰(zhàn)中學(xué)到了什么