0
本文作者: 楊鯉萍 | 2020-03-06 18:57 |
近日,推薦系統(tǒng)領(lǐng)域的 RecSys 2020 挑戰(zhàn)賽賽題公布,競賽主題為「Twitter 參與率預(yù)測及內(nèi)容推薦」。
而競賽數(shù)據(jù)集正是由 Twitter 提供的約 2 億條公眾推文(說不定就你和特朗普就在同一個樣本里);競賽前三名將從高到低獲得依次為:$ 15000、$ 10000、$ 5000 的高額獎金。
作為目前推薦系統(tǒng)領(lǐng)域影響力最大的賽事之一,RecSys 挑戰(zhàn)賽是推薦系統(tǒng)領(lǐng)域的頂頂級學(xué)術(shù)會議 RecSys 的一部分。就本次 RecSys 2020 競賽的細(xì)節(jié),雷鋒網(wǎng) AI 源創(chuàng)評論將詳情整理編譯如下。
RecSys 作為推薦系統(tǒng)領(lǐng)域的頂會,一直以來都非常重視利用不同算法,去解決實際的推薦問題。
而建立于頂會之上的 RecSys 挑戰(zhàn)賽,更是不少開發(fā)者將其喻為推薦算法的「奧運會」。每一屆都有各大名企團(tuán)隊與推薦算法佼佼者參與其中,進(jìn)行激烈的角逐。
競賽自舉辦以來,主題涵蓋了:音樂喜好推薦、情景感知推薦、視頻網(wǎng)站推薦等各類生活化場景,并且在解決這些問題上取得了不錯的成果。
推薦系統(tǒng)案例
目前,隨著深度學(xué)習(xí)研究的進(jìn)一步深入,推薦系統(tǒng)也得到了更快的發(fā)展,不僅成為了學(xué)界的研究熱點,同時也獲得了業(yè)界的廣泛關(guān)注。
正如文章開頭提到,本屆 RecSys 2020 挑戰(zhàn)賽主題選擇了「Twitter 參與率預(yù)測及內(nèi)容推薦」,因此比賽內(nèi)容也集中在動態(tài)環(huán)境中的推文參與度預(yù)測的現(xiàn)實世界任務(wù)上。
Twitter 上發(fā)布了各種各樣世界上正在發(fā)生的事情。無論是時下熱點和突發(fā)新聞,還是娛樂八卦到體育、政治和日?,嵤?,在 Twitter 上,大量文字、圖片等數(shù)據(jù)實現(xiàn)了全球共享。
用戶在平臺上發(fā)布并參與被稱為「推文」的內(nèi)容,并以「贊」、「回復(fù)」、「轉(zhuǎn)發(fā)」和「帶評論轉(zhuǎn)發(fā)」的形式展現(xiàn)出用戶的觀點。
Propagate 和 Filter 提出的四種數(shù)據(jù)類型及其在傳播中的應(yīng)用
而隨著 top-K 推薦方法的發(fā)展與成熟,RecSys 2020 挑戰(zhàn)賽目標(biāo)是根據(jù)異構(gòu)輸入數(shù)據(jù),預(yù)測一組推文針對目標(biāo)用戶的不同類型的參與(如贊,回復(fù),轉(zhuǎn)發(fā)和帶有評論的轉(zhuǎn)發(fā))的概率。
旨在以新穎的評估算法,進(jìn)行大規(guī)模地 Twitter 參與率預(yù)測,并通過最大的真實世界數(shù)據(jù)集來預(yù)測用戶參與度,鼓勵新推薦方法的開發(fā),從而推動推薦系統(tǒng)的最新技術(shù)發(fā)展。
同時,作為這項挑戰(zhàn)數(shù)據(jù)集提供方兼贊助商的 Twitter,也給出了令人心動的獎金,大賽前三名將獲得以下獎勵:
冠軍:$ 15000
季軍:$ 10000
亞軍:$ 5000
在該挑戰(zhàn)賽中,RecSys 計劃將發(fā)布 3 個數(shù)據(jù)集,包括:訓(xùn)練集、測試集、驗證集。其中,訓(xùn)練集是通過在 1 周內(nèi)對積極互動數(shù)據(jù)進(jìn)行二次抽樣而獲得,測試集和驗證集則是從下周數(shù)據(jù)開始采樣。
該數(shù)據(jù)集包括 Twitter 將發(fā)布的大約 2 億條公眾推文的大型公共數(shù)據(jù)集,這些數(shù)據(jù)均通過在約 2 周內(nèi)進(jìn)行二次抽樣獲得。
其中包含了:參與功能,用戶功能和推特功能,例如:公眾互動(如「贊」、「回復(fù)」、「轉(zhuǎn)發(fā)」和「帶評論轉(zhuǎn)發(fā)」),以及從公眾追蹤圖中取樣的 1 億個隨機(jī)否定的偽否定詞。
值得注意的是,這一挑戰(zhàn)的一個難點是有關(guān)數(shù)據(jù)保護(hù)和隱私的最新法規(guī)。涉及到用戶的隱私,挑戰(zhàn)數(shù)據(jù)集將是合規(guī)的:如果用戶從Twitter刪除Tweet或他們的數(shù)據(jù),則將立即更新數(shù)據(jù)集。
數(shù)據(jù)集將每天進(jìn)行更新,以確保符合 GDPR 規(guī)定;同時,相應(yīng)的指標(biāo)也會在排行榜上進(jìn)行更新。因此,對于數(shù)據(jù)集中的每個更改,提交的評估都將重新進(jìn)行,并且排行榜將使用重新計算的指標(biāo)進(jìn)行更新。
更多數(shù)據(jù)集包含可公開獲得的數(shù)據(jù)功能信息,在 Twitter Developer 文檔(https://developer.twitter.com/ )中進(jìn)行了更詳細(xì)的描述。
參賽者提交結(jié)果后,將在平臺上最新 Tweet 類型數(shù)據(jù)生成的保留測試集上進(jìn)行評估,評估指標(biāo)將包括曲線下的精確召回面積(PR-AUC)和交叉熵?fù)p失。
目前,RecSys 2020 挑戰(zhàn)賽官網(wǎng)最新時間安排如下:
2020 年 3 月 2 日——數(shù)據(jù)集發(fā)布和 RecSys 挑戰(zhàn)開始(訓(xùn)練集和驗證集已發(fā)布)
2020 年 6 月 1 日——測試數(shù)據(jù)集發(fā)布
2020 年 6 月 7 日——RecSys 挑戰(zhàn)賽結(jié)束
2020 年 6 月 15 日——最終排行榜公布和獲獎?wù)?RecSys Challenge Workshop 的論文提交
2020 年 9 月 22 日至 26 日——舉辦研討會(作為巴西里約熱內(nèi)盧舉行的 ACM RecSys 的一部分)
大賽官網(wǎng):
http://www.recsyschallenge.com/2020/#participation數(shù)據(jù)集下載地址:
http://recsys-twitter.com/data/show-downloadsGitHub 地址:
雷鋒網(wǎng) AI 源創(chuàng)評論 雷鋒網(wǎng) 雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。