0
本文作者: 奕欣 | 2018-08-21 17:00 | 專題:KDD 2018 |
雷鋒網(wǎng) AI 科技評論按:在即將召開的數(shù)據(jù)挖掘頂會(huì) ACM SIGKDD 2018 上,圣母大學(xué)計(jì)算機(jī)系 DM2 研究團(tuán)隊(duì)(DM2 Laboratory, CSE, University of Notre Dame)的論文《Multi-Type Itemset Embedding for Learning Behavior Success》被主會(huì)錄用。本文作者為圣母大學(xué)計(jì)算機(jī)系 DM2 研究團(tuán)隊(duì)三年級博士生王達(dá)恒,導(dǎo)師是圣母大學(xué)計(jì)算機(jī)系助理教授蔣朦。
Multi-Type Itemset Embedding for Learning Behavior Success(ACM SIGKDD 2018)
DM2 Laboratory, CSE, University of Notre Dame (圣母大學(xué)計(jì)算機(jī)系DM2研究團(tuán)隊(duì))
對于博士學(xué)生來說,如何提高科研質(zhì)量和產(chǎn)量一直是學(xué)術(shù)生涯里的中心話題。相較于高年級的博士生而言,剛踏入科研領(lǐng)域的低年級博士生往往由于缺乏足夠的知識積淀與經(jīng)驗(yàn),對于估計(jì)論文中稿的可能性與找出提高中稿率的辦法顯得力不從心。我自己作為一名剛剛跨過第二個(gè)學(xué)年的博士生,對這一點(diǎn)的體驗(yàn)格外深刻。
理想情況下,當(dāng)我們開始一個(gè)新的以論文發(fā)表為導(dǎo)向的研究項(xiàng)目的時(shí)候,我們希望擁有合適的研究團(tuán)隊(duì)(其中包含多個(gè)技能互補(bǔ)的學(xué)者與專家),足夠清晰的研究問題,科學(xué)合理的研究方法,以及定位恰當(dāng)?shù)哪繕?biāo)會(huì)議。但在現(xiàn)實(shí)中,我們往往很難在一開始就達(dá)到這樣的配置。那么我們能否利用人工智能來從大量的成功經(jīng)驗(yàn)(以往成功發(fā)表的論文)當(dāng)中建立起預(yù)測模型來幫助我們判斷呢?更進(jìn)一步地,我們是否能夠讓人工智能算法給我們推薦能夠提高論文中稿率的辦法呢?是否邀請自己院系當(dāng)中的另外一位教授參與進(jìn)來就能夠大大地提高項(xiàng)目成功的可能性?或者說有哪些優(yōu)秀的文章值得一讀、甚至必須一讀,以提高論文中稿率?這些都是非常實(shí)用且有趣的問題。
客觀上來說,每一篇學(xué)術(shù)論文都是一個(gè)非常復(fù)雜的行為產(chǎn)物,包含了多種不同類型的上下文信息。常見的成功發(fā)表論文一般會(huì)有多個(gè)作者,一些框定研究領(lǐng)域和具體問題的關(guān)鍵詞,大量的文獻(xiàn)引用,以及發(fā)表的會(huì)議信息。因此,準(zhǔn)確地判斷一篇論文在目標(biāo)會(huì)議上的命中率也是一個(gè)尤為困難的問題。而從數(shù)據(jù)中千千萬萬的備選中找出最具備技能互補(bǔ)性的研究者來推薦給我們,更是困難。我們需要的是一個(gè)能夠有效地表示論文行為以及其上下文信息的載體。
傳統(tǒng)的方法是利用矩陣或者張量分解來得到低維度的數(shù)據(jù)對象表示。也就是說,我們可以構(gòu)建一個(gè)巨大的矩陣,其中包含了所有論文以及上下文項(xiàng)的信息,然后通過分解這個(gè)矩陣來得到論文與上下文項(xiàng)的低維度表示。但這這并不適用于多個(gè)上下文項(xiàng)屬于同一種類型的情況,例如在一篇論文中有多個(gè)作者與引用。而當(dāng)我們的數(shù)據(jù)量變得更大的時(shí)候,用單個(gè)龐大的矩陣來表示整個(gè)數(shù)據(jù)集顯然也不是個(gè)高效的選擇。
表征學(xué)習(xí)的方法為我們提供了一些較好的思路:如果我們能夠?qū)W習(xí)到論文以及其包含的上下文項(xiàng)的向量表征的話,我們關(guān)心的預(yù)測以及推薦問題將會(huì)迎刃而解。值得提到的是近兩年比較流行網(wǎng)絡(luò)嵌入學(xué)習(xí)。這些方法基于保存節(jié)點(diǎn)與節(jié)點(diǎn)之間鄰近度的思路,能夠?qū)⒕W(wǎng)中的節(jié)點(diǎn)快速地學(xué)習(xí)成向量表征。當(dāng)擁有了節(jié)點(diǎn)的向量表征之后,我們能夠輕易地利用向量內(nèi)積來運(yùn)算出節(jié)點(diǎn)與節(jié)點(diǎn)之間的相似度,從而幫我們完成節(jié)點(diǎn)分類與邊預(yù)測等任務(wù)。但網(wǎng)絡(luò)嵌入學(xué)習(xí)的方法并不能適用于我們的情況:我們關(guān)心的是由一組由多類型上下文項(xiàng)構(gòu)成的論文是否能夠在未來成功發(fā)表,而不是該篇論文是否和某一個(gè)作者在網(wǎng)中有較高的相似度。
針對于這些問題,我們提出了全新的嵌入學(xué)習(xí)方法。首先,我們將所有的行為看做一個(gè)多類型集合的結(jié)構(gòu)。例如一篇論文就可以被看做一個(gè)由作者、關(guān)鍵詞、目標(biāo)會(huì)議、引用等四種類型組成的集合結(jié)構(gòu);其中作者、關(guān)鍵詞、引用允許有多個(gè)上下文項(xiàng),而一篇論文只對應(yīng)一個(gè)上下文項(xiàng)。
這樣,一個(gè)行為的向量表征就可以由其包含的上下文項(xiàng)表征通過加權(quán)求和得到。
我們進(jìn)一步通過運(yùn)算行為向量的二階模長(取雙曲正玄值)來得到一個(gè)行為的成功率。
之后,我們通過隨機(jī)梯度下降的方法來優(yōu)化實(shí)際行為成功率分布于預(yù)測行為成功率分布之間的距離,最終學(xué)習(xí)得到數(shù)據(jù)集中所有行為以及上下文項(xiàng)的低維度向量表征。
在這里需要強(qiáng)調(diào)的有兩點(diǎn):1. 我們在低維度嵌入空間中保存了行為的成功特征(多類型上下文項(xiàng)集合的結(jié)構(gòu));2. 在大多數(shù)時(shí)候,我們的數(shù)據(jù)集中只包含了觀測到的成功的行為,而不包含失敗的行為數(shù)據(jù)。因此,我們也需要通過全新的負(fù)向采樣的方式來構(gòu)建訓(xùn)練負(fù)例。為此,我們提出了兩種創(chuàng)新的多類型上下文項(xiàng)集合負(fù)向采樣方法。
在第一種負(fù)向采樣方法中,我們要求生成的負(fù)例需要與對應(yīng)的正例擁有相同的上下文項(xiàng)數(shù)量。這樣,我們能夠避免完全隨機(jī)采樣所造成的不合理的負(fù)例子。而很多時(shí)候,我們會(huì)發(fā)現(xiàn)某一些類型的上下文項(xiàng)帶有一些特點(diǎn)。例如一篇文章可以對應(yīng)多個(gè)作者,但通常只對應(yīng)一個(gè)目標(biāo)會(huì)議。我們在此設(shè)計(jì)了我們更精細(xì)的第二種負(fù)向采樣方法:要求生成負(fù)例的時(shí)候遵循正例的類型頻率分布。這樣,我們能夠生成更近似于正例但是并不存在的負(fù)例用于訓(xùn)練。
我們搜集了接近一萬篇公開發(fā)表的計(jì)算機(jī)領(lǐng)域相關(guān)論文用于實(shí)驗(yàn)。
在預(yù)測任務(wù)當(dāng)中,我們的模型表現(xiàn)優(yōu)于所有網(wǎng)嵌入學(xué)習(xí)模型(LINE,DeepWalk,Node2Vec,Metapath2Vec)以及經(jīng)典的降維模型 PCA。其中,第二種負(fù)向采樣方法(Pn)優(yōu)于第一種負(fù)向采樣方法(Pt)。 而且當(dāng)我們設(shè)置相對較高的權(quán)重給作者類型的時(shí)候,我們能得到整體最優(yōu)的效果。
在推薦任務(wù)中,我們能得到一致的結(jié)論,我們的模型同樣優(yōu)于其他模型。特別是對于相對較難的推薦作者任務(wù)和推薦引用任務(wù)(總量分別為12300與18971),我們的模型擁有更明顯的優(yōu)勢。
對于我們模型的優(yōu)勢,一個(gè)更直觀的方法是把測試?yán)姓鎸?shí)的文章與假文章在低維度嵌入空間中可視化出來。我們可以看到左邊的真實(shí)論文向量在空間中明顯地延伸;而假論文的向量接近于原點(diǎn)。這樣一長一短的文章向量顯示了我們的預(yù)測模型有足夠的能力去鑒別真實(shí)論文與假論文之間的差別,從而提供準(zhǔn)確地命中率預(yù)測給我們。
另外,我們在實(shí)驗(yàn)過程中也有一些有趣的發(fā)現(xiàn)。
我們另外從Google Scholar中搜集了測試?yán)姓鎸?shí)論文的引用數(shù)量。從圖中我們能夠發(fā)現(xiàn)在我們模型中得到更高預(yù)測命中率的論文相較于預(yù)測命中率更低的論文明顯得到了更多次的引用。這樣的結(jié)論幾乎出現(xiàn)在2001至2015所有的年份當(dāng)中。
最后,希望我們的發(fā)現(xiàn)與研究對你有所幫助。
原版論文請參照:
Wang, D., Jiang, M., Zeng, Q., Eberhart, Z., & Chawla, N. V. (2018, July). Multi-Type Itemset Embedding for Learning Behavior Success. In Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining (pp. 2397-2406). ACM.
論文原文可移步雷鋒網(wǎng)AI研習(xí)社社區(qū)資源區(qū)下載。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。
本專題其他文章