人工智能告訴你如何組隊(duì)發(fā)文章？KDD 2018論文提出多元多類型集合的表征學(xué)習(xí)方法

本文作者：奕欣

2018-08-21 17:00

專題：KDD 2018

導(dǎo)語：我們是否能夠讓人工智能算法給我們推薦能夠提高論文中稿率的辦法呢？是否邀請自己院系當(dāng)中的另外一位教授參與進(jìn)來就能夠大大地提高項(xiàng)目成功的可能性？

雷鋒網(wǎng) AI 科技評論按：在即將召開的數(shù)據(jù)挖掘頂會(huì) ACM SIGKDD 2018 上，圣母大學(xué)計(jì)算機(jī)系 DM2 研究團(tuán)隊(duì)（DM2 Laboratory, CSE, University of Notre Dame）的論文《Multi-Type Itemset Embedding for Learning Behavior Success》被主會(huì)錄用。本文作者為圣母大學(xué)計(jì)算機(jī)系 DM2 研究團(tuán)隊(duì)三年級博士生王達(dá)恒，導(dǎo)師是圣母大學(xué)計(jì)算機(jī)系助理教授蔣朦。

Multi-Type Itemset Embedding for Learning Behavior Success(ACM SIGKDD 2018)

DM2 Laboratory, CSE, University of Notre Dame （圣母大學(xué)計(jì)算機(jī)系DM2研究團(tuán)隊(duì)）

引出問題

對于博士學(xué)生來說，如何提高科研質(zhì)量和產(chǎn)量一直是學(xué)術(shù)生涯里的中心話題。相較于高年級的博士生而言，剛踏入科研領(lǐng)域的低年級博士生往往由于缺乏足夠的知識積淀與經(jīng)驗(yàn)，對于估計(jì)論文中稿的可能性與找出提高中稿率的辦法顯得力不從心。我自己作為一名剛剛跨過第二個(gè)學(xué)年的博士生，對這一點(diǎn)的體驗(yàn)格外深刻。

理想情況下，當(dāng)我們開始一個(gè)新的以論文發(fā)表為導(dǎo)向的研究項(xiàng)目的時(shí)候，我們希望擁有合適的研究團(tuán)隊(duì)（其中包含多個(gè)技能互補(bǔ)的學(xué)者與專家），足夠清晰的研究問題，科學(xué)合理的研究方法，以及定位恰當(dāng)?shù)哪繕?biāo)會(huì)議。但在現(xiàn)實(shí)中，我們往往很難在一開始就達(dá)到這樣的配置。那么我們能否利用人工智能來從大量的成功經(jīng)驗(yàn)（以往成功發(fā)表的論文）當(dāng)中建立起預(yù)測模型來幫助我們判斷呢？更進(jìn)一步地，我們是否能夠讓人工智能算法給我們推薦能夠提高論文中稿率的辦法呢？是否邀請自己院系當(dāng)中的另外一位教授參與進(jìn)來就能夠大大地提高項(xiàng)目成功的可能性？或者說有哪些優(yōu)秀的文章值得一讀、甚至必須一讀，以提高論文中稿率？這些都是非常實(shí)用且有趣的問題。

問題難點(diǎn)

客觀上來說，每一篇學(xué)術(shù)論文都是一個(gè)非常復(fù)雜的行為產(chǎn)物，包含了多種不同類型的上下文信息。常見的成功發(fā)表論文一般會(huì)有多個(gè)作者，一些框定研究領(lǐng)域和具體問題的關(guān)鍵詞，大量的文獻(xiàn)引用，以及發(fā)表的會(huì)議信息。因此，準(zhǔn)確地判斷一篇論文在目標(biāo)會(huì)議上的命中率也是一個(gè)尤為困難的問題。而從數(shù)據(jù)中千千萬萬的備選中找出最具備技能互補(bǔ)性的研究者來推薦給我們，更是困難。我們需要的是一個(gè)能夠有效地表示論文行為以及其上下文信息的載體。

傳統(tǒng)的方法是利用矩陣或者張量分解來得到低維度的數(shù)據(jù)對象表示。也就是說，我們可以構(gòu)建一個(gè)巨大的矩陣，其中包含了所有論文以及上下文項(xiàng)的信息，然后通過分解這個(gè)矩陣來得到論文與上下文項(xiàng)的低維度表示。但這這并不適用于多個(gè)上下文項(xiàng)屬于同一種類型的情況，例如在一篇論文中有多個(gè)作者與引用。而當(dāng)我們的數(shù)據(jù)量變得更大的時(shí)候，用單個(gè)龐大的矩陣來表示整個(gè)數(shù)據(jù)集顯然也不是個(gè)高效的選擇。

表征學(xué)習(xí)的方法為我們提供了一些較好的思路：如果我們能夠?qū)W習(xí)到論文以及其包含的上下文項(xiàng)的向量表征的話，我們關(guān)心的預(yù)測以及推薦問題將會(huì)迎刃而解。值得提到的是近兩年比較流行網(wǎng)絡(luò)嵌入學(xué)習(xí)。這些方法基于保存節(jié)點(diǎn)與節(jié)點(diǎn)之間鄰近度的思路，能夠?qū)⒕W(wǎng)中的節(jié)點(diǎn)快速地學(xué)習(xí)成向量表征。當(dāng)擁有了節(jié)點(diǎn)的向量表征之后，我們能夠輕易地利用向量內(nèi)積來運(yùn)算出節(jié)點(diǎn)與節(jié)點(diǎn)之間的相似度，從而幫我們完成節(jié)點(diǎn)分類與邊預(yù)測等任務(wù)。但網(wǎng)絡(luò)嵌入學(xué)習(xí)的方法并不能適用于我們的情況：我們關(guān)心的是由一組由多類型上下文項(xiàng)構(gòu)成的論文是否能夠在未來成功發(fā)表，而不是該篇論文是否和某一個(gè)作者在網(wǎng)中有較高的相似度。

我們的方法

針對于這些問題，我們提出了全新的嵌入學(xué)習(xí)方法。首先，我們將所有的行為看做一個(gè)多類型集合的結(jié)構(gòu)。例如一篇論文就可以被看做一個(gè)由作者、關(guān)鍵詞、目標(biāo)會(huì)議、引用等四種類型組成的集合結(jié)構(gòu)；其中作者、關(guān)鍵詞、引用允許有多個(gè)上下文項(xiàng)，而一篇論文只對應(yīng)一個(gè)上下文項(xiàng)。