0
本文作者: 叢末 | 2020-02-08 16:38 |
中美差距何止一丁點(diǎn)!
倫敦帝國理工學(xué)院機(jī)器學(xué)習(xí)和自然語言處理著名學(xué)者M(jìn)arek Rei 教授從2016年起,每年都會(huì)對ML&NLP相關(guān)的會(huì)議論文進(jìn)行統(tǒng)計(jì)和分析,并一年一度發(fā)表分析結(jié)果,目前已成為該領(lǐng)域權(quán)威性的報(bào)告內(nèi)容。
近期,Marek Rei 再次發(fā)布2019年度機(jī)器學(xué)習(xí)和自然語言處理(ML&NLP)領(lǐng)域的年度統(tǒng)計(jì)。 從其分析中,我們可以清晰地看到在ML&NLP領(lǐng)域到底哪家單位最狂(非谷歌莫屬),哪些單位實(shí)例雄厚,哪位學(xué)者研究突飛猛進(jìn),以及中美之間實(shí)力差距如何巨大。
根據(jù)Marek Rei教授的報(bào)告結(jié)果,我們一一進(jìn)行分析!
注:報(bào)告統(tǒng)計(jì)數(shù)據(jù)來源于2019年機(jī)器學(xué)習(xí)和NLP相關(guān)的會(huì)議和期刊,其中統(tǒng)計(jì)范圍包括ACL,EMNLP,NAACL,EACL,COLING,TACL,CL,CoNLL,NeurIPS,ICML,ICLR,AAAI。
幾乎所有的會(huì)議都在2019年破了紀(jì)錄,尤其是NeurIPS,曾指數(shù)上升趨勢,根據(jù)數(shù)據(jù)顯示其規(guī)模是最大的,而且領(lǐng)先AAAI接近300篇論文。當(dāng)然,由于COLING和EACL在2019年沒有舉辦,所以沒有統(tǒng)計(jì)其數(shù)據(jù)。
2019年論文發(fā)表數(shù)量最多的機(jī)構(gòu)是哪個(gè)呢?
其中谷歌順利占據(jù)了領(lǐng)先地位,在各個(gè)領(lǐng)域都發(fā)表了大量的論文。例如,在 ICML 上,谷歌發(fā)表的論文數(shù)量是緊隨其后的MIT 的兩倍有余。
值得一提的是,Marek 之前幾年的統(tǒng)計(jì)中曾將DeepMind的論文也囊括在谷歌發(fā)表的論文之中,而在這一次則將DeepMind 的論文發(fā)表情況單獨(dú)列出。 微軟和 CMU 也發(fā)表了大量的研究成果,在所有會(huì)議上發(fā)表的論文數(shù)總量分別排在第二、第三。
而清華大學(xué)、北京大學(xué),則是中國進(jìn)入各大會(huì)議論文數(shù)總量前十的兩所高校,分別排在第七、第九,這也說明了近年來中國高校在學(xué)術(shù)論文上的影響力日益攀升。
接下來我們來看 2012年至2019年的總體數(shù)據(jù)。
雖然在2019年由谷歌占據(jù)主導(dǎo)地位,然而CMU 和微軟在 2012年至2019年整場“馬拉松式”的拉鋸戰(zhàn)中遙遙領(lǐng)先。
并且值得一提的是,CMU 和微軟在 2012年至2019年的論文發(fā)表數(shù)量完全相同,都為 1215篇論文。 排在兩者其后的,是谷歌、斯坦福大學(xué)、MIT、IBM、伯克利大學(xué)、清華大學(xué)和北京大學(xué)。
如果我們再看下時(shí)間分段數(shù)據(jù),我們會(huì)發(fā)現(xiàn)谷歌上升勢頭迅猛。雖然在 2012年至2016年,谷歌發(fā)表的論文總數(shù)要比CMU和微軟的少得多,但是從2018年開始,它的論文發(fā)表數(shù)就開始遠(yuǎn)超包括CMU和微軟在內(nèi)的其他所有機(jī)構(gòu)。
而所有排在前列的機(jī)構(gòu)都呈上升趨勢,在2019年發(fā)表的論文數(shù)量都遠(yuǎn)比此前發(fā)表的論文數(shù)量要多。
其中,中國機(jī)構(gòu)表現(xiàn)最突出的清華大學(xué),雖然論文發(fā)表數(shù)量在前幾年中都一直較大地落后于國外機(jī)構(gòu),但在所有機(jī)構(gòu)總體上升的趨勢下,以高于平均上升趨勢的幅度,終于在2019年拿下第七的排名,實(shí)屬不易!
就個(gè)人作者而言,伯克利的 Sergey Levine 在2019年總共發(fā)表了33篇論文,其中在NeurIPS 上12篇,ICML上6篇,ICLR上15篇。
其他比較高產(chǎn)的作者分別是:卡內(nèi)基·梅隆的Neubig、蒙特利爾的Yoshua Bengio。清華大學(xué)的劉知遠(yuǎn)副教授以25篇排名第四(華人第一),其次是微軟亞研院秦濤研究員(24篇)以及其同事劉鐵巖(23篇)。
此外,北大的孫栩、加州大學(xué)圣塔芭芭拉分校的王威廉、騰訊AI Lab的Shuming Shi也不分上下,分別發(fā)表了21、21、20篇論文,排名前十以內(nèi)。
我們還注意到統(tǒng)計(jì)中包括了西湖大學(xué)的張?jiān)溃?8篇)、微軟的高劍峰(18篇)、Caiming Xiong(18篇)、哈工大劉挺(17篇)、北大趙東巖(18篇)等。
將2012~2019年的數(shù)據(jù)作為一個(gè)整體來看,蒙特利爾的Yoshua Bengio已經(jīng)取代了DeepMind的Chris Dyer成為最高產(chǎn)的作者。
位列第三的微軟周明,第四的西湖大學(xué)張?jiān)?、華盛頓大學(xué)的 Noah A. Smith 以及位列第六的哈爾濱工業(yè)大學(xué)的劉挺有超過90篇論文產(chǎn)出。
這里需要強(qiáng)調(diào),由于中國學(xué)者英文重名現(xiàn)象比較嚴(yán)重,為了統(tǒng)計(jì)方便,列表中刪除了Yang Liu這一作者,因?yàn)橛卸嗳擞么嗣謱φ撐氖鹈瑢?dǎo)致難以分辨。這導(dǎo)致清華大學(xué)計(jì)算機(jī)系的劉洋教授沒有被統(tǒng)計(jì)排名。
以“年”為節(jié)點(diǎn)進(jìn)行觀察,Sergey Levine、Graham Neubig、Yoshua Bengio各自發(fā)表的文章的數(shù)量都比前幾年要多,而且這幾個(gè)人也都超過了Chris Dyer在2016年創(chuàng)下的記錄。
另外,值得注意的是西湖大學(xué)張?jiān)赖恼撐陌l(fā)表在2015、2016年達(dá)到最高產(chǎn),劉挺則是在2014年發(fā)表最多。
論文的第一作者通常是論文初稿的寫作人,實(shí)驗(yàn)設(shè)計(jì)的主要參與者以及實(shí)驗(yàn)的主要執(zhí)行者。一般能夠在第一作者署名意味著在論文里面的貢獻(xiàn)比較大。下面讓我們看看論文第一作者的情況。
Gabriele Farina 是卡內(nèi)基梅隴四年級的博士生,他以第一作者的身份發(fā)表論文6篇,其中有3篇被NeurIPS收錄。
威斯康星大學(xué)的Diakonikolas,杜克大學(xué)的 Hanrui Zhang、新加坡國立大學(xué)的Rui Zhang以及清華大學(xué)的武楚涵、北京大學(xué)的楊鵬程、普林斯頓的 Sanjeev Arora、微軟的Zeyuan Allen-Zhu、IBM的 Mikhail Yurochkin也都有5篇論文是第一作者的署名。.
其中清華大學(xué)的武楚涵三篇文章發(fā)在了EMNLP上,北京大學(xué)的楊鵬程有五篇文章發(fā)表在了ACL上面。
縱觀第一作者的論文,其中微軟的Zeyuan Allen-Zhu、香儂科技李紀(jì)為、劍橋的Ivan Vuli?和Ryan Co、亞馬遜的Young-Bum Kim以及普林斯頓的Sanjeev Arora發(fā)表的論文最全面,涉及的頂會(huì)最多。
其中李紀(jì)為在七個(gè)會(huì)議上發(fā)表了論文,數(shù)量頗豐位列第一。
分析2019年各國家和地區(qū)的論文發(fā)表數(shù)量,這還是首次。不可否認(rèn)地,下面這張統(tǒng)計(jì)圖展示了美國在 AI 領(lǐng)域“力壓群山”的主導(dǎo)地位,不過中國、英國、德國和加拿大在該領(lǐng)域所發(fā)揮的影響力也不容小覷。
單獨(dú)從各大會(huì)議會(huì)議上來看,中國在 AAAI 上的論文發(fā)表數(shù)量甚至與美國持平,可見中國研究者在 AAAI 上扮演著舉足輕重的角色。
另外中國在NeurIPS、EMNLP、ACL 等會(huì)議上的表現(xiàn)也非常出色,雖然可能不及在 AI 領(lǐng)域本就擁有先天優(yōu)勢的美國,但是遙遙領(lǐng)先于其他國家和地區(qū)。
下圖展示了2012年至2019年各國家和地區(qū)的論文發(fā)表總數(shù),整體排名和差距情況與2019年各國家和地區(qū)的發(fā)表論文數(shù)量差不多。
這些年來,美國的論文發(fā)表數(shù)量都一直遠(yuǎn)超其他國家和地區(qū),并且現(xiàn)在還在加速拉大這一差距。而中國則在拼盡全力與美國匹敵,如今也以不斷增大的幅度領(lǐng)先于美國以外的其他國家和地區(qū)。而英國雖然在論文發(fā)表數(shù)量以及增長幅度上不及美國和中國,也還是牢牢鎖住了第三的位置。
美國—企業(yè)主導(dǎo)
由于美國2019年的論文發(fā)表數(shù)量在所有國家和地區(qū)中占據(jù)了遙遙領(lǐng)先的主導(dǎo)地位,因而以下這張美國2019年論文發(fā)表數(shù)量統(tǒng)計(jì)圖整體情況與各大機(jī)構(gòu)2019年論文發(fā)表數(shù)量統(tǒng)計(jì)圖差不多,谷歌依舊遙遙領(lǐng)先,而微軟和CMU 依舊排在第二、第三。
中國—高校領(lǐng)先
在中國,高校是論文發(fā)表的中堅(jiān)力量,排在前十的有九所高校,僅有一家企業(yè)。
清華大學(xué)和北京大學(xué)分別鎖住了第一、第二的寶座,二者在國際舞臺上的表現(xiàn)同樣不菲,是中國進(jìn)入全球各機(jī)構(gòu)論文發(fā)表排行榜前十僅有的兩所高校,近年來對于 AI 領(lǐng)域的整體發(fā)展做出了較大的貢獻(xiàn)和推動(dòng)作用。
中國科學(xué)院大學(xué)、中國科學(xué)院、南京大學(xué)是論文發(fā)表數(shù)量排在第三至第五的高校,三所高校在 中國乃至全球 AI 領(lǐng)域扮演的角色同樣出類拔萃,不僅有該領(lǐng)域的領(lǐng)軍人物坐鎮(zhèn),如周志華等,還有為 AI 領(lǐng)域培養(yǎng)了一大批人才,如中科院計(jì)算所等機(jī)構(gòu)。
而企業(yè)同樣是中國論文發(fā)表的一只輔助力量,其中百度、阿里巴巴是其中表現(xiàn)比較出色的企業(yè),分別成立了科研性的實(shí)驗(yàn)室,近年來也發(fā)表了大量的科研論文。
英國— DeepMind的傳奇
在英國, 谷歌麾下的DeepMind 遙遙領(lǐng)先,其后是劍橋大學(xué)、牛津大學(xué)、愛丁堡大學(xué)、倫敦大學(xué)學(xué)院、帝國理工大學(xué)和阿蘭圖靈機(jī)構(gòu)。
值得注意的是,阿蘭圖靈機(jī)構(gòu)由劍橋、牛津、愛丁堡、華威和倫敦大學(xué)學(xué)院五所大學(xué)領(lǐng)導(dǎo),所有該機(jī)構(gòu)的論文發(fā)表數(shù)據(jù)與其他幾所大學(xué)有一定交叉,因此具體數(shù)據(jù)比較模糊。 論文發(fā)表數(shù)量排在前七的機(jī)構(gòu)中,劍橋大學(xué)和愛丁堡大學(xué)主要聚焦于 NLP 領(lǐng)域,而其他機(jī)構(gòu)則主要專注于 ML 領(lǐng)域。
德國—NLP一家獨(dú)大
在德國,達(dá)姆施塔特工業(yè)大學(xué)是論文發(fā)表數(shù)量最多的機(jī)構(gòu),尤其是在 NLP 領(lǐng)域,論文發(fā)表數(shù)量占德國論文發(fā)表總數(shù)的 2/3。羅伯特·博世有限公司總體論文發(fā)表數(shù)量排在第二,但 ML 領(lǐng)域的論文發(fā)表數(shù)量卻是德國機(jī)構(gòu)中最多的。
隨后是薩爾大學(xué)、慕尼黑大學(xué)、圖賓根大學(xué)、慕尼黑工業(yè)大學(xué)、馬克斯普朗克智能系統(tǒng)研究所,分別排在第三至第第七的位置。
加拿大—三足鼎立
在加拿大,多倫多大學(xué)的論文發(fā)表數(shù)量是各機(jī)構(gòu)中最出類拔萃的,排在第一,隨后是蒙特利爾大學(xué)、Vector 人工智能研究院,分別排第二、第三。
滑鐵盧大學(xué)是聚焦于 NLP 領(lǐng)域研究的唯一一所機(jī)構(gòu),而其他機(jī)構(gòu)的論文大多數(shù)都發(fā)表在 ML 的相關(guān)會(huì)議上。
Marek 也做了另外一項(xiàng)分析,即根據(jù)論文研究課題進(jìn)行相似性分析,得出一些有意思的結(jié)論:
首先是機(jī)構(gòu)之間的相似性,從下圖可以看出,來自中國的大學(xué)主要集中在圖的上部分,美國大學(xué)主要在圖的右側(cè),歐洲則在左側(cè),企業(yè)在中間。因此可以看出研究課題即是非常具有區(qū)域性的,高校之間的相互合作受地域影響很大,而企業(yè)則相對就比較靈活。
相似性也可以應(yīng)用到作者的分析上,下圖的緊密度反映了研究者之間研究課題的相似性和合作頻率。從圖中可以看出秦濤(Tao Qin)和劉鐵巖(Tie-Yan Liu)很近,這很容易理解,他們都在微軟亞洲研究院工作。
也可以將相似性分析應(yīng)用到國家和地區(qū)。不過鑒于每個(gè)國家都會(huì)有許多不同的主題,下面這個(gè)圖可能更能代表它們的合作頻率。中國居于右下角,距離較近的是新加坡、澳大利亞、日本等,但距離其他國家和地區(qū)就比較遠(yuǎn)了,例如與臺灣、韓國、法國等的合作就不是很緊密。而美國和英國在國際合作上相對比較多元化。
最后,讓我們再來看一些有趣的數(shù)據(jù):
1)提及GitHub(就是指有代碼開放)的論文占比:ACL 有70 %的論文、 EMNLP 有69%,的論文、 NAACL有 68%的論文、 ICLR 有56%的論文、 NeurIPS有 46%的論文、ICML 有45%的論文、 AAAI 有31%的論文提及GitHub。如此來看,NLP領(lǐng)域的論文似乎大多都免費(fèi)開放了論文代碼。
2)單篇論文作者最多有 24 位,論文是《 CoSQL: A Conversational Text-to-SQL Challenge Towards Cross-Domain Natural Language Interfaces to Databases》(地址:https://arxiv.org/abs/1909.05378)
3)標(biāo)題最長的論文:《What if We Simply Swap the Two Text Fragments? A Straightforward yet Effective Way to Test the Robustness of Methods to Confounding Signals in Nature Language Inference Tasks》(地址:https://arxiv.org/abs/1809.02719)
4)標(biāo)題最短的論文:《Graph U-Nets》(地址:https://arxiv.org/abs/1905.05178)
參考來源:https://www.marekrei.com/blog/ml-and-nlp-publications-in-2019/ 雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。