0
本文作者: 我在思考中 | 2021-10-09 17:24 |
校對 | 琰琰
NeurIPS 2021 近日公布了今年的論文接受情況,收到有效論文投稿 9122 篇,錄用論文2371篇,接收率為26%,創(chuàng)9年來歷史新高。
作為全球最負盛名的AI學術(shù)會議之一,NeurIPS 的學術(shù)影響力和論文投稿量逐年攀升,截止今年已收到近萬篇論文投稿。與此同時,NeurIPS 的論文評審標準和機制一直存在爭議。早在2014 年就有人提出,NeurIPS 的論文評審存在嚴重的質(zhì)量問題,而這些問題可能與審稿人的工作量增大有關(guān)。
2014年是機器學習研究領(lǐng)域最為關(guān)鍵的一年,這一年 NeurIPS 接收了多篇突破性研究論文,涉及有監(jiān)督學習、無監(jiān)督學習、結(jié)構(gòu)預測多個方向,這些論文為當時的研究提供了理論、算法和實驗上的證明,在人工智能領(lǐng)域產(chǎn)生了廣泛的影響。
近日,谷歌研究院與劍橋大學共同發(fā)表文章《Inconsistency in Conference Peer Review: Revisiting the 2014 NeurIPS Experiment》,重新評估2014年 NeurIPS 的論文審稿情況,以及同行評議過程存在的不一致性。他們發(fā)現(xiàn):50% 審稿人的評分差異來源于主觀因素。
Cortes和 Lawrence 是NeurIPS 2014 會議的程序主席,他們分析了 NeurIPS 2014 被接收論文7年來的學術(shù)影響力。
實驗發(fā)現(xiàn),從2014年至今,如果以引用量為衡量標準,被接收論文的評分和影響力之間沒有相關(guān)性,而在被拒收的論文之間存在相關(guān)性,這表明,NeurIPS 2014 的論文審查更能識別質(zhì)量較差的論文,但判斷高質(zhì)量論文的能力一般,對此,作者認為審稿流程的不完善是主要原因,但也不排除審稿人主觀因素的影響。
概述:審稿人對高質(zhì)量論文不敏感
作者從 NeurIPS 2014 被接收的論文中隨機抽取10% ,讓兩個獨立的項目委員會分別展開審查,以確定兩個委員會的決策是否一致。實驗結(jié)果發(fā)現(xiàn),兩個委員會得出的決定比隨機決定要好,但是審稿意見達成一致的概率很低。
委員會關(guān)于選擇接收哪些論文的意見不一致,意味著如果獨立地重新進行審稿,大約會有50%的論文會得到與之前不同的審稿意見。
為了了解其中的影響因素,作者回顧了2014年的會議數(shù)據(jù),并從三個方面進行了深入分析。
首先,會議期間審稿人的評分標準進行了統(tǒng)一的校準,這一過程消除了不同審稿人對量表解釋的偏見,但也量化了每個審稿人評分的主觀性。通過仿真研究證實,這種主觀性是評審意見不一致的關(guān)鍵因素。
其次,審稿人的評分是否與論文引用數(shù)相關(guān)。作者在 Semantic Scholar 上收集了約400篇論文的引用數(shù),并將其作為評價論文影響力的指標。結(jié)果發(fā)現(xiàn)論文得分與論文最終影響力之間沒有相關(guān)性。
最后是被拒稿的論文分析。作者在Semantic Scholar上搜索同一主要作者的具有類似標題的論文,追蹤到了680篇被 NeurIPS 2014 拒稿的論文去向,以及它們的相關(guān)引用數(shù)。結(jié)果發(fā)現(xiàn),被拒稿的論文的得分和引用數(shù)之間存在相關(guān)性。
根據(jù)上述分析,作者得出結(jié)論:會議審稿過程中的不一致性是審稿人評分具有主觀性的結(jié)果。在高分論文中,審稿人的評分并不能很好地反映后續(xù)論文的引用量;而在低分論文中,審稿人評分與引用量基本一致,這似乎說明審稿人更擅長識別質(zhì)量較差的論文。對此,作者認為可以通過更加明確的評分標準來多方面評價一篇論文,這將使程序主席在指導會議方面具有更大的靈活性。
NeurIPS 2014 論文的回顧性實驗
在蒙特利爾舉辦的NeurIPS 2014,有2581名與會者參加會議、相關(guān)研討會和講習班。在評審過程中,每篇論文會被分配給一位領(lǐng)域主席和至少三位審稿人,由領(lǐng)域主席和程序主席之間的視頻會議做出最終的決定。
作者通過隨機實驗測試了NeurIPS 2014 同行評審過程的一致性。他們從1678份提交的投稿中選出了約10% (170 份)的論文,并分別交給兩組委員會進行獨立審稿。這兩組委員會的審稿人是隨機分配的,而領(lǐng)域主席是按照研究領(lǐng)域定向分配的,后者的目的是確保兩組審稿人覆蓋所有相關(guān)的專業(yè)知識。
如果論文通過初篩,作者會被通知根據(jù)評審意見提交兩篇獨立的反駁意見。其中一個委員會接受了論文,則意味著這篇論文被錄用。
一、評審意見的一致性概率
量化審稿過程中的不一致性有多種方式。作為大會的程序主席,兩位作者提出了這樣一個問題:產(chǎn)生不一致決策的論文的百分比是多少。在結(jié)果發(fā)布前一周,他們在SciCast上提出了預測結(jié)果的問題,引起了激烈的討論。如圖1所示,參與預測的人也意識到審稿過程中可能存在不一致,預測的中位數(shù)約為30%。
下表為兩個評審委員會對論文評審意見的混淆矩陣。
圖 2:兩個獨立的評審委員會的平均校準審稿得分之間的關(guān)系
所上圖所示,在實驗用到的 170 篇論文中,有4篇論文在沒有完成審稿過程的情況下被撤回或拒絕,最終利用166篇論文完成了實驗。其中,兩個評審委員會對43(25.0%)份論文持不同意見,這與上述推測基本一致。換而言之,某個評審委員會與另一個評審委員會對被接收的論文的意見一致的概率為 50%。
在審稿過程中,作者采用 Likert 量表「定量評估」了審稿人的評分和結(jié)論。該分數(shù)通常由每位審稿人進行校準,以解釋審稿人意見的差異。他們研究了兩個獨立評審委員會對每篇論文的平均校準審稿分數(shù)之間的相關(guān)性。分數(shù)的散點圖如上圖所示,Pearson相關(guān)性系數(shù) ρ=0.55。
在實驗過程中,作者還跟蹤了提交評論的時間。有證據(jù)表明,在審稿意見提交截止日期后收到的審稿意見更短,論文評分更高,但置信度更低。目前無法確定這是否對程序委員會之間的相關(guān)性產(chǎn)生了顯著影響。
關(guān)于一篇論文是否能夠被接收,各評審委員會意見達成一致的概率僅為 50% 左右,表現(xiàn)稍稍優(yōu)于隨機評分,這項實驗結(jié)果讓很多人感到震驚,也引起了廣泛的討論。
NeurIPS會議的接受率通常在23.5%左右,在這種情況下,兩個審稿委員會僅有 64% 的概率就書面決定達成一致,或僅以 23.5% 的概率就接收的論文達成一致。
二、審稿人評分的仿真實驗
作者通過總分為10分的Likert量表評估了 NeurIPS 論文。這種量表存在的一個典型問題,即不同的審稿人可能會對其做出不同的解釋。至少自2005年以后,NeurIPS主席已經(jīng)開始使用他們自己設計的規(guī)則校準審稿人的評分標準。例如,2006 年主持會議的 John Platt 使用了正則化最小二乘模型。2013 年,Zoubin Ghaharamani和Max Welling使用了該模型的貝葉斯擴展版本。2017 年,NeurIPS 社區(qū)外的 MacKay 等人提出了一種考慮置信度分數(shù)的貝葉斯方法。
與Welling和Ghahramani一樣,作者在這項研究中也使用了Platt-Burges模型的貝葉斯版本(高斯過程)。
如圖,每個審稿分數(shù)會被分解為三個部分:
其中,y_{i,j} 是第 j 個審稿人對第 i 篇論文的評分。該評分被分解為第 i 篇論文的客觀質(zhì)量(審稿人對第 i 篇論文打分相同的部分)。b_j 表示與第j位審稿人相關(guān)的偏移量或偏差,它代表不同的審稿人對量表的解釋不同。
是審稿人 j 對論文 i 質(zhì)量的主觀評估結(jié)果,它反映了某位審稿人與其他審稿人的意見差異。這些意見分歧可能是由于不同的專業(yè)知識或觀點引起的。
為了檢查這種主觀評分是否也解釋了兩個評審委員會對接收論文意見的不一致性,作者建立了一個簡單的仿真研究,根據(jù)上文給出的模型對每篇論文評分,通過對100,000個樣本取平均來估計對接收論文意見一致性。
如下圖3,展示了以論文接受率函數(shù)為指標的論文接受一致性估計。假設三名審稿人有 50% 的主觀性,仿真實驗結(jié)果表明,接收意見一致的期望為 63%,這個數(shù)據(jù)顯然高于目前觀察到的一致性。從理論上說,盡管總體的實驗樣本量上為 166,但會議的低接受率(2014 年為23%)意味著在分析兩個評審委員會之間的一致性時,接收的樣本數(shù)量約為40個。這導致估計的標準差約為8%。仿真實驗表明,主觀性是論文審稿意見差異較大的主要原因。綜合考慮校準模型和仿真實驗結(jié)果,會議接收論文的準確率約為61%。
圖 3:設定主觀性為 50%時,論文接收率與一致性關(guān)系曲線圖
三、審稿的一致性與相關(guān)性
我們都希望評審委員會之間有更大的一致性。畢竟,如果最終的決定不一致,這些決定是否正確的可能性也較小。但反過來,保持一致也并不意味著正確。例如,如果兩個委員會都要根據(jù)所包含的參考文獻數(shù)量來選擇要接收接受的論文,那么他們的決定將是一致的,但并不正確。
所以在某種程度上,決策的變化可能也是一件好事:它可以防止特定類型的論文受到一貫的歧視。可以確定的是,同行評審過程中存在不一致性,這種不一致性與審稿人的主觀評分相關(guān)。但是,我們也不要過分強調(diào)一致性,以此作為審稿的目標。如果能夠確保決策是正確的,同時保證決策的一致,那么這種一致性就是有益的。
四、被接收論文,是否與引用成正比?
為了確定論文的引用影響,作者在 Semantic Scholar 上檢索了所有被接收的論文,以及它們目前的引用情況。以下為將引用分數(shù)通過單調(diào)變換轉(zhuǎn)換而來的引用影響力:
這種轉(zhuǎn)換消除了引用分布的長尾問題,使引用分數(shù)分布更接近高斯分布,能夠利用皮爾遜系數(shù) ρ 進行度量相關(guān)性。
作者計算了校準后的論文分數(shù)和引用影響力之間的相關(guān)性。如圖4 所示,這些分數(shù)之間沒有顯著相關(guān)性。在計算相關(guān)系數(shù)之前,已將差分隱私噪聲添加到值中,模糊了各個論文的身份。
圖 4:引用影響力與被接收的NeurIPS 2014論文的平均校準質(zhì)量分數(shù)關(guān)系的散點圖
校準后的論文評分與被接收論文的引用次數(shù)之間沒有相關(guān)性,是否意味著審稿人無法判斷哪些論文可能更具有影響力?
2013年Welling和Ghahramani的研究引入了一個單獨的評分指標。基于這項指標,作者要求每位審稿人從論文「可能產(chǎn)生重大影響」或「不太可能產(chǎn)生重大影響」兩個維度對論文未來可能產(chǎn)生的影響力做出判斷。最后分析結(jié)果表明,該評分與被接收論文的引用影響力有統(tǒng)計上的顯著相關(guān)性,但影響的幅度很小。
圖 5:影響力與被接收的NeurIPS 2014論文的引用量的關(guān)系散點圖
除了論文質(zhì)量和影響力外,作者還要求審稿人為他們的評審意見提供一個 Likert 量表上的可信度分數(shù)。該分數(shù)位于在1(「根據(jù)猜測評審」)和5(「審稿人十分篤定」)之間。可信度度得分有助于領(lǐng)域主席決定某一特定審稿意見的權(quán)重,以及某篇論文是否需要被重新審稿。
審稿人給出的可信度反映了審稿人的專業(yè)知識,同時,可信度分數(shù)也是對論文影響力的初步預測。具體來說,該分數(shù)在某種程度上反映了論文的某些潛在清晰程度,這種清晰度也可能對引用影響力產(chǎn)生下游影響。如影響因子是根據(jù)發(fā)表的論文的引用計數(shù)得出的指標,我們通常會根據(jù)影響因子對會議和期刊進行排名。但長期分析表明,NeurIPS 2014接收論文的評分與論文日后的引用影響力不相關(guān)。
圖 6:論文引用量與平均可信度得分的關(guān)系散點圖
對此,作者探索了論文評分和引用次數(shù)之間的關(guān)系,以確定評審過程中決策的「正確」程度。他們認為,如果出現(xiàn)錯誤,每次出現(xiàn)的錯誤最好不相同,而不是總是因為同樣的誤解而拒稿。如果將論文引用數(shù)作為衡量論文質(zhì)量的一個指標,我們會發(fā)現(xiàn)審稿人沒有在評分中體現(xiàn)這一點。最后,審稿人的可信度受到論文的特定特征的影響,分析結(jié)果表明,其可信度評分是衡量論文引用影響力的最佳指標。
五、680篇被拒論文分析
在NeurIPS 2014的1678篇投稿中,只有414篇論文被會議接收。為了追蹤被拒論文的去向,作者在 Semantic Scholar 搜索所有1264篇被拒論文,最終發(fā)現(xiàn)了 680 篇,其中有 177 篇只在arXiv上才能找到;76 篇論文未被發(fā)表,只找到了在線 PDF 版;其它427篇論文在其它會議或期刊上出版,其論文的去向渠道有AAAI(72篇論文)、AISTATS(57篇論文)、ICML(33篇論文)、CVPR(17篇論文)、之后的 NeurIPS(15篇論文)、JMLR(14篇論文)、IJCAI(14篇論文)、ICLR(13篇論文)、UAI(11篇論文)。
圖 7:被拒的 NeurIPS 論文的去向
被拒論文的得分與其最終引用影響力之間的相關(guān)性如圖8所示。實驗結(jié)果表明,被拒文的質(zhì)量分數(shù)與其引用影響力之間的相關(guān)性較弱,但是審稿人評分似乎與引文影響力確實存在一定的相關(guān)性。
圖 8:引用量與被拒論文的平均校準質(zhì)量分數(shù)關(guān)系的散點圖
結(jié)語
基于以上問題,作者認為NeurIPS 頂會的評審過程有必要進行重大改革,應盡可能地將「質(zhì)量」、「清晰度」、「獨創(chuàng)性」、「重要性」、「定量評估」等評分標準區(qū)分開,以提高審稿人評審意見的一致性。
隨著機器學習研究規(guī)模的擴大,是否在頂級會議發(fā)表論文成為了衡量個人科研能力和貢獻的重要指標,然而,對于剛?cè)胄胁痪玫难芯咳藛T來說,他們無法在短時間內(nèi)發(fā)表足夠多的論文,這一代理措施將對審查過程中的不一致性高度敏感。
此外,越來越多的公司開始將頂會的論文發(fā)表情況作為績效考核指標之一,如果績效審查在較短的時間內(nèi)進行,這種度量方法也將對審查過程中的不一致性十分敏感。鑒于這項研究已經(jīng)證實論文審稿中不一致性的存在,我們應該謹慎地將頂會頂刊論文發(fā)表情況作為衡量個人科研能力的關(guān)鍵指標。
雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。