0
NLP 中的大多數(shù)成功案例都是關(guān)于監(jiān)督學(xué)習(xí)或半監(jiān)督學(xué)習(xí)的。從根本上說,這意味著我們的解析器、情感分類器、QA 系統(tǒng)和其他一切都和訓(xùn)練數(shù)據(jù)一樣好?;谶@一事實(shí),數(shù)據(jù)和模型工程,對(duì)于 NLP 進(jìn)一步的發(fā)展來說同樣重要。這就是為什么頂級(jí)會(huì)議 ACL 通常還專設(shè)了一個(gè)「資源和評(píng)估」通道,并頒發(fā)最佳資源論文獎(jiǎng)。
然而,創(chuàng)建模型和資源這兩項(xiàng)任務(wù)所需要的技能集并不相同,往往也來自不同的領(lǐng)域,這兩個(gè)領(lǐng)域的研究者往往也對(duì)「論文應(yīng)該是怎樣的」抱有不同的期望。這就使得審稿人的工作進(jìn)入一個(gè)雷區(qū):如果期望得到一個(gè)橘子結(jié)果得到的卻是一個(gè)蘋果,那么這個(gè)蘋果看起來就是錯(cuò)的。以雙方最大的善意來看,論文被拒絕的原因可能并非論文實(shí)際存在任何缺陷,而是它的基本方法論「不合適」。
對(duì)于這一點(diǎn)比較失望的作者們?cè)诰€上或線下展開的討論,是這篇文章的寫作緣由。有一件事很明顯:如果作者和審稿人不能就「論文應(yīng)該是怎么樣的」達(dá)成一致,那么提交論文就是浪費(fèi)彼此的時(shí)間。我希望本文能幫助那些使用數(shù)據(jù)的人,更好地理解那些制作數(shù)據(jù)的人,并對(duì)他們的論文做出更好的評(píng)價(jià)。
讓我們從消除一些關(guān)于資源論文的誤區(qū)開始。不幸的是,下面所有引用都來自 ACL 審稿人對(duì)論文的真實(shí)評(píng)論!
誤區(qū) 1:資源論文不是科學(xué)
也許這一觀點(diǎn)最有代表性的例子來自于 Rachel Bawden。ACL 2019 年的一位審稿人對(duì)他這篇以機(jī)器翻譯為媒介的雙語(yǔ)對(duì)話資源論文提出了以下意見:
本文主要是對(duì)語(yǔ)料庫(kù)及其集合的描述,幾乎不包含科學(xué)上的貢獻(xiàn)。
鑒于 ACL 2019 有一個(gè)專門的「資源和評(píng)估」領(lǐng)域,因此,這種觀點(diǎn)的提出看起來甚至是不可能的,而出現(xiàn)在評(píng)論中更是不可接受!需要明確的是,資源建設(shè)至少以三種方式增加了知識(shí):
它們是從建模中獲得任何知識(shí)的先決條件;
除資源外,可能還有注釋準(zhǔn)則或新的數(shù)據(jù)收集方法;
基于注釋的迭代準(zhǔn)則開發(fā)增加了對(duì)長(zhǎng)尾現(xiàn)象的了解。
論文鏈接:https://hackingsemantics.xyz/2020/reviewing-data/#bawden2019diabla
誤區(qū) 2:資源論文更適合 LREC 或研討會(huì)
大多數(shù) ACL 會(huì)議都提供一個(gè)專門的「資源和評(píng)估」通道,但是資源論文的作者通常被建議將他們的工作提交給語(yǔ)言資源和人類語(yǔ)言技術(shù)評(píng)測(cè)方面的國(guó)際頂級(jí)會(huì)議 LREC 或一些專題研討會(huì)。我們?cè)俅谓栌孟?Rachel Bawden 在 ACL 2019 中論文評(píng)論里面的一句話:
我認(rèn)為這篇文章不適合 ACL。它非常適合 LREC 和特定的機(jī)器翻譯會(huì)議和研討會(huì)。
人們普遍認(rèn)為 NLP 系統(tǒng)工程相關(guān)的工作比資源相關(guān)的工作更有聲望,而這一觀點(diǎn)可能正是與此有關(guān)。由于 ACL 是頂級(jí)會(huì)議,因此,資源論文應(yīng)該被提交給研討會(huì)和級(jí)別較低的 LREC 會(huì)議。
這種觀點(diǎn)非常不公平,甚至?xí)m得其反。首先,NLP 工程論文每年通常都有好幾次機(jī)會(huì)提交給 NLP 領(lǐng)域的主流頂級(jí)會(huì)議。而 LREC 是唯一一個(gè)專門討論資源的會(huì)議,每?jī)赡瓴排e辦一次。
其次,NLP 的進(jìn)展取決于系統(tǒng)和基準(zhǔn)的共同演進(jìn)。NLP 基準(zhǔn)并不完美,當(dāng)我們?cè)谄渲腥魏我粋€(gè)基準(zhǔn)上停留太久時(shí),我們很可能會(huì)開始針對(duì)錯(cuò)誤的事情進(jìn)行優(yōu)化,發(fā)表許多 SOTA 論文,但卻并沒有取得真正的進(jìn)展。因此,開發(fā)更具挑戰(zhàn)性的基準(zhǔn)與建模工作同等重要。我們至少可以做到的是,在頂級(jí)會(huì)議上發(fā)表此類文章來推動(dòng)這件事。此外,將數(shù)據(jù)和模型各自置于不同的會(huì)議,不太可能改善這兩個(gè)社區(qū)之間的思想交流。
誤區(qū) 3:新資源必須大于競(jìng)爭(zhēng)
針對(duì)這一點(diǎn),我自己在 ACL 2020 上收到了以下評(píng)論:
本文提出的新語(yǔ)料庫(kù)并不比現(xiàn)有語(yǔ)料庫(kù)大。
針對(duì)資源論文的這一評(píng)論,其實(shí)就相當(dāng)于在評(píng)審系統(tǒng)論文以「如果不是 SOTA,則拒絕」來判定一篇論文的生死。測(cè)試性能提供了一種簡(jiǎn)單的啟發(fā)式方法來判斷新模型的潛在影響,與此同時(shí)數(shù)據(jù)集大小成為其實(shí)用性好壞的指標(biāo)。在這兩種情況下,來自工業(yè)界和資金雄厚的實(shí)驗(yàn)室的論文都有優(yōu)勢(shì)。
由于數(shù)據(jù)量往往與數(shù)據(jù)質(zhì)量成反比,因此這種態(tài)度隱晦地鼓勵(lì)眾包并阻礙專家注釋。上述提到的向 ACL 2020 提交的論文提供了一個(gè)具有專家語(yǔ)言注釋的資源,其中存在著更大、噪聲更多的眾包替代方案。這篇論文特別討論了為什么直接比較這些資源的大小是沒有意義的。不過,其中一位評(píng)審人認(rèn)為,新的語(yǔ)料庫(kù)比眾包語(yǔ)料庫(kù)要小,這顯然降低了它的價(jià)值。
誤區(qū) 4:資源必須是英語(yǔ)或跨語(yǔ)言較大的
語(yǔ)言的數(shù)量似乎與數(shù)據(jù)集的大小具有大致相同的功能:一種判斷其潛在影響的啟發(fā)式方法。以下是 Robert Munro 從另一篇 ACL 論文評(píng)論中引用的一段話:
總的來說,沒有好的跡象表明其他語(yǔ)言對(duì)能取得好的結(jié)果。
這是一個(gè)絕對(duì)有效的評(píng)論,它適用于大多數(shù)只關(guān)注英語(yǔ)卻探討建?!刚Z(yǔ)言」(#BenderRule) 的 NLP 論文。因此,如果這一觀點(diǎn)被認(rèn)可,那么每一篇論文都要求必須是跨語(yǔ)言的研究。然而這一觀點(diǎn),往往是由非英語(yǔ)資源論文的評(píng)審人提出的。
其結(jié)果是,這種工作正在被邊緣化,并受到了阻礙。我有幸參加了 ESSLLI 2019,并與一些出色的拉脫維亞文研究人員進(jìn)行了交流,他們研究針對(duì)自己的語(yǔ)言的 NLP 系統(tǒng)。他們告訴我,他們放棄了主要的 ACL 會(huì)議,因?yàn)樗麄兊墓ぷ鞣秶^狹窄,大多數(shù)人沒有興趣。這對(duì)每個(gè)人來說都是一個(gè)損失:要把對(duì)英語(yǔ)有用的想法轉(zhuǎn)移到其他語(yǔ)言上絕非易事,這些拉脫維亞文研究人員想出的訣竅可能在全球范圍內(nèi)都有很大的用處。此外,如果我們?cè)?NLP 社區(qū)的目標(biāo)是建立「人類語(yǔ)言」的模型,我們不太可能只關(guān)注其中一種語(yǔ)言就獲得成功。
將語(yǔ)言數(shù)量與論文的潛在影響混為一談,會(huì)給跨語(yǔ)言研究帶來一個(gè)有趣的結(jié)果:他們擁有的語(yǔ)言越多,在審稿人眼中就越好。
然而,如果在所有這些語(yǔ)言中執(zhí)行任何有意義的分析,那么語(yǔ)言數(shù)量通常會(huì)隨著作者列表長(zhǎng)度的增加而增加:例如有一篇關(guān)于通用依賴性的論文就有 85 位作者(論文地址:https://lindat.mff.cuni.cz/repository/xmlui/handle/11234/1-1548 ),該論文涉及的語(yǔ)言數(shù)量就比較多。
一個(gè)普通的機(jī)器學(xué)習(xí)實(shí)驗(yàn)室沒有辦法做這樣的事情,所以為了取悅審稿人,他們使用了機(jī)器翻譯來擴(kuò)增語(yǔ)言數(shù)量,甚至在類型聲明中也使用了機(jī)器翻譯(以「BERT Is Not an Interlingua and the Bias of Tokenization」論文為例:https://doi.org/10.18653/v1/D19-6106 )。在這種情況下,語(yǔ)言數(shù)量并不能完全代表論文的整體質(zhì)量。
誤區(qū) 5:已有數(shù)據(jù)集太多了
針對(duì)這一觀點(diǎn),以下是 EMNLP 2019 論文評(píng)論中的一個(gè)例子:
本文提出了另一種問答測(cè)試。
為了保證公平性,這位審稿人隨后提到,如果一個(gè)新的基準(zhǔn)提供了一些全新的方法,它可能會(huì)擁有一席之地。不過,其隱含的假設(shè)是,資源論文應(yīng)該有一個(gè)上限,有大量的問答數(shù)據(jù)多少會(huì)適得其反。
有一種觀點(diǎn)認(rèn)為,有太多基準(zhǔn)會(huì)稀釋社區(qū)的努力。然而,只有當(dāng)有一個(gè)基準(zhǔn)本質(zhì)上比所有其他基準(zhǔn)都好時(shí),這一點(diǎn)才會(huì)成立。如果不是這樣,只關(guān)注一個(gè)數(shù)據(jù)集可能會(huì)適得其反。有了大量的數(shù)據(jù)集,我們至少可以進(jìn)行更好的泛化研究。例如,在 SQuAD、CoQA 和 QuAC 上訓(xùn)練的模型不會(huì)相互轉(zhuǎn)移,即使這三個(gè)數(shù)據(jù)集都基于 Wikipedia(論文地址:https://arxiv.org/pdf/1809.10735.pdf)。
有趣的是,對(duì)于系統(tǒng)論文也可以提出同樣的觀點(diǎn):在下一次突破之前,社區(qū)應(yīng)該對(duì) BERT 進(jìn)行多少增量修改是否應(yīng)該有一個(gè)上限?(相關(guān)論文地址:https://arxiv.org/pdf/2002.12327.pdf)
誤區(qū) 6:每一篇 ACL 資源論文都必須隨附 DL 實(shí)驗(yàn)
以上所有的謬論都很容易被駁斥,因?yàn)樗鼈兎从沉诉壿嬌系闹囌`和一種研究?jī)A向——不喜歡與主流 NLP 系統(tǒng)論文不一樣。但其中有一個(gè)似乎與社區(qū)真正的分歧相對(duì)應(yīng):
繼續(xù)進(jìn)行 #NLProc 同行評(píng)審辯論!
到目前為止,最棘手的問題是:ACL 是否應(yīng)該要求資源論文進(jìn)行一些概念驗(yàn)證的應(yīng)用?
支持方:沒有 ML 實(shí)驗(yàn)=>就投稿到 LREC
反對(duì)方:超新的方法論/高影響力的數(shù)據(jù)就足矣
你的觀點(diǎn)是什么?
看過幾十條評(píng)論,顯而易見人們?cè)诼牭健纲Y源論文」時(shí),很明顯會(huì)有不同的想法。是否需要進(jìn)行 DL 實(shí)驗(yàn),甚至是否合適,都取決于貢獻(xiàn)的類型。
NLP 任務(wù)/基準(zhǔn):主要觀點(diǎn)通常是,新基準(zhǔn)比以前的基準(zhǔn)更具挑戰(zhàn)性。這一說法顯然必須得到實(shí)驗(yàn)結(jié)果的支持。
計(jì)算語(yǔ)言資源(詞匯、詞典、語(yǔ)法):其價(jià)值在于從某些角度提供盡可能完整的詳細(xì)語(yǔ)言描述。類似 VerbNet 這樣的語(yǔ)言資源,并不是為任何特定的 DL 應(yīng)用程序創(chuàng)建的,因此不應(yīng)該要求包含任何這樣的實(shí)驗(yàn)。
介于這兩個(gè)極端之間的,是可以很容易地構(gòu)建為 DL 任務(wù)/基準(zhǔn)的資源類型,但還不清楚它們是否應(yīng)該是必需的,甚至是最好的選擇。具體而言,這涉及:
非公開數(shù)據(jù)的發(fā)布:以前非公開的數(shù)據(jù)資源,如匿名醫(yī)療數(shù)據(jù)或來自私人公司的數(shù)據(jù)。作者的貢獻(xiàn)是使發(fā)布成為可能的法律或行政工作。
具有語(yǔ)言注釋的資源(樹庫(kù),共指,照應(yīng),時(shí)態(tài)關(guān)系等):這些資源的質(zhì)量傳統(tǒng)上是由注釋之間的一致性來衡量的。作者的貢獻(xiàn)是注釋工作或注釋方法。
在這兩種情況下,數(shù)據(jù)可能以多種不同的方式使用??梢灾惶峁?biāo)準(zhǔn)的訓(xùn)練/測(cè)試拆分,并將資源作為新任務(wù)或基準(zhǔn)來呈現(xiàn),從而使某些實(shí)踐者的生活變得更輕松——這些實(shí)踐者只想尋找新任務(wù)來設(shè)置自己喜歡的算法。但這可能不是唯一用來思考新數(shù)據(jù)的方法,甚至不是最好的方法。這時(shí),這場(chǎng)討論演變成了一場(chǎng)不科學(xué)的拔河比賽,大致是這樣的:
工程師:這個(gè)數(shù)據(jù)是給我的嗎?如果是,我想看看相關(guān)實(shí)驗(yàn),證明這是可以學(xué)習(xí)的。
語(yǔ)言學(xué)家:這實(shí)際上是關(guān)于語(yǔ)言而不是深度學(xué)習(xí)的數(shù)據(jù)。但如果你愿意,歡迎使用這些數(shù)據(jù)。
在這一灰色地帶,我懇請(qǐng)領(lǐng)域主席定好他們的期望,并向作者和審稿人明確說明這一點(diǎn)。否則我們會(huì)陷入一個(gè)雷區(qū):一些審稿人認(rèn)為基線實(shí)驗(yàn)是一項(xiàng)硬性要求,但作者沒有預(yù)料到這一點(diǎn)。不然作者們提交的論文對(duì)作者本身以及審稿審得疲憊不堪的審稿人和領(lǐng)域主席來說都是浪費(fèi)時(shí)間。而他們明確說明這一點(diǎn),則可以很容易地防止這種浪費(fèi)。
就我個(gè)人而言,我反對(duì)將基線實(shí)驗(yàn)作為硬性要求,理由如下:
NLP 是一個(gè)跨學(xué)科的項(xiàng)目,我們需要盡可能得到來自各個(gè)學(xué)科的所有幫助。要求每一次提交都要用機(jī)器學(xué)習(xí)方法打包,這不僅會(huì)阻礙擁有不同技能的研究者的數(shù)據(jù)和想法之間流動(dòng),還會(huì)影響語(yǔ)言學(xué)、社會(huì)學(xué)和心理學(xué)等領(lǐng)域之間的數(shù)據(jù)和思想流動(dòng)。
包含這樣的實(shí)驗(yàn)可能不會(huì)取悅?cè)魏我环?。如果作者不是必須在論文中包含基線的話,會(huì)給語(yǔ)言學(xué)家們留下一些本可以解決的問題。工程師們會(huì)變得只關(guān)注基線部分,然而最終發(fā)現(xiàn)基線部分并沒有那么引人關(guān)注。
以我的一篇論文作為具體案例,這篇論文提出了一個(gè)新的情感標(biāo)注方案,一個(gè)新的數(shù)據(jù)集,并展示了一些基線實(shí)驗(yàn)(論文地址:https://www.aclweb.org/anthology/C18-1064.pdf)。審稿人指出的一個(gè)不足之處是:
使用域內(nèi)單詞嵌入獲得的結(jié)果不足為奇。一個(gè)眾所周知的事實(shí)是,域內(nèi)單詞嵌入相對(duì)于一般單詞嵌入更具信息性。
我們對(duì)域內(nèi)嵌入的評(píng)論只是簡(jiǎn)單地描述了結(jié)果表,并無意作為啟示。這篇論文的貢獻(xiàn)在于資源和方法,但在文中出現(xiàn)的這些實(shí)驗(yàn)顯然引發(fā)了審稿人的錯(cuò)誤預(yù)期。雖然最終我們的論文被接收了,但其他很多人可能掉進(jìn)了這個(gè)陷阱。
我適合當(dāng)這篇論文的審稿人嗎?
蘋果是蘋果,橘子是橘子,兩者都有自己的優(yōu)點(diǎn)。因?yàn)橘Y源論文不是系統(tǒng)論文而拒絕它,是沒有意義的。要寫一篇建設(shè)性的評(píng)論,首先,你需要從與作者同樣的方法論角度來看待它的貢獻(xiàn)。如果有不匹配的地方,也就是說,如果你被分配去審一篇貢獻(xiàn)類型不在你的研究范圍內(nèi)的論文,最好讓領(lǐng)域主席重新分配。
以下是資源論文的一些主要類型,以及撰寫高質(zhì)量評(píng)論所需的專業(yè)知識(shí):
眾包NLP訓(xùn)練/測(cè)試數(shù)據(jù)集:基礎(chǔ)眾包方法論的知識(shí)、對(duì)潛在問題(如非自然信號(hào))的認(rèn)識(shí)(論文地址:https://arxiv.org/pdf/1803.02324.pdf )和注釋者偏差(論文地址:https://arxiv.org/abs/1908.07898 ),以及此任務(wù)的其他可用數(shù)據(jù)集。理想情況下,你至少自己構(gòu)建了一個(gè)此類資源。
帶語(yǔ)言注釋的語(yǔ)料庫(kù)(語(yǔ)法、復(fù)指、共指、時(shí)態(tài)關(guān)系):有關(guān)語(yǔ)言理論和注釋經(jīng)驗(yàn)的知識(shí),注釋可靠性估計(jì),以及這一特定子領(lǐng)域的現(xiàn)有資源。理想情況下,你至少自己構(gòu)建了一個(gè)此類資源。
語(yǔ)言知識(shí)資源(語(yǔ)法、詞典、詞匯數(shù)據(jù)庫(kù)):語(yǔ)言理論的其他知識(shí)和所有其他相關(guān)資源。理想情況下,你至少自己構(gòu)建了一個(gè)此類資源。
那么,非英語(yǔ)資源呢?我們不能指望總是有這樣一批審稿人,他們都是該領(lǐng)域的專家,而且都會(huì)說一種特定的稀有語(yǔ)言,所以答案很可能是「分工」。當(dāng)我們以審稿人的身份注冊(cè)會(huì)議時(shí),除了專業(yè)領(lǐng)域外,我們還可以指定語(yǔ)言。如果一篇資源(或系統(tǒng))論文不是用英語(yǔ)撰寫的,那么除了目標(biāo)領(lǐng)域的兩位專家外,領(lǐng)域主席最好能找到至少一位會(huì)說這種語(yǔ)言的審稿人。不懂這門語(yǔ)言的人仍然可以評(píng)估能判斷部分的貢獻(xiàn)(方法、分析、與其他工作的有意義的比較)。只要領(lǐng)域主席在你的評(píng)論中清楚地知道論文的哪些部分超出了你的范圍,都將能夠做出明智的決定,并在必要時(shí)招募額外的審稿人。當(dāng)然,作者應(yīng)該通過添加注釋來幫助應(yīng)對(duì)這一問題。
在 ACL 中,什么樣的資源論文才是有價(jià)值的?
一旦你確定你看待這篇論文的角度與作者的方法論一致,你就需要判斷它的實(shí)際貢獻(xiàn)。當(dāng)然,并不是所有的資源論文都值得發(fā)表在一個(gè)頂級(jí)的 NLP 會(huì)議上!對(duì)于系統(tǒng)和資源論文來說,接收標(biāo)準(zhǔn)并沒有太大的不同。大多數(shù)會(huì)議都對(duì)這種方法的新穎性、貢獻(xiàn)大小、潛在影響的大小感興趣。在 ACL 中具有價(jià)值的論文,無論是任何一種類型,論文作者都需要對(duì)其中的至少一項(xiàng)進(jìn)行有力的論證。
下面是一些符合(或不符合)這些標(biāo)準(zhǔn)的資源論文類型的示例。
高新穎度:重大概念創(chuàng)新
示例:新任務(wù),新注釋方法;
反例:使用現(xiàn)有框架收集更多數(shù)據(jù)或更新現(xiàn)有資源,或只是將現(xiàn)有資源轉(zhuǎn)換為其他語(yǔ)言。
高影響力:解決一個(gè)普遍存在的問題,提出具有高度概括性的新方法(跨語(yǔ)言或任務(wù))。
示例:發(fā)現(xiàn)影響多個(gè)數(shù)據(jù)集的偏差,發(fā)布時(shí)間敏感的數(shù)據(jù)(例如,有關(guān)冠狀病毒最新研究數(shù)據(jù)集);
反例:減小由一個(gè)特定數(shù)據(jù)集中注釋器準(zhǔn)則引起的特定偏差。
高質(zhì)量、豐富性或規(guī)模:重要的公共數(shù)據(jù)發(fā)布,能在語(yǔ)言描述,數(shù)據(jù)質(zhì)量或資源量方面提供明顯的優(yōu)勢(shì)。
示例:語(yǔ)言數(shù)據(jù)庫(kù)(如 VerbNet),帶有語(yǔ)言注釋的語(yǔ)料庫(kù),在特定情況下有機(jī)收集的數(shù)據(jù)(如匿名醫(yī)療數(shù)據(jù));
反例:沒有明顯優(yōu)勢(shì)的噪聲數(shù)據(jù),不公開的數(shù)據(jù)。
重申一下:只要滿足其中一個(gè)標(biāo)準(zhǔn),一篇論文就是值得發(fā)表的:一個(gè)狹窄的問題可以用一種非常新穎的方式來解決;如果噪聲數(shù)據(jù)集非常完整,那么會(huì)產(chǎn)生很大的影響;如果論文表明了為英語(yǔ)版本開發(fā)的技術(shù)完全無法推廣,僅僅簡(jiǎn)單地將資源改寫為另一種語(yǔ)言也可能會(huì)引起巨大轟動(dòng)。
但作者確實(shí)需要證明至少有一個(gè)標(biāo)準(zhǔn)適用性很強(qiáng),并使審稿人相信沒有嚴(yán)重的缺陷(例如,通過丟棄大部分?jǐn)?shù)據(jù)來放大內(nèi)部注釋器的一致性)。雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)
相關(guān)參考文獻(xiàn)詳見原文: https://hackingsemantics.xyz/2020/reviewing-data/
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。