0
本文作者: 楊曉凡 | 2019-11-08 10:56 |
雷鋒網(wǎng) AI 科技評(píng)論按:激動(dòng)人心的時(shí)刻又到了!
作為自然語言處理領(lǐng)域的頂級(jí)會(huì)議之一 EMNLP 2019 正式結(jié)束,而在閉幕式上也同時(shí)頒發(fā)了本年度的最佳論文。今年共有四個(gè)獎(jiǎng)項(xiàng),其中最佳論文獎(jiǎng)由約翰霍普金斯大學(xué)摘取,最佳論文 Runner-Up 獎(jiǎng)獲得者來自斯坦福,最佳資源獎(jiǎng)由 Facebook 等單位獲得,最佳 Demo 獎(jiǎng)的獲得者來自艾倫人工智能研究所。值得注意的是,盡管獲獎(jiǎng)?wù)撐闹胁环θA人學(xué)者,但國內(nèi)師生基本無緣最佳論文。
EMNLP 是由國際語言學(xué)會(huì)(ACL)下屬的 SIGDAT 小組主辦的自然語言處理領(lǐng)域的頂級(jí)國際會(huì)議,在計(jì)算語言學(xué)類別下影響力排名全球第二。EMNLP 每年舉辦一次,今年則與 IJCNLP 聯(lián)合,在香港舉辦(這也是香港第二次舉辦 EMNLP,上一次在 2000 年)。
據(jù)雷鋒網(wǎng) AI 科技評(píng)論現(xiàn)場了解,EMNLP-IJCNLP 2019共收到有效投稿2877篇,錄用683篇,其中長論文465篇, 短論文218篇,錄用率為23.7%。從投稿國家看,中國投稿數(shù)量已經(jīng)排名第一,但錄用數(shù)量相比美國卻少了70篇。
本次參會(huì)人數(shù)共有1922人,相比去年2500人有所下降,但雷鋒網(wǎng) AI 科技評(píng)論認(rèn)為,此次參會(huì)人數(shù)的降低更多的原因在于學(xué)術(shù)研究之外,前段時(shí)間香港局勢以及美國對(duì)持簽證在美工作的研究者重新進(jìn)入美國必須要重新簽證的出臺(tái)都在一定程度上影響了現(xiàn)場的參與率。
EMNLP-IJCNLP最佳論文獎(jiǎng)只針對(duì)長論文頒發(fā)。本屆最佳論文獎(jiǎng)的第一作者為來自約翰霍普金斯大學(xué)的Xiang Lisa Li,而其導(dǎo)師則為NLP界公認(rèn)的大神Jason Eisner,后者對(duì) NLP 結(jié)構(gòu)學(xué)習(xí)領(lǐng)域貢獻(xiàn)極大。
這篇論文獲獎(jiǎng),原因則是:「在預(yù)訓(xùn)練詞嵌入上使用變差信息瓶頸(Variational Information Bottleneck)的新穎應(yīng)用。很棒的理論證明,不錯(cuò)的結(jié)果,很棒的語言學(xué)分析,很可能對(duì)許多任務(wù)都有幫助?!?/p>
論文地址:https://arxiv.org/abs/1910.00163v1
論文摘要:ELMo 和 BERT 之類的預(yù)訓(xùn)練詞嵌入包含了豐富的句法和語義信息,這讓它們能在各種不同的任務(wù)上發(fā)揮出當(dāng)前最好的表現(xiàn)。
這篇論文中作者提出了一個(gè)非常快速的變差信息瓶頸(Variational Information Bottleneck,VIB)方法,它可以非線性地壓縮這些嵌入,只保留對(duì)辨別性解析器有幫助的信息。作者可以把每個(gè)詞嵌入壓縮成一個(gè)個(gè)離散的標(biāo)簽,或者是連續(xù)的向量。對(duì)于離散標(biāo)簽版本,這些自動(dòng)壓縮的標(biāo)簽可以形成一種替代性的標(biāo)簽集合。
作者通過實(shí)驗(yàn)表明,傳統(tǒng)的 POS 標(biāo)簽標(biāo)注中捕捉到的信息,大部分都可以被這些標(biāo)簽捕捉到,而且這些標(biāo)簽序列還可以在相同的標(biāo)簽粒度下得到更準(zhǔn)確的解析。對(duì)于連續(xù)向量版本,實(shí)驗(yàn)表明用他們的方法適度壓縮詞嵌入之后可以得到更準(zhǔn)確的解析器,他們測試的9種語言中有8種都得到了這樣的結(jié)果;以往的簡單的降維操作是達(dá)不到這樣的效果的。
最佳論文獎(jiǎng)第二名(Runner-Up)的第一作者來自斯坦福大學(xué),其聯(lián)合導(dǎo)師為 Chris Manning(計(jì)算語言學(xué)的大牛,李飛飛辭任后,Manning 接任了斯坦福 AI Lab 主任)以及 Percy Liang。
這篇論文的頒獎(jiǎng)詞是「這是一篇影響力高、影響也深遠(yuǎn)廣泛的論文,它介紹了如何設(shè)計(jì)、訓(xùn)練、解釋探針,以便更充分地評(píng)價(jià)某種表征在給定的任務(wù)(比如 POS 標(biāo)注或者依賴性解析)上到底學(xué)到了什么」。
論文地址:https://www.aclweb.org/anthology/D19-1275.pdf
論文摘要:研究者會(huì)設(shè)計(jì)訓(xùn)練一類監(jiān)督模型來從表征(比如 ELMo)預(yù)測某些屬性(比如 POS),這類模型被稱作探針,它們在許多語言學(xué)任務(wù)中都得到了很高的準(zhǔn)確率。不過,到底是這些表征確實(shí)編碼了語言學(xué)結(jié)構(gòu),還是只不過是這些探針學(xué)會(huì)了語言學(xué)任務(wù)而已呢?
在這篇論文中,作者提出了一些控制任務(wù),任務(wù)中考察的是把單詞類型匹配到隨機(jī)的輸出,作為語言學(xué)任務(wù)的補(bǔ)充任務(wù)(無關(guān)任務(wù))。
設(shè)計(jì)這些任務(wù)的考慮就是,它們只能夠被探針自己學(xué)會(huì),也就成為了檢驗(yàn)探針能力的方法。所以,一個(gè)好的探針(能切實(shí)反應(yīng)表征的內(nèi)涵的探針),應(yīng)當(dāng)是有選擇性的,應(yīng)當(dāng)能在真正的語言學(xué)任務(wù)中取得高準(zhǔn)確率,而在這個(gè)控制任務(wù)中取得低準(zhǔn)確率。探針的選擇性的體現(xiàn),就是真語言學(xué)任務(wù)中的準(zhǔn)確率和探針記憶單詞類型的能力是一致的。
作者設(shè)計(jì)了基于英文 POS 標(biāo)注和依賴性邊緣檢測的控制任務(wù),通過實(shí)驗(yàn)表明目前流行的用于 ELMo 表征的探針并不具有選擇性。作者還發(fā)現(xiàn),一般被用來控制探針復(fù)雜度的 dropout 方法,其實(shí)對(duì)于提升多層感知機(jī)(MLP)結(jié)構(gòu)模型的選擇性并沒有幫助,但其它類型的正則化方法是有效果的。最后,作者還發(fā)現(xiàn),雖然針對(duì) ELMo 的網(wǎng)絡(luò)第一層的探針在 POS 標(biāo)簽任務(wù)中能取得比第二層的探針稍好的表現(xiàn),但第二層的探針的選擇性要強(qiáng)很多;這也帶來了一個(gè)新問題:到底網(wǎng)絡(luò)的哪一層能更好地表征 POS。
早些時(shí)候,作者在論文的口頭報(bào)告中也指出了他們控制任務(wù)的局限性:
最佳資源獎(jiǎng)的論文是由 Facebook、法國索邦大學(xué)和約翰斯·霍普金斯大學(xué)共同完成。
這項(xiàng)工作的貢獻(xiàn)在于其提供的機(jī)器翻譯數(shù)據(jù)集對(duì)低資源語言有很重要的意義,而詳細(xì)且清晰的質(zhì)量控制方法也值得其他類似的語料庫收集工作借鑒。
論文地址:https://arxiv.org/abs/1902.01382
數(shù)據(jù)集地址:https://github.com/facebookresearch/flores
論文摘要:世界上絕大多數(shù)語言都是低資源的,它們幾乎沒有(或只有少量)的并行數(shù)據(jù)。不幸的是,當(dāng)前的機(jī)器翻譯(MT)系統(tǒng)在低資源情況下還不能很好地工作。
當(dāng)然除了可用于監(jiān)督學(xué)習(xí)的資源太少外,這些語言還面臨一個(gè)問題,即由于缺乏可自由公開使用的基準(zhǔn),因此很難評(píng)估在低資源語言上進(jìn)行訓(xùn)練的方法的優(yōu)劣。
在這項(xiàng)工作中,作者從Wikipedia網(wǎng)頁中提取句子,并在低資源預(yù)料對(duì)(尼泊爾-英語和僧伽羅-英語)中引進(jìn)了新的評(píng)估數(shù)據(jù)集。這些語言具有完全不同的形態(tài)和語法,對(duì)于這些語言,幾乎沒有可用的域外(out-of-domain)并行數(shù)據(jù),但卻有大量的單語數(shù)據(jù)可以使用。
研究人員在文章中描述了收集和交叉檢驗(yàn)翻譯質(zhì)量的完整過程,并使用幾種學(xué)習(xí)方式(完全監(jiān)督、弱監(jiān)督、半監(jiān)督、無監(jiān)督)來報(bào)告基準(zhǔn)性能。其實(shí)驗(yàn)結(jié)果相當(dāng)有意思,當(dāng)前最先進(jìn)的方法在這個(gè)基準(zhǔn)上的表現(xiàn)反而相當(dāng)差。這也對(duì)研究低資源機(jī)器翻譯的社區(qū)提出了新的挑戰(zhàn)。
最佳 Demo 獎(jiǎng)的獲獎(jiǎng)?wù)邅碜园瑐惾斯ぶ悄苎芯克图永D醽喆髮W(xué)爾灣分校。
這篇論文介紹了一個(gè)在 AllenNLP 基礎(chǔ)上開發(fā)的開源工具包,它可以幫助解釋基于神經(jīng)網(wǎng)絡(luò)的 NLP 系統(tǒng)。NLP 領(lǐng)域里,一個(gè)重要需求就是怎么來更好地解釋「不透明」的神經(jīng)網(wǎng)絡(luò),所以這個(gè)系統(tǒng)很可能會(huì)啟發(fā)更多研究。
論文地址:https://arxiv.org/abs/1909.09251
演示地址:https://allennlp.org/interpret
論文摘要:基于神經(jīng)網(wǎng)絡(luò)的 NLP 模型變得越來越準(zhǔn)確,但它們并不完美,而且不透明——它們會(huì)在和人類直覺不同的情況下犯錯(cuò),人類用戶就會(huì)對(duì)它們的行為感到十分迷惑。模型解釋方法緩解這個(gè)問題的方式是為模型的某一些預(yù)測提供解釋。然而不幸的是,目前的模型解釋方法都很難用于新的模型、新的任務(wù),這就讓神經(jīng)網(wǎng)絡(luò) NLP 的開發(fā)應(yīng)用人員們、解釋性方法的研究人員們都不樂意繼續(xù)使用這些方法。
這篇論文中作者介紹了 AllenNLP Interpret,這是一個(gè)用于解釋 NLP 模型的靈活的代碼框架(工具包)。這個(gè)工具包中包括了針對(duì)所有 AllenNLP 模型的解釋原型(比如輸入梯度),一整套集成的解釋方法,以及面向前端的可視化組件庫。作者在多種不同的模型、不同的任務(wù)(包括用 BERT 進(jìn)行語言掩蔽建模、用 BiDAF 進(jìn)行閱讀理解)上針對(duì) 5 種解釋方法(包括顯著性熱圖和對(duì)抗性攻擊)實(shí)現(xiàn)了可視化 demo,展示了工具包的靈活性和功能性。這些 demo 和所有的代碼、教程都可以在 allennlp.org/interpret 訪問。
EMNLP 2019 其它相關(guān)內(nèi)容,以及更多國內(nèi)國際學(xué)術(shù)會(huì)議報(bào)告,請繼續(xù)關(guān)注雷鋒網(wǎng) AI 科技評(píng)論。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。