0
本文作者: 楊曉凡 | 2018-11-01 22:07 |
雷鋒網(wǎng) AI 科技評(píng)論按,自然語(yǔ)言處理頂會(huì) EMNLP 2018 已經(jīng)于 10 月 31 日開(kāi)始了 Tutorial,正會(huì)將從 11 月 2 日開(kāi)始。2017 年中,詞嵌入(word-embedding)毫無(wú)疑問(wèn)是最為火熱的方法,以至于有人開(kāi)玩笑說(shuō) EMNLP 的名稱(chēng)「自然語(yǔ)言處理實(shí)證方法(Empirical Methods in Natural Language Processing)」還不如解釋為「自然語(yǔ)言處理嵌入方法(Embedding Methods in Natural Language Processing)」。
不過(guò)學(xué)術(shù)界顯然不會(huì)滿足于詞嵌入一種方法,2018 年發(fā)表的成果就多樣化地在更有難度的任務(wù)的嘗試、對(duì)已有方法的更深入的探討、對(duì)新方向的探索中展現(xiàn)了計(jì)算語(yǔ)言學(xué)的更多可能。這股新風(fēng)氣在同為自然語(yǔ)言處理頂會(huì)的 ACL 2018 的參會(huì)見(jiàn)聞中也有詳細(xì)說(shuō)明。
作為有專(zhuān)門(mén)的人工智能學(xué)術(shù)性研究院、有大規(guī)模團(tuán)隊(duì)和高額科研預(yù)算的企業(yè),F(xiàn)acebook 和谷歌一如既往地在 EMNLP 2018 上收獲頗豐。Facebook 有 14 篇論文被 EMNLP 接受,谷歌則有多達(dá) 26 篇(有一篇是兩者合作完成)。雖然目前 EMNLP 還沒(méi)有正式宣布論文接受數(shù)目,但雷鋒網(wǎng) AI 科技評(píng)論預(yù)計(jì)這個(gè)數(shù)目大概會(huì)在四百多篇。這樣一來(lái),有接近 10% 的收錄論文就直接被 Facebook 和谷歌「承包」了。而且,EMNLP 2018 的兩篇最佳長(zhǎng)論文也剛好一篇出自 Facebook,一篇出自谷歌。
下面我們來(lái)詳細(xì)看看這些研究成果。(文末提供這 39 篇論文的打包下載)
(也許與谷歌的研究人員人數(shù)眾多有關(guān),)谷歌在這次 EMNLP 2018 中的參與程度非常高。不僅有多位谷歌研究員將會(huì)在 EMNLP 大會(huì)中發(fā)表演講,涉及主題包括語(yǔ)言身份識(shí)別、分割、語(yǔ)義解析、問(wèn)答系統(tǒng),還有許多人員參與到了會(huì)議各個(gè)級(jí)別的組織工作中。
借著論文被接受,谷歌也隆重推出了四個(gè)用于 NLP 任務(wù)的數(shù)據(jù)集。與現(xiàn)有的學(xué)術(shù)數(shù)據(jù)集在較理想的環(huán)境下進(jìn)行評(píng)估不同,這四個(gè)新的數(shù)據(jù)集更關(guān)注的是實(shí)際部署的 NLP 系統(tǒng)會(huì)遇到的不那么規(guī)范的用戶輸入,都包含了真實(shí)的、自然人類(lèi)交流中會(huì)出現(xiàn)的文本。同時(shí)這四個(gè)數(shù)據(jù)集也可以?xún)深?lèi),一類(lèi)是對(duì)目前已經(jīng)過(guò)較多研究的核心 NLP 任務(wù)提出更高的挑戰(zhàn),另一類(lèi)則是在對(duì)語(yǔ)句重構(gòu)/編輯并保持語(yǔ)義不變的條件下鼓勵(lì)探索新的研究方向。這些數(shù)據(jù)集的收集方式也非常有趣,讓人不得不感慨這個(gè)時(shí)代真是數(shù)據(jù)無(wú)處不在、無(wú)所不能。
數(shù)據(jù)集列表
Noun-Verb Ambiguity in POS Tagging Dataset,部分對(duì)話標(biāo)注中的非動(dòng)詞單詞歧義性數(shù)據(jù)集。出自論文《A Challenge Set and Methods for Noun-Verb Ambiguity》。這個(gè)數(shù)據(jù)集研究了非動(dòng)詞單詞歧義性引起的部分對(duì)話標(biāo)注中的錯(cuò)誤。數(shù)據(jù)集中包含了 3 萬(wàn)個(gè)經(jīng)過(guò)標(biāo)注的人類(lèi)語(yǔ)言中自然出現(xiàn)的非平凡的非動(dòng)詞單詞歧義的例子。不同的部分對(duì)話標(biāo)注方法的準(zhǔn)確率在這個(gè)數(shù)據(jù)集上分布在 57% 到 75% 之間。
Query Wellformedness Dataset,問(wèn)題完備性數(shù)據(jù)集。出自論文《Identifying Well-formed Natural Language Questions》。這個(gè)數(shù)據(jù)集研究了搜索引擎中通常由關(guān)鍵詞簡(jiǎn)單串聯(lián)起來(lái)形成的用戶輸入與自然語(yǔ)言表述的完整句子構(gòu)成的問(wèn)答之間的關(guān)系。在實(shí)際應(yīng)用中,區(qū)分關(guān)鍵詞組成的搜索詞組與自然語(yǔ)言問(wèn)句也有很大的應(yīng)用價(jià)值。這個(gè)數(shù)據(jù)集中包含了 2.5 萬(wàn)個(gè)標(biāo)注問(wèn)句,并且?guī)в性u(píng)分,評(píng)價(jià)這些問(wèn)句與形式完備的自然語(yǔ)言問(wèn)句之間的接近程度。
WikiSplit 數(shù)據(jù)集,分割與重新組織語(yǔ)句的語(yǔ)料。出自論文《Learning To Split and Rephrase From Wikipedia Edit History》。這個(gè)數(shù)據(jù)集是從維基百科的編輯記錄中抽取樣本,專(zhuān)門(mén)關(guān)注了從一個(gè)長(zhǎng)句拆分成兩個(gè)獨(dú)立的短句,同時(shí)這兩個(gè)短句合起來(lái)表示的意思和原來(lái)的長(zhǎng)句相同的樣本。這個(gè)數(shù)據(jù)集包含了一百萬(wàn)個(gè)句子拆分樣本,詞匯量超過(guò)為六十萬(wàn)詞。
WikiAtomicEdits 數(shù)據(jù)集,來(lái)自原子性的維基百科編輯記錄的多語(yǔ)言對(duì)照語(yǔ)料。出自論文《WikiAtomicEdits: A Multilingual Corpus of Wikipedia Edits for Modeling Language and Discourse》。研究人們編輯維基百科時(shí)的語(yǔ)言運(yùn)用方式可以用來(lái)理解語(yǔ)言自己的結(jié)構(gòu)。在這項(xiàng)研究中,谷歌的研究人員們專(zhuān)門(mén)關(guān)注了兩種原子編輯操作:對(duì)一段連續(xù)的文本的一次性插入或者刪除操作。他們從編輯記錄中提取出了涵蓋 8 中語(yǔ)言的共四千三百萬(wàn)次這樣的編輯操作,并表明了這些操作對(duì)于語(yǔ)言的蘊(yùn)含和論述提供了有價(jià)值的信息。
論文列表
A Challenge Set and Methods for Noun-Verb Ambiguity
非動(dòng)詞單詞歧義性的挑戰(zhàn)性數(shù)據(jù)集及方法
A Fast, Compact, Accurate Model for Language Identification of Codemixed Text
一個(gè)快速、緊湊、準(zhǔn)確的模型,用于混有代碼的文本的語(yǔ)言辨別
AirDialogue: An Environment for Goal-Oriented Dialogue Research
AirDialogue:一個(gè)為面向目標(biāo)的對(duì)話研究設(shè)計(jì)的環(huán)境
Content Explorer: Recommending Novel Entities for a Document Writer
內(nèi)容瀏覽器:為文檔作者推薦新的實(shí)體
Deep Relevance Ranking using Enhanced Document-Query Interactions
借助增強(qiáng)的文檔-查詢(xún)互動(dòng)的深度關(guān)聯(lián)性排序
HotpotQA: A Dataset for Diverse, Explainable Multi-hop Question Answering
HotpotQA:用于多樣化、可解釋的多次跳轉(zhuǎn)問(wèn)答的數(shù)據(jù)集
Identifying Well-formed Natural Language Questions
識(shí)別格式完備的自然語(yǔ)言問(wèn)題
Learning To Split and Rephrase From Wikipedia Edit History
從維基百科的編輯歷史中學(xué)習(xí)分割和重新組織語(yǔ)句
Linguistically-Informed Self-Attention for Semantic Role Labeling
用于語(yǔ)義角色標(biāo)注的考慮語(yǔ)言學(xué)信息的自我注意力方法
兩篇最佳長(zhǎng)論文之一
Open Domain Question Answering Using Early Fusion of Knowledge Bases and Text
使用知識(shí)庫(kù)和文本早期聚合技術(shù)的開(kāi)放領(lǐng)域問(wèn)答
Noise Contrastive Estimation for Conditional Models: Consistency and Statistical Efficiency
條件模型的噪聲對(duì)比估計(jì):連續(xù)性與統(tǒng)計(jì)效率研究
Part-of-Speech Tagging for Code-Switched, Transliterated Texts without Explicit Language Identification
在不顯式指定語(yǔ)言的狀況下對(duì)代碼轉(zhuǎn)換的、根據(jù)讀音拼寫(xiě)的文本做部分語(yǔ)句標(biāo)注
Phrase-Indexed Question Answering: A New Challenge for Scalable Document Comprehension
以短語(yǔ)為索引的問(wèn)答:可拓展文檔理解的新挑戰(zhàn)
Policy Shaping and Generalized Update Equations for Semantic Parsing from Denotations
用于標(biāo)志文本的語(yǔ)意解析的策略塑造以及通用化更新公式
Revisiting Character-Based Neural Machine Translation with Capacity and Compression
帶著容量和壓縮的疑問(wèn),重新思考基于字符的神經(jīng)機(jī)器翻譯
Self-governing neural networks for on-device short text classification
用于終端設(shè)備上的短文本分類(lèi)任務(wù)的自組織神經(jīng)網(wǎng)絡(luò)
Semi-Supervised Sequence Modeling with Cross-View Training
帶有跨視角訓(xùn)練的半監(jiān)督序列建模
State-of-the-art Chinese Word Segmentation with Bi-LSTMs
利用雙向LSTM的頂級(jí)中文分詞
Subgoal Discovery for Hierarchical Dialogue Policy Learning
用于層次化對(duì)話策略學(xué)習(xí)的次目標(biāo)發(fā)掘
SwitchOut: an Efficient Data Augmentation Algorithm for Neural Machine Translation
SwitchOut:一個(gè)用于神經(jīng)機(jī)器翻譯的高效的數(shù)據(jù)擴(kuò)增算法
The Importance of Generation Order in Language Modeling
對(duì)語(yǔ)言建模中生成順序的重要性的探究
Training Deeper Neural Machine Translation Models with Transparent Attention
利用透明注意力訓(xùn)練更深的神經(jīng)機(jī)器翻譯模型
Understanding Back-Translation at Scale
理解大規(guī)模反向翻譯
與 Facebook 合作完成
Unsupervised Natural Language Generation with Denoising Autoencoders
利用降噪自動(dòng)編碼器進(jìn)行無(wú)監(jiān)督自然語(yǔ)言生成
WikiAtomicEdits: A Multilingual Corpus of Wikipedia Edits for Modeling Language and Discourse
WikiAtomicEdits:用于語(yǔ)言建模和論述的多語(yǔ)言維基百科編輯記錄語(yǔ)料庫(kù)
WikiConv: A Corpus of the Complete Conversational History of a Large Online Collaborative Community
WikiConv:一個(gè)大型在線合作型社區(qū)的完整對(duì)話歷史語(yǔ)料庫(kù)
與谷歌類(lèi)似,F(xiàn)acebook 也在開(kāi)發(fā)新的數(shù)據(jù)集上花了不少功夫。他們這次在 EMNLP 2018 上帶來(lái)的數(shù)據(jù)集是 XNLI,它可以用于自然語(yǔ)言處理中的跨語(yǔ)言處理方法。這個(gè)數(shù)據(jù)集在目前廣泛使用的 MultiNLI 多風(fēng)格自然語(yǔ)言推理語(yǔ)料庫(kù)基礎(chǔ)上增加了 14 種新的語(yǔ)言,其中包括了兩種稀缺語(yǔ)料資源的語(yǔ)言斯瓦希里語(yǔ)與烏爾都語(yǔ)。
論文列表
A Dataset for Telling the Stories of Social Media Videos
一個(gè)從社交媒體視頻講故事的數(shù)據(jù)集
Auto-Encoding Dictionary Definitions into Consistent Word Embeddings
把自動(dòng)編碼字典的定義轉(zhuǎn)換為連續(xù)的詞嵌入
Do explanations make VQA models more predictable to a human?
視覺(jué)問(wèn)答模型的解釋能讓它們對(duì)人類(lèi)來(lái)說(shuō)更好預(yù)測(cè)嗎?
Dynamic Meta-Embeddings for Improved Sentence Representations
用動(dòng)態(tài)元嵌入提供更好的句子表征
Extending Neural Generative Conversational Model using External Knowledge Sources
用外部知識(shí)源拓展神經(jīng)生成式對(duì)話模型
How agents see things: On visual representations in an emergent language game
智能體是怎么觀察事物的:對(duì)演變語(yǔ)言游戲中的視覺(jué)表征的研究
Loss in Translation: Learning Bilingual Word Mapping with a Retrieval Criterion
在翻譯中迷失:通過(guò)回溯條件學(xué)習(xí)雙語(yǔ)單詞映射
Neural Compositional Denotational Semantics for Question Answering
用于問(wèn)答的神經(jīng)合成標(biāo)志語(yǔ)義
Non-Adversarial Unsupervised Word Translation
非對(duì)抗性訓(xùn)練的無(wú)監(jiān)督單詞翻譯
Phrase-Based & Neural Unsupervised Machine Translation
基于詞語(yǔ)的、無(wú)監(jiān)督神經(jīng)網(wǎng)絡(luò)的機(jī)器翻譯
兩篇最佳論文之一,雷鋒網(wǎng) AI 科技評(píng)論解讀文章見(jiàn) 提升 11BLEU 的無(wú)監(jiān)督機(jī)器翻譯
Semantic Parsing for Task Oriented Dialog using Hierarchical Representations
通過(guò)層次化表征對(duì)面向任務(wù)的對(duì)話做語(yǔ)義解析
Training Millions of Personalized Dialogue Agents
訓(xùn)練一百萬(wàn)個(gè)個(gè)性化定制的對(duì)話機(jī)器人
Understanding Back-Translation at Scale
理解大規(guī)模反向翻譯
與谷歌合作完成
XNLI: Evaluating Cross-lingual Sentence Representations
XNLI:評(píng)價(jià)跨語(yǔ)言的句子表征
論文打包下載請(qǐng)?jiān)L問(wèn) http://ai.yanxishe.com/page/resourceDetail/622。更多 EMNLP 2018 報(bào)道,請(qǐng)繼續(xù)關(guān)注雷鋒網(wǎng) AI 科技評(píng)論。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。