丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
人工智能 正文
發(fā)私信給AI科技評論
發(fā)送

0

Deepmind 最新閱讀理解數(shù)據集 NarrativeQA ,讓機器挑戰(zhàn)更復雜閱讀理解問題

本文作者: AI科技評論 2017-12-21 14:28
導語:Deepmind:不是我針對誰,在座的閱讀理解數(shù)據集都不如 NarrativeQA

雷鋒網按:自然語言處理始終是實現(xiàn)智能、自然人機交互愿景里一塊重要的技術基石。而機器閱讀理解則可以被視為是自然語言處理領域皇冠上的明珠,也是目前該領域的研究焦點之一。在這一領域,最有名的數(shù)據集是由斯坦福大學自然語言計算組發(fā)起的 SQuAD(Stanford Question Answering Dataset)和相關的文本理解挑戰(zhàn)賽,它也被譽為“機器閱讀理解界的 ImageNet ”。而最近, Deepmind 發(fā)布了一個新的閱讀理解數(shù)據集 NarrativeQA,那么這個數(shù)據集有什么特點呢?一起來和雷鋒網了解一下。

Deepmind 最新閱讀理解數(shù)據集 NarrativeQA ,讓機器挑戰(zhàn)更復雜閱讀理解問題

在最近一篇論文《The NarrativeQA Reading Comprehension Challenge》中,Deepmind 解釋了這個推出這個數(shù)據集的初衷:

自然語言理解試圖創(chuàng)建閱讀和理解文本的模型。評估理解模型語言理解能力的一個常用策略是證明他們能回答他們所閱讀的文檔的問題,類似于兒童在學習閱讀時如何理解閱讀內容的能力。閱讀文檔后,讀者通常不能從記憶中重現(xiàn)整個文本,但經??梢曰卮痍P于文檔的潛在敘述元素的問題,如突出的實體,事件,地點以及其相互關系等。因此,測試理解需要創(chuàng)建檢查高層次的抽象的問題,而不是只在一個句子中出現(xiàn)一次的事實。


不幸的是,關于文檔的表面問題通??梢允褂脺\層模式匹配或基于全局顯著性的策略或猜測成功(由人和機器)回答。我們調查了現(xiàn)有的QA數(shù)據集,結果顯示它們要么太小、要么可以通過淺的啟發(fā)式算法進行解答(第2節(jié));另一方面,在表面文字無法直接解答、必須通過內在敘述進行推導的問題,需要形成更多在文件過程中表達的事件和關系的抽象表征?;卮疬@些問題要求讀者將信息分散在整個文件中的幾個陳述中,并根據這一綜合信息產生一個有說服力的答案。也就是說,他們測試得失讀者理解語言的能力,而不僅僅是模式匹配。基于此,我們提出了一個新的任務和數(shù)據集,我們稱之為NarrativeQA,它將測試并獎勵接近這種能力水平的智能體。

Deepmind 還對目前主要的機器閱讀理解數(shù)據集進行了比較:

Deepmind 最新閱讀理解數(shù)據集 NarrativeQA ,讓機器挑戰(zhàn)更復雜閱讀理解問題

(圖為目前主流機器閱讀理解數(shù)據集的比較)

  • MCTest(2013年,Richardson等):660篇短文章,基于文章的2640個問題,回答在多個答案中進行選擇,Deepmind認為,MCTest的局限性在于數(shù)量太小,因而更像一個評估測試,而不適合與一個端到端的模型訓練;

  • 而另一方面,如CNN/Daily Mail(93K+220K新聞文章,387K+997K問題)、CBT(從108本兒童讀物中摘取的678K個20句左右的段落)、BookTest(14.2M個段落,類似CBT)等數(shù)據集均能夠提供大量的答案-問題對,這些數(shù)據集的問題通常為完形填空(預測缺的詞語),問題從摘要中進行抽象總結(CNN/Daily Mail)或者從前后一句話的上下文語境中提煉,并從一組選項中進行選擇正確的答案。這類數(shù)據集的局限性在于偏差較大,部分通過指向特定類型操作的模型(如AS Reader)可能在這些數(shù)據集中表現(xiàn)突出,但這些模型卻并不適合回答需要綜合新的答案的回答。尤其在CNN/Daily Mail中,由于其上下文檔均為新聞故事,通常會包含集中在單個事件的突出實體,這也進一步加大了這種偏差。

  • 斯坦福大學Percy Liang等人推出的SQuAD(關于 SQuAD 測試參見雷鋒網之前文章《專訪科大訊飛:成為世界第一,只是閱讀理解系統(tǒng)萬里長征的第一步》)包含從536個維基百科詞條中抽取的23K個段落。雖然SQuAD提供了大量的問題和答案,答案也并非只是某個單詞或者對于某個實體的回答,但由于這些段落缺乏完整的文章包含的跨度,很多更合理的閱讀理解的問題無法被提問和解答。此外,由于這些段落來自于較少的條目,這也限制了對這些數(shù)據訓練中對于局部多樣性和詞法的效果,也限制了在SQuAD或者NewsQA等數(shù)據集中表現(xiàn)良好的模型回答更復雜問題的能力。

總體來說,DeepMind認為目前的閱讀理解數(shù)據集均存在著一定的局限性,包括:數(shù)據集小、不自然、只需要一句話定位回答的必須信息,等等。因而 Deepmind 認為,在這些數(shù)據集上的測試可能都是一個不能真實反映機器閱讀理解能力的偽命題。

Deepmind 最新閱讀理解數(shù)據集 NarrativeQA ,讓機器挑戰(zhàn)更復雜閱讀理解問題

(NarrativeQA主要數(shù)據)

相比之下,NarrativeQA 包含來自于書本和電影劇本的1567個完整故事,數(shù)據集劃分為不重疊的訓練、驗證和測試三個部分,共有 46,765個問題答案對,問題由人類編寫,并且多為“何時/何地/何人/為何”之類的較復雜問題。

雖然在論文和網站中并未公布數(shù)據集的下載地址,但雷鋒網發(fā)現(xiàn),在 Deepmind 的 Twitter 的留言中公布了在 Github 上的項目地址,點擊此處即可前往


雷峰網原創(chuàng)文章,未經授權禁止轉載。詳情見轉載須知。

Deepmind 最新閱讀理解數(shù)據集 NarrativeQA ,讓機器挑戰(zhàn)更復雜閱讀理解問題

分享:
相關文章
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說