丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
人工智能 正文
發(fā)私信給叢末
發(fā)送

0

斯坦福大學陳丹琦等人解讀機器閱讀最新進展:超越局部模式匹配

本文作者: 叢末 2019-03-10 15:18
導語:為問答任務加入更多「閱讀」和「推理」。

雷鋒網(wǎng) AI 科技評論:不久前,斯坦福大學的計算機科學博士陳丹琦的一篇長達 156 頁的畢業(yè)論文《Neural Reading Comprehension and Beyond》成為「爆款文章」,一時引起了不小轟動。而本文是她與同樣師從 Christopher Manning 的同學 Peng Qi 一起發(fā)表的文章,兩位來自斯坦福大學的 NLP 大牛在文中一起探索了機器閱讀的最新進展。雷鋒網(wǎng) AI 科技評論編譯如下。

不知道大家是否曾用谷歌瀏覽器搜索過任何問題(例如「世界上有多少個國家」)?而瀏覽器返回了精準答案而不僅僅是一系列的鏈接是否又曾讓你印象深刻?顯而易見,它的這個特點很漂亮也很實用,但也仍舊存在局限性:當你搜索稍微復雜些的問題(例如「我還需要騎多久單車才能消耗掉剛剛吃掉的巨無霸的卡路里」),谷歌瀏覽器就無法反饋一個很好答案——即便大家可以通過查看前面兩條鏈接并找到需要的答案。

斯坦福大學陳丹琦等人解讀機器閱讀最新進展:超越局部模式匹配

上文中所列舉案例從谷歌瀏覽器上搜索到的結果

在當今這個信息大爆炸時代,當我們?nèi)祟愋枰刻於家晕谋荆ɑ蚱渌问剑┊a(chǎn)生的過量的新知識時,讓機器來幫助我們閱讀大量的文本和回答問題是自然語言理解領域的最重要且最實用的任務之一。解決這些機器閱讀或者問答任務,將會為創(chuàng)建像電影《時光機器》中的圖書管理員那樣強大而知識淵博的 AI 系統(tǒng)打下重要的基石。

最近,像斯坦福問答數(shù)據(jù)集(SQuAD,數(shù)據(jù)集查看地址:https://rajpurkar.github.io/SQuAD-explorer/)和 TriviaQA (數(shù)據(jù)集查看地址:http://nlp.cs.washington.edu/triviaqa/)等大規(guī)模問答數(shù)據(jù)大大加速了朝著這個目標的發(fā)展。這些數(shù)據(jù)集允許研究人員訓練強大而缺乏數(shù)據(jù)的深度學習模型,現(xiàn)在已經(jīng)獲得了非常好的結果,例如能夠通過從維基百科頁面上找到合適答案來回答大量隨機問題的算法(相關論文:「Reading Wikipedia to Answer Open-Domain Questions」,ACL 2017,論文閱讀地址:https://cs.stanford.edu/~danqi/papers/acl2017.pdf),這就使得人類不再需要親力親為地去處理所有麻煩的工作。

斯坦福大學陳丹琦等人解讀機器閱讀最新進展:超越局部模式匹配

SQuAD 由從超過 500 篇維基百科文章中收集而來的 10 萬多個示例組成。該數(shù)據(jù)集中,針對文章中的每個段落都單獨列出了一個問題列表,并要求這些問題使用段落中連續(xù)的幾個詞語來回答(參見上面基于維基百科文章 Super Bowl 50 的示例),這種方式也稱作「提取型問答」。

然而,盡管這些結果看起來非常不錯,但這些數(shù)據(jù)集也有明顯的缺點,而這些缺點也會限制了該領域的進一步發(fā)展。事實上,研究人員已經(jīng)證明,使用這些數(shù)據(jù)集訓練的模型實際上并沒有學習非常復雜的語言理解,而是主要依靠簡單的模式匹配啟發(fā)式算法( pattern-matching heuristics)。

斯坦福大學陳丹琦等人解讀機器閱讀最新進展:超越局部模式匹配

該實例源自 Robin Jia 和 Percy Liang 的論文。增加的短句子顯示了,模型學習以模型匹配的方式來找到城市的名字,并沒有真正理解問題和答案。

在這篇博文中,我們會介紹由斯坦福自然語言處理團隊(Stanford NLP Group)收集的兩個最新的數(shù)據(jù)集,希望能進一步推動機器閱讀領域的發(fā)展。特別地,這些數(shù)據(jù)集的用意在于——在問答任務中加入更多的「閱讀」和「推理」來回答無法通過簡單的模式匹配回答的問題。其中的一個是 CoQA,它通過引入關于一段文本的自然對話的語境豐富的接口,從對話的角度來解決問題。另一個數(shù)據(jù)集是 HotpotQA,它沒有將答案限定于某個段落的范圍,而是通過在多個文檔上進行推理來獲得答案這一方法來應對這一挑戰(zhàn),下面我們將詳細介紹這種方法。

CoQA:對話式問答數(shù)據(jù)集

CoQA 是什么?

當前的大多數(shù)問答系統(tǒng)僅限于單獨回答某個問題(如上面所示的 SQuAD 示例)。雖然這類問答交互有時會發(fā)生在人與人之間,但通過參與涉及一系列相關聯(lián)問題和答案的對話來尋找信息則是更為常見的方式。CoQA 是一個對話式問答數(shù)據(jù)集,它就是專門針對解決這一局限性而開發(fā)的,其目標是推動對話式 AI 系統(tǒng)的開發(fā)。該數(shù)據(jù)集包含 12.7 萬個有答案的問題,這些問題和答案獲取自 7 個不同領域的關于文本段落的 8 千組對話。

斯坦福大學陳丹琦等人解讀機器閱讀最新進展:超越局部模式匹配

如上所示,一個 CoQA 示例由文本段落(在該示例中的文本段落從 CNN 的新聞文章中收集而來)和關于段落內(nèi)容的對話構成。在這個對話中,每一輪對話都包含一個問題和一個答案,而第一個問題之后的每個問題都依賴于(每個問題)之前所進行的對話。不同于 SQuAD 和許多其他現(xiàn)有的數(shù)據(jù)集,CoQA 中的對話歷史記錄對于回答許多問題是不可或缺的。例如,在不知道前面已經(jīng)說過了什么的情況下,第二個問題 Q2(where?)不可能回答出來的。同樣值得注意的是,中心實體實際上在整個對話中都一直在改變,例如,Q4 中的「his」、Q5 中的「he」,以及 Q6 中的「them」都指的是不同的實體,這也使得理解這些問題變得更具挑戰(zhàn)性。

除了需要到對話上下文中去理解 CoQA 的問題這一關鍵點,它還有其他許多令人感興趣的特點:

  • 其中一個重要的特點是,CoQA 沒有像 SQUAD 那樣將答案限制為段落中的連續(xù)的單詞。我們認為許多問題無法通過段落中的某組連續(xù)的單詞來回答,這將限制對話的自然性。例如,對于像「How many?」這樣的問題,答案可能只能是「three」,盡管文章中的文本并沒有直接將其拼寫出來。同時,我們希望我們的數(shù)據(jù)集支持可靠的自動評估,并且能達到與人類的高度一致性。為了解決這個問題,我們要求注釋者首先要強調(diào)文本范圍(作為支持答案的基本原理,參見示例中的 R1、R2 等),然后將文本范圍編輯為自然答案。這些基本原理在訓練中都可以用到(但無法在測試中使用)。

  • 現(xiàn)有的大多數(shù) QA 數(shù)據(jù)集都主要關注單個領域,這就使得「測試現(xiàn)有模型的泛化能力」成為一件很難的事情。CoQA 的另一個重要特征便是,該數(shù)據(jù)集從 7 個不同的領域收集而來,包括兒童故事、文學、中學和高中英語考試、新聞、維基百科、Reddit 以及科學,同時,最后的兩個領域被用于做域外評估。

我們對該數(shù)據(jù)集進行了深入分析。如下表所示,我們發(fā)現(xiàn)這一數(shù)據(jù)集顯示了豐富的語言現(xiàn)象。其中,有近 27.2% 的問題需要進行如常識和預設的語用推理(pragmatic reasoning)。舉例來說,「他像貓一樣輕柔地落腳」這個闡述并不能直接回答「他的性格很吵鬧嗎?」這個問題,不過結合世界觀的闡述是能夠回答這個問題的。然而卻只有 29.8%的問題可以通過簡單的詞匯匹配(即直接將問題中的單詞映射到段落中)來回答。

斯坦福大學陳丹琦等人解讀機器閱讀最新進展:超越局部模式匹配

此外,我們還發(fā)現(xiàn),僅有 30.5% 的問題不依賴于與會話歷史記錄的共指關系而可以自主回答問題。剩余的問題中有 49.7%的問題包含明確的共指標記,例如「he」、「she」和「it」;而其余的 19.8%的問題(例如「Where?」)則暗中指代某個實體或事件。

與 SQuAD 2.0 的問題分布相比,我們發(fā)現(xiàn) CoQA 中的問題要比 SQuAD 中的問題短得多(平均字數(shù)之比為 5.5 /10.1),這就體現(xiàn)了 CoQA 這個數(shù)據(jù)集的會話性質(zhì)。同時,我們這個數(shù)據(jù)集還提供了更豐富得多的問題: 與近一半的 SQuAD 問題主要是「what」這類問題不同,CoQA 問題分布遍及多種問題類型。「did」、「was」、「is」、「does」等前綴指示的幾個扇區(qū)頻繁出現(xiàn)在 CoQA 中,但從未出現(xiàn)在 SQUAD 中。

斯坦福大學陳丹琦等人解讀機器閱讀最新進展:超越局部模式匹配

最新進展

自 2018 年 8 月被推出以來,CoQA 挑戰(zhàn)已經(jīng)受到了極大的關注,成為該領域最具競爭力的基準之一。同時,讓我們感到驚訝的還有它自發(fā)布以來所取得的諸多進展,尤其是在去年 11 月谷歌發(fā)布 BERT 模型之后——該模型大大提升了當前所有系統(tǒng)的性能。

斯坦福大學陳丹琦等人解讀機器閱讀最新進展:超越局部模式匹配

來自微軟亞洲研究院的最先進的組合系統(tǒng)「BERT + MMFT + ADA」實現(xiàn)了 87.5%的域內(nèi) F1 精度和 85.3%的域外 F1 精確度。這些精度數(shù)值不僅接近于人類表現(xiàn),而且比我們 6 個月前開發(fā)的基線模型高出 20 多分。我們期待在不久的將來能夠看到這些論文和開源系統(tǒng)的發(fā)布。

HotpotQA:多文件的機器閱讀

除了通過一段長時間的對話來深入探討一段特定的上下文段落之外,我們還經(jīng)常發(fā)現(xiàn)自己需要閱讀多份文件以找出關于這個世界的事實。

例如,有人可能想知道,「Yahoo!是在哪個州創(chuàng)立的?」或者「斯坦福大學和卡內(nèi)基梅隆大學哪個學校的計算機科學研究人員更多?」或者簡單的問題如「燃燒掉巨無霸的卡路里需要花我多少時間?」

網(wǎng)絡涵蓋了大量此類問題的答案,但并不總是以易于獲得的形式存在,甚至答案也不在一個地方。例如,如果我們將維基百科作為回答第一個問題(Yahoo!是在哪個州創(chuàng)立的?)的知識來源,我們一開始會對無法搜到 Yahoo!的頁面或者它的聯(lián)合創(chuàng)始人 Jerry Yang 和 David Filo 的個人信息中都沒有提到關于它的信息(至少在寫這篇文章時,二者的個人信息中沒有提到它)感到困惑。

為了回答這個問題,人們需要費勁地瀏覽多篇維基百科文章,一直到他們看到以下這篇文章標題為「Yahoo!歷史」的文章:

斯坦福大學陳丹琦等人解讀機器閱讀最新進展:超越局部模式匹配

可以見得,我們可以通過以下推理步驟回答這個問題:

  • 我們注意到本文的第一個句子陳述的是「Yahoo!創(chuàng)立于斯坦福大學」。

  • 然后,我們可以在維基百科上查找「斯坦福大學」(在這種情況下,我們只需點擊鏈接),然后找出斯坦福大學所在的地址。

  • 斯坦福大學的頁面顯示它位于「加利福尼亞州」。

  • 最后,我們可以結合這兩個事實來得出最初問題的答案:「Yahoo!創(chuàng)立于加利福尼亞州」。

需要注意的是,要回答這個問題,有兩個技能是必不可少的:(1)能夠做一些偵測性工作,從而搞清楚要使用哪些可以回答我們的問題的文件或支持性事實,以及(2)使用多個支持性數(shù)據(jù)推理得到最終答案的能力。

對于機器閱讀系統(tǒng)來說,這些都是它們需要獲得的從而有效協(xié)助我們消化不斷增長的文本形式的信息和知識海洋的重要能力。遺憾的是,由于現(xiàn)存的數(shù)據(jù)集一直以來都聚焦于在單個文檔內(nèi)尋找答案而無法應對這一挑戰(zhàn),因此我們通過編譯 HotpotQA 數(shù)據(jù)集來進行這方面的努力(讓機器閱讀系統(tǒng)獲得上面所提到的兩個技能)。

什么是 HotpotQA?

HotpotQA 是一個大規(guī)模的問答數(shù)據(jù)集,包含約 113,000 組具備我們上面所提到的那些特征的問答對。也就是說,這些問題要求問答系統(tǒng)能夠篩選大量的文本文檔,從而找到與生成答案有關的信息,并使用其找到的多個支持性事實來推理出最終答案(見下面的例子)。

斯坦福大學陳丹琦等人解讀機器閱讀最新進展:超越局部模式匹配

來自 HotpotQA 的問題示例

這些問題和答案是從整個英語版的維基百科收集而來的,涵蓋了從科學、天文學、地理學到娛樂、體育和法律案例等各類主題。

要回答這些問題,需要用到多種具有挑戰(zhàn)性的推理方式。例如,在 Yahoo!的案例中,研究者需要首先推斷出 Yahoo! 與對于回答問題必不可少的「承上啟下」的實體——「斯坦福大學」二者之間的關系,然后利用「斯坦福大學位于加利福尼亞州」這一事實來得出最終答案。示意性地,整個推理鏈如下所示:

斯坦福大學陳丹琦等人解讀機器閱讀最新進展:超越局部模式匹配

在這里,我們將「斯坦福大學」稱作上下文中的橋接實體(bridge entity),因為它在已知實體 Yahoo! 和目標答案「加利福尼亞州」之間架起了橋接。我們觀察到,事實上大家感興趣的許多問題在某種程度上都涉及到這種橋接實體。

例如,給定以下問題:在 2015 年 Diamond Head Classic 比賽中獲得 MVP 的球員加入了哪支球隊?

斯坦福大學陳丹琦等人解讀機器閱讀最新進展:超越局部模式匹配

在這個問題中,我們可以首先問自己:在 2015 年 Diamond Head Classic 比賽中獲得 MVP 的球員是誰?然后再找到該球員目前加入的是哪支球隊。在該問題中,MVP 球員(Buddy Hield)則充當了引導我們找到正確答案的橋接實體。與 Yahoo!案例的推理方式稍有不同,這里的 Buddy Hield 是初始問題的答案的一部分,然而「斯坦福大學」卻不屬于答案的一部分。

大家也可輕易想到一些「橋接實體即是答案」的有趣問題,例如:Ed Harris 主演的哪部電影是基于一部法國小說拍攝的?(答案就是《雪國列車》。)

顯而易見,對于大家通過推理多個從維基百科上收集而來的事實便能嘗試回答的所有有趣問題,這些橋接問題可能無法完全覆蓋。而在 HotpotQA 中,我們提出了一種新的問題類型來表示更加多樣化的推理技巧和語言理解能力,它就是:比較型問題(comparison question)。

在前面我們就提到過一個比較型問題:斯坦福大學和卡內(nèi)基梅隆大學哪個學校的計算機科學研究人員更多?

為了成功回答這些問題,問答系統(tǒng)不僅需要能夠找到相關的支持性事實(在這個案例中的支持性事實就是,斯坦福和 CMU 分別有多少計算機科學研究人員),還要采用有意義的方式對二者進行比較,從而得出最終答案。然而根據(jù)我們對這一數(shù)據(jù)集的分析,對于當前的問答系統(tǒng)來說,采用有意義的方式去比較相關的支持性事實是非常具有挑戰(zhàn)性的,由于其可能涉及數(shù)值比較、時間比較、計數(shù)甚至簡單的算法比較。

然而找到相關的支持性事實也并不容易,或者說甚至可能更具挑戰(zhàn)性。雖然一般來說找到比較型問題的相關事實相對容易些,但對于橋接實體問題來說,這是非常重要的。

我們采用傳統(tǒng)的信息檢索(IR)方法來進行實驗,將給定的問題作為查詢關鍵詞進行查詢,該方法對所有維基百科文章進行了排序(從最相關的文章到最不相關的文章)。結果我們發(fā)現(xiàn),平均而言,在對于正確回答問題必不可少的兩個階段(我們稱之為「黃金階段」)以外的階段,前 10 個結果種僅有約 1.1 個正確答案。在下圖 IR 對黃金階段的排序中,排名較高的階段和排名較低的階段呈現(xiàn)的是長尾分布。

斯坦福大學陳丹琦等人解讀機器閱讀最新進展:超越局部模式匹配

更明確地說,在排名前 10 位的 IR 結果中可以找到 80%以上的排名較高的段落,然而找到的排名較低的段落卻不到 30%。我們計算了一下,如果一個人在找到兩個「黃金支持性段落」之前天真地讀完所有排名靠前的文章,那么他每回答一個問題就平均需要閱讀大約 600 篇文章——甚至在讀完這些文章之后,算法仍然不能可靠告訴我們是否已經(jīng)真的找到了那兩個「黃金支持性段落」!

當實踐中的機器閱讀問題要用到多個推理步驟時,就需要新方法來解決這些問題,因為這個方向的進展將極大地促進更有效的信息訪問系統(tǒng)的開發(fā)。

朝可解釋性問答系統(tǒng)發(fā)展

一個良好的問答系統(tǒng),它的另一個重要且理想的特征就是可解釋性。實際上,只能夠簡單地發(fā)出答案而不具有能幫助驗證其答案的解釋或演示的問答系統(tǒng),基本上是沒用的,因為即便這些答案大多數(shù)時候看上去是正確的,用戶也無法信任這些系統(tǒng)所給出的答案。遺憾地是,這也是許多最先進的問答系統(tǒng)所存在的問題。

為此,在收集 HotpotQA 的數(shù)據(jù)時,我們還要求我們的注釋者詳細說明他們用于得出最終答案的支持性句子,并將這些句子作為數(shù)據(jù)集的一部分進行發(fā)布。

在下面這個源自數(shù)據(jù)集的實際示例中,綠色句子作為支撐答案的支持性事實(盡管這個案例中需要通過很多個推理步驟)。關于更多(密集度更?。┑闹С中允聦嵉氖纠?,大家可通過 HotpotQA 數(shù)據(jù)資源管理器(地址:https://hotpotqa.github.io/explorer.html)查看。

斯坦福大學陳丹琦等人解讀機器閱讀最新進展:超越局部模式匹配

在我們的實驗中,我們已經(jīng)看到這些支持性事實不僅能夠讓人們更容易地檢測問答系統(tǒng)所給出的答案,而且還通過為模型提供更強有力的監(jiān)督(此前這個方向上的問答數(shù)據(jù)集是缺乏監(jiān)督的),來改善系統(tǒng)本身更準確地找到理想答案的表現(xiàn)。

最后的思考

隨著人類以文字記錄的知識日益豐富,以及越來越多的人類知識時時刻刻被數(shù)字化,我們相信這件事情存在巨大的價值:將這些知識與能夠實現(xiàn)閱讀和推理自動化并回答我們的問題的系統(tǒng)相結合,同時保持這些回答系統(tǒng)的可解釋性?,F(xiàn)在的問答系統(tǒng)往往都僅僅通過查看大量的段落和句子,然后利用「黑盒子」(大部分都為詞匹配模式)回答一輪問題,而現(xiàn)在正是開發(fā)出超越它們的問答系統(tǒng)的時候了。

為此,CoQA 考慮了一系列在給定共享語境下的自然對話中出現(xiàn)的問題,以及要求推理出不止一輪對話的具有挑戰(zhàn)性的問題;另一方面,HotpotQA 則側重于多文檔推理,并激勵研究界開發(fā)新方法來獲取大型語料庫中的支持性信息。

我們相信這兩個數(shù)據(jù)集將推動問答系統(tǒng)的重大發(fā)展,并且我們也期待這些系統(tǒng)將為整個研究界帶來新的見解。

Via:https://ai.stanford.edu/blog/beyond_local_pattern_matching/ 雷鋒網(wǎng)

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉載。詳情見轉載須知。

斯坦福大學陳丹琦等人解讀機器閱讀最新進展:超越局部模式匹配

分享:
相關文章
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說