專訪科大訊飛：成為世界第一，只是閱讀理解系統萬里長征的第一步

本文作者：岑大師

2017-08-02 06:36

導語：王士進認為，機器閱讀理解具有廣闊的應用場景，目前的成績只是萬里長征的第一步，訊飛也會繼續(xù)探索機器閱讀理解技術落地應用的場景。

近日，在斯坦福大學發(fā)起的SQuAD（Stanford Question Answering）數據集測試榜單中，科大訊飛與哈工大聯合實驗室(HFL)提交的系統模型奪得第一，這也是中國本土研究機構首次取得該比賽的冠軍。在加拿大溫哥華舉辦的ACL大會現場，雷鋒網對正在參加大會的科大訊飛研究院副院長王士進進行了專訪，王士進不僅向雷鋒網介紹了訊飛取得良好成績的關鍵因素，還對在機器閱讀理解領域的未來研發(fā)方向及產業(yè)化狀況做了解答。王士進認為，機器閱讀理解具有廣闊的應用場景，目前的成績只是萬里長征的第一步，訊飛也會繼續(xù)探索機器閱讀理解技術落地應用的場景。

王士進：博士，科大訊飛北京研究院院長，兼科大訊飛研究院副院長。2003年本科畢業(yè)于中國科技大學，2008年博士畢業(yè)于中科院自動化所，長期從事語音、語言、人工智能方向研究，主持的語音評測技術國內首次應用大規(guī)模英語口語考試，主持的機器翻譯曾兩次獲國際比賽第一名。作為主要負責人參加了863計劃重點項目、工信部電子信息產業(yè)發(fā)展基金項目等項目，在相關國際會議和期刊上有多篇學術論文，擁有十幾項專利和軟件著作權。

以下是采訪實錄，雷鋒網就全文進行了不改原意的刪減：

Q：在SQuAD之前還有哪些類似的數據集？相比SQuAD有什么不足？

A：之前像Facebook、Google和微軟都有一些類似的測試和數據集，但都沒能起到像SQuAD這樣的影響。

像Facebook，他的特點是用機器去自動生成一些問題，這樣會有兩個缺點：第一，機器生成的問題集合不大；第二，用機器生成問題，再用機器去學習，這樣比較容易學到機器的Model；

Google Deepmind做過一個測試集，主要是在新聞領域上，主要是在新聞領域上，就是一個新聞前面有一個摘要，這個摘要和正文內容相近但又不完全一樣，把這里面的一部分實體摳掉，然后就可以形成問題。缺點是有摘要的新聞數據不多；

還有微軟，之前還做了一個比較小的數據集叫MCTest，它和斯坦福的SQuAD比較接近，主要問題是數據集比較小，只有一百多篇文章，兩千來個問題。

所以大家為什么認為SQuAD是閱讀理解的ImageNet？第一，它是通過眾包采用人工做出來的問題，第二，這個數據集特別大，所以很多單位都在圍繞著SQuAD做一些研究工作。

Q：閱讀理解是NLP領域里一個比較關鍵的問題嗎？

A：對，這是公認的一個難題，也是大家認為的一個非常重要的趨勢。它隱含的首先是精準的問答，這其實是NLP里面一個比較經典的問題。我們知道的IBM Watson在“危險邊緣”和人類選手的PK，它其實更多的是知識的記憶，相對于機器，人很難記憶這么多的知識點，但反而在對一篇簡單的文章的理解上機器還有著差距。

我們說一篇文章，它也可能有其他的形式，像在產品上就是一本說明書，在司法領域可能是一個電子卷宗，在醫(yī)療領域可能是一個人的病歷?；谶@個東西去問你一個問題你要給出一個答案，這是一個非常有意義，也是非常難的事情。所以國際大部分主流研究團隊也在做這方面的工作，包括微軟、Google、蘋果、Facebook、百度、訊飛等。

Q：目前對于這種精準問答的研究進展到什么程度？

A：這方面大家也做了很多的工作，但從目前來看總體的效果還不是能讓所有人滿意。因為在認知推理方面，大家覺得現在機器還沒有達到人所具備的真實能力，像我們開始定義這個問題的時候，我們給這個項目起名叫“六齡童”，按我們評價效果來看，我們找了很多六歲也就是小學一年級的孩子來做對比評價，基本我們比小學一年級的水平要高一點點。

Q：iMageNet競賽已經有八年歷史，而SQuAD近兩年才出來，為什么會有這樣的差別？

A：這與閱讀理解技術的突破有關。早期在做“理解”的做法更多是基于模塊去做，分析篇章和問題，然后拿分析的篇章和問題去找對應關系，這樣做整體錯誤就會特別多，這也是這個領域整體技術進展不大的原因。而近一兩年來隨著深度學習技術在自然語言領域的應用，大家都用深度學習技術來訓練、處理篇章和問題，開始取得了一些進展，所以大家才開始去做源頭的東西也就是數據，斯坦福也是在這種潮流下推出的SQuAD。

Q：換言之，SQuAD的起點比ImageNet要高？

A：對。它主要是出來的時間晚一點，現在SQuAD才到第二年，大家的模糊匹配結果(F1-Score)已經普遍做到百分之八十多了，但大家認為這個事情希望做到百分之九十甚至以上的時候才能夠接近人類。我估計現在可能再有一年左右的時間，精確匹配（Exact Match）和模糊匹配(F1-Score)就能夠達到這樣的水平。

Q：再往后呢？比如說，95%或者99%?

A：像ImageNet一樣，它做到一定程度后可能就不會再做下去了。這有兩種類型，一種是技術可能會基本解決現在的問題，然后會繼續(xù)提出新的問題；另一種是在解決問題后會往產品化方向去做，例如我提到的電子卷宗和病歷的例子。

科大訊飛也在做一些產品化方面的嘗試。例如電子說明書，現在產品電子化程度越來越高，說明書越來越復雜，很多人在遇到問題的時候是不清楚的。我們也是把這塊技術和我們原來的語音交互系統結合，你去問一些問題，可能是像天氣或者聽音樂這樣的一些簡單的問題，但也有可能是更深入的一些服務，例如醫(yī)學推薦等更精確的解決方案。

Q：這次訊飛取得了第一名的成績，采用的方法和其他參賽者有什么不同嗎？

A：從大的方向看大家可能都差不多，主流的做法都是用深度學習。原來的做法是，它會給出一些訓練集，包括包括篇章、問題和對應的答案，然后通過神經網絡去學習，自動構建找到問題和答案的對應關系的一個方式。但我們做法有兩點不一樣的地方，一個是我們的“基于交互式層疊注意力模型”，一開始她可能先鎖定住一些片段，然后通過多輪迭代的方式進行過濾，進一步鎖定篩選出更精準的一些內容，去除整篇文章的干擾，最終得出問題的答案。

第二，我們采用了模型融合的方式。對于問題我們會提出不同的模型，然后對這些模型進行一個融合（ensamble）。因為我們知道，一般來說單一模型的性能并不是特別好，我們其實研究的是如何把多個不同機理的模型融合和在一起產生最好的效果。

我們在SQuAD這個數據集上面大概做了四個多月的時間。其他一些機構做得更久一些，像微軟從這個數據集開始設計的時候就參與了，做了一年多了吧。其他還有像Salesforce、國內的浙大、復旦都有參加，成績刷新得很快，基本兩周或者一個月就會被刷新一次。

Q：所以現在可能就是在看，誰能夠第一個突破一個比較重要的關口，比如說90%？

A：對。我們認為90%是一個比較重要的關口，再往后的話我們就看第二關，就是誰能夠最先落地去應用。因為就這個數據集本身來說，到了90%以后意義可能并不是特別大，最關鍵的還是能夠在真實的業(yè)務場景里面把這個技術盡快落地?，F在的數據也很大，但相對于工業(yè)級的數據來說還是偏小。

Q：工業(yè)級的大數據大概會是怎樣的一個量級？

A：像ImageNet這種數據量從科研角度來說還是很大的?？墒堑搅斯I(yè)級，比如說我們語音，工業(yè)級的數據量可能是原來的上百倍甚至上千倍，而且更重要的是，這是真實的數據，相對于科研上問When、Where、Who的問題，像How、Why這樣更復雜的問題一定會更多，如何去解決這種真實的問題，我覺得我們這真是萬里長征的第一步，拿現在的技術到工業(yè)應用上基本是不能直接用的。

Q : 除了這些現實應用的問題，訊飛在做這方面的研究還有遇到一些怎樣的挑戰(zhàn)，如何解決的？

A：從以單個詞為答案的閱讀理解到目前以文章片段（短語或句子）作為答案的閱讀理解最大的不同是要精準的控制答案的邊界。機器選擇答案的邊界容易多一個詞或少一個詞，這就會造成答案不夠精準。而人在做這類閱讀理解題的時候就不會出現這種問題，會去選擇語義單元較為完整的文章片段。我們在研究初期經常遇到這種問題，當時主要是通過對答案的邊界詞進行一些懲罰，例如對邊界出現介詞的情況懲罰等等。但在后期隨著模型效果提升，此類問題得到逐步緩解，這種懲罰的收益就不那么明顯了。

Q：那么解決問題的關鍵點是不是也是如何建模和調參數？訊飛在這方面有什么經驗？

A：對，包含建模。我們雖然說神經網絡是一個黑盒子，但最關鍵的是，這里面的技術是怎么去組合的。我們在網上也公開了我們自己的模型結構，這里面包含兩個部分，第一是模型結構，決定了模型是否足夠優(yōu)秀來解決問題；第二就是參數調整，參數調整上我們也有很多細節(jié)，我們在這里就不展開了。

Q：訊飛已經做出了最好的閱讀理解系統，在未來還有怎樣的計劃？

A：哈工大訊飛聯合實驗室曾先后在Google DeepMind閱讀理解公開數據測試集、Facebook閱讀理解公開數據測試集取得世界最好成績，本次在SQuAD測試集再獲全球最佳，包攬了機器閱讀理解權威測試集的“大滿貫”。對訊飛來說，現在只是萬里長征的第一步，訊飛會繼續(xù)推進在自然語言領域更深層次的歸納、總結、推理的研究工作，往后訊飛也會在不同領域繼續(xù)探索閱讀理解技術應用落地的場景。

雷峰網原創(chuàng)文章，未經授權禁止轉載。詳情見轉載須知。

2人收藏

岑大師

發(fā)私信

當月熱門文章

專訪科大訊飛：成為世界第一，只是閱讀理解系統萬里長征的第一步

專訪科大訊飛：成為世界第一，只是閱讀理解系統萬里長征的第一步