專訪騰訊鐘黎：知文團隊在智能問答系統方面的探索

本文作者：汪思穎

2018-07-29 12:18

導語：理解語言不僅涉及感知層面，還涉及認知、推理、知識、演繹，語言背景還和文化、歷史息息相關。從這一點看，語言理解技術還在早期，還需要我們有更多的堅持、耐心。

騰訊知文團隊

AI影響因子

活動

企業(yè)：騰訊

操作：

事項：專訪

對于剛剛成立的騰訊知文團隊來說，過去是收獲頗豐的一年。雖然成立尚不足一年，但這一團隊已在 AAAI、IJCAI、SIGIR、EMNLP、COLING 等頂會上發(fā)表數十篇論文。

知文團隊隸屬于騰訊 SNG 數據中心，服務和支持著包括騰訊云、QQ、QQ空間及相關產品和業(yè)務。這一團隊目前的研究重心在自然語言智能交互，圍繞智能交互的內涵和外延，團隊的學術研究涉獵廣泛，包括但不限于問答、對話系統、文本摘要、知識圖譜、機器閱讀理解等。

據知文團隊負責人鐘黎介紹，知文核心算法團隊在 15 人左右（hiring!），此外還有若干產品和工程職位。鐘黎目前主要負責知文智能產品（包括智能對話、智能問答、智能搜索等）的研發(fā)和落地，此前他曾在軟銀AI Lab、微軟亞洲研究院、IBM 研究院（新加坡）從事人工智能與機器學習的相關研究工作。

專訪騰訊鐘黎：知文團隊在智能問答系統方面的探索

圍繞知文團隊目前的發(fā)展以及在 NLP 領域中的心得體會，雷鋒網對這位騰訊高級研究員進行了獨家專訪。（憑借此次專訪，騰訊知文團隊在雷鋒網學術頻道 AI 科技評論旗下數據庫項目「AI 影響因子」中增加 8 分。）

此前，他在由雷鋒網承辦的 CCF-GAIR 大會上談到建設業(yè)界問答系統的一些心得體會：

第一，要重視 Baseline。
第二，盡早建立起整個流程的 Pipeline。
第三，沒有免費午餐定理，不存在萬能算法。
第四，領域相關的數據準備、數據分析非常重要。

這些建議給大家?guī)砹巳滤悸?，而在專訪中，鐘黎進一步圍繞 NLP 的發(fā)展與難點，全方位展示了智能問答平臺的打造之路。

鐘黎表示，在打造智能問答平臺中，一個主要的難題是領域遷移。提到解決方案，目前他們希望先打造通用、多領域多任務、自動學習的智能問答平臺，讓新的業(yè)務、新的場景、新的領域能夠以較低的成本和門檻遷入進來，然后再提供一系列方法和工具，幫助做領域的定制。

對于 NLP 技術在騰訊的重要性，他表示，目前 NLP 已經為業(yè)務帶來了許多價值。但是，自然語言處理和理解本身是非常困難、非常復雜的領域，理解語言不僅涉及感知層面，還涉及認知、推理、知識、演繹，語言背景還和文化、歷史息息相關。從這一點看，語言理解技術還在早期，還需要我們以更多的堅持、耐心，一點一滴去突破。

以下為雷鋒網對鐘黎的采訪內容，做了不改變原意的編輯整理。

問：你的 NLP 研究經歷如何？你是從大學就開始這一研究嗎？

答：其實不是，我最開始的經歷和視覺相關，后來又轉到推薦，再之后又研究機器人、語音。語音其實也是 NLP 的一部分，但它跟 NLP 又不太一樣。我是來到騰訊才開始做純 NLP 研究。

基于過去較為多樣的研究和實踐經歷，現在在做 NLP 任務時，我更多地會思考這些任務之間的共性，會嘗試一些其他學科的研究工具、經驗和知識能否有助于解決當前的問題，相對于完全 NLP 背景出身的研究人員來說，我覺得這也是自己的一個特點。

對于我們這一團隊來講，更多地是要考慮到更加復雜的生產環(huán)境、業(yè)務場景以及實際問題，就像前面提到的學科交叉，如果具有多學科交叉背景，其實會更有優(yōu)勢。

問：結合你此前的工作經驗，NLP 技術在落地上經歷了怎樣的發(fā)展歷程？

答：NLP 技術其實在企業(yè)界的應用非常早，例如在 PC 時代，搜索是最早把 NLP 技術作為核心技術的應用之一。我此前做過推薦、人機對話、語音識別，這些研究都涉及到 NLP 的一些應用。

它在工業(yè)界的落地上，會有這樣幾個歷程：首先還是問題和數據驅動，先出來了一些實際問題，比較適合用NLP相關的技術去解決，然后在這些問題里，我們再去提煉比較具有共性的一些方案，把它從業(yè)務邏輯里抽離出來。

問：你提到此前的三個方向，一是推薦，二是人機對話，三是語音識別，這三個方向各自的難點在哪里？

答：這三個方向都是很大的領域，有很多的難點與挑戰(zhàn)，這里僅僅簡單提及一下。

在推薦里，基本需要做到內容（物品）理解，用戶理解，場景理解，并且還要做好三者的關聯。這里就僅提下內容理解的難點，內容有兩點特征：

第一，多模態(tài)內容的融合，可能不光有文本內容，還有視覺內容，實時地處理這些多模態(tài)的數據會有些挑戰(zhàn)。

第二，內容更新很快，時效性很短，所以必須要挖掘出最新的熱點、事件，但想利用 NLP 技術完全自動地去發(fā)現熱點話題、事理圖譜也比較難。

人機對話是我們現在做的核心，難點也非常多。這里最大的問題在于我們并沒有實現真正的智能。機器本質上還是數據驅動的算法模型，需要大量的數據來進行訓練。數據和模型其實是受限于領域的，一旦做領域的遷移，可能就做不好了。所以在對話里，如何做好領域的遷移，我覺得這也比較難。

談到語音識別，其實近場語音做得很好，但如果是遠場，比如說收集器在比較遠的地方，然后又是多人對話，語音有重疊，這就會涉及到很多問題，比如語音分離，識別誰是說話人，另外，多人會話比較嘈雜，信噪比比較低。遠場語音可能還涉及回聲消除。現在遠場語音還比較難，也是目前重點的研究方向。

問：這些學科之間有哪些共性？

答：舉個例子，語言模型這一工具在語音里其實用得比較多，因為我們研究語音的時候，是用語言模型來判斷轉移概率，當然語言模型在NLP里也用得非常多。另外，談到推薦的架構，推薦有好幾層，有召回、重排、精排等，這一架構其實跟 NLP 里搜索的架構有些類似。所以這些技術會有一些共通點。

問：深度學習的發(fā)展會促進 NLP 的發(fā)展嗎？

深度學習更多是一個工具，它在 NLP 里也取得了很多進步，但相對來說還沒有到一統天下的程度。在今天（騰訊知文團隊負責人鐘黎：從 0 到1 打造下一代智能對話引擎 | CCF-GAIR 2018）講到的模型既有深度學習模型，也有非深度學習模型，還涉及到很多比較簡單的模型。

我之前也提到了，沒有完美的模型，在實際運用的時候，一定要找到適合數據和場景的模型。深度學習并不是萬能的，最重要的是理解問題和數據。

問：從技術的曝光度和產品的落地情況來看，NLP 離計算機視覺還存在一定距離，這其中的主要因素是什么？

答：這個問題和之前有些相似。語言本身有它的復雜性，最簡單的例子，圖片的基礎存儲都是像素矩陣，美國的圖片、中國的圖片、日本的圖片的基本表示都是一樣的像素點，動物的圖片和飛機的圖片基本表示都是一樣的像素點；然而在語言里的情況要復雜很多，沒有 universal 的表示、沒有 atom unit、本身具有先驗結構、需要外部語境與知識。這些困難使得 NLP 在應用上和視覺有些差距，但目前應該是有越來越多的落地了。

問：知文團隊近年來的發(fā)展路徑如何？挑選研究方向的主導因素是什么？

答：雖然知文團隊成立尚不足一年，但此前在 NLP 方向有諸多探索和應用。對于業(yè)界的 NLP 團隊來說，我們的研究方向更多是問題驅動型，首先是解決業(yè)務技術難題和挑戰(zhàn)，在眾多的業(yè)務需求中，提煉共性，抽象成更為廣泛的課題，再進行深入的研究、探索，最后將成果反哺給業(yè)務，產生更大的實際價值。

問：知文團隊在多個學術頂會上都有論文被錄取，目前這一團隊與哪些高校有著合作？與高校的合作主要集中在哪些研究領域？

答：我們和 MIT、ETH、哥倫比亞大學、中科院、北京大學等高校均有一些合作，目前合作研究領域也是圍繞知文團隊的研究重心而展開，以自然語言智能交互為核心，包括問答、對話、機器閱讀理解等。我們同時也希望進一步加深同海內外高校的合作和交流，我們有豐富應用場景、來自業(yè)務一線的難題和工業(yè)級大數據，希望能攜手學術科研機構，一起促進產學研的聯動和落地。

問：目前在打造智能問答平臺的過程中，從技術和落地上來看，面臨的主要難點有哪些？

答：難點還是不少，這里列舉一些：

第一，領域遷移問題。從業(yè)界的經驗來講，有效融合領域相關的知識、經驗和數據，往往比算法優(yōu)化能夠帶來更顯著的提升。但領域遷移涉及到數據、模型和架構的遷移，特別對于定制化要求較高的領域，目前還是很難做到規(guī)?；?。我們現在希望先打造通用、多領域多任務、自動學習的智能問答平臺，讓新的業(yè)務、新的場景、新的領域能夠以較低的成本和門檻遷入進來，有一個較好的 warm-start，然后再提供一系列方法和工具，幫助做領域的定制。
第二，問答分為多種類型，比如說任務型、尋求信息型、聊天型，但想要判斷用戶問題的類型并不是那么容易，問題的分界沒那么清晰，需要對真實的意圖、背后的語境有較好的把握。
第三，如何構建垂直領域的知識圖譜。目前數據很小，用自動化的方法去構建垂直領域的知識圖譜會出現很多錯誤，可能需要人工構建。
第四，問答、對話其核心都是語言的交互。既然是交互，多輪會話是難以繞開的問題。在單次會話時期中，讓機器學會適當的反問，獲取更多的信息來完成對話，也是目前的熱點研究方向。

問：互聯網上的數據很多都是視覺與文本信號共同出現，譬如騰訊視頻，不僅有視頻信息，還有音頻信息以及相應的字幕、評論和彈幕等，你們團隊是否有將計算機視覺與 NLP 相結合的交叉性研究？你如何看待這些學科的交叉發(fā)展？

答：image captioning、video question answering、multi-modal/cross-media search 這些都是跟我們非常相關的領域，事實上知文團隊在 CIKM2017 上就有篇基于對偶學習做 image captioning 的工作。

在實際的業(yè)務場景中，學科交叉是非常普遍的現象，現在大量的業(yè)界數據都是多模態(tài)數據，能在業(yè)界實用的工作，一定是充分融合了各個學科的技術，充分挖掘出多模態(tài)的信息。

此外，學科間的交叉融合也能帶來新的創(chuàng)新和突破，例如 CNN 是視覺領域的基礎網絡，但目前 NLP 領域基于 CNN 的工作也非常普遍。知文就在 IJCAI 2018 上發(fā)表了一篇基于 CNN seq2seq 做文本摘要的工作。

問：接下來的研究重心會放在哪里？

答：還是會放在自然語言的交互，包括之前提到的一些難點，我們會不斷探索更好的解決方案。

例如遷移是其中一個需要解決的重點，還有非結構化問題也是我們要處理的挑戰(zhàn)之一。另外，怎么讓回復更加自然、人性化，讓機器學會問問題，這些都是需要探索的問題。

要解決的問題很多，未來的路仍然很長。

問：NLP 在騰訊有哪些典型落地場景？你對哪一個場景最為看好？

答：NLP 在騰訊有著豐富而廣泛的落地場景。例如，在社交方面，騰訊使用 NLP 技術進行熱點和話題的挖掘和發(fā)現；在通訊方面，騰訊使用 NLP 技術進行各類服務的喚醒，使用戶的體驗更便捷；在內容方面，騰訊使用 NLP 技術進行千人千面的內容推薦；在企業(yè)服務和云方面，騰訊知文使用 NLP 技術打造智能問答平臺，幫助企業(yè)降低人力成本，提升客服、營銷的效率。

我非?？春弥膱F隊一直深耕的自然語言智能交互場景。搜索是 PC 時代的流量和服務入口，它是中心化的、寡頭的。自然語言的智能交互將會是 AI 時代的最重要入口，它是分布式的、去中心化的，每個設備、每個企業(yè)、每個用戶都會有自己的自然語言智能交互入口。這是從鐵器時代走向蒸汽時代，不僅是互聯網和商業(yè)模式，它將會給全社會、全人類帶來影響深遠、深刻的變革。

問：從戰(zhàn)略層面上看，目前 NLP 技術在騰訊處于什么地位？

答：NLP 技術在騰訊的應用已經很廣泛、很久遠，為業(yè)務帶來了許多價值，是非常重要的基礎技術地位。但是，正如前文中提到，語言處理和理解本身是非常困難、非常復雜的領域，需要聯系實際業(yè)務場景、業(yè)務數據，才能發(fā)揮更大的價值。近年來可以看到，NLP 技術在騰訊各個業(yè)務上多點開花，百花齊放，知文也非常幸運身在其中，貢獻自己的力量。

問：學術界和工業(yè)界需要如何做，才能促進 NLP 的穩(wěn)步進展？

答：知文團隊非常希望能夠進一步加深和海內外高校和學術結構的合作和交流，我們有來自業(yè)務一線有趣、有挑戰(zhàn)、有意義的課題、有豐富的應用場景、有工業(yè)級的大數據，希望能夠攜手學術界的教授專家們，一起來促進 NLP 產學研的聯動和落地。

（完）

雷峰網原創(chuàng)文章，未經授權禁止轉載。詳情見轉載須知。

2人收藏

汪思穎

編輯

關注AI學術，例如論文

發(fā)私信

當月熱門文章