北語信息院院長荀恩東：語言智能的核心是語義理解丨CCF-GAIR 2020

本文作者：青暮

編輯：劉曉坤

2020-08-10 18:00

專題：CCF-GAIR 2020 全球人工智能與機器人峰會

導(dǎo)語：語言理解的一般目標(biāo)，是對自然語言進行結(jié)構(gòu)化。

北語信息院院長荀恩東：語言智能的核心是語義理解丨CCF-GAIR 2020

作者 | 青暮

編輯 | 叢末

2020 年8 月7日-8月9日，在中國深圳，由中國計算機學(xué)會（CCF）主辦，香港中文大學(xué)（深圳）、雷鋒網(wǎng)聯(lián)合承辦，鵬城實驗室、深圳市人工智能與機器人研究院協(xié)辦的第五屆CCF-GAIR全球人工智能與機器人峰會，在深圳前海華僑城 JW 萬豪酒店正式拉開帷幕。

深圳市人工智能與機器人研究院執(zhí)行院長、國際歐亞科學(xué)院院士、IEEE Fellow李世鵬擔(dān)任專場主持人。第一位演講的嘉賓是北京語言大學(xué)信息科學(xué)學(xué)院院長荀恩東教授。荀恩東教授的研究領(lǐng)域涉及漢語語義計算和語言資料建設(shè)，主持開發(fā)過國內(nèi)外最大的在線語料庫——BCC 語料庫，并在多個領(lǐng)域開展過漢語語義理解落地應(yīng)用工作。荀恩東教授的演講主題是《語言智能核心問題——語義理解》。

在演講中，荀恩東教授表示，隨著大數(shù)據(jù)紅利褪去，語義理解已經(jīng)成為自然語言處理中越來越重要的層面，并且不可避免。他首先討論了自然語言的兩個特點，即歧義和多樣性，并指出這兩個特點是語言理解的難點所在。然后他提到，語言理解的一般目標(biāo)，是對自然語言進行結(jié)構(gòu)化。最后，荀恩東教授介紹了一種新型的語義表示方案，即意合圖，力求促進自然語言的語義理解。

以下是演講全文，AI科技評論進行了不改變原意的整理：

北語信息院院長荀恩東：語言智能的核心是語義理解丨CCF-GAIR 2020

今天我分享的話題跟語言智能、語義理解相關(guān)，演講主要內(nèi)容是：語言智能及其應(yīng)用類型；語言理解的目標(biāo)、途徑和方法；語義理解中的語義表示和構(gòu)建。

語言智能及其應(yīng)用

北語信息院院長荀恩東：語言智能的核心是語義理解丨CCF-GAIR 2020

人工智能發(fā)展經(jīng)歷了幾個階段，計算智能、感知智能、認知智能和創(chuàng)造智能。我們在感知智能取得了非常大的進步，感知智能處理的對象是視覺和語音。認知智能處理的主要對象是自然語言，因為語言是認知的工具。

北語信息院院長荀恩東：語言智能的核心是語義理解丨CCF-GAIR 2020

相比視覺和語音，認知智能或語言智能是更有挑戰(zhàn)性。因為認知智能處理的對象是自然語言，自然語言非常靈活。在視覺和語音階段解決的是識別問題，到語言階段就涉及到理解問題。

語言智能這么難是由自然語言的特點決定的。我們知道自然語言的歧義無處不在，歧義包括語義、詞法、語法、語意、語用、語境等方面。

舉幾個例子，比如說“魯迅著作”在不同語境里有歧義：是指魯迅寫的文學(xué)作品，還是關(guān)于魯迅的某種論述呢？“我們研究所有東西”屬于分詞歧義，也即語法歧義。“我在汽車上畫畫”，在語法上沒有歧義，但是在語義上有歧義。需要用一般常識告訴我們，人肯定不是在汽車頂上畫畫，應(yīng)該是坐在汽車里畫畫?！坝型潞⒆涌忌厦：軆?yōu)秀”，“同事孩子考上名校很開心”，對于誰開心、誰優(yōu)秀，也屬于語義上的歧義?！霸诙炷艽┒嗌俅┒嗌?，夏天能穿多少穿多少”。這兩句的字面意思一樣，結(jié)合語境就完全不一樣了。這就是語言的歧義性。

北語信息院院長荀恩東：語言智能的核心是語義理解丨CCF-GAIR 2020

語言的多樣性也是造成語言處理困難的主要方面，包括主題不同、表達不規(guī)范等等。我們理解語言往往要調(diào)用外部的知識，比如世界知識。讓計算機處理語言，面臨著知識獲取的瓶頸，以及文化習(xí)俗的密切影響，文化習(xí)俗是動態(tài)、約定俗成的，有時候甚至是不講道理的。

目前語言智能在多個領(lǐng)域有應(yīng)用，主要是四種類型：分類、生成、抽取和校對。

北語信息院院長荀恩東：語言智能的核心是語義理解丨CCF-GAIR 2020

分類問題：也就是給語言對象打標(biāo)簽，語言對象可以是句子、篇章、文檔集，標(biāo)簽可以是二值、多值標(biāo)簽，在不同領(lǐng)域有不同的含義。

北語信息院院長荀恩東：語言智能的核心是語義理解丨CCF-GAIR 2020

生成問題：給定原文本生成另一種文本表達，典型的應(yīng)用是機器翻譯，給定原語言生成目標(biāo)語言，以及人機對話、自動寫作等等。

北語信息院院長荀恩東：語言智能的核心是語義理解丨CCF-GAIR 2020

抽取問題：從研究對象提取想要的答案，有兩種情況。1、從原文里直接摘取答案，比如信息檢索和機器問答。2、從原文摘取內(nèi)容并經(jīng)過加工和處理，以滿足某種需求，屬于挖掘類問題。比如說給定文檔數(shù)據(jù)集，以生成知識圖譜，知識圖譜來源于大數(shù)據(jù)，但是，知識圖譜是經(jīng)過了再加工和再處理，用來滿足某種需求。還有文本摘要問題，也是一樣。

北語信息院院長荀恩東：語言智能的核心是語義理解丨CCF-GAIR 2020

校對問題：讓計算機對給定的處理對象，回答對應(yīng)信息是否齊全、是否一致、是否準確的問題。這個問題有多個場景應(yīng)用，比如合同審查、公文審查、稿件校對、知識圖譜補全等等。在合同審查時，起草合同一定有必添的事項，比如甲方、乙方、金額、引用的法律條款等等。這些信息是否存在不一致，是否存在缺失，是否存在引用不準確，都是審查的對象。

北語信息院院長荀恩東：語言智能的核心是語義理解丨CCF-GAIR 2020

知識圖譜里有一個很重要任務(wù)就是知識圖譜補全。從文檔集生成知識圖譜，難免存在數(shù)據(jù)稀疏的問題，使得構(gòu)造的圖譜信息不夠完備，必須通過其他的信息源補全缺失信息。

語言理解是語言智能的主要任務(wù)

語言理解是語言智能的主要任務(wù)，涉及到語言理解的目標(biāo)、途徑和主要模型。計算機對語言的理解是指什么？實際上，在處理語言時，所謂的理解就是確定了概念與語言單元的映射，以及知道承載概念單元的語言屬性，和知曉不同語言單元之間的關(guān)系。

北語信息院院長荀恩東：語言智能的核心是語義理解丨CCF-GAIR 2020

語言單元在不同的場景里有不同的表現(xiàn)，有的可能是詞和詞之間的關(guān)系，有的可能是句子和句子之間的關(guān)系，或者是段落和段落之間的關(guān)系等等。那么我們?nèi)绾未_定表達概念的語言單元、單元屬性和單元之間的關(guān)系呢？

舉兩個例子，第一個例子給一個句子，然后給出語義，生成意合圖。比如“警方嚴厲打擊經(jīng)濟犯罪”，這句話涉及兩個類別的概念：一是事件類概念，二是實體類概念。

如下圖所示，圓角矩形是事件，方角矩形就是實體。“打擊”和“嚴厲”是事件，警方和犯罪是實體，這就把實體之間的關(guān)系構(gòu)造出來了。在“打擊”和“嚴厲”下面還有屬性，有命題信息和情態(tài)信息。

北語信息院院長荀恩東：語言智能的核心是語義理解丨CCF-GAIR 2020

第二個例子是一個知識圖譜，如上圖所示，其中有四個對象，我們要構(gòu)建四個對象之間的關(guān)系。張三和李四是同學(xué)關(guān)系，張三畢業(yè)于北語，李四畢業(yè)于礦大，北語和礦大是鄰居關(guān)系。

此外還有屬性，屬性可以作用在單元上，也可以作用在關(guān)系上。在單元上，張三的屬性是男、年齡28歲。屬性也可以作用在邊上，比如張三和李四之間的同學(xué)關(guān)系的屬性，是高中，所以他們是高中同學(xué)關(guān)系。關(guān)系的屬性，以及控制關(guān)系的條件，是知識圖譜中非常重要的內(nèi)容。

語言理解的一般目標(biāo)，是對自然語言進行結(jié)構(gòu)化。自然語言處理涉及一系列的任務(wù)，對象層面涉及句子、篇章和文本集，任務(wù)層面涉及分詞任務(wù)、NER、摘要、信息挖掘、信息抽取等等。

不管針對哪類對象和執(zhí)行哪種任務(wù)，核心的計算過程都是將語言轉(zhuǎn)換成單元和關(guān)系上的屬性，屬性有兩類，一是無序標(biāo)簽；二是無序的關(guān)鍵值對。

北語信息院院長荀恩東：語言智能的核心是語義理解丨CCF-GAIR 2020

語言關(guān)系在數(shù)學(xué)上表現(xiàn)為序列關(guān)系、集合關(guān)系、樹的形態(tài)和圖的形態(tài)，復(fù)雜的問題是這些形態(tài)的組合。所以做語言理解實際上就是把自然語言結(jié)構(gòu)化，這種結(jié)構(gòu)化是計算機可操作的方案，很容易對接落地的需求。

目前語言理解、語言信息處理主要依靠端到端模型。我們利用數(shù)據(jù)執(zhí)行任務(wù)，從數(shù)據(jù)構(gòu)建模型，并從輸入直接得到輸出，中間過程交給機器學(xué)習(xí)完成。此外還有組合模型，用到了機器學(xué)習(xí)和符號運算組合的策略。

北語信息院院長荀恩東：語言智能的核心是語義理解丨CCF-GAIR 2020

端對端的運算有四種模型，做自然語言處理都逃不過這四種模型：1、分類模型。給個對象，打標(biāo)簽；2、序列標(biāo)注模型。對序列的對象，給予每一個對象安排一個標(biāo)簽，即序列標(biāo)注；3、信道模型。即編碼器解碼器模型，把原信息做成某種編碼表示，之后做解碼和輸出；4、相似度計算。這種計算可以是針對詞的相似度，也可以是針對有上下文的詞的相似度，可以針對短語、句子或篇章。針對端對端的運算，都涉及這四類模型，其他模型都是這四類模型的組合。

北語信息院院長荀恩東：語言智能的核心是語義理解丨CCF-GAIR 2020

組合類的模型解決的問題一定是端到端方案解決不了的，或者是端到端方案解決不好的問題。這類問題要么是復(fù)雜問題，要么是想要規(guī)避端對端不可解釋、不可控缺陷的問題。組合類模型有兩類，一類是以符號運算統(tǒng)領(lǐng)全局，可以把復(fù)雜的輸入、復(fù)雜的問題做子問題分解，對每個子問題找到合適方案，再做輸出。各個子問題輸出之后，通過符號運算做推導(dǎo)，再得到問題的答案。一類以機器學(xué)習(xí)做統(tǒng)領(lǐng)，把復(fù)雜問題化為子問題，不同子問題找到合適方案，再做輸出，把輸出統(tǒng)一在機器學(xué)習(xí)網(wǎng)絡(luò)架構(gòu)下得到問題的答案。

北語信息院院長荀恩東：語言智能的核心是語義理解丨CCF-GAIR 2020

其中后者是學(xué)界正在探索的，就是把人類的結(jié)構(gòu)化知識和可控的信息融入到機器學(xué)習(xí)的框架里。前者是工程化的解決方案。

語義理解是語言理解的核心

語義理解是語言理解的核心。語言理解可以在多個層面進行，有語法層面、語義層面和語用層面（跨過語法和語義層面）。

當(dāng)然，隨著大數(shù)據(jù)的紅利褪去，我們越來越不能回避語義理解的問題，越往深走這個問題越發(fā)凸顯。不管是語言問題還是其他問題，比如語音、圖像等等，都面臨語義理解的問題。

北語信息院院長荀恩東：語言智能的核心是語義理解丨CCF-GAIR 2020

以前行業(yè)里都認為，做自然語言處理的語義理解是個大坑。因為脫離了實際場景做語義是不切實際的。

但現(xiàn)在有一種可能，就是在具體場景還不明確的時候做語義分析。一旦分析結(jié)果和跟場景需求相結(jié)合，就能快速地得到解決方案，這是我們的目標(biāo)。我們在語義層面進行探索，需要得到一種表示，這種表示可以非常容易地轉(zhuǎn)化成落地的應(yīng)用。

語義表示是自然語言學(xué)界一直在探討的問題。通常我們用依存圖來理解自然語言，但是在實際場景中遠遠不是這樣。目前關(guān)于語義理解，AMR比較受學(xué)者的追捧。有一些大廠開源了語義分析的引擎，是為了提供得到中間表示的工具，而不是終端解決方案。

北語信息院院長荀恩東：語言智能的核心是語義理解丨CCF-GAIR 2020

不管哪種表示形態(tài)，一般的套路就是確定一個概念體系，然后開始標(biāo)注，之后學(xué)模型。但是在實際場景解決問題的時候會面臨很大的問題，就是確定的概念體系和標(biāo)記語料，跟實際場景相差很遠，應(yīng)用成本高。

為了得到更貼近應(yīng)用的語義表示方案，我們提出了意合圖。意合圖是什么呢？舉個例子，“它圓圓地畫了一個圈”，我們怎么理解這句話？

我們從一般語言的角度來提取這句話里最根本的東西，即事件和實體。意合圖是針對漢語意合語言的特點來做的。意合圖包括事件復(fù)合體和實體復(fù)合體，如下圖所示，圓角矩形是事件復(fù)合體，直角矩形是實體復(fù)合體。

我們把事件主體找出來，就是“畫”這個動詞。誰畫了什么？然后我們需要找到主體和客體兩個實體復(fù)合體，找到了“他”和“圈”，這樣就把實體和事件之間進行了關(guān)聯(lián)。

北語信息院院長荀恩東：語言智能的核心是語義理解丨CCF-GAIR 2020

如果對所有自然語言做出這樣的表達，對于理解語言是有幫助的。但問題是，這種表示的完備性和泛化性如何？另外，這種表示是不是可計算的。

再舉幾個例子?！半m然你不出門，卻知天下事?！笔录愑小俺鲩T”和“知”，這兩個事件具有轉(zhuǎn)折關(guān)系。與“出門”和“知”相關(guān)的實體是“你”和“天下事”。

“出門”和“知”在詞條級做加工和處理，因為這種詞條是穩(wěn)定的。我們可以在大數(shù)據(jù)將經(jīng)常搭配的詞條和類型找出來，進行匹配。

北語信息院院長荀恩東：語言智能的核心是語義理解丨CCF-GAIR 2020

還有一種意合圖是，句子中沒有完備的事件實體結(jié)構(gòu)，但是存在自定義的或者是隱性的關(guān)系。比如說眼睛，一說到眼睛，我們就知道這是指某個生物的眼睛。眼睛一定有一個主人，從“他哭腫了眼睛”，我們知道眼睛是“他”的。

北語信息院院長荀恩東：語言智能的核心是語義理解丨CCF-GAIR 2020

這個例子也一樣，“我吃飯比他快”，“快”是比較的詞語，是比較兩個吃的動作，不能說“我吃飯”跟“他”比。這里面的“他”和“我”產(chǎn)生了共享，共享就是指“吃飯”和“他”進行了組合。

那么，怎么構(gòu)建意合圖？下圖展示了我們的技術(shù)路線。給一個句子，不采用端到端的解決方案做意合圖，否則需要標(biāo)記很多數(shù)據(jù)。我們的理念是，意合圖是不可標(biāo)的，因為數(shù)量太龐大。我們借助塊依存結(jié)構(gòu)來做意合圖，先做結(jié)構(gòu)，再從結(jié)構(gòu)做語義。

在結(jié)構(gòu)階段，我們采用了語塊依存的做法，針對漢語的特點和實際應(yīng)用的要求，，構(gòu)造了超大規(guī)模的北語樹庫。

在語塊依存的結(jié)構(gòu)分析基礎(chǔ)上，我們利用各類的搭配，比如命題搭配、情態(tài)搭配和事理搭配數(shù)據(jù)，通過符號運算，生成意合圖。

在這里，各類搭配數(shù)據(jù)，是在大數(shù)據(jù)自動學(xué)習(xí)得到的，經(jīng)過前期或后期的人工校對，保證搭配數(shù)據(jù)的質(zhì)量。

北語信息院院長荀恩東：語言智能的核心是語義理解丨CCF-GAIR 2020

做結(jié)構(gòu)的時候依靠樹庫標(biāo)注，北語這幾年發(fā)布了幾個千萬量級的樹庫，基于分層分階段建設(shè)規(guī)劃，包括樹庫1.0（組塊語結(jié)構(gòu)），樹庫2.0（缺省結(jié)構(gòu)還原），樹庫3.0（句間關(guān)系），等等。我們的標(biāo)注數(shù)據(jù)基于篇章，規(guī)模很大，涉及很多領(lǐng)域。

北語信息院院長荀恩東：語言智能的核心是語義理解丨CCF-GAIR 2020

下圖展示了塊依存樹1.0中組塊語結(jié)構(gòu)的例子。我們通過簡單的標(biāo)注操作，得到快依存結(jié)構(gòu)。

北語信息院院長荀恩東：語言智能的核心是語義理解丨CCF-GAIR 2020

下圖展示了塊依存樹2.0中缺省結(jié)構(gòu)還原的例子。在1.0的基礎(chǔ)上，我們針對事件類的謂詞，標(biāo)注了具有缺省的依存結(jié)構(gòu)，構(gòu)造了主、謂、賓、狀、補自足的結(jié)構(gòu)，這為下一步生成意合圖提供了充分的結(jié)構(gòu)基礎(chǔ)。

北語信息院院長荀恩東：語言智能的核心是語義理解丨CCF-GAIR 2020

有了意合圖，我們能做很多任務(wù)，意合圖是一種抽象表達，可以用于對話、推理和生成圖譜、寫作等等。例如：我們可以在意合圖的基礎(chǔ)上引入第三方知識，比如知識圖譜，做推理；如果大數(shù)據(jù)中句子都分析成意合圖形態(tài)，可以做意合圖的融合，形成意合圖圖譜，進一步可以生成知識圖譜、事理圖譜等；也可以做復(fù)述，從抽象的意合圖生成句子；可以從意合圖中抽取答案，做問答系統(tǒng)，可以從意合圖中提取至命題，做蘊含分析等等。

我們團隊已經(jīng)在專利、健康等領(lǐng)域初步應(yīng)用了意合圖，顯示了強大的功能，為語義理解研究和開發(fā)開辟了新的領(lǐng)域。雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)

北語信息院院長荀恩東：語言智能的核心是語義理解丨CCF-GAIR 2020