0
本文作者: 青暮 | 編輯:劉曉坤 | 2020-08-10 18:00 | 專題:CCF-GAIR 2020 全球人工智能與機器人峰會 |
作者 | 青暮
編輯 | 叢末
2020 年8 月7日-8月9日,在中國深圳,由中國計算機學會(CCF)主辦,香港中文大學(深圳)、雷鋒網(wǎng)聯(lián)合承辦,鵬城實驗室、深圳市人工智能與機器人研究院協(xié)辦的第五屆CCF-GAIR全球人工智能與機器人峰會,在深圳前海華僑城 JW 萬豪酒店正式拉開帷幕。
深圳市人工智能與機器人研究院執(zhí)行院長、國際歐亞科學院院士、IEEE Fellow李世鵬擔任專場主持人。第一位演講的嘉賓是北京語言大學信息科學學院院長荀恩東教授。荀恩東教授的研究領域涉及漢語語義計算和語言資料建設,主持開發(fā)過國內外最大的在線語料庫——BCC 語料庫,并在多個領域開展過漢語語義理解落地應用工作。荀恩東教授的演講主題是《語言智能核心問題——語義理解》。
在演講中,荀恩東教授表示,隨著大數(shù)據(jù)紅利褪去,語義理解已經成為自然語言處理中越來越重要的層面,并且不可避免。他首先討論了自然語言的兩個特點,即歧義和多樣性,并指出這兩個特點是語言理解的難點所在。然后他提到,語言理解的一般目標,是對自然語言進行結構化。最后,荀恩東教授介紹了一種新型的語義表示方案,即意合圖,力求促進自然語言的語義理解。
以下是演講全文,AI科技評論進行了不改變原意的整理:
今天我分享的話題跟語言智能、語義理解相關,演講主要內容是:語言智能及其應用類型;語言理解的目標、途徑和方法;語義理解中的語義表示和構建。
人工智能發(fā)展經歷了幾個階段,計算智能、感知智能、認知智能和創(chuàng)造智能。我們在感知智能取得了非常大的進步,感知智能處理的對象是視覺和語音。認知智能處理的主要對象是自然語言,因為語言是認知的工具。
相比視覺和語音,認知智能或語言智能是更有挑戰(zhàn)性。因為認知智能處理的對象是自然語言,自然語言非常靈活。在視覺和語音階段解決的是識別問題,到語言階段就涉及到理解問題。
語言智能這么難是由自然語言的特點決定的。我們知道自然語言的歧義無處不在,歧義包括語義、詞法、語法、語意、語用、語境等方面。
舉幾個例子,比如說“魯迅著作”在不同語境里有歧義:是指魯迅寫的文學作品,還是關于魯迅的某種論述呢?“我們研究所有東西”屬于分詞歧義,也即語法歧義。“我在汽車上畫畫”,在語法上沒有歧義,但是在語義上有歧義。需要用一般常識告訴我們,人肯定不是在汽車頂上畫畫,應該是坐在汽車里畫畫?!坝型潞⒆涌忌厦:軆?yōu)秀”,“同事孩子考上名校很開心”,對于誰開心、誰優(yōu)秀,也屬于語義上的歧義。“在冬天能穿多少穿多少,夏天能穿多少穿多少”。這兩句的字面意思一樣,結合語境就完全不一樣了。這就是語言的歧義性。
語言的多樣性也是造成語言處理困難的主要方面,包括主題不同、表達不規(guī)范等等。我們理解語言往往要調用外部的知識,比如世界知識。讓計算機處理語言,面臨著知識獲取的瓶頸,以及文化習俗的密切影響,文化習俗是動態(tài)、約定俗成的,有時候甚至是不講道理的。
目前語言智能在多個領域有應用,主要是四種類型:分類、生成、抽取和校對。
分類問題:也就是給語言對象打標簽,語言對象可以是句子、篇章、文檔集,標簽可以是二值、多值標簽,在不同領域有不同的含義。
生成問題:給定原文本生成另一種文本表達,典型的應用是機器翻譯,給定原語言生成目標語言,以及人機對話、自動寫作等等。
抽取問題:從研究對象提取想要的答案,有兩種情況。1、從原文里直接摘取答案,比如信息檢索和機器問答。2、從原文摘取內容并經過加工和處理,以滿足某種需求,屬于挖掘類問題。比如說給定文檔數(shù)據(jù)集,以生成知識圖譜,知識圖譜來源于大數(shù)據(jù),但是,知識圖譜是經過了再加工和再處理,用來滿足某種需求。還有文本摘要問題,也是一樣。
校對問題:讓計算機對給定的處理對象,回答對應信息是否齊全、是否一致、是否準確的問題。這個問題有多個場景應用,比如合同審查、公文審查、稿件校對、知識圖譜補全等等。在合同審查時,起草合同一定有必添的事項,比如甲方、乙方、金額、引用的法律條款等等。這些信息是否存在不一致,是否存在缺失,是否存在引用不準確,都是審查的對象。
知識圖譜里有一個很重要任務就是知識圖譜補全。從文檔集生成知識圖譜,難免存在數(shù)據(jù)稀疏的問題,使得構造的圖譜信息不夠完備,必須通過其他的信息源補全缺失信息。
語言理解是語言智能的主要任務,涉及到語言理解的目標、途徑和主要模型。計算機對語言的理解是指什么?實際上,在處理語言時,所謂的理解就是確定了概念與語言單元的映射,以及知道承載概念單元的語言屬性,和知曉不同語言單元之間的關系。
語言單元在不同的場景里有不同的表現(xiàn),有的可能是詞和詞之間的關系,有的可能是句子和句子之間的關系,或者是段落和段落之間的關系等等。那么我們如何確定表達概念的語言單元、單元屬性和單元之間的關系呢?
舉兩個例子,第一個例子給一個句子,然后給出語義,生成意合圖。比如“警方嚴厲打擊經濟犯罪”,這句話涉及兩個類別的概念:一是事件類概念,二是實體類概念。
如下圖所示,圓角矩形是事件,方角矩形就是實體?!按驌簟焙汀皣绤枴笔鞘录?,警方和犯罪是實體,這就把實體之間的關系構造出來了。在“打擊”和“嚴厲”下面還有屬性,有命題信息和情態(tài)信息。
第二個例子是一個知識圖譜,如上圖所示,其中有四個對象,我們要構建四個對象之間的關系。張三和李四是同學關系,張三畢業(yè)于北語,李四畢業(yè)于礦大,北語和礦大是鄰居關系。
此外還有屬性,屬性可以作用在單元上,也可以作用在關系上。在單元上,張三的屬性是男、年齡28歲。屬性也可以作用在邊上,比如張三和李四之間的同學關系的屬性,是高中,所以他們是高中同學關系。關系的屬性,以及控制關系的條件,是知識圖譜中非常重要的內容。
語言理解的一般目標,是對自然語言進行結構化。自然語言處理涉及一系列的任務,對象層面涉及句子、篇章和文本集,任務層面涉及分詞任務、NER、摘要、信息挖掘、信息抽取等等。
不管針對哪類對象和執(zhí)行哪種任務,核心的計算過程都是將語言轉換成單元和關系上的屬性,屬性有兩類,一是無序標簽;二是無序的關鍵值對。
語言關系在數(shù)學上表現(xiàn)為序列關系、集合關系、樹的形態(tài)和圖的形態(tài),復雜的問題是這些形態(tài)的組合。所以做語言理解實際上就是把自然語言結構化,這種結構化是計算機可操作的方案,很容易對接落地的需求。
目前語言理解、語言信息處理主要依靠端到端模型。我們利用數(shù)據(jù)執(zhí)行任務,從數(shù)據(jù)構建模型,并從輸入直接得到輸出,中間過程交給機器學習完成。此外還有組合模型,用到了機器學習和符號運算組合的策略。
端對端的運算有四種模型,做自然語言處理都逃不過這四種模型:1、分類模型。給個對象,打標簽;2、序列標注模型。對序列的對象,給予每一個對象安排一個標簽,即序列標注;3、信道模型。即編碼器解碼器模型,把原信息做成某種編碼表示,之后做解碼和輸出;4、相似度計算。這種計算可以是針對詞的相似度,也可以是針對有上下文的詞的相似度,可以針對短語、句子或篇章。針對端對端的運算,都涉及這四類模型,其他模型都是這四類模型的組合。
組合類的模型解決的問題一定是端到端方案解決不了的,或者是端到端方案解決不好的問題。這類問題要么是復雜問題,要么是想要規(guī)避端對端不可解釋、不可控缺陷的問題。組合類模型有兩類,一類是以符號運算統(tǒng)領全局,可以把復雜的輸入、復雜的問題做子問題分解,對每個子問題找到合適方案,再做輸出。各個子問題輸出之后,通過符號運算做推導,再得到問題的答案。一類以機器學習做統(tǒng)領,把復雜問題化為子問題,不同子問題找到合適方案,再做輸出,把輸出統(tǒng)一在機器學習網(wǎng)絡架構下得到問題的答案。
其中后者是學界正在探索的,就是把人類的結構化知識和可控的信息融入到機器學習的框架里。前者是工程化的解決方案。
語義理解是語言理解的核心。語言理解可以在多個層面進行,有語法層面、語義層面和語用層面(跨過語法和語義層面)。
當然,隨著大數(shù)據(jù)的紅利褪去,我們越來越不能回避語義理解的問題,越往深走這個問題越發(fā)凸顯。不管是語言問題還是其他問題,比如語音、圖像等等,都面臨語義理解的問題。
以前行業(yè)里都認為,做自然語言處理的語義理解是個大坑。因為脫離了實際場景做語義是不切實際的。
但現(xiàn)在有一種可能,就是在具體場景還不明確的時候做語義分析。一旦分析結果和跟場景需求相結合,就能快速地得到解決方案,這是我們的目標。我們在語義層面進行探索,需要得到一種表示,這種表示可以非常容易地轉化成落地的應用。
語義表示是自然語言學界一直在探討的問題。通常我們用依存圖來理解自然語言,但是在實際場景中遠遠不是這樣。目前關于語義理解,AMR比較受學者的追捧。有一些大廠開源了語義分析的引擎,是為了提供得到中間表示的工具,而不是終端解決方案。
不管哪種表示形態(tài),一般的套路就是確定一個概念體系,然后開始標注,之后學模型。但是在實際場景解決問題的時候會面臨很大的問題,就是確定的概念體系和標記語料,跟實際場景相差很遠,應用成本高。
為了得到更貼近應用的語義表示方案,我們提出了意合圖。意合圖是什么呢?舉個例子,“它圓圓地畫了一個圈”,我們怎么理解這句話?
我們從一般語言的角度來提取這句話里最根本的東西,即事件和實體。意合圖是針對漢語意合語言的特點來做的。意合圖包括事件復合體和實體復合體,如下圖所示,圓角矩形是事件復合體,直角矩形是實體復合體。
我們把事件主體找出來,就是“畫”這個動詞。誰畫了什么?然后我們需要找到主體和客體兩個實體復合體,找到了“他”和“圈”,這樣就把實體和事件之間進行了關聯(lián)。
如果對所有自然語言做出這樣的表達,對于理解語言是有幫助的。但問題是,這種表示的完備性和泛化性如何?另外,這種表示是不是可計算的。
再舉幾個例子?!半m然你不出門,卻知天下事?!笔录愑小俺鲩T”和“知”,這兩個事件具有轉折關系。與“出門”和“知”相關的實體是“你”和“天下事”。
“出門”和“知”在詞條級做加工和處理,因為這種詞條是穩(wěn)定的。我們可以在大數(shù)據(jù)將經常搭配的詞條和類型找出來,進行匹配。
還有一種意合圖是,句子中沒有完備的事件實體結構,但是存在自定義的或者是隱性的關系。比如說眼睛,一說到眼睛,我們就知道這是指某個生物的眼睛。眼睛一定有一個主人,從“他哭腫了眼睛”,我們知道眼睛是“他”的。
這個例子也一樣,“我吃飯比他快”,“快”是比較的詞語,是比較兩個吃的動作,不能說“我吃飯”跟“他”比。這里面的“他”和“我”產生了共享,共享就是指“吃飯”和“他”進行了組合。
那么,怎么構建意合圖?下圖展示了我們的技術路線。給一個句子,不采用端到端的解決方案做意合圖,否則需要標記很多數(shù)據(jù)。我們的理念是,意合圖是不可標的,因為數(shù)量太龐大。我們借助塊依存結構來做意合圖,先做結構,再從結構做語義。
在結構階段,我們采用了語塊依存的做法,針對漢語的特點和實際應用的要求,,構造了超大規(guī)模的北語樹庫。
在語塊依存的結構分析基礎上,我們利用各類的搭配,比如命題搭配、情態(tài)搭配和事理搭配數(shù)據(jù),通過符號運算,生成意合圖。
在這里,各類搭配數(shù)據(jù),是在大數(shù)據(jù)自動學習得到的,經過前期或后期的人工校對,保證搭配數(shù)據(jù)的質量。
做結構的時候依靠樹庫標注,北語這幾年發(fā)布了幾個千萬量級的樹庫,基于分層分階段建設規(guī)劃,包括樹庫1.0(組塊語結構),樹庫2.0(缺省結構還原),樹庫3.0(句間關系),等等。我們的標注數(shù)據(jù)基于篇章,規(guī)模很大,涉及很多領域。
下圖展示了塊依存樹1.0中組塊語結構的例子。我們通過簡單的標注操作,得到快依存結構。
下圖展示了塊依存樹2.0中缺省結構還原的例子。在1.0的基礎上,我們針對事件類的謂詞,標注了具有缺省的依存結構,構造了主、謂、賓、狀、補自足的結構,這為下一步生成意合圖提供了充分的結構基礎。
有了意合圖,我們能做很多任務,意合圖是一種抽象表達,可以用于對話、推理和生成圖譜、寫作等等。例如:我們可以在意合圖的基礎上引入第三方知識,比如知識圖譜,做推理;如果大數(shù)據(jù)中句子都分析成意合圖形態(tài),可以做意合圖的融合,形成意合圖圖譜,進一步可以生成知識圖譜、事理圖譜等;也可以做復述,從抽象的意合圖生成句子;可以從意合圖中抽取答案,做問答系統(tǒng),可以從意合圖中提取至命題,做蘊含分析等等。
我們團隊已經在專利、健康等領域初步應用了意合圖,顯示了強大的功能,為語義理解研究和開發(fā)開辟了新的領域。 雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經授權禁止轉載。詳情見轉載須知。
本專題其他文章