0
近年來,深度學(xué)習的發(fā)展給人工智能帶來了深遠的推動。而人工智能的下一個重大突破在于理解自然語言。
6月23日,中國計算機學(xué)會舉辦主題為“人機對話的產(chǎn)業(yè)應(yīng)用與技術(shù)發(fā)展”的研討會,京東AI研究院常務(wù)副院長何曉冬博士發(fā)表關(guān)于“自然語言理解技術(shù)突破”的主題報告。
在這場報告中,何曉冬博士首先簡略回顧了深度學(xué)習技術(shù)對語音,語言,視覺等方面的驅(qū)動,然后著重從兩個方面探討了其在自然語言處理(NLP)方面的前沿研究,一是如何讓AI通過NLP技術(shù)理解人類,如理解意圖,解析語義,識別情緒,搜索推薦;二是如何讓AI的結(jié)果能被人類理解接受,如文本摘要,內(nèi)容生成,話題展開,情感對話等。最后,探討了在多模態(tài)智能,長文本生成,情感和風格表達,及人機對話這些前沿方向上的最新研究進展。
雷鋒網(wǎng)注:何曉冬博士發(fā)表演講
今年3月,何曉冬博士加盟京東,出任京東AI研究院常務(wù)副院長及深度學(xué)習及語音和語言實驗室主任。在深度學(xué)習、自然語言處理、語音識別、計算機視覺及信息檢索等方面均有重要貢獻。其工作包括DSSM(深度結(jié)構(gòu)語義模型/深度語義匹配模型)和圖像描述機器人Caption Bot等。在加入京東之前,何曉冬博士就職于美國微軟雷德蒙德研究院,擔任首席研究員(Principal Researcher)及深度學(xué)習技術(shù)中心(DLTC)負責人。何曉冬博士于1996年獲清華大學(xué)學(xué)士學(xué)位,1999年獲中國科學(xué)院碩士學(xué)位,2003年獲美國密蘇里大學(xué)-哥倫比亞分校博士學(xué)位。
以下是何曉冬博士所做報告的具體內(nèi)容,雷鋒網(wǎng)做了不改變原意的編輯整理。
深度學(xué)習的前身,當時叫作“神經(jīng)網(wǎng)絡(luò)”,在80年代就曾經(jīng)流行。在90年代,大家對神經(jīng)網(wǎng)絡(luò)的期望到達頂峰,但是發(fā)現(xiàn)很多問題它解決不了,比如解決一些語音識別問題,神經(jīng)網(wǎng)絡(luò)的效果并不見得比其他基于統(tǒng)計的模型好。
2000年代的時候,深度學(xué)習還沒有被廣泛認知。2008年,我和微軟同事鄧立在NIPS辦了個研討會,邀請到Geoff Hinton 等來介紹最新的一些深度學(xué)習方面的進展。直到2010年左右,深度神經(jīng)網(wǎng)絡(luò)模型開始在大規(guī)模語音識別上產(chǎn)生了大的突破。從那時候開始,大家對神經(jīng)網(wǎng)絡(luò)和深度學(xué)習有了新的信心,經(jīng)過進一步推動,神經(jīng)網(wǎng)絡(luò)在2012年在圖像識別上產(chǎn)生很大的突破,2014、2015年,神經(jīng)網(wǎng)絡(luò)在機器翻譯上也有了很大的突破。之后神經(jīng)網(wǎng)絡(luò)技術(shù)在越來越多AI領(lǐng)域產(chǎn)生更大的影響。
以語音識別為例,2000年以前,語音識別發(fā)展上不停有進步,使得語音識別的錯誤率有一個很明顯的下降趨勢。
2000年開始,語音識別技術(shù)進入了一個瓶頸期,雖然每年還會有一些新的技術(shù)發(fā)明,但實際上總體來說,從2000到2010年,它在大規(guī)模測試集上的錯誤率基本降不下去,技術(shù)上來說這十年是基本停滯的。
2010年開始,Geoff Hinton和微軟合作開始用深度學(xué)習做語音識別技術(shù)研發(fā),2011年發(fā)現(xiàn)在一些大規(guī)模的語音識別數(shù)集上,可以看到20%-30%的錯誤率下降。更多的研究員投入以后,錯誤率以一個很快的速度下降。在重要的電話語音測試集switchboard上,去年微軟的語音識別錯誤率僅為5%左右,等于一個專業(yè)的速記員水平。所以可以說,2017年開始,在switchboard 上,機器達到了人的水平。
不光是在語音上,在圖像識別上深度學(xué)習也有很大的進步。大概在2009年,李飛飛團隊提出了一個數(shù)據(jù)集ImageNet,從2010年開始李飛飛和她的團隊成員基本每年都會舉辦一個挑戰(zhàn)賽。在2010年、2011年,最好的系統(tǒng)在這個數(shù)據(jù)集上做識別的錯誤率大概是在25%左右。2012年,Hinton和他的學(xué)生第一次提出了一個深度的卷積神經(jīng)網(wǎng)絡(luò),雖然不是他們提出來的,但是他們把這個網(wǎng)絡(luò)做到一個很大的規(guī)模,把一些新的技術(shù)也加了進去,使得錯誤率一下子從25%降到16%。
2015年,我之前在微軟的同事孫劍團隊提出一個新的模型,把深度學(xué)習推到一個新的高度,把網(wǎng)絡(luò)層數(shù)做到152層,錯誤率降到3.57%。因為人有時候犯錯誤,人的錯誤率大概在5%左右,但是機器可以做到3.5%,所以從那個時候開始,在這個特定數(shù)據(jù)集上用計算機做圖像識別的能力已經(jīng)比一般的人要好。
可能語音和圖像我們看到了很清楚的突破,下一個期待的能否在自然語言上做到更深的突破。因為語言是人類特有的智能,很多高等動物也有很強的視覺和聽覺,但是語言是人獨有的智慧。所以我們也希望計算機或者人工智能有一天能夠跟人一樣,對語言充分理解。
說到自然語言處理,基本上可以分成兩個單位:
1、AI理解人類。
像意圖識別、搜索,人通過文字表達各種各樣的意圖和情緒。所以我們說要讓AI理解人類。
語言理解第一步就是槽值提取。
如果你說一句話,計算機需要理解這句話里面你要的意圖。比如你要去找一個航班,就要把城市和時間標出來。 在2013年我們跟Yoshua Bengio合作,第一次把RNN成功應(yīng)用于這個問題。
另外一個工作是怎么分類意圖。
人說話很復(fù)雜,你說一段話,里面描述了對餐館的意見,但是我們想從這個段子里面知道你真正的意見,為什么會這么說?這就意味著在這樣一個語段里面要知道哪些句子更重要,哪些句子不那么重要。所以我們設(shè)計了一個雙層的基于關(guān)注度的神經(jīng)網(wǎng)絡(luò),叫做Hierarchical Attention Net。就是在句子內(nèi),在詞這個層面先抽取最重要的那個信息,同時在句子之間抽取更重要的句子,兩者聯(lián)合起來,就能達到一個完整的對語段的表達。
這個語段本身講的是他是喜歡這個餐館,我們甚至可以把重要的詞給標出來,或者重要的句子標出來,越深的顏色意味著對語段的意圖理解越重要。所以不但可以解釋整個語段意思是喜歡餐館,同時它也會告訴你為什么會喜歡餐館。
語義表征是一個核心的自然語言理解問題。
自然語言可以千變?nèi)f化,但是其實有一個語義在里面。語義理解是一個很難的問題,我們希望設(shè)計一個深度神經(jīng)網(wǎng)絡(luò),可以從原始或者比較初步的自然語言描述提取到抽象的語義特征。這個語義特征最后會形成一個語義空間,每一句話的意思都會被映射成這個空間的一個點。不同的句子描述的語義是相似的,但是字面意思不一樣。我們希望這個神經(jīng)網(wǎng)絡(luò)學(xué)習以后,讓他知道這兩句話在空間里面是相近的。
兩句話重合度非常相關(guān)但是意思完全不一樣,我們也希望這個神經(jīng)網(wǎng)絡(luò)通過學(xué)習知道不同的句子雖然可能描述字面很相似,但是意思是完全不一樣的,所以這是在語言理解里面核心的問題。
為了解決這個問題,我們大概在2013年提出一個模型,叫深度解構(gòu)語義模型(DSSM)。它解決一個本質(zhì)問題是,有幾個句子,比如像跑車,可能翻譯成賽車或者跑步,跑車和跑步雖然字面上的重合度更高一些,但卻是非常不一樣的兩個概念。所以經(jīng)過學(xué)習我們可以知道,跑車和賽車最后在向量空間里面向量的重合度要盡可能高;然后跑車和跑步的向量盡可能拉開,這樣的話,我們可以在語義空間里面更好的分開跑車和跑步的關(guān)系。
雷鋒網(wǎng)注:深度結(jié)構(gòu)語義模型(DSSM)
整個訓(xùn)練比較復(fù)雜,我們并不關(guān)心向量之間的絕對值,而是向量與向量的相對關(guān)系,只有這個相對關(guān)系定義了語義。因為語義本身是一個虛擬的概念,你可能看過這個圖像,看過這個物體,但是語義從來都是在人的腦海里面的一個概念。所以所有的語義都是通過一個相對性的意思來表達,我們知道A和B很相似,所以我們通過一個相對性的訓(xùn)練目標來訓(xùn)練這個模型,從而得到這樣一個語義模型。
還有另外一個重要問題,就是知識圖譜。
雷鋒網(wǎng)注:知識圖譜示意圖
點代表了重要的物體和實體,線往往描述事情和事情的關(guān)系。像奧巴馬有很多關(guān)系,他的出生地是夏威夷,黨派是民主黨,他的妻子和女兒叫什么名字。很多時候我們希望在一個連續(xù)空間里面進行知識計算,誰跟誰很相似,誰跟誰大概會有一些新的關(guān)系,以前不知道的可以挖掘出來。在2015年我有一篇文章提出怎么樣把知識圖譜在一個連續(xù)空間里面表示。比如我們可以用一個剛才說的語義向量來表示每個實體,同時用一個矩陣來表示實體之間的關(guān)系。這樣的話,我們在計算實體A和實體B是不是存在一個特定的關(guān)系M的時候,只要算一下A的向量×B的向量,看看這個值是不是高,做一個相似度的測量。
有這樣一個在連續(xù)空間里面表達的知識圖譜以后,其實可以做很多別的事情。比如可以在連續(xù)空間里面推出來很多東西,我們知道奧巴馬出生地在夏威夷,夏威夷在美國,我們就可以推導(dǎo)出來他的國籍是美國。這些都可以通過在知識空間里面計算得到。根據(jù)國籍關(guān)系和出生地關(guān)系可以算出兩個矩陣之間的距離,如果這兩個矩陣之間的距離足夠小的話,就認為這兩個關(guān)系是等價的。
有了知識圖譜以后可以做很多事情,比如做知識解答,問誰是賈斯汀比伯的姐姐,就可以通過語義解析和搜索匹配得到答案。
2、讓AI以人類理解的方式表達。
就是讓AI產(chǎn)生內(nèi)容,理解人類。舉個例子,我們都知道人工智能可以寫詩現(xiàn)在已經(jīng)不是新聞了,人工智能還會畫畫,還可以做一些文本摘要,甚至可以做一個菜譜。所以我們對人工智能要求越來越高,希望人工智能不僅能理解我們說什么,還能反饋一些內(nèi)容。
還有怎么樣用增強學(xué)習在自然語言里面做應(yīng)用。在增強學(xué)習里面AlphaGo是一個很好的例子,我們認為自然語言理解是比AlphaGo下圍棋更難的問題,因為語言的空間是無限大的,圍棋的空間很大,其實語言空間比圍棋還要大。語言的空間是無限的,特別就行動空間而言,而圍棋每一步只能在361個點上選擇任意一點。
為了解決這個問題,我們不能像AlphaGo一樣直接去判斷,在語言對話問題里面,一個H就是機器說了一句話,或者機器選了一句話,因為這個話的表達是千變?nèi)f化的,這個H是沒有邊界的。所以不是說我們讓機器選某一個H,而是說把所有的H通過一個神經(jīng)網(wǎng)絡(luò)映射到一個語義空間,在這個語義空間里面計算什么時候應(yīng)該選哪個H,最后這個H才能在一個語言的環(huán)境里面做深度學(xué)習。
人類理解跟計算機理解是不一樣的,很多時候計算機的理解邏輯更像做一些匹配,包括關(guān)鍵字查找、語義分析。不管怎么說,在這個數(shù)據(jù)集上很多最新模型已經(jīng)超過人的水平了。甚至我們還提出新的如何作遷移學(xué)習的模型,即怎么樣把一個模型從一個領(lǐng)域遷移到另外一個領(lǐng)域,這樣才能迅速達到很高的水平。
還有一個做的比較大的方面,是機器閱讀,我們希望AI讀完一篇文章以后,它能夠回答關(guān)于這篇文章的任何問題。計算機要對這些前后關(guān)系有一個充分理解,然后得到一個準確的答案。這個方面也有很大的進展,斯坦福做了一個數(shù)據(jù)集,最近他們出了2.0版;最近很多企業(yè)這方面做的也不錯,比如科大迅飛,谷歌,微軟,阿里等。
多模態(tài)智能也是一個交叉性的概念,我們知道人在獲得智能的時候,是通過多個來源,并不是只看圖,或者只是聽。
我們知道奧巴馬是誰,知道他的背景,但是并不全面,看到圖片以后才知道原來奧巴馬長這樣。所以視覺對語言知識有很大的補充。聽覺也是一樣,我們聽到奧巴馬的演講,知道他怎么用詞,對他有更加深入的理解。所有這些各個模態(tài)的東西在一起,才能導(dǎo)致我們對整個知識有一個深入的了解。所以基于深度學(xué)習模型,我們希望對不同模態(tài)的輸入都可以逐步的把它不變的語義信號和概念提取出來,最后能夠統(tǒng)一到一個多模態(tài)的語義空間里面,在這個語義空間里,我們可以跨模態(tài)的做一些工作,比如圖文關(guān)聯(lián)的推理,甚至可以做跨圖文處理,甚至一個模態(tài)到一個模態(tài)的內(nèi)容生成等等。
這是另外一個最新的工作,即怎么樣生成一首詩歌。生成詩歌也是內(nèi)容創(chuàng)作,假設(shè)這是我們一個算法科學(xué)家給他女兒寫了一首詩,輸入關(guān)鍵字之后計算機會理解他大概想表達什么樣的情緒,同時用文字來表達這個情緒,從而生成一篇詩歌。
這里面還有一個核心問題沒有解決,即寫作邏輯。所以這個時候就關(guān)系到怎樣確立這樣一個模型,使得主題、子主題的結(jié)構(gòu)可以展開,并且能夠在模型上得到體現(xiàn),最后才能真正寫出一篇前后邏輯嚴謹,有意義的文章出來。
舉一個簡單例子,如何生成有情感的對話。假如一位女士買了一件T恤,如果她發(fā)到朋友圈的時候,我們可以知道這是一個女士。甚至計算機可能用一句話描述:穿著藍色T恤的女士。但實際上這位女士發(fā)在朋友圈的圖片,可能只是為了炫耀她新買的新衣服。所以這時候我希望計算機知道她的情感需求,看起來這個圖片美麗的像一個天使,而不是著重于她表象的衣服和行為。所以我們希望計算機能夠做的更好,能夠理解用戶的情感,知道用戶的訴求,這樣才能夠說對用戶有更深的理解。我們希望人工智能逐步開始對情感有更深的理解,不光是能夠識別情感,而且能夠配合情感進行相應(yīng)表達。
智能技術(shù)終歸回到一個問題,AI是什么?圖靈在50年代的時候提出圖靈測試,如果計算機和人進行大量的交談,長時間以后,人不能判斷跟他交談的是人還是計算機,他認為計算機通過測試是有智能的。換句話說,圖靈認為語言和對話代表高級的智能,如果對話上能夠通過圖靈測試,意味著這個計算機真的有智能。
從那以后,一代一代的科學(xué)家做了很多研究,在過去50年已經(jīng)發(fā)表了很多對話系統(tǒng),從聲學(xué)識別、語音識別到語義理解。
最近在京東研究院我們做了一個情感對話服務(wù)機器人,客服里面最重要的一個事情就是情緒,所以需要對情緒有精準的把握??头枰獙τ脩粲型硇模瑫r客服要有足夠細膩的說話技巧,同時還要符合某種社會價值觀。
舉個例子,如果一個人打電話,他開始問他的快遞為什么還沒有到?這個時候我們希望AI模型可以精準的體會到這個顧客是生氣的。然后機器人會進行一些安撫,表示抱歉,讓他的情緒能夠緩和。然后再問他具體的內(nèi)容:“到底什么時候發(fā)生的?”他說:“昨天”。這個時候智能機器人就會查具體這個東西不是已經(jīng)到了,最后告訴他,“系統(tǒng)已經(jīng)顯示東西到了”。這時候顧客的情緒從生氣變成焦急,機器人就很迅速捕捉到他這種情緒變化,告訴他說,“不用著急,我們有保險,請您放心。”
再往下一步,顯示說“您的鄰居幫您簽收了,并不是弄丟了,所以可以完全放心?!边@個時候顧客的情緒又發(fā)生變化,他可能覺得如釋重負,覺得這個事情解決了,他會說:“放心了,謝謝?!边@個時候機器人也檢測到愉快的情緒,祝這個客戶愉快,然后把這個問題解決掉。
現(xiàn)在有情感支持的對話機器人已經(jīng)在京東上線了,已在線上服務(wù)了將近100多萬的咨詢。
整個自然語言突破,我個人認為并不是要證明AI技術(shù)比人強,計算機下棋下的比人強,證明計算機前進的程度不是我們的終極目標,我們的終極目標是AI幫助人類連接這個世界。
我們生活在一個物理世界,這個世界往往需要大量的視覺信號在里面。同時,我們也生活在一個數(shù)字世界里,我們有各種的帳號,還有各種號碼。此外,我們還需要跟其他的人打交道,我們有微信,看微博,看各種各樣的頭條,或者看各種各樣的信息,去線上買東西,給客服打電話,所以跟人類打交道也是需要突破的一點。所以我們希望AI幫助每一個用戶和每個消費者更好的跟自己的三個世界的人能夠連接起來。
語言理解作為一個核心技術(shù),就是能夠溝通人和世界的交流,像圖靈說的,只有通過對話測試才能證明機器有智能,所以語言理解和人機對話一直是推動人工智能發(fā)展的一個核心目標。我們希望機器能夠更進一步的進化到高級智能和通用智能,能夠自動學(xué)習和自我創(chuàng)新,然后迅速的在一些特定領(lǐng)域比人做的更好。
相關(guān)文章:
自然語言處理的下一個十年將在哪里?CCF-GAIR 2018將給你答案 | CCF-GAIR 2018
自然語言處理頂會 NAACL 2018 最佳論文、時間檢驗論文揭曉
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。