丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能 正文
發(fā)私信給亞萌
發(fā)送

1

華為諾亞方舟實驗室主任李航:自然語言處理的未來趨勢

本文作者: 亞萌 2016-12-26 22:03
導(dǎo)語:華為諾亞方舟實驗室主任李航博士演講:《自然語言處理中的深度學(xué)習(xí):過去、現(xiàn)在和未來》。

編者按:12月18日,騰訊大數(shù)據(jù)峰會暨KDD China技術(shù)峰會在深圳舉行,華為諾亞方舟實驗室主任李航博士在會上做了題為《自然語言處理中的深度學(xué)習(xí):過去、現(xiàn)在和未來》的演講,雷鋒網(wǎng)根據(jù)現(xiàn)場演講整理成本文。

華為諾亞方舟實驗室主任李航:自然語言處理的未來趨勢

深度學(xué)習(xí)在自然語言處理中的應(yīng)用,大概可以分成兩個階段。

  • 第一個階段,主要是完全用深度學(xué)習(xí)的技術(shù)去做自然語言處理,是端到端的一個過程。

  • 第二個階段,因為大家看到了深度學(xué)習(xí)在做自然語言處理的優(yōu)勢和不足, 從而看到了新的機會,把神經(jīng)處理和符號處理結(jié)合起來。

現(xiàn)在第一階段已經(jīng)基本結(jié)束,開始進(jìn)入第二個階段。所以,未來自然語言處理深度學(xué)習(xí)的發(fā)展趨勢應(yīng)該是一個神經(jīng)處理和符號處理的結(jié)合的混合模式。

我在闡述這個觀點的過程當(dāng)中,也會介紹一下華為諾亞方舟實驗室做的一些工作。華為諾亞方舟實驗室,在整個華為的戰(zhàn)略里,是肩負(fù)著人工智能、機器學(xué)習(xí)和數(shù)據(jù)挖掘方面的研究任務(wù),既有偏長期的工作,也有偏短期的、產(chǎn)品化的工作,那么我今天主要是講一講,我們已經(jīng)進(jìn)行的基礎(chǔ)性長期性的工作。主要包括自動問答、圖片檢索、機器翻譯、自然語言對話領(lǐng)域里,我們做了哪些模型,取得了什么樣的效果。

自動問答系統(tǒng) 

如今的自動問答系統(tǒng)最簡單的實現(xiàn)方式就是檢索。

假設(shè)我們有一個問答庫,問答庫充滿了FAQ(常見問題),我們可以把它索引起來構(gòu)建一個檢索系統(tǒng)。那么如果來了一個新問題,我們可以用檢索的技術(shù),針對問題找到一系列答案候選,把候選答案與問題做匹配并做一個排序(把最相關(guān)的答案排在前面),最后把最合適的答案反饋給用戶。

華為諾亞方舟實驗室主任李航:自然語言處理的未來趨勢

這里面有兩個很重要的技術(shù),一個是匹配(Matching),一個就是排序(Ranking)。匹配和排序,往往是通過離線學(xué)習(xí)來完成的,其中要構(gòu)建很好的匹配模型和排序模型。

我們提出了這樣的一個匹配模型“Deep Match Model CNN”,在業(yè)界一定程度上被廣泛使用。其中最基本的想法就是,用卷積神經(jīng)網(wǎng)絡(luò)來去判斷,一個問句和一個答句二者是否可以匹配得很好。

華為諾亞方舟實驗室主任李航:自然語言處理的未來趨勢

這是一個二維模型(一個問句和一個答句),我們把每一句話看做是詞的序列,每個詞用向量來表示,那么每句話是“向量序列”。我們這個模型可以通過卷積和最大池化從兩個“向量序列”里抽取特征,從而根據(jù)特征來匹配。

圖片檢索

圖片檢索,指的就是把圖片和文本相匹配,即給定一張圖片,對應(yīng)找到一個自然語言描述;或者反過來,給定一個自然語言描述,找到一張相關(guān)圖片。

在深度學(xué)習(xí)出來之前,類似“圖片檢索”這樣的事往往是不能做的?,F(xiàn)在我們可以用卷積神經(jīng)網(wǎng)絡(luò)來做圖片和文本的匹配。我們這里有兩個CNN,左邊的CNN抽取圖片的特征,右邊的CNN抽取文本的特征,二者的特征做匹配。我們基于大量的這種“成對”的數(shù)據(jù)來訓(xùn)練模型。

華為諾亞方舟實驗室主任李航:自然語言處理的未來趨勢

下面我給大家做一個演示,這是我們基于30萬對的文本和圖片,訓(xùn)練得到的一個匹配模型。比如,你輸入一個自然語言描述“跟朋友公園玩耍的照片”,便得到如下圖片檢索結(jié)果。

華為諾亞方舟實驗室主任李航:自然語言處理的未來趨勢

我們把從網(wǎng)上爬來的每張照片里,人為標(biāo)注了兩三句話的描述,有了這樣的標(biāo)注數(shù)據(jù)之后,我們構(gòu)建了剛才所講的匹配模型。除此之外,沒有對圖片和自然語言做任何其他的處理。我們在檢索結(jié)果里可以看到,頭10張圖片里往往都有兩三張非常相關(guān)的圖片,準(zhǔn)確率是相當(dāng)高了。

機器翻譯

現(xiàn)在用神經(jīng)網(wǎng)絡(luò)去做機器翻譯的話,最典型的模型是基于循環(huán)神經(jīng)網(wǎng)絡(luò)RNN模型,也叫做“序列對序列學(xué)習(xí)”(Sequence to Sequence Learning)。如果現(xiàn)在我們把中文翻譯為英文,那么中文就是“源語言”,英文就是“目標(biāo)語言”。

前面我們提到,可以把自然語言描述轉(zhuǎn)變成“向量序列”。機器翻譯,實際上就是把中文(源語言)表示的“向量序列”轉(zhuǎn)換成英文(目標(biāo)語言)的"向量序列",然后進(jìn)行這種翻譯。

這個當(dāng)中有一個重要的機制,叫做Attention,將源語言序列和目標(biāo)語言序列動態(tài)對應(yīng)在一起。比如現(xiàn)在要生成“Sitting”這個單詞,那么我們就要通過Attention機制,反向從源語言中找到跟“Sitting”最相關(guān)的單詞“坐”。

我們在已有的模型基礎(chǔ)上做了一個比較大的改進(jìn),在其中加入了一個覆蓋向量機制(Coverage Vetor)。為什么要引入這個機制呢?傳統(tǒng)的神經(jīng)翻譯機器模型,會產(chǎn)生過翻譯(重復(fù)翻譯)或少翻譯的現(xiàn)象,那么Coverage Vetor機制,就用來記憶到目前為止,我們到底翻譯了多少內(nèi)容,并據(jù)此動態(tài)地去調(diào)整Attention機制。

比如在英文里面我們要產(chǎn)生"The"這樣虛詞的時候,它受到源語言的影響比較少,因為這是英文自己的語言特性決定要用“The”這樣的詞,所以這時就需要我們的Attention弱一些。所以我們需要動態(tài)地去調(diào)整Attention機制,從而大幅度提高機器翻譯的準(zhǔn)確率。

下面看一看我們的模型運行的效果。比如,我們到互聯(lián)網(wǎng)上隨便找一句話:

“據(jù)韓國媒體報道,因為大量中國游客取消預(yù)約,正在韓國大邱居心搞的‘炸雞啤酒節(jié)’一項核心活動告吹?!?/p>

以下分別是諾亞方舟的神經(jīng)模型和網(wǎng)上某個在線翻譯系統(tǒng)給出的結(jié)果,大家可以對比來看。

華為諾亞方舟實驗室主任李航:自然語言處理的未來趨勢

需要提到的一點是,我們的這個模型是最基本的狀態(tài),并沒有做其它工程上的事情。粗略來看的話,我們用這個深度學(xué)習(xí)做出的翻譯結(jié)果更加流暢,當(dāng)然也有一些問題,就是有些詞它還沒有翻譯出來。

那么我們這個系統(tǒng)跟其他業(yè)界相比,是個什么水平呢?

華為諾亞方舟實驗室主任李航:自然語言處理的未來趨勢

在同一個測試題上,我們跟谷歌的NMT神經(jīng)系統(tǒng)相比,還是有點差距(大約差3-4個百分點),因為他們有更大的訓(xùn)練庫和更強的計算架構(gòu)。但我們這個非常初級的模型,相比于互聯(lián)網(wǎng)的一般的搜索引擎里面提供的機器翻譯功能,效果已經(jīng)好很多了。

自然語言對話

在自然語言對話這塊,我們提出了一個叫做“Neural Responding Machine”的模型,這是業(yè)界第一個完全基于深度學(xué)習(xí)的模型去做的單輪對話系統(tǒng)。

剛才我們談到的幾點,包括自動問答、機器翻譯,都是基于“檢索”的,那么對話系統(tǒng)的特點,就是基于“生成”的。

當(dāng)你輸入一句話到這個系統(tǒng)里,這個系統(tǒng)會自動產(chǎn)生一個回復(fù),這個模型是通過大量的數(shù)據(jù)訓(xùn)練出來的,也是一個“序列對序列學(xué)習(xí)”的模型。那么下面,我們可以看一下演示。

這個系統(tǒng)是我們根據(jù)微博400萬份數(shù)據(jù)訓(xùn)練而成的,比如當(dāng)你輸入“我想買一部三星手機”,系統(tǒng)會自動生成回答“還是支持一下國產(chǎn)吧”。

華為諾亞方舟實驗室主任李航:自然語言處理的未來趨勢

這句生成的話,不是我們教它說的,而是它自己產(chǎn)生出來。我們來看第二個例子。

問:華為手機怎么樣?

答:用了都說好。

華為諾亞方舟實驗室主任李航:自然語言處理的未來趨勢

(臺下爆發(fā)一陣笑聲)第二個例子實際上是開玩笑的,如果多次讓系統(tǒng)看到這樣的對話,它就會這樣去說了。

所以這個模型是有記憶功能的,但卻不是死記。在經(jīng)過大量數(shù)據(jù)訓(xùn)練之后,它能夠在96%的情況下產(chǎn)生自然的回復(fù),這個是非常令人吃驚的。并且在76%的情況下,可以形成一個單輪的對話。其實自然語言對話還是非常難的,剛才看到這樣的簡單機制還是很難幫我們真正地去實現(xiàn)自然語言對話系統(tǒng),這是需要大概上億參數(shù)、幾百萬的神經(jīng)元,把對話的模式(Pattern)記憶下來,從而產(chǎn)生回復(fù)。

神經(jīng)處理與符號處理結(jié)合

剛剛的幾個例子里,用大數(shù)據(jù)、深度模型完成一些端到端的任務(wù),而且準(zhǔn)確率還不錯。特別是圖片搜索和機器翻譯方面,有的甚至可以接近和達(dá)到實用水平。同時,我們也明顯看到深度學(xué)習(xí)在自然語言處理方面的一些局限,它針對長尾現(xiàn)象比較弱,很難結(jié)合人類的知識。在實際應(yīng)用中,我們希望將類似人類的一般知識放到機器系統(tǒng)里,讓這個系統(tǒng)能夠跟我們?nèi)艘粯?,使用這些知識。如果純粹使用神經(jīng)網(wǎng)絡(luò)模型往往是比較困難的,所以未來的自然語言處理的發(fā)展方向,應(yīng)該是深度學(xué)習(xí)(神經(jīng)處理)與符號處理的結(jié)合。

所以我們面臨很多挑戰(zhàn)性的任務(wù),但我們已經(jīng)開始在這方面做一些嘗試。

下面介紹幾個例子,一個是在自動問答領(lǐng)域,我們提出一個名為“Neural Enquirer”的模型,當(dāng)然我們現(xiàn)在還在不斷改進(jìn)這個模型。這個模型最基本的想法就是結(jié)合符號處理和神經(jīng)處理。比如,我們有一個包含大量“奧林匹克運動會”問答關(guān)系的數(shù)據(jù)庫。來了一個問詢語句,比如:

Which city hosted the longest Olympic game before the game in Beijing?

華為諾亞方舟實驗室主任李航:自然語言處理的未來趨勢

這樣一個長句對應(yīng)著一個非常復(fù)雜的命令,我們用神經(jīng)網(wǎng)絡(luò)將其轉(zhuǎn)換成向量表示,與數(shù)據(jù)庫里的向量表示做匹配,經(jīng)過多次匹配來真正找到復(fù)雜的邏輯關(guān)系,最后找到答案。

我們另外在做的一個事情,也是問答系統(tǒng),跟剛才所講到的相似但不完全一樣。我們用到了一個包含知識圖譜的知識庫,包括“三元組”(圖中所示為 Learning System、Knowledge Graph和Question Answering System),據(jù)此提出了一個名為“GenQA”的模型,它可以結(jié)合符號處理和神經(jīng)處理,既用符號又用分布式表達(dá)做檢索,通過神經(jīng)網(wǎng)絡(luò)產(chǎn)生答案。因為時間關(guān)系,這個模型的具體細(xì)節(jié)我不詳細(xì)介紹了。

華為諾亞方舟實驗室主任李航:自然語言處理的未來趨勢

神經(jīng)機器翻譯與統(tǒng)計機器翻譯結(jié)合

我們還在做的一件事情,就是將神經(jīng)機器翻譯(NMT)和統(tǒng)計機器翻譯(SMT)結(jié)合起來。其基本想法就是,傳統(tǒng)的統(tǒng)計機器翻譯有很多優(yōu)勢,那么當(dāng)我們在使用神經(jīng)機器翻譯的時候,用統(tǒng)計機器翻譯來輔助。因為NMT嚴(yán)重依賴于大數(shù)據(jù),如果數(shù)據(jù)不足,往往還不如你用傳統(tǒng)的SMT方法來的好。這種結(jié)合,能夠提升解決實際問題的能力,比如翻譯不當(dāng)或?qū)τ谖吹侨朐~的翻譯問題。

華為諾亞方舟實驗室主任李航:自然語言處理的未來趨勢

我們剛才談到“序列對序列學(xué)習(xí)”可以幫助我們?nèi)プ鰴C器翻譯,也就是說NMT靠自己來決定產(chǎn)生哪些詞,那么在新模型里,SMT也會對詞的產(chǎn)生造成影響,這兩者結(jié)合起來,判斷最終應(yīng)該產(chǎn)生什么樣的詞。這樣可以在一定程度上,提升翻譯的準(zhǔn)確度。

CopyNet模型

剛剛我們提到單輪對話做到了76%的準(zhǔn)確率,我們希望能夠把準(zhǔn)確率再進(jìn)一步提升。不知大家有沒有觀察到這么一個現(xiàn)象,那就是我們在跟別人聊天的時候,往往會去重復(fù)一些對方已經(jīng)說過的詞組。比如說會發(fā)生這樣的對話:

-My Name is Harry Potter.

-Hi, Harry Potter.

華為諾亞方舟實驗室主任李航:自然語言處理的未來趨勢

這樣的一個對話是蠻自然的。所以一個可能重要的機制就是,把問句里的一部分復(fù)制到我們答句里,使得單輪對話的效果更好、更順暢。我們可以考慮這樣的一個叫做“CopyNet”的模型,其效果是非常好的。前面我們提到,單輪對話也是“序列對序列學(xué)習(xí)”,那么當(dāng)我們產(chǎn)生組成答句的各個詞匯時,就需要決定在某個位置產(chǎn)生特定的詞,所以每個位置都面臨一個動態(tài)的選擇:是生成新的詞,還是從輸入語句里復(fù)制一些詞過來。

華為諾亞方舟實驗室主任李航:自然語言處理的未來趨勢

以上就是我們?nèi)A為諾亞方舟實驗室大致進(jìn)行的工作,總的來說就是:深度學(xué)習(xí)確實給自然語言處理帶來了一些突破性進(jìn)展,主要體現(xiàn)在能夠端到端地訓(xùn)練模型以完成不同的任務(wù),包括自動問答、機器翻譯和圖片檢索等,但是它仍然有一定的局限性。當(dāng)自然語言處理牽涉到更高層次的推理、知識等方面內(nèi)容時,這種局限性就很容易凸顯出來。所以我們現(xiàn)在采取的方法就是將深度學(xué)習(xí)和符號處理結(jié)合起來,這也就是自然語言處理未來的發(fā)展方向。

PS:關(guān)注雷鋒網(wǎng)(微信公眾號:雷鋒網(wǎng))


相關(guān)文章:

語音交互的痛點,為什么扎克伯格精心打造的AI“賈維斯”還會出糗?

AI 初學(xué)者入門指南:深度學(xué)習(xí)的五級分類

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

華為諾亞方舟實驗室主任李航:自然語言處理的未來趨勢

分享:
相關(guān)文章

編輯

關(guān)注人工智能(AI)報道
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說