丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給亞萌
發(fā)送

0

深度 | 百度副總裁王海峰:百度在NLP領(lǐng)域都做了什么?

本文作者: 亞萌 2017-02-09 15:20
導(dǎo)語(yǔ):AAAI 2017大會(huì),百度副總裁王海峰應(yīng)邀做了名為“百度的自然語(yǔ)言處理”(Natural Language Processing at Baidu)的主題演講

雷鋒網(wǎng)按:2017年美國(guó)加州當(dāng)?shù)貢r(shí)間2月5日,人工智能頂級(jí)會(huì)議AAAI大會(huì)召開(kāi),AAAI今年首次設(shè)置了AI in Practice (應(yīng)用人工智能)環(huán)節(jié),百度副總裁王海峰應(yīng)邀做了名為“百度的自然語(yǔ)言處理”(Natural Language Processing at Baidu)的主題演講。雷鋒網(wǎng)根據(jù)王海峰現(xiàn)場(chǎng)演講整理成本文,由亞萌、夏睿、三川共同編輯。

深度 | 百度副總裁王海峰:百度在NLP領(lǐng)域都做了什么?

大家好,我是來(lái)自百度公司的王海峰。在介紹百度NLP工作之前,我想先談?wù)務(wù)Z言對(duì)于AI意味著什么。

思考和獲得知識(shí)的能力成就了今天的人類,這種能力需要通過(guò)語(yǔ)言來(lái)找到思考的對(duì)象和方法,并外化為我們看、聽(tīng)、說(shuō)和行動(dòng)的能力。而語(yǔ)音、視覺(jué)、行為和語(yǔ)言等正是現(xiàn)在AI領(lǐng)域的重要研究?jī)?nèi)容。 

相對(duì)于看、聽(tīng)和行動(dòng)的能力,語(yǔ)言是人類區(qū)別于其他生物最重要的特征之一。語(yǔ)言是人類思考的載體,通常我們的思考語(yǔ)言是母語(yǔ)。當(dāng)我們學(xué)習(xí)外語(yǔ)時(shí),老師希望我們要努力使用外語(yǔ)來(lái)思考。另一方面,從人類歷史之初,知識(shí)就以語(yǔ)言的形式進(jìn)行記錄和傳承,用來(lái)書寫語(yǔ)言的工具不斷改進(jìn):從甲骨到紙張,再到今天的互聯(lián)網(wǎng)。

深度 | 百度副總裁王海峰:百度在NLP領(lǐng)域都做了什么?

所以我們說(shuō),語(yǔ)言是思想和知識(shí)的載體,而對(duì)語(yǔ)言的處理和理解就顯得尤為重要。計(jì)算機(jī)領(lǐng)域中自然語(yǔ)言處理(Natural Language Processing: NLP)的目的,就是讓計(jì)算機(jī)能夠理解和生成人類語(yǔ)言。

在百度,基于大數(shù)據(jù)、機(jī)器學(xué)習(xí)和語(yǔ)言學(xué)方面的積累,我們研發(fā)了知識(shí)圖譜,我們分析理解query、篇章及情感,我們構(gòu)建了問(wèn)答、機(jī)器翻譯和對(duì)話系統(tǒng)。NLP技術(shù)已經(jīng)應(yīng)用在百度的眾多產(chǎn)品上,比如搜索、Feed、o2o和廣告等。

深度 | 百度副總裁王海峰:百度在NLP領(lǐng)域都做了什么?

| 知識(shí)圖譜

基于不同的應(yīng)用需求,我們建立了三類知識(shí)圖譜,包括實(shí)體圖譜(entity graph)、關(guān)注點(diǎn)圖譜(attention graph)和意圖圖譜(intent graph)。

在實(shí)體圖譜里,每一個(gè)節(jié)點(diǎn)都是一個(gè)實(shí)體,每個(gè)節(jié)點(diǎn)都有幾個(gè)屬性,在這個(gè)例子中,節(jié)點(diǎn)之間的連接是實(shí)體之間的關(guān)系。目前我們的實(shí)體圖譜已經(jīng)包含了數(shù)億實(shí)體、數(shù)百億屬性和千億關(guān)系,這些都是從大量結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)挖掘出來(lái)的。

深度 | 百度副總裁王海峰:百度在NLP領(lǐng)域都做了什么?

這兒有一個(gè)例子,搜索的問(wèn)題是:竇靖童的爸爸的前妻的前夫。

深度 | 百度副總裁王海峰:百度在NLP領(lǐng)域都做了什么?

這句話里包含的人物關(guān)系是非常復(fù)雜的,然而,我們的推理系統(tǒng)可以輕松地分析出各實(shí)體之間的關(guān)系,并最終得出正確答案。

除了實(shí)體圖譜之外,我們還建立了關(guān)注點(diǎn)圖譜和意圖圖譜,稍后我在篇章理解和對(duì)話系統(tǒng)的部分將給大家介紹。

| 語(yǔ)言理解

Query理解

基于實(shí)體識(shí)別、語(yǔ)法和語(yǔ)義分析等技術(shù),我們研發(fā)了query、篇章和觀點(diǎn)分析和理解技術(shù)。接下來(lái),我將進(jìn)一步介紹query理解。我們結(jié)合“依存句法分析(Dependency Parsing)”和“語(yǔ)義理解(Semantic Understanding)”來(lái)實(shí)現(xiàn)query理解。

深度 | 百度副總裁王海峰:百度在NLP領(lǐng)域都做了什么?

在上圖所示例子里,左邊用戶輸入的query是“給我推薦一家可以聽(tīng)見(jiàn)蛙聲的餐館”。我們使用了依存句法分析技術(shù),來(lái)分析該語(yǔ)句的句法結(jié)構(gòu),幫我們找到句子里的各個(gè)組成成分。比如,“推薦、餐館”是核心成分,表明了用戶的主要意圖,而“聽(tīng)見(jiàn)、蛙聲”是修飾成分,對(duì)用戶的意圖進(jìn)行了修飾和限定。

右邊用戶輸入的query是“妹妹結(jié)婚出嫁哥哥給妹妹紅包多少錢”,說(shuō)明我們是如何提升query和網(wǎng)頁(yè)之間的語(yǔ)義匹配(semantic matching)。首先,我們基于依存句法分析識(shí)別出這條query中的搭配,這種詞語(yǔ)搭配相比于單個(gè)詞語(yǔ)更能夠準(zhǔn)確表征query的語(yǔ)義,進(jìn)而可以將其應(yīng)用到query與網(wǎng)頁(yè)的精確匹配中。

另外,基于語(yǔ)義理解技術(shù),我們可以理解一個(gè)query的語(yǔ)義,實(shí)現(xiàn)語(yǔ)義級(jí)的搜索而不僅僅是字面匹配。

深度 | 百度副總裁王海峰:百度在NLP領(lǐng)域都做了什么?

上圖里前兩句話是:

英達(dá)的兒子是誰(shuí)

英達(dá)是誰(shuí)的兒子

這兩個(gè)句子里包含著相同的詞語(yǔ),只是詞語(yǔ)的語(yǔ)序不同。如果使用傳統(tǒng)的基于關(guān)鍵詞的搜索技術(shù),我們將會(huì)得到幾乎相同的搜索結(jié)果。然而,經(jīng)過(guò)語(yǔ)義理解技術(shù)的分析,我們可以發(fā)現(xiàn)這兩個(gè)句子的語(yǔ)義是完全不一樣的,相應(yīng)地就能從知識(shí)圖譜中檢索到完全不同的答案。還有第三句話:

誰(shuí)是英達(dá)的父親

在字面上來(lái)看,這跟第二個(gè)句子并不一樣,但是經(jīng)過(guò)語(yǔ)義理解技術(shù),我們發(fā)現(xiàn)這兩個(gè)句子要找的是同一個(gè)對(duì)象,所以我們可以從知識(shí)圖譜中檢索到相同的答案。

我們同樣開(kāi)發(fā)了基于深度學(xué)習(xí)的語(yǔ)義理解技術(shù),實(shí)現(xiàn)了一個(gè)基于深度學(xué)習(xí)來(lái)計(jì)算query和文本語(yǔ)義關(guān)聯(lián)。我們使用了超過(guò)1000億的用戶數(shù)據(jù)來(lái)訓(xùn)練模型,對(duì)于一個(gè)query,包括用戶點(diǎn)擊過(guò)的正例和未點(diǎn)擊的負(fù)例。我們使用了BOW、CNN和RNN模型來(lái)學(xué)習(xí)語(yǔ)言的語(yǔ)義表示。為了提升模型對(duì)語(yǔ)義的表征,我們?nèi)诤线M(jìn)多種句法和語(yǔ)義結(jié)構(gòu),將“依存關(guān)系結(jié)構(gòu)”融合進(jìn)模型中。

深度 | 百度副總裁王海峰:百度在NLP領(lǐng)域都做了什么?

下圖是在不應(yīng)用深度學(xué)習(xí)模型時(shí)的搜索結(jié)果,結(jié)果是不相關(guān)的。

深度 | 百度副總裁王海峰:百度在NLP領(lǐng)域都做了什么?

應(yīng)用了深度學(xué)習(xí)模型之后,搜索結(jié)果里的前3個(gè)都是相關(guān)性的。從2013年開(kāi)始應(yīng)用DNN模型至今,我們已經(jīng)對(duì)這個(gè)模型進(jìn)行了幾十次的升級(jí)迭代,DNN語(yǔ)義特征是百度搜索里非常重要的一個(gè)特征。

深度 | 百度副總裁王海峰:百度在NLP領(lǐng)域都做了什么?

篇章理解

用戶獲取信息另一個(gè)重要渠道就是Feed,里面的資訊是個(gè)性化的,這其中,篇章理解技術(shù)發(fā)揮了重要作用。現(xiàn)在,我來(lái)為大家介紹一下我們?cè)谄吕斫夥矫娴囊恍┕ぷ鳌?/p>

我們給文檔打上各種各樣的標(biāo)簽,包括:主題、話題和實(shí)體標(biāo)簽。主題標(biāo)簽表示抽象的概念,話題標(biāo)簽表示具體發(fā)生的事件,實(shí)體標(biāo)簽表示人、地點(diǎn)等實(shí)體信息。這些標(biāo)簽,從不同角度描述一個(gè)文檔的內(nèi)容,以滿足不同應(yīng)用需求,并與不同的query相關(guān)聯(lián)。

深度 | 百度副總裁王海峰:百度在NLP領(lǐng)域都做了什么?

融合了話題標(biāo)簽和實(shí)體標(biāo)簽,我們形成了關(guān)注點(diǎn)標(biāo)簽圖譜。這種關(guān)注點(diǎn)標(biāo)簽?zāi)芨玫孛枋鲇脩襞c文檔之間的關(guān)系,因?yàn)樗芡瑫r(shí)對(duì)用戶和文檔進(jìn)行表征。我們也在不同類型的關(guān)注點(diǎn)標(biāo)簽之間建立關(guān)系,這樣我們可以對(duì)用戶關(guān)注點(diǎn)進(jìn)行推理和計(jì)算。在下圖所示例子里,“AI”話題與“科技”、“VR”等話題及“烏鎮(zhèn)峰會(huì)”等事件關(guān)聯(lián)在一起。

深度 | 百度副總裁王海峰:百度在NLP領(lǐng)域都做了什么?

以下是關(guān)注點(diǎn)標(biāo)簽圖譜應(yīng)用在百度Feed里的一個(gè)例子,在左圖中,標(biāo)簽表征了文章里的內(nèi)容,用戶可以點(diǎn)擊標(biāo)簽進(jìn)入到以一個(gè)話題為主題的聚合頁(yè)(第二張圖)。然后第三張圖是基于關(guān)注點(diǎn)標(biāo)簽圖譜進(jìn)行個(gè)性化推薦,更能契合用戶的關(guān)注點(diǎn),帶來(lái)了更高的點(diǎn)擊率。

深度 | 百度副總裁王海峰:百度在NLP領(lǐng)域都做了什么?

情感分析是篇章理解里另一個(gè)有趣的話題。情感分析技術(shù)也被稱為“觀點(diǎn)挖掘”(opinion mining),用來(lái)分析人類對(duì)各種對(duì)象(比如產(chǎn)品、組織機(jī)構(gòu)等)的觀點(diǎn)、情感和情緒。下面是我們?cè)凇坝^點(diǎn)挖掘”和“觀點(diǎn)摘要”方面的一些工作。以“酒店評(píng)價(jià)”為例子,我們從已有的在線評(píng)論數(shù)據(jù)中抽取評(píng)論句,并進(jìn)而從中提取用戶觀點(diǎn)。基于這些觀點(diǎn),我們可以生成標(biāo)簽級(jí)的觀點(diǎn)摘要和句子級(jí)的觀點(diǎn)摘要。我們也可以以此為基礎(chǔ)來(lái)進(jìn)行酒店推薦。

深度 | 百度副總裁王海峰:百度在NLP領(lǐng)域都做了什么?

這里是一些關(guān)于情感分析應(yīng)用于百度產(chǎn)品的例子,觀點(diǎn)自動(dòng)摘要技術(shù)為用戶提供觀點(diǎn)標(biāo)簽,在左邊的例子里,我們提供了關(guān)于“八達(dá)嶺長(zhǎng)城”的多個(gè)維度的評(píng)價(jià),在右邊的例子里,我們?cè)谟^點(diǎn)分析的基礎(chǔ)上為用戶提供了精煉的推薦理由。

深度 | 百度副總裁王海峰:百度在NLP領(lǐng)域都做了什么?

| 語(yǔ)言生成

自動(dòng)新聞寫作

自動(dòng)新聞寫作,即從結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)里生成新聞文章。這里面共涉及四個(gè)步驟:

  • 數(shù)據(jù)分析(data analysis):確定要生成文章所需包含的關(guān)鍵信息

  • 文章規(guī)劃(document planning):確定生成文章的內(nèi)容和結(jié)構(gòu)

  • 微觀規(guī)劃(micro-planning):生成單詞、語(yǔ)句、段落和標(biāo)題

  • 文章實(shí)現(xiàn)(surface realization):生成最終的文章內(nèi)容

以下是我們自動(dòng)寫作的新聞。左邊第一個(gè)例子,是一般的新聞,第二個(gè)是生成汽車領(lǐng)域的新聞,第三個(gè)是體育新聞,目前我們的自動(dòng)寫作系統(tǒng)已經(jīng)完成了數(shù)千篇文章的寫作,在百度Feed產(chǎn)品中得以被數(shù)百萬(wàn)的用戶閱讀。

深度 | 百度副總裁王海峰:百度在NLP領(lǐng)域都做了什么?

AI 籃球解說(shuō)員

我們的AI解說(shuō)系統(tǒng),可以像人類解說(shuō)員一樣,生成一場(chǎng)比賽的實(shí)時(shí)解說(shuō)并與觀眾互動(dòng)。這里面的實(shí)現(xiàn)主要包括四個(gè)步驟:

  • 信息搜集(information gathering):從網(wǎng)上實(shí)時(shí)收集和提取比賽的關(guān)鍵信息

  • 生成結(jié)構(gòu)化數(shù)據(jù)(structured data generation):基于不同消息源的比賽信息,生成結(jié)構(gòu)化解說(shuō)數(shù)據(jù)

  • 比賽場(chǎng)景推理(game scene inference):基于比賽數(shù)據(jù)(比如得分和統(tǒng)計(jì)),推斷出現(xiàn)場(chǎng)比賽場(chǎng)景

  •  生成直播解說(shuō)(live commentary generation):基于解說(shuō)模型,生成直播解說(shuō)

以下是我們AI解說(shuō)員生成的關(guān)于一場(chǎng)真實(shí)比賽的解說(shuō)。

深度 | 百度副總裁王海峰:百度在NLP領(lǐng)域都做了什么?

中間這個(gè)圖,顯示出這個(gè)AI解說(shuō)員也可以進(jìn)行推理,它在其中的一段解說(shuō)中提到“考辛斯搶到了進(jìn)攻籃板”,“進(jìn)攻籃板”這個(gè)短語(yǔ)表明我們的AI解說(shuō)員通過(guò)已有的知識(shí)了解到考辛斯所在球隊(duì)目前處于進(jìn)攻階段,經(jīng)過(guò)推理從而得出“進(jìn)攻籃板”的結(jié)論。

最右邊的例子,說(shuō)明了我們的AI解說(shuō)員除了解說(shuō),還可以同時(shí)回答多個(gè)觀眾的提問(wèn),而這是人類解說(shuō)員所不能做到的。

詩(shī)歌生成

語(yǔ)言生成技術(shù)還可以應(yīng)用在另一個(gè)方面:中國(guó)詩(shī)歌生成,而且文采并不比一般詩(shī)人差。中國(guó)詩(shī)歌有超過(guò)兩千年的歷史,是中國(guó)文化重要的組成部分,但對(duì)普通人來(lái)說(shuō),作詩(shī)還是很有難度的。

我們提出了兩步生成中國(guó)詩(shī)歌的方法:首先對(duì)每一行詩(shī)的主題進(jìn)行規(guī)劃,然后進(jìn)行具體詩(shī)句的生成。

舉個(gè)例子,如果用戶想要寫一首和春天有關(guān)的詩(shī),那么詩(shī)歌規(guī)劃模型就會(huì)首先生成一個(gè)內(nèi)容概要,包括春天,桃花,燕和柳這四個(gè)主題,然后由RNN模型根據(jù)這四個(gè)主題生成四句詩(shī),來(lái)完成整首詩(shī)歌的創(chuàng)作。

深度 | 百度副總裁王海峰:百度在NLP領(lǐng)域都做了什么?在下面展示的這三首詩(shī)中,中間這首是由AI詩(shī)人完成的,而其他兩首的作者都是中國(guó)古代詩(shī)人(白居易,劉因)。有意思的是,在我所詢問(wèn)的人中,多數(shù)人都無(wú)法分辨出這三首詩(shī)中到底哪一首出自AI詩(shī)人之手。歷史學(xué)者和《中國(guó)詩(shī)詞大會(huì)》嘉賓蒙曼教授也說(shuō),“這個(gè)人工智能詩(shī)人是詩(shī)壇小超人,能和人類詩(shī)人一樣在詩(shī)中表達(dá)感情色彩?!?/span>

深度 | 百度副總裁王海峰:百度在NLP領(lǐng)域都做了什么?

文本摘要

另外,我們還研發(fā)了文本摘要技術(shù)。具體來(lái)說(shuō),包括一般的文摘(general summarization)和基于query的文摘(query summarization)如下表中展示的具體過(guò)程:

  • 文本分析(document analysis):分析文本結(jié)構(gòu)

  • 句子排序(sentence ranking):通過(guò)句子的表層含義和深層含義來(lái)實(shí)現(xiàn)對(duì)句子的排序

  • 句子選擇(sentence selection):從句子重要性、句子間是否連貫,以及去除冗余等角度來(lái)考慮如何選擇文摘中的句子。

  • 生成文摘(generation):把選定的句子進(jìn)行壓縮,并整合成最終的結(jié)果

一般文摘和基于query的文摘這兩種技術(shù)的不同之處在于“句子排序”環(huán)節(jié)。在基于query的文摘里,我們對(duì)query的特征進(jìn)行計(jì)算,以使得最終文摘體現(xiàn)出與query的相關(guān)性。

深度 | 百度副總裁王海峰:百度在NLP領(lǐng)域都做了什么?

這里有兩個(gè)文摘在搜索結(jié)果中體現(xiàn)的例子。左圖顯示,輸入query“天空為什么是藍(lán)的”,系統(tǒng)可以挑選出與這句話相關(guān)的網(wǎng)頁(yè),從中抽取出摘要并顯示出來(lái);右圖中的例子也是同樣道理。

深度 | 百度副總裁王海峰:百度在NLP領(lǐng)域都做了什么?

| 自然語(yǔ)言處理應(yīng)用系統(tǒng)

下面介紹三種自然語(yǔ)言處理的應(yīng)用系統(tǒng):?jiǎn)柎?、機(jī)器翻譯和對(duì)話系統(tǒng)。

問(wèn)答

當(dāng)用戶在提出問(wèn)題時(shí),系統(tǒng)可基于知識(shí)圖譜加以回答。

比如,當(dāng)用戶在搜索框內(nèi)輸入“珠穆朗瑪峰高度”時(shí),網(wǎng)頁(yè)就會(huì)出現(xiàn)有關(guān)珠穆朗瑪峰的圖片和其高度說(shuō)明;用戶也可以輸入“瑯琊榜演員表”,那么百度搜索網(wǎng)頁(yè)上就會(huì)直接出現(xiàn)《瑯琊榜》的演員表及其照片。

深度 | 百度副總裁王海峰:百度在NLP領(lǐng)域都做了什么?

除了基于知識(shí)圖譜的問(wèn)答,我們還設(shè)計(jì)了一種基于網(wǎng)絡(luò)的深度問(wèn)答系統(tǒng)。該系統(tǒng)對(duì)網(wǎng)頁(yè)搜索結(jié)果中的內(nèi)容進(jìn)行分析,并識(shí)別用戶問(wèn)題中的關(guān)鍵詞。然后系統(tǒng)會(huì)從網(wǎng)頁(yè)中分析出和問(wèn)題相關(guān)的文檔,從中抽取出問(wèn)題的答案,并展現(xiàn)在搜索結(jié)果頁(yè)的最上方。

比如,用戶可以搜索“糖尿病患者應(yīng)該吃什么”,那么系統(tǒng)則會(huì)回答“飲食建議、飲食禁忌”等內(nèi)容。這些信息來(lái)自于網(wǎng)上的醫(yī)療領(lǐng)域數(shù)據(jù),經(jīng)過(guò)信息挖掘和匹配,生成答案呈現(xiàn)在用戶面前。

深度 | 百度副總裁王海峰:百度在NLP領(lǐng)域都做了什么?

機(jī)器翻譯

如今,基于神經(jīng)網(wǎng)絡(luò)的機(jī)器翻譯十分火熱,不過(guò),傳統(tǒng)的機(jī)器翻譯方法仍有價(jià)值。所以,我們的系統(tǒng)結(jié)合了新舊四種方法:

  • 神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯(neural MT)

  • 基于規(guī)則的機(jī)器翻譯(rule-based MT)

  • 基于實(shí)例的機(jī)器翻譯(example-based MT)

  • 基于統(tǒng)計(jì)的機(jī)器翻譯(statistical MT)

2015年5月,百度將神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯技術(shù)應(yīng)用到百度在線翻譯服務(wù)中,推出了全球首個(gè)基于深度學(xué)習(xí)的大規(guī)模在線翻譯系統(tǒng)。同年,百度還在百度翻譯app中上線了離線翻譯功能,讓用戶在沒(méi)有網(wǎng)絡(luò)連接的情況下也可以使用翻譯服務(wù)。

深度 | 百度副總裁王海峰:百度在NLP領(lǐng)域都做了什么?

目前,百度翻譯已可支持全球28國(guó)語(yǔ)言、756個(gè)翻譯方向之間的互譯,每日翻譯次數(shù)達(dá)1億以上。

不僅如此,我們還提供多樣化的功能以滿足用戶的不同需求——除了文字翻譯,百度翻譯還能進(jìn)行語(yǔ)音翻譯以及利用OCR技術(shù)進(jìn)行圖片內(nèi)容翻譯。所以,以后到國(guó)外旅行就不用擔(dān)心語(yǔ)言不通這個(gè)問(wèn)題了。去餐館吃飯時(shí),只要用手機(jī)照一下菜單,立刻就能將其翻譯成你所需要的語(yǔ)言。

同時(shí),我們已經(jīng)為超過(guò)2萬(wàn)個(gè)企業(yè)和開(kāi)發(fā)者提供百度翻譯API,讓他們提升自己的產(chǎn)品功能,為用戶提供更優(yōu)質(zhì)的服務(wù)。

另外,我們還把百度翻譯和百度搜索引擎結(jié)合在一起——當(dāng)用戶在搜索框內(nèi)輸入外語(yǔ)時(shí),百度搜索引擎會(huì)自動(dòng)識(shí)別出翻譯需求并將翻譯結(jié)果顯示在搜索結(jié)果最上方。

在2015年的ACL會(huì)議上上,百度的智能機(jī)器人“小度”還擔(dān)任了ACL終身成就獎(jiǎng)獲得者李生教授的同聲傳譯。在問(wèn)答環(huán)節(jié),小度將現(xiàn)場(chǎng)觀眾提問(wèn)的英文問(wèn)題立刻翻譯成中文,然后將李教授的中文回答翻譯成英文呈現(xiàn)給觀眾?,F(xiàn)場(chǎng)觀眾(大部分是自然語(yǔ)言處理方面的專家學(xué)者)對(duì)小度的表現(xiàn)大為贊嘆,并對(duì)機(jī)器翻譯目前的成就感到欣喜。

深度 | 百度副總裁王海峰:百度在NLP領(lǐng)域都做了什么?

對(duì)話系統(tǒng)

接下來(lái),我會(huì)介紹百度的對(duì)話系統(tǒng)。該對(duì)話系統(tǒng)能與用戶進(jìn)行多輪交互(multi-turn interaction)。首先,用戶的輸入經(jīng)過(guò)自然語(yǔ)言理解(NLU)模塊,進(jìn)入對(duì)話管理系統(tǒng)。該系統(tǒng)識(shí)別出當(dāng)前的對(duì)話狀態(tài)(dialogue state),并確定下一步的對(duì)話行為(dialogue action)。我們的對(duì)話策略( policy) 模塊,包含通用模型和領(lǐng)域模型,即前者負(fù)責(zé)處理通用的交互邏輯,后者則處理特定領(lǐng)域的交互邏輯。最后,該系統(tǒng)會(huì)為用戶生成交互回復(fù)。

深度 | 百度副總裁王海峰:百度在NLP領(lǐng)域都做了什么?

這里有一個(gè)例子,是高考之后,百度智能助理“度秘”和用戶之間的對(duì)話。當(dāng)用戶問(wèn):“我能進(jìn)入哪所大學(xué)?”度秘會(huì)反問(wèn)他問(wèn)題,以進(jìn)一步了解情況。度秘問(wèn):“你是文科還是理科?”對(duì)方回答:“理科”。度秘接著問(wèn):“你考了多少分?”他回答:“620 分?!?度秘隨即根據(jù)這些信息,推薦適合他填報(bào)志愿的學(xué)校。在 2016 年的全國(guó)高考期間,度秘處理了480 萬(wàn)百用戶的 3000萬(wàn)個(gè)請(qǐng)求。

深度 | 百度副總裁王海峰:百度在NLP領(lǐng)域都做了什么?

接下來(lái)我要談一談我們的意圖圖譜技術(shù)。與我之前講過(guò)的實(shí)體圖譜不同,意圖圖譜的節(jié)點(diǎn)代表一個(gè)個(gè)意圖節(jié)點(diǎn)。這些“意圖”之間的關(guān)系包括需求澄清(disambiguation)、需求細(xì)化(depth extension)、需求橫向延展(breadth extension )等。在下圖所示例子中,當(dāng)“阿拉斯加”的意思是“阿拉斯加州”時(shí),與之關(guān)聯(lián)的意圖是城市、旅游等信息。當(dāng)“阿拉斯加”的含義是“阿拉斯加犬”時(shí),它延伸的意圖是寵物狗、寵物狗護(hù)理,以及如何喂食等。

深度 | 百度副總裁王海峰:百度在NLP領(lǐng)域都做了什么?

這樣的意圖圖譜可用于人機(jī)對(duì)話系統(tǒng)當(dāng)中,下面讓我們來(lái)看一個(gè)度秘基于意圖圖譜的用戶引導(dǎo)例子。

用戶想要查詢關(guān)于“金毛”的信息,基于意圖圖譜,度秘提供給用戶關(guān)于金毛的一般信息;接著進(jìn)入第二輪,用戶點(diǎn)擊了“我想要一只金毛”的選項(xiàng),度秘便可以猜測(cè)用戶接下來(lái)會(huì)想要知道“如何喂養(yǎng)一只金毛”、“什么樣的人適合養(yǎng)此類犬”等信息,并將這些引導(dǎo)項(xiàng)展現(xiàn)給用戶。然后用戶點(diǎn)擊了“喂養(yǎng)一只金毛容易嗎”的選項(xiàng)。對(duì)話進(jìn)行到此輪,用戶的需求基本被滿足了。

深度 | 百度副總裁王海峰:百度在NLP領(lǐng)域都做了什么?

以上,我介紹了百度在NLP領(lǐng)域的諸多工作,包括知識(shí)圖譜、語(yǔ)言理解、語(yǔ)言生成和幾個(gè)應(yīng)用系統(tǒng)(包括問(wèn)答、機(jī)器翻譯和對(duì)話),我們已經(jīng)將這些技術(shù)應(yīng)用在百度的產(chǎn)品當(dāng)中,另外我們也通過(guò)平臺(tái)化的方式對(duì)更多產(chǎn)品進(jìn)行支持,比如我們開(kāi)發(fā)的NLPC(NLP Cloud)平臺(tái),現(xiàn)在已經(jīng)可以提供20多種NLP模塊,每天被調(diào)用超過(guò)1000億次。

最后我想說(shuō)的是,我們今天在NLP領(lǐng)域里的探索和追求,將會(huì)對(duì)我們逐步實(shí)現(xiàn)人類的人工智能夢(mèng)想產(chǎn)生至關(guān)重要的影響。謝謝大家。

更多雷鋒網(wǎng)相關(guān)文章:

百度副總裁王海峰當(dāng)選ACL Fellow,中國(guó)大陸第一人

專訪|百度IDL負(fù)責(zé)人林元慶:告別蹣跚 AI大幕已啟


AI慕課學(xué)院近期推出了《NLP工程師入門實(shí)踐班:基于深度學(xué)習(xí)的自然語(yǔ)言處理》課程!

三大模塊,五大應(yīng)用,海外博士講師手把手教你入門NLP,更有豐富項(xiàng)目經(jīng)驗(yàn)相授;算法+實(shí)踐,搭配典型行業(yè)應(yīng)用;隨到隨學(xué),專業(yè)社群,講師在線答疑!

課程地址:http://www.mooc.ai/course/427

加入AI慕課學(xué)院人工智能學(xué)習(xí)交流QQ群:624413030,與AI同行一起交流成長(zhǎng)


雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

深度 | 百度副總裁王海峰:百度在NLP領(lǐng)域都做了什么?

分享:
相關(guān)文章

編輯

關(guān)注人工智能(AI)報(bào)道
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)