0
本文作者: 汪思穎 | 2017-07-21 09:09 |
雷鋒網(wǎng)按:2017 年 7 月 8 日,由中國計(jì)算機(jī)學(xué)會(huì)(CCF)主辦,雷鋒網(wǎng)與香港中文大學(xué)(深圳)承辦的全球人工智能與機(jī)器人峰會(huì)(CCF-GAIR)進(jìn)入第二天。在智能助手專場(chǎng),來自哈爾濱工業(yè)大學(xué)的劉挺教授為我們帶來了題為“人機(jī)對(duì)話技術(shù)的進(jìn)展”的主題演講。
劉挺,哈爾濱工業(yè)大學(xué)教授,社會(huì)計(jì)算與信息檢索研究中心主任。多次擔(dān)任國家863重點(diǎn)項(xiàng)目總體組專家、973項(xiàng)目專家組成員、基金委會(huì)評(píng)專家,入選科技部中青年科技創(chuàng)新領(lǐng)軍人才。主要研究方向?yàn)樽匀徽Z言處理和社會(huì)計(jì)算,是國家973課題、國家自然科學(xué)基金重點(diǎn)項(xiàng)目的負(fù)責(zé)人,曾獲國家科技進(jìn)步二等獎(jiǎng)、省科技進(jìn)步一等獎(jiǎng)、錢偉長中文信息處理科學(xué)技術(shù)一等獎(jiǎng)。
以下內(nèi)容由雷鋒網(wǎng)整理自劉挺教授的報(bào)告,有刪減:
感謝主辦方的邀請(qǐng),我是來自哈爾濱工業(yè)大學(xué)的劉挺,我的題目叫“人機(jī)對(duì)話技術(shù)的進(jìn)展”。
人機(jī)對(duì)話概述
下面是人機(jī)對(duì)話的基本框架,可以通過語音輸入和輸出,也可以通過文本直接交互。其中包括三個(gè)重要的模塊:語言理解、對(duì)話管理、語言生成。我后面的演講會(huì)提到這幾項(xiàng)技術(shù)。
作為一個(gè)學(xué)者,我可能不如大家對(duì)產(chǎn)業(yè)界理解得這么深入。從我的角度觀察,人機(jī)對(duì)話走過了三個(gè)階段:第一,語音助手時(shí)代;第二,2014年進(jìn)入聊天機(jī)器人時(shí)代;第三就是2016年進(jìn)入場(chǎng)景化的任務(wù)執(zhí)行。
語音助手時(shí)代
2011年,喬布斯臨終前在iPhone4S中推出Siri,當(dāng)時(shí)的技術(shù)還是很不成熟。2012年,中國的各個(gè)廠商紛紛效仿做語音助手。2014年,個(gè)別企業(yè)紛紛把語音助手團(tuán)隊(duì)解散。主要原因:第一,技術(shù)尚不成熟,聽得見,但聽不懂。以至于很多本來嚴(yán)肅的服務(wù)變成對(duì)語音助手的調(diào)戲;第二,語音也并不總是最自然的溝通方式,它需要私密的環(huán)境,有時(shí)候還需要圖像交互界面進(jìn)行配合。
聊天機(jī)器人時(shí)代
2014年微軟推出小冰,干脆就來聊天和娛樂,放棄語音使用,直接用文字進(jìn)行溝通。這時(shí)候深度學(xué)習(xí)被充分運(yùn)用,技術(shù)水平有提高,難點(diǎn)在于對(duì)語境的建模和機(jī)器人自身建模方面。比如你問機(jī)器人:“你今年多大了?”,“我5歲了”。但說“你結(jié)婚了嗎?”,“我結(jié)婚10年了”,他自己會(huì)發(fā)生矛盾。 應(yīng)用上,用戶留存率并不是很高,雖然用戶量大,但持續(xù)跟機(jī)器人聊下去的并不多。
現(xiàn)在有人反思做聊天沒意義,我認(rèn)為還是有用的。主要有三方面的作用。第一,建立人和機(jī)器之間的信任。第二,聊天過程中,聊天機(jī)器人和搜索引擎相比有一個(gè)大的優(yōu)勢(shì),搜索引擎只能被動(dòng)觀察用戶的輸入,但機(jī)器可以主動(dòng)向人發(fā)問。比如機(jī)器人問人喜歡看電影嗎,回復(fù)喜歡。機(jī)器人再問喜歡哪一類的,回復(fù)喜歡看動(dòng)作片,機(jī)器人立刻推薦一個(gè)成龍的動(dòng)作片過去。第三,情緒撫慰功能,機(jī)器人的優(yōu)點(diǎn)是隨叫隨到、嘴嚴(yán)、可定制。
場(chǎng)景化的任務(wù)執(zhí)行時(shí)代
現(xiàn)在處于實(shí)用化的努力階段,通用的做不到,既可以回退為娛樂化也可以回退在特定場(chǎng)景下使用。這一階段的特點(diǎn)是:將人機(jī)對(duì)話局限在特定場(chǎng)景,進(jìn)一步降低用戶期望值;利用場(chǎng)景約束,提高語義消歧能力。當(dāng)你坐在電視機(jī)前想點(diǎn)電視節(jié)目,能發(fā)出指令,并且發(fā)出指令的方式是有限的。存在的問題有兩個(gè):一是場(chǎng)景切換,需要重新部署。二是工程化色彩嚴(yán)重,不能夠一攬子解決問題,研發(fā)成本增高。
當(dāng)今人機(jī)對(duì)話系統(tǒng)功能:
當(dāng)今人機(jī)對(duì)話系統(tǒng)主要有四大功能。一是聊天。聊天的目的是要讓人和機(jī)器盡可能的多聊下去,去消耗時(shí)間。另外知識(shí)問答、任務(wù)執(zhí)行、推薦這三個(gè)是比較嚴(yán)肅的功能,都是以快速的結(jié)束聊天為目標(biāo)。
人機(jī)對(duì)話系統(tǒng)又分下面這三方面:自然語言理解、對(duì)話管理、自然語言生成。這里面聊天、知識(shí)、任務(wù)、推薦,都有各自相應(yīng)的研究點(diǎn)。具體內(nèi)容請(qǐng)看PPT。
人機(jī)對(duì)話技術(shù)進(jìn)展
現(xiàn)在人機(jī)對(duì)話技術(shù)到底到了一個(gè)什么程度,主要從前面說的四方面選出兩個(gè)最重要的:聊天、任務(wù)執(zhí)行。任務(wù)執(zhí)行不同企業(yè)的叫法不一樣,我們叫任務(wù)。聊天是沒有明確目標(biāo)的,任務(wù)是定機(jī)票、定餐館等。聊天搜索空間比較大。
聊天機(jī)器人最早出現(xiàn)是在上世紀(jì)60年代,有人研究出一個(gè)能夠和精神病患者聊天的機(jī)器人,效果挺驚人,此后不斷的發(fā)展。騰訊的小Q機(jī)器人、還有微軟小冰、Tay,這都是聊天機(jī)器人的系列產(chǎn)品。提到聊天,首先會(huì)想到根據(jù)以前的聊天記錄,通過搜索,就可以回答一些問題。
單輪對(duì)話生成的進(jìn)展比較技術(shù)化。發(fā)展趨勢(shì)是不僅僅通過算法解決問題,而且要確定一個(gè)主題,借用外部資源,把話說得更豐滿。
多輪對(duì)話中,聊天和搜索有很大的區(qū)別。搜索也開始啟動(dòng)多輪搜索,但是真正的多輪是在聊天當(dāng)中體現(xiàn)的,要有多個(gè)回合,這里面會(huì)產(chǎn)生指代、省略等等。如何在多輪對(duì)話里讓人感覺這是一個(gè)完整的對(duì)話很值得研究。這里面出現(xiàn)很多技術(shù),包括深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的融合。
智能助手有一系列產(chǎn)品,從蘋果、微軟,到Facebook、亞馬遜?,F(xiàn)在很多大企業(yè)不但自己做智能助手,而且提供對(duì)話平臺(tái)。對(duì)話可以稱為對(duì)話操作系統(tǒng)或者對(duì)話人工智能。微軟在研發(fā),很多企業(yè)在收購,百度既研發(fā)又收購,推出面向中小企業(yè)的平臺(tái)。
任務(wù)型對(duì)話系統(tǒng)的語言理解部分,通常使用語義槽來表示用戶的需求,如出發(fā)地、到達(dá)地、出發(fā)時(shí)間等信息。因此可以使用序列標(biāo)注模型來抽取語義槽。CRF (條件隨機(jī)場(chǎng))是過去經(jīng)常使用的序列標(biāo)注模型,但是受限于馬爾科夫假設(shè),它無法很好的處理長距離依賴問題。隨著深度學(xué)習(xí)方法的流行,人們使用循環(huán)神經(jīng)網(wǎng)絡(luò),如雙向 LSTM 來解決長距離依賴問題,同時(shí)還避免了繁瑣的特征工程工作。最近,人們將這兩種方法進(jìn)行融合,即雙向 LSTM-CRF 模型,進(jìn)一步提高了槽填充的準(zhǔn)確率。
對(duì)話管理指的是根據(jù)上一步語言理解步驟識(shí)別的語義信息,決策系統(tǒng)下一步所需采取的策略,如追問、澄清還是給出結(jié)果等。最簡單也是最常用的方法是采用基于規(guī)則的方法,即根據(jù)不同的情況人工制定對(duì)話樹,這種方法需要耗費(fèi)大量的人力,而且可移植性也比較差。有指導(dǎo)學(xué)習(xí)的方法只需人工針對(duì)一些具體的樣例,標(biāo)注對(duì)應(yīng)的回復(fù)策略數(shù)據(jù),然后就可以交給機(jī)器學(xué)習(xí)了。但是這種方法需要針對(duì)每條對(duì)話進(jìn)行標(biāo)注,標(biāo)注難度很高。近年來,采用強(qiáng)化學(xué)習(xí)的方法成為研究的主流,該方法無需逐條標(biāo)注,只需要將整個(gè)對(duì)話的最終結(jié)果作為獎(jiǎng)勵(lì),系統(tǒng)就可以學(xué)習(xí)到最優(yōu)的策略序列。
最后對(duì)話生成模塊根據(jù)采用的不同對(duì)話策略,給出不同的系統(tǒng)回復(fù)。最簡單就是采用基于模板的方法,但是該方法很難在不同的領(lǐng)域之間遷移。后來人們采用基于語言模型的方法,直接從語料庫中學(xué)習(xí)回復(fù)的語言。近年來,深度學(xué)習(xí)中序列到序列的方法為對(duì)話生成提供了一種新的思路,不同于機(jī)器翻譯等任務(wù)所采用的序列到序列模型,這里原序列是上一步輸出的對(duì)話策略,目標(biāo)序列則是系統(tǒng)的自然語言回復(fù)。該方法具有學(xué)習(xí)簡單,生成的語言自然、多樣等優(yōu)點(diǎn)。
關(guān)于“笨笨”機(jī)器人的介紹
下面介紹一下我們實(shí)驗(yàn)室研制的一個(gè)系統(tǒng),叫“笨笨”。我們不敢叫“靈、百靈”,只能承認(rèn)自己笨,進(jìn)一步降低用戶的期望值。當(dāng)用戶拿著一個(gè)手機(jī)以為什么都可以問的時(shí)候,他一定會(huì)失望。我們這個(gè)研究中心是哈工大社會(huì)計(jì)算與信息檢索研究中心,這是我們的公眾號(hào),有上萬人關(guān)注。功能包括聊天、知識(shí)問答、任務(wù)執(zhí)行、推薦。
生成式對(duì)話模型往往存在一個(gè)問題——語義相關(guān)性差。比如說問機(jī)器你今年多大了,回復(fù)說不知道。這里面產(chǎn)生問題的原因,從技術(shù)上講是生成話的第一個(gè)詞會(huì)產(chǎn)生概率很高的通用詞。比如“我”、“你”。
我們采用了專門的Learning to Start模型去生成,大家可以對(duì)比一下。
單輪對(duì)話也采用主題規(guī)劃的方式,進(jìn)行兩階段的生成。先規(guī)劃,然后響應(yīng)內(nèi)容。
多輪對(duì)話是基于DQN進(jìn)行。這個(gè)優(yōu)化和任務(wù)執(zhí)行的優(yōu)化正好反過來。聊天的優(yōu)化是要盡可能讓這個(gè)聊天能繼續(xù)下去,讓話題輪數(shù)更多。
下面是“笨笨”聊天的一些對(duì)話(見PPT),比較好玩,大家可以下去自己玩。
下面是知識(shí)問答。在各個(gè)具體的問題上,都在使用深度學(xué)習(xí)技術(shù),知識(shí)問答方面也不例外。
這是任務(wù)執(zhí)行的系統(tǒng)框架(見PPT)。在任務(wù)執(zhí)行方面,哈工大最近也開發(fā)了一個(gè)系統(tǒng),這個(gè)系統(tǒng)是一個(gè)平臺(tái),各位可以在里面添加你的特定領(lǐng)域要解決的一些問題實(shí)例,添加若干實(shí)例之后,系統(tǒng)會(huì)幫你訓(xùn)練出一個(gè)特別實(shí)用的場(chǎng)景任務(wù)執(zhí)行系統(tǒng)。這個(gè)推薦也被嵌入到人機(jī)對(duì)話中,有些創(chuàng)業(yè)公司專門做人機(jī)對(duì)話領(lǐng)域的推薦。
在“笨笨”跟你聊天的過程中,可能跟你推薦產(chǎn)品,這就是營銷機(jī)器人。營銷機(jī)器人會(huì)先和你聊天,建立信任之后推薦產(chǎn)品。還有服務(wù)于售后的客服機(jī)器人。
人機(jī)對(duì)話評(píng)測(cè)介紹
最后講一下人機(jī)對(duì)話評(píng)測(cè),任何一項(xiàng)技術(shù)要想進(jìn)步,特別依賴于它的目標(biāo),就是怎么評(píng)測(cè)這項(xiàng)技術(shù),這項(xiàng)技術(shù)到底是前進(jìn)還是后退了。在人機(jī)對(duì)話方面的評(píng)測(cè)比問答系統(tǒng)難。問答系統(tǒng)是單輪的,我問毛澤東出生于哪一年。你答出的是準(zhǔn)確答案,就算成功了。但是人機(jī)對(duì)話里,一輪過后,就會(huì)分岔,一旦分岔了就沒有辦法做標(biāo)準(zhǔn)答案進(jìn)行評(píng)測(cè)?,F(xiàn)在國內(nèi)在這方面的處理也是評(píng)測(cè)驅(qū)動(dòng)。哈工大也在主持若干評(píng)測(cè)。以前我們也參加過美國的一些評(píng)測(cè),現(xiàn)在有一些在參加日本NTCIR的評(píng)測(cè)。我們的理念是中國人的評(píng)測(cè)要由中國人引導(dǎo)。
我們主持了首屆中文人機(jī)對(duì)話評(píng)測(cè),由張偉男擔(dān)任主席。我們分兩個(gè)任務(wù),一是用戶意圖分類,區(qū)分到底是聊天還是任務(wù),如果是任務(wù),到底想完成一個(gè)什么樣的任務(wù)。二是特定域任務(wù)型的人機(jī)對(duì)話評(píng)測(cè)。比如定機(jī)票,問兩句話,會(huì)出現(xiàn)分岔,很難展開評(píng)測(cè)。解決辦法是人工評(píng)測(cè),先給一個(gè)問題的描述,讓人根據(jù)這個(gè)描述和不同的機(jī)器人進(jìn)行對(duì)話,看看哪個(gè)機(jī)器人可以在最短的輪數(shù)內(nèi)把這個(gè)問題解決掉。
國際上,2017年也在開始組織評(píng)測(cè),在自然語言處理最前沿方面,國內(nèi)學(xué)者和國際學(xué)者是齊頭并進(jìn)的。在斯坦福主持的英文閱讀理解評(píng)測(cè)中,很多巨頭都有參加。排第一位的是微軟亞洲研究院,第二位是哈佛大學(xué)一個(gè)研究實(shí)驗(yàn)室。即使在英文上,國內(nèi)也并不落后。
未來的挑戰(zhàn)
最后概括,最主要的技術(shù)挑戰(zhàn)在兩方面。
一是聊天機(jī)器人未來有待解決的問題。我估計(jì)在座的各位沒有誰愿意和一個(gè)機(jī)器人持續(xù)聊超過一周。另外還有情感,對(duì)機(jī)器人說考試不及格,怎么分析是不是傷心的情緒,還有用戶畫像,回復(fù)質(zhì)量,多樣性,個(gè)性化等的研究。機(jī)器人怎么主導(dǎo)話題,如何是讓機(jī)器人具有各種各樣的性格,為每一個(gè)用戶定制多個(gè)不同性格的機(jī)器人,包括在游戲世界里,讓機(jī)器人扮演一些角色,能和人對(duì)話。還有基于主題的上下文生成、基于用戶的情緒反饋。用戶一旦罵你或者不跟你聊了,說明你回答問題的不好。
二是任務(wù)執(zhí)行中有待研究的問題。比如任務(wù)之間的切換,目前即使通過工程手段把一兩個(gè)場(chǎng)景做對(duì)了,擴(kuò)展到其他地方還是很難。
什么時(shí)候人機(jī)對(duì)話才能取得真正的突破,主要取決于以下幾點(diǎn):自然語音處理技術(shù)的突破、機(jī)器對(duì)情境理解的進(jìn)展、機(jī)器推理能力的提升、文本生成技術(shù)的進(jìn)步等。
人機(jī)對(duì)話是自然語言處理發(fā)展的一個(gè)高峰,它的發(fā)展和自然語言處理的發(fā)展是密不可分的。我認(rèn)為自然語言處理有四個(gè)階段。從形式匹配到語義匹配,現(xiàn)在到文本推理,再下一步會(huì)到言外之意。一個(gè)小女孩對(duì)男朋友說“討厭”,這句話怎么理解,需要一些文化的背景?,F(xiàn)在已經(jīng)有人在研究隱喻這方面的工作。
最后介紹一下我們實(shí)驗(yàn)室在布局的工作,研究方向如PPT所示。
我們實(shí)驗(yàn)室有70多人的科研團(tuán)隊(duì),在LTP、句法分析方面我們始終保持國內(nèi)甚至國際領(lǐng)先地位,前一段時(shí)間谷歌推動(dòng)的45種語言通用句法分析評(píng)測(cè),哈工大取得第四名的成績。很多企業(yè)在和哈工大合作,我們也希望能夠有機(jī)會(huì)和在座的其他企業(yè)建立更多的合作關(guān)系。
我今天的演講就到這里,謝謝大家!
雷鋒網(wǎng)整理。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。