1
本文作者: 三川 | 2017-01-19 20:46 |
編者按:鄧力博士原為加拿大滑鐵盧大學(xué)教授,1999 年加入微軟,2016 年起擔任微軟首席人工智能科學(xué)家,負責微軟深度學(xué)習(xí)技術(shù)中心應(yīng)用趨向的深度學(xué)習(xí)研究。
在上周的 AI Frontiers 會議上,鄧力博士為參會嘉賓做了口語對話系統(tǒng)的專題演講。雷鋒網(wǎng)與會記者將現(xiàn)場演講記錄下來,結(jié)合 PPT 為大家整理出這份演講實錄。此次鄧老師介紹了口語對話系統(tǒng)的分類,三代演變史,以及三大研究前沿領(lǐng)域,可謂干貨滿滿。NLP 領(lǐng)域的童鞋們不可錯過。
鄧力:
今天,我想講一講口語對話系統(tǒng)(Spoken Dialogue System)。 “Spoken Dialogue System” 成為一個術(shù)語已經(jīng)有 30 年了,現(xiàn)在我們也稱其為對話式交互界面(conversational UI),或者稱為“bots”。所以它有好幾個術(shù)語,但基本指的是同一件事。開發(fā)這類系統(tǒng),需要能夠與人對話,要么通過語音,要么通過文字。這次我專門講語音,以及這兩類 bots 之間的根本性區(qū)別。
語音識別技術(shù)在最近五年中飛速進步,這兩類對話系統(tǒng)之間的差距在縮小,這是一個很重要的信號。但在另一方面,許多情況下我們?nèi)匀挥性S多語音識別錯誤。在某種程度上,我們可以把對話系統(tǒng)看作:
對話系統(tǒng)=語音識別+基于文字(text-based,或翻譯為“語義理解”)的系統(tǒng)
語音識別向基于文字的對話系統(tǒng),提供了一些低延遲的文字輸入。因此你可以把它們放在一起(認為它們對等),這是較傳統(tǒng)的觀點。
如今,你可以超出傳統(tǒng)觀點,來思考怎么做出整合的系統(tǒng)設(shè)計。相比把這兩類系統(tǒng)一起放進管道(pipeline),你可以事實上做得更好。這就是整合學(xué)習(xí)(integrated learning)的概念。我會聚焦在這個方向。
語音提供了語言之外的信息(Para-linguistic cues),比如語氣、情緒。這在基于文字的對話系統(tǒng)里是沒有的——后者沒有提供這些信息,或者說線索。從這個方面來說,兩個系統(tǒng)不是對等的。取決不同的用戶,語音輸入可能會比文字輸入更簡單——但也可能更復(fù)雜。對我個人而言,由于對語音比較了解,我傾向于使用語音來表述復(fù)雜事實,它的錯誤率未必會那么高。語音使得我能更快地提供更多信息。但對于大多數(shù)人而言,當使用基于文字的對話,他們傾向于使用復(fù)雜句式。原因要么是這樣做更快,要么更可能的是,他們會擔心對方的語音識別能力,然后不想重復(fù)、或者說太多,尤其在噪聲大的環(huán)境下。取決于用戶的個人特質(zhì),這兩種情況都可能發(fā)生。我認為,隨著時間流逝,語音識別系統(tǒng)越來越成熟,語音和文字對話在這方面的差距會越來越小。
另一個很重要的方面是窄領(lǐng)域 vs 寬領(lǐng)域(narrow domain vs wide domain)。基于語音的對話傾向于聚焦在窄領(lǐng)域。但現(xiàn)在正變得不一樣,因為語音識別技術(shù)的進步。
幾個月前,Venturebeat 發(fā)表了一篇很不錯的文章“Introducing the Bots Landscape”,對口語對話系統(tǒng)作了概括(再次提醒,有些人稱其為 Bots,有時稱之為對話式交互界面),以及它們的業(yè)界現(xiàn)狀。
Bots 領(lǐng)域的景觀一覽
上欄:有吸引力的 Bots;左欄(由上至下):連接器/分享服務(wù),發(fā)現(xiàn) Bot ,分析;右欄(由上至下):AI 工具:NLP、ML、語音識別;Bot 開發(fā)者框架和工具,短訊
對話系統(tǒng)可被看作是一個連接器,來把你的技術(shù)與第三方相連。然后你有一系列開發(fā)框架和工具來實現(xiàn)這點。微軟在這方面有大動作:11 個月前,微軟 Build 開發(fā)者大會上有一個重大的宣布,即 Microsoft Bot Framework(微軟 Bot 框架),它讓大家、第三方都能使用。
由于時間限制,今天我只會聚焦于 AI 工具,在自然語言處理(NLP)、語音識別這方面。從這個角度,我會回顧自 1990 年代初以來,相關(guān)技術(shù)經(jīng)歷的三代發(fā)展。
幾個月前,我寫了這篇文章“How deep reinforcement learning can help chatbots”,討論 bots的價值。今天的話題以該文章為基礎(chǔ)。文章中,我首先談到了app 和網(wǎng)絡(luò)模型(web models)遇到的問題;其次,對話作為一個新生的、正不斷壯大的移動交互界面(mobile UI),以及在這之中,bots 扮演的人機之間智能代理的角色。我會對技術(shù)細節(jié)作更深入的討論。
我把 bots 歸納為三個類別:
社交機器人(social chatbot)。這方面,微軟在中國開發(fā)的“小冰”相當成功,是個很好的例子。在美國,幾個月前我們發(fā)布了聊天機器人 Tay(雷鋒網(wǎng)注,這就是學(xué)會了罵人、在推特上發(fā)布不到一天就被緊急撤下的那個,入選年度十大 AI 事件)。
信息機器人 (infobot)。它們其實是搜索引擎部分功能的替代——它們允許用戶不再需要點擊網(wǎng)頁鏈接,而能夠直接獲得想要搜索的答案。這減少了一部分麻煩。如果問題比較復(fù)雜,你也許只需要兩三輪解釋來是回答更明確。
任務(wù)完成機器人(task completion bot),它們能為你做事情。相比只能交談、對話的社交機器人,它們能處理實際問題,所以一般需要第三方的幫助。
現(xiàn)在,我開始講過去一些年技術(shù)的進步。近幾年,我們經(jīng)歷了不少次公眾對于 AI 技術(shù)的興奮高潮(hype)。但現(xiàn)實是,相關(guān)技術(shù)的基礎(chǔ)在 1980 年代末、1990 年代初就已經(jīng)開發(fā)出來了。我會對這些技術(shù)如何從第一代發(fā)展到最新一代作個概括。
首先,第一代技術(shù)從 1980 年代末開啟,在流行度上面,幾年前這一波技術(shù)就可以說是結(jié)束了,雖然你能夠發(fā)現(xiàn)一些商用系統(tǒng)和 bot 初創(chuàng)企業(yè)還在使用它們。這代技術(shù)依賴于專家人工制定的語法規(guī)則和本體設(shè)計(ontological design)。這些規(guī)則很容易解釋、理解,比較透明,這就是這代技術(shù)為什么能催生出一系列的成功商業(yè)應(yīng)用的原因。修補漏洞很容易,系統(tǒng)更新也很容易。
它的局限性:
依賴于專家。如果沒有懂得編寫這類應(yīng)用的專家,開發(fā)會極其困難。
跨領(lǐng)域的擴展性不足
數(shù)據(jù)用來設(shè)計規(guī)則,而不是學(xué)習(xí)
早期有相當多的高校、政府機關(guān)、商業(yè)公司研發(fā)這類系統(tǒng)。它們可分為語音識別和語言理解系統(tǒng)。它們?nèi)加煞栆?guī)則組成,需要付出極大的努力來開發(fā)。
由于這些局限,第一代技術(shù)只能應(yīng)用于極狹窄的領(lǐng)域,而這也許是一件好事。有一個非常好的、關(guān)于這類技術(shù)的論文,它的研究對象是伯克利的餐廳。雷鋒網(wǎng)獲知,普通餐廳反而是不行的,因為需要寫的規(guī)則太多。
第二代技術(shù)是數(shù)據(jù)驅(qū)動型的。
從業(yè)者不愿意把這代技術(shù)稱之為淺層學(xué)習(xí)(shallow learning),但事實如此,它們是傳統(tǒng)的淺層學(xué)習(xí)方法。對了,用于對話規(guī)則(dialogue policy)的強化學(xué)習(xí)就是這時候研究出來的(1990 年代)。今天我們看到的強化學(xué)習(xí)高潮,在那時就打下了基礎(chǔ)。如今深度學(xué)習(xí)的進步進一步起到了幫助。
這種基于淺層學(xué)習(xí)的數(shù)據(jù)驅(qū)動方式,不容易理解和修補漏洞,但確實有學(xué)習(xí)能力。
這篇論文(“POMDP-based statistical spoken dialogue systems:a review”)對第二代技術(shù)做了整體歸納,它發(fā)表的時間是 4 年前(2013),恰恰在深度學(xué)習(xí)登場之前。這篇論文是劍橋大學(xué)的成果,他們做了很多努力來把該系統(tǒng)商業(yè)化。
第三代技術(shù)用深度學(xué)習(xí)取代了淺層學(xué)習(xí)的部分。和第二代技術(shù)一樣,數(shù)據(jù)被用來學(xué)習(xí)對話系統(tǒng)中的所有東西。第三代的神經(jīng)模型和表示遠遠比前兩代要強大,端到端的學(xué)習(xí)也變得可行。從兩年前開始,它吸引了全世界范圍內(nèi)巨大的研究興趣。但它也有許多局限性:
解釋、修補漏洞、更新系統(tǒng)仍然不容易。
在神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)和符號自然語言之間缺乏交互界面
跨領(lǐng)域的擴展,但相當多的研究在想辦法利用深度遷移學(xué)習(xí)和強化學(xué)習(xí)來實現(xiàn)
尚無明確的商業(yè)成功案例。
這三代技術(shù)有各自的強項,如何把這些優(yōu)點整合起來,是一項主要的挑戰(zhàn)。很多研究聚焦于此。
如何用強化學(xué)習(xí)來明確地表達這類系統(tǒng)?
如果你仔細考慮“什么是 state (狀態(tài))?什么是action(行動)?什么是reward(獎勵)?”你就可以把上文提到這三種類型的 Bots (社交機器人、信息機器人、任務(wù)完成機器人)用強化學(xué)習(xí)表示出來。
這里我列出了三項前沿研究領(lǐng)域:
基于語音 vs 基于文字
針對對話的深度強化學(xué)習(xí)
符號-神經(jīng)之間的整合
語音識別已經(jīng)取得巨大進展。這里我的觀點是,語音問題不僅僅是一個信號識別問題,而是信息處理問題。
相關(guān)文章:
阿里云AI專家陳一寧:別被語音識別率的數(shù)字所“騙”、語音交互產(chǎn)品大多很雞肋
語音交互的痛點,為什么扎克伯格精心打造的AI“賈維斯”還會出糗?
NLP工程師技術(shù)解讀:智能語音助理類產(chǎn)品的未來在哪里?
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。