智能語音，能聽會(huì)說能糾錯(cuò)才是真智能

本文作者：朱恒偉

2015-05-24 11:11

導(dǎo)語：先看一分鐘視頻【來源：東方衛(wèi)視】：2014年，奧斯卡最佳原創(chuàng)劇本獎(jiǎng)?lì)C給了一部人工智能影片——《Her》，講述的是男主角與電腦語音助手之間的浪漫愛情。風(fēng)靡全球的科幻動(dòng)畫片《超能陸戰(zhàn)隊(duì)》，萌萌的“大白”機(jī)器人的溝通毫無障礙，既詼諧又溫情。而最近，兩部接連上映的好萊

先看一分鐘視頻【來源：東方衛(wèi)視】：

2014年，奧斯卡最佳原創(chuàng)劇本獎(jiǎng)?lì)C給了一部人工智能影片——《Her》，講述的是男主角與電腦語音助手之間的浪漫愛情。風(fēng)靡全球的科幻動(dòng)畫片《超能陸戰(zhàn)隊(duì)》，萌萌的“大白”機(jī)器人的溝通毫無障礙，既詼諧又溫情。而最近，兩部接連上映的好萊塢科幻大片《超能查派》與《復(fù)仇者聯(lián)盟2》，核心角色都是高科技的人工智能生命體……

隨著科技發(fā)展，曾是科幻小說與影視作品中常見元素的人工智能，也逐漸走入我們的真實(shí)生活。而當(dāng)我們談?wù)摗叭斯ぶ悄堋钡臅r(shí)候，必定離不開談及語音交互。人類的交互是自由而任性的，傳統(tǒng)的，而人類語言如此多元，情感又恨豐富，木訥的“一根筋”式的語音交互識(shí)別，根本已經(jīng)完全不能滿足自由的人機(jī)溝通的需求。

近日，在上海交大舉辦的中德雙邊研討會(huì)上，思必馳-上海交大智能語音實(shí)驗(yàn)室發(fā)布了認(rèn)知型人機(jī)對(duì)話系統(tǒng)技術(shù)，打破人與設(shè)備之間的溝通屏障。該技術(shù)已進(jìn)入應(yīng)用開發(fā)階段，有望于年底植入車載、家庭影院等領(lǐng)域。

突破技術(shù)瓶頸 “自適應(yīng)語音識(shí)別”打造更好的智慧型人機(jī)交互

智能語音實(shí)驗(yàn)室的負(fù)責(zé)人俞凱介紹，傳統(tǒng)語音識(shí)別是解決特定環(huán)境下的語音到文字轉(zhuǎn)換，這是模擬耳朵的感知功能；而更關(guān)鍵的是解決完整的口語人機(jī)交互問題，這是模擬人腦的全套認(rèn)知功能。認(rèn)知型的智能語音技術(shù)是更高層面的人工智能，它融入了自適應(yīng)、理解糾錯(cuò)、智能反饋的認(rèn)知技術(shù)。這會(huì)使得機(jī)器可以適應(yīng)更多的環(huán)境和口音，具有進(jìn)化調(diào)整的能力，從“能聽會(huì)說”變成“會(huì)聽能做”：即聽得懂說的，懂得聽什么，聽不清楚了能問，搞錯(cuò)了能糾正，最終能成功完成用戶的任務(wù)。

智能語音，能聽會(huì)說能糾錯(cuò)才是真智能

思必馳-上海交大智能語音實(shí)驗(yàn)室研發(fā)的語音識(shí)別自適應(yīng)技術(shù)，采用了軟硬件結(jié)合的抗噪技術(shù)、結(jié)構(gòu)化深度學(xué)習(xí)技術(shù)、環(huán)境和說話人的自動(dòng)檢測(cè)及模型自適應(yīng)調(diào)整技術(shù)，可以隨著說話人口音和噪聲環(huán)境的變化，自動(dòng)選擇最合適的模型進(jìn)行識(shí)別，顯著提升準(zhǔn)確率。

人性化語音交互，告別單一語音識(shí)別時(shí)代

就像人類在聽不清的時(shí)候也可以進(jìn)行理解和對(duì)話一樣，新型的人性化智能語音交互技術(shù)就包括了“深度理解”，以及“自動(dòng)糾錯(cuò)”的技術(shù)。

“深度理解”深度理解是把機(jī)器的識(shí)別狀態(tài)（比如識(shí)別結(jié)果的可靠度、環(huán)境嘈雜程度等）、用戶的個(gè)人特點(diǎn)（比如性別、方言地區(qū)、說話快慢等），和說話的情境（比如談話的領(lǐng)域，常識(shí)，前面談話的歷史等）等因素從大數(shù)據(jù)中提取出來，根據(jù)這些“情境”對(duì)識(shí)別結(jié)果再進(jìn)行二次計(jì)算，使得語義理解的準(zhǔn)確度大大提高。

在有歧義和錯(cuò)誤的的情況下，機(jī)器仍然可以通過多人人機(jī)對(duì)話。讓機(jī)器識(shí)別和理解人的自然語言中的關(guān)鍵意圖和屬性，進(jìn)而進(jìn)行處理。前一段時(shí)間火爆的網(wǎng)絡(luò)視頻“糾正哥”，畫面中說著山東方言的男士對(duì)著安吉星說出一長(zhǎng)串電話號(hào)碼，不巧有一兩位識(shí)別錯(cuò)誤，于是頻繁打斷，不停糾正卻是對(duì)牛彈琴。俞凱說，“糾正哥”無法交互的核心難點(diǎn)是對(duì)話過程中的“打斷”和“糾正”。在汽車噪聲較大的時(shí)候，偶爾有一兩個(gè)數(shù)字的識(shí)別錯(cuò)誤是很正常的事情，這種錯(cuò)誤很難通過情境直接消除。但是通過邏輯關(guān)聯(lián)和智能對(duì)話，則可能幫助“糾正哥”把電話很快撥出去。

智能語音，能聽會(huì)說能糾錯(cuò)才是真智能

真正的人機(jī)智能交互是追求機(jī)器能夠“聽話”，成為真正的“語音機(jī)器人”,有進(jìn)化和適應(yīng)的能力，用的越多越聽話。語音輸入不再局限于呆板簡(jiǎn)單的句式限制，語音控制也不需要按照機(jī)器的設(shè)定去命令，在復(fù)雜環(huán)境和噪音影響下，在自由的說話方式（例如打斷）下，依然能夠保證優(yōu)異依然能夠保證良好而穩(wěn)定的語音識(shí)別和語義分析精度。

語音交互的未來應(yīng)當(dāng)是面向用戶，人性化的智能交互，而非過去模塊化的交互。拋棄過去單一的語音交互，把識(shí)別、語義理解和人機(jī)對(duì)話連在一起，幫助用戶完成任務(wù)，這將是一個(gè)嶄新的、劃時(shí)代的變革。

學(xué)術(shù)與業(yè)界的智匯交互

思必馳-上海交大智能語音實(shí)驗(yàn)室成立于2012年，由思必馳信息科技有限公司與上海交大聯(lián)合成立，實(shí)驗(yàn)室負(fù)責(zé)人是畢業(yè)于著名的劍橋大學(xué)的語音博士俞凱，他是上海市“東方學(xué)者”特聘教授，同時(shí)也是國(guó)內(nèi)學(xué)術(shù)界“青年”里唯一一位來自智能語音技術(shù)行業(yè)領(lǐng)域的語音專家。他所搭建的大詞匯連續(xù)語音識(shí)別系統(tǒng)曾經(jīng)多次獲得美國(guó)國(guó)家標(biāo)準(zhǔn)局（NIST）和美國(guó)國(guó)防部?jī)?nèi)部評(píng)測(cè)的冠軍，也是國(guó)際上最早從事端到端的統(tǒng)計(jì)對(duì)話系統(tǒng)研究的研究者之一。

在真實(shí)工程系統(tǒng)上，上海交大與思必馳信息技術(shù)有限公司合作，率先發(fā)布了人性化的智能語音交互技術(shù)平臺(tái)：對(duì)話工場(chǎng)。并在此平臺(tái)下，以產(chǎn)學(xué)研一體化的模式，正在快速完成人性化的智能語音交互技術(shù)從學(xué)術(shù)研究到商業(yè)運(yùn)作的轉(zhuǎn)變，進(jìn)入民用市場(chǎng)，打造以用戶為中心的“語音機(jī)器人”，引領(lǐng)人機(jī)口語真正的交互的“人工智能”潮流。據(jù)悉，該系統(tǒng)將于下半年正式運(yùn)用到智能車載、家居領(lǐng)域。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

1人收藏

相關(guān)文章