3
本文作者: 朱恒偉 | 2015-05-24 11:11 |
先看一分鐘視頻【來源:東方衛(wèi)視】:
2014年,奧斯卡最佳原創(chuàng)劇本獎(jiǎng)?lì)C給了一部人工智能影片——《Her》,講述的是男主角與電腦語音助手之間的浪漫愛情。風(fēng)靡全球的科幻動(dòng)畫片《超能陸戰(zhàn)隊(duì)》,萌萌的“大白”機(jī)器人的溝通毫無障礙,既詼諧又溫情。而最近,兩部接連上映的好萊塢科幻大片《超能查派》與《復(fù)仇者聯(lián)盟2》,核心角色都是高科技的人工智能生命體……
隨著科技發(fā)展,曾是科幻小說與影視作品中常見元素的人工智能,也逐漸走入我們的真實(shí)生活。而當(dāng)我們談?wù)摗叭斯ぶ悄堋钡臅r(shí)候,必定離不開談及語音交互。人類的交互是自由而任性的,傳統(tǒng)的,而人類語言如此多元,情感又恨豐富,木訥的“一根筋”式的語音交互識(shí)別,根本已經(jīng)完全不能滿足自由的人機(jī)溝通的需求。
近日,在上海交大舉辦的中德雙邊研討會(huì)上,思必馳-上海交大智能語音實(shí)驗(yàn)室發(fā)布了認(rèn)知型人機(jī)對(duì)話系統(tǒng)技術(shù),打破人與設(shè)備之間的溝通屏障。該技術(shù)已進(jìn)入應(yīng)用開發(fā)階段,有望于年底植入車載、家庭影院等領(lǐng)域。
智能語音實(shí)驗(yàn)室的負(fù)責(zé)人俞凱介紹,傳統(tǒng)語音識(shí)別是解決特定環(huán)境下的語音到文字轉(zhuǎn)換,這是模擬耳朵的感知功能;而更關(guān)鍵的是解決完整的口語人機(jī)交互問題,這是模擬人腦的全套認(rèn)知功能。認(rèn)知型的智能語音技術(shù)是更高層面的人工智能,它融入了自適應(yīng)、理解糾錯(cuò)、智能反饋的認(rèn)知技術(shù)。這會(huì)使得機(jī)器可以適應(yīng)更多的環(huán)境和口音,具有進(jìn)化調(diào)整的能力,從“能聽會(huì)說”變成“會(huì)聽能做”:即聽得懂說的,懂得聽什么,聽不清楚了能問,搞錯(cuò)了能糾正,最終能成功完成用戶的任務(wù)。
思必馳-上海交大智能語音實(shí)驗(yàn)室研發(fā)的語音識(shí)別自適應(yīng)技術(shù),采用了軟硬件結(jié)合的抗噪技術(shù)、結(jié)構(gòu)化深度學(xué)習(xí)技術(shù)、環(huán)境和說話人的自動(dòng)檢測(cè)及模型自適應(yīng)調(diào)整技術(shù),可以隨著說話人口音和噪聲環(huán)境的變化,自動(dòng)選擇最合適的模型進(jìn)行識(shí)別,顯著提升準(zhǔn)確率。
就像人類在聽不清的時(shí)候也可以進(jìn)行理解和對(duì)話一樣,新型的人性化智能語音交互技術(shù)就包括了“深度理解”,以及“自動(dòng)糾錯(cuò)”的技術(shù)。
“深度理解”深度理解是把機(jī)器的識(shí)別狀態(tài)(比如識(shí)別結(jié)果的可靠度、環(huán)境嘈雜程度等)、用戶的個(gè)人特點(diǎn)(比如性別、方言地區(qū)、說話快慢等),和說話的情境(比如談話的領(lǐng)域,常識(shí),前面談話的歷史等)等因素從大數(shù)據(jù)中提取出來,根據(jù)這些“情境”對(duì)識(shí)別結(jié)果再進(jìn)行二次計(jì)算,使得語義理解的準(zhǔn)確度大大提高。
在有歧義和錯(cuò)誤的的情況下,機(jī)器仍然可以通過多人人機(jī)對(duì)話。讓機(jī)器識(shí)別和理解人的自然語言中的關(guān)鍵意圖和屬性,進(jìn)而進(jìn)行處理。前一段時(shí)間火爆的網(wǎng)絡(luò)視頻“糾正哥”,畫面中說著山東方言的男士對(duì)著安吉星說出一長(zhǎng)串電話號(hào)碼,不巧有一兩位識(shí)別錯(cuò)誤,于是頻繁打斷,不停糾正卻是對(duì)牛彈琴。俞凱說,“糾正哥”無法交互的核心難點(diǎn)是對(duì)話過程中的“打斷”和“糾正”。在汽車噪聲較大的時(shí)候,偶爾有一兩個(gè)數(shù)字的識(shí)別錯(cuò)誤是很正常的事情,這種錯(cuò)誤很難通過情境直接消除。但是通過邏輯關(guān)聯(lián)和智能對(duì)話,則可能幫助“糾正哥”把電話很快撥出去。
真正的人機(jī)智能交互是追求機(jī)器能夠“聽話”,成為真正的“語音機(jī)器人”,有進(jìn)化和適應(yīng)的能力,用的越多越聽話。語音輸入不再局限于呆板簡(jiǎn)單的句式限制,語音控制也不需要按照機(jī)器的設(shè)定去命令,在復(fù)雜環(huán)境和噪音影響下,在自由的說話方式(例如打斷)下,依然能夠保證優(yōu)異依然能夠保證良好而穩(wěn)定的語音識(shí)別和語義分析精度。
語音交互的未來應(yīng)當(dāng)是面向用戶,人性化的智能交互,而非過去模塊化的交互。拋棄過去單一的語音交互,把識(shí)別、語義理解和人機(jī)對(duì)話連在一起,幫助用戶完成任務(wù),這將是一個(gè)嶄新的、劃時(shí)代的變革。
思必馳-上海交大智能語音實(shí)驗(yàn)室成立于2012年,由思必馳信息科技有限公司與上海交大聯(lián)合成立,實(shí)驗(yàn)室負(fù)責(zé)人是畢業(yè)于著名的劍橋大學(xué)的語音博士俞凱,他是上海市“東方學(xué)者”特聘教授,同時(shí)也是國(guó)內(nèi)學(xué)術(shù)界“青年”里唯一一位來自智能語音技術(shù)行業(yè)領(lǐng)域的語音專家。他所搭建的大詞匯連續(xù)語音識(shí)別系統(tǒng)曾經(jīng)多次獲得美國(guó)國(guó)家標(biāo)準(zhǔn)局(NIST)和美國(guó)國(guó)防部?jī)?nèi)部評(píng)測(cè)的冠軍,也是國(guó)際上最早從事端到端的統(tǒng)計(jì)對(duì)話系統(tǒng)研究的研究者之一。
在真實(shí)工程系統(tǒng)上,上海交大與思必馳信息技術(shù)有限公司合作,率先發(fā)布了人性化的智能語音交互技術(shù)平臺(tái):對(duì)話工場(chǎng)。并在此平臺(tái)下,以產(chǎn)學(xué)研一體化的模式,正在快速完成人性化的智能語音交互技術(shù)從學(xué)術(shù)研究到商業(yè)運(yùn)作的轉(zhuǎn)變,進(jìn)入民用市場(chǎng),打造以用戶為中心的“語音機(jī)器人”,引領(lǐng)人機(jī)口語真正的交互的“人工智能”潮流。據(jù)悉,該系統(tǒng)將于下半年正式運(yùn)用到智能車載、家居領(lǐng)域。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。