0
本文作者: 郭仁賢 | 2019-08-16 20:50 |
提到百度旗下的智能音箱小度,你可能會(huì)想到他曾在春晚登臺(tái),以及在真人秀《向往的生活》里聰明智慧的樣子。只要我們對(duì)著他喊“小度,小度”,他就會(huì)立馬應(yīng)和我們,并且回應(yīng)我們的任何請(qǐng)求。
根據(jù)市場(chǎng)研究機(jī)構(gòu)Strategy Analytics最新發(fā)布的《2019 Q2全球智能音箱的報(bào)告》,小度以470萬(wàn)臺(tái)的出貨量位列國(guó)內(nèi)第一;而在全球范圍內(nèi),他的出貨量?jī)H次于亞馬遜和Google。
小度的背后有何技術(shù)在做支撐,我們?cè)u(píng)價(jià)一款智能音箱的好壞其標(biāo)準(zhǔn)是什么?雷鋒網(wǎng)了解到,一般情況下,我們?cè)u(píng)價(jià)智能音箱的好壞主要看三個(gè)方面,分別是聽(tīng)清、聽(tīng)懂和滿(mǎn)足。
在聽(tīng)清方面,其是指把用戶(hù)的聲波轉(zhuǎn)化成正確的文字,一般稱(chēng)為語(yǔ)音識(shí)別或者喚醒。在內(nèi)外噪音的干擾之下,機(jī)器要能夠準(zhǔn)確地識(shí)別用戶(hù)的指令。這部分小度可以通過(guò)引入百度語(yǔ)音首創(chuàng)的流式多級(jí)的截?cái)嘧⒁饬δP?SMLTA),大大提升ASR效果。
我們比較熟悉的ASR技術(shù)(Automatic Speech Recognition,語(yǔ)音識(shí)別),是將聲音轉(zhuǎn)化為文字,可類(lèi)比于人類(lèi)的耳朵;而TTS技術(shù)(Text-To-Speech,語(yǔ)音合成),是將文字轉(zhuǎn)化為聲音(朗讀出來(lái)),類(lèi)比于人類(lèi)的嘴巴。大家在Siri等各種語(yǔ)音助手中聽(tīng)到的聲音,都是由TTS來(lái)生成的,并不是真人在說(shuō)話。
關(guān)于SMLTA,據(jù)公開(kāi)信息,其是使用CTC(一種語(yǔ)音識(shí)別算法)的尖峰信息對(duì)連續(xù)語(yǔ)音流進(jìn)行截?cái)啵缓笤诿恳粋€(gè)截?cái)嗟恼Z(yǔ)音小段上進(jìn)行當(dāng)前建模單元的注意力建模;這樣把原來(lái)的全局的整句Attention建模,變成了局部語(yǔ)音小段的Attention的建模;同時(shí),為了克服CTC模型的不可避免的插入刪除錯(cuò)誤對(duì)系統(tǒng)造成的影響,該算法引入一種特殊的多級(jí)Attention機(jī)制,實(shí)現(xiàn)特征層層遞進(jìn)的更精準(zhǔn)的特征選擇;最終,這種創(chuàng)新的建模方法的識(shí)別率不但超越了傳統(tǒng)的全局Attention建模,同時(shí)還能夠保持計(jì)算量、解碼速度等在線資源耗費(fèi)和傳統(tǒng)CTC模型持平。這也是第一次有公開(kāi)報(bào)道,局部的Attention建模,有可能超過(guò)全局的Attention建模。
在聽(tīng)懂方面,其是指得到這個(gè)字符串之后是不是能理解用戶(hù)的需求到底是什么,能夠準(zhǔn)確的給出響應(yīng),或者給出引導(dǎo)。比如小度在獲得模糊需求(不清晰指令)的時(shí)候,它會(huì)嘗試分析和校對(duì)自己的指令,以便更準(zhǔn)確地滿(mǎn)足用戶(hù)的需求。其結(jié)合百度NLP的知識(shí)增強(qiáng)語(yǔ)義表示模型ERNIE,核心理解算法升級(jí)為超大數(shù)據(jù)預(yù)訓(xùn)練深度模型。
在7 月 30 日,百度發(fā)布了 ERNIE的優(yōu)化版本——ERNIE 2.0 自然語(yǔ)言理解框架。它可以通過(guò)持續(xù)的多任務(wù)學(xué)習(xí),逐步學(xué)習(xí)和建立預(yù)訓(xùn)練任務(wù)。該框架支持增量引入詞匯 (lexical)、語(yǔ)法 (syntactic) 、語(yǔ)義 (semantic) 等 3 個(gè)層次的自定義預(yù)訓(xùn)練任務(wù),并通過(guò)多任務(wù)學(xué)習(xí)對(duì)其進(jìn)行訓(xùn)練,實(shí)現(xiàn)全面捕捉訓(xùn)練語(yǔ)料中的詞法、語(yǔ)法、語(yǔ)義等潛在信息。而且每當(dāng)引入新任務(wù)時(shí),該框架在遞增地訓(xùn)練分布式表示的同時(shí),還會(huì)記住先前任務(wù)的信息。
最后在滿(mǎn)足方面,用戶(hù)要的越寬泛越多,我們是不是能給得越多?這是滿(mǎn)足的部分。在滿(mǎn)足用戶(hù)需求方面,融合百度全網(wǎng)搜索能力與大規(guī)模精準(zhǔn)用戶(hù)畫(huà)像,從直接滿(mǎn)足進(jìn)化為個(gè)性化助手。
智能音箱的滿(mǎn)足能力,這里主要看兩點(diǎn),設(shè)備的知識(shí)完備程度和技能服務(wù)生態(tài)。百度智能生活事業(yè)群組(SLG)首席技術(shù)官朱凱華表示,
“對(duì)于小度來(lái)說(shuō),其依靠百度生態(tài)中的知識(shí)圖譜和搜索請(qǐng)求,以及網(wǎng)頁(yè)內(nèi)容支持,其知識(shí)完備程度較好;此外在技能服務(wù)生態(tài)方面,小度助手的開(kāi)放平臺(tái)上,已經(jīng)擁有了33000多名的開(kāi)發(fā)者,并且已經(jīng)累積了2400+的線上技能?!?/p>
在軟硬一體結(jié)合方面,小度采用了全雙工免喚醒技術(shù),雷鋒網(wǎng)了解到,關(guān)于該技術(shù)的應(yīng)用有三個(gè)必要條件:
軟件和硬件結(jié)合。即Hardware Designed for Software,就是硬件構(gòu)建的時(shí)候,需要為軟件的特征進(jìn)行專(zhuān)門(mén)制作;
語(yǔ)音識(shí)別和語(yǔ)義理解結(jié)合。是指能夠做端到端的識(shí)別和理解,整個(gè)體驗(yàn)的串聯(lián),需要整個(gè)部分深度的整合和優(yōu)化;
完善的技術(shù)儲(chǔ)備和解決方案。比如小度,其所有技術(shù)百度都 In house 具備,能夠深度整合。
朱凱華表示,在智能音箱這個(gè)行業(yè)里面,很重要的一點(diǎn)需要Designed for software,就是硬件構(gòu)建的時(shí)候,需要為軟件的特征進(jìn)行專(zhuān)門(mén)制作。小度在設(shè)計(jì)的一開(kāi)始,就對(duì)它的聲學(xué)效果要有非常高的要求,在高噪音的環(huán)境下,也可以準(zhǔn)確喚醒。這個(gè)前提是對(duì)于硬件整個(gè)聲學(xué)結(jié)構(gòu)的要求很高,而小度則是從硬件設(shè)計(jì)伊始就是已經(jīng)做好了準(zhǔn)備。語(yǔ)音識(shí)別需要和語(yǔ)義理解完全結(jié)合起來(lái),能夠做端到端的識(shí)別和理解。整個(gè)體驗(yàn)的串聯(lián),需要整個(gè)部分深度的整合和優(yōu)化,而這也正是百度的獨(dú)特優(yōu)勢(shì)。相比于其他產(chǎn)品往往在各個(gè)階段都是采買(mǎi)了不同提供方的技術(shù)相比,百度完善一體的技術(shù)儲(chǔ)備和解決方案,為小度的整體體驗(yàn),做到了強(qiáng)大的后盾支撐。雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。