0
本文作者: 黃善清 | 2018-09-07 18:00 |
雷鋒網(wǎng)AI科技評(píng)論按:Interspeech 會(huì)議是全球最大的綜合性語(yǔ)音信號(hào)處理領(lǐng)域的科技盛會(huì),首次參加的騰訊 AI Lab共有8篇論文入選,居國(guó)內(nèi)企業(yè)前列。這些論文有哪些值得一提的亮點(diǎn)?一起看看這篇由騰訊 AI Lab供稿的總結(jié)文章。 另外,以上事件在雷鋒網(wǎng)旗下學(xué)術(shù)頻道 AI 科技評(píng)論數(shù)據(jù)庫(kù)產(chǎn)品「AI 影響因子」中有相應(yīng)加分。
9 月 2 到 6 日,Interspeech 會(huì)議在印度海得拉巴舉辦,騰訊 AI Lab 首次參加,有 8 篇論文入選,位居國(guó)內(nèi)企業(yè)前列。該年度會(huì)議由國(guó)際語(yǔ)音通信協(xié)會(huì) ISCA(International Speech Communication Association)組織,是全球最大的綜合性語(yǔ)音信號(hào)處理領(lǐng)域的科技盛會(huì)。
騰訊 AI Lab 也在業(yè)界分享語(yǔ)音方面的研究成果,今年已在多個(gè)國(guó)際頂級(jí)會(huì)議和期刊上發(fā)表了系列研究成果,涵蓋從語(yǔ)音前端處理到后端識(shí)別及合成等整個(gè)技術(shù)流程。比如今年 4 月舉辦的 IEEE 聲學(xué)、語(yǔ)音與信號(hào)處理國(guó)際會(huì)議(ICASSP 2018),是由 IEEE 主辦、全球最大、最全面的信號(hào)處理及其應(yīng)用方面的頂級(jí)學(xué)術(shù)會(huì)議,騰訊 AI Lab 也入選論文 4 篇,介紹了其在多說(shuō)話(huà)人語(yǔ)音識(shí)別、神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型建模和說(shuō)話(huà)風(fēng)格合成自適應(yīng)方面的研究進(jìn)展。
在研究方面,騰訊 AI Lab 提出了一些新的方法和改進(jìn),在語(yǔ)音增強(qiáng)、語(yǔ)音分離、語(yǔ)音識(shí)別、語(yǔ)音合成等技術(shù)方向都取得了一些不錯(cuò)的進(jìn)展。在落地應(yīng)用上,語(yǔ)音識(shí)別中心為多個(gè)騰訊產(chǎn)品提供技術(shù)支持,比如「騰訊聽(tīng)聽(tīng)音箱」、「騰訊極光電視盒子」,并融合內(nèi)外部合作伙伴的先進(jìn)技術(shù),在語(yǔ)音控制、語(yǔ)義解析、語(yǔ)音合成(TTS)等方面都達(dá)到了業(yè)內(nèi)領(lǐng)先水平。
本文將基于智能音箱的基本工作流程介紹騰訊 AI Lab 在語(yǔ)音方面的近期研究進(jìn)展。
首先,我們先了解一下音箱語(yǔ)音交互技術(shù)鏈條。
智能音箱的最典型應(yīng)用場(chǎng)景是家庭,在這種場(chǎng)景中用戶(hù)與音箱設(shè)備的距離通常比用戶(hù)在智能手機(jī)上使用語(yǔ)音應(yīng)用的距離遠(yuǎn)很多,因此會(huì)引入較明顯的室內(nèi)混響、回聲,音樂(lè)、電視等環(huán)境噪聲,也會(huì)出現(xiàn)多說(shuō)話(huà)人同時(shí)說(shuō)話(huà),有較強(qiáng)背景人聲的問(wèn)題。要在這樣的場(chǎng)景中獲取、增強(qiáng)、分離得到質(zhì)量較好的語(yǔ)音信號(hào)并準(zhǔn)確識(shí)別是智能音箱達(dá)到好的用戶(hù)體驗(yàn)所要攻克的第一道難關(guān)。
麥克風(fēng)陣列是這一步最常用的解決方案之一,比如騰訊聽(tīng)聽(tīng)就采用了由 6 個(gè)麥克風(fēng)組成的環(huán)形陣列,能夠很好地捕捉來(lái)自各個(gè)方位的聲音。
麥克風(fēng)采集到聲音之后,就需要對(duì)這些聲音進(jìn)行處理,對(duì)多麥克風(fēng)采集到的聲音信號(hào)進(jìn)行處理,得到清晰的人聲以便進(jìn)一步識(shí)別。這里涉及的技術(shù)包括語(yǔ)音端點(diǎn)檢測(cè)、回聲消除、聲源定位和去混響、語(yǔ)音增強(qiáng)等。另外,對(duì)于通常處于待機(jī)狀態(tài)的智能音箱,通常都會(huì)配備語(yǔ)音喚醒功能。為了保證用戶(hù)體驗(yàn),語(yǔ)音喚醒必須要足夠靈敏和快速地做出響應(yīng),同時(shí)盡量減少非喚醒語(yǔ)音誤觸發(fā)引起的誤喚醒。
經(jīng)過(guò)麥克風(fēng)陣列前端處理,接下來(lái)要做的是識(shí)別說(shuō)話(huà)人的身份和理解說(shuō)話(huà)內(nèi)容,這方面涉及到聲紋識(shí)別、語(yǔ)音識(shí)別和模型自適應(yīng)等方面的問(wèn)題。
之后,基于對(duì)說(shuō)話(huà)內(nèi)容的理解執(zhí)行任務(wù)操作,并通過(guò)語(yǔ)音合成系統(tǒng)合成相應(yīng)語(yǔ)音來(lái)進(jìn)行回答響應(yīng)。如何合成高質(zhì)量、更自然、更有特色的語(yǔ)音也一直是語(yǔ)音領(lǐng)域的一大重點(diǎn)研究方向。
騰訊 AI Lab 的研究范圍涵蓋了上圖中總結(jié)的音箱語(yǔ)音交互技術(shù)鏈條的所有 5 個(gè)步驟,接下來(lái)將依此鏈條介紹騰訊 AI Lab 近期的語(yǔ)音研究進(jìn)展。
1)前端
采集到聲音之后,首先需要做的是消除噪聲和分離人聲,并對(duì)喚醒詞做出快速響應(yīng)。
在拾音和噪聲消除方面,騰訊 AI Lab 的 Voice Processing(簡(jiǎn)稱(chēng) AIVP)解決方案集成了語(yǔ)音檢測(cè)、聲源測(cè)向、麥克風(fēng)陣列波束形成、定向拾音、噪聲抑制、混響消除、回聲消除、自動(dòng)增益等多種遠(yuǎn)場(chǎng)語(yǔ)音處理模塊,能有效地為后續(xù)過(guò)程提供增強(qiáng)過(guò)的清晰語(yǔ)音。發(fā)表于 Symmetry 的論文《一種用于塊稀疏系統(tǒng)的改進(jìn)型集合-元素比例自適應(yīng)算法(An Improved Set-membership Proportionate Adaptive Algorithm For A Block-sparse System)》是在回聲消除方面的研究。
遠(yuǎn)場(chǎng)語(yǔ)音處理的各個(gè)模塊
在語(yǔ)音喚醒方面,騰訊 AI Lab 的 Interspeech 2018 研究《基于文本相關(guān)語(yǔ)音增強(qiáng)的小型高魯棒性的關(guān)鍵詞檢測(cè)(Text-Dependent Speech Enhancement for Small-Footprint Robust Keyword Detection)》針對(duì)語(yǔ)音喚醒的誤喚醒、噪聲環(huán)境中喚醒、快語(yǔ)速喚醒和兒童喚醒等問(wèn)題提出了一種新的語(yǔ)音喚醒模型——使用 LSTM RNN 的文本相關(guān)語(yǔ)音增強(qiáng)(TDSE)技術(shù),能顯著提升關(guān)鍵詞檢測(cè)的質(zhì)量,并且在有噪聲環(huán)境下也表現(xiàn)突出,同時(shí)還能顯著降低前端和關(guān)鍵詞檢測(cè)模塊的功耗需求。
基于文本相關(guān)語(yǔ)音增強(qiáng)的關(guān)鍵詞檢測(cè)架構(gòu)
2)聲紋識(shí)別
聲紋識(shí)別是指根據(jù)說(shuō)話(huà)人的聲波特性進(jìn)行身份辨識(shí)。這種技術(shù)有非常廣泛的應(yīng)用范圍,比如根據(jù)不同家庭用戶(hù)的偏好定制個(gè)性化的應(yīng)用組合。聲紋系統(tǒng)還可用于判斷新用戶(hù)的性別和年齡信息,以便在之后的互動(dòng)中根據(jù)用戶(hù)屬性進(jìn)行相關(guān)推薦。
聲紋識(shí)別也存在一些有待攻克的挑戰(zhàn)。在技術(shù)上存在信道失配、環(huán)境噪聲、短語(yǔ)音、遠(yuǎn)場(chǎng)等難題,在應(yīng)用上還有錄音冒認(rèn)、兼容能力、交互設(shè)計(jì)等挑戰(zhàn)。聲紋模型還應(yīng)當(dāng)具備兼容確認(rèn)和辨別功能,支持隱式更新和隱式注冊(cè),以便隨用戶(hù)使用時(shí)間的增長(zhǎng)而逐步提升性能。
支持隱式注冊(cè)的聲紋模型的性能隨用戶(hù)使用時(shí)長(zhǎng)增長(zhǎng)而提升
騰訊 AI Lab 除了應(yīng)用已實(shí)現(xiàn)的經(jīng)典聲紋識(shí)別算法外(GMM-UBM、GMM/Ivector、DNN/Ivector、GSV),也在探索和開(kāi)發(fā)基于 DNN embedding 的新方法,且在短語(yǔ)音方面已經(jīng)實(shí)現(xiàn)了優(yōu)于主流方法的識(shí)別效果。騰訊 AI Lab 也在進(jìn)行多系統(tǒng)融合的開(kāi)發(fā)工作——通過(guò)合理布局全局框架,使具有較好互補(bǔ)性的聲紋算法協(xié)同工作以實(shí)現(xiàn)更精準(zhǔn)的識(shí)別。相關(guān)部分核心自研算法及系統(tǒng)性能已經(jīng)在語(yǔ)音頂級(jí)期刊上發(fā)表。
其中,被 Interspeech 2018 接收的論文《基于深度區(qū)分特征的變時(shí)長(zhǎng)說(shuō)話(huà)人確認(rèn)(Deep Discriminative Embeddings for Duration Robust Speaker Verification)》提出了一種基于 Inception-ResNet 的聲紋識(shí)別系統(tǒng)框架,可學(xué)習(xí)更加魯棒且更具有區(qū)分性的嵌入特征。
同樣入選 Interspeech 2018 的論文《從單通道混合語(yǔ)音中還原目標(biāo)說(shuō)話(huà)人的深度提取網(wǎng)絡(luò)(Deep Extractor Network for Target Speaker Recovery From Single Channel Speech Mixtures)》提出了一種深度提取網(wǎng)絡(luò)(如下圖所示),可在規(guī)范的高維嵌入空間中通過(guò)嵌入式特征計(jì)算為目標(biāo)說(shuō)話(huà)人創(chuàng)建一個(gè)錨點(diǎn),并將對(duì)應(yīng)于目標(biāo)說(shuō)話(huà)人的時(shí)間頻率點(diǎn)提取出來(lái)。
實(shí)驗(yàn)結(jié)果表明,給定某一說(shuō)話(huà)人一段非常短的語(yǔ)音,如給定該說(shuō)話(huà)人的喚醒詞語(yǔ)音(通常 1S 左右),所提出的模型就可以有效地從后續(xù)混合語(yǔ)音中高質(zhì)量地分離恢復(fù)出該目標(biāo)說(shuō)話(huà)人的語(yǔ)音,其分離性能優(yōu)于多種基線(xiàn)模型。同時(shí),研究者還證明它可以很好地泛化到一個(gè)以上干擾說(shuō)話(huà)人的情況。
深度提取網(wǎng)絡(luò)示意圖
3)語(yǔ)音識(shí)別
語(yǔ)音識(shí)別技術(shù)已經(jīng)經(jīng)歷過(guò)長(zhǎng)足的發(fā)展,現(xiàn)在已大體能應(yīng)對(duì)人們的日常使用場(chǎng)景了,但在噪聲環(huán)境、多說(shuō)話(huà)人場(chǎng)景、「雞尾酒會(huì)問(wèn)題」、多語(yǔ)言混雜等方面仍還存在一些有待解決的難題。
騰訊 AI Lab 的語(yǔ)音識(shí)別解決方案是結(jié)合了說(shuō)話(huà)人特征的個(gè)性化識(shí)別模型,能夠?yàn)槊课挥脩?hù)提取并保存自己個(gè)性化聲學(xué)信息特征。隨著用戶(hù)數(shù)據(jù)積累,個(gè)性化特征會(huì)自動(dòng)更新,用戶(hù)識(shí)別準(zhǔn)確率可獲得顯著提升。
另外,騰訊 AI Lab 還創(chuàng)新地提出了多類(lèi)單元集合融合建模方案,這是一種實(shí)現(xiàn)了不同程度單元共享、參數(shù)共享、多任務(wù)的中英混合建模方案。這種方案能在基本不影響漢語(yǔ)識(shí)別準(zhǔn)確度的情況下提升英語(yǔ)的識(shí)別水平。
騰訊 AI Lab 有多篇 Interspeech 2018 論文都針對(duì)的是這個(gè)階段的問(wèn)題。
在論文《基于生成對(duì)抗網(wǎng)絡(luò)置換不變訓(xùn)練的單通道語(yǔ)音分離(Permutation Invariant Training of Generative Adversarial Network for Monaural Speech Separation)》中,研究者提出使用生成對(duì)抗網(wǎng)絡(luò)(GAN)來(lái)實(shí)現(xiàn)同時(shí)增強(qiáng)多個(gè)聲源的語(yǔ)音分離,并且在訓(xùn)練生成網(wǎng)絡(luò)時(shí)通過(guò)基于句子層級(jí)的 PIT 解決多個(gè)說(shuō)話(huà)人在訓(xùn)練過(guò)程順序置換問(wèn)題。實(shí)驗(yàn)也證明了這種被稱(chēng)為 SSGAN-PIT 的方法的優(yōu)越性,下面給出了其訓(xùn)練過(guò)程示意圖:
SSGAN-PIT 的訓(xùn)練過(guò)程示意圖
論文《使用注意機(jī)制和門(mén)控卷積網(wǎng)絡(luò)的單聲道多說(shuō)話(huà)人語(yǔ)音識(shí)別(Monaural Multi-Talker Speech Recognition with Attention Mechanism and Gated Convolutional Networks)》將注意機(jī)制和門(mén)控卷積網(wǎng)絡(luò)(GCN)整合進(jìn)了研究者之前開(kāi)發(fā)的基于排列不變訓(xùn)練的多說(shuō)話(huà)人語(yǔ)音識(shí)別系統(tǒng)(PIT-ASR)中,從而進(jìn)一步降低了詞錯(cuò)率。如下左圖展示了用于多說(shuō)話(huà)人語(yǔ)音識(shí)別的帶有注意機(jī)制的 PIT 框架,而右圖則為其中的注意機(jī)制:
在論文《提升基于注意機(jī)制的端到端英語(yǔ)會(huì)話(huà)語(yǔ)音識(shí)別(Improving Attention Based Sequence-to-Sequence Models for End-to-End English Conversational Speech Recognition)》中,研究者提出了兩項(xiàng)用于端到端語(yǔ)音識(shí)別系統(tǒng)的基于注意的序列到序列模型改進(jìn)方法。第一項(xiàng)改進(jìn)是使用一種輸入饋送架構(gòu)——其不僅會(huì)饋送語(yǔ)境向量,而且還會(huì)饋送之前解碼器的隱藏狀態(tài)信息,并將它們作為解碼器的輸入。第二項(xiàng)改進(jìn)基于一種用于序列到序列模型的序列最小貝葉斯風(fēng)險(xiǎn)(MBR)訓(xùn)練的更好的假設(shè)集合生成方法,其中在 MBR 訓(xùn)練階段為 N-best 生成引入了 softmax 平滑。實(shí)驗(yàn)表明這兩項(xiàng)改進(jìn)能為模型帶來(lái)顯著的增益。下表展示了實(shí)驗(yàn)結(jié)果,可以看到在不使用外部語(yǔ)言模型的條件下,新提出的系統(tǒng)達(dá)到了比其它使用外部模型的最新端到端系統(tǒng)顯著低的字錯(cuò)誤率。
論文《詞為建模單元的端到端語(yǔ)音識(shí)別系統(tǒng)多階段訓(xùn)練方法(A Multistage Training Framework For Acoustic-to-Word Model)》研究了如何利用更好的模型訓(xùn)練方法在只有 300 小時(shí)的 Switchboard 數(shù)據(jù)集上也能得到具有競(jìng)爭(zhēng)力的語(yǔ)音識(shí)別性能。最終,研究者將 Hierarchical-CTC、Curriculum Training、Joint CTC-CE 這三種模型訓(xùn)練方法結(jié)合到了一起,在無(wú)需使用任何語(yǔ)言模型和解碼器的情況下取得了優(yōu)良的表現(xiàn)。
另外,在今年 4 月舉辦的 IEEE ICASSP 2018 上,騰訊 AI Lab 有 3 篇自動(dòng)語(yǔ)音識(shí)別方面的論文和 1 篇語(yǔ)音合成方面的論文(隨后將介紹)入選。
在語(yǔ)音合成方面,其中 2 篇都是在用于多說(shuō)話(huà)人的置換不變訓(xùn)練方面的研究。
其中論文《用于單聲道多說(shuō)話(huà)人語(yǔ)音識(shí)別的使用輔助信息的自適應(yīng)置換不變訓(xùn)練(Adaptive Permutation Invariant Training With Auxiliary Information For Monaural Multi-talker Speech Recognition)》基于騰訊 AI Lab 之前在置換不變訓(xùn)練(PIT)方面的研究提出使用音高(pitch)和 i-vector 等輔助特征來(lái)適應(yīng) PIT 模型,以及使用聯(lián)合優(yōu)化語(yǔ)音識(shí)別和說(shuō)話(huà)人對(duì)預(yù)測(cè)的多任務(wù)學(xué)習(xí)來(lái)利用性別信息。研究結(jié)果表明 PIT 技術(shù)能與其它先進(jìn)技術(shù)結(jié)合起來(lái)提升多說(shuō)話(huà)人語(yǔ)音識(shí)別的性能。
論文《用于單通道多說(shuō)話(huà)人語(yǔ)音識(shí)別的置換不變訓(xùn)練中知識(shí)遷移(Knowledge Transfer In Permutation Invariant Training For Single-channel Multi-talker Speech Recognition)》則將 teacher-student 訓(xùn)練和置換不變訓(xùn)練結(jié)合到了一起,可將單說(shuō)話(huà)人模型中提取出的知識(shí)用于改進(jìn) PIT 框架中的多說(shuō)話(huà)人模型。實(shí)驗(yàn)結(jié)果也證明了這種方法的優(yōu)越性。下圖展示了這種加上了知識(shí)提取架構(gòu)的置換不變訓(xùn)練架構(gòu)。
另外一篇語(yǔ)音識(shí)別方面的 ICASSP 2018 論文《使用基于字母的特征和重要度采樣的神經(jīng)網(wǎng)絡(luò)語(yǔ)言建模(Neural Network Language Modeling With Letter-based Features And Importance Sampling)》則提出了一種 Kaldi 語(yǔ)音識(shí)別工具套件的擴(kuò)展 Kaldi-RNNLM 以支持神經(jīng)語(yǔ)言建模,可用于自動(dòng)語(yǔ)音識(shí)別等相關(guān)任務(wù)。
在語(yǔ)音識(shí)別方面最后值得一提的是,騰訊 AI Lab 還在《Frontiers of Information Technology & Electronic Engineering》(FITEE)上發(fā)表了一篇關(guān)于「雞尾酒會(huì)問(wèn)題」的綜述論文《雞尾酒會(huì)問(wèn)題的過(guò)去回顧、當(dāng)前進(jìn)展和未來(lái)難題(Past Review, Current Progress, And Challenges Ahead On The Cocktail Party Problem)》,對(duì)針對(duì)這一問(wèn)題的技術(shù)思路和方法做了全面的總結(jié)。
4)自然語(yǔ)言處理/理解
在智能音箱的工作流程中,自然語(yǔ)言處理是一個(gè)至關(guān)重要的階段,這涉及到對(duì)用戶(hù)意圖的理解和響應(yīng)。騰訊 AI Lab 在自然語(yǔ)言的處理和理解方面已有很多突破性的研究進(jìn)展,融合騰訊公司多樣化的應(yīng)用場(chǎng)景和生態(tài),能為騰訊的語(yǔ)音應(yīng)用和聽(tīng)聽(tīng)音箱用戶(hù)帶來(lái)良好的用戶(hù)體驗(yàn)和實(shí)用價(jià)值。
在將于當(dāng)?shù)貢r(shí)間 7 月 15-20 日在澳大利亞墨爾本舉辦的 ACL 2018 會(huì)議上,騰訊 AI Lab 有 5 篇與語(yǔ)言處理相關(guān)的論文入選,涉及到神經(jīng)機(jī)器翻譯、情感分類(lèi)和自動(dòng)評(píng)論等研究方向。騰訊 AI Lab 之前推送的文章《ACL 2018 | 解讀騰訊 AI Lab 五篇入選論文》已對(duì)這些研究成果進(jìn)行了介紹。另外在 IJCAI 2018(共 11 篇,其中語(yǔ)言處理方向 4 篇)和 NAACL 2018(4 篇)等國(guó)際頂級(jí)會(huì)議上也能看到騰訊 AI Lab 在語(yǔ)言處理方面的研究成果。
5)語(yǔ)音合成
對(duì)智能音箱而言,語(yǔ)音答復(fù)是用戶(hù)對(duì)音箱能力的最直觀感知。最好的合成語(yǔ)音必定要清晰、流暢、準(zhǔn)確、自然,個(gè)性化的音色還能提供進(jìn)一步的加成。
騰訊在語(yǔ)音合成方面有深厚的技術(shù)積累,開(kāi)發(fā)了可實(shí)現(xiàn)端到端合成和重音語(yǔ)調(diào)合成的新技術(shù),并且在不同風(fēng)格的語(yǔ)音合成上也取得了亮眼的新進(jìn)展。下面展示了一些不同風(fēng)格的合成語(yǔ)音:
在 Interspeech 2018 上,騰訊 AI Lab 的論文《面向表現(xiàn)力語(yǔ)音合成采用殘差嵌入向量的快速風(fēng)格自適應(yīng)(Rapid Style Adaptation Using Residual Error Embedding for Expressive Speech Synthesis)》探索了利用殘差作為條件屬性來(lái)合成具有適當(dāng)?shù)捻嵚勺兓谋憩F(xiàn)力語(yǔ)音的方法。該方法有兩大優(yōu)勢(shì):1)能自動(dòng)學(xué)習(xí)獲得風(fēng)格嵌入向量,不需要人工標(biāo)注信息,從而能克服數(shù)據(jù)的不足和可靠性低的問(wèn)題;2)對(duì)于訓(xùn)練集中沒(méi)有出現(xiàn)的參考語(yǔ)音,風(fēng)格嵌入向量可以快速生成,從而使得模型僅用一個(gè)語(yǔ)音片段就可以快速自適應(yīng)到目標(biāo)的風(fēng)格上。下圖展示了該論文提出的殘差編碼網(wǎng)絡(luò)的架構(gòu)(左圖)以及其中殘差編碼器的結(jié)構(gòu)(右圖)。
騰訊 AI Lab 在 ICASSP 2018 上也有一篇關(guān)于風(fēng)格適應(yīng)的論文《基于特征的說(shuō)話(huà)風(fēng)格合成適應(yīng)(Feature Based Adaptation For Speaking Style Synthesis)》。這項(xiàng)研究對(duì)傳統(tǒng)的基于模型的風(fēng)格適應(yīng)(如下左圖)進(jìn)行了改進(jìn),提出了基于特征的說(shuō)話(huà)風(fēng)格適應(yīng)(如下右圖)。實(shí)驗(yàn)結(jié)果證明了這種方法的有效性,并且表明這種方法能在保證合成語(yǔ)音質(zhì)量的同時(shí)提升其疑問(wèn)語(yǔ)氣風(fēng)格的表現(xiàn)力。
總結(jié)
智能語(yǔ)音被廣泛認(rèn)為是「下一代人機(jī)交互入口」,同時(shí)也能和騰訊公司廣泛的應(yīng)用生態(tài)相結(jié)合,為用戶(hù)提供更加方便快捷的服務(wù)。騰訊 AI Lab 的技術(shù)已能為更多產(chǎn)品提供更高效更智能的解決方案。
騰訊 AI Lab 在語(yǔ)音方面的主攻方向包括結(jié)合說(shuō)話(huà)人個(gè)性化信息語(yǔ)音識(shí)別、前后端聯(lián)合優(yōu)化、結(jié)合語(yǔ)音分離技術(shù)、語(yǔ)音語(yǔ)義的聯(lián)合識(shí)別。
騰訊 AI Lab 未來(lái)還將繼續(xù)探索語(yǔ)音方面的前沿技術(shù),創(chuàng)造能與人類(lèi)更自然交流的語(yǔ)音應(yīng)用。也許未來(lái)的「騰訊聽(tīng)聽(tīng)音箱」也能以輕松的語(yǔ)調(diào)回答這個(gè)問(wèn)題:
「9420,生命、宇宙以及一切的答案是什么?」
注:9420 是「騰訊聽(tīng)聽(tīng)音箱」的喚醒詞,而在《銀河系漫游指南》中上面這個(gè)終極問(wèn)題的答案是 42,而 9420 的諧音也剛好為「就是愛(ài)你」(42=是愛(ài)),看起來(lái)是個(gè)很合適的答案。
雷鋒網(wǎng)AI科技評(píng)論
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。