百度發(fā)布Deep Speaker：大規(guī)模聲紋識(shí)別的端對(duì)端系統(tǒng)

本文作者：彭鵬

編輯：郭奕欣

2017-05-11 17:53

導(dǎo)語(yǔ)：日前，百度美研院宣布了其在聲紋識(shí)別上所取得的突破性成果。研究表明：利用深度學(xué)習(xí)的方法比傳統(tǒng)的i-vector方法在識(shí)別準(zhǔn)確率上獲得了顯著的提高。

雷鋒網(wǎng)按：此前雷鋒網(wǎng)曾經(jīng)報(bào)道過(guò)百度在語(yǔ)音技術(shù)上的進(jìn)展。日前，百度美研院宣布了其在聲紋識(shí)別上所取得的突破性成果。研究表明：利用深度學(xué)習(xí)的方法比傳統(tǒng)的i-vector方法在識(shí)別準(zhǔn)確率上獲得了顯著的提高。

聲紋識(shí)別算法尋求從音頻中識(shí)別說(shuō)話者的身份。兩個(gè)常見(jiàn)的識(shí)別任務(wù)是確認(rèn)（說(shuō)話者是不是他宣稱的那個(gè)人）和說(shuō)話者身份識(shí)別（在一群未知的說(shuō)話者中確認(rèn)聲音的來(lái)源）。

該項(xiàng)技術(shù)已經(jīng)有了各種應(yīng)用。例如，聲紋可以用來(lái)登錄設(shè)備。說(shuō)話者確認(rèn)也可以作為金融交易的額外安全措施。此外，類(lèi)似于智能家居助手之類(lèi)的共享設(shè)備也可以利用這項(xiàng)技術(shù)來(lái)提供個(gè)性化的服務(wù)。

最近使用神經(jīng)網(wǎng)絡(luò)來(lái)進(jìn)行聲紋識(shí)別的論文已經(jīng)改進(jìn)了傳統(tǒng)的i-vector方法（參考Interspeech教程的原始論文或者幻燈片）。i-vector方法認(rèn)為說(shuō)話內(nèi)容可以被分為兩個(gè)部分，一個(gè)部分依賴于說(shuō)話者和信道可變性，另一個(gè)部分依賴于其它的相關(guān)因素。i-vector聲紋識(shí)別是一個(gè)多步過(guò)程，其涉及到使用不同說(shuō)話者的數(shù)據(jù)來(lái)估計(jì)一個(gè)通用的背景模型（通常是高斯混合模型），收集充分的統(tǒng)計(jì)數(shù)據(jù)，提取i-vector，最后使用一個(gè)分類(lèi)器來(lái)進(jìn)行識(shí)別任務(wù)。

一些論文用神經(jīng)網(wǎng)絡(luò)代替了i-vector流水線的方法。其它研究者要么訓(xùn)練了一個(gè)文本相關(guān)（使用者必須說(shuō)同樣的話）的端對(duì)端語(yǔ)者識(shí)別系統(tǒng)，要么訓(xùn)練了文本獨(dú)立（這個(gè)模型與說(shuō)話內(nèi)容不相關(guān)）的端對(duì)端語(yǔ)者識(shí)別系統(tǒng)。我們介紹Deep Speaker：一個(gè)端對(duì)端的神經(jīng)聲紋識(shí)別系統(tǒng)，它在文本相關(guān)和文本獨(dú)立的場(chǎng)景下都取得了良好的效果。這意味這個(gè)系統(tǒng)可以被訓(xùn)練來(lái)識(shí)別誰(shuí)在說(shuō)話，無(wú)論是當(dāng)你對(duì)你的家庭助手說(shuō)“wake”或者你在會(huì)議中發(fā)言。

Deep Speaker由深度神經(jīng)網(wǎng)絡(luò)層組成，從音頻中提取特征，基于余弦相似性的時(shí)間池和三元組損失（triplet loss）。百度美研院探究了ResNet激活的卷積模型和現(xiàn)有模型在提取聲學(xué)特征上的效果。

百度發(fā)布Deep Speaker：大規(guī)模聲紋識(shí)別的端對(duì)端系統(tǒng)

說(shuō)明：在這里百度美研院使用了人臉識(shí)別中采用的三元組損失。在訓(xùn)練過(guò)程中，他們選擇了一個(gè)說(shuō)話者的話語(yǔ)，然后計(jì)算一個(gè)嵌入（標(biāo)記為“Anchor”）。再產(chǎn)生兩個(gè)嵌入，一個(gè)來(lái)自相同的演講者（標(biāo)記為“Positive”），一個(gè)來(lái)自于不同的演講者（標(biāo)記為“Negative”）。在訓(xùn)練過(guò)程中，其目標(biāo)是讓Anchor與positive嵌入之間的余弦相似度高于Anchor與negative嵌入之間的余弦相似度。

百度美研院展示了Deep Speaker在三個(gè)不同數(shù)據(jù)集上的有效性，包括文本相關(guān)和文本獨(dú)立的任務(wù)。其中之一的UIDs數(shù)據(jù)集包括大約250000名說(shuō)話者，是知識(shí)文獻(xiàn)中最大的數(shù)據(jù)集。實(shí)驗(yàn)結(jié)果表明：Deep Speaker要明顯優(yōu)于基于DNN 的i-vector方法。例如，在一個(gè)文本獨(dú)立的數(shù)據(jù)集中隨機(jī)挑選出100個(gè)演講者，Deep Speaker在說(shuō)話者身份確認(rèn)任務(wù)上的錯(cuò)誤率是1.83%，正確率是92.58%。相比于基于DNN 的i-vector方法，它降低了50%的錯(cuò)誤率，提高了60%的正確率。

百度發(fā)布Deep Speaker：大規(guī)模聲紋識(shí)別的端對(duì)端系統(tǒng)

說(shuō)明：在實(shí)驗(yàn)中百度美研院所使用的數(shù)據(jù)集是 UIDs，XiaoDu，和Mandarin。UIDs和XiaoDu是普通話數(shù)據(jù)集，Mturk是英語(yǔ)數(shù)據(jù)集。UIDs和Mturk是文本獨(dú)立的數(shù)據(jù)集，XiaoDu是文本相關(guān)的數(shù)據(jù)集，其基于百度的喚醒字（wake word）。為了在不同大小的訓(xùn)練集上做實(shí)驗(yàn)，他們用了全部的UIDs數(shù)據(jù)集（250,000）和它的一個(gè)子集（50,000）。在評(píng)估階段，他們選擇了一個(gè)Anchor，然后再?gòu)臏y(cè)試部分隨機(jī)地選擇1個(gè)Anchor positive樣本和99個(gè)Anchor negatives樣本。

團(tuán)隊(duì)還發(fā)現(xiàn)Deep Speaker學(xué)習(xí)到了與語(yǔ)言無(wú)關(guān)的特征。當(dāng)在普通話語(yǔ)境下訓(xùn)練時(shí)，Deep Speaker卻能在英文確認(rèn)和識(shí)別的任務(wù)上達(dá)到5.57%的錯(cuò)誤率和88%的正確率。此外，先用普通話再用英文訓(xùn)練可相比于只用英文訓(xùn)練，提高了英文識(shí)別的準(zhǔn)確率。這些結(jié)果都顯示出盡管不同的語(yǔ)言聽(tīng)起來(lái)非常不同,深度語(yǔ)者卻學(xué)習(xí)到了跨語(yǔ)言的聲音特征。這些結(jié)果與Deep Speech 2的結(jié)果類(lèi)似，同樣的架構(gòu)都可以用來(lái)辨認(rèn)不同語(yǔ)言的聲紋識(shí)別。

關(guān)于Deep Speaker模型的更多細(xì)節(jié)，訓(xùn)練技巧和實(shí)驗(yàn)結(jié)果都可以在論文中找到。

論文地址：https://arxiv.org/abs/1705.02304

via research.baidu，雷鋒網(wǎng)翻譯

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

1人收藏

相關(guān)文章

彭鵬

編輯

發(fā)私信

當(dāng)月熱門(mén)文章