0
雷鋒網(wǎng)按:此前雷鋒網(wǎng)曾經(jīng)報(bào)道過百度在語音技術(shù)上的進(jìn)展。日前,百度美研院宣布了其在聲紋識(shí)別上所取得的突破性成果。研究表明:利用深度學(xué)習(xí)的方法比傳統(tǒng)的i-vector方法在識(shí)別準(zhǔn)確率上獲得了顯著的提高。
聲紋識(shí)別算法尋求從音頻中識(shí)別說話者的身份。兩個(gè)常見的識(shí)別任務(wù)是確認(rèn)(說話者是不是他宣稱的那個(gè)人)和說話者身份識(shí)別(在一群未知的說話者中確認(rèn)聲音的來源)。
該項(xiàng)技術(shù)已經(jīng)有了各種應(yīng)用。例如,聲紋可以用來登錄設(shè)備。說話者確認(rèn)也可以作為金融交易的額外安全措施。此外,類似于智能家居助手之類的共享設(shè)備也可以利用這項(xiàng)技術(shù)來提供個(gè)性化的服務(wù)。
最近使用神經(jīng)網(wǎng)絡(luò)來進(jìn)行聲紋識(shí)別的論文已經(jīng)改進(jìn)了傳統(tǒng)的i-vector方法(參考Interspeech教程的原始論文或者幻燈片)。i-vector方法認(rèn)為說話內(nèi)容可以被分為兩個(gè)部分,一個(gè)部分依賴于說話者和信道可變性,另一個(gè)部分依賴于其它的相關(guān)因素。i-vector聲紋識(shí)別是一個(gè)多步過程,其涉及到使用不同說話者的數(shù)據(jù)來估計(jì)一個(gè)通用的背景模型(通常是高斯混合模型),收集充分的統(tǒng)計(jì)數(shù)據(jù),提取i-vector,最后使用一個(gè)分類器來進(jìn)行識(shí)別任務(wù)。
一些論文用神經(jīng)網(wǎng)絡(luò)代替了i-vector流水線的方法。其它研究者要么訓(xùn)練了一個(gè)文本相關(guān)(使用者必須說同樣的話)的端對(duì)端語者識(shí)別系統(tǒng),要么訓(xùn)練了文本獨(dú)立(這個(gè)模型與說話內(nèi)容不相關(guān))的端對(duì)端語者識(shí)別系統(tǒng)。我們介紹Deep Speaker:一個(gè)端對(duì)端的神經(jīng)聲紋識(shí)別系統(tǒng),它在文本相關(guān)和文本獨(dú)立的場(chǎng)景下都取得了良好的效果。這意味這個(gè)系統(tǒng)可以被訓(xùn)練來識(shí)別誰在說話,無論是當(dāng)你對(duì)你的家庭助手說“wake”或者你在會(huì)議中發(fā)言。
Deep Speaker由深度神經(jīng)網(wǎng)絡(luò)層組成,從音頻中提取特征,基于余弦相似性的時(shí)間池和三元組損失(triplet loss)。百度美研院探究了ResNet激活的卷積模型和現(xiàn)有模型在提取聲學(xué)特征上的效果。
說明:在這里百度美研院使用了人臉識(shí)別中采用的三元組損失。在訓(xùn)練過程中,他們選擇了一個(gè)說話者的話語,然后計(jì)算一個(gè)嵌入(標(biāo)記為“Anchor”)。再產(chǎn)生兩個(gè)嵌入,一個(gè)來自相同的演講者(標(biāo)記為“Positive”),一個(gè)來自于不同的演講者(標(biāo)記為“Negative”)。在訓(xùn)練過程中,其目標(biāo)是讓Anchor與positive嵌入之間的余弦相似度高于Anchor與negative嵌入之間的余弦相似度。
百度美研院展示了Deep Speaker在三個(gè)不同數(shù)據(jù)集上的有效性,包括文本相關(guān)和文本獨(dú)立的任務(wù)。其中之一的UIDs數(shù)據(jù)集包括大約250000名說話者,是知識(shí)文獻(xiàn)中最大的數(shù)據(jù)集。實(shí)驗(yàn)結(jié)果表明:Deep Speaker要明顯優(yōu)于基于DNN 的i-vector方法。例如,在一個(gè)文本獨(dú)立的數(shù)據(jù)集中隨機(jī)挑選出100個(gè)演講者,Deep Speaker在說話者身份確認(rèn)任務(wù)上的錯(cuò)誤率是1.83%,正確率是92.58%。相比于基于DNN 的i-vector方法,它降低了50%的錯(cuò)誤率,提高了60%的正確率。
說明:在實(shí)驗(yàn)中百度美研院所使用的數(shù)據(jù)集是 UIDs,XiaoDu,和Mandarin。UIDs和XiaoDu是普通話數(shù)據(jù)集,Mturk是英語數(shù)據(jù)集。UIDs和Mturk是文本獨(dú)立的數(shù)據(jù)集,XiaoDu是文本相關(guān)的數(shù)據(jù)集,其基于百度的喚醒字(wake word)。為了在不同大小的訓(xùn)練集上做實(shí)驗(yàn),他們用了全部的UIDs數(shù)據(jù)集(250,000)和它的一個(gè)子集(50,000)。在評(píng)估階段,他們選擇了一個(gè)Anchor,然后再從測(cè)試部分隨機(jī)地選擇1個(gè)Anchor positive樣本和99個(gè)Anchor negatives樣本。
團(tuán)隊(duì)還發(fā)現(xiàn)Deep Speaker學(xué)習(xí)到了與語言無關(guān)的特征。當(dāng)在普通話語境下訓(xùn)練時(shí),Deep Speaker卻能在英文確認(rèn)和識(shí)別的任務(wù)上達(dá)到5.57%的錯(cuò)誤率和88%的正確率。此外,先用普通話再用英文訓(xùn)練可相比于只用英文訓(xùn)練,提高了英文識(shí)別的準(zhǔn)確率。這些結(jié)果都顯示出盡管不同的語言聽起來非常不同,深度語者卻學(xué)習(xí)到了跨語言的聲音特征。這些結(jié)果與Deep Speech 2的結(jié)果類似,同樣的架構(gòu)都可以用來辨認(rèn)不同語言的聲紋識(shí)別。
關(guān)于Deep Speaker模型的更多細(xì)節(jié),訓(xùn)練技巧和實(shí)驗(yàn)結(jié)果都可以在論文中找到。
論文地址:https://arxiv.org/abs/1705.02304
via research.baidu,雷鋒網(wǎng)翻譯
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。