丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
業(yè)界 正文
發(fā)私信給彭鵬
發(fā)送

0

百度發(fā)布Deep Speaker:大規(guī)模聲紋識(shí)別的端對(duì)端系統(tǒng)

本文作者: 彭鵬 編輯:郭奕欣 2017-05-11 17:53
導(dǎo)語:日前,百度美研院宣布了其在聲紋識(shí)別上所取得的突破性成果。研究表明:利用深度學(xué)習(xí)的方法比傳統(tǒng)的i-vector方法在識(shí)別準(zhǔn)確率上獲得了顯著的提高。

雷鋒網(wǎng)按:此前雷鋒網(wǎng)曾經(jīng)報(bào)道過百度在語音技術(shù)上的進(jìn)展。日前,百度美研院宣布了其在聲紋識(shí)別上所取得的突破性成果。研究表明:利用深度學(xué)習(xí)的方法比傳統(tǒng)的i-vector方法在識(shí)別準(zhǔn)確率上獲得了顯著的提高。

聲紋識(shí)別算法尋求從音頻中識(shí)別說話者的身份。兩個(gè)常見的識(shí)別任務(wù)是確認(rèn)(說話者是不是他宣稱的那個(gè)人)和說話者身份識(shí)別(在一群未知的說話者中確認(rèn)聲音的來源)。

該項(xiàng)技術(shù)已經(jīng)有了各種應(yīng)用。例如,聲紋可以用來登錄設(shè)備。說話者確認(rèn)也可以作為金融交易的額外安全措施。此外,類似于智能家居助手之類的共享設(shè)備也可以利用這項(xiàng)技術(shù)來提供個(gè)性化的服務(wù)。

最近使用神經(jīng)網(wǎng)絡(luò)來進(jìn)行聲紋識(shí)別的論文已經(jīng)改進(jìn)了傳統(tǒng)的i-vector方法(參考Interspeech教程的原始論文或者幻燈片)。i-vector方法認(rèn)為說話內(nèi)容可以被分為兩個(gè)部分,一個(gè)部分依賴于說話者和信道可變性,另一個(gè)部分依賴于其它的相關(guān)因素。i-vector聲紋識(shí)別是一個(gè)多步過程,其涉及到使用不同說話者的數(shù)據(jù)來估計(jì)一個(gè)通用的背景模型(通常是高斯混合模型),收集充分的統(tǒng)計(jì)數(shù)據(jù),提取i-vector,最后使用一個(gè)分類器來進(jìn)行識(shí)別任務(wù)。

 一些論文用神經(jīng)網(wǎng)絡(luò)代替了i-vector流水線的方法。其它研究者要么訓(xùn)練了一個(gè)文本相關(guān)(使用者必須說同樣的話)的端對(duì)端語者識(shí)別系統(tǒng),要么訓(xùn)練了文本獨(dú)立(這個(gè)模型與說話內(nèi)容不相關(guān))的端對(duì)端語者識(shí)別系統(tǒng)。我們介紹Deep Speaker:一個(gè)端對(duì)端的神經(jīng)聲紋識(shí)別系統(tǒng),它在文本相關(guān)和文本獨(dú)立的場(chǎng)景下都取得了良好的效果。這意味這個(gè)系統(tǒng)可以被訓(xùn)練來識(shí)別誰在說話,無論是當(dāng)你對(duì)你的家庭助手說“wake”或者你在會(huì)議中發(fā)言。

Deep Speaker由深度神經(jīng)網(wǎng)絡(luò)層組成,從音頻中提取特征,基于余弦相似性的時(shí)間池和三元組損失(triplet loss)。百度美研院探究了ResNet激活的卷積模型和現(xiàn)有模型在提取聲學(xué)特征上的效果。

百度發(fā)布Deep Speaker:大規(guī)模聲紋識(shí)別的端對(duì)端系統(tǒng)

說明:在這里百度美研院使用了人臉識(shí)別中采用的三元組損失。在訓(xùn)練過程中,他們選擇了一個(gè)說話者的話語,然后計(jì)算一個(gè)嵌入(標(biāo)記為“Anchor”)。再產(chǎn)生兩個(gè)嵌入,一個(gè)來自相同的演講者(標(biāo)記為“Positive”),一個(gè)來自于不同的演講者(標(biāo)記為“Negative”)。在訓(xùn)練過程中,其目標(biāo)是讓Anchor與positive嵌入之間的余弦相似度高于Anchor與negative嵌入之間的余弦相似度。

百度美研院展示了Deep Speaker在三個(gè)不同數(shù)據(jù)集上的有效性,包括文本相關(guān)和文本獨(dú)立的任務(wù)。其中之一的UIDs數(shù)據(jù)集包括大約250000名說話者,是知識(shí)文獻(xiàn)中最大的數(shù)據(jù)集。實(shí)驗(yàn)結(jié)果表明:Deep Speaker要明顯優(yōu)于基于DNN 的i-vector方法。例如,在一個(gè)文本獨(dú)立的數(shù)據(jù)集中隨機(jī)挑選出100個(gè)演講者,Deep Speaker在說話者身份確認(rèn)任務(wù)上的錯(cuò)誤率是1.83%,正確率是92.58%。相比于基于DNN 的i-vector方法,它降低了50%的錯(cuò)誤率,提高了60%的正確率。

百度發(fā)布Deep Speaker:大規(guī)模聲紋識(shí)別的端對(duì)端系統(tǒng)

說明:在實(shí)驗(yàn)中百度美研院所使用的數(shù)據(jù)集是 UIDs,XiaoDu,和Mandarin。UIDs和XiaoDu是普通話數(shù)據(jù)集,Mturk是英語數(shù)據(jù)集。UIDs和Mturk是文本獨(dú)立的數(shù)據(jù)集,XiaoDu是文本相關(guān)的數(shù)據(jù)集,其基于百度的喚醒字(wake word)。為了在不同大小的訓(xùn)練集上做實(shí)驗(yàn),他們用了全部的UIDs數(shù)據(jù)集(250,000)和它的一個(gè)子集(50,000)。在評(píng)估階段,他們選擇了一個(gè)Anchor,然后再從測(cè)試部分隨機(jī)地選擇1個(gè)Anchor positive樣本和99個(gè)Anchor negatives樣本。

團(tuán)隊(duì)還發(fā)現(xiàn)Deep Speaker學(xué)習(xí)到了與語言無關(guān)的特征。當(dāng)在普通話語境下訓(xùn)練時(shí),Deep Speaker卻能在英文確認(rèn)和識(shí)別的任務(wù)上達(dá)到5.57%的錯(cuò)誤率和88%的正確率。此外,先用普通話再用英文訓(xùn)練可相比于只用英文訓(xùn)練,提高了英文識(shí)別的準(zhǔn)確率。這些結(jié)果都顯示出盡管不同的語言聽起來非常不同,深度語者卻學(xué)習(xí)到了跨語言的聲音特征。這些結(jié)果與Deep Speech 2的結(jié)果類似,同樣的架構(gòu)都可以用來辨認(rèn)不同語言的聲紋識(shí)別。

關(guān)于Deep Speaker模型的更多細(xì)節(jié),訓(xùn)練技巧和實(shí)驗(yàn)結(jié)果都可以在論文中找到。

論文地址:https://arxiv.org/abs/1705.02304

via research.baidu,雷鋒網(wǎng)翻譯

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說