0
本文作者: AI科技評論 | 2016-06-07 21:53 |
今天,全世界最不可能被盜號的人被盜號了,他就是世界最大社交網(wǎng)站Facebook的CEO扎克伯格。不僅如此,扎克伯格的密碼還簡單得讓人大跌眼鏡——“dadada”。這個沒有任何大小寫區(qū)分、沒有數(shù)字和其他符號的密碼,黑客只要不到25秒就能破解。
笑談之余,這個新聞讓人們再次思考,未來更加安全的網(wǎng)絡(luò)身份驗證技術(shù)是什么?也許,正如未來人工智能語音交互將代替現(xiàn)在的APP交互,身份驗證也會采用人工智能語音驗證。谷歌的研究讓我們看到,未來登錄社交網(wǎng)站,也許只要說一句:“OK Google!”
谷歌Brain的研究人員們在一篇名為《端到端基于文本的語音驗證》的論文中,介紹了一種神經(jīng)網(wǎng)絡(luò)架構(gòu),能為高精度、容易維護(hù)的小型大數(shù)據(jù)應(yīng)用(例如谷歌的應(yīng)用),提供用戶語音驗證。這篇論文發(fā)表于 IEEE 2016 聲學(xué)、語音和信號處理國際大會(ICASSP)上。
今年8月,谷歌DeepMind CEO Demis Hassabis也將參加雷鋒網(wǎng)舉辦的人工智能與機(jī)器人創(chuàng)新大會。在此,雷鋒網(wǎng)分享論文全文內(nèi)容。
論文作者簡介
George Heigold 在加入谷歌前,在德國亞琛工業(yè)大學(xué)計算機(jī)學(xué)院任教,2010年成為谷歌研究科學(xué)家,研究領(lǐng)域包括自動語音識別、語音識別中的區(qū)分性訓(xùn)練和對數(shù)線性模型等。
Samy Bengio 2007年加入谷歌擔(dān)任研究科學(xué)家,之前在瑞士IDIAP研究院擔(dān)任高級研究員并培養(yǎng)PhD博士生及博士后研究員。同時,他還是《機(jī)器學(xué)習(xí)研究期刊》編輯、IEEE信號處理神經(jīng)網(wǎng)絡(luò)工作室項目主席以及IJCAI等知名學(xué)術(shù)期刊的項目委員。他的研究領(lǐng)域覆蓋機(jī)器學(xué)習(xí)的許多方面。
Noam Shazeer 畢業(yè)于杜克大學(xué),一直在谷歌擔(dān)任研究科學(xué)家。研究領(lǐng)域包括語音學(xué)、自然語言處理和計算機(jī)科學(xué)。
Ignacio Lopez-Moreno 是谷歌軟件工程師,正在攻讀博士學(xué)位,曾獲IBM研究最佳論文等獎項。他的研究領(lǐng)域包括語音識別、模式識別等。
論文摘要
這篇論文中我們將呈現(xiàn)一種數(shù)據(jù)驅(qū)動的整合方法,來解決用戶語音驗證問題。我們將一個測試發(fā)音與幾個參考發(fā)音進(jìn)行比較,直接生成一個配對分?jǐn)?shù)進(jìn)行驗證,并在測試時使用相同的評估協(xié)議和維度來優(yōu)化系統(tǒng)部件。這樣的方法可以創(chuàng)造簡單、高效的系統(tǒng),不需要了解領(lǐng)域特定的語言,也不需要進(jìn)行模型假設(shè)。我們將概念落地,將問題表達(dá)為一個單個神經(jīng)網(wǎng)絡(luò)架構(gòu),包括只用幾個發(fā)音來評估一個語音模型,并且用我們內(nèi)部的“OK Google”基準(zhǔn)來評估基于文本的語音驗證。對于類似谷歌這樣要求高精度、系統(tǒng)容易維護(hù)的小型大數(shù)據(jù)應(yīng)用來說,我們提出的方法非常有效。
1、簡介
語音驗證指的是基于已知的用戶發(fā)音,來驗證一個發(fā)音是否屬于該用戶的驗證過程。當(dāng)在所有用戶中,發(fā)音中的詞匯僅限于一個單詞或詞組,這個過程稱為基于文本的通用密碼語音驗證。通過限制詞匯,基于文本的語音驗證可以彌補(bǔ)發(fā)音的不同變化,發(fā)音是語音驗證中的一個重大挑戰(zhàn)。在谷歌,我們想用這個通用密碼“OK Google”來研究基于文本的語音驗證。之所以選擇這個特別短、大約費時0.6秒的通用密碼,是與谷歌關(guān)鍵字辨認(rèn)系統(tǒng)和谷歌語音搜索有關(guān),能夠幫助我們把這幾個系統(tǒng)結(jié)合起來。
這篇論文中,我們提出直接將一個測試發(fā)音和幾個發(fā)音匹配,建立用戶的模型,用一個分?jǐn)?shù)來進(jìn)行驗證。所有部件是遵循標(biāo)準(zhǔn)語音驗證協(xié)議,進(jìn)行聯(lián)合優(yōu)化。與現(xiàn)有的辦法相比,這樣一種端到端的辦法有幾個優(yōu)勢,包括發(fā)音的直接建模,這樣可以理解更大的語境、減少復(fù)雜度(每次發(fā)音是一個或多個幀的評估),以及直接且聯(lián)合的預(yù)估,能夠創(chuàng)建更好、更簡潔的模型。而且,這種方法創(chuàng)建的系統(tǒng)經(jīng)常要間接得多,所需的概念和方法都更少。
更具體地來說,這篇論文的貢獻(xiàn)主要包括:
建立了一個端到端語音認(rèn)證架構(gòu),包括基于若干個發(fā)音預(yù)估用戶模型(第4部分);
端到端語音驗證的實證評估,包括幀(i-矢量與d-矢量)和發(fā)音層面表征的比較(第5.2部分),以及端到端損失的分析(第5.3部分)。
前饋控制和循環(huán)神經(jīng)網(wǎng)絡(luò)之間的實證比較(第5.4部分)。
這篇論文集中討論基于文本語音驗證在小型系統(tǒng)上的應(yīng)用。但是這種方法可以普遍應(yīng)用,也可以用在無關(guān)文本的語音驗證上。
在之前的研究中,驗證問題被分解為更容易處理的子問題,但是子問題之間關(guān)聯(lián)較為松散。舉個例子,在無關(guān)文本的語音驗證和基于文本的語音驗證中,i-矢量和概率線性判別分析(PLDA)的結(jié)合一直都是主流方法。另外,也有研究證明混合方法(包括基于深度學(xué)習(xí)的部件)有助于無關(guān)文本的語音識別。然而,對于小型系統(tǒng)來說,一個更直接的深度學(xué)習(xí)模型可能更好。據(jù)我們所知,循環(huán)神經(jīng)網(wǎng)絡(luò)在其他相關(guān)問題上已經(jīng)有了應(yīng)用,例如語音識別和語言識別,但是還未曾用于語音驗證任務(wù)。我們提出的神經(jīng)網(wǎng)絡(luò)架構(gòu)可以看作是一個生成模型-判別模型混合體的聯(lián)合優(yōu)化,與適應(yīng)的深度展開類似。
這篇論文其余部分的結(jié)構(gòu)如下:第2部分提供了語音驗證的簡短綜述。第3部分描述了d-矢量方法。第4部分介紹了我們提出的端到端語音驗證方法。第5部分你可以看到實驗評估和分析。第6部分是論文的總結(jié)。
2、語音驗證協(xié)議
標(biāo)準(zhǔn)語音驗證協(xié)議可以被分為三個步驟:訓(xùn)練、注冊和評估,我們接下來會詳細(xì)介紹。
訓(xùn)練:
在訓(xùn)練階段,我們從發(fā)音中找到一個合適的內(nèi)部語音表征,這樣能有一個簡單的打分功能??偟膩碚f,這種表征取決于模型的類型(例如,子空間高斯混合模型或者深度神經(jīng)網(wǎng)絡(luò))、表征層級(幀或發(fā)音)以及模型訓(xùn)練損失(例如,最大可能性或者softmax)。最好的表征是幀層級信息的總結(jié),例如i-矢量和d-矢量(第3部分)。
注冊:
在注冊階段,用戶提供了若干個發(fā)音(見表格1),用來預(yù)估用戶模型。常見的辦法是取這些發(fā)音中i-矢量或者d-矢量的平均值。
評估:
在評估階段,我們進(jìn)行驗證任務(wù),系統(tǒng)也進(jìn)行評估。為了驗證,發(fā)音 X 的打分函數(shù)值和測試用戶 spk, S(X, spk),與一個預(yù)先定義的閾值進(jìn)行比較。如果分?jǐn)?shù)超過閾值我們就接受,也就是說,判斷發(fā)音 X 來自用戶 spk,反之,如果沒有超過閾值我們就拒絕,判斷發(fā)音 X 不來自于用戶 spk 。在這個設(shè)定中可能會出現(xiàn)兩種類型的錯誤:錯誤拒絕和錯誤接受。顯然,錯誤拒絕率和錯誤接受率取決于閾值。當(dāng)這兩項比率相同時,這項值稱為相等錯誤率(EER)。
一個簡單的打分函數(shù),是發(fā)音 X 評估結(jié)果的用戶表征 f(X),與用戶模型 mspk 之間的余弦相似度。
S(X, spk) = [ f(X)T mspk ] / [ ||f(X)|| ||mspk|| ]
我們提出 PLDA 作為一種更加精確、數(shù)據(jù)驅(qū)動的打分方法。
3、D-向量基準(zhǔn)方法
D-向量是從一個深度神經(jīng)網(wǎng)絡(luò)(DNN)中而來的,作為一個發(fā)音的用戶表征。一個DNN包括了若干個非線性函數(shù)的連續(xù)應(yīng)用,從而將用戶發(fā)音轉(zhuǎn)化為矢量,這樣可以輕松進(jìn)行決策。下面的圖表1描繪了我們基準(zhǔn)DNN的拓?fù)鋵W(xué)。它包括一個本地聯(lián)接的層,以及若干個完全聯(lián)接的層。所有層都使用 ReLU 啟動,除了最后一個線性層。在訓(xùn)練階段,DNN的參數(shù)使用 softmax 來最優(yōu)化,為了方便起見,我們的定義包含一個線性轉(zhuǎn)化,有一個權(quán)重矢量 wspk 和偏差 bspk,后面加上一個 softmax 函數(shù)和叉熵?fù)p失函數(shù):
最后一個隱藏層的啟動矢量標(biāo)記為 y,正確用戶標(biāo)記為 spk。
訓(xùn)練階段完成后,DNN的參數(shù)就確定了。發(fā)音d-矢量的獲取方法是,發(fā)音所有幀的最后一個隱藏層的啟動矢量的平均值。每個發(fā)音生成一個d-矢量。為了進(jìn)行注冊,對注冊發(fā)音的d-矢量進(jìn)行平均,就獲得了用戶模型。最后,在評估階段,打分函數(shù)是用戶模型d-矢量和測試發(fā)音d-矢量之間的余弦相似度。
圖表1
圖表2
對這項基準(zhǔn)方法有一些批評,包括從幀而來的d-矢量的情景局限以及損失的類型。softmax 損失函數(shù)有望從所有用戶中區(qū)分出真正的用戶,但是在第2部分沒有遵守標(biāo)準(zhǔn)驗證協(xié)議。這樣的結(jié)果是,必須要有方法和評分標(biāo)準(zhǔn)化技術(shù)來彌補(bǔ)不一致性。而且,softmax 損失函數(shù)沒法很好地擴(kuò)大化,因為計算復(fù)雜度是線性的,每個用戶必須有最少量的數(shù)據(jù)來評估具體用戶的權(quán)重和偏差??梢杂煤蜻x人取樣方法來減輕復(fù)雜度問題(而非預(yù)估問題)。
對于其他的語音驗證方法我們也可以指出同樣的問題,其中一些部件塊要不是聯(lián)系松散,要不就是沒有遵循語音驗證協(xié)議直接優(yōu)化。舉個例子,GMM-UBM 或者 i-矢量模型沒有直接優(yōu)化驗證問題?;蛘弑容^長的情景特征可能被基于幀的 GMM-UBM 模型忽視。
4、端到端用戶驗證
在這個部分,我們將用戶驗證協(xié)議的各個步驟整合為一個單一的網(wǎng)絡(luò)(見圖表2)。這個網(wǎng)絡(luò)的輸入由一個“評估”發(fā)音和一小組“注冊”發(fā)音組成。輸出是一個單一的節(jié),指明是接受還是拒絕。我們使用DistBelief 來聯(lián)合優(yōu)化這個端到端架構(gòu),它是 TensorFlow 的一個早期版本。用這兩種工具,復(fù)雜的計算圖表(例如我們端到端拓?fù)鋵W(xué)定義的那個圖標(biāo))可以分解為一系列操作,具有簡單的梯度,例如總和、分區(qū)和矢量的交叉產(chǎn)品。在訓(xùn)練步驟之后,所有網(wǎng)絡(luò)權(quán)重保持不變,除了一維邏輯回歸的偏差(圖表2)是根據(jù)注冊數(shù)據(jù)手動調(diào)試的。除此以外,注冊步驟什么也沒有做,因為用戶模型預(yù)估是網(wǎng)絡(luò)的一部分。在測試的時候,我們在網(wǎng)絡(luò)中輸入一個評估發(fā)音和要測試的用戶的注冊發(fā)音,網(wǎng)絡(luò)直接輸出判斷結(jié)果。
圖表3
我們使用神經(jīng)網(wǎng)絡(luò)來獲取發(fā)音的用戶表征。我們在研究中使用的兩種網(wǎng)絡(luò)類型,在圖表1和圖表3中:一個深度神經(jīng)網(wǎng)絡(luò)(DNN),帶有本地聯(lián)接和完全聯(lián)接的層作為我們第3部分的基準(zhǔn)DNN,以及一個長短時記憶循環(huán)神經(jīng)網(wǎng)絡(luò)(LSTM),和一個單一輸出。DNN假設(shè)輸入長度固定。為了符合這項限制,我們將一個固定長度、足夠時長的幀疊加到發(fā)音上,作為輸入。對LSTM就不需要這招了,但是我們?yōu)榱烁玫目杀刃裕褂猛瑯拥膸瑫r長。與具有多個輸出的LSTM不同,我們只連接最后一個輸入到損失函數(shù),來獲得單一的、發(fā)音層級的用戶表征。
用戶模型是一些“注冊”表征的平均。我們使用相同的網(wǎng)絡(luò)來計算“測試”發(fā)音和用戶模型發(fā)音的內(nèi)部表征。通常,實際的每個用戶發(fā)音數(shù)量(幾百個或更多)比在注冊階段(十個以內(nèi))多得多。為了避免錯誤配對,每一個訓(xùn)練發(fā)音,我們只從同一個用戶獲取幾個樣本發(fā)音,來在訓(xùn)練階段創(chuàng)建用戶模型。總體來說,我們沒法假設(shè)每個用戶有N個發(fā)音。為實現(xiàn)可變的發(fā)音數(shù)量,我們在發(fā)音上加入權(quán)重來指明是否要使用這個發(fā)音。
最終,我們計算出用戶表征和用戶模型 S ( X, spk)之間的余弦相似度,把它輸入一個包括有偏差線性層的邏輯回歸。架構(gòu)是使用端到端損失函數(shù) le2e = ? log p(target) 來最優(yōu)化,其中二維變量target ∈ {accept, reject}, p(accept) = (1+exp(?wS(X, spk)?b))?1,以及p(reject) = 1?p(accept)。-b/w 的值相當(dāng)于驗證閾值。
端到端架構(gòu)的輸入是 1+N 個發(fā)音,例如,一個要測試的發(fā)音,和最多N個不同的用戶發(fā)音,來預(yù)估用戶模型。為了實現(xiàn)數(shù)據(jù)處理和內(nèi)存之間的平衡,輸入層維護(hù)一個發(fā)音庫來為每一個訓(xùn)練步驟獲取1+N個發(fā)音樣本,并經(jīng)常更新以實現(xiàn)更好的數(shù)據(jù)處理。由于用戶模型需要同一個用戶特定數(shù)量的發(fā)音,數(shù)據(jù)的呈現(xiàn)方式是同一個用戶的一小組發(fā)音。
5、實驗評估
我們使用內(nèi)部的“OK Google”基準(zhǔn)來評估我們提出的端到端方法。
5.1. 數(shù)據(jù)組合基本設(shè)定
我們用一組從匿名的語音搜索記錄中收集來的“OK Google”發(fā)音,來測試我們提出的端到端方法。我們實行了多種風(fēng)格的訓(xùn)練,來提升噪音強(qiáng)度。我們?nèi)斯ぜ尤肓似嚭筒蛷d噪音來增強(qiáng)數(shù)據(jù),并模擬用戶發(fā)言時與麥克風(fēng)的不同距離。注冊和評估數(shù)據(jù)只包括真實數(shù)據(jù)。表格1展示了一些數(shù)據(jù)組的統(tǒng)計數(shù)據(jù)。
表格1
發(fā)音強(qiáng)制統(tǒng)一起來,從而獲取“OK Google”的片段。這些片段的平均長度大約是80幀,幀率是100Hz?;谶@項觀察結(jié)果,我們從每一個片段抽取最后的80幀,有可能在片段的最初和最后增減了一些幀。每一幀由40個濾波器組日志組成。
對DNN來說,我們將80輸入幀連接起來,這樣有了一個 80x40 維度的特征矢量。除非另外說明,DNN由4個隱藏層組成。DNN里所有隱藏層有504個節(jié),使用 ReLU 啟動,除了最后一個線性層。DNN中本地連接層的區(qū)塊大小是 10x10。對 LSTM,我們將40維度的特征矢量一幀一幀地輸入。我們使用一個有504個節(jié)的單個 LSTM 層,沒有投影層。所有試驗中的批量大小都是32。
結(jié)果是按相等錯誤率(ERR)來匯報的,包括沒有及有t分?jǐn)?shù)標(biāo)準(zhǔn)化的兩個類別。
5.2. 幀層面 vs 發(fā)音層面的表征
表格2
首先,我們比較幀層面和發(fā)音層面的用戶表征(見表格2)。這里,我們使用了一個圖表1中所描述的DNN 和一個 softmax 層,使用 train_2M (見表格1)來進(jìn)行訓(xùn)練,在線性層面有50%的丟失。發(fā)音層面的方法比幀層面的方法更好,超出30%。在每一種方法中,分?jǐn)?shù)標(biāo)準(zhǔn)化技術(shù)帶來了重大的運行提升(相對提升了20%)。為了比較,這里展示了兩個i-矢量基準(zhǔn)。第一個基準(zhǔn)是基于表格2中的6,使用13 PLP以及一階和二階導(dǎo)數(shù)、1024高斯和300維度的i-矢量。第二個基準(zhǔn)是基于表格2中的27,有150個本征音。i-矢量+PLDA基準(zhǔn)應(yīng)該還得打些折扣,因為 PLDA 模型的訓(xùn)練只使用了 2M_train 數(shù)據(jù)庫的一個子集(4k用戶、每個用戶50個發(fā)音),這是因為我們目前實施方面的局限(不過,這與每個用戶只用30個發(fā)音訓(xùn)練的結(jié)果幾乎是一樣的)。另外,這個基準(zhǔn)沒有包括其他的改善技術(shù),例如“不確定性測試”,這項測試已經(jīng)證實在特定情況下可以給出很多額外增量。我們已經(jīng)大大提升了我們的d-矢量。
5.3 Softmax函數(shù) vs 端到端損失函數(shù)
接下來,為了訓(xùn)練發(fā)音層級的用戶表征,我們比較了 softmax 損失函數(shù)(第2部分)和端到端損失函數(shù)(第4部分)。表格3顯示了圖表1中的 DNN 的同等錯誤率。它用了一個小訓(xùn)練庫來訓(xùn)練(train_2M),原始分?jǐn)?shù)的錯誤了可以和不同的損失函數(shù)相比。雖然損失讓 softmax 函數(shù)獲得了1%的絕對增益,對于端到端損失函數(shù)我們沒有觀察到損失帶來任何增益。類似的,t標(biāo)準(zhǔn)化對 softmanx 函數(shù)有20%的幫助,但是對端到端損失函數(shù)沒有任何幫助。這項結(jié)果符合訓(xùn)練損失和評估維度之間的一致度。尤其是端到端方法在訓(xùn)練中假設(shè)了一個通用閾值,可以不經(jīng)意地學(xué)會標(biāo)準(zhǔn)化分?jǐn)?shù),標(biāo)準(zhǔn)化分?jǐn)?shù)在不同的噪音情況下維持不變、讓分?jǐn)?shù)標(biāo)準(zhǔn)顯得多余。當(dāng)我們?yōu)閱佣说蕉擞?xùn)練而使用 softmax DNN,錯誤率從 2.86% 減少到了2.25%,意味著存在預(yù)估問題。
如果用更大的訓(xùn)練組(train_22M)來訓(xùn)練,端到端損失函數(shù)明顯比 softmax 函數(shù)更好,見表格3。為了合理地將 softmax 層擴(kuò)大到80k個用戶標(biāo)簽,我們使用了候選人取樣方法。這次,t標(biāo)準(zhǔn)化也為 softmax函數(shù)帶來了20%的幫助,softmax 可以跟得上其他損失函數(shù),它們從t標(biāo)準(zhǔn)化中沒有什么獲益。端到端訓(xùn)練的啟動(隨機(jī) vs “預(yù)先訓(xùn)練”的softmax DNN)在這種情況下沒有什么影響。
雖然用了候選人取樣,端到端方法的步驟時間比 softmax 方法更長,因為用戶模型是運行中計算出來的,總體收斂時間還是相當(dāng)?shù)摹?/p>
表格3
訓(xùn)練中預(yù)估用戶模型的發(fā)音數(shù)量被稱為用戶模型大小,最佳的選擇要看注冊發(fā)音的(平均)數(shù)量。但是,實際上更小的用戶模型大小反而可能更好,更能縮短訓(xùn)練時間、并讓訓(xùn)練更難。圖表4展現(xiàn)了測試同等錯誤率對用戶模型大小的依賴性。最適宜范圍相對較寬,模型大小大約為5,同等錯誤率為2.04%,相比之下,模型大小為1時有2.25%的同等錯誤率。這個模型大小近似于真實的平均模型大小,對我們的注冊組來說大小是6。這篇論文中的其他配置(未展示)也看到了類似的趨勢。這意味著,我們提出的訓(xùn)練算法與驗證協(xié)議之間有一致性,意味著針對具體任務(wù)的訓(xùn)練會更好。
5.4. 前饋控制 vs 循環(huán)神經(jīng)網(wǎng)絡(luò)
圖表4
目前為止,我們集中討論圖表1中的“小型”DNN,帶有一個本地聯(lián)接層和三個完全聯(lián)接的隱藏層。接下來,我們探索更大的、不同的網(wǎng)絡(luò)架構(gòu),與它們的大小和計算復(fù)雜度無關(guān)。結(jié)果總結(jié)在圖表4中。與小型DNN相比,“最好”的DNN使用一個額外的隱藏層,有10%的相對增益。圖表3中的 LSTM 在最佳DNN的基礎(chǔ)上又增加了30%的增益。參數(shù)數(shù)量與DNN的相似,但是 LSTM 多了10倍的乘法和加法。更多的超級參數(shù)調(diào)試有望降低計算復(fù)雜度,增加可用性。使用 softmax 損失函數(shù)(運用t標(biāo)準(zhǔn)化、候選人取樣以及可能提早暫停,這些技術(shù)在端到端方法中都是不需要的)。在 train_2M 中,我們觀察到錯誤率在相應(yīng)的DNN基準(zhǔn)上有相似的相對增益。
表格4
6、總結(jié)
我們提出了一個新的端到端方法,來解決用戶的語音驗證問題,直接將發(fā)音配對打分,并用訓(xùn)練和評估相同的損失函數(shù)來聯(lián)合優(yōu)化內(nèi)在的用戶表征和用戶模型。假如有足夠的訓(xùn)練數(shù)據(jù),使用我們的內(nèi)部基準(zhǔn)“OK Google”,我們提出的方法可以將小型DNN基準(zhǔn)的錯誤率從3%改善為2%。大部分增益來源于發(fā)音層級 vs 幀層級建模。與其他損失函數(shù)相比,端到端損失函數(shù)使用了更少的額外概念,卻實現(xiàn)了同樣的、或者略微更好的結(jié)果。例如在 softmax 的情況中,我們只有在運行中使用分?jǐn)?shù)標(biāo)準(zhǔn)化、候選人取樣讓訓(xùn)練變得可行,才能獲得同等的錯誤率。而且,我們展示了使用循環(huán)神經(jīng)網(wǎng)絡(luò)而非一個簡單的深度神經(jīng)網(wǎng)絡(luò),可以進(jìn)一步將錯誤率減少到1.4%,雖然計算運行時間成本更高了。相比之下,一個合理但不是最佳的 i-矢量/PLDA系統(tǒng)的錯誤率是4.7%。顯然,我們還需要更多的比較研究。不過,我們相信我們的方法為大數(shù)據(jù)驗證應(yīng)用,展現(xiàn)了一種大有前途的新方向。
via Google Research
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。