從扎克伯格賬號被黑說起，谷歌神經(jīng)網(wǎng)絡(luò)如何實現(xiàn)“更安全”的驗證

本文作者： AI科技評論

2016-06-07 21:53

導(dǎo)語：“dadada”當(dāng)然不行，未來身份驗證也許是說一句“OK Google”。

今天，全世界最不可能被盜號的人被盜號了，他就是世界最大社交網(wǎng)站Facebook的CEO扎克伯格。不僅如此，扎克伯格的密碼還簡單得讓人大跌眼鏡——“dadada”。這個沒有任何大小寫區(qū)分、沒有數(shù)字和其他符號的密碼，黑客只要不到25秒就能破解。

笑談之余，這個新聞讓人們再次思考，未來更加安全的網(wǎng)絡(luò)身份驗證技術(shù)是什么？也許，正如未來人工智能語音交互將代替現(xiàn)在的APP交互，身份驗證也會采用人工智能語音驗證。谷歌的研究讓我們看到，未來登錄社交網(wǎng)站，也許只要說一句：“OK Google！”

谷歌Brain的研究人員們在一篇名為《端到端基于文本的語音驗證》的論文中，介紹了一種神經(jīng)網(wǎng)絡(luò)架構(gòu)，能為高精度、容易維護(hù)的小型大數(shù)據(jù)應(yīng)用（例如谷歌的應(yīng)用），提供用戶語音驗證。這篇論文發(fā)表于 IEEE 2016 聲學(xué)、語音和信號處理國際大會（ICASSP）上。

今年8月，谷歌DeepMind CEO Demis Hassabis也將參加雷鋒網(wǎng)舉辦的人工智能與機(jī)器人創(chuàng)新大會。在此，雷鋒網(wǎng)分享論文全文內(nèi)容。

論文作者簡介

George Heigold 在加入谷歌前，在德國亞琛工業(yè)大學(xué)計算機(jī)學(xué)院任教，2010年成為谷歌研究科學(xué)家，研究領(lǐng)域包括自動語音識別、語音識別中的區(qū)分性訓(xùn)練和對數(shù)線性模型等。

Samy Bengio 2007年加入谷歌擔(dān)任研究科學(xué)家，之前在瑞士IDIAP研究院擔(dān)任高級研究員并培養(yǎng)PhD博士生及博士后研究員。同時，他還是《機(jī)器學(xué)習(xí)研究期刊》編輯、IEEE信號處理神經(jīng)網(wǎng)絡(luò)工作室項目主席以及IJCAI等知名學(xué)術(shù)期刊的項目委員。他的研究領(lǐng)域覆蓋機(jī)器學(xué)習(xí)的許多方面。

Noam Shazeer 畢業(yè)于杜克大學(xué)，一直在谷歌擔(dān)任研究科學(xué)家。研究領(lǐng)域包括語音學(xué)、自然語言處理和計算機(jī)科學(xué)。

Ignacio Lopez-Moreno 是谷歌軟件工程師，正在攻讀博士學(xué)位，曾獲IBM研究最佳論文等獎項。他的研究領(lǐng)域包括語音識別、模式識別等。

論文摘要

這篇論文中我們將呈現(xiàn)一種數(shù)據(jù)驅(qū)動的整合方法，來解決用戶語音驗證問題。我們將一個測試發(fā)音與幾個參考發(fā)音進(jìn)行比較，直接生成一個配對分?jǐn)?shù)進(jìn)行驗證，并在測試時使用相同的評估協(xié)議和維度來優(yōu)化系統(tǒng)部件。這樣的方法可以創(chuàng)造簡單、高效的系統(tǒng)，不需要了解領(lǐng)域特定的語言，也不需要進(jìn)行模型假設(shè)。我們將概念落地，將問題表達(dá)為一個單個神經(jīng)網(wǎng)絡(luò)架構(gòu)，包括只用幾個發(fā)音來評估一個語音模型，并且用我們內(nèi)部的“OK Google”基準(zhǔn)來評估基于文本的語音驗證。對于類似谷歌這樣要求高精度、系統(tǒng)容易維護(hù)的小型大數(shù)據(jù)應(yīng)用來說，我們提出的方法非常有效。

1、簡介

語音驗證指的是基于已知的用戶發(fā)音，來驗證一個發(fā)音是否屬于該用戶的驗證過程。當(dāng)在所有用戶中，發(fā)音中的詞匯僅限于一個單詞或詞組，這個過程稱為基于文本的通用密碼語音驗證。通過限制詞匯，基于文本的語音驗證可以彌補(bǔ)發(fā)音的不同變化，發(fā)音是語音驗證中的一個重大挑戰(zhàn)。在谷歌，我們想用這個通用密碼“OK Google”來研究基于文本的語音驗證。之所以選擇這個特別短、大約費時0.6秒的通用密碼，是與谷歌關(guān)鍵字辨認(rèn)系統(tǒng)和谷歌語音搜索有關(guān)，能夠幫助我們把這幾個系統(tǒng)結(jié)合起來。

這篇論文中，我們提出直接將一個測試發(fā)音和幾個發(fā)音匹配，建立用戶的模型，用一個分?jǐn)?shù)來進(jìn)行驗證。所有部件是遵循標(biāo)準(zhǔn)語音驗證協(xié)議，進(jìn)行聯(lián)合優(yōu)化。與現(xiàn)有的辦法相比，這樣一種端到端的辦法有幾個優(yōu)勢，包括發(fā)音的直接建模，這樣可以理解更大的語境、減少復(fù)雜度（每次發(fā)音是一個或多個幀的評估），以及直接且聯(lián)合的預(yù)估，能夠創(chuàng)建更好、更簡潔的模型。而且，這種方法創(chuàng)建的系統(tǒng)經(jīng)常要間接得多，所需的概念和方法都更少。

更具體地來說，這篇論文的貢獻(xiàn)主要包括：

建立了一個端到端語音認(rèn)證架構(gòu)，包括基于若干個發(fā)音預(yù)估用戶模型（第4部分）；
端到端語音驗證的實證評估，包括幀（i-矢量與d-矢量）和發(fā)音層面表征的比較（第5.2部分），以及端到端損失的分析（第5.3部分）。
前饋控制和循環(huán)神經(jīng)網(wǎng)絡(luò)之間的實證比較（第5.4部分）。

這篇論文集中討論基于文本語音驗證在小型系統(tǒng)上的應(yīng)用。但是這種方法可以普遍應(yīng)用，也可以用在無關(guān)文本的語音驗證上。

在之前的研究中，驗證問題被分解為更容易處理的子問題，但是子問題之間關(guān)聯(lián)較為松散。舉個例子，在無關(guān)文本的語音驗證和基于文本的語音驗證中，i-矢量和概率線性判別分析（PLDA）的結(jié)合一直都是主流方法。另外，也有研究證明混合方法（包括基于深度學(xué)習(xí)的部件）有助于無關(guān)文本的語音識別。然而，對于小型系統(tǒng)來說，一個更直接的深度學(xué)習(xí)模型可能更好。據(jù)我們所知，循環(huán)神經(jīng)網(wǎng)絡(luò)在其他相關(guān)問題上已經(jīng)有了應(yīng)用，例如語音識別和語言識別，但是還未曾用于語音驗證任務(wù)。我們提出的神經(jīng)網(wǎng)絡(luò)架構(gòu)可以看作是一個生成模型-判別模型混合體的聯(lián)合優(yōu)化，與適應(yīng)的深度展開類似。

這篇論文其余部分的結(jié)構(gòu)如下：第2部分提供了語音驗證的簡短綜述。第3部分描述了d-矢量方法。第4部分介紹了我們提出的端到端語音驗證方法。第5部分你可以看到實驗評估和分析。第6部分是論文的總結(jié)。

2、語音驗證協(xié)議

標(biāo)準(zhǔn)語音驗證協(xié)議可以被分為三個步驟：訓(xùn)練、注冊和評估，我們接下來會詳細(xì)介紹。

訓(xùn)練：

在訓(xùn)練階段，我們從發(fā)音中找到一個合適的內(nèi)部語音表征，這樣能有一個簡單的打分功能?？偟膩碚f，這種表征取決于模型的類型（例如，子空間高斯混合模型或者深度神經(jīng)網(wǎng)絡(luò)）、表征層級（幀或發(fā)音）以及模型訓(xùn)練損失（例如，最大可能性或者softmax）。最好的表征是幀層級信息的總結(jié)，例如i-矢量和d-矢量（第3部分）。

注冊：

在注冊階段，用戶提供了若干個發(fā)音（見表格1），用來預(yù)估用戶模型。常見的辦法是取這些發(fā)音中i-矢量或者d-矢量的平均值。

評估：

在評估階段，我們進(jìn)行驗證任務(wù)，系統(tǒng)也進(jìn)行評估。為了驗證，發(fā)音 X 的打分函數(shù)值和測試用戶 spk， S(X, spk）,與一個預(yù)先定義的閾值進(jìn)行比較。如果分?jǐn)?shù)超過閾值我們就接受，也就是說，判斷發(fā)音 X 來自用戶 spk，反之，如果沒有超過閾值我們就拒絕，判斷發(fā)音 X 不來自于用戶 spk 。在這個設(shè)定中可能會出現(xiàn)兩種類型的錯誤：錯誤拒絕和錯誤接受。顯然，錯誤拒絕率和錯誤接受率取決于閾值。當(dāng)這兩項比率相同時，這項值稱為相等錯誤率（EER）。

一個簡單的打分函數(shù)，是發(fā)音 X 評估結(jié)果的用戶表征 f(X)，與用戶模型 m_spk 之間的余弦相似度。

S(X, spk) = [ f(X)^T m_spk] / [ ||f(X)|| ||m_spk|| ]

我們提出 PLDA 作為一種更加精確、數(shù)據(jù)驅(qū)動的打分方法。

3、D-向量基準(zhǔn)方法

D-向量是從一個深度神經(jīng)網(wǎng)絡(luò)（DNN）中而來的，作為一個發(fā)音的用戶表征。一個DNN包括了若干個非線性函數(shù)的連續(xù)應(yīng)用，從而將用戶發(fā)音轉(zhuǎn)化為矢量，這樣可以輕松進(jìn)行決策。下面的圖表1描繪了我們基準(zhǔn)DNN的拓?fù)鋵W(xué)。它包括一個本地聯(lián)接的層，以及若干個完全聯(lián)接的層。所有層都使用 ReLU 啟動，除了最后一個線性層。在訓(xùn)練階段，DNN的參數(shù)使用 softmax 來最優(yōu)化，為了方便起見，我們的定義包含一個線性轉(zhuǎn)化，有一個權(quán)重矢量 w_spk 和偏差 b_spk，后面加上一個 softmax 函數(shù)和叉熵?fù)p失函數(shù)：

從扎克伯格賬號被黑說起，谷歌神經(jīng)網(wǎng)絡(luò)如何實現(xiàn)“更安全”的驗證

最后一個隱藏層的啟動矢量標(biāo)記為 y，正確用戶標(biāo)記為 spk。

訓(xùn)練階段完成后，DNN的參數(shù)就確定了。發(fā)音d-矢量的獲取方法是，發(fā)音所有幀的最后一個隱藏層的啟動矢量的平均值。每個發(fā)音生成一個d-矢量。為了進(jìn)行注冊，對注冊發(fā)音的d-矢量進(jìn)行平均，就獲得了用戶模型。最后，在評估階段，打分函數(shù)是用戶模型d-矢量和測試發(fā)音d-矢量之間的余弦相似度。

從扎克伯格賬號被黑說起，谷歌神經(jīng)網(wǎng)絡(luò)如何實現(xiàn)“更安全”的驗證

圖表1

從扎克伯格賬號被黑說起，谷歌神經(jīng)網(wǎng)絡(luò)如何實現(xiàn)“更安全”的驗證

圖表2

對這項基準(zhǔn)方法有一些批評，包括從幀而來的d-矢量的情景局限以及損失的類型。softmax 損失函數(shù)有望從所有用戶中區(qū)分出真正的用戶，但是在第2部分沒有遵守標(biāo)準(zhǔn)驗證協(xié)議。這樣的結(jié)果是，必須要有方法和評分標(biāo)準(zhǔn)化技術(shù)來彌補(bǔ)不一致性。而且，softmax 損失函數(shù)沒法很好地擴(kuò)大化，因為計算復(fù)雜度是線性的，每個用戶必須有最少量的數(shù)據(jù)來評估具體用戶的權(quán)重和偏差?？梢杂煤蜻x人取樣方法來減輕復(fù)雜度問題（而非預(yù)估問題）。

對于其他的語音驗證方法我們也可以指出同樣的問題，其中一些部件塊要不是聯(lián)系松散，要不就是沒有遵循語音驗證協(xié)議直接優(yōu)化。舉個例子，GMM-UBM 或者 i-矢量模型沒有直接優(yōu)化驗證問題?；蛘弑容^長的情景特征可能被基于幀的 GMM-UBM 模型忽視。

4、端到端用戶驗證

在這個部分，我們將用戶驗證協(xié)議的各個步驟整合為一個單一的網(wǎng)絡(luò)（見圖表2）。這個網(wǎng)絡(luò)的輸入由一個“評估”發(fā)音和一小組“注冊”發(fā)音組成。輸出是一個單一的節(jié)，指明是接受還是拒絕。我們使用DistBelief 來聯(lián)合優(yōu)化這個端到端架構(gòu)，它是 TensorFlow 的一個早期版本。用這兩種工具，復(fù)雜的計算圖表（例如我們端到端拓?fù)鋵W(xué)定義的那個圖標(biāo)）可以分解為一系列操作，具有簡單的梯度，例如總和、分區(qū)和矢量的交叉產(chǎn)品。在訓(xùn)練步驟之后，所有網(wǎng)絡(luò)權(quán)重保持不變，除了一維邏輯回歸的偏差（圖表2）是根據(jù)注冊數(shù)據(jù)手動調(diào)試的。除此以外，注冊步驟什么也沒有做，因為用戶模型預(yù)估是網(wǎng)絡(luò)的一部分。在測試的時候，我們在網(wǎng)絡(luò)中輸入一個評估發(fā)音和要測試的用戶的注冊發(fā)音，網(wǎng)絡(luò)直接輸出判斷結(jié)果。

從扎克伯格賬號被黑說起，谷歌神經(jīng)網(wǎng)絡(luò)如何實現(xiàn)“更安全”的驗證

圖表3

我們使用神經(jīng)網(wǎng)絡(luò)來獲取發(fā)音的用戶表征。我們在研究中使用的兩種網(wǎng)絡(luò)類型，在圖表1和圖表3中：一個深度神經(jīng)網(wǎng)絡(luò)（DNN），帶有本地聯(lián)接和完全聯(lián)接的層作為我們第3部分的基準(zhǔn)DNN，以及一個長短時記憶循環(huán)神經(jīng)網(wǎng)絡(luò)（LSTM），和一個單一輸出。DNN假設(shè)輸入長度固定。為了符合這項限制，我們將一個固定長度、足夠時長的幀疊加到發(fā)音上，作為輸入。對LSTM就不需要這招了，但是我們?yōu)榱烁玫目杀刃裕褂猛瑯拥膸瑫r長。與具有多個輸出的LSTM不同，我們只連接最后一個輸入到損失函數(shù)，來獲得單一的、發(fā)音層級的用戶表征。

用戶模型是一些“注冊”表征的平均。我們使用相同的網(wǎng)絡(luò)來計算“測試”發(fā)音和用戶模型發(fā)音的內(nèi)部表征。通常，實際的每個用戶發(fā)音數(shù)量（幾百個或更多）比在注冊階段（十個以內(nèi)）多得多。為了避免錯誤配對，每一個訓(xùn)練發(fā)音，我們只從同一個用戶獲取幾個樣本發(fā)音，來在訓(xùn)練階段創(chuàng)建用戶模型。總體來說，我們沒法假設(shè)每個用戶有N個發(fā)音。為實現(xiàn)可變的發(fā)音數(shù)量，我們在發(fā)音上加入權(quán)重來指明是否要使用這個發(fā)音。

最終，我們計算出用戶表征和用戶模型 S ( X, spk）之間的余弦相似度，把它輸入一個包括有偏差線性層的邏輯回歸。架構(gòu)是使用端到端損失函數(shù) le2e = ? log p(target) 來最優(yōu)化，其中二維變量target ∈ {accept, reject}, p(accept) = (1+exp(?wS(X, spk)?b))?1，以及p(reject) = 1?p(accept)。-b/w 的值相當(dāng)于驗證閾值。

端到端架構(gòu)的輸入是 1+N 個發(fā)音，例如，一個要測試的發(fā)音，和最多N個不同的用戶發(fā)音，來預(yù)估用戶模型。為了實現(xiàn)數(shù)據(jù)處理和內(nèi)存之間的平衡，輸入層維護(hù)一個發(fā)音庫來為每一個訓(xùn)練步驟獲取1+N個發(fā)音樣本，并經(jīng)常更新以實現(xiàn)更好的數(shù)據(jù)處理。由于用戶模型需要同一個用戶特定數(shù)量的發(fā)音，數(shù)據(jù)的呈現(xiàn)方式是同一個用戶的一小組發(fā)音。

5、實驗評估

我們使用內(nèi)部的“OK Google”基準(zhǔn)來評估我們提出的端到端方法。

5.1. 數(shù)據(jù)組合基本設(shè)定

我們用一組從匿名的語音搜索記錄中收集來的“OK Google”發(fā)音，來測試我們提出的端到端方法。我們實行了多種風(fēng)格的訓(xùn)練，來提升噪音強(qiáng)度。我們?nèi)斯ぜ尤肓似嚭筒蛷d噪音來增強(qiáng)數(shù)據(jù)，并模擬用戶發(fā)言時與麥克風(fēng)的不同距離。注冊和評估數(shù)據(jù)只包括真實數(shù)據(jù)。表格1展示了一些數(shù)據(jù)組的統(tǒng)計數(shù)據(jù)。

從扎克伯格賬號被黑說起，谷歌神經(jīng)網(wǎng)絡(luò)如何實現(xiàn)“更安全”的驗證

表格1

發(fā)音強(qiáng)制統(tǒng)一起來，從而獲取“OK Google”的片段。這些片段的平均長度大約是80幀，幀率是100Hz?；谶@項觀察結(jié)果，我們從每一個片段抽取最后的80幀，有可能在片段的最初和最后增減了一些幀。每一幀由40個濾波器組日志組成。

對DNN來說，我們將80輸入幀連接起來，這樣有了一個 80x40 維度的特征矢量。除非另外說明，DNN由4個隱藏層組成。DNN里所有隱藏層有504個節(jié)，使用 ReLU 啟動，除了最后一個線性層。DNN中本地連接層的區(qū)塊大小是 10x10。對 LSTM，我們將40維度的特征矢量一幀一幀地輸入。我們使用一個有504個節(jié)的單個 LSTM 層，沒有投影層。所有試驗中的批量大小都是32。

結(jié)果是按相等錯誤率（ERR）來匯報的，包括沒有及有t分?jǐn)?shù)標(biāo)準(zhǔn)化的兩個類別。

5.2. 幀層面 vs 發(fā)音層面的表征

從扎克伯格賬號被黑說起，谷歌神經(jīng)網(wǎng)絡(luò)如何實現(xiàn)“更安全”的驗證

表格2

首先，我們比較幀層面和發(fā)音層面的用戶表征（見表格2）。這里，我們使用了一個圖表1中所描述的DNN 和一個 softmax 層，使用 train_2M （見表格1）來進(jìn)行訓(xùn)練，在線性層面有50%的丟失。發(fā)音層面的方法比幀層面的方法更好，超出30%。在每一種方法中，分?jǐn)?shù)標(biāo)準(zhǔn)化技術(shù)帶來了重大的運行提升（相對提升了20%）。為了比較，這里展示了兩個i-矢量基準(zhǔn)。第一個基準(zhǔn)是基于表格2中的6，使用13 PLP以及一階和二階導(dǎo)數(shù)、1024高斯和300維度的i-矢量。第二個基準(zhǔn)是基于表格2中的27，有150個本征音。i-矢量+PLDA基準(zhǔn)應(yīng)該還得打些折扣，因為 PLDA 模型的訓(xùn)練只使用了 2M_train 數(shù)據(jù)庫的一個子集（4k用戶、每個用戶50個發(fā)音），這是因為我們目前實施方面的局限（不過，這與每個用戶只用30個發(fā)音訓(xùn)練的結(jié)果幾乎是一樣的）。另外，這個基準(zhǔn)沒有包括其他的改善技術(shù)，例如“不確定性測試”，這項測試已經(jīng)證實在特定情況下可以給出很多額外增量。我們已經(jīng)大大提升了我們的d-矢量。

5.3 Softmax函數(shù) vs 端到端損失函數(shù)

接下來，為了訓(xùn)練發(fā)音層級的用戶表征，我們比較了 softmax 損失函數(shù)（第2部分）和端到端損失函數(shù)（第4部分）。表格3顯示了圖表1中的 DNN 的同等錯誤率。它用了一個小訓(xùn)練庫來訓(xùn)練（train_2M），原始分?jǐn)?shù)的錯誤了可以和不同的損失函數(shù)相比。雖然損失讓 softmax 函數(shù)獲得了1%的絕對增益，對于端到端損失函數(shù)我們沒有觀察到損失帶來任何增益。類似的，t標(biāo)準(zhǔn)化對 softmanx 函數(shù)有20%的幫助，但是對端到端損失函數(shù)沒有任何幫助。這項結(jié)果符合訓(xùn)練損失和評估維度之間的一致度。尤其是端到端方法在訓(xùn)練中假設(shè)了一個通用閾值，可以不經(jīng)意地學(xué)會標(biāo)準(zhǔn)化分?jǐn)?shù)，標(biāo)準(zhǔn)化分?jǐn)?shù)在不同的噪音情況下維持不變、讓分?jǐn)?shù)標(biāo)準(zhǔn)顯得多余。當(dāng)我們?yōu)閱佣说蕉擞?xùn)練而使用 softmax DNN，錯誤率從 2.86% 減少到了2.25%，意味著存在預(yù)估問題。

如果用更大的訓(xùn)練組（train_22M）來訓(xùn)練，端到端損失函數(shù)明顯比 softmax 函數(shù)更好，見表格3。為了合理地將 softmax 層擴(kuò)大到80k個用戶標(biāo)簽，我們使用了候選人取樣方法。這次，t標(biāo)準(zhǔn)化也為 softmax函數(shù)帶來了20%的幫助，softmax 可以跟得上其他損失函數(shù)，它們從t標(biāo)準(zhǔn)化中沒有什么獲益。端到端訓(xùn)練的啟動（隨機(jī) vs “預(yù)先訓(xùn)練”的softmax DNN）在這種情況下沒有什么影響。

雖然用了候選人取樣，端到端方法的步驟時間比 softmax 方法更長，因為用戶模型是運行中計算出來的，總體收斂時間還是相當(dāng)?shù)摹?/p>

從扎克伯格賬號被黑說起，谷歌神經(jīng)網(wǎng)絡(luò)如何實現(xiàn)“更安全”的驗證

表格3

訓(xùn)練中預(yù)估用戶模型的發(fā)音數(shù)量被稱為用戶模型大小，最佳的選擇要看注冊發(fā)音的（平均）數(shù)量。但是，實際上更小的用戶模型大小反而可能更好，更能縮短訓(xùn)練時間、并讓訓(xùn)練更難。圖表4展現(xiàn)了測試同等錯誤率對用戶模型大小的依賴性。最適宜范圍相對較寬，模型大小大約為5，同等錯誤率為2.04%，相比之下，模型大小為1時有2.25%的同等錯誤率。這個模型大小近似于真實的平均模型大小，對我們的注冊組來說大小是6。這篇論文中的其他配置（未展示）也看到了類似的趨勢。這意味著，我們提出的訓(xùn)練算法與驗證協(xié)議之間有一致性，意味著針對具體任務(wù)的訓(xùn)練會更好。

5.4. 前饋控制 vs 循環(huán)神經(jīng)網(wǎng)絡(luò)

從扎克伯格賬號被黑說起，谷歌神經(jīng)網(wǎng)絡(luò)如何實現(xiàn)“更安全”的驗證

圖表4

目前為止，我們集中討論圖表1中的“小型”DNN，帶有一個本地聯(lián)接層和三個完全聯(lián)接的隱藏層。接下來，我們探索更大的、不同的網(wǎng)絡(luò)架構(gòu)，與它們的大小和計算復(fù)雜度無關(guān)。結(jié)果總結(jié)在圖表4中。與小型DNN相比，“最好”的DNN使用一個額外的隱藏層，有10%的相對增益。圖表3中的 LSTM 在最佳DNN的基礎(chǔ)上又增加了30%的增益。參數(shù)數(shù)量與DNN的相似，但是 LSTM 多了10倍的乘法和加法。更多的超級參數(shù)調(diào)試有望降低計算復(fù)雜度，增加可用性。使用 softmax 損失函數(shù)（運用t標(biāo)準(zhǔn)化、候選人取樣以及可能提早暫停，這些技術(shù)在端到端方法中都是不需要的）。在 train_2M 中，我們觀察到錯誤率在相應(yīng)的DNN基準(zhǔn)上有相似的相對增益。

從扎克伯格賬號被黑說起，谷歌神經(jīng)網(wǎng)絡(luò)如何實現(xiàn)“更安全”的驗證

表格4

6、總結(jié)

我們提出了一個新的端到端方法，來解決用戶的語音驗證問題，直接將發(fā)音配對打分，并用訓(xùn)練和評估相同的損失函數(shù)來聯(lián)合優(yōu)化內(nèi)在的用戶表征和用戶模型。假如有足夠的訓(xùn)練數(shù)據(jù)，使用我們的內(nèi)部基準(zhǔn)“OK Google”，我們提出的方法可以將小型DNN基準(zhǔn)的錯誤率從3%改善為2%。大部分增益來源于發(fā)音層級 vs 幀層級建模。與其他損失函數(shù)相比，端到端損失函數(shù)使用了更少的額外概念，卻實現(xiàn)了同樣的、或者略微更好的結(jié)果。例如在 softmax 的情況中，我們只有在運行中使用分?jǐn)?shù)標(biāo)準(zhǔn)化、候選人取樣讓訓(xùn)練變得可行，才能獲得同等的錯誤率。而且，我們展示了使用循環(huán)神經(jīng)網(wǎng)絡(luò)而非一個簡單的深度神經(jīng)網(wǎng)絡(luò)，可以進(jìn)一步將錯誤率減少到1.4%，雖然計算運行時間成本更高了。相比之下，一個合理但不是最佳的 i-矢量/PLDA系統(tǒng)的錯誤率是4.7%。顯然，我們還需要更多的比較研究。不過，我們相信我們的方法為大數(shù)據(jù)驗證應(yīng)用，展現(xiàn)了一種大有前途的新方向。

via Google Research

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

0人收藏

相關(guān)文章

AI科技評論

編輯

發(fā)私信

當(dāng)月熱門文章

從扎克伯格賬號被黑說起，谷歌神經(jīng)網(wǎng)絡(luò)如何實現(xiàn)“更安全”的驗證

從扎克伯格賬號被黑說起，谷歌神經(jīng)網(wǎng)絡(luò)如何實現(xiàn)“更安全”的驗證