論文解讀：對(duì)端到端語音識(shí)別網(wǎng)絡(luò)的兩種全新探索

本文作者： AI科技評(píng)論

2018-11-08 10:42

導(dǎo)語：一種是基于原有的 CNN-RNN-CTC 網(wǎng)絡(luò)的改進(jìn)，一種是基于 CTC loss 與 attention loss 結(jié)合機(jī)制的網(wǎng)絡(luò)。

云從科技

AI影響因子

活動(dòng)

企業(yè)：云從科技

操作：論文解讀

事項(xiàng)：

雷鋒網(wǎng) AI 科技評(píng)論按：語音識(shí)別技術(shù)歷史悠久，早在上世紀(jì) 50 年代，貝爾研究所就研究出了可以識(shí)別十個(gè)英文數(shù)字的簡(jiǎn)單系統(tǒng)。從上世紀(jì) 70 年代起，傳統(tǒng)的基于統(tǒng)計(jì)的 HMM 聲學(xué)模型，N 元組語言模型的發(fā)明，已經(jīng)使得語音識(shí)別技術(shù)可以在小規(guī)模詞匯量上使用。在新世紀(jì)伊始，GMM-HMM 模型的序列鑒別性訓(xùn)練方法的提出又進(jìn)一步提升了語音識(shí)別的準(zhǔn)確率。最近 5-10 年間，隨著深度學(xué)習(xí)的快速發(fā)展，算力的快速增長，數(shù)據(jù)量的急速擴(kuò)張，深度學(xué)習(xí)開始大規(guī)模應(yīng)用于語音識(shí)別領(lǐng)域并取得突破性進(jìn)展，深度模型已經(jīng)可以在干凈標(biāo)準(zhǔn)的獨(dú)白類音頻上達(dá)到 5% 以下的錯(cuò)詞率。此外，端到端的模型可以輕松的將各種語言揉合在一個(gè)模型中，不需要做額外的音素詞典的準(zhǔn)備，這將大大推動(dòng)業(yè)界技術(shù)研究與應(yīng)用落地的進(jìn)度。

在現(xiàn)在主流的利用深度學(xué)習(xí)的語音識(shí)別模型中仍在存在多種派系，一種是利用深度學(xué)習(xí)模型取代原來的 GMM 部分，即 DNN-HMM 類的模型，另一種則是端到端的深度學(xué)習(xí)模型。

第一種模型需要先實(shí)現(xiàn) HMM 結(jié)構(gòu)與語音的對(duì)齊，然后才能進(jìn)一步地訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)。除此之外，在訓(xùn)練這一類的模型時(shí)，訓(xùn)練樣本的標(biāo)注不僅僅是原本的文本，還需要對(duì)文本進(jìn)一步拆解成為音素投入訓(xùn)練，這對(duì)于標(biāo)注部分的工作就會(huì)造成極大的挑戰(zhàn)。在解碼的時(shí)候，這種模型同樣還需要依賴這個(gè)發(fā)音詞典。

端到端的模型旨在一步直接實(shí)現(xiàn)語音的輸入與解碼識(shí)別，從而不需要繁雜的對(duì)齊工作與發(fā)音詞典制作工作，具有了可以節(jié)省大量的前期準(zhǔn)備時(shí)間的優(yōu)勢(shì)，真正的做到數(shù)據(jù)拿來就可用。

端到端的模型的另一個(gè)優(yōu)點(diǎn)是，更換識(shí)別語言體系時(shí)可以利用相同的框架結(jié)構(gòu)直接訓(xùn)練。例如同樣的網(wǎng)絡(luò)結(jié)構(gòu)可以訓(xùn)練包含 26 個(gè)字符的英文模型，也可以訓(xùn)練包含 3000 個(gè)常用漢字的中文模型，甚至可以將中英文的詞典直接合在一起，訓(xùn)練一個(gè)混合模型。

此外，最重要的一點(diǎn)是，端到端的模型在預(yù)測(cè)時(shí)的速度更快，對(duì)于一個(gè) 10 秒左右的音頻文件，端到端的模型在一塊 GPU 的服務(wù)器上僅需 0.2 秒左右的時(shí)間便可給出預(yù)測(cè)結(jié)果。

現(xiàn)在的語音識(shí)別問題有如下幾個(gè)難點(diǎn)：

對(duì)自然語言的識(shí)別和理解；
語音信息量大。語音模式不僅對(duì)不同的說話人不同，對(duì)同一說話人也是不同的，一個(gè)說話人在隨意說話和認(rèn)真說話時(shí)的語音信息是不同的；
語音的模糊性。說話者在講話時(shí)，不同的詞可能聽起來是相似的；
單個(gè)字母或詞、字的語音特性受上下文的影響，以致改變了重音、音調(diào)、音量和發(fā)音速度等。

端到端的模型由于不引入傳統(tǒng)的音素或詞的概念，直接訓(xùn)練音頻到文本的模型，可以有效地規(guī)避上述難點(diǎn)。

云從科技基于端到端的語音識(shí)別網(wǎng)絡(luò)進(jìn)行了兩種方法的探索，一種是基于原有的 CNN-RNN-CTC 網(wǎng)絡(luò)的改進(jìn)，一種是基于 CTC loss 與 attention loss 結(jié)合機(jī)制的網(wǎng)絡(luò)。下面是對(duì)這兩種方法的詳細(xì)解讀。

第一種方法

地址：https://arxiv.org/abs/1810.12001

作者基于百度之前提出的 Deep Speech 2 的模型框架結(jié)構(gòu)，提出了三個(gè)改進(jìn)的點(diǎn)。

第一是把循環(huán)神經(jīng)網(wǎng)絡(luò)中的長短時(shí)記憶層（LSTM）變成了雙向的殘差長短時(shí)記憶層（resBiLSTM）。此舉可以更好地保留之前卷積神經(jīng)網(wǎng)絡(luò)所提取出的音素信息和之后每一個(gè)雙向的殘差長短時(shí)記憶層更好的結(jié)合。因?yàn)檠h(huán)神經(jīng)網(wǎng)絡(luò)中的每一層主要是負(fù)責(zé)提取句子中的語義信息，但語義信息的理解也和音素信息緊密相關(guān)。隨著循環(huán)神經(jīng)網(wǎng)絡(luò)的深入，原本更底層的層很難接收到卷積神經(jīng)網(wǎng)絡(luò)所給出的信息，對(duì)于復(fù)雜的長句子中音素和語義信息的結(jié)合較差，新提出的殘差網(wǎng)絡(luò)可以較好地修正這一問題。

第二點(diǎn)是引入了級(jí)聯(lián)的訓(xùn)練結(jié)構(gòu)，即對(duì)于第一個(gè)網(wǎng)絡(luò)中難分（分錯(cuò)）的樣本進(jìn)行二次訓(xùn)練。在實(shí)驗(yàn)中我們發(fā)現(xiàn)，在第一層網(wǎng)絡(luò)結(jié)構(gòu)中被分錯(cuò)的樣本比全部的樣本的平均句長多出了 11% 以上。隨著句子的變長，強(qiáng)語法和語義相關(guān)的單詞會(huì)距離更遠(yuǎn)，那么對(duì)于較淺的循環(huán)神經(jīng)網(wǎng)絡(luò)來說就會(huì)更難捕捉到這一個(gè)信息。在發(fā)現(xiàn)這一區(qū)別后，作者在在第二層的級(jí)聯(lián)結(jié)構(gòu)中使用了更深的循環(huán)神經(jīng)網(wǎng)絡(luò) (7 層到 13 層），但同時(shí)縮減了每一層的隱含節(jié)點(diǎn)數(shù)（對(duì)應(yīng)樣本量的減少，防止出現(xiàn)復(fù)雜模型的過擬合問題)。下圖是對(duì)這兩點(diǎn)改進(jìn)后具體的模型圖。