丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
專欄 正文
發(fā)私信給CSDN
發(fā)送

1

干貨:科大訊飛最新語(yǔ)音識(shí)別系統(tǒng)和框架深度剖析

本文作者: CSDN 2016-08-25 14:09
導(dǎo)語(yǔ):本文介紹了語(yǔ)音識(shí)別的發(fā)展簡(jiǎn)史并對(duì)科大訊飛的語(yǔ)音識(shí)別框架和系統(tǒng)進(jìn)行了深度剖析。

雷鋒網(wǎng)按;本文作者魏思,博士,科大訊飛研究院副院長(zhǎng),主要研究領(lǐng)域?yàn)檎Z(yǔ)音信號(hào)處理、模式識(shí)別、人工智能等,并擁有多項(xiàng)業(yè)界領(lǐng)先的科研成果。張仕良,潘嘉,張致江科大訊飛研究院研究員。劉聰,王智國(guó)科大訊飛研究院副院長(zhǎng)。責(zé)編:周建丁。

語(yǔ)音作為最自然便捷的交流方式,一直是人機(jī)通信和交互最重要的研究領(lǐng)域之一。自動(dòng)語(yǔ)音識(shí)別(Automatic Speech Recognition,ASR)是實(shí)現(xiàn)人機(jī)交互尤為關(guān)鍵的技術(shù),其所要解決的問題是讓計(jì)算機(jī)能夠“聽懂”人類的語(yǔ)音,將語(yǔ)音中傳化為文本。自動(dòng)語(yǔ)音識(shí)別技術(shù)經(jīng)過(guò)幾十年的發(fā)展已經(jīng)取得了顯著的成效。近年來(lái),越來(lái)越多的語(yǔ)音識(shí)別智能軟件和應(yīng)用走人了大家的日常生活,蘋果的Siri、微軟的小娜、科大訊飛的語(yǔ)音輸入法和靈犀等都是其中的典型代表。本文將以科大訊飛的視角介紹語(yǔ)音識(shí)別的發(fā)展歷程和最新技術(shù)進(jìn)展。

我們首先簡(jiǎn)要回顧語(yǔ)音識(shí)別的發(fā)展歷史,然后介紹目前主流的基于深度神經(jīng)網(wǎng)路的語(yǔ)音識(shí)別系統(tǒng),最后重點(diǎn)介紹科大訊飛語(yǔ)音識(shí)別系統(tǒng)的最新進(jìn)展。

語(yǔ)音識(shí)別關(guān)鍵突破回顧

語(yǔ)音識(shí)別的研究起源于上世紀(jì)50年代,當(dāng)時(shí)的主要研究者是貝爾實(shí)驗(yàn)室。早期的語(yǔ)音識(shí)別系統(tǒng)是簡(jiǎn)單的孤立詞識(shí)別系統(tǒng),例如1952年貝爾實(shí)驗(yàn)室實(shí)現(xiàn)了十個(gè)英文數(shù)字識(shí)別系統(tǒng)。從上世紀(jì)60年代開始,CMU的Reddy開始進(jìn)行連續(xù)語(yǔ)音識(shí)別的開創(chuàng)性工作。但是這期間語(yǔ)音識(shí)別的技術(shù)進(jìn)展非常緩慢,以至于1969年貝爾實(shí)驗(yàn)室的約翰·皮爾斯(John Pierce)在一封公開信中將語(yǔ)音識(shí)別比作“將水轉(zhuǎn)化為汽油、從海里提取金子、治療癌癥”等幾乎不可能實(shí)現(xiàn)的事情。上世紀(jì)70年代,計(jì)算機(jī)性能的大幅度提升,以及模式識(shí)別基礎(chǔ)研究的發(fā)展,例如碼本生成算法(LBG)和線性預(yù)測(cè)編碼(LPC)的出現(xiàn),促進(jìn)了語(yǔ)音識(shí)別的發(fā)展。

這個(gè)時(shí)期美國(guó)國(guó)防部高級(jí)研究計(jì)劃署(DARPA)介入語(yǔ)音領(lǐng)域,設(shè)立了語(yǔ)音理解研究計(jì)劃,研究計(jì)劃包括BBN、CMU、SRI、IBM等眾多頂尖的研究機(jī)構(gòu)。IBM、貝爾實(shí)驗(yàn)室相繼推出了實(shí)時(shí)的PC端孤立詞識(shí)別系統(tǒng)。上世紀(jì)80年代是語(yǔ)音識(shí)別快速發(fā)展的時(shí)期,其中兩個(gè)關(guān)鍵技術(shù)是隱馬爾科夫模型(HMM)的理論和應(yīng)用趨于完善以及NGram語(yǔ)言模型的應(yīng)用。

此時(shí)語(yǔ)音識(shí)別開始從孤立詞識(shí)別系統(tǒng)向大詞匯量連續(xù)語(yǔ)音識(shí)別系統(tǒng)發(fā)展。例如,李開復(fù)研發(fā)的SPHINX系統(tǒng),是基于統(tǒng)計(jì)學(xué)原理開發(fā)的第一個(gè)“非特定人連續(xù)語(yǔ)音識(shí)別系統(tǒng)”。其核心框架就是用隱馬爾科模型對(duì)語(yǔ)音的時(shí)序進(jìn)行建模,而用高斯混合模型(GMM)對(duì)語(yǔ)音的觀察概率進(jìn)行建模?;贕MM-HMM的語(yǔ)音識(shí)別框架在此后很長(zhǎng)一段時(shí)間內(nèi)一直是語(yǔ)音識(shí)別系統(tǒng)的主導(dǎo)框架。上世紀(jì)90年代是語(yǔ)音識(shí)別基本成熟的時(shí)期,主要進(jìn)展是語(yǔ)音識(shí)別聲學(xué)模型的區(qū)分性訓(xùn)練準(zhǔn)則和模型自適應(yīng)方法的提出。這個(gè)時(shí)期劍橋語(yǔ)音識(shí)別組推出的HTK工具包對(duì)于促進(jìn)語(yǔ)音識(shí)別的發(fā)展起到了很大的推動(dòng)作用。此后語(yǔ)音識(shí)別發(fā)展很緩慢,主流的框架GMM-HMM趨于穩(wěn)定,但是識(shí)別效果離實(shí)用化還相差甚遠(yuǎn),語(yǔ)音識(shí)別的研究陷入了瓶頸。

關(guān)鍵突破起始于2006年。這一年辛頓(Hinton)提出深度置信網(wǎng)絡(luò)(DBN),促使了深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)研究的復(fù)蘇,掀起了深度學(xué)習(xí)的熱潮。2009年,辛頓以及他的學(xué)生默罕默德(D. Mohamed)將深度神經(jīng)網(wǎng)絡(luò)應(yīng)用于語(yǔ)音的聲學(xué)建模,在小詞匯量連續(xù)語(yǔ)音識(shí)別數(shù)據(jù)庫(kù)TIMIT上獲得成功。2011年,微軟研究院俞棟、鄧力等發(fā)表深度神經(jīng)網(wǎng)絡(luò)在語(yǔ)音識(shí)別上的應(yīng)用文章,在大詞匯量連續(xù)語(yǔ)音識(shí)別任務(wù)上獲得突破。從此基于GMM-HMM的語(yǔ)音識(shí)別框架被打破,大量研究人員開始轉(zhuǎn)向基于DNN-HMM的語(yǔ)音識(shí)別系統(tǒng)的研究。

基于深度神經(jīng)網(wǎng)絡(luò)的語(yǔ)音識(shí)別系統(tǒng)

基于深度神經(jīng)網(wǎng)絡(luò)的語(yǔ)音識(shí)別系統(tǒng)主要采用如圖1所示的框架。相比傳統(tǒng)的基于GMM-HMM的語(yǔ)音識(shí)別系統(tǒng),其最大的改變是采用深度神經(jīng)網(wǎng)絡(luò)替換GMM模型對(duì)語(yǔ)音的觀察概率進(jìn)行建模。最初主流的深度神經(jīng)網(wǎng)絡(luò)是最簡(jiǎn)單的前饋型深度神經(jīng)網(wǎng)絡(luò)(Feedforward Deep Neural Network,F(xiàn)DNN)。DNN相比GMM的優(yōu)勢(shì)在于:1. 使用DNN估計(jì)HMM的狀態(tài)的后驗(yàn)概率分布不需要對(duì)語(yǔ)音數(shù)據(jù)分布進(jìn)行假設(shè);2. DNN的輸入特征可以是多種特征的融合,包括離散或者連續(xù)的;3. DNN可以利用相鄰的語(yǔ)音幀所包含的結(jié)構(gòu)信息。

干貨:科大訊飛最新語(yǔ)音識(shí)別系統(tǒng)和框架深度剖析

圖1 基于深度神經(jīng)網(wǎng)絡(luò)的語(yǔ)音識(shí)別系統(tǒng)框架

語(yǔ)音識(shí)別需要對(duì)波形進(jìn)行加窗、分幀、提取特征等預(yù)處理。訓(xùn)練GMM時(shí)候,輸入特征一般只能是單幀的信號(hào),而對(duì)于DNN可以采用拼接幀作為輸入,這些是DNN相比GMM可以獲得很大性能提升的關(guān)鍵因素。然而,語(yǔ)音是一種各幀之間具有很強(qiáng)相關(guān)性的復(fù)雜時(shí)變信號(hào),這種相關(guān)性主要體現(xiàn)在說(shuō)話時(shí)的協(xié)同發(fā)音現(xiàn)象上,往往前后好幾個(gè)字對(duì)我們正要說(shuō)的字都有影響,也就是語(yǔ)音的各幀之間具有長(zhǎng)時(shí)相關(guān)性。采用拼接幀的方式可以學(xué)到一定程度的上下文信息。但是由于DNN輸入的窗長(zhǎng)是固定的,學(xué)習(xí)到的是固定輸入到輸入的映射關(guān)系,從而導(dǎo)致DNN對(duì)于時(shí)序信息的長(zhǎng)時(shí)相關(guān)性的建模是較弱的。

干貨:科大訊飛最新語(yǔ)音識(shí)別系統(tǒng)和框架深度剖析

圖2 DNN和RNN示意圖

考慮到語(yǔ)音信號(hào)的長(zhǎng)時(shí)相關(guān)性,一個(gè)自然而然的想法是選用具有更強(qiáng)長(zhǎng)時(shí)建模能力的神經(jīng)網(wǎng)絡(luò)模型。于是,循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)近年來(lái)逐漸替代傳統(tǒng)的DNN成為主流的語(yǔ)音識(shí)別建模方案。如圖2,相比前饋型神經(jīng)網(wǎng)絡(luò)DNN,循環(huán)神經(jīng)網(wǎng)絡(luò)在隱層上增加了一個(gè)反饋連接,也就是說(shuō),RNN隱層當(dāng)前時(shí)刻的輸入有一部分是前一時(shí)刻的隱層輸出,這使得RNN可以通過(guò)循環(huán)反饋連接看到前面所有時(shí)刻的信息,這賦予了RNN記憶功能。這些特點(diǎn)使得RNN非常適合用于對(duì)時(shí)序信號(hào)的建模。而長(zhǎng)短時(shí)記憶模塊 (Long-Short Term Memory,LSTM) 的引入解決了傳統(tǒng)簡(jiǎn)單RNN梯度消失等問題,使得RNN框架可以在語(yǔ)音識(shí)別領(lǐng)域?qū)嵱没@得了超越DNN的效果,目前已經(jīng)使用在業(yè)界一些比較先進(jìn)的語(yǔ)音系統(tǒng)中。除此之外,研究人員還在RNN的基礎(chǔ)上做了進(jìn)一步改進(jìn)工作,如圖3是當(dāng)前語(yǔ)音識(shí)別中的主流RNN聲學(xué)模型框架,主要包含兩部分:深層雙向RNN和序列短時(shí)分類(Connectionist Temporal Classification,CTC)輸出層。其中雙向RNN對(duì)當(dāng)前語(yǔ)音幀進(jìn)行判斷時(shí),不僅可以利用歷史的語(yǔ)音信息,還可以利用未來(lái)的語(yǔ)音信息,從而進(jìn)行更加準(zhǔn)確的決策;CTC使得訓(xùn)練過(guò)程無(wú)需幀級(jí)別的標(biāo)注,實(shí)現(xiàn)有效的“端對(duì)端”訓(xùn)練。

干貨:科大訊飛最新語(yǔ)音識(shí)別系統(tǒng)和框架深度剖析

圖3 基于RNN——CTC的主流語(yǔ)音識(shí)別系統(tǒng)框架

科大訊飛最新語(yǔ)音識(shí)別系統(tǒng)

國(guó)際國(guó)內(nèi)已經(jīng)有不少學(xué)術(shù)或工業(yè)機(jī)構(gòu)掌握了RNN模型,并在上述某個(gè)或多個(gè)技術(shù)點(diǎn)進(jìn)行研究。然而,上述各個(gè)技術(shù)點(diǎn)單獨(dú)研究時(shí)一般可以獲得較好的結(jié)果,但是如果想將這些技術(shù)點(diǎn)融合在一起則會(huì)碰到一些問題。例如,多個(gè)技術(shù)結(jié)合在一起的提升幅度會(huì)比各個(gè)技術(shù)點(diǎn)提升幅度的疊加要小。又例如對(duì)于目前主流的雙向RNN的語(yǔ)音識(shí)別系統(tǒng),其實(shí)用化過(guò)程面臨一個(gè)最大的問題是:理論上只有獲得了完整的全部語(yǔ)音段,才能成功地利用未來(lái)的信息。這就使得其具有很大時(shí)延,只能用于處理一些離線任務(wù)。而對(duì)于實(shí)時(shí)的語(yǔ)音交互,例如語(yǔ)音輸入法,雙向RNN顯然是不適用的。再者,RNN對(duì)上下文相關(guān)性的擬合較強(qiáng),相對(duì)于DNN更容易陷入過(guò)擬合的問題,容易因?yàn)橛?xùn)練數(shù)據(jù)的局部不魯棒現(xiàn)象而帶來(lái)額外的異常識(shí)別錯(cuò)誤。最后,由于RNN具有比DNN更加復(fù)雜的結(jié)構(gòu),給海量數(shù)據(jù)下的RNN模型訓(xùn)練帶來(lái)了更大的挑戰(zhàn)。

訊飛FSMN語(yǔ)音識(shí)別框架

鑒于上述問題,科大訊飛研發(fā)了一種名為前饋型序列記憶網(wǎng)絡(luò)FSMN (Feed-forward Sequential Memory Network) 的新框架。這個(gè)框架可以把上述幾點(diǎn)很好地融合,同時(shí)各個(gè)技術(shù)點(diǎn)對(duì)效果的提升可以獲得疊加。值得一提的是,F(xiàn)SMN采用非循環(huán)的前饋結(jié)構(gòu),只需要180ms延遲,就達(dá)到了和雙向RNN相當(dāng)?shù)男Ч?/p>

圖4(a)即為FSMN的結(jié)構(gòu)示意圖,相比傳統(tǒng)的DNN,我們?cè)陔[層旁增加了一個(gè)稱為“記憶塊”的模塊,用于存儲(chǔ)對(duì)判斷當(dāng)前語(yǔ)音幀有用的歷史信息和未來(lái)信息。圖4(b)畫出了雙向FSMN中記憶塊左右各記憶1幀語(yǔ)音信息(在實(shí)際任務(wù)中,可根據(jù)任務(wù)需要,調(diào)整所需記憶的歷史和未來(lái)信息長(zhǎng)度)的時(shí)序展開結(jié)構(gòu)。從圖中我們可以看出,不同于傳統(tǒng)的基于循環(huán)反饋的RNN,F(xiàn)SMN記憶塊的記憶功能是使用前饋結(jié)構(gòu)實(shí)現(xiàn)的。這種前饋結(jié)構(gòu)有兩大好處:

首先,雙向FSMN對(duì)未來(lái)信息進(jìn)行記憶時(shí),沒有傳統(tǒng)雙向RNN必須等待語(yǔ)音輸入結(jié)束才能對(duì)當(dāng)前語(yǔ)音幀進(jìn)行判斷的限制,它只需要等待有限長(zhǎng)度的未來(lái)語(yǔ)音幀即可,正如前文所說(shuō)的,我們的雙向FSMN在將延遲控制在180ms的情況下就可獲得媲美雙向RNN的效果;

其次,如前所述,傳統(tǒng)的簡(jiǎn)單RNN因?yàn)橛?xùn)練過(guò)程中的梯度是按時(shí)間逐次往前傳播的,因此會(huì)出現(xiàn)指數(shù)衰減的梯度消失現(xiàn)象,這導(dǎo)致理論上具有無(wú)限長(zhǎng)記憶的RNN實(shí)際上能記住的信息很有限,然而FSMN這種基于前饋時(shí)序展開結(jié)構(gòu)的記憶網(wǎng)絡(luò),在訓(xùn)練過(guò)程中梯度沿著圖4中記憶塊與隱層的連接權(quán)重往回傳給各個(gè)時(shí)刻即可,這些連接權(quán)重決定了不同時(shí)刻輸入對(duì)判斷當(dāng)前語(yǔ)音幀的影響,而且這種梯度傳播在任何時(shí)刻的衰減都是常數(shù)的,也是可訓(xùn)練的,因此FSMN用一種更為簡(jiǎn)單的方式解決了RNN中的梯度消失問題,使其具有類似LSTM的長(zhǎng)時(shí)記憶能力。

另外,在模型訓(xùn)練效率和穩(wěn)定性方面,由于FSMN完全基于前饋神經(jīng)網(wǎng)絡(luò),所以不存在RNN訓(xùn)練中因mini-batch中句子長(zhǎng)短不一需要補(bǔ)0而導(dǎo)致浪費(fèi)運(yùn)算的情況,前饋結(jié)構(gòu)也使得它的并行度更高,可最大化利用GPU計(jì)算能力。從最終訓(xùn)練收斂的雙向FSMN模型記憶塊中各時(shí)刻的加權(quán)系數(shù)分布我們觀察到,權(quán)重值基本上在當(dāng)前時(shí)刻最大,往左右兩邊逐漸衰減,這也符合預(yù)期。更進(jìn)一步,F(xiàn)SMN可和CTC準(zhǔn)則結(jié)合,實(shí)現(xiàn)語(yǔ)音識(shí)別中的“端到端”建模。

干貨:科大訊飛最新語(yǔ)音識(shí)別系統(tǒng)和框架深度剖析

圖4 FSMN結(jié)構(gòu)框圖

科大訊飛DFCNN語(yǔ)音識(shí)別框架

FSMN的成功給了我們一個(gè)很好的啟發(fā):對(duì)語(yǔ)音的長(zhǎng)時(shí)相關(guān)性建模并不需要觀察整個(gè)句子,也不一定需要使用遞歸結(jié)構(gòu),只要將足夠長(zhǎng)的語(yǔ)音上下文信息進(jìn)行良好的表達(dá)就可以對(duì)當(dāng)前幀的決策提供足夠的幫助,而卷積神經(jīng)網(wǎng)絡(luò)(CNN)同樣可以做到這一點(diǎn)。 

CNN早在2012年就被用于語(yǔ)音識(shí)別系統(tǒng),并且一直以來(lái)都有很多研究人員積極投身于基于CNN的語(yǔ)音識(shí)別系統(tǒng)的研究,但始終沒有大的突破。最主要的原因是他們沒有突破傳統(tǒng)前饋神經(jīng)網(wǎng)絡(luò)采用固定長(zhǎng)度的幀拼接作為輸入的思維定式,從而無(wú)法看到足夠長(zhǎng)的語(yǔ)音上下文信息。另外一個(gè)缺陷是他們只是將CNN視作一種特征提取器,因此所用的卷積層數(shù)很少,一般只有一到二層,這樣的卷積網(wǎng)絡(luò)表達(dá)能力十分有限。針對(duì)這些問題,結(jié)合研發(fā)FSMN時(shí)的經(jīng)驗(yàn),我們研發(fā)了一種名為深度全序列卷積神經(jīng)網(wǎng)絡(luò)(Deep Fully Convolutional Neural Network,DFCNN)的語(yǔ)音識(shí)別框架,使用大量的卷積層直接對(duì)整句語(yǔ)音信號(hào)進(jìn)行建模,更好地表達(dá)了語(yǔ)音的長(zhǎng)時(shí)相關(guān)性。

DFCNN的結(jié)構(gòu)如圖5所示,它直接將一句語(yǔ)音轉(zhuǎn)化成一張圖像作為輸入,即先對(duì)每幀語(yǔ)音進(jìn)行傅里葉變換,再將時(shí)間和頻率作為圖像的兩個(gè)維度,然后通過(guò)非常多的卷積層和池化(pooling)層的組合,對(duì)整句語(yǔ)音進(jìn)行建模,輸出單元直接與最終的識(shí)別結(jié)果比如音節(jié)或者漢字相對(duì)應(yīng)。 DFCNN的工作機(jī)理儼然像是一位德高望重的語(yǔ)音學(xué)專家,通過(guò)“觀看”語(yǔ)譜圖即可知道語(yǔ)音中表達(dá)的內(nèi)容。對(duì)于很多讀者來(lái)說(shuō),乍一聽可能以為是在寫科幻小說(shuō),但看完我們下面的分析之后,相信大家都會(huì)覺得這種架構(gòu)是那么的自然。

干貨:科大訊飛最新語(yǔ)音識(shí)別系統(tǒng)和框架深度剖析

圖5 DFCNN示意圖

首先,從輸入端來(lái)看,傳統(tǒng)語(yǔ)音特征在傅里葉變換之后使用各種人工設(shè)計(jì)的濾波器組來(lái)提取特征,造成了頻域上的信息損失,在高頻區(qū)域的信息損失尤為明顯,而且傳統(tǒng)語(yǔ)音特征為了計(jì)算量的考慮必須采用非常大的幀移,無(wú)疑造成了時(shí)域上的信息損失,在說(shuō)話人語(yǔ)速較快的時(shí)候表現(xiàn)得更為突出。因此DFCNN直接將語(yǔ)譜圖作為輸入,相比其他以傳統(tǒng)語(yǔ)音特征作為輸入的語(yǔ)音識(shí)別框架相比具有天然的優(yōu)勢(shì)。其次,從模型結(jié)構(gòu)來(lái)看,DFCNN與傳統(tǒng)語(yǔ)音識(shí)別中的CNN做法不同,它借鑒了圖像識(shí)別中效果最好的網(wǎng)絡(luò)配置,每個(gè)卷積層使用3x3的小卷積核,并在多個(gè)卷積層之后再加上池化層,這樣大大增強(qiáng)了CNN的表達(dá)能力,與此同時(shí),通過(guò)累積非常多的這種卷積池化層對(duì),DFCNN可以看到非常長(zhǎng)的歷史和未來(lái)信息,這就保證了DFCNN可以出色地表達(dá)語(yǔ)音的長(zhǎng)時(shí)相關(guān)性,相比RNN網(wǎng)絡(luò)結(jié)構(gòu)在魯棒性上更加出色。最后,從輸出端來(lái)看,DFCNN還可以和近期很熱的CTC方案完美結(jié)合以實(shí)現(xiàn)整個(gè)模型的端到端訓(xùn)練,且其包含的池化層等特殊結(jié)構(gòu)可以使得以上端到端訓(xùn)練變得更加穩(wěn)定。

在和其他多個(gè)技術(shù)點(diǎn)結(jié)合后,科大訊飛DFCNN的語(yǔ)音識(shí)別框架在內(nèi)部數(shù)千小時(shí)的中文語(yǔ)音短信聽寫任務(wù)上,相比目前業(yè)界最好的語(yǔ)音識(shí)別框架雙向RNN-CTC系統(tǒng)獲得了15%的性能提升,同時(shí)結(jié)合科大訊飛的HPC平臺(tái)和多GPU并行加速技術(shù),訓(xùn)練速度也優(yōu)于傳統(tǒng)的雙向RNN-CTC系統(tǒng)。DFCNN的提出開辟了語(yǔ)音識(shí)別的一片新天地,后續(xù)基于DFCNN框架,我們還將展開更多相關(guān)的研究工作,例如:雙向RNN和DFCNN都可以提供對(duì)長(zhǎng)時(shí)歷史以及未來(lái)信息的表達(dá),但是這兩種表達(dá)之間是否存在互補(bǔ)性,是值得思考的問題。

深度學(xué)習(xí)平臺(tái)

以上科大訊飛的研究都很好的語(yǔ)音識(shí)別的效果,同時(shí)科大訊飛也意識(shí)到這些深度神經(jīng)網(wǎng)絡(luò)需要大量的數(shù)據(jù)和計(jì)算量進(jìn)行訓(xùn)練。例如,兩萬(wàn)小時(shí)的語(yǔ)音數(shù)據(jù)約有12000PFlop的計(jì)算量,如果在一顆E5-2697 v4的CPU上進(jìn)行訓(xùn)練,大約需要116天時(shí)間,這對(duì)語(yǔ)音識(shí)別技術(shù)研究來(lái)說(shuō)是無(wú)法接受的。為此,科大訊飛分析算法的計(jì)算特點(diǎn),搭建了一套快速的深度學(xué)習(xí)計(jì)算平臺(tái)——深度學(xué)習(xí)平臺(tái)。

干貨:科大訊飛最新語(yǔ)音識(shí)別系統(tǒng)和框架深度剖析

圖6 深度學(xué)習(xí)平臺(tái)架構(gòu)

如圖6所示,整個(gè)平臺(tái)分為四個(gè)組成部分。首先,底層基礎(chǔ)架構(gòu),依據(jù)語(yǔ)音數(shù)據(jù)量、訪問的帶寬、訪問頻度、計(jì)算量、計(jì)算特點(diǎn),選擇適合的文件系統(tǒng)、網(wǎng)絡(luò)連接、計(jì)算資源。其中,文件系統(tǒng)使用并行分布式文件系統(tǒng),網(wǎng)絡(luò)使用萬(wàn)兆連接,計(jì)算資源使用GPU集群,并且單獨(dú)建設(shè)了專門的機(jī)房。在此基礎(chǔ)之上,開發(fā)核心計(jì)算引擎,用于進(jìn)行各種模型訓(xùn)練和計(jì)算,如適合CNN計(jì)算的引擎、適合DNN的計(jì)算引擎以及適合FSMN/DFCNN的計(jì)算引擎等。整個(gè)計(jì)算引擎和基礎(chǔ)架構(gòu)對(duì)使用者來(lái)說(shuō)還是比較抽象,為簡(jiǎn)化使用門檻,科大訊飛專門開發(fā)了平臺(tái)的資源調(diào)度服務(wù)和引擎的調(diào)用服務(wù);這些工作大大減少研究院人員使用集群資源的難度,提升研究的進(jìn)度。在此三個(gè)基礎(chǔ)工作之上,科大訊飛的深度學(xué)習(xí)平臺(tái)可以支撐整個(gè)研究相關(guān)的工作,如語(yǔ)音識(shí)別、語(yǔ)音合成、手寫識(shí)別……

科大訊飛使用GPU作為主要的運(yùn)算部件,并結(jié)合算法的特點(diǎn),進(jìn)行了大量的GPU并行化的工作。如科大訊飛在分塊模型更新(BMUF)基礎(chǔ)之上設(shè)計(jì)了融合彈性平均隨機(jī)梯度下降(EASGD)算法的并行計(jì)算框架,在64 GPU上實(shí)現(xiàn)了近線性的加速比,大大提升訓(xùn)練效率,加快深度學(xué)習(xí)相關(guān)應(yīng)用的研究進(jìn)程。

寫在最后

回顧語(yǔ)音識(shí)別的發(fā)展歷史和科大訊飛語(yǔ)音識(shí)別系統(tǒng)的最新進(jìn)展后,我們可以發(fā)現(xiàn),技術(shù)的突破總是艱難而緩慢的,重要的是堅(jiān)持和不斷思考。雖然近幾年深度神經(jīng)網(wǎng)絡(luò)的興起使得語(yǔ)音識(shí)別性能獲得了極大的提升,但是我們并不能迷信于現(xiàn)有的技術(shù),總有一天新技術(shù)的提出會(huì)替代現(xiàn)有的技術(shù),科大訊飛希望可以通過(guò)不斷的技術(shù)創(chuàng)新實(shí)現(xiàn)語(yǔ)音識(shí)別技術(shù)的進(jìn)一步突破。

雷鋒網(wǎng)注:本文由CSDN授權(quán)雷鋒網(wǎng)轉(zhuǎn)載,如需轉(zhuǎn)載請(qǐng)聯(lián)系原作者。 

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

干貨:科大訊飛最新語(yǔ)音識(shí)別系統(tǒng)和框架深度剖析

分享:
相關(guān)文章

CSDN 深度文集

當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)