丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能 正文
發(fā)私信給楊曉凡
發(fā)送

0

百度發(fā)布 Deep Speech 3,不同應(yīng)用場景下輕松部署高精度語音識別模型

本文作者: 楊曉凡 2017-10-31 18:37
導(dǎo)語:不僅有好的表現(xiàn),還有很低的上手門檻

雷鋒網(wǎng) AI 科技評論按:美國時間10月31日,百度研究院發(fā)出博文,宣布發(fā)布新一代深度語音識別系統(tǒng) Deep Speech 3。繼2014首秀的第一代Deep Speech和被MIT科技評論評為“2016年十大突破技術(shù)之一”的 Deep Speech 2之后,百度再一次展現(xiàn)出自己的研究水平以及技術(shù)應(yīng)用的愿景。雷鋒網(wǎng) AI 科技評論把百度研究院這篇博文編譯如下。


百度發(fā)布 Deep Speech 3,不同應(yīng)用場景下輕松部署高精度語音識別模型

準確的語音識別系統(tǒng)是許多商業(yè)應(yīng)用中不可或缺的一環(huán),比如虛擬助手接收命令、能理解用戶反饋的視頻評價,或者是用來提升客戶服務(wù)質(zhì)量。不過,目前想要構(gòu)建一個水平領(lǐng)先的語音識別系統(tǒng),要么需要從第三方數(shù)據(jù)提供商購買用戶數(shù)據(jù),要么就要從全球排名前幾位的語音和語言技術(shù)機構(gòu)挖人。

百度研究院的研究人員們一直都在努力開發(fā)一個語音識別系統(tǒng),它不僅要有好的表現(xiàn),而且系統(tǒng)的構(gòu)建、調(diào)試、改進的時候都只需要一支語音識別入門水平、甚至完全不了解語音識別技術(shù)的團隊就可以(不過他們還是需要對機器學習有深入的理解)。百度的研究人員們相信,一個高度易用的語音識別流水線可以讓語音識別平民化,就像卷積神經(jīng)網(wǎng)絡(luò)帶來了計算機視覺領(lǐng)域的革命一樣。

在這個持續(xù)的努力過程中,百度首先開發(fā)出了第一代Deep Speech,這是一個概念驗證性的產(chǎn)品,但它也表明了一個簡單模型的表現(xiàn)就可以和當時頂尖模型的表現(xiàn)相媲美。隨著Deep Speech 2的發(fā)布,百度表明了這樣的模型對不同的語言具有良好的泛化性,并開始把它部署在許多實際應(yīng)用中。

10月31日,百度的硅谷AI實驗室發(fā)布了Deep Speech 3,這是下一代的語音識別模型,它進一步簡化了模型,并且可以在使用預(yù)訓(xùn)練過的語言模型時繼續(xù)進行端到端訓(xùn)練。

百度發(fā)布 Deep Speech 3,不同應(yīng)用場景下輕松部署高精度語音識別模型

論文中,百度研究院的研究員們首先對三個模型進行了實證比較:Deep Speech 2的核心CTC、其它一些 Listend-Attend-Spell 語音識別系統(tǒng)中使用的基于注意力的Seq2Seq模型,以及端到端語音識別中應(yīng)用的RNN變換器。這個RNN變換器可以看作一個編碼器-解碼器模型,其中假設(shè)輸入和輸出標識之間的對應(yīng)關(guān)系是局部的、單調(diào)的。這就讓RNN變換器的損失比基于注意力的Seq2Seq更適合用于語音識別(尤其在互聯(lián)網(wǎng)應(yīng)用中),它去除了帶有注意力的模型中用來鼓勵單調(diào)性的額外剪枝。

并且,CTC需要一個外部的語言模型用來輸出有意義的結(jié)果,RNN變換器就不需要這樣,它可以支持一個純粹由神經(jīng)網(wǎng)絡(luò)構(gòu)成的解碼器,模型的訓(xùn)練和測試階段之間也不會產(chǎn)生錯位。所以自然地,RNN變換器比CTC模型具有更好的表現(xiàn),都不需要一個外部的語言模型。

百度發(fā)布 Deep Speech 3,不同應(yīng)用場景下輕松部署高精度語音識別模型

Seq2Seq和RNN變換器無需外部語言模型就可以達到良好表現(xiàn)的狀況也提出了一個挑戰(zhàn)。語言模型對語音識別很關(guān)鍵,因為語言模型可以用大得多的數(shù)據(jù)集快速訓(xùn)練;而且語言模型可以對語音識別模型做特定的優(yōu)化,讓它更好地識別特定內(nèi)容(用戶,地理,應(yīng)用等等),同時無需給每一類的內(nèi)容都提供有標注的語音語料。百度的研究人員們在部署Deep Speech 2的過程中發(fā)現(xiàn),這后一條特點對用于生產(chǎn)環(huán)境的語音識別系統(tǒng)來說尤其重要。

為了支持這些應(yīng)用場景,百度開發(fā)了Cold Fusion,它可以在訓(xùn)練Seq2Seq模型的時候使用一個預(yù)訓(xùn)練的語言模型。百度在論文中表明,帶有Cold Fusion的Seq2Seq模型可以更好地運用語言信息,帶來了更好的泛化效果和更快的收斂,同時只需用不到10%的標注訓(xùn)練數(shù)據(jù)就可以完全遷移到一個新領(lǐng)域。Cold Fusion還可以在測試過程中切換不同的語言模型以便為任何內(nèi)容優(yōu)化。Cold Fusion能夠用在Seq2Seq模型上的同時,它在RNN變換器上應(yīng)當也能發(fā)揮出同樣好的效果。

這樣,RNN變換器的損失和利用語言模型的Cold Fusion一起構(gòu)成出了語音識別的下一個前沿。百度的研究人員們也會繼續(xù)探索未來,期待看到這些技術(shù)帶來更大的進步。

相關(guān)論文:

Exploring Neural Transducers for End-to-End Speech Recognition(ASRU 2017收錄論文): https://arxiv.org/abs/1707.07413 

Cold Fusion: Training Seq2Seq Models Together with Language Models: https://arxiv.org/abs/1708.06426 

雷鋒網(wǎng) AI 科技評論編譯

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

百度發(fā)布 Deep Speech 3,不同應(yīng)用場景下輕松部署高精度語音識別模型

分享:
相關(guān)文章

讀論文為生

日常笑點滴,學術(shù)死腦筋
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說