丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
人工智能 正文
發(fā)私信給楊曉凡
發(fā)送

0

百度發(fā)布 Deep Speech 3,不同應用場景下輕松部署高精度語音識別模型

本文作者: 楊曉凡 2017-10-31 18:37
導語:不僅有好的表現(xiàn),還有很低的上手門檻

雷鋒網(wǎng) AI 科技評論按:美國時間10月31日,百度研究院發(fā)出博文,宣布發(fā)布新一代深度語音識別系統(tǒng) Deep Speech 3。繼2014首秀的第一代Deep Speech和被MIT科技評論評為“2016年十大突破技術之一”的 Deep Speech 2之后,百度再一次展現(xiàn)出自己的研究水平以及技術應用的愿景。雷鋒網(wǎng) AI 科技評論把百度研究院這篇博文編譯如下。


百度發(fā)布 Deep Speech 3,不同應用場景下輕松部署高精度語音識別模型

準確的語音識別系統(tǒng)是許多商業(yè)應用中不可或缺的一環(huán),比如虛擬助手接收命令、能理解用戶反饋的視頻評價,或者是用來提升客戶服務質量。不過,目前想要構建一個水平領先的語音識別系統(tǒng),要么需要從第三方數(shù)據(jù)提供商購買用戶數(shù)據(jù),要么就要從全球排名前幾位的語音和語言技術機構挖人。

百度研究院的研究人員們一直都在努力開發(fā)一個語音識別系統(tǒng),它不僅要有好的表現(xiàn),而且系統(tǒng)的構建、調試、改進的時候都只需要一支語音識別入門水平、甚至完全不了解語音識別技術的團隊就可以(不過他們還是需要對機器學習有深入的理解)。百度的研究人員們相信,一個高度易用的語音識別流水線可以讓語音識別平民化,就像卷積神經網(wǎng)絡帶來了計算機視覺領域的革命一樣。

在這個持續(xù)的努力過程中,百度首先開發(fā)出了第一代Deep Speech,這是一個概念驗證性的產品,但它也表明了一個簡單模型的表現(xiàn)就可以和當時頂尖模型的表現(xiàn)相媲美。隨著Deep Speech 2的發(fā)布,百度表明了這樣的模型對不同的語言具有良好的泛化性,并開始把它部署在許多實際應用中。

10月31日,百度的硅谷AI實驗室發(fā)布了Deep Speech 3,這是下一代的語音識別模型,它進一步簡化了模型,并且可以在使用預訓練過的語言模型時繼續(xù)進行端到端訓練。

百度發(fā)布 Deep Speech 3,不同應用場景下輕松部署高精度語音識別模型

論文中,百度研究院的研究員們首先對三個模型進行了實證比較:Deep Speech 2的核心CTC、其它一些 Listend-Attend-Spell 語音識別系統(tǒng)中使用的基于注意力的Seq2Seq模型,以及端到端語音識別中應用的RNN變換器。這個RNN變換器可以看作一個編碼器-解碼器模型,其中假設輸入和輸出標識之間的對應關系是局部的、單調的。這就讓RNN變換器的損失比基于注意力的Seq2Seq更適合用于語音識別(尤其在互聯(lián)網(wǎng)應用中),它去除了帶有注意力的模型中用來鼓勵單調性的額外剪枝。

并且,CTC需要一個外部的語言模型用來輸出有意義的結果,RNN變換器就不需要這樣,它可以支持一個純粹由神經網(wǎng)絡構成的解碼器,模型的訓練和測試階段之間也不會產生錯位。所以自然地,RNN變換器比CTC模型具有更好的表現(xiàn),都不需要一個外部的語言模型。

百度發(fā)布 Deep Speech 3,不同應用場景下輕松部署高精度語音識別模型

Seq2Seq和RNN變換器無需外部語言模型就可以達到良好表現(xiàn)的狀況也提出了一個挑戰(zhàn)。語言模型對語音識別很關鍵,因為語言模型可以用大得多的數(shù)據(jù)集快速訓練;而且語言模型可以對語音識別模型做特定的優(yōu)化,讓它更好地識別特定內容(用戶,地理,應用等等),同時無需給每一類的內容都提供有標注的語音語料。百度的研究人員們在部署Deep Speech 2的過程中發(fā)現(xiàn),這后一條特點對用于生產環(huán)境的語音識別系統(tǒng)來說尤其重要。

為了支持這些應用場景,百度開發(fā)了Cold Fusion,它可以在訓練Seq2Seq模型的時候使用一個預訓練的語言模型。百度在論文中表明,帶有Cold Fusion的Seq2Seq模型可以更好地運用語言信息,帶來了更好的泛化效果和更快的收斂,同時只需用不到10%的標注訓練數(shù)據(jù)就可以完全遷移到一個新領域。Cold Fusion還可以在測試過程中切換不同的語言模型以便為任何內容優(yōu)化。Cold Fusion能夠用在Seq2Seq模型上的同時,它在RNN變換器上應當也能發(fā)揮出同樣好的效果。

這樣,RNN變換器的損失和利用語言模型的Cold Fusion一起構成出了語音識別的下一個前沿。百度的研究人員們也會繼續(xù)探索未來,期待看到這些技術帶來更大的進步。

相關論文:

Exploring Neural Transducers for End-to-End Speech Recognition(ASRU 2017收錄論文): https://arxiv.org/abs/1707.07413 

Cold Fusion: Training Seq2Seq Models Together with Language Models: https://arxiv.org/abs/1708.06426 

雷鋒網(wǎng) AI 科技評論編譯

雷峰網(wǎng)版權文章,未經授權禁止轉載。詳情見轉載須知。

百度發(fā)布 Deep Speech 3,不同應用場景下輕松部署高精度語音識別模型

分享:
相關文章

讀論文為生

日常笑點滴,學術死腦筋
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說