丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給黃善清
發(fā)送

0

Facebook 開源首個(gè)全卷積語音識別工具包 wav2letter++

本文作者: 黃善清 編輯:汪思穎 2018-12-26 18:04
導(dǎo)語:系統(tǒng)基于全卷積方法進(jìn)行語音識別,訓(xùn)練語音識別端到端神經(jīng)網(wǎng)絡(luò)的速度是其他框架的 2 倍多。

雷鋒網(wǎng) AI 科技評論按:近日,F(xiàn)acebook 人工智能研究院 ( FAIR ) 宣布開源首個(gè)全卷積語音識別工具包 wav2letter++。系統(tǒng)基于全卷積方法進(jìn)行語音識別,訓(xùn)練語音識別端到端神經(jīng)網(wǎng)絡(luò)的速度是其他框架的 2 倍多。他們在博客中對此次開源進(jìn)行了詳細(xì)介紹。

Facebook 開源首個(gè)全卷積語音識別工具包 wav2letter++

由于端到端語音識別技術(shù)能夠輕易擴(kuò)展至多種語言,同時(shí)能在多變的環(huán)境下保證識別質(zhì)量,因此被普遍認(rèn)為是一種高效且穩(wěn)定的語音識別技術(shù)。雖說遞歸卷積神經(jīng)網(wǎng)絡(luò)在處理具有遠(yuǎn)程依賴性的建模任務(wù)上很占優(yōu)勢,如語言建模、機(jī)器翻譯和語音合成等,然而在端到端語音識別任務(wù)上,循環(huán)架構(gòu)才是業(yè)內(nèi)的主流。

有鑒于此,F(xiàn)acebook 人工智能研究院 (FAIR) 的語音小組上周推出首個(gè)全卷積語音識別系統(tǒng),該系統(tǒng)完全由卷積層組成,取消了特征提取步驟,僅憑端到端訓(xùn)練對音頻波形中的轉(zhuǎn)錄文字進(jìn)行預(yù)測,再通過外部卷積語言模型對文字進(jìn)行解碼。隨后 Facebook 宣布開源 wav2letter ++——這種高性能框架的出現(xiàn),讓端到端語音識別技術(shù)得以實(shí)現(xiàn)快速迭代,為技術(shù)將來的優(yōu)化工作和模型調(diào)優(yōu)打下夯實(shí)的基礎(chǔ)。

與 wav2letter++ 一同宣布開源的,還有機(jī)器學(xué)習(xí)庫 Flashlight。Flashlight 是建立在 C++基礎(chǔ)之上的機(jī)器學(xué)習(xí)庫,使用了 ArrayFire 張量庫,并以 C++進(jìn)行實(shí)時(shí)編譯,目標(biāo)是最大化 CPU 與 GPU 后端的效率和規(guī)模,而 wave2letter ++工具包建立在 Flashlight 基礎(chǔ)上,同樣使用 C++進(jìn)行編寫,以 ArrayFire 作為張量庫。

這里著重介紹一下 ArrayFire,它可以在 CUDA GPU 和 CPU 支持的多種后端上被執(zhí)行,支持多種音頻文件格式(如 wav、flac 等),此外還支持多種功能類型,其中包括原始音頻、線性縮放功率譜、log 梅爾譜 (MFSC) 和 MFCCs 等。

Github 開源地址:

https://github.com/facebookresearch/wav2letter/

在 Facebook 對外發(fā)布論文中,wav2letter++被拿來與其他主流開源語音識別系統(tǒng)進(jìn)行對比,發(fā)現(xiàn) wav2letter++訓(xùn)練語音識別端到端神經(jīng)網(wǎng)絡(luò)速度是其他框架的 2 倍還多。其使用了 1 億個(gè)參數(shù)的模型測試,使用從 1~64 個(gè) GPU,且訓(xùn)練時(shí)間是線性變化的。

Facebook 開源首個(gè)全卷積語音識別工具包 wav2letter++

圖片來源:Facebook

上面為系統(tǒng)的網(wǎng)絡(luò)結(jié)構(gòu)圖,主要由 4 個(gè)部分組成:

可學(xué)習(xí)前端(Learnable front end):這部分包含寬度為 2 的卷積(用于模擬預(yù)加重流程)和寬度為 25 ms 的復(fù)卷積。在計(jì)算完平方模數(shù)后,由低通濾波器和步長執(zhí)行抽取任務(wù)。最后應(yīng)用于 log-compression 和 per-channel mean-variance normalization 上。

聲學(xué)模型:這是一款帶有門線性單元(GLU)的卷積神經(jīng)網(wǎng)絡(luò),負(fù)責(zé)處理可學(xué)習(xí)前端的輸出內(nèi)容?;谧詣臃指顪?zhǔn)則,該模型在字母預(yù)測任務(wù)上進(jìn)行訓(xùn)練。

語言模型:該卷積語言模型一共包含 14 個(gè)卷積殘差塊,并將門線性單元作為激活函數(shù),主要用來對集束搜索解碼器中語言模型的預(yù)備轉(zhuǎn)錄內(nèi)容進(jìn)行評分。

集束搜索解碼器(Beam-search decoder):根據(jù)聲學(xué)模型的輸出內(nèi)容生成詞序列。

想深入了解系統(tǒng)背后運(yùn)作原理感的同學(xué),可以自行查閱完整內(nèi)容:

https://arxiv.org/abs/1812.07625

wav2letter++: The Fastest Open-source Speech Recognition System

via https://opensource.fb.com/

雷鋒網(wǎng) AI 科技評論 雷鋒網(wǎng)

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

Facebook 開源首個(gè)全卷積語音識別工具包 wav2letter++

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個(gè)人簡介
為了您的賬戶安全,請驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說