2
本文作者: 老王 | 2017-01-16 20:28 |
在去年的錘子發(fā)布會中,羅永浩現(xiàn)場演示了訊飛輸入法后讓用戶意識到當(dāng)下語音識別能力的強大。當(dāng)然,語音識別在安靜環(huán)境、常用字詞、發(fā)音標(biāo)準(zhǔn)情況下已非常成熟,但在復(fù)雜環(huán)境下如遠(yuǎn)場識別、帶噪聲識別等情況下仍有一定的提升空間。
2016 年語音識別領(lǐng)域有著不小的進展,其主要體現(xiàn)在模型方面的突破:
Deep CNN 模型大熱,百度把 Deep CNN 應(yīng)用于語音識別聲學(xué)建模中,將其與基于 LSTM 和 CTC 的端對端語音識別技術(shù)相結(jié)合,大大提升了語音識別能力;微軟則是把 ResNet 應(yīng)用于語音識別,在產(chǎn)業(yè)標(biāo)準(zhǔn) Switchboard 語音識別基準(zhǔn)測試中,實現(xiàn)了詞錯率(WER)低至 5.9% 的新突破;科大訊飛也推出了全新的深度全序列卷積神經(jīng)網(wǎng)絡(luò) DFCNN。
與此同時,新的深度學(xué)習(xí)開源框架層出不窮,開發(fā)者做語音識別到底是用 Kaldi 這類傳統(tǒng)框架還是用 TensorFlow 這類新型框架呢?
針對上述幾大話題,雷鋒網(wǎng)硬創(chuàng)公開課特邀供職于阿里巴巴最神秘的研究部門 iDST 的語音專家薛少飛博士,從聲學(xué)模型和算法角度深入講述 2016 年語音識別領(lǐng)域的重大突破。
薛少飛,阿里巴巴 iDST 語音識別專家,中國科學(xué)技術(shù)大學(xué)博士?,F(xiàn)負(fù)責(zé)阿里聲學(xué)模型研究與應(yīng)用:包括語音識別聲學(xué)建模和深度學(xué)習(xí)在業(yè)務(wù)場景中的應(yīng)用。博士期間的研究方向為語音識別說話人自適應(yīng),提出基于 Speaker Code 的模型域自適應(yīng)方法,在語音相關(guān)的會議和期刊上發(fā)表論文十余篇。
本期公開課內(nèi)容將包括但不限于:
語音識別領(lǐng)域的最新進展。
詳解阿里的聲學(xué)模型。
Deep CNN 的原理,相比于之前的 LSTM、RNN、CTC 模型有哪些不同和優(yōu)勢。
介紹不同單位提出的 Deep CNN 結(jié)構(gòu),如科大訊飛提出的深度全序列卷積神經(jīng)網(wǎng)絡(luò) DFCNN 等。
ResNet 在語音識別中的應(yīng)用。
對比傳統(tǒng)語音識別開源框架(Kaldi、CMU Sphinx、Julius)與深度學(xué)習(xí)開源框架(CNTK、TensorFlow)
活動詳情
主題:解讀全新聲學(xué)模型與算法:2016 年語音識別的重大進步
嘉賓:薛少飛
時間:1 月 19 日周四晚上 20:00
形式:斗魚直播+微信群與嘉賓問答互動
地址:硬創(chuàng)公開課 斗魚直播間(房間號:788495)
本期雷鋒網(wǎng)硬創(chuàng)公開課將會有【斗魚直播+微信群問答】兩個環(huán)節(jié)。嘉賓直播授課分享結(jié)束后,將會在微信群與群友問答互動。
為了打造高質(zhì)量且細(xì)分的讀者交流群,我們需要您提交一些基本資料作簡單審核,而本次公開課讀者群將優(yōu)先 NLP 相關(guān)從業(yè)者和學(xué)生進入。
掃描下方海報上的二維碼,進入雷鋒網(wǎng)人工智能垂直微信公眾號【AI 科技評論】后,可獲得詳細(xì)入群方式。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。