丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
業(yè)界 正文
發(fā)私信給肖漫
發(fā)送

1

五位機(jī)器聽(tīng)覺(jué)領(lǐng)域大咖,論道語(yǔ)音前沿 | CCF-GAIR 2020

導(dǎo)語(yǔ):一場(chǎng)關(guān)于語(yǔ)音技術(shù)的盛宴。

2020 年 8 月 7 日- 9 日,2020 全球人工智能和機(jī)器人峰會(huì)(CCF-GAIR 2020)于深圳正式召開(kāi)。CCF-GAIR 2020 峰會(huì)由中國(guó)計(jì)算機(jī)學(xué)會(huì)(CCF)主辦,雷鋒網(wǎng)、香港中文大學(xué)(深圳)聯(lián)合承辦,鵬城實(shí)驗(yàn)室、深圳市人工智能與機(jī)器人研究院協(xié)辦。

從 2016 年的學(xué)產(chǎn)結(jié)合,2017 年的產(chǎn)業(yè)落地,2018 年的垂直細(xì)分,2019 年的人工智能 40 周年,峰會(huì)一直致力于打造國(guó)內(nèi)人工智能和機(jī)器人領(lǐng)域規(guī)模最大、規(guī)格最高、跨界最廣的學(xué)術(shù)、工業(yè)和投資平臺(tái)。

8 月 8 日,由深圳市人工智能學(xué)會(huì)、CCF 語(yǔ)音對(duì)話與聽(tīng)覺(jué)專業(yè)組協(xié)辦的「前沿語(yǔ)音技術(shù)」專場(chǎng)拉開(kāi)帷幕。

五位機(jī)器聽(tīng)覺(jué)領(lǐng)域大咖,論道語(yǔ)音前沿 | CCF-GAIR 2020

專場(chǎng)由北京大學(xué)教授,深圳市人工智能學(xué)會(huì)副理事長(zhǎng)鄒月嫻教授主持,五位語(yǔ)音領(lǐng)域的專家學(xué)者坐鎮(zhèn),覆蓋“空間聲場(chǎng)控制、語(yǔ)音分離、聲紋識(shí)別、語(yǔ)音轉(zhuǎn)換、端到端語(yǔ)音識(shí)別”五個(gè)專門領(lǐng)域,論道前沿語(yǔ)音技術(shù)的發(fā)展。

可以說(shuō),這是一個(gè)干貨滿滿、學(xué)術(shù)氣息濃厚的專場(chǎng)。

西北工業(yè)大學(xué)智能聲學(xué)與臨境通信研究中心教授張?chǎng)洪_(kāi)放空間聲場(chǎng)主動(dòng)控制技術(shù)

第一位登場(chǎng)演講的嘉賓是西北工業(yè)大學(xué)智能聲學(xué)與臨境通信研究中心教授張?chǎng)?,演講的題目為《開(kāi)放空間聲場(chǎng)主動(dòng)控制技術(shù)》。

五位機(jī)器聽(tīng)覺(jué)領(lǐng)域大咖,論道語(yǔ)音前沿 | CCF-GAIR 2020

張?chǎng)┙淌诓┦慨厴I(yè)于澳大利亞國(guó)立大學(xué),現(xiàn)任西北工業(yè)大學(xué)航海學(xué)院教授、博士生導(dǎo)師。曾在澳大利亞聯(lián)邦科學(xué)與工業(yè)研究組織、澳大利亞國(guó)立大學(xué)工程與計(jì)算機(jī)學(xué)院工作,先后在 IEEE Signal Processing Magazine、IEEE/ACM Transactions on Audio, Speech and Language Processing、Journal of the Acoustical Society of America 等國(guó)際權(quán)威期刊及會(huì)議上發(fā)表論文 60 余篇,于 2015 年獲得澳大利亞研究理事會(huì)“早期職業(yè)研究員獎(jiǎng)”(ARC DECRA), 2017 年入選中國(guó)國(guó)家級(jí)人才計(jì)劃青年項(xiàng)目。

目前,張?chǎng)┙淌诘难芯糠较蛑饕ㄕZ(yǔ)音與聲信號(hào)處理、主動(dòng)噪聲控制和機(jī)器人語(yǔ)音交互。

在演講中,張?chǎng)┙淌谥饕獜娜齻€(gè)部分闡述了開(kāi)放空間聲場(chǎng)主動(dòng)控制技術(shù),分別為空間聲場(chǎng)重構(gòu)技術(shù)、空間多區(qū)域聲場(chǎng)控制技術(shù),以及空間主動(dòng)噪聲場(chǎng)控制技術(shù)。

在空間聲場(chǎng)重構(gòu)方面,主要涉及到兩個(gè)技術(shù):一是波場(chǎng)合成 WFS,二是 Ambisonics。張?chǎng)┙淌谥赋觯诟鼮槭艿綒g迎的是 Ambisonics 面向場(chǎng)景的編解碼技術(shù),它以聲波輻射模態(tài)為基地函數(shù)對(duì)聲場(chǎng)建模,通過(guò)處理經(jīng)波域轉(zhuǎn)換后的 Amibisonic 信號(hào)實(shí)現(xiàn)聲場(chǎng)重構(gòu)與控制。

在空間多區(qū)域聲場(chǎng)控制技術(shù)方面,張?chǎng)┙淌谔岢隽丝臻g多區(qū)域聲場(chǎng)控制系統(tǒng),用一個(gè)揚(yáng)聲器陣列同時(shí)控制多個(gè)區(qū)域的聲場(chǎng),典型的應(yīng)用包括在各種公共環(huán)境下產(chǎn)生個(gè)人聲區(qū),以及在嘈雜的環(huán)境下產(chǎn)生靜區(qū)。

除了提出技術(shù)本身的應(yīng)用場(chǎng)景,張?chǎng)┙淌谶€提出對(duì)該技術(shù)進(jìn)行可實(shí)現(xiàn)性評(píng)價(jià)的理論,基于聲區(qū)的位置以及亮區(qū)期望重構(gòu)聲場(chǎng)的信號(hào)來(lái)得到可實(shí)現(xiàn)性系數(shù),越接近 1 實(shí)現(xiàn)性越高,越接近 0 表示實(shí)現(xiàn)性越低。

在空間主動(dòng)噪聲場(chǎng)控制技術(shù)方面,張?chǎng)┙淌诮榻B到,區(qū)域內(nèi)主動(dòng)噪聲控制是通過(guò)結(jié)合麥克風(fēng)陣列、揚(yáng)聲器陣列及聲場(chǎng)控制技術(shù),實(shí)現(xiàn)三維空間區(qū)域內(nèi)的降噪效果。

演講的最后,張?chǎng)┙淌趶膬蓚€(gè)方面提到了最新的工作考量——傳聲器新設(shè)計(jì)和結(jié)合 AI 與分布式聲學(xué)的信號(hào)處理。張?chǎng)┙淌诒硎?,在信?hào)處理上要關(guān)注的是語(yǔ)音信號(hào)和噪聲信號(hào)的寬帶隨機(jī)性質(zhì),特別是對(duì)中高頻和快速變化信號(hào)的跟蹤能力,在這些情況下聲場(chǎng)控制的難度急劇增加,還將有大量的工作待展開(kāi)。

滴滴 AI Labs 高級(jí)專家研究員宋輝:基于深度學(xué)習(xí)的語(yǔ)音分離技術(shù)進(jìn)展

第二位登場(chǎng)的嘉賓是滴滴 AI Labs 高級(jí)專家研究員宋輝,其分享的主題是《基于深度學(xué)習(xí)的語(yǔ)音分離技術(shù)進(jìn)展》。

五位機(jī)器聽(tīng)覺(jué)領(lǐng)域大咖,論道語(yǔ)音前沿 | CCF-GAIR 2020

宋輝博士畢業(yè)于清華大學(xué),在語(yǔ)音技術(shù)行業(yè)工作 10 余年,先后在百度語(yǔ)音技術(shù)部、滴滴 AI Labs 語(yǔ)音研究實(shí)驗(yàn)室工作,擁有豐富的語(yǔ)音算法研發(fā)與產(chǎn)品化和商業(yè)化的經(jīng)驗(yàn)。

在本場(chǎng)演講中,宋輝博士介紹了語(yǔ)音分離技術(shù)的發(fā)展現(xiàn)狀,深入闡述了基于深度學(xué)習(xí)的單通道語(yǔ)音分離技術(shù)的發(fā)展脈絡(luò),各種技術(shù)方案的優(yōu)缺點(diǎn)與適用場(chǎng)景,以及未來(lái)面臨的挑戰(zhàn)。

宋輝博士首先展示了當(dāng)下比較流行的單通道語(yǔ)音分離技術(shù)在兩個(gè)不同的公開(kāi)數(shù)據(jù)集合上的表現(xiàn),其中 WSJ0-2mix 是純凈測(cè)試集,WHAM 是與之相對(duì)應(yīng)的含噪測(cè)試集。

在比較理想的純凈數(shù)據(jù)集上,單通道的分離技術(shù)近兩年在 SI-SDRi 指標(biāo)上有比較大的進(jìn)步。而對(duì)于更貼近真實(shí)環(huán)境的噪聲場(chǎng)景,目前的學(xué)術(shù)研究還不是特別完備,與安靜環(huán)境相比在 SI-SDR 指標(biāo)上會(huì)有幾個(gè) dB 的落差,表現(xiàn)比較好的單通道方法在含噪數(shù)據(jù)集上還沒(méi)有通過(guò)完備的測(cè)試和評(píng)估。

宋輝博士指出,單通道的語(yǔ)音分離可以抽象成“Encoder—Separator—Decoder”基本框架,Encoder 用于將一維混合語(yǔ)音變換到另一個(gè)二維空間中,Separator 用于在此二維空間中學(xué)習(xí)相對(duì)于每個(gè)說(shuō)話人的 mask,并與混合語(yǔ)音進(jìn)行元素級(jí)別相乘得到每一路分離后的變換域信號(hào),而 Decoder 則是將每一路信號(hào)反變換回到時(shí)域。

目前主要有時(shí)域和頻域兩種主流的分離方法。頻域方法的優(yōu)點(diǎn)是可以與傳統(tǒng)的信號(hào)處理方法(如頻域波束形成)更相融,可以得到更加稀疏和結(jié)構(gòu)化的聲學(xué)特征表征。不過(guò),其缺點(diǎn)也比較明顯,例如精準(zhǔn)的相位重建比較困難、需要較長(zhǎng)的窗長(zhǎng)滿足頻率分辨率的要求而導(dǎo)致的長(zhǎng)時(shí)延等。

在演講中,宋輝博士主要從 u-PIT、Deep CASA、Voice filter、SBF-MTSAL-Concat 四種方法闡述了頻域語(yǔ)音分離和目標(biāo)說(shuō)話人抽取任務(wù)的技術(shù)路線。

近年來(lái),基于時(shí)域的語(yǔ)音分離技術(shù)越來(lái)越受到關(guān)注,宋輝博士也對(duì)時(shí)域語(yǔ)音分離技術(shù)進(jìn)行了剖析——

與頻域的方法相對(duì)應(yīng)的,時(shí)域方法能夠把混合語(yǔ)音變換到一個(gè)實(shí)數(shù)域潛空間中,用一種 data-driven 的形式學(xué)習(xí)其特征表示,例如可以采用 1-D CNN 或是更深的 Encoder 完成這種變換。時(shí)域分離方法不需要處理相位重建問(wèn)題,延時(shí)比較短,可以做到采樣點(diǎn)級(jí)別的時(shí)延,非常適用于那些對(duì)實(shí)時(shí)性要求高的場(chǎng)景。

在具體方法上,宋輝博士主要介紹了 Conv-TasNet、DPRNN-TasNet、SpEx、SpEx+ 等幾種有代表性的方法。

隨后,宋輝博士介紹了單通道語(yǔ)音分離技術(shù)的幾個(gè)研究方向,包括 Separator 的改進(jìn)、 Encoder/Decoder 的改進(jìn)和優(yōu)化、訓(xùn)練機(jī)制的改進(jìn)以及如果有效利用 speaker embedding 信息完成高質(zhì)量的特定說(shuō)話人抽取任務(wù)等。

最后,宋輝博士總結(jié)到,目前在學(xué)術(shù)界和工業(yè)界中,基于時(shí)域的分離方式更受大家歡迎。在未來(lái)展望上,宋輝博士表示,希望不斷提升神經(jīng)網(wǎng)絡(luò)的泛化能力,使得各種分離網(wǎng)絡(luò)在真實(shí)的環(huán)境中可以取得滿意的結(jié)果;希望未來(lái)可以挖掘出更多語(yǔ)音分離的場(chǎng)景和應(yīng)用。

昆山杜克大學(xué)電子與計(jì)算機(jī)工程副教授李明:基于深度編碼的聲紋識(shí)別及其關(guān)聯(lián)任務(wù)

緊接著登場(chǎng)的是昆山杜克大學(xué)電子與計(jì)算機(jī)工程副教授李明,其演講的題目為《基于深度編碼的聲紋識(shí)別及其關(guān)聯(lián)任務(wù)》。

五位機(jī)器聽(tīng)覺(jué)領(lǐng)域大咖,論道語(yǔ)音前沿 | CCF-GAIR 2020

李明副教授博士畢業(yè)于美國(guó)南加州大學(xué),現(xiàn)任昆山杜克大學(xué)電子與計(jì)算機(jī)工程副教授,武漢大學(xué)計(jì)算機(jī)學(xué)院兼職教授,博導(dǎo)。研究方向包括音頻語(yǔ)音信息處理,多模態(tài)行為信號(hào)分析等方向。已發(fā)表學(xué)術(shù)論文 100 余篇,現(xiàn)擔(dān)任 IEEE 語(yǔ)音及語(yǔ)言技術(shù)委員會(huì)委員,中國(guó)計(jì)算機(jī)學(xué)會(huì)語(yǔ)音對(duì)話與聽(tīng)覺(jué)專業(yè)組專委,中國(guó)人工智能學(xué)會(huì)人工心理與人工情感專委會(huì)專委, APSIPA 語(yǔ)音及語(yǔ)言處理技術(shù)委員會(huì)委員,IEEE 協(xié)會(huì)高級(jí)會(huì)員。

李明副教授曾擔(dān)任 Interspeech2016、2018 及 2020 年說(shuō)話人語(yǔ)種識(shí)別領(lǐng)域主席。帶領(lǐng)團(tuán)隊(duì)于 2011 年、2012 年、2019 年三次獲得了 INTERSPEECH paralinguistic challenge 第一名,ASRU19 阿拉伯語(yǔ)語(yǔ)種識(shí)別第一名,interspeech20 fearless steps 說(shuō)話人識(shí)別第一名,指導(dǎo)學(xué)生獲得 ISCSLP2014 最佳學(xué)生論文獎(jiǎng), IEEE CPTECE2018 最佳論文獎(jiǎng)。2016 年被授予 IBM Faculty Award,2018 年被授予 ISCA 5 年最佳期刊論文獎(jiǎng)。

在演講中,李明副教授先是從特征提取,建立模型,魯棒性處理,分類器設(shè)計(jì)等幾個(gè)步驟介紹傳統(tǒng)聲紋方法,并隨后引出基于端到端深度學(xué)習(xí)框架的聲紋識(shí)別網(wǎng)絡(luò)設(shè)計(jì)。

李明副教授提到,基于深度編碼的聲紋識(shí)別與傳統(tǒng)的參數(shù)化建模方法從結(jié)構(gòu)上有一定的類比性,比如卷積神經(jīng)網(wǎng)絡(luò)用于特征提取,編碼層網(wǎng)絡(luò)用于計(jì)算統(tǒng)計(jì)量并得到固定維度的特征向量,全連接網(wǎng)絡(luò)用于后端分類等。

在李明副教授看來(lái),基于深度編碼的聲紋識(shí)別是在傳統(tǒng)技術(shù)上的升級(jí):一方面,基于深度編碼的聲紋識(shí)別更準(zhǔn)確,效果更好;另一方面,聲紋深度編碼還可以被用于說(shuō)話人日志,多說(shuō)話人合成,特定人變聲,特定人語(yǔ)音分離等一系列關(guān)聯(lián)任務(wù)中。

緊接著,李明副教授分享了聲紋深度編碼在說(shuō)話人日志中的應(yīng)用,介紹了如何通過(guò) LSTM,Vector-To-Sequence 等方法更好的建模說(shuō)話人片段序列相似度矩陣, 以及利用匈牙利算法和預(yù)處理降低 PIT 損失函數(shù)的復(fù)雜度等。

李明副教授還介紹了一個(gè)具有聲紋深度編碼一致性約束的多說(shuō)話人合成系統(tǒng)框架,在傳統(tǒng)的 TTS 輸出上,在輸出端增加一個(gè)聲紋網(wǎng)絡(luò),使得合成網(wǎng)絡(luò)輸出聲音的聲紋編碼與給定的目標(biāo)說(shuō)話人的聲紋編碼保持一致,提高合成語(yǔ)音與目標(biāo)說(shuō)話人的相似性。

中國(guó)科學(xué)技術(shù)大學(xué)電子工程與信息科學(xué)系副教授凌震華:基于表征解耦的非平行語(yǔ)料話者轉(zhuǎn)換

第四位進(jìn)行演講的嘉賓是中國(guó)科學(xué)技術(shù)大學(xué)電子工程與信息科學(xué)系副教授凌震華。

五位機(jī)器聽(tīng)覺(jué)領(lǐng)域大咖,論道語(yǔ)音前沿 | CCF-GAIR 2020

凌震華副教授主要研究領(lǐng)域包括語(yǔ)音信號(hào)處理和自然語(yǔ)言處理。主持與參與多項(xiàng)國(guó)家自然科學(xué)基金、國(guó)家重點(diǎn)研發(fā)計(jì)劃、安徽省語(yǔ)音專項(xiàng)等科研項(xiàng)目,已發(fā)表論文 100 余篇,論文累計(jì)被引 4000 余次,獲國(guó)家科技進(jìn)步獎(jiǎng)二等獎(jiǎng)和 IEEE 信號(hào)處理學(xué)會(huì)最佳青年作者論文獎(jiǎng)。在 Blizzard Challenge 國(guó)際語(yǔ)音合成技術(shù)評(píng)測(cè)、Voice Conversion Challenge 國(guó)際語(yǔ)音轉(zhuǎn)換技術(shù)評(píng)測(cè)等活動(dòng)中多次獲得測(cè)試指標(biāo)第一名。

凌震華副教授現(xiàn)為電氣電子工程師學(xué)會(huì)(IEEE)高級(jí)會(huì)員、中國(guó)計(jì)算機(jī)學(xué)會(huì)語(yǔ)音聽(tīng)覺(jué)與對(duì)話專業(yè)組委員、中國(guó)語(yǔ)言學(xué)會(huì)語(yǔ)音學(xué)分會(huì)學(xué)術(shù)委員會(huì)委員、全國(guó)人機(jī)語(yǔ)音通訊學(xué)術(shù)會(huì)議常設(shè)機(jī)構(gòu)委員會(huì)委員。2014-2018 年曾任 IEEE/ACM TASLP 期刊副編輯。

在本次前沿語(yǔ)音技術(shù)專場(chǎng),凌震華副教授的演講主題為《基于表征解耦的非平行語(yǔ)料話者轉(zhuǎn)換》。

話者轉(zhuǎn)換又稱語(yǔ)音轉(zhuǎn)換,指的是在不改變文本內(nèi)容的前提下改變語(yǔ)音中的說(shuō)話人身份信息。在演講中,凌震華副教授主要從語(yǔ)音轉(zhuǎn)換所基于的語(yǔ)料類型出發(fā),介紹了平行語(yǔ)料下實(shí)現(xiàn)語(yǔ)音轉(zhuǎn)換的技術(shù)演變過(guò)程,并由此延伸到非平行語(yǔ)料下的語(yǔ)音轉(zhuǎn)換。

其中在平行語(yǔ)料條件下,傳統(tǒng)語(yǔ)音轉(zhuǎn)換基于 GMM (高斯混合模型)實(shí)現(xiàn)。 2013 年后深度學(xué)習(xí)技術(shù)被引入語(yǔ)音轉(zhuǎn)換任務(wù),基于產(chǎn)生式訓(xùn)練的深度神經(jīng)網(wǎng)絡(luò)(Generative Trained Deep Neural Network, GTDNN)等模型相繼被提出。不過(guò)無(wú)論是 GMM 還是 DNN,都面臨源與目標(biāo)語(yǔ)音幀對(duì)齊過(guò)程中出現(xiàn)的誤差和不合理問(wèn)題。近年來(lái)提出的序列到序列(seq2seq)語(yǔ)音轉(zhuǎn)換方法可以有效改善這一問(wèn)題,提升轉(zhuǎn)換語(yǔ)音的自然度與相似度。

進(jìn)一步,凌震華副教授談到了在非平行語(yǔ)料條件下的語(yǔ)音轉(zhuǎn)換,并表示這種場(chǎng)景普遍存在于實(shí)際應(yīng)用中,也更有難度?;诜瞧叫袛?shù)據(jù)構(gòu)造平行數(shù)據(jù),以及分離語(yǔ)音中的文本與話者表征,是實(shí)現(xiàn)非平行語(yǔ)音轉(zhuǎn)換的兩條主要技術(shù)途徑。

隨后,凌震華副教授重點(diǎn)介紹了所提出的基于特征解耦的序列到序列語(yǔ)音轉(zhuǎn)換方法,該方法在序列到序列建??蚣芟聦?shí)現(xiàn)語(yǔ)音中文本相關(guān)內(nèi)容和話者相關(guān)內(nèi)容的分離,取得了優(yōu)于傳統(tǒng)逐幀處理方法的非平行語(yǔ)音轉(zhuǎn)換質(zhì)量,接近使用同等規(guī)模平行數(shù)據(jù)的序列到序列語(yǔ)音轉(zhuǎn)換效果。

最后,凌震華副教授表示:

我們?cè)谶M(jìn)行語(yǔ)音轉(zhuǎn)換的過(guò)程中,序列到序列建模方法在時(shí)長(zhǎng)調(diào)整、長(zhǎng)時(shí)相關(guān)性建模等方面有其優(yōu)勢(shì),但是將該方法從平行數(shù)據(jù)條件推廣到非平行數(shù)據(jù)條件存在挑戰(zhàn)。特征解耦是解決這一問(wèn)題的有效途徑,通過(guò)序列到序列框架下的模型結(jié)構(gòu)與損失函數(shù)設(shè)計(jì)可以獲取相對(duì)獨(dú)立的文本與話者表征,進(jìn)一步實(shí)現(xiàn)非平行數(shù)據(jù)條件下的高質(zhì)量語(yǔ)音轉(zhuǎn)換。

上海交通大學(xué)計(jì)算機(jī)系教授俞凱:端到端及半監(jiān)督語(yǔ)音識(shí)別技術(shù)進(jìn)展

最后一位壓軸登場(chǎng)的是上海交通大學(xué)計(jì)算機(jī)系教授俞凱。

五位機(jī)器聽(tīng)覺(jué)領(lǐng)域大咖,論道語(yǔ)音前沿 | CCF-GAIR 2020

俞凱教授是上海交大蘇州人工智能研究院執(zhí)行院長(zhǎng),思必馳創(chuàng)始人、首席科學(xué)家。清華大學(xué)本碩,英國(guó)劍橋大學(xué)博士。長(zhǎng)期從事語(yǔ)音技術(shù)研究和產(chǎn)業(yè)化工作,發(fā)表論文 170 余篇,獲 ISCA Computer Speech and Language 和 Speech Communication的最優(yōu)期刊論文獎(jiǎng),InterSpeech、IEEE SLT、ISCSLP 等國(guó)際會(huì)議優(yōu)秀論文獎(jiǎng),以及美國(guó)國(guó)家標(biāo)準(zhǔn)局語(yǔ)音識(shí)別評(píng)測(cè)、國(guó)際口語(yǔ)對(duì)話系統(tǒng)研究挑戰(zhàn)賽等研究評(píng)測(cè)冠軍。

俞凱教授擔(dān)任多個(gè)領(lǐng)域旗艦會(huì)議領(lǐng)域主席與程序委員會(huì)主席。他是國(guó)家青年千人、自然科學(xué)基金委優(yōu)青,IEEE 高級(jí)會(huì)員,中國(guó)大陸高校首個(gè) IEEE 語(yǔ)言文字處理技術(shù)委員會(huì)委員(2017-2019)?,F(xiàn)任 IEEE 語(yǔ)音與語(yǔ)言處理匯刊編委,中國(guó)人工智能產(chǎn)業(yè)發(fā)展聯(lián)盟學(xué)術(shù)和知識(shí)產(chǎn)權(quán)組組長(zhǎng),中國(guó)計(jì)算機(jī)學(xué)會(huì)語(yǔ)音對(duì)話及聽(tīng)覺(jué)專業(yè)組副主任。獲評(píng) 2014 中國(guó)人工智能學(xué)會(huì)吳文俊科技進(jìn)步獎(jiǎng),2016 年“《科學(xué)中國(guó)人》年度人物”,2018 中國(guó)計(jì)算機(jī)學(xué)會(huì)青竹獎(jiǎng)。

在前沿語(yǔ)音專場(chǎng),俞凱教授帶來(lái)的演講是《端到端及半監(jiān)督語(yǔ)音識(shí)別技術(shù)進(jìn)展》。

在俞凱教授看來(lái),端到端語(yǔ)音識(shí)別降低了識(shí)別系統(tǒng)復(fù)雜度,減少參數(shù)量,簡(jiǎn)化了訓(xùn)練流水線。當(dāng)下的端到端框架主要有兩類——同步框架和異步框架;解決分類和對(duì)齊的問(wèn)題。

在演講中,俞凱教授主要探討的是異步的端到端,其最大特點(diǎn)是輸出和輸入沒(méi)有統(tǒng)一時(shí)鐘,具有兩個(gè)不同的網(wǎng)絡(luò)。Encoder 對(duì)整體輸入序列提取特征信心,接著 Decoder 以自回歸方式輸出標(biāo)簽序列,再通過(guò)注意力機(jī)制(Attention)處理輸入輸出對(duì)齊。

同時(shí),俞凱教授還指出,端到端識(shí)別系統(tǒng)存在“在線解碼的遲延問(wèn)題、文本資源及語(yǔ)言空間約束”兩方面挑戰(zhàn)。

要解決在線解碼的遲延問(wèn)題,需要借助異步端到端模型的在線解碼,主要有三種方法——固定短時(shí)窗口預(yù)測(cè)(Neural Transducer)、基于單幀觸發(fā)的變長(zhǎng)窗口方法(MoChA, Triggered Attention)、基于多幀累積觸發(fā)閾值的方法(Adaptive Computing Steps)。

對(duì)于文本資源及語(yǔ)言空間約束的挑戰(zhàn),則可以采用模型融合(Fusion)、語(yǔ)言模型模塊嵌入、半監(jiān)督訓(xùn)練等方式進(jìn)行解決。

除了端到端模型,俞凱教授還提到了數(shù)據(jù)處理。要從海量數(shù)據(jù)升級(jí)到高質(zhì)量精準(zhǔn)大數(shù)據(jù),需要借以自監(jiān)督預(yù)訓(xùn)練、半監(jiān)督訓(xùn)練以及使用生存數(shù)據(jù)訓(xùn)練。

此外,俞凱教授還提及了在沒(méi)有數(shù)據(jù)的情況下如何無(wú)中生有合成。俞凱教授表示:

絕大部分無(wú)中生有的方式都是通過(guò)引入生成模型解決的,鑒別性方法則對(duì)數(shù)據(jù)依賴較高,有充分?jǐn)?shù)據(jù)才能解決鑒別性的問(wèn)題。

在演講中,俞凱教授主要介紹了兩種“豐富副語(yǔ)言信息生成”的方法:一是在低資源數(shù)據(jù)下使用 VAE 建模說(shuō)話人空間,合成數(shù)據(jù)時(shí),從隱變量的先驗(yàn)分布中采樣,得到虛擬說(shuō)話人的語(yǔ)音用于 ASR 訓(xùn)練;二是不使用句子級(jí)的 VAE,而是采用 phone 級(jí)的 VAE 以增加合成音頻在副語(yǔ)言信息上的多樣性。

隨著最后一位嘉賓演講結(jié)束,前沿語(yǔ)音專場(chǎng)也就此落下了帷幕。

關(guān)于各位嘉賓的演講內(nèi)容整理,稍后也將陸續(xù)發(fā)布,敬請(qǐng)期待。雷鋒網(wǎng)雷鋒網(wǎng)

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知

分享:
相關(guān)文章

資深編輯

關(guān)注智能硬件、IoT、機(jī)器人 | 微信:Elena_Xiao1025
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)