0
本文作者: 付靜 | 2019-12-13 17:55 |
雷鋒網(wǎng)消息,在 12 月 8 日至 14 日于溫哥華召開的機(jī)器學(xué)習(xí)頂會(huì)之一 NeurIPS 2019 會(huì)議上,微軟和浙江大學(xué)研究人員介紹了文本-語(yǔ)音模型 FastSpeech,該模型可大幅提升文本語(yǔ)音轉(zhuǎn)換過(guò)程中梅爾譜的生成速度,語(yǔ)音生成速度比基線快 38 倍。
雷鋒網(wǎng)注:【 圖片來(lái)源:VentureBeat 所有者:VentureBeat 】
目前,Google Assistant 語(yǔ)音助手及最近出現(xiàn)在 Alexa 和 Amazon Polly 服務(wù)中的新聞播音員的語(yǔ)音乍聽上去幾乎與人聲無(wú)異。事實(shí)上,這些語(yǔ)音助手都是由文本-語(yǔ)音模型提供支持的。
在當(dāng)下,基于神經(jīng)網(wǎng)絡(luò)的端到端文本-語(yǔ)音合成技術(shù)發(fā)展迅速,大多數(shù)模型的合成方法為:從文本生成梅爾譜(Mel-Spectrogram,即一種展示聲音功率的光譜圖),然后使用聲碼器(分析和合成語(yǔ)音信號(hào)的編解碼器)合成語(yǔ)音。
但是,這種合成方法存在著一些不可避免的問(wèn)題,主要包括:
速度慢:端到端模型通常以自回歸方式生成梅爾譜,再通過(guò)聲碼器合成語(yǔ)音,而一段語(yǔ)音的梅爾譜通常能到幾百上千幀,導(dǎo)致合成速度較慢;
穩(wěn)定性差:序列生成的錯(cuò)誤傳播及注意力對(duì)齊不準(zhǔn),會(huì)導(dǎo)致出現(xiàn)重復(fù)吐詞或漏詞現(xiàn)象;
缺乏可控性:自回歸的神經(jīng)網(wǎng)絡(luò)模型自動(dòng)決定一條語(yǔ)音的生成長(zhǎng)度,不易控制語(yǔ)速或韻律停頓等。
為解決這些問(wèn)題,微軟(亞洲)互聯(lián)網(wǎng)工程院語(yǔ)音團(tuán)隊(duì)聯(lián)合浙江大學(xué)提出了一種新的機(jī)器學(xué)習(xí)模型 FastSpeech,并在論文《FastSpeech:快速、強(qiáng)大且可控的文本-語(yǔ)音模型》中詳細(xì)介紹了該模型。另外,值得一提的是,該論文已被溫哥華 NeurIPS 2019 會(huì)議錄用。
【 圖片來(lái)源:論文 】
與其他文本-語(yǔ)音模型相比,F(xiàn)astSpeech 模型架構(gòu)較為獨(dú)特,且有著更佳的性能(其梅爾譜生成速度比基線快 270 倍,語(yǔ)音生成速度比基線快 38 倍)。不僅如此,它還能夠避免了單詞跳過(guò)等錯(cuò)誤,還支持精細(xì)調(diào)整語(yǔ)速和單詞中斷。
更為重要的是,F(xiàn)astSpeech 包含長(zhǎng)度調(diào)節(jié)器,可協(xié)調(diào)梅爾譜序列和音素序列(即感知度不同的聲音單位)之間的差異。
簡(jiǎn)單來(lái)講,由于音素序列的長(zhǎng)度總是小于梅爾譜序列長(zhǎng)度,一個(gè)音素對(duì)應(yīng)多個(gè)梅爾譜。而長(zhǎng)度調(diào)節(jié)器會(huì)根據(jù)持續(xù)時(shí)間,擴(kuò)展音素序列以匹配梅爾譜序列長(zhǎng)度(一個(gè)補(bǔ)充時(shí)長(zhǎng)預(yù)測(cè)器組件確定一個(gè)音素的時(shí)長(zhǎng))。 增加或減少與音素或音素持續(xù)時(shí)間匹配的梅爾譜數(shù)目,可成比例地調(diào)整語(yǔ)音速度。
【 圖片來(lái)源:論文 】
為驗(yàn)證 FastSpeech 的有效性,研究人員將其與開源的 LJ Speech 數(shù)據(jù)集進(jìn)行了對(duì)比,該數(shù)據(jù)集包含 13100 個(gè)英語(yǔ)音頻片段(相當(dāng)于 24 個(gè)小時(shí)的音頻)和相應(yīng)的文本轉(zhuǎn)錄。在將數(shù)據(jù)集隨機(jī)分成用于訓(xùn)練的 12500 個(gè)樣本、用于驗(yàn)證的 300 個(gè)樣本和用于測(cè)試的 300 個(gè)樣本后,他們對(duì)語(yǔ)音質(zhì)量、穩(wěn)定性等進(jìn)行了一系列評(píng)估。
論文中,研究團(tuán)隊(duì)主要從語(yǔ)音質(zhì)量(audio quality)、生成速度(inference speedup)、穩(wěn)定性(robustness)和可控性(controllability)等方面評(píng)估 FastSpeech 模型的性能。
研究團(tuán)隊(duì)表示,F(xiàn)astSpeech 的質(zhì)量幾乎與谷歌的 Tacotron 2 文本-語(yǔ)音模型相當(dāng),在穩(wěn)定性上輕松超過(guò)主流的 Transformer 模型。同時(shí),與基線的 34% 有效錯(cuò)誤率相比,F(xiàn)astSpeech 的有效錯(cuò)誤率為零。(但不可否認(rèn)的是,其穩(wěn)定性測(cè)試只涉及 50 個(gè)語(yǔ)義復(fù)雜的句子) 此外,F(xiàn)astSpeech 能在保持準(zhǔn)確度的前提下,將生成的語(yǔ)音速度從 0.5 倍變?yōu)?1.5 倍。
因此,研究團(tuán)隊(duì)表示,F(xiàn)astSpeech 兼具快速、魯棒、可控等特點(diǎn)。
【 圖片來(lái)源:論文 】
論文的最后,研究團(tuán)隊(duì)也提到,未來(lái)將把 FastSpeech 和速度更快的聲碼器組合成單一模型,提供完全端到端的文本-語(yǔ)音解決方案。
via VentureBeat,雷鋒網(wǎng)編譯。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。