1
本文作者: 高婓 | 2016-09-09 12:54 |
編者按:Google的DeepMind研究實(shí)驗(yàn)室昨天公布了其在語(yǔ)音合成領(lǐng)域的最新成果——WaveNet,一種原始音頻波形深度生成模型,能夠模仿人類(lèi)的聲音,生成的原始音頻質(zhì)量?jī)?yōu)于目前Google采用的兩種最優(yōu)文本-語(yǔ)音模型Parameric TTS與Concatenative TTS。
WaveNets是一種卷積神經(jīng)網(wǎng)絡(luò),能夠模擬任意一種人類(lèi)聲音,生成的語(yǔ)音聽(tīng)起來(lái)比現(xiàn)存的最優(yōu)文本-語(yǔ)音系統(tǒng)更為自然,將模擬生成的語(yǔ)音與人類(lèi)聲音之間的差異降低了50%以上。
我們也將證明,同一種網(wǎng)絡(luò)能夠合成其他音頻信號(hào),如音樂(lè),并能夠自動(dòng)生成沁人心脾的鋼琴曲。
使人們能夠與機(jī)器自由交談是人機(jī)交互研究領(lǐng)域長(zhǎng)久以來(lái)的夢(mèng)想。過(guò)去幾年中,深度神經(jīng)網(wǎng)絡(luò)的應(yīng)用(如Google語(yǔ)音搜索)為提高計(jì)算機(jī)理解自然語(yǔ)音的能力帶來(lái)了革新。但是,運(yùn)用計(jì)算機(jī)生成語(yǔ)音——通常用于指代語(yǔ)音合成或文本-語(yǔ)音(TTS)系統(tǒng)——在極大程度上還要依托拼接TTS,TTS中包含一個(gè)超大型記錄單個(gè)說(shuō)話(huà)者的簡(jiǎn)短語(yǔ)音片段的數(shù)據(jù)庫(kù),隨后將這些語(yǔ)音片段重新合成形成完整的話(huà)語(yǔ)。在不記錄一個(gè)新的完整數(shù)據(jù)庫(kù)的前提下,這種語(yǔ)音合成方法難以做到修飾聲音(例如,轉(zhuǎn)換到一個(gè)不同的說(shuō)話(huà)者,或者改變其語(yǔ)音中強(qiáng)調(diào)的重點(diǎn)或傳達(dá)的情感)。
為了解決語(yǔ)音合成的這一難題,迫切需要運(yùn)用一種參數(shù)TTS,在這種文本-語(yǔ)音系統(tǒng)中,生成數(shù)據(jù)所需要的所有信息被存儲(chǔ)于模型的參數(shù)中,語(yǔ)音所傳達(dá)的內(nèi)容及語(yǔ)音特征可以通過(guò)模型的輸入信息得以控制。然而,目前參數(shù)(Parametric)TTS模型生成的語(yǔ)音聽(tīng)起來(lái)不如拼接(Concatenative)TTS模型生成的語(yǔ)音自然,這種現(xiàn)象至少出現(xiàn)在音節(jié)類(lèi)語(yǔ)言中,如英語(yǔ)?,F(xiàn)有的參數(shù)模型通常是運(yùn)用信號(hào)加工算法vocoders計(jì)算獲得的輸出信息,以此生成音頻信號(hào)。
WaveNet通過(guò)直接為音頻信號(hào)的原始波形建模,一次為一種音頻樣本建模,來(lái)改變這種范式。同生成聽(tīng)起來(lái)更為自然的語(yǔ)音相同,使用原始波形意味著WaveNet能夠?yàn)槿我忸?lèi)型的音頻建模,包括音樂(lè)。
研究者通常避免為原始音頻建模,因?yàn)樵家纛l往往瞬間發(fā)生變化:通常情況下,每秒出現(xiàn)16,000種或更多音頻樣本,在很多時(shí)間標(biāo)尺內(nèi)出現(xiàn)重要的結(jié)構(gòu)。很明顯,構(gòu)建一個(gè)完全自動(dòng)回歸模型是一項(xiàng)具有挑戰(zhàn)性的任務(wù),在這種模型中,對(duì)每一種音頻樣本的預(yù)測(cè)均受到之前所有音頻樣本的影響(用統(tǒng)計(jì)學(xué)方面的話(huà)來(lái)講,每一種預(yù)測(cè)性分布是建立在所有先前觀察的基礎(chǔ)之上的)。
但是,我們今年公布的PixelRNN和PixelCNN模型顯示,做到以每次一個(gè)像素,甚至于每次一個(gè)顏色通道的方式生成復(fù)雜的自然圖像是可能的,這將要求對(duì)每個(gè)圖像做數(shù)千次預(yù)測(cè)。這也啟發(fā)我們將原有的二維PixelNets轉(zhuǎn)變?yōu)橐环N一維WaveNet。
上方動(dòng)畫(huà)所示為一個(gè)WaveNet模型的內(nèi)部結(jié)構(gòu),通常是一種完整的卷積神經(jīng)網(wǎng)絡(luò),卷積層中有各種各樣的擴(kuò)張因子,允許其接受域深度成倍增長(zhǎng),并且覆蓋數(shù)千個(gè)時(shí)間步長(zhǎng)。
在訓(xùn)練時(shí)間段內(nèi),輸入序列是從人類(lèi)說(shuō)話(huà)者記錄得來(lái)的真實(shí)波形。在訓(xùn)練之后,我們可以對(duì)網(wǎng)絡(luò)取樣,以生成合成話(huà)語(yǔ)。在取樣的每一個(gè)步驟中,將從由網(wǎng)絡(luò)計(jì)算得出的概率分布中抽取數(shù)值。所抽取的數(shù)值隨后被反饋到輸入信息中,這樣便完成下一步新預(yù)測(cè)。像這樣每做一次預(yù)測(cè)就取樣會(huì)增加計(jì)算成本,但是我們已經(jīng)發(fā)現(xiàn),這樣的取樣方法對(duì)于生成復(fù)雜且聽(tīng)起來(lái)真實(shí)的音頻是至關(guān)重要的。
我們?cè)?jīng)運(yùn)用Google的一些TTS數(shù)據(jù)集來(lái)訓(xùn)練WaveNet,以便用于評(píng)估WaveNet的性能。下圖所示為與Google當(dāng)前最優(yōu)TTS系統(tǒng)(參數(shù)型TTS和拼接型TTS)和使用Mean Opinion Scores(MOS:用于評(píng)估語(yǔ)音通訊系統(tǒng)質(zhì)量的方法)獲得的人類(lèi)語(yǔ)音相比,在標(biāo)尺(1-5)上WaveNets的質(zhì)量。MOS是一種用于主觀語(yǔ)音質(zhì)量測(cè)試的標(biāo)準(zhǔn)測(cè)定方法,在人群中進(jìn)行盲試驗(yàn)。我們可以看到,WaveNets將最優(yōu)模型生成語(yǔ)音的質(zhì)量與人類(lèi)自然語(yǔ)音(US英語(yǔ)和漢語(yǔ)普通話(huà))之間的差距降低了50%以上。
就漢語(yǔ)和英語(yǔ)來(lái)講,Google當(dāng)前的TTS系統(tǒng)在世界范圍內(nèi)被認(rèn)為是最優(yōu)文本-語(yǔ)音系統(tǒng),因此,用一種單一模型來(lái)改善生成漢語(yǔ)與英語(yǔ)語(yǔ)音質(zhì)量將會(huì)是一項(xiàng)重大成就。
教會(huì)WaveNet說(shuō)有意義的話(huà)
為了實(shí)現(xiàn)運(yùn)用WaveNet將文本轉(zhuǎn)化為語(yǔ)音,我們得告訴WaveNet文本的內(nèi)容是什么。我們通過(guò)將文本轉(zhuǎn)換成語(yǔ)言和語(yǔ)音特征(包括音位、音節(jié)、單詞等),把轉(zhuǎn)換得來(lái)的特征提供給WaveNet,完成這一過(guò)程。這意味著網(wǎng)絡(luò)的預(yù)測(cè)步驟不僅僅基于先前獲得的音頻樣本,而且要基于文本所傳達(dá)的內(nèi)容。
如果我們想要脫離文本序列來(lái)訓(xùn)練網(wǎng)絡(luò),網(wǎng)絡(luò)依然能夠生成語(yǔ)音,但是得自行編造想要傳達(dá)的內(nèi)容。這種條件下生成的音頻簡(jiǎn)直是胡言亂語(yǔ),有意義的單詞被編造的像單詞的聲音隔斷開(kāi)。
注意,有時(shí)WaveNet也會(huì)生成一些非語(yǔ)音類(lèi)型的聲音,如呼吸或口腔運(yùn)動(dòng);這反映出一種原始音頻模型具有高度靈活性。
一個(gè)單一的WaveNet具備學(xué)習(xí)許多不同聲音(男性和女性)的特征。為了確保WaveNet能夠知道用何種聲音匹配給定的任何一段話(huà)語(yǔ),我們訓(xùn)練網(wǎng)絡(luò)使之學(xué)習(xí)獲得說(shuō)話(huà)者的身份特征。有趣的是,我們發(fā)現(xiàn),與單一訓(xùn)練單個(gè)說(shuō)話(huà)者的特征相比,用許多說(shuō)話(huà)者的語(yǔ)言、語(yǔ)音及身份等特征來(lái)訓(xùn)練網(wǎng)絡(luò)使得WaveNet能夠更好地模擬單個(gè)說(shuō)話(huà)者,這種訓(xùn)練模式暗含著一種遷移學(xué)習(xí)形式。
通過(guò)改變說(shuō)話(huà)者的身份,我們可以用WaveNet以不同的聲音表達(dá)同一段話(huà)語(yǔ)。
同樣,我們可以為該模型提供額外的輸入信息,如情感或口音,使得生成的語(yǔ)音變得更為多樣化,更有趣。
由于WaveNet能夠用來(lái)模擬任何一種音頻信號(hào),我們認(rèn)為,嘗試用WaveNet生成音樂(lè)也將很好玩。與TTS實(shí)驗(yàn)不同,我們的網(wǎng)絡(luò)不是基于一個(gè)輸入序列,告訴它怎么演奏音樂(lè)(如一篇樂(lè)譜);相反,我們只是簡(jiǎn)單地允許WaveNet任意生成一種音樂(lè)。當(dāng)我們采用一個(gè)古典鋼琴曲數(shù)據(jù)集來(lái)訓(xùn)練WaveNet時(shí),它將生成一曲美妙樂(lè)章。
WaveNets將為T(mén)TS帶來(lái)無(wú)數(shù)可能,大體上來(lái)講,有生成音樂(lè)和模擬音頻兩類(lèi)。事實(shí)上,直接運(yùn)用深度神經(jīng)網(wǎng)絡(luò)一個(gè)時(shí)間步長(zhǎng)一個(gè)時(shí)間步長(zhǎng)地生成音樂(lè),這種方法適用于所有16kHZ音頻,這將是非常令人驚喜的。我們非常期待WaveNets未來(lái)將會(huì)帶給大家的驚喜。
想要獲取更多詳細(xì)信息,請(qǐng)參考我們的論文詳細(xì)
本文由雷鋒網(wǎng)獨(dú)家編譯,未經(jīng)允許拒絕轉(zhuǎn)載!
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。