DeepMind發(fā)布最新原始音頻波形深度生成模型WaveNet，將為TTS帶來無數(shù)可能

本文作者：高婓

2016-09-09 12:54

導語：Google的DeepMind研究實驗室昨天公布了其在語音合成領域最新成果WaveNet，語音系統(tǒng)更為自然，將模擬生成的語音與人類聲音的差異降低了50%以上。

編者按：Google的DeepMind研究實驗室昨天公布了其在語音合成領域的最新成果——WaveNet，一種原始音頻波形深度生成模型，能夠模仿人類的聲音，生成的原始音頻質(zhì)量優(yōu)于目前Google采用的兩種最優(yōu)文本-語音模型Parameric TTS與Concatenative TTS。

WaveNets是一種卷積神經(jīng)網(wǎng)絡，能夠模擬任意一種人類聲音，生成的語音聽起來比現(xiàn)存的最優(yōu)文本-語音系統(tǒng)更為自然，將模擬生成的語音與人類聲音之間的差異降低了50%以上。

我們也將證明，同一種網(wǎng)絡能夠合成其他音頻信號，如音樂，并能夠自動生成沁人心脾的鋼琴曲。

會說話的機器

使人們能夠與機器自由交談是人機交互研究領域長久以來的夢想。過去幾年中，深度神經(jīng)網(wǎng)絡的應用（如Google語音搜索）為提高計算機理解自然語音的能力帶來了革新。但是，運用計算機生成語音——通常用于指代語音合成或文本-語音(TTS)系統(tǒng)——在極大程度上還要依托拼接TTS，TTS中包含一個超大型記錄單個說話者的簡短語音片段的數(shù)據(jù)庫，隨后將這些語音片段重新合成形成完整的話語。在不記錄一個新的完整數(shù)據(jù)庫的前提下，這種語音合成方法難以做到修飾聲音（例如，轉換到一個不同的說話者，或者改變其語音中強調(diào)的重點或傳達的情感）。

為了解決語音合成的這一難題，迫切需要運用一種參數(shù)TTS,在這種文本-語音系統(tǒng)中，生成數(shù)據(jù)所需要的所有信息被存儲于模型的參數(shù)中，語音所傳達的內(nèi)容及語音特征可以通過模型的輸入信息得以控制。然而，目前參數(shù)（Parametric）TTS模型生成的語音聽起來不如拼接（Concatenative）TTS模型生成的語音自然，這種現(xiàn)象至少出現(xiàn)在音節(jié)類語言中，如英語?，F(xiàn)有的參數(shù)模型通常是運用信號加工算法vocoders計算獲得的輸出信息，以此生成音頻信號。

WaveNet通過直接為音頻信號的原始波形建模，一次為一種音頻樣本建模，來改變這種范式。同生成聽起來更為自然的語音相同，使用原始波形意味著WaveNet能夠為任意類型的音頻建模，包括音樂。

WaveNet

DeepMind發(fā)布最新原始音頻波形深度生成模型WaveNet，將為TTS帶來無數(shù)可能

研究者通常避免為原始音頻建模，因為原始音頻往往瞬間發(fā)生變化：通常情況下，每秒出現(xiàn)16,000種或更多音頻樣本，在很多時間標尺內(nèi)出現(xiàn)重要的結構。很明顯，構建一個完全自動回歸模型是一項具有挑戰(zhàn)性的任務，在這種模型中，對每一種音頻樣本的預測均受到之前所有音頻樣本的影響（用統(tǒng)計學方面的話來講，每一種預測性分布是建立在所有先前觀察的基礎之上的）。

但是，我們今年公布的PixelRNN和PixelCNN模型顯示，做到以每次一個像素，甚至于每次一個顏色通道的方式生成復雜的自然圖像是可能的，這將要求對每個圖像做數(shù)千次預測。這也啟發(fā)我們將原有的二維PixelNets轉變?yōu)橐环N一維WaveNet。

DeepMind發(fā)布最新原始音頻波形深度生成模型WaveNet，將為TTS帶來無數(shù)可能

上方動畫所示為一個WaveNet模型的內(nèi)部結構，通常是一種完整的卷積神經(jīng)網(wǎng)絡，卷積層中有各種各樣的擴張因子，允許其接受域深度成倍增長，并且覆蓋數(shù)千個時間步長。

在訓練時間段內(nèi)，輸入序列是從人類說話者記錄得來的真實波形。在訓練之后，我們可以對網(wǎng)絡取樣，以生成合成話語。在取樣的每一個步驟中，將從由網(wǎng)絡計算得出的概率分布中抽取數(shù)值。所抽取的數(shù)值隨后被反饋到輸入信息中，這樣便完成下一步新預測。像這樣每做一次預測就取樣會增加計算成本，但是我們已經(jīng)發(fā)現(xiàn)，這樣的取樣方法對于生成復雜且聽起來真實的音頻是至關重要的。

改善最優(yōu)文本-語音轉換模型

我們曾經(jīng)運用Google的一些TTS數(shù)據(jù)集來訓練WaveNet,以便用于評估WaveNet的性能。下圖所示為與Google當前最優(yōu)TTS系統(tǒng)（參數(shù)型TTS和拼接型TTS）和使用Mean Opinion Scores（MOS：用于評估語音通訊系統(tǒng)質(zhì)量的方法）獲得的人類語音相比，在標尺（1-5）上WaveNets的質(zhì)量。MOS是一種用于主觀語音質(zhì)量測試的標準測定方法，在人群中進行盲試驗。我們可以看到，WaveNets將最優(yōu)模型生成語音的質(zhì)量與人類自然語音（US英語和漢語普通話）之間的差距降低了50%以上。

就漢語和英語來講，Google當前的TTS系統(tǒng)在世界范圍內(nèi)被認為是最優(yōu)文本-語音系統(tǒng)，因此，用一種單一模型來改善生成漢語與英語語音質(zhì)量將會是一項重大成就。

DeepMind發(fā)布最新原始音頻波形深度生成模型WaveNet，將為TTS帶來無數(shù)可能

教會WaveNet說有意義的話

為了實現(xiàn)運用WaveNet將文本轉化為語音，我們得告訴WaveNet文本的內(nèi)容是什么。我們通過將文本轉換成語言和語音特征（包括音位、音節(jié)、單詞等），把轉換得來的特征提供給WaveNet，完成這一過程。這意味著網(wǎng)絡的預測步驟不僅僅基于先前獲得的音頻樣本，而且要基于文本所傳達的內(nèi)容。

如果我們想要脫離文本序列來訓練網(wǎng)絡，網(wǎng)絡依然能夠生成語音，但是得自行編造想要傳達的內(nèi)容。這種條件下生成的音頻簡直是胡言亂語，有意義的單詞被編造的像單詞的聲音隔斷開。

注意，有時WaveNet也會生成一些非語音類型的聲音，如呼吸或口腔運動；這反映出一種原始音頻模型具有高度靈活性。

一個單一的WaveNet具備學習許多不同聲音（男性和女性）的特征。為了確保WaveNet能夠知道用何種聲音匹配給定的任何一段話語，我們訓練網(wǎng)絡使之學習獲得說話者的身份特征。有趣的是，我們發(fā)現(xiàn)，與單一訓練單個說話者的特征相比，用許多說話者的語言、語音及身份等特征來訓練網(wǎng)絡使得WaveNet能夠更好地模擬單個說話者，這種訓練模式暗含著一種遷移學習形式。

通過改變說話者的身份，我們可以用WaveNet以不同的聲音表達同一段話語。

同樣，我們可以為該模型提供額外的輸入信息，如情感或口音，使得生成的語音變得更為多樣化，更有趣。

生成音樂

由于WaveNet能夠用來模擬任何一種音頻信號，我們認為,嘗試用WaveNet生成音樂也將很好玩。與TTS實驗不同，我們的網(wǎng)絡不是基于一個輸入序列，告訴它怎么演奏音樂（如一篇樂譜）；相反，我們只是簡單地允許WaveNet任意生成一種音樂。當我們采用一個古典鋼琴曲數(shù)據(jù)集來訓練WaveNet時，它將生成一曲美妙樂章。

WaveNets將為TTS帶來無數(shù)可能，大體上來講，有生成音樂和模擬音頻兩類。事實上，直接運用深度神經(jīng)網(wǎng)絡一個時間步長一個時間步長地生成音樂，這種方法適用于所有16kHZ音頻，這將是非常令人驚喜的。我們非常期待WaveNets未來將會帶給大家的驚喜。

想要獲取更多詳細信息，請參考我們的論文詳細

原文鏈接

本文由雷鋒網(wǎng)獨家編譯，未經(jīng)允許拒絕轉載！

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權禁止轉載。詳情見轉載須知。