0
本文作者: 李帥飛 | 2020-08-21 16:22 | 專題:CCF-GAIR 2020 全球人工智能與機器人峰會 |
雷鋒網按:2020 年 8 月 7 日至 9 日,全球人工智能和機器人峰會(CCF-GAIR 2020)在深圳圓滿舉行。CCF-GAIR 2020 峰會由中國計算機學會(CCF)主辦,雷鋒網、香港中文大學(深圳)聯合承辦,鵬城實驗室、深圳市人工智能與機器人研究院協(xié)辦。
從 2016 年的學產結合,2017 年的產業(yè)落地,2018 年的垂直細分,2019 年的人工智能 40 周年,峰會一直致力于打造國內人工智能和機器人領域規(guī)模最大、規(guī)格最高、跨界最廣的學術、工業(yè)和投資平臺。
8 月 8 日,在由深圳市人工智能學會、CCF 語音對話與聽覺專業(yè)組協(xié)辦的「前沿語音技術」專場上,中國科學技術大學電子工程與信息科學系副教授凌震華做了題為《基于表征解耦的非平行語料話者轉換》的主題演講。
凌震華副教授
凌震華副教授主要研究領域包括語音信號處理和自然語言處理。主持與參與多項國家自然科學基金、國家重點研發(fā)計劃、安徽省語音專項等科研項目,已發(fā)表論文 100 余篇,論文累計被引 4000 余次,獲國家科技進步獎二等獎和 IEEE 信號處理學會最佳青年作者論文獎。在 Blizzard Challenge 國際語音合成技術評測、Voice Conversion Challenge 國際語音轉換技術評測等活動中多次獲得測試指標第一名。
凌震華副教授現為電氣電子工程師學會(IEEE)高級會員、中國計算機學會語音聽覺與對話專業(yè)組委員、中國語言學會語音學分會學術委員會委員、全國人機語音通訊學術會議常設機構委員會委員。2014-2018 年曾任 IEEE/ACM TASLP 期刊副編輯。
在演講中,凌震華副教授主要從語音轉換所基于的語料類型出發(fā),介紹了平行語料下實現語音轉換的技術演變過程,并由此延伸到非平行語料下的語音轉換。
其中在平行語料條件下,傳統(tǒng)語音轉換基于 GMM (高斯混合模型)實現。 2013 年后深度學習技術被引入語音轉換任務,基于產生式訓練的深度神經網絡(Generative Trained Deep Neural Network, GTDNN)等模型相繼被提出。不過無論是 GMM 還是 DNN,都面臨源與目標語音幀對齊過程中出現的誤差和不合理問題。近年來提出的序列到序列(seq2seq)語音轉換方法可以有效改善這一問題,提升轉換語音的自然度與相似度。
進一步,凌震華副教授談到了在非平行語料條件下的語音轉換,并表示這種場景普遍存在于實際應用中,也更有難度?;诜瞧叫袛祿嬙炱叫袛祿约胺蛛x語音中的文本與話者表征,是實現非平行語音轉換的兩條主要技術途徑。
隨后,凌震華副教授重點介紹了所提出的基于特征解耦的序列到序列語音轉換方法,該方法在序列到序列建??蚣芟聦崿F語音中文本相關內容和話者相關內容的分離,取得了優(yōu)于傳統(tǒng)逐幀處理方法的非平行語音轉換質量,接近使用同等規(guī)模平行數據的序列到序列語音轉換效果。
最后,凌震華副教授表示:
我們在進行語音轉換的過程中,序列到序列建模方法在時長調整、長時相關性建模等方面有其優(yōu)勢,但是將該方法從平行數據條件推廣到非平行數據條件存在挑戰(zhàn)。特征解耦是解決這一問題的有效途徑,通過序列到序列框架下的模型結構與損失函數設計可以獲取相對獨立的文本與話者表征,進一步實現非平行數據條件下的高質量語音轉換。
以下是凌震華副教授在 CCF-GAIR 2020 「前沿語音技術」專場中的演講內容全文,雷鋒網對其進行了不改變原意的編輯整理:
謝謝大家,今天我的報告題目是《基于表征解耦的非平行語料話者轉換》。
之前各位老師已經介紹了語音技術領域的若干研究任務,如聲紋識別、語音分離與增強等。話者轉換是一種語音生成的任務,同時這個任務也和說話人的身份信息相關——之前介紹的聲紋識別是從語音中識別身份,而話者轉換是對語音中身份信息的控制和調整。
我的報告會圍繞三個部分進行:
話者轉換的任務定義;
平行語料和非平行語料的話者轉換方法;
基于表征解耦的非平行語料話者轉換方法。
話者轉換,又稱語音轉換,英文名為 Voice Conversion,指的是對源說話人的語音進行處理,使它聽起來接近目標發(fā)音人,同時保持語音內容不變。
類比于計算機視覺領域的人臉替換工作,如 Deepfake 等,話者轉換是對語音信號中的說話人身份信息進行處理,其應用領域包括娛樂化應用和個性化的語音合成等。同時,身份的匿名化、一致化也會使用到話者轉換技術。
話者轉換技術經過了從規(guī)則方法到統(tǒng)計建模的發(fā)展歷程。現階段的基于統(tǒng)計建模的話者轉換方法,其轉換過程通常包括三個主要步驟:
源說話人語音輸入后,首先經過聲碼器從語音信號中抽取聲學特征,如梅爾譜、基頻等;進一步通過聲學模型P(Y|X)進行由源說話人聲學特征X到目標說話人聲學特征Y的映射;映射得到的聲學特征最后通過聲碼器重構語音信號。
今天我們介紹的內容主要圍繞中間的統(tǒng)計聲學模型展開。在對于話者轉換任務的背景介紹后,下面著重介紹平行語料和非平行語料條件話者轉換任務的區(qū)別、主要方法,以及我們做過的一些相關工作。
那么什么是平行語料?
在訓練階段,如果源和目標兩個說話人朗讀過同樣的文本,就可以得到他們之間的平行語料?;谄叫姓Z料,可以直接建立轉換模型描述兩個說話人聲學特征之間的映射關系。在轉換階段,輸入新的源說話人聲音,就可以通過轉換模型進行目標說話人聲學特征的預測。
在深度學習出現之前,在平行語料語音轉換中,最經典的方法是基于高斯混合模型(GMM)的方法。
其基本的策略是,兩個說話人錄制了平行語料后,考慮到兩個人的語速、停頓等不一致帶來的聲學特征序列長度差異,需要先利用動態(tài)時間規(guī)整(DTW)算法進行序列的對齊,得到等長的 X 序列和 Y 序列。接著,將每個時刻的源說話人聲學特征與目標說話人聲學特征進行拼接,進一步訓練得到兩個發(fā)音人聲學特征的聯合概率模型P(X,Y)。
進一步,我們由 P(X,Y) 可以推導出 P(Y|X)。在轉換的時候我們就可以把源說話人的聲學特征X 送到模型中,將目標發(fā)音人聲學特征Y預測出來。使用的預測準則包括最小均方誤差(MMSE)和最大似然估計(MLE)等。
不過,基于 GMM聲學建模的語音轉換質量還是不盡如人意。一方面轉換的音質不夠高,聲音聽起來有機械感;二是和目標人的相似度不夠好。這些都和聲學模型的精度不足有關系。
針對以上問題,自2013年開始,深度學習被廣泛應用與語音轉換的各個技術環(huán)節(jié),如特征表示、聲學建模、聲碼器等。今天重點關注的是聲學模型,即如何更好的建模P(Y|X)。
現在來介紹我們早期所研究的一種基于深度神經網絡(DNN)的語音轉換方法,該方法使用的是逐幀轉換的DNN聲學模型。由于將DNN模型直接用于源說話人聲學特征到目標說話人聲學特征的映射,并基于傳統(tǒng)MMSE準則進行模型參數更新,所取得的性能提升有限。因此,我們設計了一種產生式訓練方法,用于訓練語音轉換DNN 模型參數。其思路是,先訓練兩個受限玻爾茲曼機(RBM)模型,將 X 和Y分別映射到相對緊湊、高效的二值表征;然后再建立一個雙向聯想記憶(BAM)模型,描述兩個發(fā)音人二值表征間的聯合概率;最后組合RBM和BAM,形成 DNN 模型,該模型參數不再需要基于MMSE準則的參數更新。實驗結果表明,該模型對比 GMM在主觀質量上具有明顯優(yōu)勢。
不管是前面說到的 GMM 模型還是 DNN 模型,描述的都是幀到幀的映射關系,在模型訓練階段都離不開幀對齊步驟。對齊的過程難免產生一些對齊的誤差與不合理的地方,這會影響語音轉換的效果。
另外,這樣的幀到幀映射模型不能轉換時長。而實際情況是有的人說話比較快,有的人說話比較慢,怎么把說話人的語速特點體現出來呢?
后來,我們受到序列到序列神經網絡在機器翻譯、語音識別、語音合成等領域的應用啟發(fā),將序列到序列建模引入話者轉換,以改善以上問題。我們的策略是利用結合注意力機制的編碼器-解碼器模型,直接建立輸入源說話人聲學特征序列與目標發(fā)音人聲學特征序列之間的轉換關系,中間不需要對齊操作,可以實現對于時長的控制和調整。將序列到序列建模用于話者轉換任務,面臨序列長度較長、數據量有限等困難。因此我們在模型結構設計上也做了一些針對性的考慮。
這是我們設計的模型結構。模型輸入除了從源說話人語音中提取的聲學特征序列外,還拼接了利用語音識別聲學模型提取的文本相關特征,以協(xié)助序列對齊。模型輸出就是從目標說話人平行語句中提取的聲學特征序列。其中輸出與輸入序列長度并不一致。
模型采用結合注意力機制的編碼器-解碼器結構。為了降低序列長度過長對于建模的影響,我們在編碼器中使用了金字塔結構的遞歸神經網絡,以保證對齊效果。
以下是實驗結果。圖中橫坐標是真實目標說話人語音的時長,縱坐標是轉換后的語音時長。如果語音轉換模型有比較好的時長調整效果,那么數據點應該落在對角線上。圖中綠色點所示的是傳統(tǒng)逐幀轉換方法的結果,從中可以看出源與目標發(fā)音人之間顯著的語速差異。紅色點對應的是所提出的序列到序列語音轉換方法,可以看出其取得了良好的時長轉換效果。
進一步,我們來探討非平行語料條件下的語音轉換。這是一個更有挑戰(zhàn)性的任務。由于很多時候我們需要使用已有數據構建話者轉換系統(tǒng),因此非平行數據條件在實際應用中普遍存在。
已有的非平行語料語音轉換大體上有兩個思路:
基于非平行數據構造平行數據。構造方法包括語音合成、幀挑選等。CycleGAN神經網絡模型也可以歸入此類方法。
分離語音中的文本與話者表征。包括利用語音識別器提取音素后驗概率(PPG)的方法,以及基于自編碼器與變分自編碼器的方法等。
以Voice Conversion Challenge 2018 (VCC2018) 國際話者轉換評測為例。其包括兩個任務,主任務是平行數據條件,輔任務是非平行數據條件。我們針對此次評測,設計實現了基于PPG的語音轉換方法。該方法利用語音識別模型從源話者語音中提取瓶頸特征作為話者無關的文本內容表征,同時利用目標說話人數據建立文本內容表征到聲學特征的映射模型。由于該映射模型針對每個目標說話人分別建立,因此不需要平行語料就可以實現。
在VCC2018評測結果中,我們提交的參測系統(tǒng)在兩個任務上均取得了轉換語音自然度與相似度指標的第一名,其中自然度平均意見分(MOS)達到 4 分,相似度達到 80% 以上。
最后我再介紹一下我們近期開展的基于序列到序列模型框架的非平行語音轉換方法的研究工作。雖然前面介紹的VCC2018方法可以取得較好的非平行語音轉換效果,但是其仍存在一些不足。例如,基于語音識別器提取的文本內容表征中難以保證不含有說話人相關信息、語音識別模型和轉換生成模型沒有聯合訓練、仍采用幀到幀映射的模型框架等。
因此,我們提出了一種基于表征解耦的序列到序列非平行語音轉換方法。該方法在序列到序列建??蚣芟?,可以實現對于語音中文本相關內容和話者相關內容的有效分離。其核心思想如圖所示。在訓練階段,利用識別編碼器和話者編碼器分別提取語音中的文本和話者相關表征。同時我們通過訓練準則的設計保證這兩種表征相互獨立,不會糾纏。在訓練過程中,我們也會利用語音對應的轉寫文本。從轉寫文本中提取的信息可以為從語音中提取文本表征提供有效參考。在合成階段,通過組合從源說話人語音中提取的文本表征,以及目標說話人的話者表征,可以實現從源說話人語音到目標說話人語音的轉換。
整個的模型結構如下圖所示,由文本編碼器、識別編碼器、話者編碼器、輔助分類器、解碼器共5個主要模塊構成。其中識別編碼器和解碼器類似與語音識別與語音合成模型,均采用結合注意力機制的編碼器-解碼器結構。文本編碼器用于從轉寫文本中提取文本表征。解碼器可以接收來自識別編碼器或者文本編碼器的輸出,結合話者編碼器給出的話者表征,進行聲學特征的重構。輔助分類器用于實現與識別編碼器的對抗學習,以保證識別編碼器提取的文本表征中不含有說話人相關信息。由于時間原因,各模塊具體的模型結構不再一一展開介紹。
以上各模塊在訓練階段聯合優(yōu)化。為了實現有效的表征解耦,我們共設計了7種損失函數用于指導模型參數更新,包括音素分類損失、話者表征損失、對比損失、對抗訓練損失、重構損失等。
以下是一些實驗結果。從客觀評測結果中可以看出,對比CycleGAN和VCC2018兩種非平行語音轉換方法,我們提出的方法可以取得最優(yōu)的梅爾倒譜失真(MCD)以及清濁判決錯誤(VUV)。在轉換時長誤差(DDUR)上,所提方法由于采用了序列到序列建模框架,也顯著優(yōu)于其他兩種方法。在主觀評測中,我們所提出的非平行語音轉換方法,也取得了接近序列到序列平行語音轉換的性能。
總結報告內容,序列到序列話者轉換方法在時長調整、長時相關性建模等方面有其優(yōu)勢,但是將該方法從平行數據條件推廣到非平行數據條件存在挑戰(zhàn)。特征解耦是解決這一問題的有效途徑,通過序列到序列框架下的模型結構與損失函數設計可以獲取相對獨立的文本與話者表征,進一步實現非平行數據條件下的高質量語音轉換。
另一方面,現階段的話者轉換技術還面臨一些挑戰(zhàn),包括跨語種轉換、低質數據場景、可控轉換、實時轉換等,這些都是后續(xù)值得進一步深入研究的內容。
以上是我的介紹,謝謝大家!
雷峰網原創(chuàng)文章,未經授權禁止轉載。詳情見轉載須知。
本專題其他文章