AI唱歌不僅中英文無壓力，還會粵語！微軟聯(lián)手浙大研發(fā)出DeepSinger

本文作者：貝爽

2020-07-14 23:08

導(dǎo)語：聽了這只AI唱歌，我酸了。

聽微軟小冰唱粵語歌會是一種怎樣的體驗(yàn)？

想必你一定聽過最近大火的"AI女團(tuán)"，7月10日，微軟小冰攜手小米小愛、B站冷鳶、百度小度首次集體亮相世界人工智能大會，以一首AI歌曲《智聯(lián)家園》正式“出道”。

AI唱歌不僅中英文無壓力，還會粵語！微軟聯(lián)手浙大研發(fā)出DeepSinger

AI女團(tuán)的首場演唱會可謂驚艷全場。從整首歌的歌詞、卡點(diǎn)、節(jié)奏來看，這首《智聯(lián)家園》演唱得不亞于專業(yè)音樂團(tuán)隊(duì)。如果只聽音樂，恐怕很難分辨出這是AI生成的歌聲。

我們知道，歌聲不同于正常人的語音，高低音轉(zhuǎn)換，BGM的配合，有著更復(fù)雜的模式和節(jié)奏，這對于AI來說并不是一件容易的事兒。

不過，最近一個研究團(tuán)隊(duì)，卻此基礎(chǔ)上挑戰(zhàn)了更高階的AI技術(shù)——生成多種語言風(fēng)格的AI系統(tǒng)。據(jù)了解，這個團(tuán)隊(duì)成員正是來自浙江大學(xué)和微軟研究院的六名研究員，他們研發(fā)出了一款名為DeepSinger的AI模型，可以演唱中文、英文，甚至粵語歌曲。

目前這項(xiàng)研究論文《DeepSinger.Singing Voice Synthesis with Data Mined Frome the Web》已經(jīng)發(fā)表在了預(yù)印論文庫arXiv上。

中文、英文、粵語，教什么會什么的AI

具體來說，DeepSinger是一款音樂歌聲合成系統(tǒng)（Singing voice synthesis ），該系統(tǒng)利用專門設(shè)計的組件可以從嘈雜的歌唱數(shù)據(jù)中捕獲歌手的音色，從而生成多種語言風(fēng)格的演唱聲音。

論文中，研究人員用中文、英文、粵語三種語言進(jìn)行了試驗(yàn)，并用訓(xùn)練后得出的不同音色演唱了這首《Far Away Of Home》?？梢韵赛c(diǎn)擊下方鏈接，聽一下演唱效果：

AI唱歌不僅中英文無壓力，還會粵語！微軟聯(lián)手浙大研發(fā)出DeepSinger

點(diǎn)擊鏈接收聽：https://venturebeat.com/2020/07/13/microsofts-ai-generates-voices-that-sing-in-chinese-and-english/

研究人員稱，對于影視從業(yè)者來說，DeepSinger會是一個非常實(shí)用的工具。當(dāng)他們完成某些語音類錄制工作后，如果發(fā)現(xiàn)錄制錯誤，可以用AI輔助語音的合成和修復(fù)，而無需再次返工。不過，這款工具也存在一些弊端。就像換臉軟件Deepfake可以合成不存在的人像一樣，這款DeepSinger同樣可以假冒歌手偽造音樂。

而且，目前關(guān)于AI音樂版權(quán)糾紛的現(xiàn)象已經(jīng)開始出現(xiàn)了。兩個月前，一家唱片公司Roc Nation便提出了反對AI模的版權(quán)聲明。其原因是，Youtobe博主Vocal Synthesis使用AI技術(shù)復(fù)制了旗下藝人Zay-Z的兩個音樂作品，最終這起案件已刪除仿制作品，而道歉聲明而結(jié)束。

AI多語言歌聲合成原理

在機(jī)器學(xué)習(xí)領(lǐng)域，從文本到語音（TTS）的轉(zhuǎn)換有著廣泛的使用場景，一直是研究的重點(diǎn)領(lǐng)域。如上文所說，歌曲的韻律和環(huán)境比語音更具復(fù)雜性，因此，SVS相比于TTS的研究也更有挑戰(zhàn)性。

研究人員介紹，此次生成多種語言風(fēng)格的歌聲合成系統(tǒng)DeepSinger，采用了一種含多個數(shù)據(jù)挖掘和數(shù)據(jù)建模步驟的研究路徑，優(yōu)化了現(xiàn)有研究的很多困境。這個路徑可以分為以下五個步驟：

AI唱歌不僅中英文無壓力，還會粵語！微軟聯(lián)手浙大研發(fā)出DeepSinger

數(shù)據(jù)檢索（Data crawling）負(fù)責(zé)從音樂網(wǎng)站抓取頂級歌手多種語言的流行音樂；這里抓取的是中、英、粵三種語言的歌曲，時長一般為1-5分鐘。此階段，需要對數(shù)據(jù)集進(jìn)行初級的過濾和清洗。
唱歌和伴奏分離（Singing and accompaniment separation）：采用開源音樂分離工具Spleeter，從伴奏中提取歌聲，然后將音頻逐個拆分為句子；
歌詞和歌唱對齊（Lyrics-to-singing alignment）：自動提取歌詞中每個音素的持續(xù)時間（從粗粒度的句子級別到細(xì)粒度的音素級別）。
數(shù)據(jù)篩選（Data filtration）：對歌詞與演唱未對齊的歌聲進(jìn)行再處理。
這里采用分離獎勵（Splitting Reward）作為過濾標(biāo)準(zhǔn)，過濾掉分離獎勵低于閾值的數(shù)據(jù)。
演唱模型（Singing modeling）：通過數(shù)據(jù)爬取，分離，對齊和過濾之后，基于FastSpeech對唱歌數(shù)據(jù)進(jìn)行建模。該模型將歌詞，時長，音高信息以及參考音頻作為輸入來生成歌聲。
點(diǎn)擊鏈接：https://speechresearch.github.io/deepsinger/可收聽不同階段，AI生成歌聲音頻。

從最終的測試結(jié)果可以看出，未經(jīng)訓(xùn)練的音頻和經(jīng)過DeepSinger模型的音頻，在音調(diào)、振幅、持續(xù)時長上基本吻合；（GT表示真實(shí)音頻波形圖，DeepSinger表示經(jīng)過模型訓(xùn)練后的音頻波形圖）

AI唱歌不僅中英文無壓力，還會粵語！微軟聯(lián)手浙大研發(fā)出DeepSinger

論文中表明，通過歌詞，持續(xù)時間，音調(diào)信息、參考音頻等指標(biāo)的驗(yàn)證，DeepSinger在合成音調(diào)準(zhǔn)確度和“聲音自然度”方面表現(xiàn)出了不錯的性能。從數(shù)據(jù)來看，中英粵語三首歌曲的音高、音準(zhǔn)都超過了85％。而且，在一項(xiàng)20人的用戶實(shí)驗(yàn)中，DeepSinger生成的歌曲與原始培訓(xùn)音頻之間的平均差距僅為0.34-0.76。

另外，更值得注意的是，經(jīng)過數(shù)據(jù)檢索和初級篩選，Singing所使用數(shù)據(jù)集僅包含89位歌手演唱的92個小時的歌曲。

我們知道，在機(jī)器學(xué)習(xí)中數(shù)據(jù)集的質(zhì)量和數(shù)量是關(guān)鍵，但也正是在這兩個方面往往存在難點(diǎn)。而在本次試驗(yàn)中僅使用了一個小樣本即達(dá)到不錯的性能表現(xiàn)。另外，歌曲和歌詞的自動對齊模型在很大程度上也減少了數(shù)據(jù)標(biāo)標(biāo)注帶來的失誤和成本。

不過，研究人員表示，接下來他們計劃使用基于WaveNet模型等更為復(fù)雜的AI技術(shù)，在DeepSinger中訓(xùn)練各種子模型，以提高語音質(zhì)量。WaveNet是Googel研發(fā)的一款語音驅(qū)動模型。

https://arxiv.org/pdf/2007.04590.pdf

https://venturebeat.com/2020/04/30/openais-jukebox-ai-produces-music-in-any-style-from-scratch-complete-with-lyrics（雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)）

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

2人收藏

相關(guān)文章