丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
業(yè)界 正文
發(fā)私信給貝爽
發(fā)送

0

AI唱歌不僅中英文無(wú)壓力,還會(huì)粵語(yǔ)!微軟聯(lián)手浙大研發(fā)出DeepSinger

本文作者: 貝爽 2020-07-14 23:08
導(dǎo)語(yǔ):聽(tīng)了這只AI唱歌,我酸了。

聽(tīng)微軟小冰唱粵語(yǔ)歌會(huì)是一種怎樣的體驗(yàn)?

想必你一定聽(tīng)過(guò)最近大火的"AI女團(tuán)",7月10日,微軟小冰攜手小米小愛(ài)、B站冷鳶、百度小度首次集體亮相世界人工智能大會(huì),以一首AI歌曲《智聯(lián)家園》正式“出道”。

AI唱歌不僅中英文無(wú)壓力,還會(huì)粵語(yǔ)!微軟聯(lián)手浙大研發(fā)出DeepSinger

AI女團(tuán)的首場(chǎng)演唱會(huì)可謂驚艷全場(chǎng)。從整首歌的歌詞、卡點(diǎn)、節(jié)奏來(lái)看,這首《智聯(lián)家園》演唱得不亞于專業(yè)音樂(lè)團(tuán)隊(duì)。如果只聽(tīng)音樂(lè),恐怕很難分辨出這是AI生成的歌聲。

我們知道,歌聲不同于正常人的語(yǔ)音,高低音轉(zhuǎn)換,BGM的配合,有著更復(fù)雜的模式和節(jié)奏,這對(duì)于AI來(lái)說(shuō)并不是一件容易的事兒。

不過(guò),最近一個(gè)研究團(tuán)隊(duì),卻此基礎(chǔ)上挑戰(zhàn)了更高階的AI技術(shù)——生成多種語(yǔ)言風(fēng)格的AI系統(tǒng)。據(jù)了解,這個(gè)團(tuán)隊(duì)成員正是來(lái)自浙江大學(xué)和微軟研究院的六名研究員,他們研發(fā)出了一款名為DeepSinger的AI模型,可以演唱中文、英文,甚至粵語(yǔ)歌曲。

目前這項(xiàng)研究論文《DeepSinger.Singing Voice Synthesis with Data Mined Frome the Web》已經(jīng)發(fā)表在了預(yù)印論文庫(kù)arXiv上。

中文、英文、粵語(yǔ),教什么會(huì)什么的AI

具體來(lái)說(shuō),DeepSinger是一款音樂(lè)歌聲合成系統(tǒng)(Singing voice synthesis ),該系統(tǒng)利用專門設(shè)計(jì)的組件可以從嘈雜的歌唱數(shù)據(jù)中捕獲歌手的音色,從而生成多種語(yǔ)言風(fēng)格的演唱聲音。

論文中,研究人員用中文、英文、粵語(yǔ)三種語(yǔ)言進(jìn)行了試驗(yàn),并用訓(xùn)練后得出的不同音色演唱了這首《Far Away Of Home》??梢韵赛c(diǎn)擊下方鏈接,聽(tīng)一下演唱效果:

AI唱歌不僅中英文無(wú)壓力,還會(huì)粵語(yǔ)!微軟聯(lián)手浙大研發(fā)出DeepSinger

點(diǎn)擊鏈接收聽(tīng):https://venturebeat.com/2020/07/13/microsofts-ai-generates-voices-that-sing-in-chinese-and-english/

研究人員稱,對(duì)于影視從業(yè)者來(lái)說(shuō),DeepSinger會(huì)是一個(gè)非常實(shí)用的工具。當(dāng)他們完成某些語(yǔ)音類錄制工作后,如果發(fā)現(xiàn)錄制錯(cuò)誤,可以用AI輔助語(yǔ)音的合成和修復(fù),而無(wú)需再次返工。不過(guò),這款工具也存在一些弊端。就像換臉軟件Deepfake可以合成不存在的人像一樣,這款DeepSinger同樣可以假冒歌手偽造音樂(lè)。

而且,目前關(guān)于AI音樂(lè)版權(quán)糾紛的現(xiàn)象已經(jīng)開(kāi)始出現(xiàn)了。兩個(gè)月前,一家唱片公司Roc Nation便提出了反對(duì)AI模的版權(quán)聲明。其原因是,Youtobe博主Vocal Synthesis使用AI技術(shù)復(fù)制了旗下藝人Zay-Z的兩個(gè)音樂(lè)作品,最終這起案件已刪除仿制作品,而道歉聲明而結(jié)束。

AI多語(yǔ)言歌聲合成原理

在機(jī)器學(xué)習(xí)領(lǐng)域,從文本到語(yǔ)音(TTS)的轉(zhuǎn)換有著廣泛的使用場(chǎng)景,一直是研究的重點(diǎn)領(lǐng)域。如上文所說(shuō),歌曲的韻律和環(huán)境比語(yǔ)音更具復(fù)雜性,因此,SVS相比于TTS的研究也更有挑戰(zhàn)性。

研究人員介紹,此次生成多種語(yǔ)言風(fēng)格的歌聲合成系統(tǒng)DeepSinger,采用了一種含多個(gè)數(shù)據(jù)挖掘和數(shù)據(jù)建模步驟的研究路徑,優(yōu)化了現(xiàn)有研究的很多困境。這個(gè)路徑可以分為以下五個(gè)步驟:

AI唱歌不僅中英文無(wú)壓力,還會(huì)粵語(yǔ)!微軟聯(lián)手浙大研發(fā)出DeepSinger

  • 數(shù)據(jù)檢索(Data crawling)負(fù)責(zé)從音樂(lè)網(wǎng)站抓取頂級(jí)歌手多種語(yǔ)言的流行音樂(lè);這里抓取的是中、英、粵三種語(yǔ)言的歌曲,時(shí)長(zhǎng)一般為1-5分鐘。此階段,需要對(duì)數(shù)據(jù)集進(jìn)行初級(jí)的過(guò)濾和清洗。

  • 唱歌和伴奏分離(Singing and accompaniment separation):采用開(kāi)源音樂(lè)分離工具Spleeter,從伴奏中提取歌聲,然后將音頻逐個(gè)拆分為句子;

  • 歌詞和歌唱對(duì)齊(Lyrics-to-singing alignment):自動(dòng)提取歌詞中每個(gè)音素的持續(xù)時(shí)間(從粗粒度的句子級(jí)別到細(xì)粒度的音素級(jí)別)。

  • 數(shù)據(jù)篩選(Data filtration):對(duì)歌詞與演唱未對(duì)齊的歌聲進(jìn)行再處理。

    這里采用分離獎(jiǎng)勵(lì)(Splitting Reward)作為過(guò)濾標(biāo)準(zhǔn),過(guò)濾掉分離獎(jiǎng)勵(lì)低于閾值的數(shù)據(jù)。

  • 演唱模型(Singing modeling):通過(guò)數(shù)據(jù)爬取,分離,對(duì)齊和過(guò)濾之后,基于FastSpeech對(duì)唱歌數(shù)據(jù)進(jìn)行建模。該模型將歌詞,時(shí)長(zhǎng),音高信息以及參考音頻作為輸入來(lái)生成歌聲。

    點(diǎn)擊鏈接:https://speechresearch.github.io/deepsinger/可收聽(tīng)不同階段,AI生成歌聲音頻。

從最終的測(cè)試結(jié)果可以看出,未經(jīng)訓(xùn)練的音頻和經(jīng)過(guò)DeepSinger模型的音頻,在音調(diào)、振幅、持續(xù)時(shí)長(zhǎng)上基本吻合;(GT表示真實(shí)音頻波形圖,DeepSinger表示經(jīng)過(guò)模型訓(xùn)練后的音頻波形圖)

AI唱歌不僅中英文無(wú)壓力,還會(huì)粵語(yǔ)!微軟聯(lián)手浙大研發(fā)出DeepSinger

論文中表明,通過(guò)歌詞,持續(xù)時(shí)間,音調(diào)信息、參考音頻等指標(biāo)的驗(yàn)證,DeepSinger在合成音調(diào)準(zhǔn)確度和“聲音自然度”方面表現(xiàn)出了不錯(cuò)的性能。從數(shù)據(jù)來(lái)看,中英粵語(yǔ)三首歌曲的音高、音準(zhǔn)都超過(guò)了85%。而且,在一項(xiàng)20人的用戶實(shí)驗(yàn)中,DeepSinger生成的歌曲與原始培訓(xùn)音頻之間的平均差距僅為0.34-0.76。

另外,更值得注意的是,經(jīng)過(guò)數(shù)據(jù)檢索和初級(jí)篩選,Singing所使用數(shù)據(jù)集僅包含89位歌手演唱的92個(gè)小時(shí)的歌曲。

我們知道,在機(jī)器學(xué)習(xí)中數(shù)據(jù)集的質(zhì)量和數(shù)量是關(guān)鍵,但也正是在這兩個(gè)方面往往存在難點(diǎn)。而在本次試驗(yàn)中僅使用了一個(gè)小樣本即達(dá)到不錯(cuò)的性能表現(xiàn)。另外,歌曲和歌詞的自動(dòng)對(duì)齊模型在很大程度上也減少了數(shù)據(jù)標(biāo)標(biāo)注帶來(lái)的失誤和成本。

不過(guò),研究人員表示,接下來(lái)他們計(jì)劃使用基于WaveNet模型等更為復(fù)雜的AI技術(shù),在DeepSinger中訓(xùn)練各種子模型,以提高語(yǔ)音質(zhì)量。WaveNet是Googel研發(fā)的一款語(yǔ)音驅(qū)動(dòng)模型。

相關(guān)鏈接:

https://venturebeat.com/2020/07/13/microsofts-ai-generates-voices-that-sing-in-chinese-and-english/

https://arxiv.org/pdf/2007.04590.pdf

https://venturebeat.com/2020/04/30/openais-jukebox-ai-produces-music-in-any-style-from-scratch-complete-with-lyrics(雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng))

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)