丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
業(yè)界 正文
發(fā)私信給鄭杰文
發(fā)送

0

為什么你的語(yǔ)音助手說(shuō)話不像人?關(guān)于TTS技術(shù)原理及挑戰(zhàn)

本文作者: 鄭杰文 2019-08-07 18:40
導(dǎo)語(yǔ):在現(xiàn)實(shí)生活中,AI 語(yǔ)音助手說(shuō)話還遠(yuǎn)遠(yuǎn)達(dá)不到我們理想的聲音。

每一位剛(wan)鐵(nian)直(dan)男(shen),都?jí)粝胂掳嗦飞吓加鲭娪啊禜er》中的機(jī)器人女友薩曼薩。雖然“只聞其聲不見(jiàn)其人”,但僅聽(tīng)聲音就能感受到各種情感的詮釋。 

為什么你的語(yǔ)音助手說(shuō)話不像人?關(guān)于TTS技術(shù)原理及挑戰(zhàn)

薩曼薩背后的真人配音來(lái)自斯嘉麗約翰遜。有人說(shuō),“光聽(tīng)聲音就已滿足我對(duì)她全部的幻想?!?/p>

可以說(shuō),消除人與機(jī)器之間的隔閡,拉近之間的距離,聲音是至關(guān)重要的。

而在現(xiàn)實(shí)生活中,AI 語(yǔ)音助手說(shuō)話還遠(yuǎn)遠(yuǎn)達(dá)不到我們理想的聲音。

為什么你的機(jī)器人女友說(shuō)話不像斯嘉麗約翰遜?今天,Rokid A-Lab 語(yǔ)音合成算法工程師鄭杰文將從語(yǔ)音合成技術(shù)談起,給大家分析其中原因。以下,Enjoy

為什么你的語(yǔ)音助手說(shuō)話不像人?關(guān)于TTS技術(shù)原理及挑戰(zhàn)

TTS背后的技術(shù)原理——前端和后端系統(tǒng)

讓語(yǔ)音助手說(shuō)話的技術(shù)叫 TTS(text-to-speech),也就是語(yǔ)音合成。

打造自然、真實(shí)、悅耳的 TTS,是 AI 領(lǐng)域的科學(xué)家和工程師一直努力的方向。但前進(jìn)過(guò)程中總會(huì)碰到各種“攔路虎”,它們究竟是什么? 我們先從 TTS 的基礎(chǔ)原理講起。

TTS 技術(shù)本質(zhì)上解決的是“從文本轉(zhuǎn)化為語(yǔ)音的問(wèn)題”,通過(guò)這種方式讓機(jī)器開(kāi)口說(shuō)話。

 為什么你的語(yǔ)音助手說(shuō)話不像人?關(guān)于TTS技術(shù)原理及挑戰(zhàn)

圖 1語(yǔ)音合成,一個(gè)從文本轉(zhuǎn)化為語(yǔ)音的問(wèn)題

但這個(gè)過(guò)程并不容易,為了降低機(jī)器理解的難度,科學(xué)家們將這個(gè)轉(zhuǎn)化過(guò)程拆分成了兩個(gè)部分——前端系統(tǒng)和后端系統(tǒng)。

為什么你的語(yǔ)音助手說(shuō)話不像人?關(guān)于TTS技術(shù)原理及挑戰(zhàn)

圖 2前端和后端一起組成的TTS

前端負(fù)責(zé)把輸入的文本轉(zhuǎn)化為一個(gè)中間結(jié)果,然后把這個(gè)中間結(jié)果送給后端,由后端生成聲音。

接下來(lái),我們先來(lái)了解一下前端和后端系統(tǒng)是如何分工協(xié)作的?

生成“語(yǔ)言學(xué)規(guī)格書(shū)”的前端系統(tǒng)

小時(shí)候我們?cè)谡J(rèn)字之前需要先學(xué)習(xí)拼音,有了拼音,我們就可以用它去拼讀我們不認(rèn)識(shí)的字。對(duì)于 TTS 來(lái)說(shuō),前端系統(tǒng)從文本轉(zhuǎn)化出的中間結(jié)果就好像是拼音。

不過(guò),光有拼音還不行,因?yàn)槲覀円首x的不是一個(gè)字,而是一句一句的話。如果一個(gè)人說(shuō)話的時(shí)候不能正確的使用抑揚(yáng)頓挫的語(yǔ)調(diào)來(lái)控制自己說(shuō)話的節(jié)奏,就會(huì)讓人聽(tīng)著不舒服,甚至誤解說(shuō)話人想要傳達(dá)的意思。所以前端還需要加上這種抑揚(yáng)頓挫的信息來(lái)告訴后端怎么正確的“說(shuō)話”。

我們將這種抑揚(yáng)頓挫的信息稱之為韻律(Prosody)。韻律是一個(gè)非常綜合的信息,為了簡(jiǎn)化問(wèn)題,韻律又被分解成了如停頓,重讀等信息。停頓就是告訴后端在句子的朗讀中應(yīng)該怎么停,重讀就是在朗讀的時(shí)候應(yīng)該著重強(qiáng)調(diào)那一部分。這些所有的信息綜合到一起,我們可以叫”語(yǔ)言學(xué)規(guī)格書(shū)”。

為什么你的語(yǔ)音助手說(shuō)話不像人?關(guān)于TTS技術(shù)原理及挑戰(zhàn)

圖 3.前端通過(guò)生成“語(yǔ)言書(shū)規(guī)格書(shū)”來(lái)告訴后端我們想要合成什么樣的內(nèi)容。

前端就像一個(gè)語(yǔ)言學(xué)家,把給它的純文本做各種各樣的分析,然后給后端開(kāi)出一份規(guī)格書(shū),告訴后端應(yīng)該合成什么樣的聲音。

在實(shí)際的系統(tǒng)中,為了讓機(jī)器能正確的說(shuō)話,這份兒“規(guī)格書(shū)”遠(yuǎn)遠(yuǎn)比我們這里描述的要復(fù)雜。

扮演“發(fā)音人”的后端系統(tǒng)

當(dāng)后端系統(tǒng)拿到“語(yǔ)言學(xué)規(guī)格書(shū)”后,目標(biāo)是生成盡量符合這個(gè)規(guī)格書(shū)里描述的聲音。

當(dāng)然,機(jī)器是不能憑空直接生成一個(gè)聲音的。在這之前,我們還需要在錄音棚里錄上幾個(gè)到幾十個(gè)小時(shí)不等的音頻數(shù)據(jù)(根據(jù)技術(shù)不同,使用的數(shù)據(jù)量會(huì)不同),然后用這些數(shù)據(jù)來(lái)做后端系統(tǒng)。

目前主流的后端系統(tǒng)有兩種方法:一種是基于波形拼接的方法,一種是基于參數(shù)生成的方法。

波形拼接的方法思路很簡(jiǎn)單:那就是把事先錄制好的音頻存儲(chǔ)在電腦上,當(dāng)我們要合成聲音的時(shí)候,我們就可以根據(jù)前端開(kāi)出的“規(guī)格書(shū)”,來(lái)從這些音頻里去尋找那些最適合規(guī)格書(shū)的音頻片段,然后把片段一個(gè)一個(gè)的拼接起來(lái),最后就形成了最終的合成語(yǔ)音。

比如:我們想要合成“你真好看”這句話,我們就會(huì)從數(shù)據(jù)庫(kù)里去尋找“你、真、好、看”這四個(gè)字的音頻片段,然后把這四個(gè)片段拼接起來(lái)。

為什么你的語(yǔ)音助手說(shuō)話不像人?關(guān)于TTS技術(shù)原理及挑戰(zhàn)

圖表 4使用拼接法合成“你真好看”

當(dāng)然,實(shí)際的拼接并沒(méi)有這么簡(jiǎn)單,首先要選擇拼接單元的粒度,選好粒度還需要設(shè)計(jì)拼接代價(jià)函數(shù)等。

參數(shù)生成法和波形拼接法的原理很不相同,使用參數(shù)生成法的系統(tǒng)直接使用數(shù)學(xué)的方法,先從音頻里總結(jié)出音頻最明顯的特征,然后使用學(xué)習(xí)算法來(lái)學(xué)習(xí)一個(gè)如何把前端語(yǔ)言學(xué)規(guī)格書(shū)映射到這些音頻特征的轉(zhuǎn)換器。

一但我們有了這個(gè)從語(yǔ)言學(xué)規(guī)格書(shū)到音頻特征的轉(zhuǎn)換器,在同樣合成“你真好看”這四個(gè)字的時(shí)候,我們先使用這個(gè)轉(zhuǎn)換器轉(zhuǎn)換出音頻特征,然后用另一個(gè)組件,把這些音頻特征還原成我們可以聽(tīng)到的聲音。在專(zhuān)業(yè)領(lǐng)域里,這個(gè)轉(zhuǎn)換器叫“聲學(xué)模型”,把聲音特征轉(zhuǎn)化為聲音的組件叫“聲碼器”。

為什么你的AI語(yǔ)音助手說(shuō)話不像人?

如果簡(jiǎn)單的給這個(gè)問(wèn)題一個(gè)答案的話,主要有兩個(gè)方面的原因:

你的AI會(huì)犯錯(cuò)。為了合成出聲音,AI需要做一連串的決定,一但這些決定出錯(cuò),就會(huì)導(dǎo)致最終合成出來(lái)的聲音有問(wèn)題,有強(qiáng)烈的機(jī)械感,聽(tīng)著不自然。TTS的前端系統(tǒng)和后端系統(tǒng)都有犯錯(cuò)的可能。

使用AI合成聲音時(shí),工程師對(duì)這個(gè)問(wèn)題過(guò)度簡(jiǎn)化,導(dǎo)致沒(méi)有準(zhǔn)確的刻畫(huà)聲音生成的過(guò)程。這種簡(jiǎn)化一方面是來(lái)自于我們?nèi)祟?lèi)自己對(duì)語(yǔ)言,和人類(lèi)語(yǔ)音生成的認(rèn)識(shí)還不足夠;另外一方面也來(lái)自于商用語(yǔ)音合成系統(tǒng)在運(yùn)轉(zhuǎn)的時(shí)候要對(duì)成本控制進(jìn)行考量。

下面我們具體來(lái)聊聊造成AI語(yǔ)音助手說(shuō)話不自然的前端錯(cuò)誤和后端錯(cuò)誤問(wèn)題。

前端錯(cuò)誤

前端系統(tǒng),做為一個(gè)語(yǔ)言學(xué)家,是整個(gè)TTS系統(tǒng)里最復(fù)雜的部分。為了從純文本生成出最后的“語(yǔ)言學(xué)規(guī)格書(shū)”,這個(gè)語(yǔ)言學(xué)家做的事情要比我們想像的多得多。

為什么你的語(yǔ)音助手說(shuō)話不像人?關(guān)于TTS技術(shù)原理及挑戰(zhàn) 圖表 5典型的前端處理流程

一個(gè)典型的前端處理流程是:

文本結(jié)構(gòu)分析

我們給系統(tǒng)輸入一個(gè)文本,系統(tǒng)要先判斷這個(gè)文本是什么語(yǔ)言,只有知道是什么語(yǔ)言才知道接下來(lái)如何處理。然后把文本劃分成一個(gè)一個(gè)的句子。這些句子再送給后面的模塊處理。

文本正則

在中文場(chǎng)景下,文本正則的目的是把那些不是漢字的標(biāo)點(diǎn)或者數(shù)字轉(zhuǎn)化為漢字。

比如”這個(gè)操作666啊”,系統(tǒng)需要把“666”轉(zhuǎn)化為“六六六”。

文本轉(zhuǎn)音素

也就是把文本轉(zhuǎn)化為拼音,由于中文中多音字的存在,所以我們不能直接通過(guò)像查新華字典一樣的方法去找一個(gè)字的讀音,必須通過(guò)其他輔助信息和一些算法來(lái)正確的決策到底要怎么讀。這些輔助信息就包括了分詞和每個(gè)詞的詞性。

韻律預(yù)測(cè)

用于決定讀一句話時(shí)的節(jié)奏,也就是抑揚(yáng)頓挫。但是一般的簡(jiǎn)化的系統(tǒng)都只是預(yù)測(cè)句子中的停頓信息。也就是一個(gè)字讀完后是否需要停頓,停頓多久的決策。

從上面四個(gè)步驟可以看出,任何步驟都是有可能出錯(cuò)的,一但出錯(cuò),生成的語(yǔ)言學(xué)規(guī)格書(shū)就會(huì)錯(cuò),導(dǎo)致后端合成的聲音也會(huì)錯(cuò)。一個(gè)TTS系統(tǒng),典型的前端錯(cuò)誤有以下幾種類(lèi)型:

1、文本正則錯(cuò)誤

由于我們的書(shū)寫(xiě)形式和朗讀形式是不一樣的,所以在前端非常早期的階段,需要把書(shū)寫(xiě)形式轉(zhuǎn)化為我們實(shí)際朗讀的形式。這個(gè)過(guò)程在專(zhuān)業(yè)領(lǐng)域里叫“文本正則”。比如我們前面說(shuō)到的“666”

要轉(zhuǎn)為“六六六”。我們非常容易感受到TTS系統(tǒng)中文本正則的錯(cuò)誤。比如下面這句:

“我花了666塊住進(jìn)了一個(gè)房號(hào)是666的房間?!保?a target="_blank" rel=nofollow>點(diǎn)擊聽(tīng)音頻)

我們知道前面的“666”應(yīng)該讀成“六百六十六”,后面的“666”應(yīng)該要讀“六六六”。但是TTS系統(tǒng)卻很容易搞錯(cuò)。

另外一個(gè)例子:“我覺(jué)得有2-4成的把握,這場(chǎng)比分是2-4?!?/p>

這兩個(gè)“2-4”到底應(yīng)該是讀“二到四”,“兩到四”,還是“二比四”呢?你應(yīng)該一眼就能知道到底怎么樣讀才是正確的。但是,對(duì)于前端系統(tǒng)來(lái)說(shuō),這又是一個(gè)難題。

2、注音錯(cuò)誤

中文是一門(mén)博大精深的語(yǔ)言,正確的朗讀它可并沒(méi)有好么容易。其中一個(gè)比較棘手的問(wèn)題就是,面對(duì)多音字時(shí),到底應(yīng)該選擇哪一個(gè)音來(lái)朗讀呢?

比如這兩句:“我的頭發(fā)又長(zhǎng)長(zhǎng)了?!焙汀拔业念^發(fā)長(zhǎng)長(zhǎng)的?!边@里的“長(zhǎng)”到底應(yīng)該是讀二聲的“chang”還是讀四聲的“zhang”呢?

當(dāng)然,人可以很輕松的挑選出正確的答案。那么下面這一句呢:

人要是行,干一行行一行,行行都行,要是不行,干一行不行一行,行行不行。(點(diǎn)擊聽(tīng)音頻

可能你也要略加思索,才能讀對(duì)這中間的所有“行”。對(duì)于AI來(lái)說(shuō)就更難了。

你可能時(shí)不時(shí)的就能聽(tīng)到AI助手在朗讀多音字時(shí)讀錯(cuò)了,這種錯(cuò)誤很容易就被你的耳朵捕捉到,并讓你立刻有一個(gè)印象:“這絕對(duì)不是真人在說(shuō)話~”。

當(dāng)然,多音字錯(cuò)誤只是注音錯(cuò)誤中的一種,還有其他的一些錯(cuò)誤,如輕聲,兒化音,音調(diào)變調(diào)等??傊?,準(zhǔn)確的讓你的AI助手朗讀所有的內(nèi)容并不容易。

3、韻律錯(cuò)誤

如前面所說(shuō),為了更準(zhǔn)確的傳遞信息,人在說(shuō)一句話的時(shí)候需要有節(jié)奏感。如果一個(gè)人在說(shuō)話的時(shí)候中間不做任何的停頓,會(huì)讓我們很難理解他說(shuō)的意思,甚至我們會(huì)覺(jué)得這個(gè)人不禮貌。我們的科學(xué)家,工程師,都在想方設(shè)法的讓TTS朗讀得更具備節(jié)奏感一些,更禮貌一些。但是在很多時(shí)候TTS的表現(xiàn)卻總是差強(qiáng)人意。

這是因?yàn)檎Z(yǔ)言的變化太豐富了,根據(jù)不同的上下文,甚至不同的場(chǎng)合,我們的朗讀的韻律節(jié)奏都不太一樣。韻律中,最重要的就是討論一句話的停頓節(jié)奏,因?yàn)橥nD是一句話朗讀正確的基礎(chǔ),如果停頓不對(duì),錯(cuò)誤很容易被人耳朵抓住。

比如這句:”為你切換單曲循環(huán)模式”。如果我們用“|”來(lái)表示停頓,那么一個(gè)正常的人朗讀的停頓節(jié)奏一般是這樣的:“為你切換|單曲循環(huán)模式”。

但是如果一但你的AI助手說(shuō)“為你切|換單曲循環(huán)模式”這種奇怪的節(jié)奏感時(shí),你內(nèi)心可能是奔潰的。

后端錯(cuò)誤

聊完前面這個(gè)“經(jīng)常犯錯(cuò)的語(yǔ)言學(xué)家”,我們?cè)賮?lái)看看后端:這個(gè)按照“語(yǔ)言學(xué)家”給的 “規(guī)格書(shū)”來(lái)讀稿子的“發(fā)音人”。

前面提到,后端主要有拼接法和參數(shù)法兩種方式。現(xiàn)在蘋(píng)果,亞馬遜的AI助手Siri和Alexa 使用的是波形拼接的方法。而在國(guó)內(nèi),大多數(shù)公司都是使用參數(shù)法。所以我們關(guān)鍵來(lái)看一下參數(shù)法可能的后端錯(cuò)誤。

后端系統(tǒng)在拿到前端給的語(yǔ)言信息后,要做的第一件事情是,決定每個(gè)漢字到底要發(fā)音多長(zhǎng)時(shí)間(甚至是每個(gè)聲母,韻母要發(fā)音多長(zhǎng)時(shí)間)。這個(gè)決定發(fā)音長(zhǎng)短的組件在專(zhuān)業(yè)領(lǐng)域里叫“時(shí)長(zhǎng)模型”。

有了這個(gè)時(shí)間信息后,后端系統(tǒng)就可以通過(guò)我們前面說(shuō)的一個(gè)轉(zhuǎn)換器(也叫聲學(xué)模型)把這個(gè)語(yǔ)言學(xué)規(guī)格書(shū)轉(zhuǎn)化為音頻特征了。然后再用另一個(gè)叫“聲碼器”的組件把這些音頻特征還原成聲音。從時(shí)長(zhǎng)模型到聲學(xué)模型,再到聲碼器,這里面的每一步都可能犯錯(cuò)或者不能完美的生成我們想要的結(jié)果。

一個(gè) TTS 系統(tǒng)里,典型的后端錯(cuò)誤有以下幾種類(lèi)型:

1、時(shí)長(zhǎng)模型錯(cuò)誤

在一句話朗讀的時(shí)候,根據(jù)上下文語(yǔ)境的不同,每個(gè)字朗讀發(fā)音時(shí)間是不一樣的。TTS系統(tǒng)必須根據(jù)上下文去決定到底哪些字應(yīng)該讀音拖長(zhǎng)一點(diǎn),哪些字應(yīng)該讀短一些,其中一個(gè)比較典型的例子就是語(yǔ)氣詞的朗讀。

通常這些語(yǔ)氣詞由于攜帶了說(shuō)話人的語(yǔ)氣情感,它們的發(fā)音都會(huì)比普通的字要長(zhǎng)一些,比如這句:“嗯。。。我想他是對(duì)的?!保?a target="_blank" rel=nofollow>點(diǎn)擊聽(tīng)音頻)

這里的“嗯”,在這個(gè)場(chǎng)景下,很明顯需要被拖長(zhǎng),用于表示一種“思考之后的判斷”。

但是并不是所有的“嗯”都要拖這么長(zhǎng),比如這一句:“嗯?你剛才說(shuō)什么?”

這里的“嗯”代表是一種疑問(wèn)的語(yǔ)氣,發(fā)音就要比上面句子中的“嗯”要短得多。如果時(shí)長(zhǎng)模型不能正確的決策出發(fā)音時(shí)長(zhǎng)的話,就會(huì)給人一種不自然感覺(jué)。

2、聲學(xué)模型錯(cuò)誤

最主要的聲學(xué)模型錯(cuò)誤就是遇到在訓(xùn)練后端這個(gè)“發(fā)音人”時(shí),沒(méi)有見(jiàn)過(guò)的發(fā)音。聲學(xué)模型的作用是從訓(xùn)練音庫(kù)里,學(xué)習(xí)到各種“語(yǔ)言學(xué)規(guī)格書(shū)”所對(duì)應(yīng)的語(yǔ)音聲學(xué)特征。如果在合成的時(shí)候遇到了訓(xùn)練過(guò)程中沒(méi)有見(jiàn)過(guò)的語(yǔ)言學(xué)表現(xiàn),那么機(jī)器就不太容易輸出正確的聲學(xué)特征。

一個(gè)常見(jiàn)的例子是兒化音。原則上來(lái)說(shuō),每個(gè)漢語(yǔ)拼音都有對(duì)應(yīng)的兒化音,但在實(shí)際說(shuō)話中有些兒化音被使用到的頻次極低,因此錄制音庫(kù)的時(shí)候通常并不會(huì)覆蓋所有的兒化音,而是僅僅保留最常見(jiàn)的一些。這個(gè)時(shí)候就會(huì)出現(xiàn)一些兒化音發(fā)不出來(lái),或者發(fā)不好的現(xiàn)象。 

3、聲碼器錯(cuò)誤

聲碼器的種類(lèi)比較多,但是比較傳統(tǒng)、比較常見(jiàn)的聲碼器通常都會(huì)用到基頻信息。那什么是基頻呢?基頻就是你在說(shuō)話的時(shí)候聲帶震動(dòng)的快慢程度。這里教你一個(gè)簡(jiǎn)單的方法來(lái)感受自己說(shuō)話的基頻:把自己的除大拇指以外的其他四個(gè)手指按壓到自己的喉嚨部分,然后自己開(kāi)始對(duì)自己隨便說(shuō)話。

這個(gè)時(shí)候你就會(huì)感受到你的喉嚨在震動(dòng),這個(gè)震動(dòng)的信息就是我們的基頻信息。發(fā)濁音時(shí)會(huì)伴隨聲帶振動(dòng),聲帶不振動(dòng)發(fā)出的音稱為清音。輔音有清有濁,而元音一般均為濁音。所以合成語(yǔ)音中元音和濁輔音的位置都應(yīng)該對(duì)應(yīng)有基頻,如果我們前面提到的聲學(xué)模型輸出的基頻出現(xiàn)偏差,聲碼器合成的聲音就會(huì)聽(tīng)起來(lái)很奇怪。

在訓(xùn)練后端這個(gè)“發(fā)音人”時(shí),我們也要通過(guò)算法來(lái)計(jì)算出基頻信息。不好的基頻提取算法可能會(huì)造成基頻丟失、倍頻或者半頻的現(xiàn)象。這些都會(huì)直接影響基頻預(yù)測(cè)模型的效果。如果應(yīng)該有基頻的地方?jīng)]有預(yù)測(cè)出基頻,合成聲音聽(tīng)起來(lái)就是沙啞的,對(duì)聽(tīng)感的影響十分明顯。

一個(gè)好的聲碼器還要處理好基頻和諧波的關(guān)系。如果高頻諧波過(guò)于明顯,在聽(tīng)感上會(huì)造成嗡嗡的聲響,機(jī)械感明顯。

總結(jié)

在這篇文章里,我們介紹了 TTS 的基礎(chǔ)原理,以及分析了語(yǔ)音助手不能像真人一樣說(shuō)話的原因:TTS 在做各種決策中會(huì)犯錯(cuò),導(dǎo)致朗讀出錯(cuò)或者不自然。同時(shí),為了讓電腦可以合成聲音,工程師會(huì)對(duì)文本轉(zhuǎn)語(yǔ)音問(wèn)題做簡(jiǎn)化,導(dǎo)致沒(méi)有準(zhǔn)確的刻畫(huà)聲音生成的過(guò)程。這種簡(jiǎn)化一方面來(lái)自于對(duì)語(yǔ)音語(yǔ)言生成過(guò)程的認(rèn)知局限,同時(shí)也受限制于目前的計(jì)算工具。

盡管現(xiàn)在在這個(gè)領(lǐng)域內(nèi)有很多新的方法,特別是使用深度學(xué)習(xí)(Deep Learning)方法來(lái)直接做文本到語(yǔ)音的轉(zhuǎn)化,而且已經(jīng)展示出來(lái)了非常自然的聲音,但是讓你的 AI 助手完全像人一樣說(shuō)話仍然是一項(xiàng)非常具有挑戰(zhàn)性的工作。

雷鋒網(wǎng)按:本文作者鄭杰文,愛(ài)丁堡大學(xué)人工智能碩士,師從國(guó)際著名語(yǔ)音合成專(zhuān)家Simon King教授。 現(xiàn)任職Rokid ALab 語(yǔ)音合成算法工程師,負(fù)責(zé)語(yǔ)音合成引擎架構(gòu)設(shè)計(jì),后端聲學(xué)模型開(kāi)發(fā)等工作。

雷峰網(wǎng)特約稿件,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

分享:
相關(guān)文章

專(zhuān)欄

愛(ài)丁堡大學(xué)人工智能碩士,師從國(guó)際著名語(yǔ)音合成專(zhuān)家Simon King教授。 現(xiàn)任職Rokid ALab 語(yǔ)音合成算法工程師,負(fù)責(zé)語(yǔ)音合成引擎架構(gòu)設(shè)計(jì),后端聲學(xué)模型開(kāi)發(fā)等工作。
當(dāng)月熱門(mén)文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)