讓米粉為之瘋狂的聲音克隆技術(shù)：深聲科技如何用90秒錄音克隆出你的聲音？

本文作者：楊麗

2020-03-18 16:32

導(dǎo)語：聲音，正成為消除人與機器之間隔閡的關(guān)鍵。

“通過克隆，把自己心愛之人的聲音永久珍藏……這可能就是科技應(yīng)該有的溫度吧?！?/p>

與小米的最近一次合作中，深聲科技為其提供了聲音克隆技術(shù)，應(yīng)用在其最新發(fā)布的小愛同學(xué)定制聲音功能上，能讓米粉合成自己的、甚至是父母、兒女、戀人的聲音，同時還支持音色分享功能。比如，明星將自己音色分享給粉絲后，就能通過聲音實現(xiàn)明星和粉絲的“常相伴”。

讓米粉為之瘋狂的聲音克隆技術(shù)：深聲科技如何用90秒錄音克隆出你的聲音？

智能語音助手這個頗具想象力的AI應(yīng)用，正逐漸成為智能終端的基礎(chǔ)功能，包括智能手機、智能家居、車載、陪伴機器人等，其普及率有了較大提升，而聲音克隆技術(shù)的應(yīng)用，很可能會加速整個進程。

說到聲音克隆技術(shù)，并非深聲科技所獨有的，但與競爭對手相比，深聲科技CEO周俊明表示：“聲音克隆技術(shù)上，我們在音色還原度、發(fā)音準(zhǔn)確率、音質(zhì)清晰度等方面，具有明顯的優(yōu)勢，手機語音助手是我們首個落地場景。”

聲音克隆面臨哪些技術(shù)挑戰(zhàn)？

2020年1月中旬，深聲科技聲音克隆產(chǎn)品正式上線。在此期間，深聲團隊在眾多競爭者中成功拿下了小米方的需求標(biāo)的。作為與小米小愛同學(xué)的一次深度合作，深聲科技將為之提供聲音克隆核心技術(shù)支持。

包括雙方的需求對接、內(nèi)部評估，再到交付，前后用了1個多月時間。

與傳統(tǒng)語音合成相比，聲音克隆面臨更大的技術(shù)挑戰(zhàn)。首先，聲音克隆需要C端用戶配合錄音，就不能對其錄音環(huán)境和設(shè)備有過分要求。

我們會建議用戶選擇一個盡可能安靜的地方，使用手機完成錄音過程。

其次，考慮用戶的體驗，需要盡可能縮短錄音的時長。

這就對我們有很高的要求，傳統(tǒng)的語音合成需要幾十分鐘到幾個小時的語音數(shù)據(jù)，相比之下，聲音克隆的數(shù)據(jù)量少，對聲學(xué)模型的訓(xùn)練有更高的要求，比如發(fā)音模糊、發(fā)錯音、音素覆蓋等一系列問題。當(dāng)然，最重要的還是音色還原度的問題。

現(xiàn)在，用戶只需配合朗讀20句話短文本，大約錄音90秒的語音數(shù)據(jù)，就能快速克隆出自己的聲音，將個人的情感表達、發(fā)音特點等信息遷移到合成聲音中，就連口音也能很好地克隆出來。

再次，在實際應(yīng)用中，還要考慮海量用戶發(fā)起聲音克隆請求的高并發(fā)問題。為了節(jié)約成本，提升用戶體驗，就要解決模型切換、模型并發(fā)數(shù)，以及合成延遲等一系列挑戰(zhàn)。

海量用戶對聲音克隆的頻繁調(diào)用時，模型間的切換邏輯非常重要。

最后，因為采集到的用戶數(shù)據(jù)會上傳到服務(wù)器進行模型訓(xùn)練，考慮到用戶隱私安全的保護，團隊提供了私有化部署的方案，以確保用戶數(shù)據(jù)不外泄。

是否迎來大規(guī)模商業(yè)化？

過去一段時間，百度、訊飛、搜狗等公司也曾推出聲音克隆服務(wù)，但似乎并未贏得用戶市場的關(guān)注。為什么深聲科技此次聲音克隆技術(shù)的上線，會在用戶市場引起如此大的反響呢？

周俊明表示，聲音克隆大規(guī)模商業(yè)化需要具備幾個條件：

一是克隆的聲音有較高的音色還原度，跟真人聲音無差異；
二是用戶使用門檻不能太高，例如錄音條件、發(fā)音標(biāo)準(zhǔn)等不能有太高要求；
三是對計算資源的消耗，需要具備個人都能用得起的基礎(chǔ)；
四是具備創(chuàng)造出真正的價值，能夠提升人們的生活品質(zhì)。

從這個角度來講，深聲科技與小米的合作開始，就已經(jīng)具備了將聲音克隆技術(shù)大規(guī)模商業(yè)化的能力。

在談到與普通語音合成的差異時，周俊明表示：

普通語音合成，解決的是如何將語音內(nèi)容很好地傳遞出去、更容易地被接收的問題。而聲音克隆，體現(xiàn)了用戶的社會屬性，能夠讓用戶通過聲音來服務(wù)于他人。這就意味著，每個人的聲音的價值能夠得到充分體現(xiàn)，在包括親子互動、情感陪伴、泛娛樂在內(nèi)的各種場景中具有巨大的應(yīng)用價值。

讓米粉為之瘋狂的聲音克隆技術(shù)：深聲科技如何用90秒錄音克隆出你的聲音？

安全問題如何解決？

將聲音克隆引入智能語音助手，會不會引發(fā)更多語音詐騙案件的發(fā)生？

目前可能普通存在這樣的擔(dān)憂：合成技術(shù)的水平發(fā)展越高，合成語音與人聲的差異就越小，技術(shù)鑒定的難度就越大。對此，周俊明也指出，

不必過度擔(dān)心。問題在于人耳的敏感度不夠高，才會對克隆聲音沒有發(fā)覺。但應(yīng)用技術(shù)手段進行區(qū)分還是毫無壓力的，克隆出來的聲音在語譜圖中跟真人的聲音有明顯區(qū)別，克隆聲音中的很多特征信息已經(jīng)丟失了。

作為技術(shù)服務(wù)的輸出方，深聲科技也十分關(guān)注如何規(guī)避這項技術(shù)的非法應(yīng)用，在推出之前就考慮了到法律倫理的問題，并給出了三點應(yīng)對方案：

一是將聲音克隆能力只授權(quán)給那些有控制能力的企業(yè)客戶，對于C端用戶來講，只有選擇音色的權(quán)限，沒有自定義克隆聲音內(nèi)容的權(quán)限；
二是加強對內(nèi)容安全的嚴(yán)格審核。不支持用戶用隨意一段語音進行克隆，要求用戶對指定文本進行錄音，從而降低聲音被利用的風(fēng)險；
三是通過身份認(rèn)證、結(jié)合生物識別等技術(shù)，以限制聲音克隆的使用。

關(guān)于深聲

深聲科技是一家專注于“智能語音”技術(shù)研發(fā)和業(yè)務(wù)落地的人工智能公司，于2018年在廣州天河成立。深聲科技擁有一支頂級的人工智能技術(shù)團隊，自主研發(fā)了行業(yè)領(lǐng)先的語音合成、聲音定制、聲音克隆等語音AI技術(shù)。

深聲的語音AI技術(shù)已在眾多場景中落地，包括語音助手、智能客服、有聲閱讀、車載語音、AI教育、動漫等。深聲提供的“文字轉(zhuǎn)語音”技術(shù)服務(wù)，支持的語言也從中文、英文，逐步擴展到了國內(nèi)方言和海外語種。除了持續(xù)不斷的技術(shù)突破，深聲的語音數(shù)據(jù)制作效率也有了大幅度提升，比如三天交付客戶專屬定制聲音，兩個月支持一門新語種。

讓聲音服務(wù)好每個人的生活，深聲致力于將語音AI技術(shù)融入人們生活的點滴之中，賦予企業(yè)和用戶以創(chuàng)新與科技力量來創(chuàng)造更美好的世界。

對深聲科技智能語音技術(shù)感興趣的讀者，可前往深聲科技的官網(wǎng)http://www.deepsound.cn/ 或微信小程序“深聲AI”親身體驗。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

1人收藏

相關(guān)文章

楊麗

高級主筆

關(guān)注企業(yè)軟件、操作系統(tǒng)、云原生（PaaS）、數(shù)據(jù)中臺 | 微信：leeyangamber

發(fā)私信

當(dāng)月熱門文章