0
本文作者: 楊麗 | 2020-03-18 16:32 |
“通過克隆,把自己心愛之人的聲音永久珍藏……這可能就是科技應(yīng)該有的溫度吧?!?/p>
與小米的最近一次合作中,深聲科技為其提供了聲音克隆技術(shù),應(yīng)用在其最新發(fā)布的小愛同學(xué)定制聲音功能上,能讓米粉合成自己的、甚至是父母、兒女、戀人的聲音,同時還支持音色分享功能。比如,明星將自己音色分享給粉絲后,就能通過聲音實現(xiàn)明星和粉絲的“常相伴”。
智能語音助手這個頗具想象力的AI應(yīng)用,正逐漸成為智能終端的基礎(chǔ)功能,包括智能手機、智能家居、車載、陪伴機器人等,其普及率有了較大提升,而聲音克隆技術(shù)的應(yīng)用,很可能會加速整個進程。
說到聲音克隆技術(shù),并非深聲科技所獨有的,但與競爭對手相比,深聲科技CEO周俊明表示:“聲音克隆技術(shù)上,我們在音色還原度、發(fā)音準(zhǔn)確率、音質(zhì)清晰度等方面,具有明顯的優(yōu)勢,手機語音助手是我們首個落地場景。”
聲音克隆面臨哪些技術(shù)挑戰(zhàn)?
2020年1月中旬,深聲科技聲音克隆產(chǎn)品正式上線。在此期間,深聲團隊在眾多競爭者中成功拿下了小米方的需求標(biāo)的。作為與小米小愛同學(xué)的一次深度合作,深聲科技將為之提供聲音克隆核心技術(shù)支持。
包括雙方的需求對接、內(nèi)部評估,再到交付,前后用了1個多月時間。
與傳統(tǒng)語音合成相比,聲音克隆面臨更大的技術(shù)挑戰(zhàn)。首先,聲音克隆需要C端用戶配合錄音,就不能對其錄音環(huán)境和設(shè)備有過分要求。
我們會建議用戶選擇一個盡可能安靜的地方,使用手機完成錄音過程。
其次,考慮用戶的體驗,需要盡可能縮短錄音的時長。
這就對我們有很高的要求,傳統(tǒng)的語音合成需要幾十分鐘到幾個小時的語音數(shù)據(jù),相比之下,聲音克隆的數(shù)據(jù)量少,對聲學(xué)模型的訓(xùn)練有更高的要求,比如發(fā)音模糊、發(fā)錯音、音素覆蓋等一系列問題。當(dāng)然,最重要的還是音色還原度的問題。
現(xiàn)在,用戶只需配合朗讀20句話短文本,大約錄音90秒的語音數(shù)據(jù),就能快速克隆出自己的聲音,將個人的情感表達、發(fā)音特點等信息遷移到合成聲音中,就連口音也能很好地克隆出來。
再次,在實際應(yīng)用中,還要考慮海量用戶發(fā)起聲音克隆請求的高并發(fā)問題。為了節(jié)約成本,提升用戶體驗,就要解決模型切換、模型并發(fā)數(shù),以及合成延遲等一系列挑戰(zhàn)。
海量用戶對聲音克隆的頻繁調(diào)用時,模型間的切換邏輯非常重要。
最后,因為采集到的用戶數(shù)據(jù)會上傳到服務(wù)器進行模型訓(xùn)練,考慮到用戶隱私安全的保護,團隊提供了私有化部署的方案,以確保用戶數(shù)據(jù)不外泄。
是否迎來大規(guī)模商業(yè)化?
過去一段時間,百度、訊飛、搜狗等公司也曾推出聲音克隆服務(wù),但似乎并未贏得用戶市場的關(guān)注。為什么深聲科技此次聲音克隆技術(shù)的上線,會在用戶市場引起如此大的反響呢?
周俊明表示,聲音克隆大規(guī)模商業(yè)化需要具備幾個條件:
一是克隆的聲音有較高的音色還原度,跟真人聲音無差異;
二是用戶使用門檻不能太高,例如錄音條件、發(fā)音標(biāo)準(zhǔn)等不能有太高要求;
三是對計算資源的消耗,需要具備個人都能用得起的基礎(chǔ);
四是具備創(chuàng)造出真正的價值,能夠提升人們的生活品質(zhì)。
從這個角度來講,深聲科技與小米的合作開始,就已經(jīng)具備了將聲音克隆技術(shù)大規(guī)模商業(yè)化的能力。
在談到與普通語音合成的差異時,周俊明表示:
普通語音合成,解決的是如何將語音內(nèi)容很好地傳遞出去、更容易地被接收的問題。而聲音克隆,體現(xiàn)了用戶的社會屬性,能夠讓用戶通過聲音來服務(wù)于他人。這就意味著,每個人的聲音的價值能夠得到充分體現(xiàn),在包括親子互動、情感陪伴、泛娛樂在內(nèi)的各種場景中具有巨大的應(yīng)用價值。
安全問題如何解決?
將聲音克隆引入智能語音助手,會不會引發(fā)更多語音詐騙案件的發(fā)生?
目前可能普通存在這樣的擔(dān)憂:合成技術(shù)的水平發(fā)展越高,合成語音與人聲的差異就越小,技術(shù)鑒定的難度就越大。對此,周俊明也指出,
不必過度擔(dān)心。問題在于人耳的敏感度不夠高,才會對克隆聲音沒有發(fā)覺。但應(yīng)用技術(shù)手段進行區(qū)分還是毫無壓力的,克隆出來的聲音在語譜圖中跟真人的聲音有明顯區(qū)別,克隆聲音中的很多特征信息已經(jīng)丟失了。
作為技術(shù)服務(wù)的輸出方,深聲科技也十分關(guān)注如何規(guī)避這項技術(shù)的非法應(yīng)用,在推出之前就考慮了到法律倫理的問題,并給出了三點應(yīng)對方案:
一是將聲音克隆能力只授權(quán)給那些有控制能力的企業(yè)客戶,對于C端用戶來講,只有選擇音色的權(quán)限,沒有自定義克隆聲音內(nèi)容的權(quán)限;
二是加強對內(nèi)容安全的嚴(yán)格審核。不支持用戶用隨意一段語音進行克隆,要求用戶對指定文本進行錄音,從而降低聲音被利用的風(fēng)險;
三是通過身份認(rèn)證、結(jié)合生物識別等技術(shù),以限制聲音克隆的使用。
關(guān)于深聲
深聲科技是一家專注于“智能語音”技術(shù)研發(fā)和業(yè)務(wù)落地的人工智能公司,于2018年在廣州天河成立。深聲科技擁有一支頂級的人工智能技術(shù)團隊,自主研發(fā)了行業(yè)領(lǐng)先的語音合成、聲音定制、聲音克隆等語音AI技術(shù)。
深聲的語音AI技術(shù)已在眾多場景中落地,包括語音助手、智能客服、有聲閱讀、車載語音、AI教育、動漫等。深聲提供的“文字轉(zhuǎn)語音”技術(shù)服務(wù),支持的語言也從中文、英文,逐步擴展到了國內(nèi)方言和海外語種。除了持續(xù)不斷的技術(shù)突破,深聲的語音數(shù)據(jù)制作效率也有了大幅度提升,比如三天交付客戶專屬定制聲音, 兩個月支持一門新語種。
讓聲音服務(wù)好每個人的生活,深聲致力于將語音AI技術(shù)融入人們生活的點滴之中,賦予企業(yè)和用戶以創(chuàng)新與科技力量來創(chuàng)造更美好的世界。
對深聲科技智能語音技術(shù)感興趣的讀者,可前往深聲科技的官網(wǎng)http://www.deepsound.cn/ 或微信小程序“深聲AI”親身體驗。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。