音頻AI技術(shù)的新路徑：脫離現(xiàn)實(shí)+極致擬真

本文作者：何思思

2023-03-27 11:21

導(dǎo)語(yǔ)：AI不僅能降噪、消除回聲，還能讓人脫離現(xiàn)實(shí)，體驗(yàn)擬真的音視頻世界。

雷峰網(wǎng)(公眾號(hào)：雷峰網(wǎng))訊近日，實(shí)時(shí)互動(dòng)云服務(wù)商聲網(wǎng)發(fā)布了囊括 AI降噪、AI回聲消除、空間音頻、最佳音效在內(nèi)的新一代音頻技術(shù)智能引擎——鳳鳴AI引擎。

通過(guò)該引擎，開(kāi)發(fā)者與企業(yè)可以如搭積木般靈活調(diào)用對(duì)應(yīng)組件，并廣泛應(yīng)用在語(yǔ)聊社交、在線K歌、線上會(huì)議、游戲競(jìng)技、虛擬活動(dòng)等諸多場(chǎng)景，為用戶(hù)帶來(lái)更純凈、更動(dòng)聽(tīng)、更沉浸的語(yǔ)音互動(dòng)體驗(yàn)，探索更多營(yíng)收增長(zhǎng)空間。

RTE場(chǎng)景不斷豐富，高音質(zhì)互動(dòng)需求急需滿(mǎn)足

眾所周知，實(shí)時(shí)音視頻技術(shù)的發(fā)展帶出了大量的創(chuàng)新場(chǎng)景，從最初的狼人殺、直播連麥到直播電商、在線K歌、互動(dòng)播客再到現(xiàn)在火熱的元宇宙，在場(chǎng)景的不斷擴(kuò)展情況下，用戶(hù)對(duì)實(shí)時(shí)音視頻體驗(yàn)的訴求也越來(lái)越高。

傳統(tǒng)的RTC概念，從信息傳遞的角度出發(fā)，音頻功能僅提供簡(jiǎn)單的語(yǔ)音溝通，滿(mǎn)足單一的場(chǎng)景和通話(huà)標(biāo)準(zhǔn)，對(duì)于音質(zhì)并無(wú)太高的需求，也就是所謂的“能夠溝通”。

但是伴隨著實(shí)時(shí)互動(dòng)創(chuàng)新場(chǎng)景的涌現(xiàn)，用戶(hù)對(duì)于音頻體驗(yàn)的需求也產(chǎn)生了量變到質(zhì)變的進(jìn)化。比如在線K歌、線上會(huì)議等場(chǎng)景，用戶(hù)的需求早已從能夠溝通到希望“脫離現(xiàn)實(shí)”，屏蔽外界干擾，實(shí)現(xiàn)純凈溝通；對(duì)于元宇宙、虛擬活動(dòng)、游戲競(jìng)技等場(chǎng)景，用戶(hù)則是希望從簡(jiǎn)單溝通實(shí)現(xiàn)“極致擬真”的沉浸式體驗(yàn)。

同時(shí)諸如聲網(wǎng)這類(lèi)音視頻廠商還觀察到，音頻體驗(yàn)的提升能夠增強(qiáng)平臺(tái)用戶(hù)的核心體驗(yàn)。比如，對(duì)噪音的抑制能夠提升語(yǔ)聊房用戶(hù)活躍度和留存，以及游戲開(kāi)黑場(chǎng)景的通話(huà)時(shí)長(zhǎng)；回聲消除能顯著提升用戶(hù)的在線K歌體驗(yàn)；而立體、具備空間感的音頻體驗(yàn)則能提升元宇宙社交、游戲競(jìng)技、線上會(huì)議、虛擬活動(dòng)等場(chǎng)景中用戶(hù)的臨場(chǎng)感和沉浸感。

針對(duì)以上痛點(diǎn)和需求，聲網(wǎng)的鳳鳴AI引擎可謂順勢(shì)而生。在新一代引擎中，通過(guò)AI驅(qū)動(dòng)的方式，聲網(wǎng)打通了音頻采集、前后處理、云端傳輸、編解碼等鏈路，旨在為用戶(hù)打造更純凈、更動(dòng)聽(tīng)、更沉浸的語(yǔ)音體驗(yàn)，在現(xiàn)有實(shí)時(shí)互動(dòng)玩法的基礎(chǔ)上錦上添花，賦能行業(yè)開(kāi)發(fā)者和企業(yè)。

鳳鳴AI引擎的AI能力主要體現(xiàn)在三方面：

AI降噪強(qiáng)力抑制100+突發(fā)噪聲，兼顧語(yǔ)音無(wú)損傷與混響抑制

想要在“脫離現(xiàn)實(shí)”的環(huán)境中辦公、娛樂(lè)，屏蔽外界干擾是基礎(chǔ)。相比于傳統(tǒng)的降噪算法，鳳鳴·AI降噪的效果有顯著提升，可以一次性解決100+種突發(fā)性噪聲，比如辦公場(chǎng)景經(jīng)常遇到的敲鍵盤(pán)、鼠標(biāo)點(diǎn)擊、電話(huà)鈴聲；家庭環(huán)境中遇到的小孩哭叫、裝修、廚房做飯聲；戶(hù)外環(huán)境中的風(fēng)聲、雨聲、汽車(chē)噪聲等。

鳳鳴·AI降噪在強(qiáng)降噪的同時(shí)還能兼顧高保真，即使在人聲密集場(chǎng)景下，也能實(shí)現(xiàn)純凈通話(huà)體驗(yàn)，甚至還實(shí)現(xiàn)了在不增加額外運(yùn)算量的前提下，對(duì)遠(yuǎn)場(chǎng)語(yǔ)音具有明顯的混響抑制能力。如果用戶(hù)在一個(gè)房間中距離麥克風(fēng)較遠(yuǎn)，這時(shí)候?qū)Ψ铰?tīng)到的聲音是模糊的，若使用了聲網(wǎng)的AI降噪算法，對(duì)端也能清晰地聽(tīng)到該用戶(hù)的聲音。

此外，聲網(wǎng)自研的AI推理引擎可以使AI降噪算法在Android、iOS、Mac、Windows、Web等主流平臺(tái)以低精度損傷、高性能、低功耗方式運(yùn)行，使用戶(hù)的設(shè)備不卡不燙。經(jīng)數(shù)據(jù)測(cè)算，僅開(kāi)啟鳳鳴·AI降噪功能，相應(yīng)設(shè)備CPU消耗增幅平均值<1%。

AI 回聲消除強(qiáng)力抑制非線性回聲，還原本來(lái)音質(zhì)

回聲是影響音視頻通話(huà)質(zhì)量的主要因素之一，尤其在線上會(huì)議、在線K歌、多人連麥等場(chǎng)景中，不僅損害通話(huà)質(zhì)量，影響用戶(hù)體驗(yàn)，還可能導(dǎo)致帶寬增加。鳳鳴·AI回聲消除利用算法對(duì)環(huán)境中產(chǎn)生的回聲混響進(jìn)行有效抑制，智能適應(yīng)各類(lèi)環(huán)境，實(shí)現(xiàn)精準(zhǔn)音源分離，從混合的近端信號(hào)中消除不必要的遠(yuǎn)端信號(hào)，保留近端人聲發(fā)送到遠(yuǎn)端，全面消除回聲，實(shí)現(xiàn)高保真音頻體驗(yàn)。比如，在雙人合唱等在線音樂(lè)場(chǎng)景下，AI回聲消除可以使得人聲自然流暢，增益效果顯著。

空間音頻極致擬真，打造“聲臨其境”互動(dòng)玩法

鳳鳴·空間音頻通過(guò)純軟件算法方案，模擬頭部球面區(qū)域立體聲場(chǎng)，利用范圍音頻、人聲模糊、空氣衰減模擬等能力，完美模擬現(xiàn)實(shí)聽(tīng)覺(jué)感受。當(dāng)用戶(hù)操作相應(yīng)角色在虛擬場(chǎng)景里移動(dòng)，可以實(shí)現(xiàn)根據(jù)虛擬人物的面部朝向、音源朝向、遠(yuǎn)近距離與上下高度，呈現(xiàn)不同聲音效果。

空間音頻是元宇宙和游戲這類(lèi)具備3D場(chǎng)景玩法的最佳搭檔，如狼人殺、虛擬演唱會(huì)、虛擬活動(dòng)等場(chǎng)景，可以有效的增強(qiáng)用戶(hù)在線上的互動(dòng)、聽(tīng)覺(jué)體驗(yàn)，重構(gòu)用戶(hù)在虛擬世界的沉浸感與臨場(chǎng)感。同時(shí)，開(kāi)發(fā)者不必?fù)?dān)心空間音頻功能對(duì)于用戶(hù)設(shè)備的影響，據(jù)數(shù)據(jù)測(cè)算，開(kāi)啟鳳鳴·空間音頻功能后，相應(yīng)設(shè)備CPU消耗增幅平均值<0.7%，內(nèi)存消耗增幅平均值<2M。

那么以上音頻能力該如何組合使用?

多年來(lái)，聲網(wǎng)匯總梳理語(yǔ)聊領(lǐng)域各類(lèi)頭部App的音效配置，綜合聲網(wǎng)超過(guò)萬(wàn)億分鐘的用戶(hù)音效偏好的數(shù)據(jù)模型，并結(jié)合聲網(wǎng)音頻專(zhuān)家的多年沉淀與研究，能夠?yàn)槠脚_(tái)提供針對(duì)各種語(yǔ)音場(chǎng)景的最佳音效配置，助力平臺(tái)用戶(hù)享受行業(yè)頂尖的音效體驗(yàn)。

目前，已上線的最佳音效包括語(yǔ)聊社交、K歌、游戲陪玩、專(zhuān)業(yè)主播等場(chǎng)景。國(guó)內(nèi)某頭部語(yǔ)音社交平臺(tái)通過(guò)聲網(wǎng)提供的最佳音效配置方案，將空間音頻、美聲、電音等豐富的聲音玩法融入互動(dòng)中，增強(qiáng)平臺(tái)留存和變現(xiàn)能力。

雷峰網(wǎng)了解到，鳳鳴AI引擎目前正在開(kāi)發(fā)變聲這一功能，用戶(hù)將可以體驗(yàn)20+變聲風(fēng)格，多樣角色扮演花式玩轉(zhuǎn)語(yǔ)聊場(chǎng)景。

聲網(wǎng)算法專(zhuān)家許冉指出，鳳鳴AI引擎代表聲網(wǎng)在 RTC音頻領(lǐng)域針對(duì)核心技術(shù)的長(zhǎng)期投入和產(chǎn)出，以及聲網(wǎng)基于音頻核心能力衍生出各種復(fù)雜功能和高端效果的決心，未來(lái)聲網(wǎng)將基于鳳鳴AI引擎形成新一代RTC音頻解決方案，比如探索更個(gè)性化的語(yǔ)音方案、語(yǔ)音超分、co-experiencing場(chǎng)景等。

回看近幾年音頻社交行業(yè)的發(fā)展，仍呈現(xiàn)持續(xù)增長(zhǎng)的態(tài)勢(shì)，依舊有廣闊的發(fā)展空間?？傮w來(lái)說(shuō)，音頻社交的主要玩法集中在多人語(yǔ)聊房、1V1語(yǔ)聊、語(yǔ)音播客、游戲開(kāi)黑等場(chǎng)景。薛達(dá)認(rèn)為，作為用戶(hù)之間情感的遞進(jìn)紐帶，語(yǔ)音結(jié)合虛擬人以及類(lèi)似ChatGPT這樣的大模型，可能未來(lái)會(huì)帶來(lái)一波新的社交熱潮。

在市場(chǎng)火熱的前景下，音頻技術(shù)的提升對(duì)行業(yè)來(lái)說(shuō)可謂如虎添翼。正如薛達(dá)提到的，降噪技術(shù)是實(shí)現(xiàn)元宇宙空間中用戶(hù)體驗(yàn)的一個(gè)必不可少因素，因?yàn)橐话銑蕵?lè)場(chǎng)景中都會(huì)播放背景音樂(lè)，加上人聲和互動(dòng)音效，如果沒(méi)有空間音頻和降噪，那用戶(hù)體驗(yàn)會(huì)非常差。

從另一個(gè)角度出發(fā)，聲音是打造差異化社交玩法的一個(gè)重要能力，在社交音頻這個(gè)賽道上，大致分為音視頻直播、音頻內(nèi)容生態(tài)，以及泛娛樂(lè)音頻三個(gè)類(lèi)型，音頻技術(shù)能力的提升可以有效助力業(yè)務(wù)端提升用戶(hù)體驗(yàn)。

不僅國(guó)內(nèi)市場(chǎng)火熱，大量出海企業(yè)也押注音頻社交這一賽道且扎堆中東、東南亞市場(chǎng)。緣何會(huì)出現(xiàn)這樣的情況？劉武華認(rèn)為，中東市場(chǎng)這種大R市場(chǎng)天然契合音頻社交的商業(yè)變現(xiàn)形態(tài)，而東南亞市場(chǎng)年輕用戶(hù)多，社交需求旺盛又熱衷于嘗試新鮮事物，且這兩個(gè)市場(chǎng)已有成熟的產(chǎn)品形態(tài)和產(chǎn)業(yè)鏈。

但是從目前來(lái)看，東南亞和中東市場(chǎng)目前還處在快速發(fā)展階段，市場(chǎng)機(jī)遇大、用戶(hù)基數(shù)大，但還沒(méi)有絕對(duì)的寡頭形成，較之前傳統(tǒng)社交類(lèi)型來(lái)講，音頻社交的留存能力也較高，企業(yè)需要在用戶(hù)感興趣的窗口期盡快實(shí)現(xiàn)轉(zhuǎn)化。

談到音頻社交的未來(lái)趨勢(shì)，劉武華表示，社交+游戲、社交+元宇宙、社交+ AIGC 這幾種玩法有不錯(cuò)的發(fā)展空間和前景。楊帆也認(rèn)為，元宇宙方向的場(chǎng)景會(huì)更受年輕人青睞，另外 AIGC 配合語(yǔ)音轉(zhuǎn)文字等應(yīng)用，應(yīng)該也會(huì)帶來(lái)一波新AI音頻社交熱潮。

（雷峰網(wǎng)雷峰網(wǎng)雷峰網(wǎng)）

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

0人收藏

相關(guān)文章

何思思

工業(yè)口編輯

關(guān)注新基建，聚焦工業(yè)互聯(lián)網(wǎng)領(lǐng)域網(wǎng)絡(luò)安全丨微信：15230152798

掃描關(guān)注作者微信

發(fā)私信

當(dāng)月熱門(mén)文章