0
雷鋒網(wǎng) AI 科技評論按:人類很擅長在嘈雜的環(huán)境下將其他非重點的聲響「靜音」化,從而將注意力集中在某個特定人物身上。這也就是眾所周知的「雞尾酒會效應」,這種能力是人類與生俱來的。然而,自動化語音分離系統(tǒng)—將音頻信號分離至單獨的語音源—盡管這是一個已經(jīng)被深入研究過的問題,但是它依舊是計算機系統(tǒng)研究上的一項巨大挑戰(zhàn)。
Google Research 軟件工程師 Inbar Mosseri 和 Oran Lang 于 4 月 11 日發(fā)表了一篇關于視覺-音頻語音識別分離模型最新研究成果的博文,雷鋒網(wǎng) AI 科技評論編譯整理如下。
在解決了「雞尾酒會效應」的《Looking to Listen at the Cocktail Party: A Speaker-Independent Audio-Visual Model for Speech Separation》論文中,谷歌團隊提供了一個深度視覺-音頻學習模型,來從其發(fā)聲者音頻和背景噪音的混合音頻場景中,為特定的發(fā)聲對象分離出一個匹配的單一音頻信號。在這次操作中,谷歌已經(jīng)能夠通過增強特定人物對象的音頻,抑制其他非重點音頻來計算生成針對特定發(fā)聲對象的單一音軌視頻了。該方法適用于具有單一(主)音軌的常見視頻,用戶也可以自行選擇傾聽對象來生成對其的單一音軌,或者基于語境由算法進行對特定發(fā)聲對象進行選擇。谷歌相信這種視覺-音頻語音識別分離技術(shù)擁有廣泛的應用場景,識別視頻中的特定對象將其音頻增強,特別是在多人視頻會議的場景中對特定發(fā)言人進行針對性音頻增強。
這項技術(shù)的獨特之處在于,其通過結(jié)合分析輸入視頻的音、視頻信號來識別分離所需的單一音軌。直觀來說,例如特定人物對象的音頻與其發(fā)聲時的嘴部動作相關聯(lián)的,這也就幫助模型系統(tǒng)區(qū)分哪一部分音頻(軌)對應著哪一個特定對象。對視頻中的視覺信號進行分析,不僅能夠在多種音頻混合的場景下顯著提升語音識別分離質(zhì)量(相較于只借助音頻來進行特定對象語音分離),同時,更加重要一點還在于,它還能將分離后的純凈單一音軌與視頻中的可視對象聯(lián)系起來。
為了生成視覺-音頻語音分離模型訓練樣本,谷歌收集了 Youtube 上高達 10 萬份高質(zhì)量學術(shù)以及演講視頻。團隊從中提取了音頻純凈的一些片段(例如無背景音樂,聽眾噪音以及其他發(fā)聲者音頻干擾),這些視頻片段中僅有一位可見的發(fā)聲對象。谷歌花費了約 2000 個小時從中剪輯出,無背景噪音干擾,同時只有單一可見發(fā)聲對象的視頻數(shù)據(jù),團隊運用這份純凈的數(shù)據(jù)來生成「合成雞尾酒會效應(synthetic cocktail parties)」—將來自分離視頻源的臉部動作視頻和對應的音頻,以及從 AudioSet 獲取的無背景噪音的視頻混合在一起。
利用這些視頻數(shù)據(jù),我們能夠訓練一個多流卷積神經(jīng)網(wǎng)絡模型,為「合成雞尾酒會場景混合體」片段中每個發(fā)聲對象分離出對應音頻流(音軌)。輸入到視覺-音頻網(wǎng)絡識別系統(tǒng)中的數(shù)據(jù)具體是指,視頻每一幀中被檢測到的發(fā)聲對象的臉部動作縮略圖中提取的視覺特征,以及視頻音軌的頻譜圖信息。在模型的訓練過程中,網(wǎng)絡系統(tǒng)學習分別學習視覺和音頻信號的編碼,然后將它們?nèi)诤铣梢粋€音頻-視覺表現(xiàn)。通過音頻-視覺表現(xiàn),網(wǎng)絡系統(tǒng)學會了為每位發(fā)聲對象對應輸出時頻掩碼。輸出的時頻掩碼與噪聲輸入頻譜圖相乘,隨后轉(zhuǎn)換成時域波形,從而為每一位發(fā)聲對象生成單獨的,純凈的音頻信號。更多詳細內(nèi)容,可以點擊參考谷歌團隊的論文《Looking to Listen at the Cocktail Party: A Speaker-Independent Audio-Visual Model for Speech Separation》進行查看。
下面是幾個谷歌團隊通過最新視覺-音頻語音分離技術(shù)實現(xiàn)的音頻分離和增強的處理結(jié)果視頻示例,視頻中除所需的特定發(fā)聲對象外,其他對象(背景)聲音均被「靜音」化已達到所需效果。
為了強調(diào)模型對視覺信息的利用,谷歌從 Google CEO Sundar Pichai 的同一視頻片段中截取了兩段截然不同的片段,并將它們進行并排演示。在這個場景下,僅使用音頻中的特征語音頻率是很難實現(xiàn)音頻分離的,盡管在如此具有挑戰(zhàn)性的案例中,視覺-音頻模型依然能正確地分離視頻中的音頻。
視覺-音頻語音識別分離技術(shù)的相關應用
本文的該方法也可應用于語音識別和視頻自動字幕加載。對于視頻自動字幕加載系統(tǒng)而言,多名發(fā)生者同時發(fā)聲導致的語音重疊現(xiàn)象是一項已知的挑戰(zhàn),與此同時,將音頻分離至不同的源也有助于呈現(xiàn)更加準確和易讀的字幕。
同時你也可以前往 YouTube 觀看本文中的同款視頻并打開字幕加載(cc 功能鍵),即可比較運用了視覺-音頻語音識別分離技術(shù)的視頻字幕識別和 YouTube 原本視頻字幕加載系統(tǒng)表現(xiàn)的差異。
讀者還可以在谷歌視覺-音頻語音識別分離項目 GitHub 相關頁面查看更多的應用場景,同時谷歌的視覺-音頻語音識別分離技術(shù)與純音頻識別分離的視頻結(jié)果示例對比,以及其他視覺-音頻語音識別分離技術(shù)上最新進展。在谷歌團隊看來,該技術(shù)將擁有更加廣泛的應用,團隊也在探索將其整合進谷歌的其他產(chǎn)品中,所以敬請期待吧!
另外,AI科技評論于4月初也編譯Microsoft AI and Research 研究員的一篇利用多束深度吸引子網(wǎng)絡解決雞尾酒派對問題的論文,詳細內(nèi)容可查看《微軟研究員提出多束深度吸引子網(wǎng)絡,解決語音識別“雞尾酒會問題”》。
更多資訊敬請關注雷鋒網(wǎng) AI 科技評論。
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。