0
本文作者: 付靜 | 2020-08-17 21:24 | 專題:CCF-GAIR 2020 全球人工智能與機器人峰會 |
2020 年 8 月 7 日-9 日,2020 全球人工智能和機器人峰會(CCF-GAIR 2020)于深圳舉行。
CCF-GAIR 2020 峰會是由中國計算機學會(CCF)主辦,雷鋒網(wǎng)、香港中文大學(深圳)聯(lián)合承辦,鵬城實驗室、深圳市人工智能與機器人研究院協(xié)辦的全球盛會。大會主題從 2016 年的學產(chǎn)結(jié)合,2017 年的產(chǎn)業(yè)落地,2018 年的垂直細分,2019 年的人工智能 40 周年,秉承打造國內(nèi)人工智能和機器人領域規(guī)模最大、規(guī)格最高、跨界最廣的學術、工業(yè)和投資領域盛會。
8 月 8 日上午,在前沿語音技術專場中,西北工業(yè)大學智能聲學與臨境通信研究中心教授張雯首先帶來了題為《開放空間聲場主動控制技術》的主題演講。
演講一開始,張雯教授就指出,智能語音交互產(chǎn)品應用領域廣泛,基于揚聲器陣列的開放空間聲場重構(gòu)與控制應用前景廣闊。
以此為背景,張雯教授主要從空間聲場重構(gòu)、空間多區(qū)域聲場控制以及空間主動噪聲場控制三方面介紹了開放空間聲場主動控制技術。
空間聲場重構(gòu)方面,張雯教授先是提到了兩種技術:
1. 基于惠更斯原理的波場合成 WFS,這種技術早期比較受關注;
2. 近期更受歡迎的是 Ambisonics 面向場景的編解碼技術,這一技術以聲波輻射模態(tài)為基地函數(shù)對聲場建模,通過處理經(jīng)波域轉(zhuǎn)換后的 Amibisonic 信號實現(xiàn)聲場重構(gòu)與控制。
隨后,張雯教授談到了空間聲場重構(gòu)的另一方面——前端聲場處理。實際上,前端聲場處理也有兩個方面,一是寬帶信號的重構(gòu),二是對播放環(huán)境的補償。在此,張雯教授通過客廳的例子進行了詳細解釋。
空間多區(qū)域聲場控制方面,張雯教授也介紹了兩種方法——聲學對比度法(最大化由揚聲器陣列產(chǎn)生的暗區(qū)和亮區(qū)的聲學差異)和聲壓匹配法(保證亮區(qū)的能量足夠大時,還要產(chǎn)生期望的聲場)。
張雯教授表示,多區(qū)域聲場技術相對靈活、自由度高、可設計性強,但同時復雜性也很高。因此,對這一技術進行系統(tǒng)評價是一個關鍵:
我們提出了一種對這一系統(tǒng)的可實現(xiàn)性進行評價的理論,基于聲區(qū)的位置以及亮區(qū)期望重構(gòu)聲場的信號來得到可實現(xiàn)性系數(shù),越接近 1 實現(xiàn)性越高,越接近 0 表示可實現(xiàn)性越低。
在此基礎之上,張雯教授引出了報告的第三部分——空間主動噪聲控制。
據(jù)張雯教授介紹,主動噪聲控制于上世紀 40 年代被發(fā)明,是當前最為有效的控制低頻噪聲的手段,其基本原理是以聲消聲。
實際上,與我們的日常生活最貼近的主動噪聲控制案例就包括降噪耳機和汽車場景中的降噪。張雯教授也表示,目前很多汽車廠商都在開發(fā)主動噪聲控制,其中最為成熟的是對引擎噪聲的控制,原因在于聲學傳感器和振動傳感器的結(jié)合。
通過對汽車降噪案例的詳細解釋,張雯教授認為:
區(qū)域內(nèi)的主動噪聲控制就是結(jié)合麥克風陣列、揚聲器陣列以及聲場控制技術實現(xiàn)三維空間區(qū)域內(nèi)的降噪效果。
演講最后,張雯教授從兩個方面提到了最新的工作考量——傳聲器新設計和結(jié)合 AI 與分布式聲學的信號處理。
張雯教授總結(jié)稱,在信號處理上要關注的是語音信號和噪聲信號的寬帶隨機性質(zhì),特別是對中高頻和快速變化信號的跟蹤能力,在這些情況下聲場控制的難度急劇增加,還將有大量的工作待展開。
以下為西北工業(yè)大學智能聲學與臨境通信研究中心教授張雯的全部演講內(nèi)容,雷鋒網(wǎng)作了不改變原意的整理及編輯:
各位嘉賓早上好!非常高興今天能在這里和大家分享一些我們近期的工作,我今天報告的主題是開放空間聲場主動控制技術。
眾所周知,當下智能語音交互產(chǎn)品形態(tài)眾多,數(shù)目呈指數(shù)增長,應用領域非常廣泛,產(chǎn)品線涉及到手機終端、智能可穿戴設備、智能音響、智能大屏、智能家居以及車載環(huán)境內(nèi)的導航交互等等。實際的語音交互環(huán)境是非常復雜的,比如說聲源可能處于近場或是遠場,同一環(huán)境下可能存在多個聲源,有干擾、噪聲和混響等等。
在前端處理方面,目前采用麥克風陣列和揚聲器陣列相結(jié)合的多通道語音通信系統(tǒng),這是一種被廣泛采用的智能語音交互方案。接收端,我們通常采用麥克風陣列進行遠場識音和前端的語音增強。同樣,在聲音的播放端,也有越來越多的產(chǎn)品采用多個揚聲器,也就是揚聲器陣列進行真實自然的聲場回放。它的主要目的在于,一方面增強語音的音效,另一方面添加空間聲的聽感。
這種多通道的語音通信系統(tǒng)被應用于各種應用,比如說會議系統(tǒng)、車載通信以及一些新興的產(chǎn)品,比如說智能音響、智能大屏等等,這樣的系統(tǒng)希望給用戶提供兩方面極致的體驗,一方面是解放用戶的雙手,實現(xiàn)免提通信;另一方面想給用戶提供身臨其境的通信感。
今天的報告主要是關注聲音的播放端,也就是基于揚聲器陣列的開放空間聲場控制,它有著非常廣泛的應用前景。
大家最熟悉的就是家庭影院場景,客廳里可以使用多個揚聲器來構(gòu)建環(huán)繞的音效感,我們甚至可以重放錄制的場景,比如說音樂廳、演播廳等。隨著技術的不斷發(fā)展,我們在這個領域開始有了一些新的嘗試,比如說可以用一個揚聲器陣列在開放空間控制多個區(qū)域的聲場,我們將其叫做多區(qū)域聲場控制,或是開放空間下形成的個人聲區(qū),這是沒有任何障礙物的。
我們這里展示的是一個在開放的辦公室里,用一個陣列同時控制三個區(qū)域。這樣的技術可以用于各種開放共享的環(huán)境,比如說開放辦公室、展會大廳以及車載環(huán)境。
車載環(huán)境是一個非常典型的復雜聲場,首先用戶自己在播放聲音,其次汽車在行駛的過程中也會遇到各種各樣的噪聲,因此我們要對噪聲進行抑制,目的就是在駕駛員和乘客的頭部位置構(gòu)建自己的聲區(qū)。
基于聲場控制我們還有一些新的應用,比如說智能家居的噪聲控制,也就是說,基于聲場控制我們可以抑制噪聲向外的輻射。其應用場景比如廚房中的抽油煙機。
今天的報告主要有三個部分,將從最簡單、成熟的單區(qū)域聲場重構(gòu)技術展開。
單區(qū)域聲場重構(gòu),顧名思義就是在空間的一個區(qū)域內(nèi)控制聲場。聲場是聲波在空間形成的,可以用波動方程進行描述和建模,比如一個區(qū)域內(nèi)聲壓和空間表述決定,所以我們只要通過控制這些量,就可以實現(xiàn)一個區(qū)域里的聲場重構(gòu)。通常在這個技術中,我們忽略了傾聽者本身的身體反射。
這個領域的兩個比較重要的技術,一是 WFS 波場合成,二是 Ambisonics 技術。這兩項技術的基本原理都是對區(qū)域內(nèi)的聲場進行建模,然后通過模型來控制產(chǎn)生的聲場。
具體來講,波場合成是基于惠更斯原理。點聲源產(chǎn)生的波震面可以看成是很多次級聲源組成的,次級聲源產(chǎn)生的波陣面之和在每個時刻都等同于初始的聲波,產(chǎn)生聲波的波速和頻率與原始聲波是完全相同的,這就是基礎的建模思路。所以我們只要把揚聲器陣列放在波震面上,同時讓揚聲器陣列的輸出信號等同于次級聲源的信號,從而形成虛擬聲源,產(chǎn)生音效。
這個技術聽上去比較簡單,事實上在執(zhí)行過程中有一些限制,一方面需要波陣列的結(jié)構(gòu),另一方面需要知道每一點刺激聲源的信號,同時在具體實施中通常都要通過構(gòu)建大型的揚聲器陣列來實現(xiàn)。
這個技術在早期比較受關注,近期更為受到歡迎的是 Ambisonics 技術,Ambisonics 用波動方程的基本解來對聲場進行建模,基本解有兩部分,一是隨角度變化的球形函數(shù),同時球形函數(shù)在球面上是一組正交基,另外一個是球貝塞爾函數(shù)。最終是把一個聲場轉(zhuǎn)為一組系數(shù),重構(gòu)系數(shù)就可以進行聲場重構(gòu),同樣的道理,可以通過控制系數(shù)來控制一個區(qū)域內(nèi)的聲場,這是一些基本原理。
所以單區(qū)域聲場重構(gòu)就是物理意義上的準確重構(gòu)聲場,一方面是發(fā)聲單元揚聲器的布置,包括揚聲器作為個體的設計以及多個揚聲器作為一個陣列的設計,我們這里展示的是實驗室構(gòu)建的大型揚聲器陣列,包括代爾夫特理工大學構(gòu)建的 128 通道的 WFS 系統(tǒng)和柏林工業(yè)大學構(gòu)建的一個 832 通道的 WFS 系統(tǒng)??梢钥吹?,WFS 系統(tǒng)通常都是基于大型揚聲器陣列的,早期都是在實驗室實現(xiàn)的。
目前,Ambisonics 系數(shù)已經(jīng)被寫到最新的空間聲的音效中,可以通過非常好的數(shù)學理論實現(xiàn),近年來受到了追捧。我們這里展示的是澳洲國立大學搭建的 32 通道的高階 Ambisonics 系統(tǒng),以及我們學校搭建的 64 通道的高階 Ambisonics 系統(tǒng)。
空間聲場重構(gòu)的另一方面就是前端聲場處理,同樣也有兩個方面。
一是我們重構(gòu)的是寬帶的語音信號,所以我們處理的是寬帶信號的重構(gòu),這方面很多公司已經(jīng)做了很多的基礎研究,已經(jīng)做得很好了。
另一方面我們要考慮重構(gòu)環(huán)境的影響,比如說我們以客廳為例。在房間內(nèi)構(gòu)建家庭影院,房間本身是有混響的,而且混響有一定的聲學特性,會導致重構(gòu)性有所下降。如果我們需要對重構(gòu)性進行補償?shù)脑挘瑢⑹潜容^復雜的處理系統(tǒng),目前大多數(shù)商業(yè)系統(tǒng)都沒有考慮對播放環(huán)境的補償。
所以我們在實驗室針對重構(gòu)環(huán)境的混響和時變聲學特性,提出了多域的自適應信號處理,跟蹤房間的聲學系統(tǒng)的變化,并進行主動補償。
我們在此展示的是補償前和補償后的效果圖。
我們這里希望在白色圓線包圍的區(qū)域里產(chǎn)生由虛擬源產(chǎn)生的聲波,這里畫的是波震面,四個軸代表房間的四面墻。如果不對它進行任何處理的話,房間早期的反射和混響就會使得我們重構(gòu)的聲場遠離目標聲場,所以我們要實時跟蹤環(huán)境并進行補償。
接下來更為動態(tài)的展示是帶有主動房間補償?shù)目臻g聲場重構(gòu),這里展示的是杜比 5.1 和基于揚聲器陣列的系統(tǒng)。
杜比 5.1是 5 個白圈展示的揚聲器位置,白色區(qū)域是控制區(qū),我們希望產(chǎn)生來自于某個虛擬源對應的聲波,只有這個來路方向會進入到控制區(qū)域,而其他的早期反射把它補償?shù)?。所以揚聲器放了兩個信號,一個是要產(chǎn)生期望聲場,另外一個是要主動補償?shù)椒块g環(huán)境。
基于揚聲器陣列也是一樣的道理,通過增加揚聲器的數(shù)量可以實現(xiàn)更為精準的控制,比如這里產(chǎn)生的不是點聲源而是平面波,其他早期的反射和混響會被主動補償?shù)簟?/p>
在這個基礎上,我們首次提出了空間多區(qū)域聲場控制技術,也就是用一個揚聲器陣列同時控制多個區(qū)域的聲場。典型的應用包括在各種公共環(huán)境下產(chǎn)生個人聲區(qū),以及在嘈雜的環(huán)境下產(chǎn)生靜區(qū)。
同樣有兩個示例,這里第一個示例是可以在兩個聲區(qū)產(chǎn)生兩個獨立的聲場。
外面的黑圈是揚聲器陣列,中間兩個小圈是想產(chǎn)生聲場的兩個區(qū)域。兩個聲波來自于不同的方向,是相互獨立的。
二是由一個揚聲器陣列產(chǎn)生的兩種聲區(qū)。
產(chǎn)生的兩個區(qū)域中,一個是亮區(qū),能量比較大;一個是暗區(qū),能量比較小,我們也稱之為靜區(qū)。在暗區(qū)內(nèi)有一個用戶,可以實時移動麥克風,我們可以實時跟蹤他,產(chǎn)生安靜的區(qū)域。
所以多區(qū)聲場控制也有兩種方法。一是聲學對比度法,也就是最大化暗區(qū)和亮區(qū)的聲學差異。另外一個是聲壓匹配法,即在保證亮區(qū)的能量足夠大時,還希望產(chǎn)生期望的聲場。
多區(qū)域聲場技術相對比較靈活、自由度很高、可設計性很強,但同時復雜性也很高。所以我們在這個方面的研究,除了提出技術本身的應用場景,我們還提出是否可以對這個技術進行系統(tǒng)評價。
我們提出了一種怎樣對這一系統(tǒng)的可實現(xiàn)性進行評價的理論,基于聲區(qū)的位置以及亮區(qū)期望重構(gòu)聲場的信號來得到可實現(xiàn)性系數(shù)(在 0 和 1 之間),越接近 1 實現(xiàn)性越高,越接近 0 表示可實現(xiàn)性越低。
比方說,兩個聲區(qū)中,亮區(qū)重構(gòu)聲波的來波方向跟兩個聲區(qū)的連線方向是垂直的,這種情況下它的可實現(xiàn)性比較強。如果聲波的來波方向和兩個方向是一致的,不可避免的結(jié)果便是兩個聲區(qū)之間有相互的干擾,可實現(xiàn)性也就會比較低。實際上我們現(xiàn)在舉的例子比較簡單,這個理論可以應用于各種場景。
同時,我們在實驗室還構(gòu)建了多區(qū)域聲場控制的初步演示系統(tǒng)。
基于此,如果我們能控制一個區(qū)域內(nèi)的多聲場,可以在嘈雜環(huán)境中產(chǎn)生一個安靜的區(qū)域,那么我們是否可以做一些在開放空間的主動噪聲控制技術,也就是在一個區(qū)域內(nèi)進行主動噪聲控制。
到目前為止,主動噪聲控制是最為有效的控制低頻噪聲的手段,基本原理是以聲消聲。
也就是說,我們有一個主噪聲源,同時有一個次級聲源,揚聲器在兩個聲波疊加的時候可以達到噪聲抑制的目的。主動噪聲控制是上個世紀 40 年代發(fā)明的,目前已經(jīng)成功應用于一些產(chǎn)品中,其中大家最為熟知的就是降噪耳機。
降噪耳機的結(jié)構(gòu)通常是,耳機外面是參考麥克風,用來收錄主噪聲的參考信號;靠近耳朵一端會布置次級聲源和誤差麥克風,誤差麥克風是我們的控制點。如果誤差麥克風達到降噪效果,進入耳朵的能量就非常小,耳機就可以達到降噪的目的。
這一系統(tǒng)同時還涉及到前饋控制和反饋控制,利用參考麥克風信號和誤差麥克風信號控制次級聲源發(fā)出的次級噪聲。
可見,其原理是比較簡單的,但在具體執(zhí)行過程中主要的難點和痛點就是噪聲的特性。噪聲具有寬帶非平穩(wěn)和快速變化的特性,次級聲源和誤差麥克風離得很近,離我們的耳朵也很近,所以整個系統(tǒng)的處理時間非常少,我們對系統(tǒng)的實時性要求非常高,也是整個系統(tǒng)最大的難點問題。
商業(yè)應用中,我們已經(jīng)看到很多成功的降噪耳機。目前科研界和企業(yè)界關注的另一個點是能否可以把這個技術應用到開放空間的主動噪聲控制,一個典型應用場景就是汽車。
汽車在行駛過程中有各種各樣的噪聲,包括路噪、胎噪、風噪、引擎噪聲等。所以目前很多的車商都在開發(fā)汽車座艙的主動噪聲控制,相對而言比較成熟的就是對引擎噪聲的控制。
它的基本原理是,在離駕駛員和乘客頭部比較近的區(qū)域布置一些麥克風陣列,比如誤差麥克風。我們要在這些點上進行控制,離用戶比較近,用戶聽到的聲音也就比較小。比如說在汽車的車頂或座位上,用汽車自帶的播放系統(tǒng)播放次級噪聲。
之所以引擎噪聲比較容易控制,是因為可以結(jié)合聲學傳感器和振動傳感器。振動傳感器可以放在引擎端監(jiān)測噪聲,可以提前獲取一些主噪聲的參考來設計系統(tǒng)。而其他噪聲,比如路噪、風噪、胎噪更加寬帶,變化更加快且具有中高頻的特點,目前只能用一些聲學傳感器進行監(jiān)測。
區(qū)域內(nèi)的主動噪聲控制就是結(jié)合麥克風陣列、揚聲器陣列以及聲場控制技術實現(xiàn)三維空間區(qū)域內(nèi)的降噪效果。
這里有一個展示,最外圈的藍線是揚聲器陣列,紅線所包圍的區(qū)域就是控制區(qū)域。我們可以在這個區(qū)域的便捷來布置一些麥克風。這里畫的是波震面,黑色和白色分別代表幅度正一和負一。
整個系統(tǒng)收斂之后,中間區(qū)域的幅度會比較小,接近于零。
我們實際上也完成了車內(nèi)實測數(shù)據(jù)的驗證。我們用球形麥克風陣列放在乘客頭部位置收錄一些噪聲,包括引擎的噪聲、空調(diào)噪聲以及不同路況的噪聲,并在實驗室對這些噪聲進行分析,得到所需的降噪信號。
我們把得到的信號再從車載的系統(tǒng)中放出來,在一個環(huán)境下測試我們的降噪效果,基本 500 赫茲以下可以實現(xiàn) 15-20 dB 的降噪效果。
基于同樣的原理,我們是否可以基于聲場控制,來控制噪聲向外的輻射?這里有一個展示。
中間白色的揚聲器是我們的主噪聲,外面三個藍的揚聲器是次級噪聲。主噪聲是三個協(xié)作聲量,環(huán)境內(nèi)的聲量達到了 78 分貝。外面一圈是誤差麥克風,我們可以基于麥克風的數(shù)據(jù)進行控制。
次級噪聲發(fā)出反噪聲信號之后,把主噪聲分量進行一致,整個環(huán)境中的主噪聲就降低到了 68 分貝。我們再把次級噪聲放回去,可以達到相同的降噪量,大概 68 分貝。
這是一個自適應的系統(tǒng),是很簡單的展示,主要是在考量未來是否可以控制智能家居向外輻射的噪聲。
總體來說,開放空間聲場控制有廣闊的應用場景,但目前存在很多的難點。
一方面,計算復雜度隨著次級聲源數(shù)目和傳感器數(shù)目的增加而急劇增加;同時,開放空間聲場控制,特別是噪聲控制對實時性的要求比較高;為了達到精準的效果還要做在線的聲學路徑估計,會進一步增加系統(tǒng)的復雜度;最為關鍵的痛點問題是寬帶非平穩(wěn)噪聲和中高頻信號的追蹤能力。
在這一方面我們也有一些最新的工作、最新的考量,依然是從兩個方面出發(fā):一是傳聲器陣列設計,二是前端信號處理。
在傳聲器設計當中,我們提出了一種新的揚聲器的設計方法,即指向性揚聲器。傳統(tǒng)的信號處理通常把揚聲器建模為 3D 空間的點聲源,具有全指向性的輻射特性。這種輻射具有不可控性,整個系統(tǒng)的復雜度比較大,要用多個傳聲器才能達到同樣的效果。
所以我們在想,是否可以構(gòu)建一個具有可變指向性的傳聲器,多個揚聲器放在一個系統(tǒng)上,可以控制向外空間的指向性,甚至可以控制陣列內(nèi)部和外部聲場進而有效抑制混響,相當于在發(fā)聲端做了波束形成技術。
那么該怎樣做聯(lián)合優(yōu)化?比如說有多個陣列,我們希望其內(nèi)部實現(xiàn)特定的聲場,同時向外輻射盡可能小,小到不會引起混響,我們就不用考慮播放環(huán)境對系統(tǒng)的影響,也就不需要再做一些在線的聲學估計了。
在信號處理方面,我們也有一些最新的嘗試,比如說結(jié)合 AI 做基于 Deep ANC 的非線性主動噪聲控制,我們也可以學習一些噪聲的特性,這樣我們可以使整個系統(tǒng)具有更快的收斂能力和更強的噪聲跟蹤能力。
另外一個工作是基于分布式的聲場控制,基本原理是把一個大型的多通道系統(tǒng)拆分成多個小型系統(tǒng),這樣的話我們就可以降低整個系統(tǒng)的運載負荷、提高系統(tǒng)跟蹤噪聲的能力,但弊端是收斂性有所減慢。
總體上看,開放空間聲場控制是使用多個揚聲器控制一個區(qū)域或是多個區(qū)域的聲場,具有可設計性強、成本低、靈活性高的特點,有廣闊的應用場景和市場空間。主要針對的是大區(qū)域、多區(qū)域混響環(huán)境下的聲場控制,這個情況下有兩方面,一個是傳聲器、傳感器陣列的新設計本身起了非常重要的作用。信號處理方面,我們需要關注的是語音信號和噪聲信號的寬帶隨機性質(zhì),特別是中高頻信號和快速變化信號的跟蹤能力。在這種情況下整個聲場控制的難度是急劇增加的,我們在嘗試結(jié)合人工智能、分布式處理的工作,還有大量的工作有待展開,感謝大家的聆聽。
雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。
本專題其他文章