丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
人工智能 正文
發(fā)私信給劉鵬
發(fā)送

0

科大訊飛李偉:人機交互如何選擇合適的「耳朵」| 分享總結(jié)

本文作者: 劉鵬 2018-05-31 14:48
導語:人工智能當前正處于爆發(fā)階段,語音交互作為人工智能的重要組成部分正在各行業(yè)全面的落地,在人機進行語音交互的過程中,機器需要通過耳朵實現(xiàn)聽覺的作用。
活動
企業(yè):科大訊飛
操作:線上公開課
事項:雙麥克風陣列方案在各領域的廣泛應用

雷鋒網(wǎng) AI 研習社按:人工智能當前正處于爆發(fā)階段,語音交互作為人工智能的重要組成部分正在各行業(yè)全面的落地,在人機進行語音交互的過程中,機器需要通過耳朵實現(xiàn)聽覺的作用。

在雷鋒網(wǎng) (公眾號:雷鋒網(wǎng)) 旗下學術(shù)頻道 AI 科技評論的數(shù)據(jù)庫項目「AI 影響因子」中,憑借訊飛病灶分割比賽優(yōu)勝團隊專訪訊飛與哈工大聯(lián)合實驗室刷新 SQuAD 成績的突出表現(xiàn)、前 MSRA 副院長李世鵬任訊飛 AI 研究院聯(lián)席院長,排在「AI 影響因子」前列。

近期,在雷鋒網(wǎng)研習社公開課上,科大訊飛產(chǎn)品經(jīng)理李偉為大家科普了當前正熱的智能音箱背后的功臣——麥克風陣列,并具體講解了雙麥克風陣列和該方案在各領域的廣泛應用。李偉也希望借此解決大家在語音交互 AI 前端學習上的一些疑問。視頻回放地址:http://www.mooc.ai/open/course/498

李偉,科大訊飛產(chǎn)品經(jīng)理,負責麥克風陣列和智能家電領域的語音交互解決方案,曾就職于惠而浦(中國)股份有限公司先后擔任軟件工程師和智能家電產(chǎn)品經(jīng)理,重慶郵電大學生物信息學學士,重慶郵電大學軟件工程碩士。

科大訊飛李偉:人機交互如何選擇合適的「耳朵」| 分享總結(jié)

分享主題:人機交互如何選擇合適的「耳朵」——淺談雙麥克風陣列及行業(yè)應用

分享提綱

  1. 人機交互的「耳朵」——麥克風陣列簡介

  2. 如何選擇麥克風陣列——選擇麥克風陣列的四要素

  3. 雙麥克風陣列簡介和行業(yè)應用介紹

科大訊飛李偉:人機交互如何選擇合適的「耳朵」| 分享總結(jié)

首先來介紹什么是麥克風陣列,提到語音交互,有一個始終繞不開的話題:智能音箱。眾所周知,亞馬遜推出的 Echo 一下子帶火了整個智能音箱市場,語音交互也開始獲得人們的關注,越來越多的消費者開始購買語音交互智能設備。但大家在使用語音交互設備(如智能音箱)時,往往發(fā)現(xiàn)不同產(chǎn)品的語音交互效果差別很大,這主要由于智能音箱在聽覺設計上采用了不同的麥克風陣列方案造成的,比如最新推出的天貓精靈方糖和叮咚 Mini2。

科大訊飛李偉:人機交互如何選擇合適的「耳朵」| 分享總結(jié)

方糖使用雙麥克風陣列方案(左),叮咚 Mini2(右)使用 6 麥克風陣列方案

什么是麥克風陣列?

科大訊飛李偉:人機交互如何選擇合適的「耳朵」| 分享總結(jié)

工業(yè)級麥克風陣列,一般是由數(shù)十和上千個麥克風按照一定的規(guī)則排列組合,主要應用于工業(yè),軍工等領域。

消費級麥克風陣列,是對工業(yè)級麥克風陣列的大大簡化,由于主要考慮成本因素,所以通常消費級麥克風陣列麥克風數(shù)量不超過十個。

近些年,隨著語音交互方案的成熟,消費級的麥克風陣列開始逐漸普及,本次分享主要針對消費級麥克風陣列。

麥克風陣列(以下均指消費級)的作用

科大訊飛李偉:人機交互如何選擇合適的「耳朵」| 分享總結(jié)

麥克風陣列主要模擬人耳的聽覺作用,人的耳朵不僅可以聽到聲音,還具備分辨聲源類型和方向的能力。這樣,我們就可以選擇聽到喜歡的聲音,如在辦公室,當我和同事交流的時候,會忽略周圍其他的聲音。其實麥克風陣列就是機器的耳朵,不僅采集音頻信號,還為了更好的聲源辨別和噪音過濾,從而保證人機交互的效果。

由于人耳具有十分復雜的結(jié)構(gòu),麥克風陣列(尤其是消費級麥克風陣列)很難達到人耳的辨別和調(diào)整能力。目前,麥克風陣列主要具備四大功能。

科大訊飛李偉:人機交互如何選擇合適的「耳朵」| 分享總結(jié)

聲源定位:準確來說,麥克風實現(xiàn)的是聲源側(cè)向,而不是精準的定位,它的主要作用就是偵測到聲源的方位以便后續(xù)的波束形成。通常聲源定位會在語音喚醒階段實現(xiàn)。

噪聲抑制:這里的噪聲一般指環(huán)境噪音,比如空調(diào)吹風的聲音,窗外汽車行駛的聲音等等,這類噪音通常不會掩蓋正常的語音,只是影響了語音的清晰度,麥克風陣列主要依靠波束形成抑制主瓣外的聲音干擾來實現(xiàn)噪聲抑制的功能。

增益調(diào)節(jié):主要解決拾音距離變化的問題,由于遠場的交互距離可大可小,所以聲源發(fā)聲的大小也不同,比如人離麥克風較遠或人發(fā)出的聲音較小的時候,麥克風拾取的聲源信號就會比較小,這時需要對麥克風收集的信號進行放大處理,從而提高語音識別的準確性。當人湊著麥克風講話的時候,或者外界發(fā)出的聲音較大的時候,麥克風采集的信號較大,甚至超出麥克風可以采集到的范圍,這時需要麥克風陣列進行相關的處理,適當?shù)乃p聲源信號,從而達到拾取聲源的有效平衡。

回聲消除:這里的回聲并非傳統(tǒng)意義上的回聲,它指的是語音交互設備自己發(fā)出的聲音,比如音箱在播放音樂的時候,用戶想打斷它,此時,回聲指的是音箱本身播放音樂的聲音。如果麥克風陣列沒有回聲消除功能,那么麥克風采集的聲音就包含人發(fā)出的指令聲音和音樂聲音,在這種情況下,顯然會對在語音識別的效果產(chǎn)生干擾,回聲消除的目的就是要消除音樂的聲音而保留用戶的人聲。

麥克風主要可以抑制四類噪音:分別為混響,背景噪音,人聲干擾和回聲。

科大訊飛李偉:人機交互如何選擇合適的「耳朵」| 分享總結(jié)

混響:人講話的聲音被各種障礙物反射產(chǎn)生的聲音,如被墻壁,地板,天花板等障礙物反射,混響的聲音通常距離聲源發(fā)出的聲音時間間隔較短,人耳主觀上感覺不到,但機器在采集的時候往往可以采集到。

人聲干擾:為什么要注意人聲干擾?由于實際上麥克風陣列在解決噪音干擾的時候,人聲干擾會對麥克風的識別效果產(chǎn)生最大的影響,因為往往做人機交互的時候,麥克風陣列收集的聲源的聲音就是人聲。

噪聲和回聲前面剛剛介紹過。

實際上,當前主流的智能音箱采用的麥克風陣列列方案是不太一樣的,比如亞馬遜的 echo 最早使用的是 6+1 麥克風方案;Google Home 使用的是雙麥克風方案;叮咚音箱使用的是 7+1 麥克風方案;阿里去年推出的天貓精靈采用的是 6 麥克風陣列方案。

目前訊飛向外提供三種構(gòu)型的麥克風陣列,分別是線性,環(huán)形和立體陣列。

科大訊飛李偉:人機交互如何選擇合適的「耳朵」| 分享總結(jié)

如何選擇麥克風陣列?

根據(jù)我近些年與開發(fā)者和用戶溝通得出的經(jīng)驗總結(jié),選擇麥克風陣列通常有四個要素,分別為使用場景,ID&MD 設計,交互鏈路和產(chǎn)品定價。

科大訊飛李偉:人機交互如何選擇合適的「耳朵」| 分享總結(jié)

使用場景

科大訊飛李偉:人機交互如何選擇合適的「耳朵」| 分享總結(jié)

關于使用場景,我想通過兩個例子進行介紹,不少商場正在使用機器人來替代人類進行導購服務,商場周圍的環(huán)境非常嘈雜(一般能達到 70 分貝以上),這種環(huán)境對降噪的要求很高,一般需要選擇抗噪能力比較強的麥克風陣列,同時由于人和機器的相對位置變化性較大,所以機器人往往需要具備 360 度的喚醒定位功能,也就是當用戶處于機器人的側(cè)面并發(fā)出指令的時候,希望機器人可以調(diào)轉(zhuǎn)到用戶所處的方向,因此在做商用機器人解決方案的時候,通常會選擇環(huán)形 6 麥或以上的陣列,這樣的話,整體抗噪和定位的效果能達到該場景的要求。

第二個例子,如電冰箱這個場景中,由于家居場景比較安靜(通常在 40 到 55 分貝左右),該場景對麥克風陣列的抗噪音要求并不是很高,因此可以選擇抗噪能力稍弱的麥克風陣列。另外,如冰箱這類家電往往是靠墻放置,因此不需要 360 度的喚醒定位,通常有時候不需要聲源定位就可以進行遠場拾音。還有一點需要說明,家電產(chǎn)品通常對節(jié)能環(huán)保要求較高,功耗要求也比較嚴格。因此選擇較少的麥克風陣列可以保證整體的功耗,所以通常在冰箱上會使用雙麥陣列方案或四麥陣列方案。

ID&MD 設計

科大訊飛李偉:人機交互如何選擇合適的「耳朵」| 分享總結(jié)

設備植入麥克風陣列時,通常需要對產(chǎn)品的外觀和結(jié)構(gòu)件進行開口,這對整體的外觀設計和產(chǎn)品都會產(chǎn)生一定的考驗,外觀上需要結(jié)合機器的整體外觀,結(jié)構(gòu)上主要看聲學整體的效果。

影響聲學效果的主要因素,包括麥克風陣列的構(gòu)型,孔徑,孔深,開孔率,聲腔的密閉性以及防震防水等,比如圖中的無葉風扇,當我們確定了在頂部采用四麥陣列方案之后,就需要考慮如何對這個方案進行優(yōu)化,對此產(chǎn)品上進行了兩點處理:1,在風扇頂部加厚處理,這樣可使風扇整體更美觀,頂部加厚處理還有助于開孔和加大開孔率,麥克風拾音也更便捷。2,考慮到底部為風扇電機的噪音源,因此將麥克風置于頂部。

交互鏈路

科大訊飛李偉:人機交互如何選擇合適的「耳朵」| 分享總結(jié)

由于各技術(shù)廠商的算法體系不同,在選擇語音交互方案時,最好能選擇經(jīng)過前端和云端協(xié)同優(yōu)化的算法,比如訊飛的云端識別會針對自身的麥克風序列的音頻數(shù)據(jù)進行大量的優(yōu)化,因此在云端和前端的配合上較其他家具備明顯優(yōu)勢:整體的響應速度更快,準確性更高,開發(fā)周期會更短。而如果麥克風陣列和后端的云端使用不同廠家的方案,那么在后期的響應、協(xié)同的配合上、準確性,以及開發(fā)階段的聯(lián)調(diào)和配合上,都會遭遇相當大的考驗。

產(chǎn)品定價

科大訊飛李偉:人機交互如何選擇合適的「耳朵」| 分享總結(jié)

麥克風陣列的使用成本通常包括四塊:分別為麥克風,模組,喇叭以及其他配件。目前,對麥克風陣列來講,最大的區(qū)別主要體現(xiàn)在麥克風和模組上,比如天貓精靈的方糖音箱采用的就是雙麥克風陣列方案,叮咚 mini2 為六麥陣列方案。另外在模組上,六麥陣列要處理六路的麥克風拾取的音頻信號,因此在芯片的配置和數(shù)模轉(zhuǎn)換的處理上都需要更大的開銷,所以從產(chǎn)品定價上來看,可以理解天貓精靈方糖定價為 199 元,而叮咚 mini2 定價為更高的 299 元。

通過上面的四個要素可以總結(jié)出,選擇麥克風陣列,要核心考慮不同麥克風陣列的特點。目前訊飛常用的麥克風陣列方案主要有雙麥陣列方案,環(huán)形六麥陣列和雙環(huán)八麥陣列方案。

科大訊飛李偉:人機交互如何選擇合適的「耳朵」| 分享總結(jié)

雙麥陣列方案:采用雙麥設計,因此成本和功耗均低且 ID 和 MD 設計簡單靈活,但抗噪音干擾較弱。

環(huán)形六麥陣列:麥克風數(shù)量增加到 6 個,成本和功耗也隨之變高,優(yōu)點是在環(huán)形平面上降噪效果好。

雙環(huán)八麥陣列方案:可進行空間立體的群像拾音,由于麥克風數(shù)量眾多,導致成本和功耗更高。另外,由于采用立體結(jié)構(gòu)的 ID 和 MD 設計,設計起來相對復雜。

由于雙麥克風陣列的性價比較高,因此其使用領域也相當廣闊。接下來介紹雙麥克風陣列以及行業(yè)應用。

雙麥克風陣列以及行業(yè)應用

科大訊飛李偉:人機交互如何選擇合適的「耳朵」| 分享總結(jié)

目前主流的遠場雙麥克陣列方案,包括科勝訊的 CX20921 方案和訊飛雙麥 DSP 方案。

科大訊飛李偉:人機交互如何選擇合適的「耳朵」| 分享總結(jié)

訊飛雙麥 DSP 目前對外提供一套模組方案:

科大訊飛李偉:人機交互如何選擇合適的「耳朵」| 分享總結(jié)

即通過 DSP 芯片和 ADC,F(xiàn)lash 的整合,實現(xiàn)一套完整的交互模組,該模組的特點為集成簡單,開發(fā)便捷。當用戶在使用這套模組的時候,前端麥克風將采集到的音頻輸入到模組,模組輸出 16K 和 32Bit 的數(shù)字信號,傳給識別端,這樣就可形成前端的遠場拾音。整體方案支持麥克風的間距在 20 到 120mm,這樣在整個 ID 和 MD 的結(jié)構(gòu)設計上會更加靈活。

訊飛雙麥陣列芯片方案

科大訊飛李偉:人機交互如何選擇合適的「耳朵」| 分享總結(jié)

科大訊飛支持芯片化的定制方案,該方案基于核心算法處理的 DSP 芯片+訊飛的算法 SDK。方案的主要特性:硬件設計靈活。該方案還存在以下幾個特點:高集成封裝,這顆 DSP 芯片的高集成封裝在尺寸上可達到 1.8*2.1mm,可以應用于手機和穿戴設備上;支持數(shù)字麥克風直接接入的方式;由于該 DSP 芯片也是專為手機設計的音頻處理芯片,所以整個芯片方案功耗很低。

該方案里植入了訊飛的雙麥陣列降噪算法,其中的算法特性見圖中的四點描述。

科大訊飛李偉:人機交互如何選擇合適的「耳朵」| 分享總結(jié)

遠場拾音:可支持 3 米的遠場拾音,在安靜環(huán)境下可達到 5 到 10 米。

語音喚醒:雙麥方案里植入的算法可支持中英文的語音喚醒。另外,由于采用了低功耗的 CNN 喚醒技術(shù),因此在待機喚醒狀態(tài)下的功率很低。

噪音抑制:可以抑制常見的混響干擾聲和環(huán)境噪音。

回聲消除:近期,科大訊飛在雙麥陣列的回聲效果上進行了優(yōu)化,目前可支持全雙工立體聲的回聲消除,且設備本身發(fā)出的播報音達到 80 到 90 分貝,該效果通??蓾M足大多數(shù)產(chǎn)品的需求,甚至包括很多音箱的需求。

目前,不少用戶都來提關于「雙麥陣列喚醒率」的問題,我在這里跟大家解釋一下,為什么沒有給出喚醒率的具體指標?主要因為喚醒率是根據(jù)周圍外部環(huán)境的因素和麥克風構(gòu)型,再考慮測試環(huán)境的影響會導致實際測試到的喚醒率效果不一樣,這就要求在實際評估喚醒率的時候,需要綜合考慮外部所有的因素來進行評估。

就目前的應用場景來看,雙麥陣列方案已經(jīng)覆蓋到了很多領域,下圖為主要領域的產(chǎn)品舉例。

科大訊飛李偉:人機交互如何選擇合適的「耳朵」| 分享總結(jié)

機器人領域:使用到語音交互的主要是商用服務和消費級機器人,雙麥陣列方案主要應用于陪伴型,消費級機器人以及服務機器人上。

車載領域:目前大多數(shù)車載帶屏設備都使用基于雙麥陣列的交互方案。另外,車載類配件也推薦使用雙麥陣列方案,目前市場上使用雙麥陣列案例有,訊飛去年推出的小飛魚智能車載助手。

智能家居場景:先說智能音箱,除了 google Home 外,亞馬遜的 echo 以及阿里的天貓精靈都采用了雙麥陣列方案,因此在未來的音箱領域,雙麥克風方案會受到越來越多的關注,另在冰箱,空調(diào)或家庭空調(diào)的控制面板中,都有使用雙麥方案。

手機及可穿戴設備:蘋果 air pod 采用的也是雙麥方案,華為更早推出的 B2 手環(huán)也是基于雙麥的降噪方案。

隨著雙麥陣列方案的不斷優(yōu)化,應用場景也越來越多,歡迎廣大開發(fā)者使用訊飛的雙麥克風陣列方案。

另外,講師還回答了直播中大家提出的關于「人機交互」和「單麥克風的局限性」的問題。雷鋒網(wǎng) AI 研習社將問答內(nèi)容整理如下:

Q & A

科大訊飛李偉:人機交互如何選擇合適的「耳朵」| 分享總結(jié)

Q:使用雙麥克風陣列方案在人機語音交互中能做到什么效果?

A:家居,汽車,課堂等噪音較少的場景可以使用,戶外情況下可用于耳機,手環(huán)等穿戴設備,3 米內(nèi)抗干擾,安靜環(huán)境下交互距離可達 5 到 10 米;可以滿足智能音箱,陪伴機器人在較大音量播放音頻內(nèi)容時的打斷效果;實際的評測過程中應盡量采用真實使用場景下的體驗和測試,避免在辦公室等外界干擾較大的環(huán)境或混響大(玻璃較多)的環(huán)境中進行測試。

Q:簡單介紹一下人機交互?

A:人機交互的模式有很多種,這里提到的語音交互屬于人機交互的一種,除此之外還包括視覺類的交互和傳感類的交互,比如通常使用的家電或消費類電子產(chǎn)品都帶有很多傳感器,比如觸摸手機屏幕,指紋解鎖,甚至是通過按鍵,這類都叫人機交互。未來的人工智能更多的是所有交互的一個智能體,其中跟人類最接近的是語音和視覺交互??梢赃@樣說,人接收到的信息,80% 是通過視覺來接收到的,但人向外傳遞的信息 90% 通過語音實現(xiàn)。因此視覺和語音會在未來的人機交互中占有很大的比例。

Q:單麥克風的局限性?

A:目前也有很多產(chǎn)品在考慮使用單麥克風方案,可能是從成本上或者是從場景本身(靜場場景)來考慮,或是噪音比較小的場景。如果從成本的考慮的話,隨著未來產(chǎn)品的不斷迭代,雙麥陣列會漸漸與單麥陣列的成本差別越來越小,同時雙麥陣列可以應付一些突發(fā)的情況,所以雙麥陣列會逐漸替代單麥克風陣列。

Q:為什么需要麥克風陣列?

A:實際的語音交互需要麥克風陣列,打個比方,如果人類沒有耳朵,就不能對外界的聲音進行拾取,只能通過眼睛或其他五感(如觸覺等)來獲取外界信息,這樣就缺少了對于外界的聽覺感受。

以上就是本期嘉賓的全部分享內(nèi)容,本次講師李偉也在公開課視頻的最后附有聯(lián)系方式,大家如有問題想要交流的可以前往查看。更多公開課視頻請到雷鋒網(wǎng) AI 慕課學院觀看。關注微信公眾號:AI 研習社,可獲取最新公開課直播時間預告。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

科大訊飛李偉:人機交互如何選擇合適的「耳朵」| 分享總結(jié)

分享:
相關文章
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說