丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能 正文
發(fā)私信給三川
發(fā)送

1

IBM 語音識別新方向:仿生蝙蝠耳能用聲納精準“聆聽”

本文作者: 三川 2016-11-29 15:03
導(dǎo)語:IBM 專家研究如何通過仿生蝙蝠耳,提高語音識別設(shè)備的精度和定位能力。

IBM 語音識別新方向:仿生蝙蝠耳能用聲納精準“聆聽”

蝙蝠使用生物聲吶,為夜晚在叢林中飛行導(dǎo)航。他們的超聲波脈沖,可以比人造聲吶裝置更精確地對聲音進行定位。為復(fù)制、駕馭這種能力,IBM 學院獎獲得者 Rolf Müller 教授協(xié)同他在弗吉尼亞理工學院(Virginia Tech)的團隊,設(shè)計了一種人造蝙蝠耳。

Rolf Müller 的研究引起了 IBM 的注意。IBM 專家韓金萍(音譯)的神經(jīng)計算團隊,和 IBM Watson 語音專家崔曉東(音譯)和他的同事, 看到了 Müller 教授人造“動態(tài)外耳”(dynamic peripheral,蝙蝠可轉(zhuǎn)動的外耳使它們的生物聲吶更加準確)的潛力 ,并希望借此提高人類語音理解的能力。他們把 Müller 的博士生 Anupam Gupta 納入團隊,一同他們探索人造蝙蝠仿生耳在語音處理的應(yīng)用。

他們發(fā)現(xiàn),這些仿生耳不僅是很有效的聲吶裝置,對語音識別同樣能起到作用。

IBM 語音識別新方向:仿生蝙蝠耳能用聲納精準“聆聽”

模仿菊頭蝠的人造耳

研究團隊根據(jù)蝙蝠改變耳朵形狀的能力,仿制了一個動態(tài)接收系統(tǒng)。能提高自動語音識別系統(tǒng)(ASR)的精確度,還能更準確地對談話者定位。韓金萍將在他們的論文《受菊頭蝠啟發(fā)的接收動力學把動態(tài)特點加入語音信號》,及本周美國聲學協(xié)會第 172 屆會議上展示了這一發(fā)現(xiàn)。

這些動態(tài)系統(tǒng)有潛力發(fā)展成讓使用者“像蝙蝠那樣聆聽”的語音接收設(shè)備。這會改進現(xiàn)有的助聽器和指向性傳聲器。并可應(yīng)用于任何需要對聲音來源進行定位、理解的場景。

設(shè)想你身處一個忙碌、吵鬧的集市。聽清楚你旁邊的人在說什么都可能是一項挑戰(zhàn)。有了這項技術(shù),同伴的聲音就能被一個可變形的助聽器識別,然后翻譯成你能聽懂的話。它還可以過濾掉鬧市的雜音,和其他人嗡嗡的說話聲。

仿生蝙蝠耳的生物聲吶算法

蝙蝠的超聲波具有 10 – 200 kHz 的頻率,而人耳只能識別 20 Hz – 20 kHz 的聲音。因此對我們來說它聲調(diào)太高,大多數(shù)是聽不到的。為了駕馭蝙蝠的生物聲吶頻率和精度,Gupta 加入韓金萍團隊編寫能夠把語音訊號轉(zhuǎn)化為超聲波脈沖的代碼——然后再把超聲波轉(zhuǎn)化為我們能夠聽到的正常語言。

這首先需要建立一個數(shù)據(jù)庫。為了盡可能地簡化,韓金萍團隊使用了卡內(nèi)基梅隆大學開源數(shù)據(jù)庫中,11 個美式英語朗讀者的英語字母和數(shù)字的發(fā)音。

舉例子,以字母“A” 或者數(shù)字“1”形式出現(xiàn)的數(shù)據(jù),被麥克風接收,然后轉(zhuǎn)化為超聲波信號。超聲波揚聲器播放該信號。隨后,具有“動態(tài)外耳”的人造蝙蝠耳接收信號。最后,軟件把超聲波信號轉(zhuǎn)化為原始數(shù)據(jù)——字母“A” 或者數(shù)字“1”。

現(xiàn)實(鬧市)中的人造耳朵

雖然只包含字母和數(shù)字的聲音信號數(shù)據(jù)庫有較大限制,但通過分析它,韓金萍團隊表示人造耳用“動態(tài)、方向性的的時間頻率模型”豐富了語音信號。下一步,研究人員把人造耳處理后的聲音與原始語音進行對比,來衡量人造耳的精度。因此,他們把原始語音數(shù)據(jù)和經(jīng)人造耳處理的聲音數(shù)據(jù),放入分類器( classifier )中進行識別。67% 的語音信號能被成功識別出來。而在沒有動態(tài)外耳的對照組中,只有 35% 的聲音數(shù)據(jù)被識別。

有了更多的可用分析數(shù)據(jù)后,研究員們將著手用行業(yè)基準來對該系統(tǒng)進行測試,并開發(fā)仿生學習算法。再或者,將來他們可能會開發(fā)一個“聆聽” app,把智能手機麥克風變成接入物聯(lián)網(wǎng)的指向性麥克風,來幫助使用者選擇現(xiàn)實中他想要聽到的聲音。IBM 研究人員認為,實現(xiàn)它并不是太遙遠。

via ibm

【招聘】雷鋒網(wǎng)堅持在人工智能、無人駕駛、VR/AR、Fintech、未來醫(yī)療等領(lǐng)域第一時間提供海外科技動態(tài)與資訊。我們需要若干關(guān)注國際新聞、具有一定的科技新聞選題能力,翻譯及寫作能力優(yōu)良的外翻編輯加入。工作地點深圳。簡歷投遞至 guoyixin@leiphone.com 。兼職及實習均可。

相關(guān)文章:

思必馳雷雄國:語音識別將是萬億級物聯(lián)網(wǎng)設(shè)備的標配 | 萬物互聯(lián)創(chuàng)新大會

微軟研究院新成果!對話語音識別水平超人類,錯誤率僅為 5.9 %

谷歌收購語音識別開放平臺 API.ai,或?qū)⑵湔显?Allo 中

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

IBM 語音識別新方向:仿生蝙蝠耳能用聲納精準“聆聽”

分享:
相關(guān)文章

用愛救世界
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說