丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
AI+ 正文
發(fā)私信給張棟
發(fā)送

0

人臉識(shí)別大趨勢(shì)下,聲紋識(shí)別在安防行業(yè)也有春天?

本文作者: 張棟 2017-11-21 14:36 專題:AI最佳掘金案列
導(dǎo)語(yǔ):與人臉識(shí)別一樣,聲紋識(shí)別的訓(xùn)練也需要龐大的數(shù)據(jù)積累及對(duì)數(shù)據(jù)的精確標(biāo)注。

人臉識(shí)別大趨勢(shì)下,聲紋識(shí)別在安防行業(yè)也有春天?

每逢年末,各類融資消息多不勝數(shù),百萬(wàn)起步,上不封頂。在這其中,一條并不起眼的數(shù)千萬(wàn)人民幣的融資消息引人注意。

這幾年,在市場(chǎng)、技術(shù)、政策等多重影響下,曾經(jīng)浮浮沉沉的AI正在各個(gè)行業(yè)普及開來(lái)。從應(yīng)用層面來(lái)看,AI初創(chuàng)公司大多以人臉識(shí)別落地;而SpeakIn(勢(shì)必可贏科技)卻另辟蹊徑以聲紋識(shí)別為刃攻克各個(gè)行業(yè)的城池壁壘,為傳統(tǒng)行業(yè)賦能,并于近期獲得新一輪千萬(wàn)融資。

欲用聲紋識(shí)別攻破安防圈

SpeakIn 于2015在硅谷創(chuàng)立,聚焦聲紋生物信息ID,商業(yè)化落地主要包含四大塊:1、安防領(lǐng)域;2、民生領(lǐng)域;3、金融領(lǐng)域;4、智能硬件。針對(duì)這些場(chǎng)景,目前已推出多套產(chǎn)品及解決方案。

SpeakIn COO易鵬宇坦稱道,在這其中,公司戰(zhàn)略優(yōu)先級(jí)最高的當(dāng)屬安防領(lǐng)域,落地方式主要有兩種:

  • 防止電信詐騙。如今,各地公安部門都有個(gè)人信息采集系統(tǒng),包括人臉、指紋、聲音等信息都有錄入。如果該案件涉及到聲音辨識(shí),便可通過(guò)該系統(tǒng)輕松找到嫌疑人。

  • 幫助尋找丟失兒童。如果懷疑某人是被拐賣兒童,在系統(tǒng)內(nèi)輸入其聲音,只要之前有他們的視頻、聲音,通過(guò)對(duì)兩者的對(duì)比,就可判定是否是被拐賣兒童。易鵬宇解釋說(shuō),對(duì)于公安部門來(lái)說(shuō),這是一個(gè)新的手段,但會(huì)受到年齡跨度的阻礙。

而就此,今年6月,SpeakIn還與公安部門合作建立“智能聲紋系統(tǒng)聯(lián)合實(shí)驗(yàn)室”,共同投入研發(fā)公安業(yè)務(wù)與安防領(lǐng)域的先進(jìn)產(chǎn)品與系統(tǒng),用聲紋識(shí)別技術(shù)為社會(huì)安定和國(guó)家安全提供服務(wù)和保障。

聲紋識(shí)別的“前世今生”

雷鋒網(wǎng)了解到,該技術(shù)最早誕生于上世紀(jì)四十年代的貝爾實(shí)驗(yàn)室。它是通過(guò)對(duì)一種或多種語(yǔ)音信號(hào)的特征分析來(lái)達(dá)到對(duì)未知聲音辨別的目的,簡(jiǎn)單來(lái)說(shuō)就是辨別某一句話是否是某一個(gè)人說(shuō)的技術(shù)。

它常常應(yīng)用于刑偵破案、罪犯跟蹤、國(guó)防監(jiān)聽(tīng)、個(gè)性化應(yīng)用等等,主要抽取說(shuō)話人聲音的基音頻譜及包絡(luò)、基音幀的能量、基音共振峰的出現(xiàn)頻率及其軌跡等參數(shù)表征,然后再與模式識(shí)別等傳統(tǒng)匹配方法結(jié)合進(jìn)行聲紋識(shí)別。

易鵬宇告訴雷鋒網(wǎng),一宗案件中,同時(shí)具有指紋、人臉、聲音的案件少之又少?;ヂ?lián)網(wǎng)時(shí)代下,很多犯罪行為都是通過(guò)微信、電話等網(wǎng)絡(luò)設(shè)備,聲音成為最明顯的突破口。

對(duì)此,公安部門也早已意識(shí)到。雷鋒網(wǎng)了解到,多年之前,我國(guó)就有設(shè)立聲紋識(shí)別中心,一些工作經(jīng)驗(yàn)豐富的專家用一些很傳統(tǒng)的軟件通過(guò)識(shí)別聲音頻譜圖,花上五個(gè)小時(shí)、甚至十個(gè)小時(shí)去聽(tīng)辨一條聲音。方言口音、輕重音、韻律特征、發(fā)音習(xí)慣、語(yǔ)流中的吞音現(xiàn)象、鼻韻味的發(fā)音特征、聲音基頻等等都是在聲紋專家輔助系統(tǒng)之前,人力需要判斷的聲紋特征,一個(gè)案子可能一周都聽(tīng)不完,辦案效率非常低下。

即便如此,這種作業(yè)模式目前還在各個(gè)公安部門中廣泛使用。

其實(shí),從理論上來(lái)說(shuō),聲紋就像指紋一樣,是具有唯一性的生物信息特征,該技術(shù)在美國(guó)也一直被廣泛使用。據(jù)悉,美國(guó)聯(lián)邦調(diào)查局對(duì)2000例與聲紋相關(guān)的案件進(jìn)行統(tǒng)計(jì),利用聲紋作為證據(jù)只有0.31%的錯(cuò)誤率。截至目前,已經(jīng)為美國(guó)警方破獲了幾千起案件,為辦案人員提供了有效的線索和證據(jù)。

顯然,相比美國(guó),該技術(shù)在我國(guó)的推廣、使用略為緩慢。究其原因,主要因此前國(guó)內(nèi)相關(guān)公司技術(shù)上的不成熟讓聲紋識(shí)別在公安那里吃了‘閉門羹’。“聲音是人類最自然的交互方式之一,但相比于人臉識(shí)別技術(shù),聲紋技術(shù)在超大規(guī)模識(shí)別能力上前些年一直沒(méi)有太大的突破。”易鵬宇說(shuō)道。

在他看來(lái),如今是時(shí)候全面應(yīng)用了。

從技術(shù)角度來(lái)看,目前在十萬(wàn)的聲紋庫(kù)中尋單一聲音,SpeakIn可以做到 Top10(相似值),命中率可達(dá)99%點(diǎn)幾。而據(jù)雷鋒網(wǎng)了解,目前全國(guó)最大的聲紋庫(kù)大概是五到六萬(wàn),如此可觀的識(shí)別率,幫助警方成功破案是一件非常大概率的事情。

聲紋識(shí)別如何切入安防行業(yè)

在與公安部門多次交流中,易鵬宇發(fā)現(xiàn)公安的需求非常明確,主要圍繞能“破案”展開,并且是能快速、方便、智能地破案。

他介紹說(shuō),公安部門引入聲紋識(shí)別技術(shù)之后,把案件聲音錄入系統(tǒng)(智能聲紋鑒定專家輔助系統(tǒng)),隨之與庫(kù)中語(yǔ)音相比對(duì),之后該聲音通過(guò)機(jī)器學(xué)習(xí)拆分成多個(gè)音素的頻譜圖,五分鐘后就可以判別聲音歸屬,并給出很好的排名結(jié)果(TOP值),提升辦案效率。

而這其中主要得益于兩大“功臣”:

  • 聲音采集方面有多信道的麥克風(fēng),其中裝載多信道脈沖,八個(gè)麥克風(fēng)可以收集來(lái)自不同信道的音源,包括微信、電話、手機(jī)等。易鵬宇透露,在一個(gè)設(shè)備上集成這些麥克風(fēng)非常有必要,每個(gè)信道來(lái)的聲音會(huì)有細(xì)微的差別,通過(guò)該技術(shù)后,無(wú)論是移動(dòng)3G信號(hào),還是移動(dòng)4G信號(hào),系統(tǒng)都可以精確區(qū)分。

  • 另一塊是軟件系統(tǒng),名為鑒定工作站。有聲音的采集、輸入、比對(duì)、鑒定和結(jié)果的輸入,后面還有一套本地部署的私有云服務(wù)作支撐。

總體而言,最終SpeakIn為公安客戶提供的是一套完整的解決方案及服務(wù)。

聲紋識(shí)別可用性如何?

聲智科技CEO陳孝良博士此前接受雷鋒網(wǎng)專訪時(shí)曾表示,現(xiàn)在大部分研究都是有關(guān)動(dòng)態(tài)聲紋實(shí)時(shí)檢測(cè),動(dòng)態(tài)檢測(cè)的方法自然要利用靜態(tài)檢測(cè)的各種原理方法,同時(shí)也需要增加其他很多算法, 比如VAD、降噪、去混響等。VAD的目的是檢測(cè)是不是人的聲音,降噪和去混響是排除環(huán)境干擾,這不僅對(duì)于聲紋檢測(cè)很中重要,對(duì)于語(yǔ)音識(shí)別更加重要。    

VAD常用兩個(gè)方法,基于能量檢測(cè)和LTSD(Long-Term Spectral Divergence),當(dāng)前用的較多是LTSD,另外特征提取方面還需要:動(dòng)態(tài)時(shí)間規(guī)整 (DTW)、矢量量化 (VQ)、支持向量機(jī) (SVM),模型方面則需要隱馬爾可夫模型 (HMM)和高斯混合模型 (GMM)。

雖然聲紋識(shí)別的唯一性很好,但實(shí)際上現(xiàn)有的設(shè)備和技術(shù)仍然很難做出準(zhǔn)確分辨,特別是人的聲音還具有易變性,易受身體狀況、年齡、情緒等的影響,主要包括:

1、外界噪音;

2、多人說(shuō)話;

3、身體狀況;

4、情緒影響。

就此,易鵬宇也坦承,聲紋識(shí)別技術(shù)的應(yīng)用對(duì)于環(huán)境的要求的確比較苛刻,噪音干擾等問(wèn)題仍是聲音領(lǐng)域的難點(diǎn)。(因?yàn)椴粌H對(duì)聲紋,語(yǔ)音語(yǔ)義識(shí)別也面臨著噪聲等問(wèn)題)

他同時(shí)也強(qiáng)調(diào)說(shuō),聲紋識(shí)別在智能硬件等領(lǐng)域應(yīng)用充當(dāng)娛樂(lè)功能;用作公安、金融等領(lǐng)域,認(rèn)證手段也并非獨(dú)立或者優(yōu)先使用,它與其他生物識(shí)別方式是并存的。不同類型的生物識(shí)別各有優(yōu)勢(shì),很多時(shí)候都是配合使用,多了一道屏障,絕非當(dāng)且僅當(dāng)。

值得一提的是,隨著技術(shù)的不斷成熟,公安部為采購(gòu)這些設(shè)備還正式頒布了《安防聲紋識(shí)別應(yīng)用系統(tǒng)技術(shù)要求》的行業(yè)標(biāo)準(zhǔn)。換言之,聲音也是可以作為證據(jù)進(jìn)行鑒定的。

小結(jié)

“不同于人臉識(shí)別的大規(guī)模數(shù)據(jù)庫(kù),聲紋識(shí)別的難點(diǎn)在于目前聲紋庫(kù)的規(guī)模還有待擴(kuò)充;另外,在聲音領(lǐng)域還有類似雞尾酒會(huì)這樣的技術(shù)難關(guān)需要攻克,想要做好這件事,必須保持耐心?!?/strong>易鵬宇說(shuō)道。

的確,都是深度學(xué)習(xí)基于數(shù)據(jù)驅(qū)動(dòng)的模型,與人臉識(shí)別一樣,聲紋識(shí)別的訓(xùn)練也需要龐大的數(shù)據(jù)積累及對(duì)數(shù)據(jù)的精確標(biāo)注。

而相比人臉識(shí)別,聲紋識(shí)別難上加難。

聲紋識(shí)別訓(xùn)練庫(kù)的建立,至少要保證性別比例分布為50%±5%,包含有不同年齡段、不同地域、不同口音、不同職業(yè)。同時(shí),測(cè)試樣本應(yīng)該涵蓋文本內(nèi)容是否相關(guān)、采集設(shè)備、傳輸信道、環(huán)境噪音、錄音回放、聲音模仿、時(shí)間跨度、采樣時(shí)長(zhǎng)、健康狀況和情感因素等影響聲紋識(shí)別性能的主要因素。

也就是說(shuō),聲紋識(shí)別對(duì)數(shù)據(jù)的要求其實(shí)比語(yǔ)音識(shí)別還要高很多,這條路會(huì)很難。但慶幸的是,我國(guó)目前也有像SpeakIn這樣的AI初創(chuàng)公司在堅(jiān)持做拓荒者。用易鵬宇的話說(shuō),“這不正是創(chuàng)業(yè)者需要做的事嗎?”

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

分享:
相關(guān)文章

編輯

關(guān)注AI+。(微信號(hào):ZDmatt)
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄