人臉識別大趨勢下，聲紋識別在安防行業(yè)也有春天？

本文作者：張棟

2017-11-21 14:36

導(dǎo)語：與人臉識別一樣，聲紋識別的訓(xùn)練也需要龐大的數(shù)據(jù)積累及對數(shù)據(jù)的精確標注。

每逢年末，各類融資消息多不勝數(shù)，百萬起步，上不封頂。在這其中，一條并不起眼的數(shù)千萬人民幣的融資消息引人注意。

這幾年，在市場、技術(shù)、政策等多重影響下，曾經(jīng)浮浮沉沉的AI正在各個行業(yè)普及開來。從應(yīng)用層面來看，AI初創(chuàng)公司大多以人臉識別落地；而SpeakIn（勢必可贏科技）卻另辟蹊徑以聲紋識別為刃攻克各個行業(yè)的城池壁壘，為傳統(tǒng)行業(yè)賦能，并于近期獲得新一輪千萬融資。

欲用聲紋識別攻破安防圈

SpeakIn 于2015在硅谷創(chuàng)立，聚焦聲紋生物信息ID，商業(yè)化落地主要包含四大塊：1、安防領(lǐng)域；2、民生領(lǐng)域；3、金融領(lǐng)域；4、智能硬件。針對這些場景，目前已推出多套產(chǎn)品及解決方案。

SpeakIn COO易鵬宇坦稱道，在這其中，公司戰(zhàn)略優(yōu)先級最高的當(dāng)屬安防領(lǐng)域，落地方式主要有兩種：

防止電信詐騙。如今，各地公安部門都有個人信息采集系統(tǒng)，包括人臉、指紋、聲音等信息都有錄入。如果該案件涉及到聲音辨識，便可通過該系統(tǒng)輕松找到嫌疑人。
幫助尋找丟失兒童。如果懷疑某人是被拐賣兒童，在系統(tǒng)內(nèi)輸入其聲音，只要之前有他們的視頻、聲音，通過對兩者的對比，就可判定是否是被拐賣兒童。易鵬宇解釋說，對于公安部門來說，這是一個新的手段，但會受到年齡跨度的阻礙。

而就此，今年6月，SpeakIn還與公安部門合作建立“智能聲紋系統(tǒng)聯(lián)合實驗室”，共同投入研發(fā)公安業(yè)務(wù)與安防領(lǐng)域的先進產(chǎn)品與系統(tǒng)，用聲紋識別技術(shù)為社會安定和國家安全提供服務(wù)和保障。

聲紋識別的“前世今生”

雷鋒網(wǎng)了解到，該技術(shù)最早誕生于上世紀四十年代的貝爾實驗室。它是通過對一種或多種語音信號的特征分析來達到對未知聲音辨別的目的，簡單來說就是辨別某一句話是否是某一個人說的技術(shù)。

它常常應(yīng)用于刑偵破案、罪犯跟蹤、國防監(jiān)聽、個性化應(yīng)用等等，主要抽取說話人聲音的基音頻譜及包絡(luò)、基音幀的能量、基音共振峰的出現(xiàn)頻率及其軌跡等參數(shù)表征，然后再與模式識別等傳統(tǒng)匹配方法結(jié)合進行聲紋識別。

易鵬宇告訴雷鋒網(wǎng)，一宗案件中，同時具有指紋、人臉、聲音的案件少之又少?；ヂ?lián)網(wǎng)時代下，很多犯罪行為都是通過微信、電話等網(wǎng)絡(luò)設(shè)備，聲音成為最明顯的突破口。

對此，公安部門也早已意識到。雷鋒網(wǎng)了解到，多年之前，我國就有設(shè)立聲紋識別中心，一些工作經(jīng)驗豐富的專家用一些很傳統(tǒng)的軟件通過識別聲音頻譜圖，花上五個小時、甚至十個小時去聽辨一條聲音。方言口音、輕重音、韻律特征、發(fā)音習(xí)慣、語流中的吞音現(xiàn)象、鼻韻味的發(fā)音特征、聲音基頻等等都是在聲紋專家輔助系統(tǒng)之前，人力需要判斷的聲紋特征，一個案子可能一周都聽不完，辦案效率非常低下。

即便如此，這種作業(yè)模式目前還在各個公安部門中廣泛使用。

其實，從理論上來說，聲紋就像指紋一樣，是具有唯一性的生物信息特征，該技術(shù)在美國也一直被廣泛使用。據(jù)悉，美國聯(lián)邦調(diào)查局對2000例與聲紋相關(guān)的案件進行統(tǒng)計，利用聲紋作為證據(jù)只有0.31%的錯誤率。截至目前，已經(jīng)為美國警方破獲了幾千起案件，為辦案人員提供了有效的線索和證據(jù)。

顯然，相比美國，該技術(shù)在我國的推廣、使用略為緩慢。究其原因，主要因此前國內(nèi)相關(guān)公司技術(shù)上的不成熟讓聲紋識別在公安那里吃了‘閉門羹’。“聲音是人類最自然的交互方式之一，但相比于人臉識別技術(shù)，聲紋技術(shù)在超大規(guī)模識別能力上前些年一直沒有太大的突破?！?/strong>易鵬宇說道。

在他看來，如今是時候全面應(yīng)用了。

從技術(shù)角度來看，目前在十萬的聲紋庫中尋單一聲音，SpeakIn可以做到 Top10（相似值），命中率可達99%點幾。而據(jù)雷鋒網(wǎng)了解，目前全國最大的聲紋庫大概是五到六萬，如此可觀的識別率，幫助警方成功破案是一件非常大概率的事情。

聲紋識別如何切入安防行業(yè)

在與公安部門多次交流中，易鵬宇發(fā)現(xiàn)公安的需求非常明確，主要圍繞能“破案”展開，并且是能快速、方便、智能地破案。

他介紹說，公安部門引入聲紋識別技術(shù)之后，把案件聲音錄入系統(tǒng)（智能聲紋鑒定專家輔助系統(tǒng)），隨之與庫中語音相比對，之后該聲音通過機器學(xué)習(xí)拆分成多個音素的頻譜圖，五分鐘后就可以判別聲音歸屬，并給出很好的排名結(jié)果（TOP值），提升辦案效率。

而這其中主要得益于兩大“功臣”：

聲音采集方面有多信道的麥克風(fēng)，其中裝載多信道脈沖，八個麥克風(fēng)可以收集來自不同信道的音源，包括微信、電話、手機等。易鵬宇透露，在一個設(shè)備上集成這些麥克風(fēng)非常有必要，每個信道來的聲音會有細微的差別，通過該技術(shù)后，無論是移動3G信號，還是移動4G信號，系統(tǒng)都可以精確區(qū)分。
另一塊是軟件系統(tǒng)，名為鑒定工作站。有聲音的采集、輸入、比對、鑒定和結(jié)果的輸入，后面還有一套本地部署的私有云服務(wù)作支撐。

總體而言，最終SpeakIn為公安客戶提供的是一套完整的解決方案及服務(wù)。

聲紋識別可用性如何？

聲智科技CEO陳孝良博士此前接受雷鋒網(wǎng)專訪時曾表示，現(xiàn)在大部分研究都是有關(guān)動態(tài)聲紋實時檢測，動態(tài)檢測的方法自然要利用靜態(tài)檢測的各種原理方法，同時也需要增加其他很多算法，比如VAD、降噪、去混響等。VAD的目的是檢測是不是人的聲音，降噪和去混響是排除環(huán)境干擾，這不僅對于聲紋檢測很中重要，對于語音識別更加重要。

VAD常用兩個方法，基于能量檢測和LTSD（Long-Term Spectral Divergence)，當(dāng)前用的較多是LTSD，另外特征提取方面還需要：動態(tài)時間規(guī)整 (DTW)、矢量量化 (VQ)、支持向量機 (SVM)，模型方面則需要隱馬爾可夫模型 (HMM)和高斯混合模型 (GMM)。

雖然聲紋識別的唯一性很好，但實際上現(xiàn)有的設(shè)備和技術(shù)仍然很難做出準確分辨，特別是人的聲音還具有易變性，易受身體狀況、年齡、情緒等的影響，主要包括：

1、外界噪音；
2、多人說話；
3、身體狀況；
4、情緒影響。

就此，易鵬宇也坦承，聲紋識別技術(shù)的應(yīng)用對于環(huán)境的要求的確比較苛刻，噪音干擾等問題仍是聲音領(lǐng)域的難點。（因為不僅對聲紋，語音語義識別也面臨著噪聲等問題）

他同時也強調(diào)說，聲紋識別在智能硬件等領(lǐng)域應(yīng)用充當(dāng)娛樂功能；用作公安、金融等領(lǐng)域，認證手段也并非獨立或者優(yōu)先使用，它與其他生物識別方式是并存的。不同類型的生物識別各有優(yōu)勢，很多時候都是配合使用，多了一道屏障，絕非當(dāng)且僅當(dāng)。

值得一提的是，隨著技術(shù)的不斷成熟，公安部為采購這些設(shè)備還正式頒布了《安防聲紋識別應(yīng)用系統(tǒng)技術(shù)要求》的行業(yè)標準。換言之，聲音也是可以作為證據(jù)進行鑒定的。

小結(jié)

“不同于人臉識別的大規(guī)模數(shù)據(jù)庫，聲紋識別的難點在于目前聲紋庫的規(guī)模還有待擴充；另外，在聲音領(lǐng)域還有類似雞尾酒會這樣的技術(shù)難關(guān)需要攻克，想要做好這件事，必須保持耐心?！?/strong>易鵬宇說道。

的確，都是深度學(xué)習(xí)基于數(shù)據(jù)驅(qū)動的模型，與人臉識別一樣，聲紋識別的訓(xùn)練也需要龐大的數(shù)據(jù)積累及對數(shù)據(jù)的精確標注。

而相比人臉識別，聲紋識別難上加難。

聲紋識別訓(xùn)練庫的建立，至少要保證性別比例分布為50%±5%，包含有不同年齡段、不同地域、不同口音、不同職業(yè)。同時，測試樣本應(yīng)該涵蓋文本內(nèi)容是否相關(guān)、采集設(shè)備、傳輸信道、環(huán)境噪音、錄音回放、聲音模仿、時間跨度、采樣時長、健康狀況和情感因素等影響聲紋識別性能的主要因素。

也就是說，聲紋識別對數(shù)據(jù)的要求其實比語音識別還要高很多，這條路會很難。但慶幸的是，我國目前也有像SpeakIn這樣的AI初創(chuàng)公司在堅持做拓荒者。用易鵬宇的話說，“這不正是創(chuàng)業(yè)者需要做的事嗎？”

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

1人收藏

分享：

相關(guān)文章

speakin 聲紋識別 AI 人臉識別安防

從 ICLR 2019 一覽小樣本學(xué)習(xí)最新進展！

谷歌云CEO Diane Greene的離職信：任期至明年1月，將 ...

騰訊AI Lab 8篇論文入選，從0到1解讀語音交互能力 | ...

陳江山：零一科技不只是黑科技節(jié)，而是前沿科技服務(wù) ...

專題

AI最佳掘金案列

本專題其他文章

商鵲網(wǎng)獲千萬投資，試譯寶開始商用，鄒劍宇的“譯后編輯”模式能撬動萬億蛋糕么？

AI音箱大航海時代：渡鴉如何獨辟蹊徑？

電視進入“助手時代”，暴風(fēng) AI 電視改變了什么？

不只鑒黃，這款產(chǎn)品要提供所有 AI 識別的閉環(huán)服務(wù)

宇視：灰姑娘的逆襲之旅

雅森科技陳暉：十年求索之路，醫(yī)療對 AI 的需求邊界在哪兒？

more

張棟

編輯

關(guān)注AI＋。（微信號：ZDmatt）

掃描關(guān)注作者微信

發(fā)私信

當(dāng)月熱門文章

最新文章

OpenAI 推出 GPT-4.1，撞期智譜Z.ai

DeepMind公布AI4S最新進展：DeepMind的AlphaFold一年就畫了2億個蛋白質(zhì)！

阿里通義 Qwen3 上線，開源大軍再添一名猛將

讓大模型和醫(yī)生搭檔，螞蟻AI醫(yī)療的「少數(shù)派」之路

字節(jié)游戲，重啟的 365 天

SPARK2025，騰訊游戲的焦慮與野望

熱門搜索

5G 馬斯克直播豐田 Nest 操作系統(tǒng) 路由器攝像頭教育徐小平蘋果公司

人臉識別大趨勢下，聲紋識別在安防行業(yè)也有春天？

欲用聲紋識別攻破安防圈

聲紋識別的“前世今生”

聲紋識別如何切入安防行業(yè)

聲紋識別可用性如何？

小結(jié)

AI最佳掘金案列

人臉識別大趨勢下，聲紋識別在安防行業(yè)也有春天？

聲紋識別可用性如何？