4
本文作者: 焱真人 | 2014-12-03 11:00 |
提及語音識別,就不能不說Nuance,就像提到PC處理器不能跨過intel,智能手機SOC不能忽略高通,Nuance有著輝煌的歷史,曾經(jīng)在語音領域一統(tǒng)江湖,就算現(xiàn)在,仍舊是瘦死的駱駝比馬大,仍舊是全球最大的語音技術公司,專利數(shù)量和市場份額都遙遙領先。蘋果iPhone手機的虛擬語音助手Siri(風傳放棄)、三星的語音助手S-Voice、各大航空公司和頂級銀行的自動呼叫中心和虛擬在線語音助手,都采用了Nuance的技術。Nuance曾經(jīng)很熱門,三星和蘋果都和它傳過緋聞,都要收購它,不知道為什么,都無疾而終。
Nuance的語音技術是以統(tǒng)計推斷方法為基礎,著眼于音素(音節(jié)的聲音)和語境來識別話語。在識別的方面,在引擎和算法技術方面Nuance領先一個層次。畢竟有著多年的積累。
但是,在具體應用上,差距就沒有那么大了——語音識別技術并非高不可攀,好的語音識別系統(tǒng),很大程度上依靠經(jīng)驗,專利和算法什么的并沒有多重要。所以只要Google們挖到牛人,自主研發(fā)出不遜于Nuance的語音識別技術并非難事——因為大家的純識別率都在一個水平線上,差不多都達到了當前技術(主要是Nuance采用的技術)的極限,差距不再可感,但再往上走,如果基于當前的技術,路會越走越窄。如果考慮到周圍環(huán)境的噪音、用戶發(fā)音不準、方言等等因素,這種技術的前景并不樂觀。這個時候就要從另外一個角度考慮問題了——語義理解。
舉一個例子,張飛張翼德在長坂坡嚎了一嗓子,我想,五湖四海出身的曹軍們沒有多少人能辨清楚張三爺?shù)拿恳粋€字(就不信漢朝沒有方言,就不信張飛說話不方言,就不信有多少人能聽得懂張飛的方言),他們沒有100%聽清楚,但是,他們聽懂了,然后害怕了,于是,撤退了。為張飛的名聲添磚加瓦。
在日常生活當中,如果只從語音出發(fā),我們根本沒有可能聽懂XX牌普通話,但是我們還是聽懂了,更能用另一種牌子的普通話和他交流。這就涉及到語義理解。
關于語義理解,目前一門技術正火,神經(jīng)網(wǎng)絡。這是一種十分炫酷的技術,將機器學習的方式模仿人類大腦的神經(jīng)元,當處理的語言越來越多時,這種網(wǎng)絡就可以逐漸理解語言。實驗結果發(fā)現(xiàn),這種技術可使得精確度提升25%以上,這是一個巨大的飛躍,因為這個行業(yè)只需要提升5%就具備革命意義。目前,谷歌的Google Now、微軟的Cortana都采用了這種技術。人工智能大師杰弗里·希爾頓(Geoffrey Hinton)在2013年初加盟谷歌。此外,谷歌還挖走了Nuance的一些職員,其中包括在2004年挖走Nuance聯(lián)合創(chuàng)始人邁克·科恩(Mike Cohen),讓他出任谷歌的語音技術總監(jiān)。至于微軟,我只有一句話,微軟研究院里的大牛們真的是大牛啊。感興趣的可以查一查微軟在這方面的技術。
對于Google而言,語音是生死攸關的大事。想象一下,十年或者五年后的某一天,我想登錄雷鋒網(wǎng),可我一如既往的記不住雷鋒的域名,只需要對著麥說一句:“登錄雷鋒網(wǎng)”,如果我想搜索什么東西,直接說就可以了。如果沒有語音服務,那么,Google如何自處?微軟的bing會不會咸魚翻身?所以,Google有必要自己做。這種涉及生死的技術,還是掌握在自己手里比較踏實。
Google和微軟都參合了,蘋果當然不會落后。來自Wired 的消息,蘋果正在著手更換掉 Nuance,打算用自己研發(fā)的語音識別技術,最快可能在iOS 9中亮相。在過去幾年,蘋果不僅吸納了Siri的語音技術人才,更是將Nuance公司的多名高級語音研究人員挖角過來,包括了前研發(fā)副總裁Larry Gillick,以及來自微軟語音識別項目高管Alex Acero,后者在微軟工作達 20 年之久。蘋果打算利用神經(jīng)網(wǎng)絡來提升語音識別率,微軟研究部門主管 Peter Lee 認為,蘋果大約需要花6個月才能趕上Google 和微軟。2013年,蘋果悄悄收購了一家語音識別技術公司Novauris Technologies,價格未知。Novauris公司以語音識別著稱,由其推出的產(chǎn)品和語音識別系統(tǒng)并非簡單的識別單個的詞句,而是理解上下文。Novauris 也成推出一個名為 Novasystem 的分布式服務器語音識別系統(tǒng),可同時處理多個并發(fā)語音請求,識別完整的句子,并分析音節(jié)結構。
說完國外,再說說國內。
科大訊飛是nuance的國內版,同樣的一覽眾山小,當然,國內的語音識別企業(yè)不只科大訊飛一家,還有中科信利,尚科語音,捷通華聲等等。百度、騰訊都在打造自己的語音團隊。百度看起來最高大上。吳恩達加盟,擔任百度的首席科學家,負責百度研究院,他的研究領域就是機器學習和人工智能,研究重點是深度學習(deep learning)。深度學習被認為是當前的機器學習算法里最接近人腦思維的一種。吳恩達也是牛人一枚。
看過國外百舸爭流,再對比國內的欣欣向榮,在不入流的算命先生都能得出結論,語音是個大熱門,是未來的趨勢。
這個趨勢是實實在在的,不是吹起來的泡沫。
人類打成為人類以來就使用聲音,聲音已經(jīng)融入我們的身體,成為一種本能,它是最優(yōu)的表達方式,這也就是為什么iPhone4s能夠在普遍看衰的情況下大賣的關鍵,所有人都低估了siri,低估了人們對人機交互模式從鍵盤升級到聲音的渴望。
在未來,也許就是不久的未來,智能家居(通過微軟的cortana,已經(jīng)可以實現(xiàn)語音開燈關燈拉窗簾。這不是Google now和siri無能,完全是因為微軟開放了API,Google now和siri沒有開放)、駕駛等等領域。人機交互的領域越來越廣,語音的前景必將大到不敢想象。想象一下,當互聯(lián)網(wǎng)發(fā)展到無處不在時,人們隨時隨地都在互聯(lián)網(wǎng)之中,人機交互甚至可能會是時時刻刻,語音會是一個多么大的市場。
什么?你說腦波?
我覺得腦波這玩意和幸福、上帝一樣,你相信它存在,它就存在。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉載。詳情見轉載須知。