丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給陳孝良
發(fā)送

0

語(yǔ)音交互的痛點(diǎn),為什么扎克伯格精心打造的AI“賈維斯”還會(huì)出糗?

本文作者: 陳孝良 2016-12-26 13:19
導(dǎo)語(yǔ):體驗(yàn)扎克伯格“賈維斯”的尷尬,也正是當(dāng)前語(yǔ)音交互技術(shù)升級(jí)期的尷尬。

雷鋒網(wǎng)按:作者陳孝良,博士,聲智科技創(chuàng)始人,曾任中科院聲學(xué)所副研究員和信息化辦公室主任,中科院上海高等研究院客座,北京市公安局首屆網(wǎng)絡(luò)應(yīng)急專家,主要從事聲學(xué)信號(hào)處理和 GPU 深度學(xué)習(xí)算法研究工作。

最近扎克伯格在Facebook上傳的視頻---其驚心打造的AI管家“賈維斯”著實(shí)吸引了不少眼球,再次喚起了人們對(duì)人工智能未來(lái)的遐想和期望。以下是其在Facebook上的視頻,還沒(méi)有看的朋友可以戳進(jìn)來(lái)看一下.

扎克伯格Facebook展示AI語(yǔ)音管家“賈維斯”的視頻

當(dāng)記者到扎克伯格家中真實(shí)體驗(yàn)的時(shí)候,“賈維斯”似乎并不給力,不僅連續(xù)多次呼叫“賈維斯”才有反應(yīng),而且還經(jīng)常無(wú)法正確執(zhí)行命令,特別是“賈維斯”似乎更不愛(ài)聽(tīng)扎克伯格夫人的命令,唯一讓人寬慰的就是在播放歌曲方面還差強(qiáng)人意。

為什么會(huì)出現(xiàn)這個(gè)情況?扎克伯格在博客中坦誠(chéng)了問(wèn)題:類似手機(jī)近場(chǎng)訓(xùn)練的AI和類似Echo可以響應(yīng)從任何角度命令的AI是不同的,后者顯然更加復(fù)雜而且短期內(nèi)更適合垂直場(chǎng)景交互而不是通用語(yǔ)音交互。

事實(shí)上,體驗(yàn)扎克伯格“賈維斯”的尷尬,也正是當(dāng)前語(yǔ)音交互技術(shù)升級(jí)期的尷尬。語(yǔ)音交互是人機(jī)交互最主要的方式之一,包括了聲學(xué)處理、語(yǔ)音識(shí)別、語(yǔ)義理解和語(yǔ)音合成等核心技術(shù)。

聲學(xué)處理主要是仿真人類的耳朵,保證機(jī)器能夠聽(tīng)得準(zhǔn)真實(shí)環(huán)境下人的聲音,語(yǔ)音識(shí)別則是把聽(tīng)到的人聲翻譯成文字,語(yǔ)義理解則分析這些文字的意義,語(yǔ)音合成就把機(jī)器要表達(dá)的文字翻譯成語(yǔ)音。這四項(xiàng)技術(shù)雖然獨(dú)立發(fā)展,但實(shí)際上無(wú)法割裂,同時(shí)在其他技術(shù)的配合下,才能形成一次語(yǔ)音交互的完整鏈條。

從當(dāng)前的技術(shù)水平來(lái)看,這四項(xiàng)技術(shù)已經(jīng)達(dá)到了商業(yè)初級(jí)可用的階段,但是距離我們滿意還應(yīng)該有3-5年時(shí)間的距離。即便是被國(guó)內(nèi)幾家公司號(hào)稱最為成熟的語(yǔ)音識(shí)別,其實(shí)也在近場(chǎng)到遠(yuǎn)場(chǎng)的技術(shù)升級(jí)期。

以Siri為代表的近場(chǎng)語(yǔ)音識(shí)別已經(jīng)發(fā)展了60多年,特別是在2009年以后借助深度學(xué)習(xí)有了實(shí)質(zhì)性提高,但是正如扎克伯格所說(shuō)的,當(dāng)真正產(chǎn)品落地的時(shí)候,我們發(fā)現(xiàn)用戶真正需要的卻是類似Echo所倡導(dǎo)的遠(yuǎn)場(chǎng)語(yǔ)音識(shí)別。顯然,這又是一個(gè)嶄新的技術(shù)領(lǐng)域,因?yàn)槭耙艟嚯x的擴(kuò)大帶來(lái)的問(wèn)題不僅僅是語(yǔ)音信號(hào)的衰減,而且還帶來(lái)了復(fù)雜的真實(shí)環(huán)境以及復(fù)雜的用戶習(xí)慣。

語(yǔ)音交互的痛點(diǎn),為什么扎克伯格精心打造的AI“賈維斯”還會(huì)出糗?

以Siri為代表的近場(chǎng)語(yǔ)音識(shí)別要求必須是低噪聲、無(wú)混響、距離聲源很近的場(chǎng)景,比如用戶總是要對(duì)著手機(jī)講話才能獲得符合近場(chǎng)語(yǔ)音識(shí)別要求的聲音信號(hào),同時(shí)還要求用戶滿足標(biāo)準(zhǔn)發(fā)音,其識(shí)別率才有可能達(dá)到95%以上。但是,若聲源距離距離較遠(yuǎn),并且真實(shí)環(huán)境存在大量的噪聲、多徑反射和混響,導(dǎo)致拾取信號(hào)的質(zhì)量下降,這就會(huì)嚴(yán)重影響語(yǔ)音識(shí)別率。同樣的,我們?nèi)祟愒趶?fù)雜遠(yuǎn)場(chǎng)環(huán)境的表現(xiàn)也不如兩兩交耳的竊竊私語(yǔ)。

通常近場(chǎng)語(yǔ)音識(shí)別引擎在遠(yuǎn)場(chǎng)環(huán)境下,若沒(méi)有聲學(xué)處理的支持,比如麥克風(fēng)陣列技術(shù)的適配,其真實(shí)場(chǎng)景識(shí)別率實(shí)際不足60%。而且,由于真實(shí)場(chǎng)景總是有多個(gè)聲源和環(huán)境噪聲疊加,比如經(jīng)常會(huì)出現(xiàn)周邊噪聲干擾和多人同時(shí)說(shuō)話的場(chǎng)景,這就更加重了語(yǔ)音識(shí)別的難度。因?yàn)楫?dāng)前的語(yǔ)音識(shí)別引擎,都是單人識(shí)別模式,無(wú)法同時(shí)處理多人識(shí)別的問(wèn)題。

顯然,扎克伯格的“賈維斯”過(guò)渡到以Echo、機(jī)器人或者汽車(chē)為主要場(chǎng)景的時(shí)候,近場(chǎng)語(yǔ)音識(shí)別的局限就凸顯出來(lái)。為了解決這些局限性,利用麥克風(fēng)陣列進(jìn)行聲學(xué)處理的重要性就凸顯出來(lái)。麥克風(fēng)陣列由一組按一定幾何結(jié)構(gòu)(常用線形、環(huán)形)擺放的麥克風(fēng)組成,對(duì)采集的不同空間方向的聲音信號(hào)進(jìn)行空時(shí)處理,實(shí)現(xiàn)噪聲抑制、混響去除、人聲干擾抑制、聲源測(cè)向、聲源跟蹤、陣列增益等功能,進(jìn)而提高語(yǔ)音信號(hào)處理質(zhì)量,以提高真實(shí)環(huán)境下的語(yǔ)音識(shí)別率。通常經(jīng)過(guò)聲學(xué)處理以后的真實(shí)場(chǎng)景語(yǔ)音識(shí)別率可以達(dá)到90%左右。

事實(shí)上,以麥克風(fēng)陣列為核心的聲學(xué)處理并不是什么新技術(shù),聲學(xué)本來(lái)就是一個(gè)古老的學(xué)科,而且陣列處理技術(shù)早就在軍工領(lǐng)域廣泛應(yīng)用。我們常常提到的雷達(dá)和聲納,實(shí)際上都是大規(guī)模的陣列信號(hào)處理技術(shù),這是國(guó)防對(duì)抗的耳朵,機(jī)器學(xué)習(xí)還無(wú)法取代這些傳統(tǒng)技術(shù)。

語(yǔ)音交互的痛點(diǎn),為什么扎克伯格精心打造的AI“賈維斯”還會(huì)出糗?

語(yǔ)音識(shí)別倒是50年代后才興起的新技術(shù),我國(guó)的語(yǔ)音識(shí)別研究稍晚一些,1958年才起步,當(dāng)時(shí)中國(guó)科學(xué)院聲學(xué)研究所利用電子管電路識(shí)別10個(gè)元音。由于各方面條件的限制,中國(guó)的語(yǔ)音識(shí)別研究工作一直處于緩慢發(fā)展的階段。直至1973年,中國(guó)科學(xué)院聲學(xué)研究所才開(kāi)始了計(jì)算機(jī)語(yǔ)音識(shí)別。2009年以后,由于深度學(xué)習(xí)的突破以及計(jì)算能力和數(shù)據(jù)積累,才讓語(yǔ)音識(shí)別有了近20年來(lái)最快的發(fā)展,但是這也僅僅提高了近場(chǎng)語(yǔ)音識(shí)別的效果。最近幾年才開(kāi)始興起的麥克風(fēng)陣列技術(shù)就是為了應(yīng)對(duì)遠(yuǎn)場(chǎng)自由語(yǔ)音交互的需求。

但是,麥克風(fēng)陣列技術(shù)也有很多難點(diǎn)問(wèn)題需要解決。麥克風(fēng)陣列僅實(shí)現(xiàn)了真實(shí)環(huán)境中的聲音信號(hào)處理,獲得了語(yǔ)音識(shí)別要求的聲音,機(jī)器可以聽(tīng)得見(jiàn)人的命令,但是這個(gè)命令所表示的文字和意義卻是云端所要解決的,因此端和云這兩個(gè)系統(tǒng)必須匹配在一起才能得到最好的效果。

近場(chǎng)語(yǔ)音識(shí)別當(dāng)前都是深度學(xué)習(xí)訓(xùn)練的結(jié)果,而深度學(xué)習(xí)的局限就是嚴(yán)重依賴于訓(xùn)練樣本庫(kù),若聲學(xué)處理的聲音與樣本庫(kù)不匹配則識(shí)別效果也不會(huì)提升。從這個(gè)角度應(yīng)該非常容易理解,物理世界的信號(hào)處理也并非越是純凈越好,而是越接近于訓(xùn)練樣本庫(kù)的特征越好,即便這個(gè)樣本庫(kù)的訓(xùn)練信號(hào)很差。顯然,這是一個(gè)非常難于實(shí)現(xiàn)的過(guò)程,至少要聲學(xué)處理和深度學(xué)習(xí)的兩個(gè)團(tuán)隊(duì)配合才能做好這個(gè)事情,另外聲學(xué)信號(hào)處理這個(gè)層次輸出的信號(hào)特征對(duì)語(yǔ)義理解也非常重要。不僅如此,麥克風(fēng)陣列處理信號(hào)的質(zhì)量還無(wú)法定義標(biāo)準(zhǔn),聲智科技正在盡力推動(dòng)這個(gè)事情,但是難度非常大。

從上面的描述小結(jié)來(lái)看,當(dāng)前的麥克風(fēng)陣列+近場(chǎng)語(yǔ)音識(shí)別的端云識(shí)別其實(shí)并不是理想的技術(shù)架構(gòu),因?yàn)檫@限制了將來(lái)技術(shù)的突破。麥克風(fēng)陣列+遠(yuǎn)場(chǎng)語(yǔ)音識(shí)別的方案應(yīng)該是比較理想的,但是當(dāng)前這面臨著兩個(gè)難題。

其一就是讓諸如蘋(píng)果、微軟和谷歌等巨頭放棄近場(chǎng)語(yǔ)音識(shí)別的優(yōu)勢(shì)本身就是一件很難的事情。當(dāng)年諾基亞就是因?yàn)楣δ軝C(jī)的巨大成功才導(dǎo)致不敢All in錯(cuò)過(guò)了智能機(jī)時(shí)代。所以語(yǔ)音識(shí)別領(lǐng)域才會(huì)有亞馬遜這類似乎不搭界的企業(yè)做出了迄今還算唯一成功的產(chǎn)品Echo。

其二就是遠(yuǎn)場(chǎng)標(biāo)注數(shù)據(jù)的嚴(yán)重缺乏,而且這類數(shù)據(jù)暫時(shí)還無(wú)法直接付費(fèi)買(mǎi)來(lái)。因?yàn)榈参覀児腿瞬杉蜆?biāo)注數(shù)據(jù),就很難讓大量的用戶遵循自然的方式來(lái)錄制聲音,這是人性難以避免的。這里可以做個(gè)簡(jiǎn)單的實(shí)驗(yàn),如果非專業(yè)演員,若給你個(gè)腳本,你會(huì)怎樣去朗讀或者表達(dá)呢?

“賈維斯”的喚醒也同樣面臨諸多問(wèn)題,給人工智能產(chǎn)品取個(gè)名字是當(dāng)前無(wú)法避免的問(wèn)題,這和人類取名標(biāo)示一樣,端上的聲學(xué)處理還要借助這個(gè)名字來(lái)進(jìn)行測(cè)向和后續(xù)處理。因此語(yǔ)音喚醒也直接決定了遠(yuǎn)場(chǎng)語(yǔ)音識(shí)別的效果,以Siri為代表的近場(chǎng)交互剛開(kāi)始通過(guò)人工按鍵避免了這個(gè)問(wèn)題,但是遠(yuǎn)場(chǎng)交互則無(wú)法再借助人工參與的方式實(shí)現(xiàn)。

遠(yuǎn)場(chǎng)語(yǔ)音喚醒的難度現(xiàn)在比遠(yuǎn)場(chǎng)語(yǔ)音識(shí)別還要大一些,其面臨的環(huán)境更加復(fù)雜,而且當(dāng)前還沒(méi)有更令人欣喜的技術(shù)出現(xiàn)。語(yǔ)音喚醒技術(shù)目前主要還是參數(shù)式、拼接式和訓(xùn)練式,參數(shù)式的方法主要是在芯片中應(yīng)用,也幾乎被淘汰了。拼接和訓(xùn)練其實(shí)類似,都是借助深度學(xué)習(xí)的模型實(shí)現(xiàn),只是數(shù)據(jù)來(lái)源不同而已,拼接從大庫(kù)中剪裁數(shù)據(jù)進(jìn)行訓(xùn)練,而訓(xùn)練則直接對(duì)用戶自定義的喚醒詞進(jìn)行大規(guī)模數(shù)據(jù)采集和標(biāo)注,然后再進(jìn)行深度學(xué)習(xí)訓(xùn)練。顯然訓(xùn)練的喚醒效果會(huì)更好,這兼顧了用戶叫喚醒詞的語(yǔ)速、語(yǔ)調(diào)和口音,但是這項(xiàng)技術(shù)的成本非常大,需要覆蓋的用戶群體非常大,而且和上面識(shí)別中提到的難點(diǎn)一樣,采集的數(shù)據(jù)總是容易受到用戶刻意發(fā)音的干擾,實(shí)際上也很難做到真實(shí),但是不斷的迭代會(huì)快速提升語(yǔ)音喚醒的效果。

總的來(lái)說(shuō),“賈維斯”的尷尬其實(shí)是個(gè)普遍現(xiàn)象,遠(yuǎn)場(chǎng)語(yǔ)音喚醒暫時(shí)還是個(gè)世界難題。這不是機(jī)器聽(tīng)覺(jué)達(dá)到人類水平就能令人滿意的,假如突然有個(gè)老外叫我們的中文名字,我們的反應(yīng)或許也不會(huì)太過(guò)敏感。事實(shí)就是這樣,我們還暫且不提遠(yuǎn)場(chǎng)語(yǔ)音喚醒所要面對(duì)的復(fù)雜環(huán)境和多人喚醒問(wèn)題,當(dāng)前機(jī)器還只能勉強(qiáng)響應(yīng)聲音最大的喚醒,還很難真的讓機(jī)器自主決策響應(yīng),這還需要時(shí)間去積累數(shù)據(jù)和迭代算法。另外也要強(qiáng)調(diào)下,語(yǔ)音喚醒和識(shí)別率并非只有一個(gè)詞錯(cuò)率WER指標(biāo),還有個(gè)重要的虛警率指標(biāo),稍微有點(diǎn)聲音就亂識(shí)別也不行,另外還要考慮閾值的影響,這都是遠(yuǎn)場(chǎng)語(yǔ)音交互技術(shù)中的陷阱。

語(yǔ)義理解在當(dāng)前遠(yuǎn)場(chǎng)語(yǔ)音交互的地位暫時(shí)還不是太高,因?yàn)榍懊嫣岬降母黜?xiàng)技術(shù)實(shí)際上還在成熟之中,假如10個(gè)字錯(cuò)了3個(gè)字,實(shí)際上語(yǔ)義理解就很難做了,特別是當(dāng)前遠(yuǎn)場(chǎng)語(yǔ)音交互中的語(yǔ)境缺失更是最大的障礙。舉個(gè)例子,我們隨機(jī)錄制一句純凈語(yǔ)音進(jìn)行了一個(gè)實(shí)驗(yàn)(簡(jiǎn)單的比如人名),事實(shí)上平均超過(guò)60%的人無(wú)法準(zhǔn)確寫(xiě)出其中對(duì)應(yīng)的正確中文。但是語(yǔ)義問(wèn)題倒是有個(gè)工程化的解決方案,就是限制垂直場(chǎng)景,比如音箱、車(chē)機(jī)和安防等領(lǐng)域,這些場(chǎng)景單靠搜索也能解決用戶控制機(jī)器和簡(jiǎn)單對(duì)話的問(wèn)題。

語(yǔ)音合成也是一個(gè)很大的麻煩,我以前有篇文章做了分析,從參數(shù)合成到拼接合成,以及谷歌的Wavenet和Amazon的Polly。我們現(xiàn)在的語(yǔ)音合成技術(shù)實(shí)際上越來(lái)越接近人類自然的流暢,但是還無(wú)法做到語(yǔ)調(diào)和語(yǔ)速的自適應(yīng)變化。比如機(jī)器生氣了應(yīng)該是什么聲音?機(jī)器害怕了又該怎樣?等等諸如此類的,這樣一算我們就明白了PPT公司所謂的人工智能又有多么可笑了。千萬(wàn)先別談理解語(yǔ)言這個(gè)人類最為復(fù)雜的進(jìn)化成果,就把我們所提到的種種問(wèn)題做到用戶滿意真的就是謝天謝地了,也不要心存僥幸,這可能需要很多人很長(zhǎng)的時(shí)間或許才有些收獲。

遠(yuǎn)場(chǎng)語(yǔ)音交互還面臨一個(gè)很大的難題,這就是軟硬一體化的問(wèn)題,實(shí)際上很少有一項(xiàng)技術(shù)類似遠(yuǎn)場(chǎng)語(yǔ)音交互這樣要求的鏈條如此之長(zhǎng)。從硬件、算法、軟件到云端,缺一個(gè)鏈條遠(yuǎn)場(chǎng)語(yǔ)音交互的效果就無(wú)法體現(xiàn)出來(lái)。硬件是所有算法和軟件的基礎(chǔ),當(dāng)前麥克風(fēng)陣列的硬件體系還不成熟,包括麥克風(fēng)器件和相關(guān)芯片,特別是在控制成本的前提下,很難達(dá)到語(yǔ)音信號(hào)處理的要求,這也是諸如亞馬遜、谷歌甚至微軟這類企業(yè)不得不做硬件的根本原因。硬件遲早會(huì)類似PC和手機(jī)一樣趨于成熟,但是推動(dòng)產(chǎn)業(yè)鏈條的升級(jí),特別是制造業(yè)的升級(jí)不是一朝一夕的事情,這個(gè)周期也必須要等待成熟。但是如果僅僅等待,很可能就是起大早趕晚集錯(cuò)過(guò)了。

因此,不難理解為何扎克伯格的“賈維斯”宣傳視頻與真實(shí)體驗(yàn)之間的差別。遠(yuǎn)場(chǎng)語(yǔ)音交互中的聲學(xué)處理、語(yǔ)音喚醒、語(yǔ)音識(shí)別和語(yǔ)音合成正處在從近場(chǎng)到遠(yuǎn)場(chǎng)的技術(shù)升級(jí)期,語(yǔ)義理解更是剛生萌芽。雖然當(dāng)前讓機(jī)器理解人類語(yǔ)言暫時(shí)還看不到希望,但是至少各項(xiàng)技術(shù)已經(jīng)相對(duì)成熟,商業(yè)化的應(yīng)用則會(huì)加速這些技術(shù)的成熟周期,甚至已經(jīng)超過(guò)了芯片領(lǐng)域的摩爾定律發(fā)展速度。

相信未來(lái)3-5年期間,我們會(huì)用上可以自然語(yǔ)音交互控制的人工智能產(chǎn)品,至少也能實(shí)現(xiàn)扎克伯格視頻中所演示的效果。所以這個(gè)行業(yè)的各家應(yīng)該合作起來(lái),共建標(biāo)準(zhǔn)共享成果,共同努力開(kāi)發(fā)市場(chǎng),人工智能時(shí)代我們國(guó)內(nèi)更應(yīng)該誕生更多偉大的企業(yè)。

雷峰網(wǎng)特約稿件,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

語(yǔ)音交互的痛點(diǎn),為什么扎克伯格精心打造的AI“賈維斯”還會(huì)出糗?

分享:
相關(guān)文章

專欄作者

聲智科技創(chuàng)始人兼CEO,中科院聲學(xué)所博士
當(dāng)月熱門(mén)文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)