Amazon開放Polly和Lex，為何語音交互技術(shù)的迭代如此之快？| 深度

本文作者：陳孝良

2016-12-05 12:17

導(dǎo)語：亞馬遜AWS開放兩項語音交互技術(shù)服務(wù)并且全面收費，為何語音交互技術(shù)的迭代如此之快？

雷鋒網(wǎng)按：本文作者陳孝良，工學(xué)博士，聲智科技創(chuàng)始人。雷鋒網(wǎng)獨家文章。

11月30號，亞馬遜的AWS發(fā)布了三項人工智能技術(shù)服務(wù)：Amazon Rekognition，Amazon Polly和Amazon Lex。其中，除了Amazon Rekognition屬于圖像識別技術(shù)，其他兩項服務(wù)都是語音交互的鏈條。Amazon Polly 利用機(jī)器學(xué)習(xí)技術(shù)，能夠快速實現(xiàn)從文本到語音的轉(zhuǎn)換。Amazon Lex 就是亞馬遜的人工智能助手 Alexa 的內(nèi)核，而 Alexa 已經(jīng)被應(yīng)用于亞馬遜的 Echo 系列智能音箱。

根據(jù)AWS服務(wù)網(wǎng)頁的示例展示和實際調(diào)用，Polly 的發(fā)音與人聲已經(jīng)非常相像，很多時候已經(jīng)很難分辨機(jī)器與人聲的界限。不僅如此，Polly 還能夠按照語境對同形異義詞的發(fā)音進(jìn)行區(qū)分，比如說，在 “I live in Seattle” 和 “Live from New York” 這兩個不同的語境下，單詞 “Live” 的發(fā)音是不同的，而 Polly 在發(fā)音過程中就能夠很好把握它們之間的區(qū)別。Amazon Polly 共擁有 47 種男性或女性的發(fā)音，支持 24 種語言，遺憾的是目前還不支持漢語。

Amazon開放Polly和Lex，為何語音交互技術(shù)的迭代如此之快？| 深度

相對Amazon的節(jié)奏，Google似乎慢了許多，早在9月初，Google的DeepMind實驗室公布了其在語音合成領(lǐng)域的最新成果WaveNet，一種原始音頻波形深度生成模型，能夠模仿人類的聲音，生成的原始音頻質(zhì)量優(yōu)于目前常用的語音合成方法，包括參數(shù)化合成（Parameric TTS）與拼接式合成（Concatenative TTS）。

參數(shù)化語音合成是最常用也是歷史最悠久的方法，就是利用數(shù)學(xué)模型對已知的聲音進(jìn)行排列、組裝成詞語或句子來重新創(chuàng)造聲音數(shù)據(jù)。當(dāng)前機(jī)器人的發(fā)音主要就是采用的這種方法，不過參數(shù)化合成的語音聽起來總是不自然，真的就像機(jī)器發(fā)出的聲音。

另外一種就是拼接式語音合成，先錄制單一說話者的大量語音片段，建立一個大型語料庫，然后簡單地從中進(jìn)行選擇并合成完整的大段音頻、詞語和句子。我們有時會聽到機(jī)器模仿某些明星的聲音，其背后技術(shù)就是這種方法。但是這種方法要求語料庫非常大，而且處理不好就經(jīng)常產(chǎn)生語音毛刺和語調(diào)的詭異變化，并且無法調(diào)整語音的抑揚(yáng)頓挫。

WaveNet則引入了一種全新的思路，區(qū)別于上面兩種方法，這是一種從零開始創(chuàng)造整個音頻波形輸出的技術(shù)。WaveNet利用真實的人類聲音剪輯和相應(yīng)的語言、語音特征來訓(xùn)練其卷積神經(jīng)網(wǎng)絡(luò)，讓其能夠辨別語音和語言的模式。WaveNet的效果是驚人的，其輸出的音頻明顯更接近自然人聲。

WaveNet技術(shù)無疑是計算機(jī)語音合成領(lǐng)域的一大突破，在業(yè)界也引起了廣泛討論。但是其最大缺點就是計算量太大，而且還存在很多工程化問題。但是短短3個多月，亞馬遜就已經(jīng)憑借Echo的數(shù)據(jù)和技術(shù)的快速迭代，搶先將類似的技術(shù)應(yīng)用到產(chǎn)品之中，而且正式開放給AWS用戶進(jìn)行使用和測試。

更為重要的是，亞馬遜同步正式開放了Amazon Lex的服務(wù)，Lex 能夠幫助用戶建立可以進(jìn)行多重步驟的會話應(yīng)用，開發(fā)者可以通過它來打造自己的聊天機(jī)器人，并將其集成到自己開發(fā)的 Web 網(wǎng)頁應(yīng)用或適用于移動端的 App 中去。它也可以被應(yīng)用于提供信息、增強(qiáng)程序功能，甚至用來控制無人機(jī)、機(jī)器人或玩具等。

這就很有意思了，從下面一張語音交互的技術(shù)鏈條來梳理一下亞馬遜的策略。亞馬遜首先從語音識別公司 Nuance 挖了一批人才，2011年又收購了兩家語音技術(shù)創(chuàng)業(yè)公司 Yap 和 Evi，實現(xiàn)了語音識別的技術(shù)布局。隨后啟動了適應(yīng)遠(yuǎn)場語音交互Echo產(chǎn)品的研發(fā)工作，并在2015年和2016年成為了最成功的智能硬件產(chǎn)品。Echo產(chǎn)品幫助亞馬遜實現(xiàn)了以麥克風(fēng)陣列為核心技術(shù)的硬件終端技術(shù)的布局。這兩項技術(shù)的布局積累，幫助亞馬遜快速發(fā)展，其語音助手團(tuán)隊快速拓展到千人規(guī)模，憑借龐大的數(shù)據(jù)和深厚的人才積累，亞馬遜在智能交互領(lǐng)域持續(xù)發(fā)力，擁有更好體驗的TTS和NLP也實現(xiàn)了快速迭代，奠定了亞馬遜在智能語音交互應(yīng)用領(lǐng)域的領(lǐng)先地位。

Amazon開放Polly和Lex，為何語音交互技術(shù)的迭代如此之快？| 深度

事實上，從今年下半年語音交互市場的突然爆發(fā)，幾乎每隔一個多月，語音交互的效果都會出現(xiàn)較大的提升。那么為何語音交互技術(shù)的迭代會如此迅速？可以從下面幾點來窺得一斑：

1、語音交互技術(shù)鏈條的成熟

深度學(xué)習(xí)帶給了語音識別巨大的進(jìn)步，但是以Siri為代表的手機(jī)語音交互一直不溫不火，直到Echo和車載這類智能設(shè)備的出現(xiàn)，語音識別才突破手機(jī)的限制，真正落地到真實的垂直場景。這個轉(zhuǎn)變不僅僅是場景的轉(zhuǎn)變?nèi)绱撕唵?，實際上這從認(rèn)知和技術(shù)上都是一個巨大的變化。真實場景的語音識別面向的是真正用戶，因此能否滿足用戶需求就是一個關(guān)鍵問題。當(dāng)前的用戶對于人工智能的要求其實并不高，而是希望確實能夠解決一些具體問題，但是顯然通用的語音交互總是伴隨著智慧的概念，根本就無法做到令用戶滿意。因此語音交互的落地首先就要考慮是否能夠先服務(wù)好用戶，這是一個關(guān)鍵的認(rèn)知變化，而且基于這種認(rèn)知，語音交互的免費策略似乎就不重要了，用戶更為關(guān)注的是性能而非低價。另外一點就是技術(shù)鏈條的成熟，語音識別從手機(jī)轉(zhuǎn)向垂直場景，需要解決遠(yuǎn)場語音識別和場景語言理解的問題，亞馬遜率先解決了這些問題，國內(nèi)科大訊飛和聲智科技也隨后補(bǔ)齊了這個鏈條。目前來看，智能語音交互的技術(shù)鏈條趨于成熟，已經(jīng)不存在較大的障礙。

2、真實場景數(shù)據(jù)規(guī)模的擴(kuò)大

隨著Echo的熱賣，對于場景交互尤為重要的真實數(shù)據(jù)急劇增加，原先訓(xùn)練可能只有幾千或者幾萬個小時，但是亞馬遜已經(jīng)從已售設(shè)備中獲取了幾千萬的數(shù)據(jù)，而當(dāng)前的訓(xùn)練已經(jīng)是十萬級數(shù)據(jù)的規(guī)模，將來百萬級的數(shù)據(jù)訓(xùn)練也會出現(xiàn)。事實上，這些龐大的數(shù)據(jù)中囊括了用戶時間長度和空間維度的信息，這是手機(jī)時代絕對做不到的，從這些豐富信息之中，即便簡單搜索提升的效果都是驚人的。

3、云端計算能力的不斷提高

擁有了龐大的數(shù)據(jù)量，自然就急需要計算能力的不斷提升，前幾天Intel召開發(fā)布會，雷鋒網(wǎng)現(xiàn)場也做了直播，CPU和GPU的綜合計算能力再次提升了20多倍，這相當(dāng)于原先需要訓(xùn)練20天的數(shù)據(jù)，現(xiàn)在可能不到1天就能完成，這是語音交互產(chǎn)業(yè)鏈條的根本性保證。

4、深度學(xué)習(xí)人才聚集的效應(yīng)

技術(shù)、數(shù)據(jù)、計算鏈條的相對完善，核心還需要人才的驅(qū)動，而隨著人工智能的熱潮，不斷有更多相關(guān)人才從科院機(jī)構(gòu)和院校走出來加入這個行業(yè)。創(chuàng)業(yè)公司的競爭是可怕的，這群大牛才華橫溢，卻沒日沒夜的拼搏，其效率提升到其他任何時代可能都難以匹及的程度。

總之，智能語音交互這個鏈條已經(jīng)具備了大規(guī)模普及的基礎(chǔ)，等待的只是用戶習(xí)慣的改變，而這種改變正在逐步發(fā)生。可預(yù)見的幾年，語音交互應(yīng)該相對于其他人工智能技術(shù)，應(yīng)該是最先落地的一種技術(shù)，而且其迭代的速度可能會超過我們的預(yù)期。但是語音交互仍然還有很多問題需要解決，包括終端技術(shù)的低功耗和集成化、語音識別的場景化和一體化，以及語言理解的準(zhǔn)確性和引導(dǎo)性。

未來幾年，智能語音交互的迭代至少還要解決如下幾個問題：

一是如何基于用戶提出的多種多樣的、基于情感的、語意模糊的需求進(jìn)行深刻分析，精確理解用戶的實際需求；
二是如何將各種結(jié)構(gòu)化、非結(jié)構(gòu)化、半結(jié)構(gòu)化的知識進(jìn)行組織與梳理，最終以結(jié)構(gòu)化、清晰化的知識形式完整地呈現(xiàn)給用戶；
三是如何猜測用戶可能會有什么未想到、未提出的需求，從而先人一步為用戶提供相關(guān)的擴(kuò)展信息；
四是如何將信息進(jìn)行有效地組織與整理，以條理化、簡潔化、直接化的形式呈現(xiàn)給用戶。

談及最后一個問題，又不得不說下亞馬遜Echo為何要考慮加個7寸屏了，這雖然會使Echo的品類屬性減弱，但是在AR還沒有發(fā)展起來之前，確實也沒有更好的辦法。畢竟Echo缺少一個使得人機(jī)交互更完整的重要的組件——視覺交互，沒有用戶界面或上下文元素的基于語音交互的系統(tǒng)是不完整。用戶可以通過聊天的方式來播放音樂、定時、控制燈光，獲得新聞頭條，然而當(dāng)用戶在線訂單想比較一下兩種產(chǎn)品的價格，各種性能參數(shù)，或者想看一下未來一周天氣預(yù)報的溫度趨勢，用戶目前來說還是需要一塊屏。正是基于這種考慮，聲智科技提供的智能音箱解決方案中，恰好有一個型號也是搭配了7寸顯示屏。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

7人收藏

相關(guān)文章

陳孝良

專欄作者

聲智科技創(chuàng)始人兼CEO，中科院聲學(xué)所博士

掃描關(guān)注作者微信

發(fā)私信

當(dāng)月熱門文章

Amazon開放Polly和Lex，為何語音交互技術(shù)的迭代如此之快？| 深度

Amazon開放Polly和Lex，為何語音交互技術(shù)的迭代如此之快？| 深度