丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
智能硬件 正文
發(fā)私信給陳孝良
發(fā)送

2

Amazon開放Polly和Lex,為何語音交互技術的迭代如此之快?| 深度

本文作者: 陳孝良 2016-12-05 12:17
導語:亞馬遜AWS開放兩項語音交互技術服務并且全面收費,為何語音交互技術的迭代如此之快?

雷鋒網(wǎng)按:本文作者陳孝良,工學博士,聲智科技創(chuàng)始人。雷鋒網(wǎng)獨家文章。

11月30號,亞馬遜的AWS發(fā)布了三項人工智能技術服務:Amazon Rekognition,Amazon Polly和Amazon Lex。其中,除了Amazon Rekognition屬于圖像識別技術,其他兩項服務都是語音交互的鏈條。Amazon Polly 利用機器學習技術,能夠快速實現(xiàn)從文本到語音的轉(zhuǎn)換。Amazon Lex 就是亞馬遜的人工智能助手 Alexa 的內(nèi)核,而 Alexa 已經(jīng)被應用于亞馬遜的 Echo 系列智能音箱。

根據(jù)AWS服務網(wǎng)頁的示例展示和實際調(diào)用,Polly 的發(fā)音與人聲已經(jīng)非常相像,很多時候已經(jīng)很難分辨機器與人聲的界限。不僅如此,Polly 還能夠按照語境對同形異義詞的發(fā)音進行區(qū)分,比如說,在 “I live in Seattle” 和 “Live from New York” 這兩個不同的語境下,單詞 “Live” 的發(fā)音是不同的,而 Polly 在發(fā)音過程中就能夠很好把握它們之間的區(qū)別。Amazon Polly 共擁有 47 種男性或女性的發(fā)音,支持 24 種語言,遺憾的是目前還不支持漢語。

Amazon開放Polly和Lex,為何語音交互技術的迭代如此之快?| 深度

相對Amazon的節(jié)奏,Google似乎慢了許多,早在9月初,Google的DeepMind實驗室公布了其在語音合成領域的最新成果WaveNet,一種原始音頻波形深度生成模型,能夠模仿人類的聲音,生成的原始音頻質(zhì)量優(yōu)于目前常用的語音合成方法,包括參數(shù)化合成(Parameric TTS)與拼接式合成(Concatenative TTS)。

參數(shù)化語音合成是最常用也是歷史最悠久的方法,就是利用數(shù)學模型對已知的聲音進行排列、組裝成詞語或句子來重新創(chuàng)造聲音數(shù)據(jù)。當前機器人的發(fā)音主要就是采用的這種方法,不過參數(shù)化合成的語音聽起來總是不自然,真的就像機器發(fā)出的聲音。

另外一種就是拼接式語音合成,先錄制單一說話者的大量語音片段,建立一個大型語料庫,然后簡單地從中進行選擇并合成完整的大段音頻、詞語和句子。我們有時會聽到機器模仿某些明星的聲音,其背后技術就是這種方法。但是這種方法要求語料庫非常大,而且處理不好就經(jīng)常產(chǎn)生語音毛刺和語調(diào)的詭異變化,并且無法調(diào)整語音的抑揚頓挫。

WaveNet則引入了一種全新的思路,區(qū)別于上面兩種方法,這是一種從零開始創(chuàng)造整個音頻波形輸出的技術。WaveNet利用真實的人類聲音剪輯和相應的語言、語音特征來訓練其卷積神經(jīng)網(wǎng)絡,讓其能夠辨別語音和語言的模式。WaveNet的效果是驚人的,其輸出的音頻明顯更接近自然人聲。

WaveNet技術無疑是計算機語音合成領域的一大突破,在業(yè)界也引起了廣泛討論。但是其最大缺點就是計算量太大,而且還存在很多工程化問題。但是短短3個多月,亞馬遜就已經(jīng)憑借Echo的數(shù)據(jù)和技術的快速迭代,搶先將類似的技術應用到產(chǎn)品之中,而且正式開放給AWS用戶進行使用和測試。

更為重要的是,亞馬遜同步正式開放了Amazon Lex的服務,Lex 能夠幫助用戶建立可以進行多重步驟的會話應用,開發(fā)者可以通過它來打造自己的聊天機器人,并將其集成到自己開發(fā)的 Web 網(wǎng)頁應用或適用于移動端的 App 中去。它也可以被應用于提供信息、增強程序功能,甚至用來控制無人機、機器人或玩具等。

這就很有意思了,從下面一張語音交互的技術鏈條來梳理一下亞馬遜的策略。亞馬遜首先從語音識別公司 Nuance 挖了一批人才,2011年又收購了兩家語音技術創(chuàng)業(yè)公司 Yap 和 Evi,實現(xiàn)了語音識別的技術布局。隨后啟動了適應遠場語音交互Echo產(chǎn)品的研發(fā)工作,并在2015年和2016年成為了最成功的智能硬件產(chǎn)品。Echo產(chǎn)品幫助亞馬遜實現(xiàn)了以麥克風陣列為核心技術的硬件終端技術的布局。這兩項技術的布局積累,幫助亞馬遜快速發(fā)展,其語音助手團隊快速拓展到千人規(guī)模,憑借龐大的數(shù)據(jù)和深厚的人才積累,亞馬遜在智能交互領域持續(xù)發(fā)力,擁有更好體驗的TTS和NLP也實現(xiàn)了快速迭代,奠定了亞馬遜在智能語音交互應用領域的領先地位。

Amazon開放Polly和Lex,為何語音交互技術的迭代如此之快?| 深度

事實上,從今年下半年語音交互市場的突然爆發(fā),幾乎每隔一個多月,語音交互的效果都會出現(xiàn)較大的提升。那么為何語音交互技術的迭代會如此迅速?可以從下面幾點來窺得一斑:

1、  語音交互技術鏈條的成熟

深度學習帶給了語音識別巨大的進步,但是以Siri為代表的手機語音交互一直不溫不火,直到Echo和車載這類智能設備的出現(xiàn),語音識別才突破手機的限制,真正落地到真實的垂直場景。這個轉(zhuǎn)變不僅僅是場景的轉(zhuǎn)變?nèi)绱撕唵?,實際上這從認知和技術上都是一個巨大的變化。真實場景的語音識別面向的是真正用戶,因此能否滿足用戶需求就是一個關鍵問題。當前的用戶對于人工智能的要求其實并不高,而是希望確實能夠解決一些具體問題,但是顯然通用的語音交互總是伴隨著智慧的概念,根本就無法做到令用戶滿意。因此語音交互的落地首先就要考慮是否能夠先服務好用戶,這是一個關鍵的認知變化,而且基于這種認知,語音交互的免費策略似乎就不重要了,用戶更為關注的是性能而非低價。另外一點就是技術鏈條的成熟,語音識別從手機轉(zhuǎn)向垂直場景,需要解決遠場語音識別和場景語言理解的問題,亞馬遜率先解決了這些問題,國內(nèi)科大訊飛和聲智科技也隨后補齊了這個鏈條。目前來看,智能語音交互的技術鏈條趨于成熟,已經(jīng)不存在較大的障礙。

2、  真實場景數(shù)據(jù)規(guī)模的擴大

隨著Echo的熱賣,對于場景交互尤為重要的真實數(shù)據(jù)急劇增加,原先訓練可能只有幾千或者幾萬個小時,但是亞馬遜已經(jīng)從已售設備中獲取了幾千萬的數(shù)據(jù),而當前的訓練已經(jīng)是十萬級數(shù)據(jù)的規(guī)模,將來百萬級的數(shù)據(jù)訓練也會出現(xiàn)。事實上,這些龐大的數(shù)據(jù)中囊括了用戶時間長度和空間維度的信息,這是手機時代絕對做不到的,從這些豐富信息之中,即便簡單搜索提升的效果都是驚人的。

3、  云端計算能力的不斷提高

擁有了龐大的數(shù)據(jù)量,自然就急需要計算能力的不斷提升,前幾天Intel召開發(fā)布會,雷鋒網(wǎng)現(xiàn)場也做了直播,CPU和GPU的綜合計算能力再次提升了20多倍,這相當于原先需要訓練20天的數(shù)據(jù),現(xiàn)在可能不到1天就能完成,這是語音交互產(chǎn)業(yè)鏈條的根本性保證。

4、  深度學習人才聚集的效應

技術、數(shù)據(jù)、計算鏈條的相對完善,核心還需要人才的驅(qū)動,而隨著人工智能的熱潮,不斷有更多相關人才從科院機構(gòu)和院校走出來加入這個行業(yè)。創(chuàng)業(yè)公司的競爭是可怕的,這群大牛才華橫溢,卻沒日沒夜的拼搏,其效率提升到其他任何時代可能都難以匹及的程度。

總之,智能語音交互這個鏈條已經(jīng)具備了大規(guī)模普及的基礎,等待的只是用戶習慣的改變,而這種改變正在逐步發(fā)生??深A見的幾年,語音交互應該相對于其他人工智能技術,應該是最先落地的一種技術,而且其迭代的速度可能會超過我們的預期。但是語音交互仍然還有很多問題需要解決,包括終端技術的低功耗和集成化、語音識別的場景化和一體化,以及語言理解的準確性和引導性。

未來幾年,智能語音交互的迭代至少還要解決如下幾個問題:

  • 一是如何基于用戶提出的多種多樣的、基于情感的、語意模糊的需求進行深刻分析,精確理解用戶的實際需求;

  • 二是如何將各種結(jié)構(gòu)化、非結(jié)構(gòu)化、半結(jié)構(gòu)化的知識進行組織與梳理,最終以結(jié)構(gòu)化、清晰化的知識形式完整地呈現(xiàn)給用戶;

  • 三是如何猜測用戶可能會有什么未想到、未提出的需求,從而先人一步為用戶提供相關的擴展信息;

  • 四是如何將信息進行有效地組織與整理,以條理化、簡潔化、直接化的形式呈現(xiàn)給用戶。

談及最后一個問題,又不得不說下亞馬遜Echo為何要考慮加個7寸屏了,這雖然會使Echo的品類屬性減弱,但是在AR還沒有發(fā)展起來之前,確實也沒有更好的辦法。畢竟Echo缺少一個使得人機交互更完整的重要的組件——視覺交互,沒有用戶界面或上下文元素的基于語音交互的系統(tǒng)是不完整。用戶可以通過聊天的方式來播放音樂、定時、控制燈光,獲得新聞頭條,然而當用戶在線訂單想比較一下兩種產(chǎn)品的價格,各種性能參數(shù),或者想看一下未來一周天氣預報的溫度趨勢,用戶目前來說還是需要一塊屏。正是基于這種考慮,聲智科技提供的智能音箱解決方案中,恰好有一個型號也是搭配了7寸顯示屏。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

分享:
相關文章

專欄作者

聲智科技創(chuàng)始人兼CEO,中科院聲學所博士
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說