丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給老王
發(fā)送

0

阿里云AI專家陳一寧:別被語(yǔ)音識(shí)別率的數(shù)字所“騙”、語(yǔ)音交互產(chǎn)品大多很雞肋

本文作者: 老王 2017-01-05 20:15
導(dǎo)語(yǔ):阿里云 AI 專家陳一寧給語(yǔ)音識(shí)別產(chǎn)品和行業(yè)潑了三盆冷水。

雷鋒網(wǎng)按:近日,阿里云人工智能專家陳一寧在 2016 云棲大會(huì)惠州峰會(huì)中給語(yǔ)音識(shí)別和語(yǔ)音交互領(lǐng)域潑了三盆冷水,陳一寧的觀點(diǎn)如下:

  • 眾多公司對(duì)外宣稱其語(yǔ)音識(shí)別率多高多高,但嚴(yán)格意義上講這只能叫做在“在××數(shù)據(jù)集上的識(shí)別率”。而且語(yǔ)音識(shí)別和交互應(yīng)緊緊與應(yīng)用場(chǎng)景相結(jié)合,而在具體的相應(yīng)場(chǎng)景中,識(shí)別率往往會(huì)受到很大的影響。

  • 現(xiàn)在智能語(yǔ)音交互硬件產(chǎn)品往往存在外觀差、語(yǔ)音交互不智能等問(wèn)題。

  • 相關(guān)創(chuàng)業(yè)公司商業(yè)模式不清晰,做出偽需求產(chǎn)品、產(chǎn)品解決問(wèn)題的能力有限。有 To  VC 的嫌疑。

隨后,陳一寧從計(jì)算方案、聲學(xué)模型和產(chǎn)品落地三大方向解讀語(yǔ)音識(shí)別技術(shù)和語(yǔ)音交互的項(xiàng)目解決方案,由雷鋒網(wǎng)根據(jù)陳一寧演講進(jìn)行編輯。

2016 年各家公司均公布自家的語(yǔ)音識(shí)別率已達(dá)到 97%,除此之外,智能硬件也層出不窮。其次,做聊天集成的公司,去年從只有幾家、十幾家,到今年已經(jīng)達(dá)到上百家。然而市場(chǎng)上各個(gè)公司的質(zhì)量卻良莠不齊。

阿里云AI專家陳一寧:別被語(yǔ)音識(shí)別率的數(shù)字所“騙”、語(yǔ)音交互產(chǎn)品大多很雞肋

給語(yǔ)音市場(chǎng)潑盆冷水

阿里云AI專家陳一寧:別被語(yǔ)音識(shí)別率的數(shù)字所“騙”、語(yǔ)音交互產(chǎn)品大多很雞肋

從三個(gè)方向潑冷水:

  • 識(shí)別率真有數(shù)字所寫(xiě)的那么準(zhǔn)嗎?

  • 語(yǔ)音交互硬件產(chǎn)品外觀差、語(yǔ)音交互不智能。

  • To  VC 式的創(chuàng)業(yè)方式:商業(yè)模式不清晰,偽需求產(chǎn)品、產(chǎn)品能解決的問(wèn)題有限等。

阿里云AI專家陳一寧:別被語(yǔ)音識(shí)別率的數(shù)字所“騙”、語(yǔ)音交互產(chǎn)品大多很雞肋

語(yǔ)音識(shí)別率這塊著重提及一下。識(shí)別率一般是這么定義的,100% 錯(cuò)誤率比較好理解。而錯(cuò)誤率分三種,替代、刪除和插入。錯(cuò)誤這個(gè)詞如果把他識(shí)別成錯(cuò)誤率了,實(shí)際上沒(méi)有替代錯(cuò)誤。這里有一個(gè)插入錯(cuò)誤,這個(gè)地方會(huì)有一個(gè)特點(diǎn),實(shí)際上錯(cuò)誤率是可以小于 1 或者小于 0 的。這里強(qiáng)調(diào)一點(diǎn),識(shí)別率的全稱一般是在某某數(shù)據(jù)級(jí)上測(cè)了一次,統(tǒng)計(jì)之后有了識(shí)別率。我可以負(fù)責(zé)任的說(shuō),任給我一個(gè)語(yǔ)音識(shí)別系統(tǒng),我都可以找一個(gè)測(cè)試集讓他的識(shí)別率是負(fù)的,都不用說(shuō)這個(gè)識(shí)別率是 0。

任給一個(gè)語(yǔ)音識(shí)別系統(tǒng)我都可以做到,大家都可以很容易試,很多時(shí)候錯(cuò)的比對(duì)的都多。我們更多是要看還有哪些問(wèn)題是不能解決的,應(yīng)該扎扎實(shí)實(shí)的去看,哪個(gè)任務(wù)上我們的識(shí)別率做到什么程度了,那這個(gè)任務(wù)上我們到底還有什么空間可以改進(jìn)。

實(shí)際上語(yǔ)音識(shí)別是一個(gè)強(qiáng)場(chǎng)景化的技術(shù),而脫離場(chǎng)景談識(shí)別率,那就是耍流氓。因?yàn)楦鞣N各樣的情況,都會(huì)嚴(yán)重影響識(shí)別率的變化。

阿里云AI專家陳一寧:別被語(yǔ)音識(shí)別率的數(shù)字所“騙”、語(yǔ)音交互產(chǎn)品大多很雞肋

嚴(yán)重影響識(shí)別率的第一個(gè)因素是環(huán)境和設(shè)備。如錄音設(shè)備是什么?距離有多遠(yuǎn)?環(huán)境是安靜的還是嘈雜的?大家在看演示的時(shí)候,我是跟大家說(shuō)“噓…,大家現(xiàn)在小聲一點(diǎn),我開(kāi)始做演示了”,還是說(shuō)這個(gè)環(huán)境是發(fā)生在一個(gè)嘈雜的咖啡館里面,比如在咖啡館里做一個(gè)采訪,可能在飯館里頭,這個(gè)識(shí)別率是會(huì)有天差地別。

第二個(gè)影響因素是友好度。這其中包括口音、說(shuō)話的方式、吐字不清以及語(yǔ)種、方言等等。另外所識(shí)別內(nèi)容所處的領(lǐng)域也非常關(guān)鍵,如科技領(lǐng)域和醫(yī)療領(lǐng)域之間是有很大區(qū)別的,因?yàn)檫@兩個(gè)領(lǐng)域上專業(yè)名詞有非常大的差別。

阿里云 ET 語(yǔ)音識(shí)別系統(tǒng)

阿里云AI專家陳一寧:別被語(yǔ)音識(shí)別率的數(shù)字所“騙”、語(yǔ)音交互產(chǎn)品大多很雞肋

這些問(wèn)題都在提示我們要找哪些人去做,怎么去解決,而不是說(shuō)我們拿出一些識(shí)別率的數(shù)字來(lái)說(shuō)話。傳統(tǒng)意義上有兩種解決方式:一種是歸一化方式,另外一種是增加 Variance 的方式。以噪聲為例,比如我們把噪聲去掉;第二種是說(shuō)既然要解決有噪聲情況下的語(yǔ)音識(shí)別問(wèn)題,我們就要刻意制造一些噪聲到數(shù)據(jù)里面,讓模型去“接觸”所有的噪聲。就跟人類一樣,學(xué)過(guò)就知道,沒(méi)學(xué)就不知道。通過(guò)這樣的方式解決問(wèn)題。 雷鋒網(wǎng)

阿里巴巴 CTO 王堅(jiān)博士這樣總結(jié):阿里云語(yǔ)音技術(shù)的突破,在于我們充分利用了云計(jì)算和大數(shù)據(jù)平臺(tái)的能力,在不到兩年的時(shí)間,完成了通常需要 20 年或者更長(zhǎng)時(shí)間積累的工作,構(gòu)建出強(qiáng)大的基于模型、數(shù)據(jù)和計(jì)算能力的學(xué)習(xí)系統(tǒng)。

接下來(lái),我會(huì)分三個(gè)事情分別講一下解決問(wèn)題的技術(shù)方案。

一、計(jì)算方案

先談?wù)動(dòng)?jì)算。計(jì)算通常分為兩部分:離線計(jì)算和在線計(jì)算。

離線計(jì)算

離線計(jì)算在深度學(xué)習(xí)領(lǐng)域里通常使用 GPU 較多,阿里利用基于 GPU 多機(jī)多卡的一種中間件,使得任何單機(jī)的深度學(xué)習(xí)模型,通過(guò)非常小的修改就可以自動(dòng)做到在一個(gè)多機(jī)多卡集群上去跑。

從下圖可以了解到,這里有分布式存儲(chǔ),有 GPU 集群,上面的所有東西均是通過(guò) Max Compute 平臺(tái)來(lái)做 CPU 集群混合管理,上面包含各種通訊、控制、數(shù)據(jù)分發(fā)、輔助組件,這套組件可以使得運(yùn)算速度變得非???,非常靈活。

阿里云AI專家陳一寧:別被語(yǔ)音識(shí)別率的數(shù)字所“騙”、語(yǔ)音交互產(chǎn)品大多很雞肋

GPU 和 CPU 各有優(yōu)缺點(diǎn),GPU 計(jì)算能力更強(qiáng),而 CPU 更靈活、數(shù)據(jù)存儲(chǔ)更好。我們通過(guò)交換機(jī)把他們完整的聯(lián)合在一起,用 Max Compute 做混合管理,使得數(shù)據(jù)可以在 GPU 和 CPU 之間任意流動(dòng),讓數(shù)據(jù)流變得很通暢?,F(xiàn)在業(yè)界的常見(jiàn)情況是,通過(guò)深度學(xué)習(xí)算法本身讓速度變快,但現(xiàn)實(shí)是一個(gè)系統(tǒng)項(xiàng)目不能只靠深度學(xué)習(xí),因?yàn)樯舷掠我磺袞|西都有可能導(dǎo)致整個(gè)流程變慢,深度學(xué)習(xí)并不能解決所有問(wèn)題。

阿里云AI專家陳一寧:別被語(yǔ)音識(shí)別率的數(shù)字所“騙”、語(yǔ)音交互產(chǎn)品大多很雞肋

而通過(guò) CPU 和 GPU 混合管理,就可以避免這些情況的發(fā)生。

在線計(jì)算

剛我們提到,脫離領(lǐng)域、脫離場(chǎng)景談在線計(jì)算本身就是耍流氓。實(shí)際上因?yàn)槲覀兊募軜?gòu),可以對(duì)每一個(gè)租戶提供自己的模型,然后在每個(gè)租戶之上,我們還可對(duì)這些租戶的每個(gè)用戶提供模型。

舉一個(gè)例子,這里的領(lǐng)域模型可以指的是類似法院的模型、醫(yī)療的模型、金融的模型等等。租戶的模型可能是說(shuō)不同的法院模型。再往上的話,每審一個(gè)案子都可以有不同的設(shè)計(jì),案子里到底原告是誰(shuí)?被告是誰(shuí)?這樣的信息都可以加到模型里,使得這個(gè)識(shí)別率變得非常準(zhǔn)確,否則這些人名是不可能事先被知道的。這種框架使得環(huán)境變得非常的好。

阿里云AI專家陳一寧:別被語(yǔ)音識(shí)別率的數(shù)字所“騙”、語(yǔ)音交互產(chǎn)品大多很雞肋

數(shù)據(jù)

阿里云的數(shù)據(jù)主要為電話數(shù)據(jù)、App 數(shù)據(jù)、電商數(shù)據(jù)和搜索數(shù)據(jù)。

阿里云AI專家陳一寧:別被語(yǔ)音識(shí)別率的數(shù)字所“騙”、語(yǔ)音交互產(chǎn)品大多很雞肋

電話數(shù)據(jù)即大量客戶打電話進(jìn)來(lái),我們收集的這些語(yǔ)音數(shù)據(jù)。其次阿里擁有眾多 App,App 的語(yǔ)音交互也會(huì)產(chǎn)生語(yǔ)音數(shù)據(jù)。電商就不用提了,阿里有自己全網(wǎng)搜索。所有這些數(shù)據(jù)合在一起,構(gòu)成阿里云很大的數(shù)據(jù)池。這些數(shù)據(jù)池通過(guò)各種“脫敏”,去掉一些真正跟用戶相關(guān)的信息,然后就進(jìn)入我們的整個(gè)訓(xùn)練流里,使得我們最終的社會(huì)識(shí)別率變得非常的好。

二、聲學(xué)模型

阿里云AI專家陳一寧:別被語(yǔ)音識(shí)別率的數(shù)字所“騙”、語(yǔ)音交互產(chǎn)品大多很雞肋

在模型層面,阿里云做了一些獨(dú)特的工作。這個(gè)是比較常見(jiàn)的(英文  13:10)的混合的聲頻模型,實(shí)際上是阿里云第一個(gè)把這個(gè)技術(shù)投入到真實(shí)的生產(chǎn)環(huán)境中去。大家知道技術(shù)從寫(xiě)出來(lái)到做出來(lái)是有很大的差異。第二個(gè)事情是很多技術(shù)我們?cè)诮獯a器上面做很多的工作。

阿里云AI專家陳一寧:別被語(yǔ)音識(shí)別率的數(shù)字所“騙”、語(yǔ)音交互產(chǎn)品大多很雞肋

上圖中,左邊是每個(gè)子的單元,這個(gè)地方有意思的是,大家看到最左邊有一個(gè)叫遺忘,每個(gè)東西是人神經(jīng)網(wǎng)絡(luò)記憶的單元,這個(gè)網(wǎng)絡(luò)不僅能學(xué)會(huì)記憶,也能學(xué)會(huì)遺忘。如果永遠(yuǎn)不遺忘的話,網(wǎng)絡(luò)會(huì)不斷記錄所有內(nèi)容,最終逐步膨脹,直到網(wǎng)絡(luò)爆炸掉。我們添加遺忘功能就是讓它在該遺忘的時(shí)候遺忘,不該遺忘的時(shí)候不遺忘。與此同時(shí),大家看到右邊閉合的地方是雙向的,它知道收的話,從前往后是有關(guān)系的,那從后往前也是有聯(lián)系的。所以說(shuō),雙向的網(wǎng)絡(luò)可以使得識(shí)別率會(huì)有進(jìn)一步的提升。

阿里云AI專家陳一寧:別被語(yǔ)音識(shí)別率的數(shù)字所“騙”、語(yǔ)音交互產(chǎn)品大多很雞肋

當(dāng)然,雙向既有優(yōu)點(diǎn)也有缺點(diǎn)。因?yàn)樽R(shí)別的時(shí)候是單向的,如果成為雙向的話,需要拿到后面的信息。實(shí)際上不可能在這一時(shí)刻拿到后面的信息,那此時(shí)就需要做一個(gè)延時(shí),然后后面再識(shí)別回來(lái)。該技術(shù)通過(guò)一些數(shù)據(jù)的推導(dǎo),證明說(shuō)后面實(shí)際不用那么長(zhǎng),只需一小段,就可以達(dá)到與前面一樣好的效果,讓延時(shí)變得非??煽兀侵钡浇Y(jié)束才能得到一個(gè)很好的結(jié)果。

下圖是比較傳統(tǒng)的深度神經(jīng)網(wǎng)絡(luò)模型,右邊是混合的,先有三層的BLSTM的模型,再錄了兩層 DN 模型,從而達(dá)到一個(gè)非常好的效果。

阿里云AI專家陳一寧:別被語(yǔ)音識(shí)別率的數(shù)字所“騙”、語(yǔ)音交互產(chǎn)品大多很雞肋

高速解碼器

剛才講的實(shí)際上是一個(gè)離線的過(guò)程,學(xué)術(shù)界和工業(yè)界最大的差異不在于離線的的訓(xùn)練,因?yàn)殡x線的訓(xùn)練,即便有時(shí)候跑得慢一點(diǎn)也能跑得出來(lái)。但是在線就不一樣了,在線如果跑得慢的話,就無(wú)法投入工業(yè)生產(chǎn),會(huì)有很大延時(shí)。就像我們?cè)诖髸?huì)上做語(yǔ)音識(shí)別轉(zhuǎn)寫(xiě)如果有延時(shí),講完一句話后十秒鐘才出來(lái)就沒(méi)法看了。所以這個(gè)地方最重要的是能夠做一個(gè)在線解碼,解碼器實(shí)際上就是說(shuō)把實(shí)時(shí)的聲音進(jìn)來(lái),并能實(shí)時(shí)轉(zhuǎn)出去。

阿里云AI專家陳一寧:別被語(yǔ)音識(shí)別率的數(shù)字所“騙”、語(yǔ)音交互產(chǎn)品大多很雞肋

實(shí)際上業(yè)界有很多的想法,即到底用 CPU 做、GPU 做還是用 FPGA 去做?其實(shí)這個(gè)地方要做到通用性和效率的平衡。通用性可以使得整個(gè)體系的靈活性和效率達(dá)到最優(yōu)。我們?cè)?FPGA 上做一些非常個(gè)性化的東西,有時(shí)候似乎有一些好處,但是實(shí)際上它帶來(lái)的問(wèn)題會(huì)使通用性變差,最終在部署上會(huì)帶來(lái)更多問(wèn)題。所以我們最終在解碼上選擇了最通用性的方式,采用了 CPU 的方案,同時(shí)我們與英特爾有過(guò)很多合作,在 CPU 上得到極大的提速。

下面這個(gè)技術(shù)是我們最近研發(fā)出來(lái)的 Low-Frame-Rate 的技術(shù),這項(xiàng)技術(shù)實(shí)際上是個(gè)很有意思的想法。最傳統(tǒng)的語(yǔ)音識(shí)別會(huì)把一秒鐘切為一百幀,每一幀去做解碼的過(guò)程。現(xiàn)在 Low-Frame-Rate 技術(shù)并不是這樣去做,因?yàn)槿祟惵?tīng)聲音也沒(méi)必要聽(tīng)得那么細(xì)才能知道語(yǔ)音是什么。因此我們把幀數(shù)的跨度變成三倍,通過(guò)三倍的跳楨,使得整個(gè)速度變成原來(lái)三倍。這樣 Low-Frame-Rate 的 TM 模型可以使得我們?cè)趩闻_(tái) CPU 的機(jī)器上達(dá)到上百線的處理能力。

三、應(yīng)用場(chǎng)景和產(chǎn)品落地

智能硬件

其實(shí)阿里云在智能硬件這塊,更多的是跟云 OS 或者跟一些合作伙伴來(lái)做。

其實(shí)阿里云更多提供底層技術(shù),在消費(fèi)級(jí)產(chǎn)品實(shí)際落地方面則會(huì)跟上面業(yè)務(wù)方做合作。軟銀 Pepper 機(jī)器人跟阿里云合作做了一些工作,利用語(yǔ)音技術(shù)可以做到遠(yuǎn)程喚醒和交互。但是它的交互除了眨眼、轉(zhuǎn)動(dòng),轉(zhuǎn)頭、走路外,很多交互表現(xiàn)在它胸口的屏幕上。

阿里云AI專家陳一寧:別被語(yǔ)音識(shí)別率的數(shù)字所“騙”、語(yǔ)音交互產(chǎn)品大多很雞肋

智能硬件需要想到一些剛需的場(chǎng)景切入,包括對(duì)機(jī)器人、車機(jī)、音箱等等。在國(guó)內(nèi),對(duì)智能音箱的需求不是很高,但是車機(jī)方向確是一塊越來(lái)越有價(jià)值的市場(chǎng)。

問(wèn)答平臺(tái)

后來(lái)阿里云也進(jìn)行了 Bot 實(shí)踐,阿里云做了自己的 Bot ET 問(wèn)答平臺(tái)。該問(wèn)答平臺(tái)會(huì)我們提供給合作伙伴,讓他們?yōu)橛脩羧ソ⒆约旱膯?wèn)答機(jī)器人。

阿里云AI專家陳一寧:別被語(yǔ)音識(shí)別率的數(shù)字所“騙”、語(yǔ)音交互產(chǎn)品大多很雞肋

除了一個(gè)問(wèn)答機(jī)器人本身以外,我們這個(gè)系統(tǒng)可以讓用戶去根據(jù)用戶場(chǎng)景去設(shè)定他的自己的對(duì)話管理,并且可以把各種知識(shí)庫(kù)、問(wèn)答對(duì)、表格等等知識(shí)庫(kù)輸入到系統(tǒng)里面去。同時(shí)閉環(huán)的流程可以通過(guò)用戶反饋,對(duì)數(shù)據(jù)進(jìn)行糾正。因?yàn)橹R(shí)庫(kù)大了一定會(huì)出現(xiàn)各種各樣的問(wèn)題,而人在沒(méi)有輔助的情況下基本上不大可能一遍寫(xiě)對(duì)。

阿里云AI專家陳一寧:別被語(yǔ)音識(shí)別率的數(shù)字所“騙”、語(yǔ)音交互產(chǎn)品大多很雞肋

為了解決這一問(wèn)題,阿里做了很多解決沖突的工具去查找問(wèn)題。數(shù)據(jù)回流時(shí)系統(tǒng)就可知道到底在問(wèn)什么,通過(guò)各種各樣的方式,包括自定義可使得真正做得比較好用的機(jī)器人。但是這件事情上,阿里云有一個(gè)確定的點(diǎn),其做這件事情不是為了代替,而是希望把有限的人力投入到幾個(gè)真正最難解決的問(wèn)題上去把一些機(jī)械的事情,通過(guò)機(jī)器去把他干掉。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知

阿里云AI專家陳一寧:別被語(yǔ)音識(shí)別率的數(shù)字所“騙”、語(yǔ)音交互產(chǎn)品大多很雞肋

分享:
相關(guān)文章

編輯

微信 wangyafeng123456
當(dāng)月熱門(mén)文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)