1
本文作者: 奕欣 | 2017-04-28 14:41 | 專(zhuān)題:GMIC 北京 2017 |
雷鋒網(wǎng)按:4 月 27 日,GMIC 2017(全球移動(dòng)互聯(lián)網(wǎng)大會(huì))北京站開(kāi)幕,主題是「天·工·開(kāi)·悟」。今天上午,阿里云 iDST 總監(jiān)初敏博士做了題為「AI 技術(shù)發(fā)展與商業(yè)化之路」的分享,雷鋒網(wǎng)對(duì)速記做了不改動(dòng)原意的編輯和整理。
初敏博士 2009 年加入阿里巴巴,目前在阿里集團(tuán) iDST(Institute of Data Science and Technologies)負(fù)責(zé)語(yǔ)音識(shí)別,語(yǔ)音合成,自然語(yǔ)言理解,知識(shí)問(wèn)答,對(duì)話(huà)管理等人機(jī)交互相關(guān)技術(shù)研發(fā)以及產(chǎn)品研發(fā)。
非常高興有機(jī)會(huì)跟大家分享我們最近做的事情的感悟。最主要的是分享感悟。剛剛簡(jiǎn)先生(雷鋒網(wǎng)按:竹間智能科技創(chuàng)始人 & CEO 簡(jiǎn)仁賢,他在 GMIC 2017 上做了題為“AI 時(shí)代的人機(jī)情感共鳴”的分享)講 AI 是不是有泡沫,其實(shí)大家已經(jīng)開(kāi)始擔(dān)心了。最近的 AI 跟過(guò)去相比已經(jīng)開(kāi)始商業(yè)應(yīng)用了,技術(shù)的商業(yè)化正在開(kāi)啟,但這個(gè)過(guò)程沒(méi)有想象的那么容易。我認(rèn)為在未來(lái)幾年里,只在說(shuō)的人會(huì)越來(lái)越少,大家會(huì)看到某一些泡沫似乎在降下去,但我覺(jué)得會(huì)有更多實(shí)際干的人出來(lái),真正的把這個(gè)技術(shù)用到每個(gè)行業(yè)中,讓我們真正體驗(yàn)到用,而不僅僅是在媒體上看到的宣傳。
我今天想跟大家分享的,一個(gè)是技術(shù)的發(fā)展,一個(gè)是真正的商業(yè)化之路是會(huì)非常艱難的。
人工智能這一波的熱度是數(shù)據(jù)驅(qū)動(dòng)的智能時(shí)代的到來(lái)。雖然大家表面上關(guān)注的最主要的是算法,是從深度學(xué)習(xí)開(kāi)始的?,F(xiàn)在還有強(qiáng)化學(xué)習(xí)、無(wú)監(jiān)督、半監(jiān)督等等各種各樣的學(xué)習(xí)方法。事實(shí)上這些學(xué)習(xí)方法真正能起到作用、能帶來(lái)改變,是因?yàn)楝F(xiàn)在有很強(qiáng)大的計(jì)算能力,以及有各種各樣的數(shù)據(jù)貫穿在一起。
我們做機(jī)器學(xué)習(xí)的人,這么多年下來(lái),有非常強(qiáng)大的經(jīng)驗(yàn)。你在算法上的改變,往往不如數(shù)據(jù)種類(lèi)的豐富性,以及規(guī)模增大帶來(lái)的好處更大。
這兩年能看到很大的進(jìn)步,歸根到底的原因是計(jì)算能力。計(jì)算能力包括原來(lái)在單臺(tái)機(jī)器上,后來(lái)是在一大組 CPU 集群上,包括 TPU 等等各種探索,都是在解決計(jì)算能力的問(wèn)題。因?yàn)槁?lián)網(wǎng)把數(shù)據(jù)聯(lián)接起來(lái)了,數(shù)據(jù)從不同的源到一個(gè)結(jié)點(diǎn)上進(jìn)行統(tǒng)一學(xué)習(xí),增強(qiáng)了學(xué)習(xí)效果。這一輪所謂的 AI 真正是大數(shù)據(jù)驅(qū)動(dòng)的,云計(jì)算+大數(shù)據(jù)+算法的進(jìn)步來(lái)推動(dòng)的。
從另外一個(gè)應(yīng)用的角度,大家體會(huì)最強(qiáng)的是互聯(lián)網(wǎng)上的改變。這一輪算法技術(shù),推薦、搜索、推送,我們已經(jīng)能體驗(yàn)到一部分。今天我們感受到的變化更垂直化、個(gè)性化、智能化,在很多地方的細(xì)微改變都是因?yàn)閿?shù)據(jù)的聚匯,以及學(xué)習(xí)對(duì)人、對(duì)各種細(xì)節(jié)學(xué)習(xí)能力的增強(qiáng),使我們感受到細(xì)微的變化。
另外就是每個(gè)個(gè)體感受不那么深的,給傳統(tǒng)工業(yè)帶來(lái)了很多變化。比如,我們用在工廠的數(shù)據(jù)里,監(jiān)測(cè)工廠的故障率、提高產(chǎn)品的良品率??梢灶A(yù)測(cè)城市生活中未來(lái) N 個(gè)小時(shí)的交通情況,哪里會(huì)堵、哪里會(huì)出現(xiàn)風(fēng)險(xiǎn),通過(guò)信號(hào)燈的調(diào)節(jié)能不能更好的疏通交通的通暢性。這些技術(shù)的確在方方面面,有一些是我們能夠感受到的,有一些是在日常生活中不能直接感受到的,但都在發(fā)生著變化。智能化的過(guò)程已經(jīng)開(kāi)啟,而且正在飛快的進(jìn)步。
這件事情不是一個(gè)企業(yè)、一個(gè)人、一個(gè)機(jī)構(gòu)能獨(dú)立完成的。如果真把所有的技術(shù)從頭到尾打通,有非常多的工作要做。從底層的計(jì)算能力,到垂直的語(yǔ)音、圖像技術(shù),即便是個(gè) Bot,也要把這些東西集成起來(lái)。最終這些技術(shù)能不能是放之四海而皆準(zhǔn)的,往往都是需要根據(jù)場(chǎng)景、根據(jù)垂直行業(yè)的需求來(lái)進(jìn)行改變。一個(gè)系統(tǒng)不可能十年都不變,它要跟著外界的情況發(fā)生改變。一個(gè)系統(tǒng)第一天上線,我覺(jué)得它的效果很好,不是它一定要好一輩子的。你要把數(shù)據(jù)灌進(jìn)去,要讓這個(gè)系統(tǒng) 24 小時(shí)不停地轉(zhuǎn),這個(gè)轉(zhuǎn)的過(guò)程也是學(xué)習(xí)的過(guò)程。只有這樣的系統(tǒng)才真正的能用起來(lái)。很多時(shí)候我們看到上線一個(gè)東西,3 個(gè)月的效果很好,過(guò)一段時(shí)間就用不起來(lái)了。
這個(gè)技術(shù)不應(yīng)該是在象牙塔里了,而是應(yīng)該在很多地方推,這個(gè)推的過(guò)程是很多環(huán)節(jié)的銜接。在某些媒體上傳播的時(shí)候,我們只看到了美妙的想象的部分,沒(méi)有重視到實(shí)施過(guò)程中的各個(gè)環(huán)節(jié)。只有這些東西都做好,我們想象中的那個(gè)美妙的結(jié)果才能得到。商業(yè)化的過(guò)程中最大的困難,每個(gè)企業(yè)、每個(gè)環(huán)節(jié)想引入這些技術(shù),想在你的場(chǎng)景中用通的時(shí)候,實(shí)際是要有思想準(zhǔn)備的。不是閉著眼睛從哪里接根管子就用得非常好了,而是要有決心,要扎下去,打透了,才能得到非常好的結(jié)果。
人工智能真的需要分工協(xié)作,我們大家的定位在什么地方,我需要誰(shuí)來(lái)幫助我。另外就是人才的儲(chǔ)備。AI 很熱,這個(gè)領(lǐng)域的人才非常熱。我自己觀察到的還有一種人才也非常缺失,其實(shí)是怎么用的人。比如,一個(gè)機(jī)器人在我們的環(huán)境中提供客服,應(yīng)該怎么交互、怎么用、怎么設(shè)計(jì)、入口在哪里,這樣的人才是更缺失的。我自己在公司里跟很多部門(mén)合作的時(shí)候都碰到這個(gè)困難,最終反而是技術(shù)人員好像更理解一點(diǎn)。其實(shí)這是不對(duì)的。
我覺(jué)得真正懂得 AI 技術(shù)在某一個(gè)場(chǎng)景中真正該怎么用的人才也是非常稀缺的。要打通的是各處的,只不過(guò)大家立足點(diǎn)不一樣,你側(cè)重的人才會(huì)不一樣。
阿里云做的更多是底層,是以平臺(tái)來(lái)提供的,底下會(huì)有集群、云計(jì)算的平臺(tái)、大數(shù)據(jù)的平臺(tái),以及人工智能的各種專(zhuān)項(xiàng)技術(shù)。做這些專(zhuān)項(xiàng)的技術(shù),語(yǔ)音識(shí)別本身都是投資非常大的,不是每個(gè)企業(yè)都值得自己去投資。因?yàn)樽鲞@些事情,既要很多人,又要很多錢(qián),又要很多數(shù)據(jù)和很多計(jì)算能力,平臺(tái)形式的提供是更為合理的。這也是為什么我們作為云計(jì)算公司會(huì)做很多這樣的工作。各個(gè)層面的行業(yè)的打通,是各個(gè)領(lǐng)域的專(zhuān)家更懂的,后面就應(yīng)該是各種解決方案。我們會(huì)提供各種基礎(chǔ)能力,而真正的解決方案是跟合作伙伴一起打通,真正把這個(gè)垂直行業(yè)落地,工作量是非常大的。
因?yàn)槲易约簬У氖钦Z(yǔ)音交互的團(tuán)隊(duì),我給大家舉一個(gè)例子。底層也是一樣,有識(shí)別。語(yǔ)音識(shí)別合成是大家傳統(tǒng)講的語(yǔ)音技術(shù)。現(xiàn)在有兩個(gè)方向,一個(gè)是所謂的人機(jī)對(duì)話(huà)。各種應(yīng)用 APP 里可以嵌入這種交互。但是,在你做 APP 交互的時(shí)候,因?yàn)槟阒赖氖虑楸容^少,能做的會(huì)比較窄。你從操作系統(tǒng)開(kāi)始做,系統(tǒng)底層知道的更多,能通過(guò)這個(gè)交互實(shí)現(xiàn)和打通的信息就會(huì)更多。在我們自己內(nèi)部做的時(shí)候也是這樣,更重要的是以操作系統(tǒng)為依托,走到各種端,它可能是手機(jī),也可能是車(chē),也可能是電視,或者其他設(shè)備。當(dāng)然,也可以提供一個(gè)簡(jiǎn)單的接入,讓各種 APP 接入進(jìn)去。
另外一個(gè)部分也是非常重要的,就是數(shù)據(jù)價(jià)值的發(fā)現(xiàn)。我們?cè)诎⒗镒约旱脑茥髸?huì)上,會(huì)直接接上語(yǔ)音轉(zhuǎn)寫(xiě),我在這里的講話(huà)就被實(shí)時(shí)的轉(zhuǎn)譯成了文字。這樣的資料就會(huì)非常有價(jià)值。這樣的轉(zhuǎn)寫(xiě)在法庭等各種場(chǎng)景都能用起來(lái)。如果我們把語(yǔ)音變成了文字,這就變成了很珍貴的數(shù)據(jù)資源,就可以發(fā)揮很大的價(jià)值。很多東西會(huì)隨著時(shí)間發(fā)生非常大的變化。
在去年的云棲大會(huì)上,我們做過(guò)一次 ET 的演示。交互是一個(gè)最表層的東西,最終它是要把很多深的服務(wù)串起來(lái)。前提是我們背后有很多的資源能夠接入。即便你理解了,如果我沒(méi)有后備的服務(wù)是沒(méi)有用的。這就是非常大的配合,一層是做語(yǔ)音、語(yǔ)言理解、對(duì)話(huà)的管理,但最后一定要把它轉(zhuǎn)成某一個(gè)服務(wù)的查詢(xún)。ET 是我們包裝阿里云人工智能技術(shù)的代言人。這種實(shí)時(shí)的大會(huì)字幕,實(shí)時(shí)的語(yǔ)音能轉(zhuǎn)成文字,中文、英文都在自己的系列會(huì)上用得非常成功,基本上已經(jīng)是標(biāo)配,包括「雙 11」時(shí)做的節(jié)目。不同的場(chǎng)景,很難有一個(gè)固定的 Bot 能完成。我們能很快的在不同的場(chǎng)景做,實(shí)際上是因?yàn)槲覀兛梢愿鶕?jù)場(chǎng)景快速的定制各種 Bot,根據(jù)場(chǎng)景的只是一個(gè)非常重要的能力。
語(yǔ)音識(shí)別是很重要的,最大的問(wèn)題是算法的復(fù)雜度。因?yàn)橛械臅r(shí)候復(fù)雜的算法的效果好。我需要實(shí)時(shí),基本是在復(fù)雜率和實(shí)時(shí)之間的平衡。
還有數(shù)據(jù)的規(guī)模。你會(huì)問(wèn)到方言覆蓋率怎么樣、能說(shuō)多少種語(yǔ)言,其實(shí)這些轉(zhuǎn)化到最后都是你有什么數(shù)據(jù)、你有多少計(jì)算能力、你多快能把這些語(yǔ)言做掉。能做中文、能做英文,其實(shí)做所有語(yǔ)言在技術(shù)上是一樣的,差異是在于你的數(shù)據(jù)來(lái)源,你有沒(méi)有那么多數(shù)據(jù),你有沒(méi)有那么多計(jì)算能力可以很快的把這些東西搞出來(lái)。在真正用的時(shí)候,實(shí)際上還是數(shù)據(jù)和計(jì)算能力的變化,以及模型迭代能多快。如果我有很強(qiáng)的計(jì)算能力在一個(gè)月里可以比較 20 種方法,我的進(jìn)步就會(huì)很快。如果一個(gè)月里只能迭代一輪,我會(huì)進(jìn)步的很慢。最終很多時(shí)候我們比的是這個(gè)。
各種場(chǎng)景的自適應(yīng)。我們做實(shí)時(shí)字幕的時(shí)候,在技術(shù)性會(huì)議上是做的很好的??梢约僭O(shè)想象到,我去一個(gè)醫(yī)療會(huì)議上,可能會(huì)很痛苦,因?yàn)槔锩嬗刑嗟尼t(yī)學(xué)專(zhuān)有名詞,我們的系統(tǒng)沒(méi)有。怎么根據(jù)具體的場(chǎng)景,讓它快速的 adapt 過(guò)去。
(演示環(huán)節(jié))
剛剛稍微聽(tīng)了兩個(gè)片段。語(yǔ)音合成技術(shù)這些年已經(jīng)比較成熟了,剛剛放的兩段是我們合作的兩個(gè)場(chǎng)景,一個(gè)是語(yǔ)音播報(bào)頻道。另外一個(gè)是面向兒童,講故事的。這個(gè)技術(shù)也是可以定制,不同場(chǎng)景需要的聲音是不一樣的。我們面臨的最大挑戰(zhàn)還是如何快速的根據(jù)不同場(chǎng)景定制出不同的聲音,適應(yīng)不同的需求。這是商業(yè)應(yīng)用時(shí)最大的挑戰(zhàn)。今天做到的效果總的來(lái)說(shuō)還是不錯(cuò)的。但是,這兩個(gè)聲音的場(chǎng)景如果換一下,其實(shí)是完全不好用的。這意味著我們需要根據(jù)場(chǎng)景來(lái)做定制化。
語(yǔ)言的理解與對(duì)話(huà)。簡(jiǎn)先生講的 Bot 也是理解和交互。我覺(jué)得交互的目的是找到答案。其實(shí)是根據(jù)你的知識(shí)點(diǎn)在哪里,你的知識(shí)點(diǎn)是什么樣的組織,我們才根據(jù)這個(gè)技術(shù)做這個(gè)事情。很重要的源是知識(shí),知識(shí)的組織,以及知識(shí)從哪里來(lái),這是真正應(yīng)用的場(chǎng)景。一個(gè)企業(yè)做客服,你就需要有自己的客服知識(shí)庫(kù),這個(gè)事情是別人不能替代你的,一定是自己提供的。技術(shù)能提供的是什么?是如果你有自己的知識(shí)庫(kù),我是不是能很快的把它變成很好的問(wèn)答的能力,變成和人交互的能力。
信息的抽取。一旦把語(yǔ)音變成文字,可以做很多自然語(yǔ)言的抽取。我們?cè)诳头?chǎng)景里做的就是質(zhì)檢。因?yàn)榻裉焖械碾娫?huà)都被錄音下來(lái)了,服務(wù)的質(zhì)量好不好,用人去篩查,這件事情基本是做不到的。我們已經(jīng)把阿里系的所有電話(huà)都語(yǔ)音識(shí)別出來(lái),在文字層面做質(zhì)檢。這是螞蟻客服的效果,本來(lái)他們有 30 多個(gè)人做 1% 的抽檢,因?yàn)楝F(xiàn)在用了這個(gè)技術(shù),可以做到 100% 的覆蓋,人還會(huì)留一些,但工作量會(huì)減少很多,而且做到了 100% 的質(zhì)檢。類(lèi)似的技術(shù)還可以用來(lái)進(jìn)行產(chǎn)品的監(jiān)控、危機(jī)的識(shí)別。
客服可以打電話(huà),我們稱(chēng)之為熱線。通過(guò) IM 的交互,稱(chēng)之為在線。傳統(tǒng)的做法,電話(huà)進(jìn)來(lái)是一個(gè)按鍵菜單,最后都是人工服務(wù)。它也會(huì)記錄下數(shù)據(jù),通過(guò)數(shù)據(jù)的沉淀,我們有了知識(shí)庫(kù),這個(gè)行為中該怎么提供服務(wù),可以學(xué)習(xí)到很多,最終可以進(jìn)行改造。電話(huà)進(jìn)來(lái),可以用語(yǔ)音識(shí)別。然后,根據(jù)人的問(wèn)題進(jìn)行分類(lèi),猜你碰到了什么困難。如果這個(gè)問(wèn)題是服務(wù)的機(jī)器人可以回答的,基本就可以自助的服務(wù)完成。如果是比較復(fù)雜的問(wèn)題,就會(huì)輸送到不同的技能組,因?yàn)榭头藛T也是分技能組的。這個(gè)過(guò)程中的數(shù)據(jù)而不斷的沉淀下來(lái),這些沉淀的數(shù)據(jù)又變成寶貴的數(shù)據(jù)資源,可以進(jìn)行產(chǎn)品監(jiān)控、異常監(jiān)控,甚至是對(duì)用戶(hù)技術(shù)分析??头瞧髽I(yè)跟客戶(hù)接觸最多的地方,對(duì)用戶(hù)的了解也是最深的。傳統(tǒng)的客服中心,經(jīng)過(guò)各種智能化改造,它實(shí)際上變成了數(shù)據(jù)中心,會(huì)提供非常強(qiáng)大的數(shù)據(jù)支撐。
隨著每年「雙 11」業(yè)務(wù)量的增大,服務(wù)的請(qǐng)求量也是增長(zhǎng)很快的。我們不可能通過(guò)加人來(lái)提高服務(wù),必須用智能手段來(lái)保證服務(wù)質(zhì)量。從 2014 年到 2015 年,服務(wù)請(qǐng)求量的增長(zhǎng)非常大,主要是來(lái)自 IM,是因?yàn)楫?dāng)年把入口放得更明顯了,用戶(hù)更容易找到 IM 的入口,請(qǐng)求量大了很多。那一年在自助的能力上做了很大提升,人工服務(wù)量并沒(méi)有增長(zhǎng),還有點(diǎn)下降,特別是 IM 入口,服務(wù)量下降很多,就是因?yàn)闄C(jī)器人能自助回答大部分問(wèn)題。但是,人工電話(huà)的服務(wù)量是有所上升的。2015 年到 2016 年的變化,是因?yàn)槲覀円黄鸷献髁艘粋€(gè)項(xiàng)目,加了語(yǔ)音電話(huà)進(jìn)來(lái)的自助能力。到了 2015 年、2016 年,電話(huà)人工量也下降了。在 2016 年的「雙 11」,客服團(tuán)隊(duì)的日子就好過(guò)很多,因?yàn)檎麄€(gè)需要人工服務(wù)的量下降了非常多。
雖然我們自己是做語(yǔ)音交互的,但跟很多業(yè)務(wù)團(tuán)隊(duì)做了非常深入的合作。核心困難就是在最后一公里的落地上。只有我們有足夠的投入,那些效果才能全盤(pán)的打通。語(yǔ)音接入本身就很難,經(jīng)常有各種錄音。我剛剛上場(chǎng)前,會(huì)提示我麥克風(fēng)離得近一點(diǎn),要不然收音就不好。在各種場(chǎng)合不能控制的時(shí)候,收音本身就是很痛苦的事情。
還有不同的場(chǎng)景,你需要的重點(diǎn)的詞匯,你有自己特別的詞匯,你有自己的口語(yǔ)化的問(wèn)題,包括你自己的知識(shí)庫(kù)。這個(gè)過(guò)程中很多環(huán)節(jié),只有都打通了,真正的智能才能實(shí)現(xiàn)。不是說(shuō)今天有泡沫,而是有多少人愿意實(shí)干,不是在那兒說(shuō),而是實(shí)實(shí)在在的把每一個(gè)環(huán)節(jié)打通,智能是一定能落地的,而且一定能帶來(lái)商業(yè)價(jià)值。有很多例子可以看到,在真正落地的時(shí)候也遇到了非常多的困難。這跟企業(yè)想做這件事的決心特別相關(guān)。
我們做的是核心技術(shù),最終還是要依靠生態(tài)和跟合作伙伴的合作,讓智能化的技術(shù)在每個(gè)場(chǎng)景中落地。我們期待著把智能化真正的多地。
謝謝大家!
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。
本專(zhuān)題其他文章