丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
業(yè)界 正文
發(fā)私信給李詩
發(fā)送

0

對話鄢志杰:語音行業(yè)十五年老兵的沿途風(fēng)景

本文作者: 李詩 2018-09-14 18:12
導(dǎo)語:他在中科大語音實驗室、微軟亞洲研究院、阿里機器智能技術(shù)實驗室看到了怎樣的風(fēng)景?

根據(jù)《2018中國智能語音行業(yè)前景研究報告》,2017年中國的智能語音市場規(guī)模已經(jīng)達(dá)到了105.71億元,比2016年增長了70%,而2018年這個規(guī)模預(yù)計將繼續(xù)擴大三分之一,達(dá)到159.7億元。語音行業(yè)紅紅火火。

站在2003年,鄢志杰選擇進(jìn)入中科大語音實驗室攻讀博士時,行業(yè)留給語音人才的就業(yè)崗位極其稀缺,當(dāng)時像微軟亞洲研究院這樣跨國公司的研發(fā)機構(gòu),每年在語音方向上也就一兩個校招名額。當(dāng)時的他,自然難以想象15年后,語音技術(shù)會如此火爆,像水電這樣的基礎(chǔ)設(shè)施一樣融入每個人的生活。

扎根語音行業(yè)十多年,他在語音識別、語音合成、語音交互等多個領(lǐng)域都有了深入的研究,熬過了長達(dá)近十年的技術(shù)瓶頸期,見證兩次語音技術(shù)的大突破,終于等到人人都能明白語音交互的概念和未來。鄢志杰作為目前阿里語音團隊的帶頭人,聊過很多關(guān)于語音技術(shù)的現(xiàn)狀和未來,不過他這十幾年的個人經(jīng)歷,他在中科大語音實驗室、微軟亞洲研究院語音團隊、阿里巴巴機器智能技術(shù)實驗室的經(jīng)歷,卻很少為人所知。雷鋒網(wǎng)這篇獨家對話文,正是想讓鄢志杰談?wù)勊宦纷邅淼娘L(fēng)景。

對話鄢志杰:語音行業(yè)十五年老兵的沿途風(fēng)景 

(鄢志杰,阿里巴巴達(dá)摩院機器智能技術(shù)實驗室語音交互首席專家,長期從事語音交互智能的研究、產(chǎn)品化和商業(yè)化工作。畢業(yè)于中國科學(xué)技術(shù)大學(xué)語音實驗室,獲博士學(xué)位,2015年加入阿里巴巴集團。在加入阿里巴巴集團之前,就職于微軟亞洲研究院語音團隊任主管研究員。其研究領(lǐng)域主要包括語音識別、語音合成、聲紋、語音交互等。在語音及文本識別領(lǐng)域頂級學(xué)術(shù)期刊及會議發(fā)表多篇論文,長期擔(dān)任語音領(lǐng)域頂級學(xué)術(shù)會議及期刊的專家評審,并擁有多項美國及PCT專利。其研究成果被轉(zhuǎn)化并應(yīng)用于阿里巴巴集團、螞蟻金服及微軟公司多項語音相關(guān)產(chǎn)品中,目前是IEEE senior member。曾榮獲中國科協(xié)百名基層科技工作者稱號。)

站在2003·選擇

2003年,鄢志杰本科畢業(yè),他選擇升入中科大語音實驗室,攻讀博士學(xué)位。鄢志杰師從王仁華教授,是最后幾屆關(guān)門弟子。王仁華教授是語音領(lǐng)域大牛,不僅精通語音技術(shù),還熟諳語音技術(shù)的商業(yè)化,當(dāng)時他已經(jīng)是科大訊飛主要創(chuàng)始人之一、科大訊飛董事長。 

站在2003年,鄢志杰或許想不到語音行業(yè)會有現(xiàn)在這么火熱。他回憶道,當(dāng)時,在語音合成方面,機器人說出來的話只能做到聽懂,沒辦法合成長段的、流暢自然的語音。在語音識別方面,只能在簡單任務(wù)上做得比較好,例如數(shù)字串識別。像今天的智能語音助理,能聽懂用戶說的話再去執(zhí)行任務(wù),這樣的應(yīng)用在當(dāng)時是難以想象的。

十幾年前,語音不是熱門專業(yè),但是在鄢志杰看來,語音是人機交互下一個里程碑,是有趣有用的技術(shù),就值得學(xué)。他的導(dǎo)師王仁華教授也非常開放,除了教書育人、在實驗室培養(yǎng)學(xué)生,也通過人脈將學(xué)生們送到海內(nèi)外各個學(xué)?;蚬镜闹芯繖C構(gòu)去訪問交流。例如鄢志杰自己,在攻讀博士學(xué)位期間就先后到微軟亞洲研究院和美國佐治亞理工學(xué)院的語音實驗室訪問。要知道,彼時國內(nèi)做研究、查論文、做學(xué)術(shù)交流的條件遠(yuǎn)不如現(xiàn)在這樣方便,既沒有開源學(xué)術(shù)社區(qū),學(xué)術(shù)搜索引擎也還不存在。而這些經(jīng)歷大大的開拓了像鄢志杰這樣的學(xué)生們的國際視野,也造就了今天國內(nèi)語音學(xué)術(shù)界和工業(yè)界的一批活躍分子。王老師實驗室的弟子們很多都成為了高校科研院所或產(chǎn)業(yè)界從事語音交互技術(shù)的骨干。

但回到10年前,技術(shù)的不成熟使得工業(yè)界對語音專業(yè)的學(xué)生的需求也小。在當(dāng)時,全世界的就業(yè)市場留給語音專業(yè)的畢業(yè)生的崗位很少,可以說是稀缺,畢業(yè)生并不好找工作。只有像微軟、IBM這些大公司能夠燒錢養(yǎng)活團隊,持續(xù)在語音領(lǐng)域做技術(shù)研發(fā)。鄢志杰去到微軟亞洲研究院那幾年,研究院在亞太范圍內(nèi)每年也就一兩個校招博士名額。

鄢志杰說,微軟是一家偉大的世界級公司,儲備的是世界級人才,微軟能提供的平臺和視野對做語音交互的人才來說是當(dāng)時國內(nèi)最好的。博士畢業(yè)后,鄢志杰在微軟工作了近7年。回憶起來,他覺得在微軟這幾年的成長經(jīng)歷,極大的拓展了自己在研究以及工業(yè)界思維的廣度和深度。在中科大的時候,鄢志杰主要的方向是語音識別,在微軟后也做了一段時間語音合成、聲紋相關(guān)方向,拓寬了領(lǐng)域。由于是研究院,微軟研究氛圍跟象牙塔式的校園很像,能夠讓研究員慢工出細(xì)活地做一些令人興奮的技術(shù)。

回望2011·突破

回憶起十幾年的學(xué)習(xí)和科研經(jīng)歷,鄢志杰印象最深刻的是語音技術(shù)兩次大的突破。

第一次大的突破在2000年左右,在大詞匯量連續(xù)語音識別任務(wù)上出現(xiàn)了一種叫 discriminative training(區(qū)分度訓(xùn)練)的技術(shù),使得語音識別的準(zhǔn)確率上了一個臺階,相對提升了大致20%-30%。然后在往后的幾年中,就有大量沿著這條技術(shù)路線的新方法被提出來。

好景不長,過了幾年時間,discriminative training陷入了平臺期,一直持續(xù)了快十年。2006年,辛頓提出深度學(xué)習(xí)的概念,深度神經(jīng)網(wǎng)絡(luò)研究因此而復(fù)蘇。2009年,辛頓和他的學(xué)生將深度神經(jīng)網(wǎng)絡(luò)應(yīng)用于語音的聲學(xué)建模上并獲得成功。到了2010年前后,微軟研究院請來了辛頓的學(xué)生前來交流,俞棟、鄧力等人將深度學(xué)習(xí)應(yīng)用到工業(yè)級語音識別系統(tǒng)中,使識別錯誤率再次降低了20%以上。此后,一直到現(xiàn)在,深度學(xué)習(xí)方法在語音識別、語音合成、NLP、對話系統(tǒng)等多方面都取得了成效。

回顧這兩次突破,鄢志杰說:語音技術(shù)從一個個突破到一次次沉寂,總是伴隨著一個螺旋上升的過程。今天的語音交互技術(shù)已經(jīng)跨過了“能用”的門檻,越來越多的向“好用”在邁進(jìn)。 

遇見2015·再出發(fā)

2015年,鄢志杰離開微軟,加入了阿里巴巴iDST (Institute of Data Science and Technologies)。他說現(xiàn)在回過頭來,阿里巴巴最大的特點是落地能力特別強,能夠把技術(shù)產(chǎn)品化,產(chǎn)品再商業(yè)化。幾年后,他越來越明白其中的原因:阿里會要求技術(shù)人員也懂商業(yè),在做技術(shù)選題的時候,把商業(yè)作為其中一個維度來思考。鄢志杰認(rèn)為阿里的商業(yè)基因?qū)λ稣Z音交互技術(shù)是很好的土壤。

2010年深度學(xué)習(xí)技術(shù)與語音結(jié)合之后,到2015年行業(yè)已經(jīng)有了很大的變化,科技巨頭都相繼推出了各自的語音產(chǎn)品。

鄢志杰加入時,正值阿里巴巴開始嚴(yán)肅地投資語音交互技術(shù)(當(dāng)時“AI”這個詞還不像今天這么熱)。阿里做語音在國內(nèi)的巨頭中并不算早,但卻在恰當(dāng)?shù)臅r機入局,完成了對人才和技術(shù)的積累,并滿足了集團自身的發(fā)展的需要。

語音系統(tǒng)、交互系統(tǒng)鏈條很長,鄢志杰加入后主要做的事情是搭建平臺、打基礎(chǔ)。從一張白紙起步,也是一件好事,沒有歷史包袱,能放開了手做,把當(dāng)時最好的技術(shù)迅速產(chǎn)業(yè)化,這是后發(fā)優(yōu)勢。例如,當(dāng)時阿里巴巴團隊在聲學(xué)模型上可以沒有包袱的做最好的選型,在2015年首先上線了latency-controlled BLSTM 模型,叫 LC-BLSTM 模型,這個模型從學(xué)術(shù)界研究出來,到工業(yè)界第一個上線,只用了幾個月的時間。

傳統(tǒng) BLSTM 模型存在latency問題,必須要等到一句話說完了才開始去做解碼,得到結(jié)果,就造成說完這句話后要等很久才能拿到結(jié)果,這當(dāng)然是壞處,但為什么大家還是那么著迷呢,因為好處是精度特別高,準(zhǔn)確程度高。阿里巴巴團隊所做的工作就是能夠把識別的延遲降下來,使得它能夠在邊說話就邊解碼,而不是像以前一樣,要等到這句話結(jié)束后才能夠進(jìn)行解碼,達(dá)到一個既快又好的效果。像這樣的創(chuàng)新還有很多,阿里巴巴用最短的時間從零搭建出一套完全自主的、業(yè)界最頂尖的語音識別系統(tǒng)。

來到2017·達(dá)摩院

iDST團隊在阿里內(nèi)部有幾次調(diào)整,語音在阿里戰(zhàn)略的地位也有所變化。

據(jù)雷鋒網(wǎng)了解,一開始,阿里做語音主要是從阿里內(nèi)部客服中心的需求來出發(fā)的,因為阿里每天淘寶、天貓和支付寶有很多的客服電話,語音識別可以去分析服務(wù)質(zhì)量。當(dāng)時的語音技術(shù)都是通過阿里云輸出的,語音技術(shù)被視為云計算里邊一個不可缺少的原子組件,因此iDST曾被劃分到阿里云。鄢志杰回憶道,之前語音團隊很多時候都是滿足集團各業(yè)務(wù)的需求。

17年上半年的時候,iDST回到了技術(shù)中臺,成立了iDST2.0,改名為機器智能技術(shù)實驗室。當(dāng)時阿里意識到,語音是一個基礎(chǔ)技術(shù),不僅是阿里云一個部門需要,集團內(nèi)外也都有強烈需求。回到中臺后,機器智能技術(shù)實驗室主要承擔(dān)了兩個任務(wù):首先是對內(nèi)服務(wù),支持集團內(nèi)部、螞蟻金服、阿里巴巴經(jīng)濟體等;然后是對外服務(wù),通過阿里云做商業(yè)輸出、被生態(tài)客戶使用。

2017年11月,阿里巴巴 CTO 張建鋒(花名行癲)宣布阿里巴巴成立全球研究院——阿里巴巴達(dá)摩院,研究領(lǐng)域包括量子計算、人工智能、機器學(xué)習(xí)、視覺計算、自然語言處理、下一代人機交互等。機器智能技術(shù)實驗室也劃在了達(dá)摩院之下,是達(dá)摩院在下一代顛覆性人機交互技術(shù)和用戶體驗方面的核心團隊,其中包括鄢志杰負(fù)責(zé)的智能語音交互。

到了達(dá)摩院,阿里巴巴集團加大了對機器智能實驗室團隊的投資力度,團隊的規(guī)模也上升了一個等級。鄢志杰談到,如果說過去iDST主要支撐集團各業(yè)務(wù)部門,到了達(dá)摩院,機器智能實驗室的角色轉(zhuǎn)換成了技術(shù)創(chuàng)造新商業(yè),更多的是去做一些有技術(shù)壁壘的東西。

達(dá)摩院成立后,吸引了諸多國內(nèi)外技術(shù)領(lǐng)軍人物,比如量子計算大牛施堯耘。在鄢志杰的帶領(lǐng)下,語音團隊也招募到了馮建偉、付強、馬斌等行業(yè)大牛,形成了一個橫跨兩岸三國五地的國際化團隊,還有了不止一位“老外”成員。

時隔一年,達(dá)摩院在探索未來科技的路上成績斐然:

研發(fā)了一款神經(jīng)網(wǎng)絡(luò)芯片——Ali-NPU,打破缺芯少魂的被動局面;

研制出世界最強的量子電路模擬器“太章”,成功挑戰(zhàn)谷歌的量子霸權(quán)

斬獲WMT2018國際機器翻譯大賽冠軍

阿里巴巴電商機器翻譯總量日均達(dá)7.5億次

語音團隊也將自身的創(chuàng)新更多的與業(yè)界分享,在前不久開源了最新的語音識別聲學(xué)模型DFSMN,將開源數(shù)據(jù)上語音識別準(zhǔn)確率提高至96.04%,并使得全世界的研究者可以在此基礎(chǔ)上持續(xù)創(chuàng)新。

2018·技術(shù)創(chuàng)造新商業(yè)

鄢志杰曾談到,阿里現(xiàn)在的語音技術(shù)站在端和云的中間,端就是各類終端,包括電視、汽車、音箱、IoT設(shè)備等,云端就是阿里布局的互聯(lián)網(wǎng)內(nèi)容和服務(wù)。

在2018年3 月底的云棲大會上,阿里云總裁胡曉明在會上做出戰(zhàn)略宣布:阿里巴巴全面進(jìn)軍 IoT。這是繼電商、金融、物流、云計算之后的一條新的主賽道。計算是心臟,AI 是大腦,IoT 是神經(jīng)。語音技術(shù)作為核心AI技術(shù)在阿里巴巴的數(shù)字化和物聯(lián)網(wǎng)布局上是重要一環(huán)。鄢志杰認(rèn)為語音交互智能將成為 智聯(lián)網(wǎng)設(shè)備 與內(nèi)容和服務(wù)的橋梁。

那么,阿里各個部門是如何配合起來發(fā)力智能語音+智聯(lián)網(wǎng)的呢?

首先是阿里云物聯(lián)網(wǎng)平臺。2017年10月,阿里云在杭州.云棲大會上發(fā)布阿里云Link物聯(lián)網(wǎng)平臺,提供物聯(lián)網(wǎng)云端一體化使能平臺、物聯(lián)網(wǎng)市場、ICA全球標(biāo)準(zhǔn)聯(lián)盟等三大基礎(chǔ)設(shè)施,已經(jīng)完成生活平臺、城市平臺和商業(yè)共享平臺的的搭建,解決方案覆蓋智能生活、智能城市、智能園區(qū)、智能農(nóng)業(yè)、智能制造、智慧共享六大行業(yè)。然后在終端方面,阿里推出了mesh智能家居開放平臺,使所有智能硬件都能統(tǒng)一接入一個網(wǎng)絡(luò)協(xié)議。

智能語音交互與IoT設(shè)備結(jié)合可以說是一大趨勢,雷鋒網(wǎng)曾分析,2018年,各大公司都在建立IoT平臺,例如:小米IoT開發(fā)者平臺、阿里云Link、百度“天工”、京東Alpha-IoT、QQ物聯(lián)平臺、微軟Azure IoT,這些公司也都有自己的智能語音助手。小米、阿里、百度、微軟等已經(jīng)明確將智能語音+IoT看作IoT平臺以及對話式人工智能發(fā)展的關(guān)鍵。 

目前阿里已經(jīng)推出了天貓精靈、榮威智聯(lián)網(wǎng)汽車、海爾人工智能電視等落地的智能語音產(chǎn)品,除了這些,鄢志杰團隊過去一年還在忙于:將智能語音交互帶到公共空間。

此前的語音交互主要是近場交互或較安靜條件下的遠(yuǎn)場交互,場景局限于拿在手上的手機、安靜的室內(nèi)。鄢志杰團隊在擴展室外公共空間場景做了很多努力,并將創(chuàng)新的多模態(tài)語音交互技術(shù)通過阿里云輸出,解決公共空間嘈雜環(huán)境下的遠(yuǎn)距離語音交互問題。

去年10月,阿里云與上海地鐵展開合作,首次推出了語音售票概念,并已于今年3月正式落戶上海南站供市民使用。乘客只需告訴機器你想去的目的地,就會自動調(diào)用云端的高德地圖服務(wù),檢索完成并自動出票,全程不過數(shù)秒鐘。

鄢志杰表示,地鐵是一個很嘈雜的空間,且會出現(xiàn)多人并排買票的情況,阿里巴巴的解決方案是重新設(shè)計了語音交互硬件的麥克風(fēng)陣列、還添加了光學(xué)攝像頭來識別說話人,解決這一獨特場景的問題。

類似的場景還有很多很多:浙江省100多家法院上線了阿里云智能語音識別系統(tǒng);今年5月的云棲大會武漢峰會上,阿里云在現(xiàn)場相當(dāng)嘈雜的環(huán)境中成功演示了AI點餐技術(shù);據(jù)雷鋒網(wǎng)了解,即將召開的2018杭州·云棲大會上,阿里云還將攜手肯德基展示智能點餐機體驗區(qū)......

物聯(lián)網(wǎng)是一塊大蛋糕,雖然巨頭都在布局,但是各自的角色還是有所不同,有人在做硬件、有人在做系統(tǒng)、有人在做品類。阿里的特色在于電商,無數(shù)的硬件廠商在阿里的平臺上銷售,他們都可以接入阿里平臺,可以獲得阿里的語音交互技術(shù);此外,阿里也在做自己的硬件,比如天貓精靈;阿里的線下支付場景更是獨一無二,對語音交互也有強烈需求。

雖然目前競爭很激烈,但是鄢志杰認(rèn)為語音交互技術(shù)落地,還是需要找到強場景、要有用戶的主動訴求、要有大規(guī)模的市場。鄢志杰認(rèn)為目前市面上的一些語音交互應(yīng)用噱頭成分居多,具備這三種條件的場景其實并不多,需要更多探索。

20XX·人才與未來

在人工智能火熱的當(dāng)下,語音技術(shù)作為基礎(chǔ)技術(shù),發(fā)揮著猶如水、電、煤的力量。各大巨頭都在布局這個賽道,爭奪人才是攻堅戰(zhàn)的第一步。

關(guān)于人才,鄢志杰曾談到,“語音這個圈子實在太小了,大家互相都認(rèn)識,更多是靠我們自己圈子里的口碑,大家知道你們積聚了一類什么樣的人,就能聞到你這個團隊的風(fēng)格,跟他想去做的事情以及做事的方式。圈外人很難說立一塊牌子就說我今天要做一個一流的語音團隊,所以我們此前的招聘更多還是依靠圈子里的口碑,以高手吸引高手的方式來招聘,雖然我們也做了招聘廣告,但很少有人是看了廣告直接就來的?!?/p>

阿里的語音團隊目前承擔(dān)著很重的職能和責(zé)任,但也是一步步成長起來的,這種成長性是能被看到的,去吸引更多想要實現(xiàn)自己的目標(biāo)的人加入。鄢志杰也開玩笑地說道:“各大公司的語音團隊也有不同的特點,有的團隊天生大一統(tǒng),會缺少危機和壓力,有的天天賽馬,容易關(guān)注短期結(jié)果,也造成很多重復(fù)投資,技術(shù)上小打小鬧?!?/p>

最后,雷鋒網(wǎng)編輯請教了鄢志杰對現(xiàn)在語音行業(yè)整體的看法。他談到:“接下來的幾年可能會去偽存真。因為過去幾年AI太熱,會有一些生拉硬拽的所謂的人工智能技術(shù)應(yīng)用冒出來。所以現(xiàn)在我覺得慢慢隨著新的資本追逐的熱點涌現(xiàn),AI在慢慢的回歸理性。這是一個去偽存真的過程,會有一些AI真正的產(chǎn)生價值的應(yīng)用通過大浪淘沙留下來,這對于行業(yè)的健康發(fā)展是有好處的?!?/strong>

相關(guān)文章:

專訪鄢志杰:阿里全面進(jìn)軍 IoT,語音交互能做什么、將做什么?

專訪阿里 iDST 語音組總監(jiān)鄢志杰:智能語音交互從技術(shù)到產(chǎn)品,有哪些坑和細(xì)節(jié)要注意?

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

分享:

編輯

關(guān)注AI業(yè)界、NLP、VR、AR技術(shù)與產(chǎn)品。采訪報道、行業(yè)交流請加微信“Hanass”
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄