0
根據《2018中國智能語音行業(yè)前景研究報告》,2017年中國的智能語音市場規(guī)模已經達到了105.71億元,比2016年增長了70%,而2018年這個規(guī)模預計將繼續(xù)擴大三分之一,達到159.7億元。語音行業(yè)紅紅火火。
站在2003年,鄢志杰選擇進入中科大語音實驗室攻讀博士時,行業(yè)留給語音人才的就業(yè)崗位極其稀缺,當時像微軟亞洲研究院這樣跨國公司的研發(fā)機構,每年在語音方向上也就一兩個校招名額。當時的他,自然難以想象15年后,語音技術會如此火爆,像水電這樣的基礎設施一樣融入每個人的生活。
扎根語音行業(yè)十多年,他在語音識別、語音合成、語音交互等多個領域都有了深入的研究,熬過了長達近十年的技術瓶頸期,見證兩次語音技術的大突破,終于等到人人都能明白語音交互的概念和未來。鄢志杰作為目前阿里語音團隊的帶頭人,聊過很多關于語音技術的現狀和未來,不過他這十幾年的個人經歷,他在中科大語音實驗室、微軟亞洲研究院語音團隊、阿里巴巴機器智能技術實驗室的經歷,卻很少為人所知。雷鋒網這篇獨家對話文,正是想讓鄢志杰談談他一路走來的風景。
(鄢志杰,阿里巴巴達摩院機器智能技術實驗室語音交互首席專家,長期從事語音交互智能的研究、產品化和商業(yè)化工作。畢業(yè)于中國科學技術大學語音實驗室,獲博士學位,2015年加入阿里巴巴集團。在加入阿里巴巴集團之前,就職于微軟亞洲研究院語音團隊任主管研究員。其研究領域主要包括語音識別、語音合成、聲紋、語音交互等。在語音及文本識別領域頂級學術期刊及會議發(fā)表多篇論文,長期擔任語音領域頂級學術會議及期刊的專家評審,并擁有多項美國及PCT專利。其研究成果被轉化并應用于阿里巴巴集團、螞蟻金服及微軟公司多項語音相關產品中,目前是IEEE senior member。曾榮獲中國科協(xié)百名基層科技工作者稱號。)
2003年,鄢志杰本科畢業(yè),他選擇升入中科大語音實驗室,攻讀博士學位。鄢志杰師從王仁華教授,是最后幾屆關門弟子。王仁華教授是語音領域大牛,不僅精通語音技術,還熟諳語音技術的商業(yè)化,當時他已經是科大訊飛主要創(chuàng)始人之一、科大訊飛董事長。
站在2003年,鄢志杰或許想不到語音行業(yè)會有現在這么火熱。他回憶道,當時,在語音合成方面,機器人說出來的話只能做到聽懂,沒辦法合成長段的、流暢自然的語音。在語音識別方面,只能在簡單任務上做得比較好,例如數字串識別。像今天的智能語音助理,能聽懂用戶說的話再去執(zhí)行任務,這樣的應用在當時是難以想象的。
十幾年前,語音不是熱門專業(yè),但是在鄢志杰看來,語音是人機交互下一個里程碑,是有趣有用的技術,就值得學。他的導師王仁華教授也非常開放,除了教書育人、在實驗室培養(yǎng)學生,也通過人脈將學生們送到海內外各個學?;蚬镜闹芯繖C構去訪問交流。例如鄢志杰自己,在攻讀博士學位期間就先后到微軟亞洲研究院和美國佐治亞理工學院的語音實驗室訪問。要知道,彼時國內做研究、查論文、做學術交流的條件遠不如現在這樣方便,既沒有開源學術社區(qū),學術搜索引擎也還不存在。而這些經歷大大的開拓了像鄢志杰這樣的學生們的國際視野,也造就了今天國內語音學術界和工業(yè)界的一批活躍分子。王老師實驗室的弟子們很多都成為了高??蒲性核虍a業(yè)界從事語音交互技術的骨干。
但回到10年前,技術的不成熟使得工業(yè)界對語音專業(yè)的學生的需求也小。在當時,全世界的就業(yè)市場留給語音專業(yè)的畢業(yè)生的崗位很少,可以說是稀缺,畢業(yè)生并不好找工作。只有像微軟、IBM這些大公司能夠燒錢養(yǎng)活團隊,持續(xù)在語音領域做技術研發(fā)。鄢志杰去到微軟亞洲研究院那幾年,研究院在亞太范圍內每年也就一兩個校招博士名額。
鄢志杰說,微軟是一家偉大的世界級公司,儲備的是世界級人才,微軟能提供的平臺和視野對做語音交互的人才來說是當時國內最好的。博士畢業(yè)后,鄢志杰在微軟工作了近7年。回憶起來,他覺得在微軟這幾年的成長經歷,極大的拓展了自己在研究以及工業(yè)界思維的廣度和深度。在中科大的時候,鄢志杰主要的方向是語音識別,在微軟后也做了一段時間語音合成、聲紋相關方向,拓寬了領域。由于是研究院,微軟研究氛圍跟象牙塔式的校園很像,能夠讓研究員慢工出細活地做一些令人興奮的技術。
回憶起十幾年的學習和科研經歷,鄢志杰印象最深刻的是語音技術兩次大的突破。
第一次大的突破在2000年左右,在大詞匯量連續(xù)語音識別任務上出現了一種叫 discriminative training(區(qū)分度訓練)的技術,使得語音識別的準確率上了一個臺階,相對提升了大致20%-30%。然后在往后的幾年中,就有大量沿著這條技術路線的新方法被提出來。
好景不長,過了幾年時間,discriminative training陷入了平臺期,一直持續(xù)了快十年。2006年,辛頓提出深度學習的概念,深度神經網絡研究因此而復蘇。2009年,辛頓和他的學生將深度神經網絡應用于語音的聲學建模上并獲得成功。到了2010年前后,微軟研究院請來了辛頓的學生前來交流,俞棟、鄧力等人將深度學習應用到工業(yè)級語音識別系統(tǒng)中,使識別錯誤率再次降低了20%以上。此后,一直到現在,深度學習方法在語音識別、語音合成、NLP、對話系統(tǒng)等多方面都取得了成效。
回顧這兩次突破,鄢志杰說:語音技術從一個個突破到一次次沉寂,總是伴隨著一個螺旋上升的過程。今天的語音交互技術已經跨過了“能用”的門檻,越來越多的向“好用”在邁進。
2015年,鄢志杰離開微軟,加入了阿里巴巴iDST (Institute of Data Science and Technologies)。他說現在回過頭來,阿里巴巴最大的特點是落地能力特別強,能夠把技術產品化,產品再商業(yè)化。幾年后,他越來越明白其中的原因:阿里會要求技術人員也懂商業(yè),在做技術選題的時候,把商業(yè)作為其中一個維度來思考。鄢志杰認為阿里的商業(yè)基因對他做語音交互技術是很好的土壤。
2010年深度學習技術與語音結合之后,到2015年行業(yè)已經有了很大的變化,科技巨頭都相繼推出了各自的語音產品。
鄢志杰加入時,正值阿里巴巴開始嚴肅地投資語音交互技術(當時“AI”這個詞還不像今天這么熱)。阿里做語音在國內的巨頭中并不算早,但卻在恰當的時機入局,完成了對人才和技術的積累,并滿足了集團自身的發(fā)展的需要。
語音系統(tǒng)、交互系統(tǒng)鏈條很長,鄢志杰加入后主要做的事情是搭建平臺、打基礎。從一張白紙起步,也是一件好事,沒有歷史包袱,能放開了手做,把當時最好的技術迅速產業(yè)化,這是后發(fā)優(yōu)勢。例如,當時阿里巴巴團隊在聲學模型上可以沒有包袱的做最好的選型,在2015年首先上線了latency-controlled BLSTM 模型,叫 LC-BLSTM 模型,這個模型從學術界研究出來,到工業(yè)界第一個上線,只用了幾個月的時間。
傳統(tǒng) BLSTM 模型存在latency問題,必須要等到一句話說完了才開始去做解碼,得到結果,就造成說完這句話后要等很久才能拿到結果,這當然是壞處,但為什么大家還是那么著迷呢,因為好處是精度特別高,準確程度高。阿里巴巴團隊所做的工作就是能夠把識別的延遲降下來,使得它能夠在邊說話就邊解碼,而不是像以前一樣,要等到這句話結束后才能夠進行解碼,達到一個既快又好的效果。像這樣的創(chuàng)新還有很多,阿里巴巴用最短的時間從零搭建出一套完全自主的、業(yè)界最頂尖的語音識別系統(tǒng)。
iDST團隊在阿里內部有幾次調整,語音在阿里戰(zhàn)略的地位也有所變化。
據雷鋒網了解,一開始,阿里做語音主要是從阿里內部客服中心的需求來出發(fā)的,因為阿里每天淘寶、天貓和支付寶有很多的客服電話,語音識別可以去分析服務質量。當時的語音技術都是通過阿里云輸出的,語音技術被視為云計算里邊一個不可缺少的原子組件,因此iDST曾被劃分到阿里云。鄢志杰回憶道,之前語音團隊很多時候都是滿足集團各業(yè)務的需求。
17年上半年的時候,iDST回到了技術中臺,成立了iDST2.0,改名為機器智能技術實驗室。當時阿里意識到,語音是一個基礎技術,不僅是阿里云一個部門需要,集團內外也都有強烈需求?;氐街信_后,機器智能技術實驗室主要承擔了兩個任務:首先是對內服務,支持集團內部、螞蟻金服、阿里巴巴經濟體等;然后是對外服務,通過阿里云做商業(yè)輸出、被生態(tài)客戶使用。
2017年11月,阿里巴巴 CTO 張建鋒(花名行癲)宣布阿里巴巴成立全球研究院——阿里巴巴達摩院,研究領域包括量子計算、人工智能、機器學習、視覺計算、自然語言處理、下一代人機交互等。機器智能技術實驗室也劃在了達摩院之下,是達摩院在下一代顛覆性人機交互技術和用戶體驗方面的核心團隊,其中包括鄢志杰負責的智能語音交互。
到了達摩院,阿里巴巴集團加大了對機器智能實驗室團隊的投資力度,團隊的規(guī)模也上升了一個等級。鄢志杰談到,如果說過去iDST主要支撐集團各業(yè)務部門,到了達摩院,機器智能實驗室的角色轉換成了技術創(chuàng)造新商業(yè),更多的是去做一些有技術壁壘的東西。
達摩院成立后,吸引了諸多國內外技術領軍人物,比如量子計算大牛施堯耘。在鄢志杰的帶領下,語音團隊也招募到了馮建偉、付強、馬斌等行業(yè)大牛,形成了一個橫跨兩岸三國五地的國際化團隊,還有了不止一位“老外”成員。
時隔一年,達摩院在探索未來科技的路上成績斐然:
研發(fā)了一款神經網絡芯片——Ali-NPU,打破缺芯少魂的被動局面;
研制出世界最強的量子電路模擬器“太章”,成功挑戰(zhàn)谷歌的量子霸權
斬獲WMT2018國際機器翻譯大賽冠軍
阿里巴巴電商機器翻譯總量日均達7.5億次
語音團隊也將自身的創(chuàng)新更多的與業(yè)界分享,在前不久開源了最新的語音識別聲學模型DFSMN,將開源數據上語音識別準確率提高至96.04%,并使得全世界的研究者可以在此基礎上持續(xù)創(chuàng)新。
鄢志杰曾談到,阿里現在的語音技術站在端和云的中間,端就是各類終端,包括電視、汽車、音箱、IoT設備等,云端就是阿里布局的互聯網內容和服務。
在2018年3 月底的云棲大會上,阿里云總裁胡曉明在會上做出戰(zhàn)略宣布:阿里巴巴全面進軍 IoT。這是繼電商、金融、物流、云計算之后的一條新的主賽道。計算是心臟,AI 是大腦,IoT 是神經。語音技術作為核心AI技術在阿里巴巴的數字化和物聯網布局上是重要一環(huán)。鄢志杰認為語音交互智能將成為 智聯網設備 與內容和服務的橋梁。
那么,阿里各個部門是如何配合起來發(fā)力智能語音+智聯網的呢?
首先是阿里云物聯網平臺。2017年10月,阿里云在杭州.云棲大會上發(fā)布阿里云Link物聯網平臺,提供物聯網云端一體化使能平臺、物聯網市場、ICA全球標準聯盟等三大基礎設施,已經完成生活平臺、城市平臺和商業(yè)共享平臺的的搭建,解決方案覆蓋智能生活、智能城市、智能園區(qū)、智能農業(yè)、智能制造、智慧共享六大行業(yè)。然后在終端方面,阿里推出了mesh智能家居開放平臺,使所有智能硬件都能統(tǒng)一接入一個網絡協(xié)議。
智能語音交互與IoT設備結合可以說是一大趨勢,雷鋒網曾分析,2018年,各大公司都在建立IoT平臺,例如:小米IoT開發(fā)者平臺、阿里云Link、百度“天工”、京東Alpha-IoT、QQ物聯平臺、微軟Azure IoT,這些公司也都有自己的智能語音助手。小米、阿里、百度、微軟等已經明確將智能語音+IoT看作IoT平臺以及對話式人工智能發(fā)展的關鍵。
目前阿里已經推出了天貓精靈、榮威智聯網汽車、海爾人工智能電視等落地的智能語音產品,除了這些,鄢志杰團隊過去一年還在忙于:將智能語音交互帶到公共空間。
此前的語音交互主要是近場交互或較安靜條件下的遠場交互,場景局限于拿在手上的手機、安靜的室內。鄢志杰團隊在擴展室外公共空間場景做了很多努力,并將創(chuàng)新的多模態(tài)語音交互技術通過阿里云輸出,解決公共空間嘈雜環(huán)境下的遠距離語音交互問題。
去年10月,阿里云與上海地鐵展開合作,首次推出了語音售票概念,并已于今年3月正式落戶上海南站供市民使用。乘客只需告訴機器你想去的目的地,就會自動調用云端的高德地圖服務,檢索完成并自動出票,全程不過數秒鐘。
鄢志杰表示,地鐵是一個很嘈雜的空間,且會出現多人并排買票的情況,阿里巴巴的解決方案是重新設計了語音交互硬件的麥克風陣列、還添加了光學攝像頭來識別說話人,解決這一獨特場景的問題。
類似的場景還有很多很多:浙江省100多家法院上線了阿里云智能語音識別系統(tǒng);今年5月的云棲大會武漢峰會上,阿里云在現場相當嘈雜的環(huán)境中成功演示了AI點餐技術;據雷鋒網了解,即將召開的2018杭州·云棲大會上,阿里云還將攜手肯德基展示智能點餐機體驗區(qū)......
物聯網是一塊大蛋糕,雖然巨頭都在布局,但是各自的角色還是有所不同,有人在做硬件、有人在做系統(tǒng)、有人在做品類。阿里的特色在于電商,無數的硬件廠商在阿里的平臺上銷售,他們都可以接入阿里平臺,可以獲得阿里的語音交互技術;此外,阿里也在做自己的硬件,比如天貓精靈;阿里的線下支付場景更是獨一無二,對語音交互也有強烈需求。
雖然目前競爭很激烈,但是鄢志杰認為語音交互技術落地,還是需要找到強場景、要有用戶的主動訴求、要有大規(guī)模的市場。鄢志杰認為目前市面上的一些語音交互應用噱頭成分居多,具備這三種條件的場景其實并不多,需要更多探索。
在人工智能火熱的當下,語音技術作為基礎技術,發(fā)揮著猶如水、電、煤的力量。各大巨頭都在布局這個賽道,爭奪人才是攻堅戰(zhàn)的第一步。
關于人才,鄢志杰曾談到,“語音這個圈子實在太小了,大家互相都認識,更多是靠我們自己圈子里的口碑,大家知道你們積聚了一類什么樣的人,就能聞到你這個團隊的風格,跟他想去做的事情以及做事的方式。圈外人很難說立一塊牌子就說我今天要做一個一流的語音團隊,所以我們此前的招聘更多還是依靠圈子里的口碑,以高手吸引高手的方式來招聘,雖然我們也做了招聘廣告,但很少有人是看了廣告直接就來的?!?/p>
阿里的語音團隊目前承擔著很重的職能和責任,但也是一步步成長起來的,這種成長性是能被看到的,去吸引更多想要實現自己的目標的人加入。鄢志杰也開玩笑地說道:“各大公司的語音團隊也有不同的特點,有的團隊天生大一統(tǒng),會缺少危機和壓力,有的天天賽馬,容易關注短期結果,也造成很多重復投資,技術上小打小鬧?!?/p>
最后,雷鋒網編輯請教了鄢志杰對現在語音行業(yè)整體的看法。他談到:“接下來的幾年可能會去偽存真。因為過去幾年AI太熱,會有一些生拉硬拽的所謂的人工智能技術應用冒出來。所以現在我覺得慢慢隨著新的資本追逐的熱點涌現,AI在慢慢的回歸理性。這是一個去偽存真的過程,會有一些AI真正的產生價值的應用通過大浪淘沙留下來,這對于行業(yè)的健康發(fā)展是有好處的。”
相關文章:
專訪鄢志杰:阿里全面進軍 IoT,語音交互能做什么、將做什么?
專訪阿里 iDST 語音組總監(jiān)鄢志杰:智能語音交互從技術到產品,有哪些坑和細節(jié)要注意?
雷峰網原創(chuàng)文章,未經授權禁止轉載。詳情見轉載須知。