丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能 正文
發(fā)私信給亞萌
發(fā)送

0

專訪 | 阿里iDST初敏博士和陳一寧博士:如何打破語音技術(shù)的落地怪圈

本文作者: 亞萌 2017-03-31 23:01
導(dǎo)語:在3月29日云棲大會現(xiàn)場,阿里iDST總監(jiān)初敏博士、iDST語音技術(shù)產(chǎn)品化團隊負責(zé)人陳一寧博士接受了雷鋒網(wǎng)的專訪。

專訪 | 阿里iDST初敏博士和陳一寧博士:如何打破語音技術(shù)的落地怪圈

雷鋒網(wǎng)按:人工智能技術(shù)大熱,一茬接一茬的AI創(chuàng)業(yè)公司蜂擁而起,得到資本和媒體的寵愛。單是根據(jù)去年4月份的統(tǒng)計數(shù)據(jù) ,就有170家Chatbot公司燒掉40億美金。而“人工智能”自帶黑科技光環(huán)的技術(shù)名詞,更是每隔幾個月都要在媒體頭條上“戰(zhàn)勝人類”一次。

今年3月初,Yann Lecun在Twitter上推薦了一篇評論文章,文章作者Bradford Cross表達了一個非常重要的觀點:機器學(xué)習(xí)即服務(wù)(MLaaS)在實踐中令人失望,而且AI公司往往陷入技術(shù)傲慢里而輕視了用戶需求和公司經(jīng)濟學(xué)。

如果我們把2016年看做是AI在中國的初露鋒芒的“元年”,受到百般呵護和追捧,那么到2017年,它就要面臨嚴酷的商業(yè)社會考驗了。因為歸根結(jié)底,技術(shù)的終極價值都要體現(xiàn)在實際應(yīng)用里。如何讓AI技術(shù)有效落地、為商業(yè)社會創(chuàng)造真正的價值?圍繞這個問題,AI科技評論近日采訪了阿里iDST總監(jiān)初敏博士(圖右)和iDST語音技術(shù)產(chǎn)品化團隊負責(zé)人陳一寧博士(圖左),剝析阿里云在AI技術(shù)落地的過程里走過的坑和邁過的坎。

雷鋒網(wǎng):阿里NASA計劃發(fā)布之后,iDST與NASA之間的關(guān)系是怎樣的?

初敏:NASA是一個大的計劃,我覺得是想把有難度的事情更集中在一起做好,而不是像以前一樣分散在各個業(yè)務(wù)里。就我所在的團隊而言,應(yīng)該沒有太大的影響。iDST還是集中解決自然語言、計算機視覺里比較難的問題。

雷鋒網(wǎng):你們?yōu)槠髽I(yè)提供語音技術(shù)服務(wù)的形式是什么?

陳一寧:我們當(dāng)然提供API、SDK這樣底層的基礎(chǔ)接入。也提供解決方案,但解決方案也分很多種,有的解決方案都細化到說函數(shù)都定義好了,就剩實現(xiàn)與否。我們的解決方案會更往上一點,就是給你一個大體的框架,至于最后軟件設(shè)計成什么樣子、最后的展現(xiàn)形態(tài),我們也不需要特別地去掌控。所以我們還是主要跟合作伙伴一起完成一個項目,不是特別端到端大規(guī)模推廣的一種模式。比如奧點云這個例子,我們會告訴對方搭建的整體框圖是什么、如何去搭建,那么再細化的工作可能就不是由我們來做了。

雷鋒網(wǎng):阿里的語音技術(shù)目前在哪些垂直領(lǐng)域有比較成熟的應(yīng)用?

陳一寧:這次我們發(fā)布的幾個戰(zhàn)略合作項目都是比較成熟的。第一個就是與昆石一起發(fā)布的質(zhì)檢云系統(tǒng)。實際上它是在做線路的質(zhì)檢,主要因為現(xiàn)在詐騙比較多,我們也是希望能夠給社會做一些貢獻。這個質(zhì)檢系統(tǒng)能夠檢測出一些常見的詐騙套路。經(jīng)營者其實都是對于詐騙深惡痛絕的,但是又很難發(fā)現(xiàn),靠人工來監(jiān)聽,成本實在是太高了。那么通過語音識別的方式,把語音變成文字以后,詐騙的套路就比較容易被檢測出來。

第二個就是在直播里生成字幕。實時生成字幕在商用直播里正在逐步變成流行的功能了。他們的需求就是,有時候用戶不能聽、只能看,這個時候需要字幕;還有的比如會議直播,開完之后希望有一個速記稿出來,那就沒有必要專門請一個速記員。所以我們跟奧點云合作的就是這類。

第三個就是泛質(zhì)檢類的服務(wù)。這一塊我們有很多客戶接入,舉個例子,比如說像有一個做短租的合作伙伴,他們的商業(yè)模式就是充當(dāng)一個中介的角色,但是如果中間溝通過程中,兩頭的用戶之間自己打電話或微信私聊,那么這個商業(yè)模式就被打破了。所以,對于中介類的公司來說,最敏感的就是不能讓兩邊的用戶互留聯(lián)系方式。但這件事實際上是很難判斷的,那他們用了我們的服務(wù)以后,就可以幫助他們監(jiān)聽,來進行管理。

第四個就是我們的法庭速記。這已經(jīng)有了一套完整的可復(fù)制的模式,自動化生成審判書,甚至現(xiàn)場狀況好的時候,直接打印出來簽字就可以了。

雷鋒網(wǎng):目前語音市場還是處在被教育的階段嗎?還是說現(xiàn)在已經(jīng)有很多企業(yè)主動跑過來找你們了?

陳一寧:我們現(xiàn)在的情況是,主動找過來的企業(yè),已經(jīng)應(yīng)接不暇了。那市場是不是還要被教育,我覺得也是的,跟一個大爆發(fā)市場相比,現(xiàn)在還是一個先期的狀態(tài)。

初敏:我也覺的目前還是處在一個市場被教育的階段,這不是一個所有人都去搶的well-developed的市場。

比如說像奧點云這樣的一個項目,過去是沒有的,在過去這個市場是不存在的。這個市場現(xiàn)在之所以會存在,是因為我們云棲大會上展示了這樣的技術(shù)和案例,很多人看見了,就覺得自己也想要。我們當(dāng)時在云棲大會的直播上出了字幕,所以很多做視頻的就會說,我也想要這個,所以這才推動奧點云這個項目誕生。就生成字幕這個技術(shù)而言, 其實字幕只是一種外在的表現(xiàn)形式,里面更重要的是,語音轉(zhuǎn)成文字之后,就擁有一種新的數(shù)據(jù)形態(tài)了,那你根據(jù)這些數(shù)據(jù),可以對視頻做檢索,對視頻內(nèi)容進行分析等等,后續(xù)可以做很多事情。

再比如我們?nèi)シㄔ豪镒鏊儆?,這也不是一個存量市場,一家法院用了之后,其他法院覺得挺好的,才開始有這個市場。所以我覺的,是我們在探索新的市場,但是具體到要把某一個領(lǐng)域真正做的好,不是單單靠我們這邊把一套完整的東西做完,也要靠合作伙伴的精耕細作。

我們現(xiàn)在很重要的一個方向,就是把在新領(lǐng)域探索的合作項目經(jīng)驗和模式固化下來,這樣我們在初期的投入才是有價值的。

雷鋒網(wǎng):現(xiàn)在你們的語音技術(shù)有一套固化下來的應(yīng)用模式嗎?

陳一寧:我理解是每一個行業(yè)是不太一樣的。比如說像我們現(xiàn)在這種司法的領(lǐng)域,其中涉及到個整個數(shù)字法庭怎么布置、接入多少路的數(shù)據(jù)、數(shù)據(jù)更新、麥克風(fēng)怎么擺放,什么樣的設(shè)備進行回聲消除、是否要有音量顯示......等等整個一套流程,這就是這個領(lǐng)域特有的模式。

初敏:對。其實是說從某種角度來說,就是要把它變成標(biāo)準化的流程。除了語音識別技術(shù)本身,同時可能要提供一些最基礎(chǔ)的一些工具,比如說麥克風(fēng)音量的監(jiān)測(音量太大或太小都是不行的)。因為在初期,我們的合作伙伴沒有相關(guān)經(jīng)驗,所以我們有時候就是要多往前走一步,幫他們一下。比如有時候兩個麥克風(fēng)特別近,或者現(xiàn)場一個喇叭就放在麥克風(fēng)后面,這都是有問題的,那我們團隊就要現(xiàn)場去指導(dǎo)部署。合作伙伴能搞定兩個了,那之后復(fù)制一百個也沒問題了,但是頭兩個我們都會派人去幫它一起看。

雷鋒網(wǎng):語音技術(shù)應(yīng)用于具體的業(yè)務(wù)場景過程中,你們面臨了哪些阻礙?

初敏:把一個看似很高大上的技術(shù)成功應(yīng)用,真的是有太多的細節(jié)問題要去解決。就像我們云棲大會現(xiàn)場生成字幕,其實頭兩場云棲大會,我們最害怕的是接線,線路接不對,就會有巨大的噪聲在里面,那就太嚇人了。我記得有一次,就突然有電噪聲,最后還是請教音頻老師,只要把其中兩個線路插在一個電線板上,問題就解決了,但我們之前并不知道。

所以,我們這一年時間做下來,切身體會到,語音技術(shù)落地真的不是閉著眼睛就能做到的。一般技術(shù)提供商,會想當(dāng)然地認為,我們有API和SDK,你接入就好了嘛,其實遠不是這么回事兒(笑)。這個過程中,就是要把工作做細,積累成一個可以復(fù)制的模式。

陳一寧:之前我們擔(dān)心的很多問題,包括麥克風(fēng)的選型、線路搭建、有沒有引入噪聲......這樣的一些落地的細節(jié)中都會有很多問題會產(chǎn)生。

其實這場云棲大會的字幕,已經(jīng)徹底是由供應(yīng)商來做全部的事情了。以前的話,是我們團隊自己來做,所以就一場一場慢慢來,到今年云棲大會的字幕、網(wǎng)上直播的字幕,已經(jīng)都完全是由供應(yīng)商來完成了,我們基本上就沒有參與了。

我們就怕技術(shù)是一個Demo,就是我能操作,但換一個人用就不行了。所以我們初期跟合作伙伴磨合,做好幾個具體項目后,后續(xù)讓他們自己完全掌控,這就是我們特別希望達到的一個狀態(tài)。

雷鋒網(wǎng):陳一寧老師,您之前在演講中提到強定制化是阿里的核心競爭力,能具體講講嗎?

陳一寧:語音技術(shù)的實現(xiàn)跟領(lǐng)域的相關(guān)性很高,它不像輸入法,做出來一個,到哪里都能用。其實很多時候,你在一個領(lǐng)域里做好了技術(shù),到其它場景就不能用了。通用的語音技術(shù)是無法滿足客戶特定需求的,那么我們會幫助他們?nèi)ザㄖ茖儆谧约旱恼Z音引擎。比如我們的ET智能語音系統(tǒng)正在逐漸對外開放,最簡單有熱詞的設(shè)置(這個已經(jīng)開放了),更進一步的還可以接入自己的領(lǐng)域數(shù)據(jù),這一點我們內(nèi)部業(yè)務(wù)團隊已經(jīng)在成熟地使用了,之后也會推廣給外部合作伙伴。

醫(yī)療領(lǐng)域和電商領(lǐng)域,肯定是不相關(guān)的,在知識上講,各自都有很多的詞匯。客戶在自己的領(lǐng)域都具有很多的知識和信息,那么客戶把包含特色信息的文本輸入進來,由我們的機器來學(xué)習(xí)這些文本,識別率就會得到提升。

阿里對于客戶數(shù)據(jù)的保護是非常嚴格的,有非常高等級的要求。除了各種ISO認證,內(nèi)部還有很多嚴格的規(guī)定,是不能看用戶數(shù)據(jù)的。一般來說,各領(lǐng)域的知識,也通常不是敏感的信息。但如果是某些行業(yè)的數(shù)據(jù)敏感度高,那么我們也有專有云來做相關(guān)的事情。

雷鋒網(wǎng):初敏老師,您之前在演講中談到,對AI公司來說迭代的速度是非常重要的,為什么?

初敏:其實一個學(xué)習(xí)的過程,簡單來講就是給一堆數(shù)據(jù),然后從中學(xué)個模型出來。但是如果從一個場景數(shù)據(jù)換到另一個場景數(shù)據(jù),你能夠多快學(xué)出來?

今天所有的機器學(xué)習(xí)里,如果做的規(guī)模比較大,訓(xùn)練過程是很慢的,有時幾天、幾星期都弄不好。通常小一點的企業(yè),基本上都是按“月”來迭代的,都兩個月、三個月才完成一次完整的調(diào)試。幾十萬和幾千萬的樣本規(guī)模是很不一樣的。典型的語音識別,如果是2千個小時的數(shù)據(jù),只用一塊卡,可能需要好幾天才能迭代一次,那如果是2萬個小時的數(shù)據(jù),基本上就不可行了。所以,很多的時候,底層的技術(shù)保障也是必須的。

我們現(xiàn)在要花很多時間做多機多卡,其實訓(xùn)練模型在整個過程中間也只是非常小的一環(huán),在整個鏈條里只占三分之一的時間,剩下三分之二的時間就是在倒騰數(shù)據(jù)。比如我們今天,把數(shù)據(jù)存在某個地方,然后把它拿出來提升feature,然后還要做一輪預(yù)處理(例如語音識別需要做傳統(tǒng)的HMM),這一套前期的工作可能比在GPU上進行深度學(xué)習(xí)訓(xùn)練花費的時間還要多。實際上,迭代速度決定了你的進步速度,是讓A和B真正產(chǎn)生差別的地方。真正到大規(guī)模訓(xùn)練和應(yīng)用的時候,底層的基礎(chǔ)設(shè)施能力是非常非常重要的。所以今天高校研究就面臨很大的挑戰(zhàn),就是因為當(dāng)面臨大規(guī)模數(shù)據(jù)的時候,就會做不了,所以通常高校老師會做算法本身的研究。

那我們現(xiàn)在希望把這個速度做到按“天”迭代。這當(dāng)中就是主要是基于阿里云的云計算平臺的優(yōu)勢。我們從數(shù)據(jù)的存儲、處理,到不同階段在CPU、GPU上的打通,并發(fā)性比較好,所以才會比較快。

雷鋒網(wǎng):AI行業(yè)里有一個很經(jīng)典的問題,就是現(xiàn)在大部分AI公司都是拿著錘子找釘子。你們?nèi)绾谓鉀Q找“釘子”(用戶需求)的問題?

初敏:阿里整個的氛圍就是比較務(wù)實的。我覺AI技術(shù)在阿里比較容易成功落地,是因為我們比較幸運地可以借助很多外力。首先就是有非常多的業(yè)務(wù)場景,這個是別人很難得到的,往往得到其中一個就很難,而我們手里有8至10個非常好的業(yè)務(wù)場景。你的技術(shù)只有在真正用的時候才能打磨,最終做到真正好用。所以這就是我們覺得很興奮的地方,就像一寧昨天晚上工作到2點才休息,其實我們團隊很多人真的每天都是這么拼的。因為你有很多的業(yè)務(wù)場景,只要你有能力,你都可以去做。

我們不是到處要找“釘子”,而是“釘子”堆上來了,就看你搞不搞的定。所以我們始終處在一個超級興奮的過程中,恨不得每天多做點事兒(笑)。再有一個就是,阿里云這些非常好的基礎(chǔ)設(shè)施,使得我們在起步的時候,門檻就低很多。

所以雖然我們只有幾十個人,但我們做了很多事情。當(dāng)然,這些事情也并不全是我們自己做的,我們在內(nèi)部有很多合作伙伴,特別是工程落地方面,內(nèi)部業(yè)務(wù)都是合作伙伴做的。所以我覺的特別幸運,就是你有場景、有數(shù)據(jù)、有很好的計算平臺,還有特別多的合作伙伴一起做事情,我覺得這是我們特別有優(yōu)勢的地方。

雷鋒網(wǎng):如何看待以亞馬遜Alexa為代表的語音助手,它們會成為取代手機的下一代的入口載體嗎? 

初敏:取代手機是不太可能。無論是什么入口,最終的大目標(biāo)是一致的:為了獲取網(wǎng)上或云上的信息。有時候手機觸摸交互就很方便,那如果我在做飯,也許一個語音交互的冰箱就更合適。在不同的場景中,會用到不同的端。

我認為,未來并不是每一個家電設(shè)備都要具有接入語音的能力,一個場景里有一個主導(dǎo)設(shè)備(Hub)就可以了,可能是音響、Wifi設(shè)備或電視等等,并沒有太本質(zhì)的區(qū)別。無非就是有沒有麥克風(fēng)和揚聲器,有沒有攝像頭,最理想的狀態(tài)就是能跟別的設(shè)備都連在一起,那家居的數(shù)據(jù)聯(lián)通問題,就是我們IoT的團隊在做,在慢慢嘗試做一個接入體系。

那到底是哪類家居會成為它所在場景里的Hub,我覺的目前這個是不明確的,大家都在嘗試階段。

雷鋒網(wǎng):2016年你們主要做了什么工作?2017年主要的目標(biāo)是什么?

陳一寧:2016年最主要的事情,就是我們從零開始,對外提供產(chǎn)品化的語音技術(shù)。這讓我們真正意識到,我們的技術(shù)確實能夠幫助到戶,這非常令人振奮。

未來一段時間,我們更多的是希望跟合作伙伴的業(yè)務(wù)結(jié)合,把已有的合作樣例變成成熟的解決方案,推廣給更多的客戶,這是我們今年著重關(guān)注的事情。

初敏:過去一段時間,我覺得我們跑的非??臁T趧e的企業(yè)里頭,可能花了十年時間積攢的技術(shù),我們2年就做出來了,技術(shù)本身的迭代非常快。

我們并不是在追求技術(shù)的“高大上”,而是希望把技術(shù)做好,最終能落地。那么一寧的團隊沖在最前面,我們的團隊比較在后方一些。語音這個技術(shù),到底能怎么用,過去大家一想,就說“個人助理”。但今天我們看到了,遠遠不止這么一個用途。我們所有的市場,都不是存量市場,都需要去開拓。

我們的團隊成員很多是做研究出身的,我們就有一個特別大的夢想,就是把這個技術(shù)做到真正可以使用。過去這一年,真的是讓我們看到這個夢想實現(xiàn)的希望,這條路越開越寬,這是我覺得特別興奮的。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

專訪 | 阿里iDST初敏博士和陳一寧博士:如何打破語音技術(shù)的落地怪圈

分享:
相關(guān)文章

編輯

關(guān)注人工智能(AI)報道
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說