0
本文作者: 張夢華 | 2017-07-13 13:24 | 專題:GAIR 2017 |
雷鋒網(wǎng)注:7 月 8 日,中國計算機學會(CCF)主辦、雷鋒網(wǎng)與香港中文大學(深圳)承辦的 CCF-GAIR 2017 大會,驀然認知 CEO 戴帥湘在智能助手專場做了《對話即應用》的演講,闡述了語音交互在生活場景中的具體應用,以及機器對話中需要解決的有關(guān)語義理解的諸多問題。
會后,在專訪中,戴帥湘又與雷鋒網(wǎng)進一步分享了其對于語義理解、場景服務的理解。眼下語義理解的核心是什么?難題在哪兒?如何克服?百度、阿里等巨頭的進入將對創(chuàng)業(yè)公司造成什么影響......關(guān)于這些問題,戴帥湘一一作了解答。
以下為戴帥湘采訪實錄,雷鋒網(wǎng)做了不改變原意的修改:
問:驀然認知的連續(xù)對話能到什么程度?似乎在一些場景中,連續(xù)對話總是不能滿足需要?
戴帥湘:連續(xù)對話其實不是句子,是意圖,你可能說五句話還是同一個意圖。剛才我說的多輪對話實際是融合了多種場景,比如你說“我要去看電影”,但是在這之前,你可能需要了解,現(xiàn)在上映的有什么電影,是誰演的,這個導演最近有沒有緋聞......它是擴展的,不只停留在看電影上面。
你要覆蓋盡可能多的、用戶可能發(fā)散的意圖,因為人不是機器,不會按照固定的套路去問。人的思路是一個由單點往外擴散的過程,所以要盡可能地多理解他的意圖,盡可能多做長尾的意圖理解。解決這種發(fā)散性問題,把它囊括在對話系統(tǒng)里面很重要,所以,不是只要多輪次,要將多場景結(jié)合在一起。
問:要實現(xiàn)對長尾意圖的理解,有什么難題?
戴帥湘:難題肯定會有,但是還是可以做到的。比如說語義理解,你是不是可以快速進行場景移植,是不是可以在新的場景里把已有的、已學的東西進行遷移學習。
要做到這些,現(xiàn)在有一些基本的方案,但不管用哪種,你都會考慮,有沒有優(yōu)化的。難點就在于,你能想到什么樣的途徑。
問:剛才在臺上你說“堅定地不看好智能音箱”,但好像驀然現(xiàn)在也正在跟聲智科技合作智能音箱的項目?
戴帥湘:聲智做的是聲音入口,它不一定要放到音箱里面,也可以是汽車、電視、穿戴式設備。音箱現(xiàn)在很火,推一個音箱芯片,可以多一份市場,并沒有壞處。
但音箱不太可能成為量很大的產(chǎn)品,它燒不了量,規(guī)模化就很難,所以不太可能成為像電視那么主流的設備。
問:可亞馬遜的出貨量已經(jīng)超過 1000 萬臺了。
戴帥湘:這是累計吧。美國的生活里,每家每戶都有音箱,它是有基礎的。這是很重要的原因。一樣東西要成為爆款,必須要有延續(xù)性,比如手機,用戶有需求,手機本身就是很大的市場。
存量市場必須得有,沒有存量市場或者存量市場很小的話,推一個全新的品類,其實意義不大。除非你有說服用戶的巨大能力,非常強大的營銷能力,去讓用戶接受一個本來不大需要的東西,這個其實是有難度的。
問:為什么選擇家居和車載這兩個場景?
戴帥湘:因為它們本身就已經(jīng)實現(xiàn)了商業(yè)化,市場前景非常廣闊。電視在中國人的家里占據(jù)中心位置,做電視不是為了電視,而是為了占住家庭中心。只是電視比音箱難,它涉及的內(nèi)容太多。
汽車產(chǎn)業(yè)已經(jīng)有 100 年了,它需要融入更多新技術(shù)和互聯(lián)網(wǎng)思維,比如自動駕駛、人機交互。這是一個非常有前景的場景,而且非常適合交互。
問:一些生態(tài)廠商,像小米、樂視可能已經(jīng)占據(jù)了家庭設備的中心?
戴帥湘:其實在中國,真正占據(jù)家庭中心的是傳統(tǒng)設備廠商,電視發(fā)貨量最大的還是傳統(tǒng)那幾家。
而且電視沒有那么大的增量,你還得改造它,比如說,已有的電視可以通過接入盒子或者其它東西改變?,F(xiàn)在在國內(nèi),還沒有可以壟斷硬件的生態(tài)廠家,硬件永遠是不可能壟斷的,它一定是五花八門,百花齊放的。
問:像驀然這樣做云交互的公司,眼下最大的難點在哪里?
戴帥湘:最大的難點在于,現(xiàn)在面對的設備都是傳統(tǒng)設備,要傳統(tǒng)設備商接受一個新方案,改變既有的交互方式,這本質(zhì)上需要傳統(tǒng)行業(yè)的從業(yè)者有一定的新觀念。比如傳統(tǒng)企業(yè)和我們這種新興的 AI 技術(shù)行業(yè),如何很好地對接?
都說互聯(lián)網(wǎng)+,大家的觀念是一致的,可是很難加在一起。
問:現(xiàn)在我們的技術(shù)在產(chǎn)品化上還有其它新的進展嗎?
戴帥湘:我們其實有成套的框架,可以快速變成電視系統(tǒng),音箱系統(tǒng)或者車載系統(tǒng)。從這方面看,我們有非??斓漠a(chǎn)品構(gòu)建能力。下半年我們會做一次發(fā)布會,發(fā)布各種產(chǎn)品,包括耳機的、音箱的、電視的、車載的、機頂盒的等等。它們的樣式都不一樣,軟件也有差異,但是對我們來說都是一套系統(tǒng)。
問:同樣是做語音交互,阿里前幾天推出了天貓精靈,百度也在一直強調(diào) DuerOS 的戰(zhàn)略地位,巨頭的動作會對我們這樣的公司決策有什么影響?
戴帥湘:我一直覺得這是一件好事。因為對話式語音交互其實是一個完整的鏈條,這個鏈條包含了很多方面,大家要做很多重復工作,比如降噪、云識別,這些勞動其實是不必要的。巨頭開放可以很快把這塊搞定,讓創(chuàng)業(yè)公司告別重復勞動。
其實這個環(huán)境里最核心的部分是三個:語義理解,對話系統(tǒng),學習系統(tǒng)。這部分沒有任何限制,也沒有任何界限,這些大公司自己都沒做到這一步,它怎么開放給你?它開源的是兩部分:
第一,前面的語音識別、降噪方案;
第二,后臺的基本資源,比如百度的那些,其實本身就是免費的,到百度搜索上就可以獲取到,它也是拿別人的。
問:大公司如果在這個領(lǐng)域重投入,將會對創(chuàng)業(yè)公司造成很大威脅?
戴帥湘:這是有可能的。一個東西剛開始出來,肯定是要跑得快,快速落地,積累數(shù)據(jù),迭代,到后面也一定會有競爭,因為大家都認為語義理解、對話系統(tǒng)、學習系統(tǒng)是最核心的。
問:那跟大公司相比,創(chuàng)業(yè)公司的競爭力在哪里?
戴帥湘:很多人問過我這個問題。創(chuàng)業(yè)公司有一個很大的特點,就是專注,這非常重要,尤其是對于一個還沒有成熟的東西,你要去攻克它,快速和應用市場、傳統(tǒng)產(chǎn)業(yè)設備緊密結(jié)合起來。你的技術(shù)必須和這些設備同步打造、分析,要和這些公司團隊坐在一起分析產(chǎn)品形態(tài)怎么設計,技術(shù)什么地方可用,什么地方不可用,不可用的情況下要怎么做。
但對于大公司來說,一些客戶對它來說可能微乎其微,它的目標是做平臺,我們是要創(chuàng)造一個東西。傳統(tǒng)廠商并不具有那么多的認知,我們和它緊密結(jié)合起來,一步一步,先有一些它可感知的東西,再慢慢往下推。我覺得這個差異是很大的。
問:數(shù)據(jù)算是我們的一個劣勢嗎?
戴帥湘:其實我覺得不是??赡苣悴幌嘈牛俏曳浅远ǖ卣f,我們在技術(shù)上和這些所謂的大公司比,沒有任何劣勢。在機器數(shù)量、帶寬費用上,我們會更節(jié)約,但是在技術(shù)上沒有任何劣勢。每個細節(jié),每個到達技術(shù)的路徑,我們都非常非常清晰。
到達每個目標的路徑很多很多,我們明確地選擇了一條,大公司選擇的可能和我們不一樣,但無非就是誰更快找到坡度更大的路線,可以快速達到目的。我覺得在這一點,創(chuàng)業(yè)公司會更容易,因為它直接和廠商對接,能達到目的,就快速達到目的,不追求平臺有多大,多規(guī)范化。
問:聽、聽懂和服務的滿足這三點,聽懂好像是最難的,如果現(xiàn)在讓你打分,滿分 10 分,驀然能做幾分?
戴帥湘:這個怎么說,其實還是有一些限制。比如說在生活常用的場景,我們可以達到 7-8 分,但是如果要是泛泛地說,肯定是 5 分以下。因為有太多東西是你不能學習和了解的,它需要一個基本的框架,然后逐步迭代。人也是從小開始學基本的語文數(shù)學,然后慢慢學會更多。
現(xiàn)在如果停留在某些常用的、可用的場景里面,只要是能提供生活服務的,我們都能做出比較好的水平。但是脫離整個應用場景說聽懂,其實意義不是很大。而且聽懂和滿足不是截然分開的,它們是緊密結(jié)合的,因為其實你不能判斷它聽不聽得懂,而一定是從它的滿足或者后效性上判斷的。兩者天生是不可分的。所以這樣分為三個階段,其實我是不認同的。
問:業(yè)務上有 2C 的考慮嗎?
戴帥湘:我還是引用別人的一句話:真正做好一個軟件以后,你很可能要做自己的硬件。這個硬件的形態(tài)可能不一樣,可以是機器人,也可以是穿戴式設備,但是對于一個直接做交互,跟用戶打交道的公司,將來肯定會推出適合自己的一系列硬件。
我們堅定地看好設備,我覺得影像時代就是設備的時代。
推薦閱讀:《驀然認知 CEO 戴帥湘:對話式語音交互將無處不在 | CCF-GAIR 2017》
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。
本專題其他文章