1
奇點(diǎn)機(jī)智聯(lián)合創(chuàng)始人林德康:前Google高級(jí)管理科學(xué)家(senior staff research scientist),主攻自然語(yǔ)言處理。在加入Google之前,林德康是加拿大Alberta大學(xué)計(jì)算機(jī)教授,發(fā)表過(guò)逾90篇論文、被引用超過(guò)12000次,他也是華人圈少數(shù)幾個(gè)國(guó)際計(jì)算語(yǔ)言學(xué)會(huì)ACL Fellow之一。
雷鋒網(wǎng)按:距離蘋(píng)果Siri的推出已經(jīng)快6年了,期間很多智能手機(jī)廠商也紛紛將語(yǔ)音助手列為賣(mài)點(diǎn)之一,但是其使用率一直不高,究其原因,還是語(yǔ)音助手的功能有限。不過(guò)隨著深度學(xué)習(xí)帶來(lái)的技術(shù)進(jìn)展,以及亞馬遜的Alexa的大獲成功,智能語(yǔ)音助手獲得了前所未有的關(guān)注,很多人都認(rèn)為,語(yǔ)音將是下一個(gè)流量入口。
上周,樂(lè)視推出了帶有智能語(yǔ)音助手的手機(jī),這款手機(jī)搭載的語(yǔ)音助手就是去年雷鋒網(wǎng)曾報(bào)道過(guò)的創(chuàng)業(yè)公司奇點(diǎn)機(jī)智的產(chǎn)品——“小不點(diǎn)”。對(duì)此,雷鋒網(wǎng)對(duì)奇點(diǎn)機(jī)智聯(lián)合創(chuàng)始人林德康進(jìn)行了專(zhuān)訪。
“小不點(diǎn)”宣傳視頻
奇點(diǎn)機(jī)智成立于2014年11月,兩位創(chuàng)始人鄔霄云和林德康曾在谷歌工作,并且在自然語(yǔ)言處理方面都有著深厚的技術(shù)和經(jīng)驗(yàn)積累。該公司曾先后入駐微軟創(chuàng)投加速器(MVA)第六期、以及TechCode孵化器。至于為何會(huì)選擇做語(yǔ)音助手?林德康表示,最主要的目的并不是因?yàn)殚T(mén)檻的降低,而是因?yàn)檎Z(yǔ)音助手確實(shí)有用。
雖然都是語(yǔ)音助手,但是“小不點(diǎn)”和蘋(píng)果的Siri、微軟的Cortana等不同。傳統(tǒng)語(yǔ)音助手除了能夠執(zhí)行系統(tǒng)級(jí)別的功能,比如設(shè)置鬧鐘、打電話等,功能十分有限,更像是一個(gè)“搜索引擎”;“小不點(diǎn)”則拋棄了業(yè)界流行的單獨(dú)的語(yǔ)音對(duì)話界面,轉(zhuǎn)而幫助用戶用語(yǔ)音來(lái)更便捷地操作手機(jī)里的各種APP,比如發(fā)微信紅包、打車(chē)、定外賣(mài)等,更像是一個(gè)“動(dòng)作引擎”。
因此,使用小不點(diǎn)的用戶雖然是用語(yǔ)音在與手機(jī)交互,但是同時(shí)也在與手機(jī)的圖形界面進(jìn)行交互,這就是林德康提到的CGUI——Conversational Graphic User Interface。
對(duì)于小不點(diǎn)來(lái)說(shuō),其與同類(lèi)產(chǎn)品最大的不同可能就是最后的實(shí)現(xiàn)過(guò)程了。
目前市面上大多數(shù)的語(yǔ)音助手度需要集成第三方應(yīng)用的API,才能實(shí)現(xiàn)調(diào)用功能,然而這一方法存在很大的弊端,因?yàn)檫@會(huì)涉及到與第三方APP之間的談判,覆蓋的速度會(huì)很慢,而且很多語(yǔ)音助手都想將其他APP的功能集合到自己的界面之中,因此開(kāi)發(fā)者們往往會(huì)有抵觸情緒,這也是為什么蘋(píng)果Siri這樣的語(yǔ)音助手在推出這么多年之后,功能依然十分有限的原因之一。
用小不點(diǎn)發(fā)微信紅包
而小不點(diǎn)則是使用了安卓系統(tǒng)里面針對(duì)視障用戶的Accessibility輔助功能,可以直接讀屏,然后實(shí)施虛擬點(diǎn)擊操作,因此不需要調(diào)用第三方APP的API。比如用微信發(fā)紅包,用戶說(shuō)完“給XXX發(fā)10塊錢(qián)的紅包”之后,小不點(diǎn)就會(huì)打開(kāi)微信,并查找聯(lián)系人,然后跳轉(zhuǎn)到微信發(fā)紅包的界面,并預(yù)填好10塊錢(qián)的金額,你需要做的只是確認(rèn)發(fā)送。
不過(guò),林德康表示,他們并不排斥接入第三方APP的API。
此外,小不點(diǎn)還有一個(gè)比較智能的學(xué)習(xí)功能。你可以通過(guò)這個(gè)功能教會(huì)小不點(diǎn)實(shí)現(xiàn)目前還不能完成的操作,而且小不點(diǎn)在學(xué)會(huì)之后,其他的用戶未來(lái)也有可能使用這一功能。據(jù)悉,奇點(diǎn)機(jī)智已經(jīng)為這一獨(dú)特功能申請(qǐng)了專(zhuān)利。
比如,如果你想讓小不點(diǎn)學(xué)會(huì)幫你“點(diǎn)一杯咖啡”,那么你可以直接告訴它“學(xué)習(xí)點(diǎn)一杯咖啡”,激活自動(dòng)學(xué)習(xí)的功能,接下來(lái)你就可以開(kāi)始按平常的步驟進(jìn)行操作,并在所有操作完成后點(diǎn)擊“結(jié)束學(xué)習(xí)”即可。由于小不點(diǎn)會(huì)記錄這些操作過(guò)程,因此下一次只需要對(duì)它說(shuō)“點(diǎn)一杯咖啡”即可自動(dòng)完成所有步驟。(以下是在樂(lè)視手機(jī)上的演示視頻)
由于以上兩點(diǎn)優(yōu)勢(shì),小不點(diǎn)能夠在很短的時(shí)間內(nèi)覆蓋盡可能多的APP。據(jù)奇點(diǎn)機(jī)智透露,小不點(diǎn)目前已經(jīng)覆蓋了50多款常用的APP,具備上百種功能。
雖然目前小不點(diǎn)的公開(kāi)版本還只能實(shí)現(xiàn)一輪對(duì)話,并不能一直在后臺(tái)聆聽(tīng),但是其內(nèi)測(cè)版已經(jīng)實(shí)現(xiàn)了多輪對(duì)話,可以通過(guò)語(yǔ)音實(shí)現(xiàn)連續(xù)操作,而不需要重新激活。(如以下視頻所示)
「給小樂(lè)發(fā)微信」 ->「發(fā)送我在這里你快過(guò)來(lái)」->「發(fā)送我的位置」->「發(fā)送XXX和OOO的名片」->「視頻聊天」
1. 語(yǔ)音識(shí)別
雖然奇點(diǎn)機(jī)智是一家創(chuàng)業(yè)公司,而且小不點(diǎn)研發(fā)周期也只有1年多的時(shí)間,但是林德康表示,目前小不點(diǎn)并沒(méi)有采用第三方的語(yǔ)音識(shí)別技術(shù),而是奇點(diǎn)智能一個(gè)5人左右的團(tuán)隊(duì)自己研發(fā)的,而且采用的就是谷歌的TensorFlow框架。
林德康向雷鋒網(wǎng)透露,其實(shí)之前小不點(diǎn)曾采用百度語(yǔ)音服務(wù)來(lái)進(jìn)行語(yǔ)音識(shí)別,后來(lái)才選擇自己做。為什么呢?原因有以下幾點(diǎn):
如果使用第三方的語(yǔ)音識(shí)別的話,首先需要將音頻傳過(guò)去,然而傳回來(lái)的一般就只有一句話。但是實(shí)際上在這句話有很多的可能性,而第三方只會(huì)在眾多可能性里挑選一個(gè)它認(rèn)為最好的傳回來(lái)。但是如果是自己能夠掌控這一過(guò)程的話,就可以將眾多可能性先預(yù)留著,然而再下一步的時(shí)候看哪一種其實(shí)更說(shuō)得通。
采用自己的語(yǔ)音識(shí)別技術(shù)可以針對(duì)某些特定場(chǎng)景進(jìn)行優(yōu)化,比如在識(shí)別微信通訊錄里的人名的時(shí)候,如果采用第三方接口,不一定能夠識(shí)別正確,但是如果是自己的語(yǔ)音識(shí)別技術(shù),系統(tǒng)就可以參照通訊錄里面的名字進(jìn)行實(shí)時(shí)更正。
由于深度學(xué)習(xí)這一革命性進(jìn)步的出現(xiàn),讓語(yǔ)音識(shí)別領(lǐng)域重新洗牌,幾乎所有玩家都站在了同一起跑線上,大幅降低了后進(jìn)者的門(mén)檻。因此雖然奇點(diǎn)機(jī)智起步較晚,但是實(shí)際上的技術(shù)差距并不大。
不過(guò)一個(gè)小團(tuán)隊(duì)的一年的努力,真的能夠與大公司相比嗎?雖然林德康并沒(méi)有給出用來(lái)衡量語(yǔ)音識(shí)別的詞錯(cuò)率(word error rate)的具體數(shù)值,但是他表示,在實(shí)測(cè)體驗(yàn)的過(guò)程中,兩者表現(xiàn)差不多。不過(guò),目前小不點(diǎn)只支持普通話,并不支持方言。
除了不斷地投喂數(shù)據(jù),訓(xùn)練語(yǔ)音識(shí)別的算法模型之外,還有哪些方法可以提高語(yǔ)音識(shí)別的正確率,降低用戶在使用過(guò)程中的挫敗感呢?林德康舉了一個(gè)例子。他表示,研發(fā)會(huì)根據(jù)APP的名字來(lái)優(yōu)化語(yǔ)音識(shí)別的準(zhǔn)確率。比如“摩拜單車(chē)”的“摩拜”兩個(gè)字在通用語(yǔ)料庫(kù)里可能并不是排名最高的,但是對(duì)于小不點(diǎn)的用戶來(lái)說(shuō),可能大部分時(shí)候指的就是“摩拜”,因此在優(yōu)化時(shí),他們會(huì)將這點(diǎn)考慮進(jìn)去,來(lái)提高用戶的使用體驗(yàn)。
而且作為一家小團(tuán)隊(duì),奇點(diǎn)機(jī)智除了購(gòu)買(mǎi)訓(xùn)練語(yǔ)音識(shí)別模型所需要的標(biāo)記數(shù)據(jù)之外,還專(zhuān)門(mén)開(kāi)發(fā)一款A(yù)PP,讓員工利用碎片時(shí)間,來(lái)專(zhuān)門(mén)標(biāo)注訓(xùn)練所需要的數(shù)據(jù)。
2. 語(yǔ)義理解
由于公司的兩位創(chuàng)始人都有NLP(自然語(yǔ)言處理)的背景,因此在這一部分會(huì)有一些優(yōu)勢(shì)。林德康在回國(guó)之前就是谷歌做自動(dòng)問(wèn)答系統(tǒng)的,他表示其中有很多東西都是類(lèi)似的。
比如實(shí)體識(shí)別,包括人名、地名、電影名等專(zhuān)有名詞,這些都是最基本的,但是要理解整句話的意思的時(shí)候,就需要推理功能了。比如當(dāng)你說(shuō)“我想去成都”,那么我們可能就會(huì)給你用攜程等軟件搜尋火車(chē)票或者機(jī)票,如果你說(shuō)“我想去積水潭醫(yī)院”,那么我們可能就會(huì)用打車(chē)軟件給你預(yù)訂車(chē)輛。因此只是將一個(gè)個(gè)的關(guān)鍵詞列出來(lái)是不行的,還必須將每個(gè)詞進(jìn)行分類(lèi),然后根據(jù)詞的表達(dá)結(jié)構(gòu)做推理,才能真正理解用戶的意圖。
林德康認(rèn)為,做自然語(yǔ)言理解最怕的就是邊界,比如Facebook的Messenger Bot聊天機(jī)器人,里面上下文的關(guān)聯(lián)太多。而做小不點(diǎn)這種類(lèi)型的語(yǔ)音助手相對(duì)容易一些,雖然語(yǔ)音助手的可能性也非常多,但是它能做的東西是有限的,因此是存在邊界的,比如不會(huì)用戶不可能用攜程去交水費(fèi)。
2014年11月,奇點(diǎn)機(jī)智獲得了徐小平100萬(wàn)美元的天使輪融資;去年3月底,奇點(diǎn)機(jī)智又獲得了襄禾資本和NEA資本500萬(wàn)美金A輪融資。雖然已經(jīng)獲得兩輪融資,但是作為一家創(chuàng)業(yè)公司,未來(lái)的盈利模式很顯然也是需要考慮的事情。
林德康向雷鋒網(wǎng)表示,目前團(tuán)隊(duì)的注意力主要集中在打磨產(chǎn)品,爭(zhēng)取與更多的手機(jī)廠商合作,未來(lái)還會(huì)推出獨(dú)立的APP,暫不考慮盈利的事情。
據(jù)雷鋒網(wǎng)了解,由于奇點(diǎn)機(jī)智不會(huì)向合作的手機(jī)廠商收取費(fèi)用,未來(lái)很可能會(huì)通過(guò)為第三方APP提供流量入口來(lái)獲取盈利。比如目前用戶想通過(guò)小不點(diǎn)來(lái)訂餐,但是在用戶沒(méi)有指明APP的情況下,小不點(diǎn)會(huì)默認(rèn)打開(kāi)“餓了么”,如果你的手機(jī)里面沒(méi)有餓了么,那么就會(huì)跳轉(zhuǎn)到餓了么的下載頁(yè)。當(dāng)然,你可以直接告訴小不點(diǎn),你想通過(guò)美團(tuán)或者百度來(lái)定外賣(mài)。
對(duì)于語(yǔ)音助手未來(lái)的發(fā)展前景,林德康雖然也認(rèn)同語(yǔ)音是下一個(gè)流量的入口,但是他認(rèn)為“語(yǔ)音+圖形界面”才是未來(lái),而不是Alexa那種完全拋棄屏幕的做法。
雖然林德康表示,利用模擬點(diǎn)擊來(lái)實(shí)現(xiàn)語(yǔ)音操控APP的功能是小不點(diǎn)的首創(chuàng),但是近日網(wǎng)上流傳出來(lái)的演示視頻顯示,三星的智能語(yǔ)音助手Bixby采用的也是和小不點(diǎn)相同的方式,這也從側(cè)面驗(yàn)證了奇點(diǎn)機(jī)智方向的正確性。
不過(guò),目前計(jì)算機(jī)還無(wú)法真正理解人類(lèi)的自然語(yǔ)言,這也是為什么就連Facebook、谷歌等科技巨頭的聊天機(jī)器人想要實(shí)現(xiàn)多輪對(duì)話依然十分困難,據(jù)外媒報(bào)道,F(xiàn)acebook的虛擬助理M和Messenger bot的進(jìn)展很不順利,其中M能夠正確回應(yīng)的請(qǐng)求只有 30%,使用情況令人失望。因此,奇點(diǎn)機(jī)智的這條路或許沒(méi)有很高的技術(shù)門(mén)檻,但是卻更加實(shí)際。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。