0
本文作者: 蔣鴻昌 | 2017-04-21 13:03 |
雷鋒網(wǎng)按:雷鋒網(wǎng)正在啟動“新智造成長榜2017”評選活動,我們將對人工智能與機(jī)器人行業(yè)進(jìn)行大規(guī)模報(bào)道、梳理和調(diào)研,并聯(lián)合數(shù)十家著名投資機(jī)構(gòu)根據(jù)這些創(chuàng)新公司的技術(shù)實(shí)力、商業(yè)能力和成長性進(jìn)行深度評選,最終從多個領(lǐng)域分別選出一些極具潛力成長性的創(chuàng)新公司。如果你想?yún)⑴c我們的評選,可點(diǎn)擊「報(bào)名」鏈接,或通過郵箱xinzhizao@leiphone.com聯(lián)系我們!
上個月,小米發(fā)布了一款新電視——小米電視4A。這次發(fā)布會距離小米電視4的發(fā)布僅過去了2個月。小米電視4A的發(fā)布有個小背景,從去年下半年開始,因?yàn)樵牧蟽r格的大幅上漲,2月份,小米電視3s已經(jīng)漲價了500-600元,剛發(fā)布的小米電視4雖然還未上市銷售,但4.9mm的厚度以及超窄的邊框,注定了它在價格上不是一個“小米式”的產(chǎn)品。
小米電視4A被稱作回歸高性價比之作,不過同時,王川也給這款電視帶來了一個新特性——人工智能,這是“小米首款人工智能語音電視”。發(fā)布會上,王川的演示獲得了全場掌聲,尤其是他說出諸如“小岳岳追車的畫面”、“鄧超和張?zhí)鞇鄣谝淮我娒娴膱鼍啊钡闹噶?,小米電?A準(zhǔn)確跳到相應(yīng)畫面時。
這些讓人驚嘆的智能背后,需要語音識別以及自然語言處理的支持,三角獸正是為小米電視提供語義理解技術(shù)的公司。日前,雷鋒網(wǎng)采訪了具體負(fù)責(zé)這個項(xiàng)目的三角獸技術(shù)合伙人陳華榮,聊了聊他的職業(yè)經(jīng)歷,小米電視4A的人工智能背后的秘密,以及語義理解在垂直領(lǐng)域的商業(yè)化應(yīng)用。
三角獸技術(shù)合伙人陳華榮
2005年,在中科院軟件所獲得計(jì)算機(jī)軟件與理論專業(yè)碩士后,陳華榮就加入了微軟,并先后在北京和微軟西雅圖總部工作。2013年,他回到了北京,在Bing部門負(fù)責(zé)中日韓的Answer系統(tǒng)。所謂Answer系統(tǒng),即向用戶提供結(jié)構(gòu)化的顯示結(jié)果,用戶不用離開搜索引擎,就能獲取到需要的信息。
如上圖,當(dāng)你搜索《羋月傳》時,第一條搜索結(jié)果會直接出現(xiàn)這部電視劇的信息、海報(bào)、簡介和每一集的視頻鏈接,而且來源于兩個不同的視頻網(wǎng)站。百度和Google也有類似的系統(tǒng),它們通常以卡片的形式向用戶展示。
Answer系統(tǒng)和普通搜索結(jié)果的最大區(qū)別,是它力求準(zhǔn)確而不是關(guān)鍵詞的相關(guān)性。陳華榮向雷鋒網(wǎng)解釋,這主要依靠工程師對數(shù)據(jù)整理的準(zhǔn)確性。對結(jié)構(gòu)化的數(shù)據(jù),如電視劇評分,系統(tǒng)會直接抓取,而對于半結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù),則需要先抓取下來,再做語義分析,然后以結(jié)構(gòu)化的方式呈現(xiàn)給用戶。對于視頻類信息,系統(tǒng)則通過接入API的方式,直接把視頻網(wǎng)站的數(shù)據(jù)呈現(xiàn)出來。
這個工作和三角獸目前專注的語義分析其實(shí)是匹配的。而在微軟這樣的大公司,即使有小冰、Cortana這樣的產(chǎn)品,它們的一切也要圍繞微軟的戰(zhàn)略進(jìn)行,這是最讓陳華榮感到掣肘的地方。所以,在2016年,當(dāng)三角獸的CTO,也是陳華榮在微軟的同事亓超找來時,他毫不猶豫地加入了后者。
讓自然語言理解的服務(wù)應(yīng)用到更多領(lǐng)域,打造一個語義理解的大腦,是三角獸的愿景?,F(xiàn)在,三角獸專注的領(lǐng)域之一,任務(wù)驅(qū)動的多輪對話是陳華榮負(fù)責(zé)的重要工作。所謂任務(wù)驅(qū)動的多輪對話,即用戶帶著明確的目的來,通過自然語言的交互方式,快速解決自己的問題,如訂餐、看電影等。
多輪對話的目的,是因?yàn)楹腿祟愓5牧奶煲粯?,單?dú)一句話通常不能明確表達(dá)需求,這就需要系統(tǒng)通過反問、反復(fù)確認(rèn)來一步步明確用戶的需求,并返回結(jié)果。這已經(jīng)超越了簡單的語義理解加信息檢索的過程,而是一個在對話過程中不斷明確需求的決策過程。這也是聊天機(jī)器人解決實(shí)際問題的基礎(chǔ)。
陳華榮告訴雷鋒網(wǎng),三角獸此次為小米電視4A準(zhǔn)備了一整套的語義理解方案,而小米根據(jù)自身的產(chǎn)品需求和排期,主要選擇了模糊語義理解和視頻問答兩個部分。
所謂模糊語義識別,即在用戶輸入模糊的、不準(zhǔn)確甚至錯誤的信息時,依然能給出正確的搜索結(jié)果。因?yàn)樾∶纂娨暿褂昧苏Z音作為交互方式,輸入時,用戶的語調(diào)不同,就有可能出現(xiàn)錯誤信息,另外,當(dāng)用戶記憶不清時,也經(jīng)常會給出錯誤的搜索詞。
陳華榮舉了個例子,前段時間有一個很火的電視劇叫《老公們的私房錢》,而用戶則可能錯記為《男人們的私房錢》。這個時候,三角獸的技術(shù)就可以返回正確的結(jié)果。
對于模糊語義識別的實(shí)現(xiàn)過程,陳華榮介紹,三角獸在視頻這個領(lǐng)域建立了語義糾錯的語言模型,會處理字形像(半 -羋)、模糊音(肖生克 - 肖申克)、同音不同字(路遙知馬力 - 陸垚知馬俐)、語義相近(男人們 - 老公們)等等的問題。在該模型的基礎(chǔ)上三角獸做了特別的處理去做索引建庫。
當(dāng)用戶的查詢(query)過來后,經(jīng)過糾錯模型去作特別的處理后,再到數(shù)據(jù)庫中盡量地召回相關(guān)的視頻;之后,排序(Rank)模型的特征在糾錯模型的基礎(chǔ)上,結(jié)合大數(shù)據(jù)挖掘的信息,如熱度、評分等等,對結(jié)果進(jìn)行重排序,從而把用戶想要找的視頻正確的檢索出來和進(jìn)行了語義上的糾錯。這也是三角獸可以把“男人們的私房錢”糾正為“老公們的私房錢”,“肖生克救贖”糾正為“肖申克的救贖”的原因。
視頻問答系統(tǒng),可以看成是影視百科,包含視頻簡介、演員百科、劇中的角色、該演員還演過什么電影等各種信息。這樣,當(dāng)用戶用語音詢問諸如“剪刀手愛德華的男主角”時,系統(tǒng)就能給出正確的答案。
不過,問答系統(tǒng)的功能遠(yuǎn)不止于此。發(fā)布會上,小米也做了很多展示,某些時候,它甚至超出你的想象。比如,“剪刀手愛德華的男主角還演過什么電影?”、“《肖申克的救贖》是哪一天獲得的奧斯卡獎?”“小李子什么時候拿過奧斯卡金像獎?”等,問答系統(tǒng)都能給出答案。
而陳華榮告訴雷鋒網(wǎng),這些其實(shí)是很成熟的技術(shù)。首先,對這些語句進(jìn)行理解并不困難,整個實(shí)現(xiàn)過程最大的難點(diǎn),在于數(shù)據(jù)的提煉,也就是說,要將影視劇的各種信息提取出來,并提煉出各種標(biāo)簽,然后通過檢索、排序,匹配用戶的需求。
和問答系統(tǒng)實(shí)現(xiàn)過程類似的是電影搜索,唯一的不同是對用戶的指令進(jìn)行語義理解后,不是直接返回答案,而是到數(shù)據(jù)庫里去檢索相關(guān)的電影,并作重排序返回結(jié)果。這個功能的實(shí)用性更高,比如你甚至可以直接讓電視找出“只有一個人出演的電影”、“主角一開始就死了的電影”等。
(網(wǎng)絡(luò)上散步著大量諸如“主角一開場就死了的電影”的信息,需要系統(tǒng)先抓取,再進(jìn)行語義分析和信息提煉)
現(xiàn)在,對于影視劇信息,打標(biāo)簽的大部分工作已經(jīng)可以做到自動化。系統(tǒng)首先從影視劇的官方網(wǎng)站、豆瓣、貼吧、各種評論中抓取信息,再對這些信息進(jìn)行挖掘,自動提煉信息。另外,對一些知名度高的頭部內(nèi)容,三角獸也會用人工的方法進(jìn)行標(biāo)注,匹配用戶更多樣化的自然語言搜索需求。
陳華榮還告訴雷鋒網(wǎng),未來,三角獸還將與小米電視在多輪對話方面展開合作,以對話的方式,更準(zhǔn)確地匹配用戶更加個性化的需求。
例如,當(dāng)用戶發(fā)出指令,“我要看《天龍八部》”時,系統(tǒng)會返回非常多的結(jié)果,為了更好地理解用戶,多輪對話系統(tǒng)會主動詢問“您要看電視劇還是電影?”如果用戶選擇了電視劇,系統(tǒng)可能會再次詢問用戶要看什么版本,直到給出用戶滿意的結(jié)果。
進(jìn)行多輪對話時,自然語言處理系統(tǒng)的關(guān)鍵一步是對對話狀態(tài)的追蹤,即根據(jù)多輪的對話來確定用戶當(dāng)前的目標(biāo)到底是什么的過程。在這個過程中,系統(tǒng)要確認(rèn)是講當(dāng)前的狀態(tài)與前一個狀態(tài)是沖突的,還是要將兩個狀態(tài)進(jìn)行合并。舉個簡單的例子,用戶想看劉德華的電影,但是對搜索結(jié)果不太滿意,他就可能轉(zhuǎn)換目的,“張學(xué)友的電影”,這個時候,系統(tǒng)已經(jīng)按照兩個狀態(tài)沖突來進(jìn)行處理,在結(jié)果中呈現(xiàn)張學(xué)友主演的電影;但是,如果用戶說了“和張學(xué)友的電影”,系統(tǒng)就會把兩個狀態(tài)進(jìn)行合并,呈現(xiàn)劉德華和張學(xué)友一起演的電影。
所以,在智能電視的應(yīng)用上,對影視數(shù)據(jù)的更精細(xì)化的提煉,以及對上下文的準(zhǔn)確理解,是語義理解當(dāng)前的一個難點(diǎn)。小米電視的應(yīng)用,已經(jīng)是一個開始。
除了任務(wù)驅(qū)動的多輪對話系統(tǒng),三角獸的專注的另一個領(lǐng)域是開放域聊天。和要解決用戶具體需求的多輪對話系統(tǒng)不同,開放域聊天指系統(tǒng)能對用戶的任何問題給出回應(yīng),它的目的更多的是建立情感聯(lián)系,拉近和用戶的距離。
在陳華榮看來,未來,開放域聊天會成為多輪對話的標(biāo)配,沒有前者,系統(tǒng)會顯得呆板、機(jī)械,也很難給人智能的感覺。而開放域聊天和多輪對話、智能問答在一起,可以在很多領(lǐng)域有很好的應(yīng)用?,F(xiàn)在,三角獸已經(jīng)在幾個領(lǐng)域有了應(yīng)用:
金融領(lǐng)域:恒生電子
三角獸為這家給證券、銀行、基金、期貨等提供技術(shù)支持的企業(yè)開發(fā)了客服機(jī)器人系統(tǒng),為用戶解決開戶,股票、基金投資信息等服務(wù)。
三角獸的客服系統(tǒng)的優(yōu)勢在于語義理解系統(tǒng),可以分析非常多樣的用戶提問,理解用戶的真實(shí)意圖,然后對應(yīng)企業(yè)問答庫中的答案。
零售領(lǐng)域:香港新世界
三角獸提供了智能問答和多輪對話系統(tǒng)。比如在商場中,系統(tǒng)會推薦熱門的餐廳,也會在用戶提問時,通過進(jìn)一步的引導(dǎo),來明確用戶想要吃中餐、西餐,或者一人食還是聚餐的需求。
目前,該服務(wù)主要通過微信公眾號提供。系統(tǒng)還集成了開放域聊天技術(shù),用戶也可以進(jìn)行閑聊。
媒體領(lǐng)域:光明網(wǎng)
兩會期間,三角獸為光明網(wǎng)的“小明AI兩會”提供了技術(shù)支持(詳見雷鋒網(wǎng)之前的報(bào)道),分析了 40 多萬篇有關(guān)媒體報(bào)道和官方報(bào)告對其進(jìn)行訓(xùn)練,從29萬個詞匯中挖掘出近5000 個與兩會相關(guān)的關(guān)鍵詞,并據(jù)此整理出針對每一位代表委員的個性化報(bào)道。
車載環(huán)境:威馬汽車
主要是威馬汽車車載前裝音樂和導(dǎo)航模塊。在陳華榮看來,車載環(huán)境是語義理解應(yīng)用非常好的垂直領(lǐng)域。因?yàn)檫@個環(huán)境里比較封閉,用戶的需求無外乎導(dǎo)航、尋找附近的銀行、餐廳,打電話等。
2015年,有一款叫Vinci的所謂智能頭機(jī)的產(chǎn)品,吸引了很多關(guān)注,但也引來了不少非議?,F(xiàn)在,Vinci已經(jīng)轉(zhuǎn)而主打語音交互,其背后的語義理解技術(shù),同樣由三角獸提供。陳華榮還透露,三角獸正在與另一家大公司合作,更深入地進(jìn)入音樂和智能音箱行業(yè)。
未來,讓銀行網(wǎng)點(diǎn)中不再需要柜臺人員,以及對老人、小孩進(jìn)行情感陪護(hù),抑或通過IoT設(shè)備,通過自然語言的方式控制各種家具設(shè)備,都是三角獸的目標(biāo)。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。