0
本文作者: 王金許 | 2017-07-30 22:48 |
雷鋒網(wǎng)按:人工智能和自然語言處理技術(shù)的結(jié)合,不僅在資深互聯(lián)網(wǎng)公司的戰(zhàn)略中占據(jù)了重要的地位,也造就了大量極具生命力的創(chuàng)新性公司。人工智能和自然語言處理到底怎樣結(jié)合的?這種結(jié)合存在哪些挑戰(zhàn)?如何克服這些挑戰(zhàn)?未來是否還有更大機(jī)會(huì)?
在第二屆語言與智能技術(shù)高峰論壇企業(yè)論壇上,出門問問創(chuàng)始人李志飛、百度自然語言處理部總監(jiān)趙世奇、奇點(diǎn)機(jī)智創(chuàng)始人林德康、微軟亞洲研究院副院長周明、以及中科院軟件研究所研究員孫樂組成了企業(yè)圓桌論壇,中科院信息工程研究生王斌擔(dān)任主持,他們就以上問題進(jìn)行了討論。此外,他們就學(xué)術(shù)界和工業(yè)界的合作,自然語言處理技術(shù)的成熟度與產(chǎn)品需求的匹配等諸多問題也進(jìn)行了深入探討。
(雷鋒網(wǎng)注:從左至右依次為王斌、林德康、李志飛、孫樂、趙世奇、劉丹、周明)
以下為對話內(nèi)容實(shí)錄,雷鋒網(wǎng)做了不改變原意的編輯。
王斌:因?yàn)槲乙彩窃瓉碜?NLP 出身的,做自然語言處理了人都知道,其實(shí)自然語言處理里面有很多內(nèi)容,到后面的機(jī)器翻譯,有一些技術(shù)不是很成熟。那么這個(gè)不成熟的技術(shù)怎么變成產(chǎn)品落地?其實(shí)是我們研究人員非常關(guān)心的一個(gè)問題。首先是志飛談一下,中午他就提到對這個(gè)問題有一些很深的看法。
李志飛:我沒有說我有很深的看法,但還是來說一下很淺的看法,確實(shí)自然語言處理的技術(shù)還不是很成熟,所以我覺得如果我需要做在產(chǎn)品里面,舉兩個(gè)例子,首先技術(shù)對用戶真的是必須要用的。
比如說在車載里面如果不用語音來跟這個(gè)機(jī)器對話,然后開車的時(shí)候,我要換一個(gè)地址或者說我導(dǎo)了航又想換音樂,因?yàn)檫@個(gè)時(shí)候用戶沒有別的辦法,所以他可能對你這個(gè)技術(shù),也沒那么挑剔,而且愿意學(xué)習(xí)一下。如果在手機(jī)上做到這樣的話,他不會(huì)來學(xué)習(xí)怎么用的,上來就挑戰(zhàn)他這個(gè)機(jī)器的智商,顯得這個(gè)人自己很聰明,或者調(diào)戲一下。但在這里面,我覺得由于他有這個(gè)需求,所以哪怕自己花點(diǎn)時(shí)間,學(xué)習(xí)適應(yīng),他可能也會(huì)去用。我們在智能車載里面,發(fā)現(xiàn)日活躍 10 個(gè)用戶打開了這個(gè)機(jī)器,可能7個(gè)用戶都會(huì)用語音交互。
另外一個(gè),說白了這個(gè) NLP 或者自然語言對話,你不能把它作為最主要產(chǎn)品最重要的 Feature,只能拔到一個(gè)噱頭或者當(dāng)一個(gè)錦上添花的事情。也就是說,你得構(gòu)建另外一個(gè)產(chǎn)品是用戶必須需要的。在這個(gè)基礎(chǔ)之上,再加上語音對話,有的時(shí)候他想用就用,不想用就不用。但要明白,他不是因?yàn)檫@個(gè)來買單的。
我覺得這兩個(gè)例子是我自己從產(chǎn)品角度去看,就是第一個(gè)用戶必須要用。第二個(gè)可能這個(gè) NLP 的技術(shù)在這里面,不是說它是最最核心的一個(gè)用戶買單的體驗(yàn)。
林德康:對,我們現(xiàn)在在做一部語音助手。但 NLP 技術(shù)好多東西也是不太成熟,其實(shí)我們也沒有指望它是一個(gè)很成熟的技術(shù)。就是說要使用比如 Parsing 或者其他自然語言分析結(jié)果的時(shí)候,就把它會(huì) Fail 的這些因素會(huì)考慮進(jìn)去,然后跟其他的方法能夠結(jié)合起來去用。
我們做這個(gè)自然語言產(chǎn)品,沒有志飛他們時(shí)間長,現(xiàn)在體會(huì)就是說,對于自然語言這個(gè)產(chǎn)品,一個(gè)很大的困難就是用戶期望很難確定,就是你能做的事情很少,拿個(gè)紙條告訴人家能夠?yàn)樗麄冏鍪裁?,那這就沒什么機(jī)會(huì)去用了。另一個(gè)就是說,你讓用戶覺得你能做很多事情,但實(shí)際上沒有任何一個(gè)產(chǎn)品能滿足用戶很多需求,這樣用戶就經(jīng)常很惱火。
我們用一個(gè)辦法去稍微去 Match 用戶期望值到某一個(gè)應(yīng)用里面,那企業(yè)會(huì)對這些應(yīng)用有一些期望值。
趙世奇:我的看法第一個(gè)就是 NLP 技術(shù)可能很難講每一個(gè)技術(shù)真的成熟了。分詞可能算是成熟的,包括剛才林老師也說到的 Parsing,它現(xiàn)在的準(zhǔn)確率也不低了,雖然仍然難以說是成熟的,但實(shí)際上,我們會(huì)發(fā)現(xiàn)這些大量的自然語言技術(shù)其實(shí)在產(chǎn)品當(dāng)中用的也不少。
舉一個(gè)例子,咱們說到翻譯,其實(shí)在當(dāng)年 Google 那個(gè)時(shí)候上了 Online Translation 的時(shí)候,遠(yuǎn)沒有現(xiàn)在成熟,它仍然是上線了,仍然得到了很多用戶使用。那今天其實(shí)是它在不斷成熟的過程中,作用在不斷的增大,但這不代表它不成熟的時(shí)候,就不能在一定程度上幫助到人們做一些事情。
另外還有一個(gè)方面,我們的產(chǎn)品和技術(shù)怎么互補(bǔ)的問題,當(dāng)技術(shù)不成熟的時(shí)候,就好像說是 “人”這個(gè)字是一撇一捺支撐起來的。其實(shí)我認(rèn)為產(chǎn)品的技術(shù)也是一樣,人工智能產(chǎn)品上的自然語言交互技術(shù)本身現(xiàn)在不成熟,它周邊設(shè)計(jì)了很多具體的技術(shù)。那我們在用的時(shí)候,顯然會(huì)遇到的一個(gè)問題,基本上三句就問倒了,或者是不會(huì)做什么了。
在這樣的一個(gè)情況下,產(chǎn)品和技術(shù)如何去互補(bǔ)?就像剛才林老師說的,收縮和控制人們的使用預(yù)期,同時(shí)把技術(shù)的那種可能性挽回到極致。我覺得這個(gè)是需要技術(shù)人員和產(chǎn)品人員一起去想辦法解決的問題。
劉丹:我們從做人工智能機(jī)器人是從 2012 年在成都落地來做的項(xiàng)目,當(dāng)時(shí) NLP 我們也就估計(jì)有 3-5 個(gè)人能懂一點(diǎn),包括分詞、一些智能應(yīng)用識(shí)別。
產(chǎn)品我們更多以結(jié)果為導(dǎo)向。相當(dāng)于說它一個(gè)不成熟的東西,你必須把它推到線上。通過線上去論證,直到成熟為止,它從不成熟到成熟的過程,看你怎么定義它,我覺得它相對來說是一個(gè)不穩(wěn)態(tài)。
但是通過現(xiàn)在大數(shù)據(jù)的存在,包括很多的消費(fèi)者用到我們的智能產(chǎn)品,他會(huì)幫助我們的技術(shù)、產(chǎn)品做一個(gè)修正和提升,最終走向成熟,我覺得這是非常重要的。就是說我們做的產(chǎn)品或項(xiàng)目也好,肯定是給我們的消費(fèi)者帶來價(jià)值。否則不管成熟或者不成熟,都沒有這個(gè)命題存在。
王斌:大家討論的結(jié)果就是 NLP 這邊有一些地方不太成熟,但是跟應(yīng)用相結(jié)合,找到其中的一個(gè)平衡點(diǎn)。第 2 個(gè)問題就是從這幾年開始大家看到深度學(xué)習(xí)席卷所有的領(lǐng)域,包括 NLP 的領(lǐng)域。那么有一個(gè)問題就是,這個(gè)語言學(xué)難道就沒有什么用了嗎?
周明:我自己的理解,語言學(xué)家其實(shí)在語言很多任務(wù)上起到了很重要的作用。早期就不用說了,寫規(guī)則、語法詞典。其實(shí)就是今天語言還有詞典仍然起作用,比如說情感分析用字典,其實(shí)是語言學(xué)家?guī)椭麃砜偨Y(jié)的。
還有一個(gè)標(biāo)準(zhǔn)體系,比如說情緒有多少種分類,其實(shí)語言學(xué)家可能告訴我們的沒有那么準(zhǔn),語言學(xué)家?guī)椭覀冎贫w系,這是一個(gè)盲點(diǎn)。
第二個(gè),語言學(xué)家產(chǎn)生的語料,比如說知識(shí)圖譜這些東西,可以幫我們產(chǎn)生數(shù)據(jù),來增強(qiáng)學(xué)習(xí)過程。
第三個(gè)就是語言學(xué)家可以做測試點(diǎn),就是做任何自然語言處理的,有幾個(gè)關(guān)鍵的地方一定要測到。那么語言學(xué)家給你寫出這種測試案例來,甚至是系統(tǒng),就是基于語言點(diǎn)來測試,比你那種盲目的抽樣測試可能更準(zhǔn)。
最后一個(gè)是現(xiàn)在所謂的都在通過大數(shù)據(jù)來進(jìn)行學(xué)習(xí),但是沒有或者很少進(jìn)行建模和學(xué)習(xí)。恰好語言學(xué)家,能夠提供給予相應(yīng)的指導(dǎo)方式。我認(rèn)為這些領(lǐng)域,大家應(yīng)該巧妙的利用起來才對。
孫樂:我覺得自然語言處理這個(gè)領(lǐng)域,實(shí)際上就是一個(gè)交叉學(xué)科,可能不但需要語言學(xué),還需要心理學(xué)、哲學(xué),需要神經(jīng)科學(xué)。比方說,如果我們在建這個(gè)知識(shí)圖譜,在見證研究語言的一些關(guān)系。
實(shí)際上你需要去從這些哲學(xué)中,來對自然語言理解的世界進(jìn)行理解,我們要從各個(gè)學(xué)科中去吸取一些新的經(jīng)驗(yàn)。我們學(xué)會(huì)在組織每年這種報(bào)告的時(shí)候,我們特別會(huì)請一些語言學(xué)家。其中一個(gè)老師他就講了一個(gè)詞性問題,但他分析了大概十幾種語言。
其實(shí)我覺得在場的很多老師得到了很多啟發(fā),我們在講中文的特殊性,其實(shí)特殊的語言還有很多。還有另外一個(gè)比如說像從認(rèn)知科學(xué),如果說有這種新語言學(xué)家能夠把嬰兒學(xué)習(xí)語言的過程給我們揭示出來,對我們來說是非常大的一個(gè)幫助。
王斌:下一個(gè)問題是,一方面企業(yè)有真實(shí)的需求,有大量數(shù)據(jù),也有計(jì)算環(huán)境。但是,研究界也有很多的資源,如何實(shí)現(xiàn)這個(gè)學(xué)術(shù)界和工業(yè)界的共贏?
林德康:其實(shí),現(xiàn)在說深度學(xué)習(xí)那么重要都是工業(yè)階層,但它是從學(xué)術(shù)界出來的,一直在學(xué)術(shù)界都不受重視,只有那么幾個(gè)學(xué)者一直在堅(jiān)持,堅(jiān)持了幾十年。學(xué)術(shù)界跟工業(yè)界研究不一樣,在工業(yè)界一般有時(shí)間表,哪怕是在 Google 的研究部門也有這個(gè)壓力,會(huì)問這個(gè)到底跟現(xiàn)在的產(chǎn)品有沒有相關(guān)性。在產(chǎn)品部門就更是這樣的了,產(chǎn)品部門基本上是按 Quarter 算的。
在學(xué)術(shù)界做研究的話,一般是憑著自己信念、興趣,就不管最后是不是像 Deep Learning 那樣成功,只要這個(gè)過程比較喜歡,才會(huì)有人去做。
李志飛:我之前也做過一段時(shí)間研究,后來就創(chuàng)業(yè)了。前一陣子建立了一個(gè)聯(lián)合實(shí)驗(yàn)室,其實(shí)當(dāng)時(shí)我就想說到底怎么樣能夠把企業(yè)跟學(xué)校的研究連起來。在美國的話,像這種暑期訪問都有,但總的來說還沒有達(dá)到一個(gè)特別好的效果。
在中國我覺得就更差,我看百度可能都沒有這種教授暑期訪問的計(jì)劃。我當(dāng)時(shí)想探討的一個(gè)模式是什么呢?就是我特別想把這些博士生或者教授,能夠帶我們公司去待一個(gè)月或者待兩個(gè)星期,先熟悉一下我們的系統(tǒng),從里面的單元拿幾個(gè)模塊,然后了解每個(gè)模塊大概往里面是怎么插的。
我的目標(biāo)倒不是讓這些老師或者學(xué)生去做我們的系統(tǒng)本身,但我覺得他可以先理解這個(gè)東西,然后再回到學(xué)校去,他甚至去抽象出問題,然后想想他搞的這些研究到底怎么能夠跟我們的系統(tǒng)有一些關(guān)聯(lián),或者他有一些算法怎么插進(jìn)去。最后,有一些東西,是不是直接會(huì)直接放在我們的系統(tǒng)里面去,我覺得這個(gè)是最好的一種模式。
但這個(gè)可能也沒那么容易,因?yàn)楹芏鄬W(xué)生他的壓力很大,系統(tǒng)這個(gè)代碼太復(fù)雜,他看兩天可能就不看了。但我覺得這確實(shí)是特別核心的一件事情,如果說能夠?qū)ο到y(tǒng)又了解,然后又抽象問題,這塊兒又能想出新的 Idea,然后 Idea 可以放在我們的產(chǎn)品里面去。但以前的話,學(xué)術(shù)上做一些 Demo,自己寫不了 App,后臺(tái)又沒有,根本就沒法 Demo 看。
而我們這里面其實(shí)一做進(jìn)去可能第二天就可以看見了,所以我覺得能夠以這樣的模式去做的話,其實(shí)你剛才說的數(shù)據(jù)也好, Idea 或者人才成本也好,其實(shí)這些都不是什么問題。
趙世奇:剛才志飛提到教授訪問計(jì)劃,百度其實(shí)是有的,包括青年學(xué)者到百度訪問,一般是幾個(gè)月,也有超過半年,然后確實(shí)也做了一些對于公司很多方向有幫助的一些研究成果,實(shí)習(xí)生就更不用說了。
現(xiàn)在還有另外一個(gè)問題,就是數(shù)據(jù)共享,那我就記得每次參加 Panel 這樣的環(huán)節(jié),都有這個(gè)問題。就是為什么不公布數(shù)據(jù)、為什么不共享數(shù)據(jù),你們是有這樣的責(zé)任和義務(wù)的。其實(shí)這對于一個(gè)企業(yè)來說,它有這種服務(wù)用戶的義務(wù),它為用戶的數(shù)據(jù)去保密,去慎重使用用戶數(shù)據(jù)的義務(wù)。
這個(gè)數(shù)據(jù)能不能在合理合法和恰當(dāng)?shù)姆秶鷥?nèi)和學(xué)術(shù)界來實(shí)現(xiàn)共享,我覺得這個(gè)作為企業(yè)來說,也應(yīng)該算是一個(gè)思考。其實(shí),之前我們說要不然不共享,要不然就是全盤突出的共享。但我有沒有一個(gè)更安全、更合理方式的保證。我們說大家研究可用,甚至說包括一些開發(fā)者的開發(fā)可用,另一方面我們對于用戶是安全的,也能夠盡到它保護(hù)用戶隱私和數(shù)據(jù)的責(zé)任。
我舉個(gè)例子,像我們現(xiàn)在也在探討一些方式,我們今年開放面向開發(fā)者的一個(gè)平臺(tái),它是做語言理解和交互技術(shù)的。那我們就意識(shí)到,開放這樣一個(gè)平臺(tái)只有技術(shù)的情況下其實(shí)是不夠的。尤其像理解交互,沒有數(shù)據(jù)的話大家是沒有辦法做的,所以有一種方式就是說,在平臺(tái)上大家可以去提交自己標(biāo)注的小范圍、小規(guī)模的數(shù)據(jù)。
有了這些數(shù)據(jù)之后,我們其實(shí)可以從百度大數(shù)據(jù)里面,自動(dòng)通過語義計(jì)算方式去篩選出來和你的數(shù)據(jù)最相似的一些數(shù)據(jù),甚至可以篩選出來和你最容易錯(cuò)的那些數(shù)據(jù)最相似的數(shù)據(jù)。那么這些數(shù)據(jù)再提供給我們的開發(fā)者來做標(biāo)準(zhǔn),這個(gè)過程它其實(shí)就是變成一種,我把所有最相似、最有用的那一部分?jǐn)?shù)據(jù)給你。當(dāng)然,這個(gè)前提是我們確保這些數(shù)據(jù)不會(huì)構(gòu)成對用戶隱私的侵犯。通過這種方式,我們希望可以達(dá)到更好的一個(gè)折中的狀態(tài)。
劉丹:其實(shí)我們京東也在高校有一些合作,包括跟國內(nèi)外大學(xué)建立了一些聯(lián)合實(shí)驗(yàn)室,做一些課題,包括在做一些深度學(xué)習(xí)相關(guān)的一些算法研究。但更重要的是這些模型都來自于一個(gè)學(xué)術(shù)界的一些新的 Paper 或者新觀念,大家都能看得到。
數(shù)據(jù)的問題,這個(gè)安全性很重要,包括京東上有用戶家里面的數(shù)據(jù),數(shù)據(jù)是相當(dāng)高質(zhì)量的。所以,這對我們來說相當(dāng)重要。那我們在做深度學(xué)習(xí)也好,包括相關(guān)算法提升也好,就是這個(gè)數(shù)據(jù),到底怎么來提供給你?學(xué)生的話可以來加入我們,這個(gè)數(shù)據(jù)可以整個(gè)開放給他。但是外面的人,我覺得可以通過借用的方式。
這個(gè)我們可以找出一部分相關(guān)的一些數(shù)據(jù)做一些數(shù)據(jù)透明,挖出來他的用戶信息、電話等相關(guān)信息。這樣的話,可以拿來做一些訓(xùn)練,包括做一些標(biāo)準(zhǔn),未來上線的一個(gè)評測。用戶覺得這個(gè)是沒問題的,現(xiàn)在我們有一個(gè)模算師的平臺(tái)就是做這個(gè)工作,里面沉浸了大量的一些區(qū)域面。未來如果有一些對 Chatbot 比較感興趣的可以來做一些探討。
王斌:大家知道人工智能現(xiàn)在是非?;?,7 月 20 日我們國務(wù)院發(fā)布了一個(gè)新一代人工智能的規(guī)劃,這個(gè)事情對我們到底有多大的意義?
周明:第一,我想說的就是,人工智能春天來了,給大家提供了很好的機(jī)會(huì),包括政府支持產(chǎn)業(yè)知識(shí)結(jié)構(gòu),有無窮多的機(jī)會(huì)。這也是我們這一次峰會(huì)的宗旨,就是提供一個(gè)交流平臺(tái),讓大家能夠茁壯成長。
第二,要有清醒的頭腦,也不是說一窩蜂上什么都見效,然后大家都發(fā)財(cái)。只有有前瞻性、還有像李志飛這樣有商業(yè)頭腦的人,還有機(jī)會(huì)超越。
比如說研究上你不能一窩蜂看人都做 Deep Learning,所以你也做這個(gè),那不會(huì)有超越。我總在想,在別人做了某些事情的時(shí)候,能不能就不做,或者就是想,我如果是他,我下一步應(yīng)該做什么?這個(gè)應(yīng)該好好去定位,找一些新的機(jī)會(huì)。
我們作為在校的同學(xué),其實(shí)要做一點(diǎn)有用的研究,要及時(shí)接觸學(xué)術(shù)界的需求,不能就是在書本上來回來去該參數(shù),以抄文章為主。所以要有更大的抱負(fù),如果能夠很好施展的話,一直到 2030 年,我認(rèn)為一直是中國一個(gè)很好的機(jī)會(huì),也是大家做學(xué)問、做產(chǎn)業(yè)的一個(gè)機(jī)會(huì)。
孫樂:因?yàn)檫@個(gè)也是很多院士花了挺長時(shí)間來呼吁國家來做部署,從咱們的國情來講,就是政府發(fā)文然后去一級級定,還是非常重要的。這個(gè)對咱們來說,是非常好的一個(gè)機(jī)會(huì)。然后就是我非常贊同的就是周明老師講的,做研究你還是需要比較冷靜的來看。就是大家都熱起來了以后,大家都做問答,你是不是要去跟風(fēng)做這個(gè)問答?
然后,從這個(gè)研究落地的角度講,就是政府出臺(tái)政策的目的是拉動(dòng)經(jīng)濟(jì)。根本性的目的是因?yàn)槲覀儑耶a(chǎn)業(yè)轉(zhuǎn)型,人工智能是一個(gè)關(guān)鍵,從我們做研究的角度講,只有技術(shù)能找到一個(gè)落地點(diǎn)的話,才會(huì)得到更多的指示。
李志飛:從我個(gè)人來說,我是不太喜歡這種資源上傾斜或者怎么樣。其實(shí)任何一項(xiàng)技術(shù),尤其人工智能這種技術(shù),它一定有自己的周期規(guī)律。如果說想靠政府支援或者錢去催熟這個(gè)行業(yè)或者一些企業(yè),我覺得這就是一個(gè)對比性的事情。所以我不希望我們能夠拿到什么國家資助,我從來不這么想。
我覺得對一個(gè)非常商業(yè)化的企業(yè)來說,自己在市場上有競爭力就好了,而不是靠政府補(bǔ)貼、資源傾斜,或者給你什么開綠燈,我覺得這個(gè)就失去了創(chuàng)業(yè)本質(zhì),當(dāng)然我說這個(gè)話也沒有用。我覺得中國政府最應(yīng)該做的是什么?就是創(chuàng)造一個(gè)公平的創(chuàng)新環(huán)境,首先我覺得大的戰(zhàn)略是非常好的。我是說不應(yīng)該給某些企業(yè)或者幾個(gè)什么院士(我覺得這個(gè)也可以),但是絕大部分錢應(yīng)該是構(gòu)建一個(gè)創(chuàng)新機(jī)制、環(huán)境,然后讓大家公平競爭。
因?yàn)槿绻皇沁@樣的話,那就會(huì)有很多投機(jī)者,就天天去跟政府搞關(guān)系,做一些假什么的。其實(shí)過去很多的事情都是這樣的,所以我覺得最終這個(gè)錢,一定要花在創(chuàng)造一個(gè)創(chuàng)新環(huán)境中是最重要的,而不是說,傾斜某一個(gè)行業(yè)或者某一個(gè)企業(yè),讓很多投機(jī)者去搞政府關(guān)系。
趙世奇:無論是中國還是美國其實(shí)都在人工智能方面出臺(tái)了國家級重要的戰(zhàn)略規(guī)劃。我覺得其實(shí)這個(gè)是因?yàn)閲铱吹搅诉@個(gè)方向的重要意義,包括我們說現(xiàn)在很多人現(xiàn)在進(jìn)入到了一個(gè)新時(shí)代,農(nóng)業(yè)社會(huì)到工業(yè)社會(huì)、信息社會(huì)到今天這種智能社會(huì)。要我想其實(shí)在智能社會(huì)里,取得勝利的國家也許只有中國和美國,其他的國家也許逐漸都會(huì)被落到后面,無論是他整個(gè)人才儲(chǔ)備還是數(shù)據(jù)儲(chǔ)備。
有人說,在新的人工智能時(shí)代里面,數(shù)據(jù)是新能源,尤其是在中國,它那么多人口基數(shù),有這么密集的數(shù)據(jù)。它在人工智能方面具有更多的先機(jī),所以具有一個(gè)非常好的基礎(chǔ)設(shè)施,還比美國有更好的條件、資源的儲(chǔ)備。這個(gè)是我們很大的一個(gè)機(jī)會(huì),同時(shí)我認(rèn)為有國家推動(dòng),客觀講它一定會(huì)對這個(gè)人工智能在中國的發(fā)展起到一個(gè)很強(qiáng)的推動(dòng)作用。
王斌:最后一個(gè)問題,大家覺得語言和智能結(jié)合的下一個(gè)突破、商機(jī)或者是技術(shù)上的突破在哪兒?
林德康:很多人說深度學(xué)習(xí)在自然語言沒有很大的突破,但是我覺得這個(gè)方向還是有可能性的。因?yàn)?,就是從我們公司自己用深度學(xué)習(xí),然后做語義識(shí)別,從這個(gè)就可以看出來這個(gè)深度學(xué)習(xí)還是很神奇的,不過我們做計(jì)算語言的,不去使勁的想這件事兒,有可能將來就變成負(fù)擔(dān)了。
李志飛:我更多從應(yīng)用的角度看一下,在計(jì)算層面,過去 5 年其實(shí)整個(gè)世界發(fā)生了一個(gè)翻天覆地的變化。語義識(shí)別等這種偏模式識(shí)別得到了特別大的應(yīng)用,無論是創(chuàng)業(yè)公司還是大公司,對這方面投入很大。但是我覺得現(xiàn)在可能到了要把這個(gè),在過去的移動(dòng)時(shí)代通過各種傳感器收集到數(shù)據(jù),把它 Make Sense,就是把自然語言理解以及知識(shí)圖譜跟物理世界結(jié)合起來。我覺得無論是從這個(gè)應(yīng)用層面,還是從學(xué)術(shù)層面都是最重要的一個(gè)事情。
今天自然語言交互或者說理解為什么這么差,就是因?yàn)槲覀儗χ庇X、對物理事件沒有建模,我們的知識(shí)庫也是非常有限。
未來怎么樣能夠使計(jì)算機(jī)有直覺,對這個(gè)物理世界的知識(shí)建模能夠做的更好,然后怎么從文本信息能看到一些東西,但是又有一些推理、直覺去結(jié)合起來,最后可能才能對整個(gè)計(jì)算機(jī)世界有更好的理解。
孫樂:我覺得自然語言的理解經(jīng)過多少年的發(fā)展,實(shí)際上我們到目前還沒有一個(gè)清晰的理論體系,或者叫建模的一個(gè)公式,就好比說我們的目標(biāo)是設(shè)計(jì)飛機(jī),但實(shí)際上我們沒有空氣動(dòng)力學(xué)原理。所以我覺得我們未來的突破,可能就在于從語言認(rèn)知機(jī)理中找到那樣一個(gè)“空氣動(dòng)氣學(xué)原理”。這個(gè)可能會(huì)實(shí)現(xiàn),只有有了這個(gè)以后,我們才能真正在語言和智能方面取得突破。
趙世奇:我認(rèn)為可能有兩個(gè)方面,第一個(gè)方面就是隨著應(yīng)用不斷的拓展,我們其實(shí)會(huì)發(fā)現(xiàn)很多新的 NLP 的問題。比如說糾錯(cuò),咱們說語音緊接著再接上自然語言,中間的這個(gè)糾錯(cuò)能力就很難解,包括語音翻譯也是,那這樣的問題怎么解決?其實(shí)這就是一種新的問題,包括說我是不是端到端的語義,還是說我們雖然是級聯(lián)式的,但是中間有什么新的問題和解法,這是一方面的,是我們在應(yīng)用中去找到新的問題點(diǎn)。
還有一個(gè)是很有意思的是,其實(shí)人工智能的發(fā)展,是多領(lǐng)域齊頭并進(jìn)的,語音、圖像、視頻,這是其中第一階段的發(fā)展。那么這些發(fā)展的各個(gè)方向如何去聯(lián)合做一些研究,比如說現(xiàn)在也有叫多模態(tài)的 NLP,那就是說我如何借助圖片信息理解來輔助語言理解。反之亦然,這是一個(gè)聯(lián)合優(yōu)化的過程。
劉丹:我簡單的說一下,我覺得人工智能要做好這個(gè)東西,未來的發(fā)展方向,更重要的是回饋到每一個(gè)的用戶,跟我們生活產(chǎn)生真正的價(jià)值。不管你做多么花哨,不能給用戶帶來價(jià)值,其實(shí)應(yīng)該就是一個(gè)沒用的技術(shù)。包括我們現(xiàn)在做客服機(jī)器人一樣,如果不能給消費(fèi)者解決問題,純粹是做一些無關(guān)的東西,未來發(fā)展也會(huì)受到一些很大的瓶頸。
所以,我們在未來怎么去解決人工智能,真正的是給我們在消費(fèi)者用也好,生活中每一個(gè)環(huán)境也好,能夠降低成本,提高效率,給我們整個(gè)生活帶來更多便利,我覺得這是 AI 需要主要考慮的方向。
周明:我認(rèn)為這個(gè)在研究上和應(yīng)用上可能都有回答的機(jī)會(huì)。研究上我們認(rèn)為提現(xiàn)一個(gè)“跨”字,就是語言跟多模態(tài)的結(jié)合。比如語言跟視頻還有圖像結(jié)合,我們找自然語言、找圖像的時(shí)候,他們都有自己的局限性。如果誰先走一步,也許就是新的機(jī)會(huì)。
第二,神經(jīng)網(wǎng)絡(luò)跟知識(shí)結(jié)合,也是符號跟網(wǎng)絡(luò)結(jié)合,李航老師也講過,可能知道我們好好探討。應(yīng)該上的話,其實(shí)我們搞自然語言的應(yīng)用,很多搜索引擎是自然語言的應(yīng)用。像今日頭條那種,新聞聚合是一種應(yīng)用。
那么未來最大的自然語言的機(jī)會(huì)在哪兒?有人說 IOT,有人是說語音助手,這些東西真的很難說。但我自己覺得,機(jī)器翻譯有可能會(huì)孕育出一個(gè)公司,很多比較大的公司。但是,李志飛和林德康都不一定同意,說機(jī)器翻譯不好掙錢。但我覺得要仁者見仁,智者見智,誰要把機(jī)器翻譯好好醞釀,出來一個(gè)大公司也是極有可能的。
但是我這里想提的一個(gè)是所謂 BI(Business Intelligence)。就是自然語言去放在大數(shù)據(jù)這種環(huán)境來看,它是分析自然語言的這種數(shù)據(jù),把 BI 做好了之后、把數(shù)據(jù)分析好了之后,放在這個(gè)業(yè)務(wù)里面,比如說法律咨詢、醫(yī)療、教育各個(gè)方面都可以有廣泛的應(yīng)用。但是在那個(gè)應(yīng)用的時(shí)候,別人真不知道這個(gè)背后是自然語言技術(shù)。所以我是覺得把自然語言當(dāng)做一種無形的一種技術(shù),融入到很多的垂直用戶的痛點(diǎn)問題上,這樣可能是回答一些問題,可能也是產(chǎn)品化的一些機(jī)會(huì)。
AI慕課學(xué)院近期推出了《NLP工程師入門實(shí)踐班:基于深度學(xué)習(xí)的自然語言處理》課程!
三大模塊,五大應(yīng)用,海外博士講師手把手教你入門NLP,更有豐富項(xiàng)目經(jīng)驗(yàn)相授;算法+實(shí)踐,搭配典型行業(yè)應(yīng)用;隨到隨學(xué),專業(yè)社群,講師在線答疑!
課程地址:http://www.mooc.ai/course/427
加入AI慕課學(xué)院人工智能學(xué)習(xí)交流QQ群:624413030,與AI同行一起交流成長
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。