0
本文作者: 奕欣 | 2018-06-15 16:37 |
5 月 23 日,阿里巴巴達摩院機器智能技術(shù)實驗室自然語言理解研究組在杭州舉行了阿里巴巴自然語言處理學(xué)術(shù)高級研討會,共有近 30 位來自全國各高校機構(gòu)的學(xué)者嘉賓及 8 位阿里巴巴集團參會代表蒞臨出席,并進行了為期一天的學(xué)術(shù)分享。
本次會議旨在搭建高校學(xué)術(shù)與企業(yè)實踐的交流平臺,增進校企合作,創(chuàng)新自然語言處理新技術(shù)。本次會議邀請了多位高校教授分享其在 NLP 領(lǐng)域的工作和成果,與此同時,阿里巴巴達摩院機器智能技術(shù)實驗室自然語言理解研究組成員也分享了他們在自然語言基礎(chǔ)研究、機器翻譯等多方面的研究進展。
阿里巴巴達摩院機器智能技術(shù)實驗室自然語言理解研究組在雷鋒網(wǎng)學(xué)術(shù)頻道AI科技評論旗下數(shù)據(jù)庫項目「AI 影響因子」中有突出表現(xiàn),憑借刷新 SQuAD 紀錄獲得加分。
以下是雷鋒網(wǎng) AI 科技評論根據(jù)現(xiàn)場實錄整理的演講內(nèi)容。
研討會伊始,阿里巴巴達摩院機器智能技術(shù)實驗室主任金榕博士及自然語言理解研究組首席科學(xué)家司羅博士分別做了開場致辭。
金榕博士表示,在十幾年前,做翻譯更多的是一種「探索型」的東西,很難想像它在今天會發(fā)展到這樣的壯大規(guī)模;「可能很多人覺得阿里巴巴更多是一個電商企業(yè),所以像推薦、搜索等功能是它最主要的事情,但是以今天阿里業(yè)務(wù)的形態(tài)來看,翻譯成為非常重要的方向?!苟痖挪┦恳脖硎?,阿里也希望翻譯在電商領(lǐng)域的價值同樣能遷移到日常生活當中。
而司羅博士則結(jié)合他曾經(jīng)的學(xué)術(shù)界研究經(jīng)歷和如今在阿里巴巴的研究經(jīng)歷,分享了他的心得體會?!钢挥凶匀徽Z言處理達成真正的突破,我覺得我們才能更進一步創(chuàng)造更多的智能,創(chuàng)造更多的機會?!笰liNLP 平臺支持著阿里關(guān)于自然語言處理方方面面的需求,包括機器翻譯和多語言處理場景,在司羅博士的理解里,他認為阿里提供的 AliNLP 平臺是「世界上自然語言處理領(lǐng)域最有價值的舞臺」。其次,司羅博士也提及了技術(shù)的開放業(yè)態(tài),通過阿里云等多種手段對外輸出阿里的技術(shù),做「普惠的自然語言技術(shù)的發(fā)明」。最后,司羅博士也強調(diào)了「腳踏實地」這個關(guān)鍵詞?!肝覀兿M鲆恍┳屪訉O后代記住我們的事情,能夠?qū)淼膶O子吹牛的事情。我們特別希望做有挑戰(zhàn)性、創(chuàng)新性的技術(shù)工作?!挂虼耍蚕蛟趫龅募钨e們倡議一同推進技術(shù)的學(xué)以致用,為人類創(chuàng)造更美好的價值與更美好的未來。
隨后,蘇州大學(xué)計算機科學(xué)與技術(shù)學(xué)院張民教授也作為嘉賓代表致辭。在過去的一年里,蘇州大學(xué)與阿里巴巴保持密切合作并取得優(yōu)秀成果。張民教授在致以謝意的同時,也提及整個行業(yè)處在一個「好的時機」,即產(chǎn)業(yè)化的需求已經(jīng)成為時代的必然。此外,張民教授也指出情感、認知、理解仍然是亟待解決的問題,用微軟的話講是「得語言者得天下」,或者說,自然語言處理是人工智能皇冠上的一顆明珠。因此,阿里巴巴與高校的密切合作,不僅是企業(yè)的幸運,也是教師與個人于這個時代的幸運。
在上午場的分享中,五位高校老師分享了他們在各自研究自然語言處理過程中的成果。
來自蘇州大學(xué)的陳文亮首先介紹了成立 30 年的蘇州大學(xué)自然語言處理團隊,該團隊目前在信息檢索、篇章分析、信息抽取、情感分析、機器翻譯及知識圖譜等六大研究領(lǐng)域都有著深厚的學(xué)術(shù)積累。
隨后,陳文亮分享了團隊與阿里不同團隊的合作項目,結(jié)合在電商平臺業(yè)務(wù)需求中所產(chǎn)生的自然語言處理實際問題,并開展創(chuàng)新性前沿應(yīng)用技術(shù)研究和開發(fā),研究如何利用大規(guī)模多領(lǐng)域跨語言無標注語料資源,并提高自然語言處理任務(wù)的準確率和魯棒性。基于依存句法樹庫構(gòu)建和分析模型、面向單產(chǎn)品問答文本的情感分析方法研究、面向知識圖譜構(gòu)建的文本挖掘算法研究和面向神經(jīng)機器翻譯的干預(yù)技術(shù)研究等四個領(lǐng)域,蘇州大學(xué)自然語言處理團隊分別在 IJCNLP-2017、IJCAI-2018 和 AAAI-2018 等國際頂級學(xué)術(shù)會議發(fā)表了相關(guān)工作。
趙東巖 - 基于知識圖譜的文本語義理解及其智能應(yīng)用
北京大學(xué)計算機研究所的趙東巖首先從類人智能研究動態(tài)入手,介紹了文本語義理解技術(shù)的相關(guān)背景,并從語義挖掘、語義理解、對話系統(tǒng)三個研究方向介紹了相關(guān)技術(shù)研究。
在語義挖掘領(lǐng)域,趙東巖團隊已經(jīng)構(gòu)建了超過 1300 萬條 RDF 知識條目、80 萬實體的中文知識圖譜,并支持動態(tài)構(gòu)建、置信度評價、自然語言問答等。
在語義理解領(lǐng)域,團隊構(gòu)建了基于圖結(jié)構(gòu)的大規(guī)模 RDF 語義網(wǎng)絡(luò)存儲與查詢系統(tǒng),搜狗知立方 10 億條知識圖譜實測的平均查詢時間為 400ms。
在對話系統(tǒng)領(lǐng)域,比較成熟的檢索式對話技術(shù)通過從大量對話數(shù)據(jù)庫中搜索候選回答,并將用戶問題進行結(jié)構(gòu)化,通過深度神經(jīng)網(wǎng)絡(luò)技術(shù)對候選回答進行排序,得到最優(yōu)回答。
此外在語義引擎、對話機器人等方面,語義理解也有著多種技術(shù)應(yīng)用,如理財顧問機器人、法律助理機器人等。
復(fù)旦大學(xué)的邱錫鵬首先回顧了 NLP 的發(fā)展歷程,并引出深度學(xué)習(xí)在自然語言處理中的「尷尬」地位主要有兩個方面。一是 NLP 任務(wù)中的神經(jīng)網(wǎng)絡(luò)并不深,多數(shù)情況下,一層 LSTM 加 attention 機制就足夠解決問題;二是深度學(xué)習(xí)面臨數(shù)據(jù)標注需求量大與代價高之間的矛盾。邱錫鵬指出在數(shù)據(jù)量小的情況下,可以采用多任務(wù)學(xué)習(xí)來聯(lián)合訓(xùn)練多個不同任務(wù),通過找到共性以相互提高,深度學(xué)習(xí)也為多任務(wù)學(xué)習(xí)在自然語言處理中的應(yīng)用提供了條件,具體的結(jié)合形式包括硬共享模式,軟共享模式,以及共享-私有模式等。不過邱錫鵬也指出,在多領(lǐng)域任務(wù)、多級任務(wù)及多語言任務(wù)上,多任務(wù)學(xué)習(xí)仍然面臨不同層面的挑戰(zhàn)。
新加坡管理大學(xué)的蔣靜圍繞團隊提出的 Match-LSTM 模型分享了這一算法在自然語言推理和機器閱讀理解上的應(yīng)用。該模型改進了 Rocktaschel et al. (2015) 提出的基于 word-by-word attention 的模型,在解決文本蘊含任務(wù)中取得提升,在 SQuAD 數(shù)據(jù)集中取得了最好效果。通過給定前提 (premise) 去判斷相應(yīng)的假說 (hypothesis) 是否正確,是則判斷為蘊含 (entailment),否則為矛盾 (contradiction)。
推薦系統(tǒng)在傳統(tǒng)建模中通常采用基于矩陣分解的打分預(yù)測。南京大學(xué)的戴新宇在分享中指出,這一模型面臨冷啟動與矩陣稀疏的兩大問題。以社交關(guān)系數(shù)據(jù)、商品的評論數(shù)據(jù)為代表的異質(zhì)數(shù)據(jù)能夠幫助解決上述問題。戴新宇介紹了如何設(shè)計一個模型來融合評論做基于隱式反饋的排序推薦,以及如何將神經(jīng)網(wǎng)絡(luò)的方法融入到推薦系統(tǒng)中。
下午場中,首先由阿里巴巴自然語言處理相關(guān)技術(shù)團隊代表分享阿里介紹在研究當中和工作當中的一些挑戰(zhàn)及相應(yīng)成果。隨后由兩名來自高校的老師分享了他們在相關(guān)學(xué)術(shù)研究工作的一些心得體會。
阿里集團都談使命,阿里巴巴的使命是「讓天下沒有難做的生意」,阿里翻譯平臺的使命是「讓商業(yè)沒有語言障礙」。
秉承這一使命,阿里翻譯平臺的翻譯總量已經(jīng)達到每日 7.5 億次,每天翻譯的詞語數(shù)高達 2600 億。不過,據(jù)陳博興表示,目前電商翻譯仍存在包括翻譯質(zhì)量、翻譯速度及服務(wù)質(zhì)量等多重問題。為解決上述問題,阿里翻譯平臺收集和構(gòu)建了大量的電商領(lǐng)域的平行語料和知識庫,并結(jié)合不同業(yè)務(wù)場景有的放矢,設(shè)計了基于規(guī)則的翻譯模塊(Rule Based Machine Translation,RBMT),基于短語的統(tǒng)計機器翻譯模型(Statistical Machine Translation,SMT)和基于神經(jīng)網(wǎng)絡(luò)的機器翻譯模型(Neural Machine Translation,NMT)等。最后陳博興總結(jié)道,翻譯的準確性、靈活性、可用性及穩(wěn)定性一直都是機器翻譯系統(tǒng)的重要標準。雖然目前機器翻譯的效果并不算盡善盡美,但它在一些場景中能提供巨大的商業(yè)價值。
圍繞阿里巴巴 NLP 基礎(chǔ)技術(shù)體系平臺 AliNLP,李林琳介紹了平臺在分詞、語法錯誤檢測、垂直知識庫、文本糾錯解決方案、國際化業(yè)務(wù)、搜索方案等多個領(lǐng)域的探索和嘗試,目前在搜索推薦、廣告、金融、客服、娛樂、安全等業(yè)務(wù)場景廣泛使用,支持阿里云城市大腦、醫(yī)療大腦等產(chǎn)業(yè)創(chuàng)新,同時全面覆蓋 Alibaba.com, AliExpress, Lazada 國際化業(yè)務(wù)。
對于一個擁有海量多維數(shù)據(jù)的企業(yè),阿里 MIT 在文本挖掘上也做出了不少嘗試。劉曉鐘在分享中介紹了團隊在智能司法、輿論分析、文本生成、反垃圾、個性化推薦、事件挖掘等多領(lǐng)域的探索及實踐應(yīng)用。通過用戶行為數(shù)據(jù)更好地理解用戶,抽取重要的用戶變量,代入文本挖掘的算法,進而提升算法準確度,阿里巴巴希望「天下沒有難做的生意」。在最后,劉曉鐘也提出了一些感興趣的研究方向,邀請各位老師一同與阿里合作。
我們是 NLP 的團隊,但是我們的研究并不僅僅指 NLP,我們特別期待的事情是把 NLP 做成算法,但我們會更多加入 User 的成分,User 的部分是我今天希望推薦給大家的,希望老師跟我們的合作。
清華大學(xué)劉奕群分享了清華大學(xué)在 NLP 領(lǐng)域所取得的成績。隨后,他介紹了異質(zhì)環(huán)境下的用戶交互行為模型的構(gòu)建,包括搜索、native、信息流場景下的交互。異質(zhì)化的呈現(xiàn)方式很多,信息源的來源多樣化,嘗試使用用戶感知的方法收集行為數(shù)據(jù),利用這些數(shù)據(jù)進行建模,可以利用這些模型來預(yù)測用戶可能注意的內(nèi)容,估測用戶的注意力。搜索結(jié)果資源的聚合排序,通過大量的搜索結(jié)果和文本結(jié)果和在一起,給出一個最優(yōu)的排序。此外,團隊也探索了在點擊行為之外,融合視覺特征、結(jié)構(gòu)化特征等各種不同的表示方式,并使用深度學(xué)習(xí)的方法進行排序,以獲得更優(yōu)解。關(guān)于性能評價、欺詐檢測和 CQA 作弊行為,劉奕群也分享了團隊所做的一些工作。
哈爾濱工業(yè)大學(xué) 楊沐昀
哈爾濱工業(yè)大學(xué)的趙鐵軍老師和楊沐昀老師從機器翻譯模型的改進和機器翻譯譯文的后優(yōu)化兩方面進行分享。前者主要圍繞局部上下文增強詞匯表示及句法導(dǎo)向的注意力機制;后者則主要圍繞基于實例的翻譯一致性優(yōu)化及基于偽反饋的編輯一致性優(yōu)化進行分享。圍繞 MI&T Lab 機器翻譯研究,團隊將「語義為核心,句法篇章為兩翼,認知為前沿」作為基礎(chǔ)理論,基于平行語料庫 NMT、基于非平行語料庫的無指導(dǎo) NMT 還有基于個人語料的機器翻譯后優(yōu)化為關(guān)鍵技術(shù),在個性化檢索、知識圖譜、對話系統(tǒng)等領(lǐng)域做落地嘗試,并應(yīng)用于健康信息等垂直領(lǐng)域。
在最后,阿里巴巴集團機器智能技術(shù)實驗室的駱衛(wèi)華老師與黃非老師對本次研討會進行了總結(jié)。二位老師首先感謝諸位與會嘉賓遠道而來參加研討會。
駱衛(wèi)華表示,這是阿里 NLP 團隊首次組織相關(guān)的研討會,也希望未來能與大家多做交流。他認為本次研討會的主要作用有兩個方面。
首先是思維碰撞。駱衛(wèi)華希望這些阿里與學(xué)術(shù)界、學(xué)術(shù)界內(nèi)部的合作課題探討,能給與會嘉賓們有所啟發(fā):「我覺得一個真正好的會議并不是(在會上)解決多少問題,而是大家能碰撞出來一些有價值的、新的問題?!?/p>
其次是構(gòu)建合作橋梁。在研討會的分享之下,阿里巴巴也希望能將可能有的一些合作點串聯(lián)、嫁接起來,促進多方合作。
「工業(yè)界和學(xué)術(shù)界各有各的優(yōu)勢和分工,我們也希望能夠把大家的優(yōu)勢結(jié)合起來,把各自在各自方向做好事情的能力結(jié)合起來,能夠推動這個技術(shù)領(lǐng)域更快地發(fā)展,能夠解決長期以來懸而未決沒有解決的事情?!?/p>
黃非老師非常贊同駱衛(wèi)華老師的觀點,他表示自己在會上受益匪淺。通過阿里的工作介紹,他希望嘉賓們能借這個機會了解到自然語言處理,特別是多語言自然語言處理的機器翻譯在阿里的重要戰(zhàn)略地位,特別是在阿里國際化中起到的技術(shù)作用。
「在這樣的場景下,我認為學(xué)術(shù)界的老師和工業(yè)界的研究者有很大的研究機會和互補的機會。工業(yè)研究中會提出一些新的問題,對學(xué)術(shù)應(yīng)用會有促進;同時各位老師在學(xué)術(shù)界的深厚積累,對阿里的技術(shù)推進也有很大的幫助?!?/p>
我們也相信,阿里 NLP 團隊將在未來舉辦更多與自然語言處理相關(guān)的研討會,在研究與實踐中不斷帶動學(xué)界與業(yè)界的交流與融合。更多資訊敬請關(guān)注雷鋒網(wǎng)AI科技評論。
附阿里巴巴達摩院機器智能技術(shù)實驗室自然語言理解研究組團隊簡介:
阿里巴巴達摩院機器智能技術(shù)實驗室自然語言理解研究組團隊致力與學(xué)術(shù)界、產(chǎn)業(yè)界一起創(chuàng)新自然語言技術(shù)。團隊成員普遍擁有 10 年以上自然語言處理研發(fā)經(jīng)驗,分布在中國、美國、新加坡的近百位研究員,30% 以上擁有博士學(xué)歷(如 CMU、伯克利、普林斯頓、清華、北大等),其中包括前國際知名院校終身教授、知名研究所研究員等。團隊及成員多次在國際自然語言技術(shù)競賽中取得冠軍成績 (2016 年 CIKM Cup 電商搜索,2017 年 IJCNLP 語法糾錯,2017 年美國標準計量局信息提取,2017 年 WMT 俄語到英語等),在歷年頂級國際會議上 (ACL,AAAI,SIGIR,CIKM) 均有學(xué)術(shù)論文及報告產(chǎn)出。
團隊主要從事自然語言基礎(chǔ)技術(shù),機器翻譯,文本挖掘,語義計算,文本搜索和推薦等方向的研究,致力于構(gòu)建阿里巴巴自然語言技術(shù)體系,支撐阿里巴巴經(jīng)濟體語言智能技術(shù)和應(yīng)用,秉持「讓商業(yè)沒有語言障礙」的使命理念,賦能阿里巴巴合作者,發(fā)展普惠自然語言智能技術(shù)。
創(chuàng)新自然語言技術(shù),探索未來智能。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。