ACL終身成就獎(jiǎng)得主李生：自然語言處理研究的五點(diǎn)體會(huì)

本文作者：汪思穎

2019-01-16 14:39

導(dǎo)語：說人工智能對(duì)語言、圖像和語音識(shí)別起到翻天覆地的作用，那好像夸張了一點(diǎn)，但是確實(shí)，人工智能起到了很大的作用。

雷鋒網(wǎng) AI 科技評(píng)論按，近日，北京語言大學(xué)語言資源高精尖創(chuàng)新中心與中國中文信息學(xué)會(huì)聯(lián)合主辦首屆「語言智能與社會(huì)發(fā)展」論壇，多名來自教育部、高校、語言學(xué)界、機(jī)器翻譯界、企業(yè)界的重磅嘉賓出席。會(huì)上，ACL 終生成就獎(jiǎng)得主、自然語言處理領(lǐng)域泰斗李生教授進(jìn)行了精彩的發(fā)言，闡述了人工智能對(duì)自然語言處理所帶來的突破性改變，以及它的一些局限性。

李生，哈爾濱工業(yè)大學(xué)教授、博士生導(dǎo)師。自然語言處理（NLP）領(lǐng)域?qū)＜?、ACL 終身成就獎(jiǎng)得主。李生教授先后主持了 10 余項(xiàng)包括原航天工業(yè)總公司、「863」計(jì)劃、國家自然科學(xué)基金等科研項(xiàng)目，獲得 7 項(xiàng)部級(jí)科技進(jìn)步獎(jiǎng)。他自 1985 年開始研究漢英機(jī)器翻譯，是我國最早從事該方向研究的學(xué)者之一。他帶領(lǐng)團(tuán)隊(duì)研制的漢英機(jī)器翻譯系統(tǒng) CEMT-I 于 1989 年成為我國第一個(gè)通過技術(shù)鑒定的漢英機(jī)器翻譯系統(tǒng)，其在機(jī)器翻譯技術(shù)及其相關(guān)的句法、語義分析等自然語言處理方向成就卓著，為機(jī)器翻譯在中國的發(fā)展做出了開拓性貢獻(xiàn)。

作為中國改革開放以來最早從事自然語言處理研究的學(xué)者之一，李生教授除了自身的科研成就以外，更為中國計(jì)算機(jī)領(lǐng)域培養(yǎng)了一批成就卓著的青年專家，包括 ACL 首位華人主席、百度公司技術(shù)副總裁王海峰博士，微軟亞洲研究院首席研究員周明博士，國家杰青獲得者、蘇州大學(xué)計(jì)算機(jī)學(xué)院副院長(zhǎng)張民教授等，為中國計(jì)算機(jī)技術(shù)一代又一代的發(fā)展貢獻(xiàn)了力量。

以下為李生教授發(fā)言內(nèi)容：

大家都談到語言和人工智能的關(guān)系，我是搞自然語言處理的，我深切地領(lǐng)會(huì)到從 16 年開始真正掀起的第三次人工智能熱潮。說人工智能對(duì)語言、圖像和語音識(shí)別起到翻天覆地的作用，那好像夸張了一點(diǎn)，但是確實(shí)，人工智能起到了很大的作用。

比如說圖像識(shí)別，現(xiàn)在由于有了深度學(xué)習(xí)，有了多層人工神經(jīng)網(wǎng)絡(luò)之后，我們?cè)谶@方面的成果確實(shí)突飛猛進(jìn)，包括現(xiàn)在的刷臉技術(shù)，基本上已經(jīng)用在很多地方了，如車站、碼頭、機(jī)場(chǎng)、無人售貨商店等。神經(jīng)網(wǎng)絡(luò)解決了一個(gè)很大的問題，以往進(jìn)行特征提取時(shí)，需要通過人工提取，難度很大，有了深度學(xué)習(xí)之后，機(jī)器自動(dòng)提取特征，難度相應(yīng)減小。其他如語音識(shí)別、機(jī)器翻譯也都突飛猛進(jìn)，深度學(xué)習(xí)在這當(dāng)中起到了很大的作用。我覺得在圖像識(shí)別、語音識(shí)別和自然語言處理當(dāng)中，機(jī)器翻譯算得上是難度最大的一個(gè)研究方向。

所以我想談幾點(diǎn)體會(huì)：

第一，語言智能是人工智能的最高層次或者最高階段，語言智能在未來人工智能的應(yīng)用上有著舉足輕重的作用。

我對(duì)語言智能的理解就是，它是自然語言處理（NLP）和自然語言理解（NLU）的人工智能化，這應(yīng)該是人工智能的最高層次。很多人說目前這個(gè)時(shí)代，CV 在人工智能中唱主角，未來可能會(huì)由 CV 轉(zhuǎn)成 NLP，NLP 要唱主角。

大家常說，比爾蓋茨說過一句話，「自然語言處理是人工智能皇冠上的一顆明珠」。這句話不是比爾蓋茨說的，當(dāng)時(shí)我們?cè)趧⑼蠋熣n題組關(guān)于情感分析的一個(gè)會(huì)上，微軟亞洲研究院常務(wù)副院長(zhǎng)周明博士說了這句話，周明說由他來說分量不夠，想算成我說的，我說這樣不行，然后他就把這句話移到比爾蓋茨身上了。大家現(xiàn)在知道了，這句話的真正出處不在比爾蓋茨。

NLP 的目標(biāo)是實(shí)現(xiàn)自然語言與機(jī)器語言的連續(xù)交互。人講的語言，無論是漢語、俄語、日語，都屬于自然語言，機(jī)器能夠識(shí)別的叫機(jī)器語言，現(xiàn)在的交互，既有人和人的交互，也有人和機(jī)器的交互。我們的目標(biāo)是實(shí)現(xiàn)自然語言與機(jī)器語言之間的理解、轉(zhuǎn)換與生成，這也是為什么我認(rèn)為語言智能是人工智能的最高層次。

語言和文字是人類區(qū)別于其他動(dòng)物的至關(guān)重要的標(biāo)志，我覺得它對(duì)人類社會(huì)目前發(fā)展至少起到兩方面作用。一是大家的協(xié)同合作，比如在座各位教授不同課題組之間的合作，例如合作協(xié)議也是用語言文字記下的。第二就是代與代之間的文化傳承，這也是靠文字。我擔(dān)任中文信息學(xué)會(huì)理事會(huì)理事長(zhǎng)時(shí)，有些少數(shù)民族沒有文字，只有語言，這非?？上А?/p>

我談的第二個(gè)觀點(diǎn)就是自然語言處理的核心問題（或難度最大的問題）是機(jī)器翻譯。

機(jī)器翻譯分為三個(gè)階段：第一個(gè)階段是基于規(guī)則的機(jī)器翻譯。那個(gè)階段會(huì)先把文章中打亂的句子變成單詞，之后再查字典，然后進(jìn)行翻譯，翻譯之后，可能中文跟英文并不完全對(duì)應(yīng)，需要再按照語法規(guī)則進(jìn)行調(diào)整，最主要是調(diào)序的問題。第二個(gè)階段是基于統(tǒng)計(jì)的機(jī)器翻譯，在 15、16 年之前，我們都是使用這個(gè)方法。第三個(gè)階段是最近幾年的基于多層人工神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)機(jī)器翻譯。

機(jī)器翻譯在近些年間，在這三個(gè)階段其實(shí)有兩個(gè)重大的變化，一是語法上的，喬姆斯基的生成語法理論，第二就是深度學(xué)習(xí)。原來大家一直對(duì)語義分析犯愁，但是深度學(xué)習(xí)已經(jīng)開始對(duì)語義分析進(jìn)行探險(xiǎn)，大家知道詞嵌入的方法，現(xiàn)在把詞向量再進(jìn)一步發(fā)展到句子向量，含有語義信息了。在處理過程中，對(duì)于單語種，比如說詞匯的語義信息，可以把語義相近的靠在一起，不同語種的源語言和目標(biāo)語言的分布式處理辦法，也可以把源語言和目標(biāo)語言語義相近的一起靠。這個(gè)雖然不能說從根本上解決問題，但是減輕了人對(duì)語義分析很大的憂愁。

第三個(gè)問題就是機(jī)器翻譯的難點(diǎn)和重點(diǎn)。

我很頭疼的是科學(xué)性和藝術(shù)性，如藝術(shù)性的規(guī)律怎么總結(jié)出來。另外，自然語言具有高度開放性和高度靈活性。在開放性上，如網(wǎng)絡(luò)出現(xiàn)以后，新詞不斷涌現(xiàn)，例如粉絲這個(gè)詞匯。在靈活性方面，可以自己隨便去組詞，這些新組成的詞也很讓人頭疼。

語義理解說白了就是對(duì)說話人意圖的理解。意圖理解與上下文有關(guān)系，但是語言本身存在歧義性和多樣性，另外，語言高度依賴知識(shí)，大家都知道常識(shí)知識(shí)，例如煤球是黑的，元宵是白的，小孩子常說，「地球人都知道」，但是機(jī)器不知道。另外還有領(lǐng)域知識(shí)，上下文、語言、環(huán)境等都會(huì)影響對(duì)語義的準(zhǔn)確理解。實(shí)際上在多對(duì)多的翻譯中，根據(jù)當(dāng)前的語境找出一種最為合適的譯文，我覺得這是個(gè)難題。

第四個(gè)問題，人工智能也好，機(jī)器智能也好，人類對(duì)他們有個(gè)共同要求——學(xué)習(xí)和求解問題的能力。

人的學(xué)習(xí)是沒問題的，回顧一下，人在小時(shí)候可能是憑感性認(rèn)識(shí)，或者直接學(xué)習(xí)比較多。看到一只貓，媽媽會(huì)告訴你這是只貓，會(huì)給你留下印象，你會(huì)抽象出概念。到了公園看到老虎，老虎和貓長(zhǎng)得差不多。小孩會(huì)問，這是不是也是貓，媽媽就告訴你，這不是貓，這是老虎。怎么區(qū)別老虎和貓呢？最起碼老虎的個(gè)頭比貓大。小孩子他不一定能記太多，記住這個(gè)就基本上會(huì)區(qū)分了。

對(duì)于學(xué)習(xí)，人一開始通過感性認(rèn)識(shí)，即感知，進(jìn)行自主學(xué)習(xí)，到了一定階段，他就從家長(zhǎng)的不斷教導(dǎo)、老師講的課程或者從媒體上接觸新東西，不斷積累知識(shí)，這是間接知識(shí)。

前面這種學(xué)習(xí)方法叫無監(jiān)督學(xué)習(xí)，后面這種學(xué)習(xí)方法叫監(jiān)督學(xué)習(xí)。人的學(xué)習(xí)是小樣本學(xué)習(xí)，將無監(jiān)督學(xué)習(xí)和監(jiān)督學(xué)習(xí)結(jié)合起來，而機(jī)器現(xiàn)在需要依賴大量標(biāo)注數(shù)據(jù)來進(jìn)行學(xué)習(xí)，即監(jiān)督學(xué)習(xí)，例如前面描述的圖像識(shí)別，就是通過大量的標(biāo)注圖像不斷學(xué)習(xí)。機(jī)器學(xué)習(xí)相對(duì)于人的學(xué)習(xí)來說，受限太多。

有人說我們現(xiàn)在走在感知到認(rèn)知的路上，在感知問題上，不能說大的問題基本上解決，但已經(jīng)解決了一部分。在認(rèn)知階段，形成對(duì)語義的深層理解難度還比較大，這是計(jì)算機(jī)下一步要發(fā)展的。

人工智能突飛猛進(jìn)，解決了很多過去想都不敢想的關(guān)鍵問題，但這只是初步的，它還有好多解決不了的致命問題，比如方才所說的常識(shí)知識(shí)，以及思考和邏輯推理的問題，這對(duì)機(jī)器學(xué)習(xí)也是一種制約。我們?nèi)祟愑辛酥R(shí)之后，可以不斷推理和思考，但是人工智能現(xiàn)在還不具備思維和推理能力，特別是不具備前面說的常識(shí)性知識(shí)。

我的觀點(diǎn)就是，如果不能解決常識(shí)性問題和邏輯推理，要想實(shí)現(xiàn)通用人工智能或者機(jī)器認(rèn)知，就會(huì)非常困難。現(xiàn)在的研究應(yīng)該在這方面多下些功夫。雖說現(xiàn)在也有思考對(duì)語義的理解，比如 18 年 10 月，谷歌推出了 BERT 雙向編碼語言模型，但這個(gè)模型消耗的資源代價(jià)還是比較高的。

另外，深度學(xué)習(xí)確實(shí)解決了人工智能的很多問題，但是除了深度學(xué)習(xí)之外，還可以探討其他人工智能的算法和模型。我們需要做更多的深度的理論研究和探討，掌握好核心技術(shù)。理論深入之后才能有技術(shù)，有了技術(shù)之后才能有算法和模型。

最后一個(gè)問題就是大家常談到的問題，過去也說了很多?！笝C(jī)器會(huì)消滅人類」，「機(jī)器將取代人」，尤其是以不久前去世的霍金為代表的許多人主張這一觀點(diǎn)。我從來就持相反的觀點(diǎn)，我認(rèn)為機(jī)器代替不了人。

現(xiàn)在的人工智能還只是弱人工智能，不是強(qiáng)人工智能，也不是超強(qiáng)人工智能?，F(xiàn)在人工智能的作用，還是用機(jī)器代替簡(jiǎn)單的、重復(fù)的以及危險(xiǎn)性的勞動(dòng)，想要解決找不到規(guī)律的問題，人工智能還不能做到，也代替不了人。人要盡量用好機(jī)器這個(gè)助手，自如地運(yùn)用好機(jī)器，這樣既可以提高工作效率，也可以保證質(zhì)量。

今天大家談到外語教學(xué)，我覺得人工智能對(duì)外語老師和外語專業(yè)的學(xué)生都不會(huì)有太大的影響。低水平淘汰是自然規(guī)律，例如講不好的，沒有科研能力的教師，該淘汰就得被淘汰。原來大家爭(zhēng)論最多的是醫(yī)生，說醫(yī)生要被淘汰，醫(yī)生與教師一樣，是很難被淘汰的。醫(yī)療影像診斷還得靠水平高的醫(yī)生來看。

包括我前面說的翻譯，也是一樣，我覺得最好的翻譯、最好的教師和醫(yī)生，一定是那些對(duì)人工智能系統(tǒng)或者教育機(jī)器深入了解，能運(yùn)用自如的人。把這些作為輔助手段，水平會(huì)越來越高，效果會(huì)越來越好。不是誰淘汰誰的問題，機(jī)器永遠(yuǎn)是人的工具。

附語言智能與社會(huì)發(fā)展論壇 2018 宣言：語言智能與外語教育協(xié)同發(fā)展

序言

近年來，機(jī)器翻譯等語言智能技術(shù)迅猛發(fā)展，并開始在輿論中對(duì)人工外語服務(wù)形成沖擊。一時(shí)間，語言智能技術(shù)落地、外語教育存廢及投入多寡等，成為社會(huì)熱議的話題，也成為國家教育規(guī)劃和技術(shù)規(guī)劃中亟需面對(duì)的問題。

原則

本論壇相信：

1.語言智能技術(shù)的發(fā)展將極大地推進(jìn)人類進(jìn)步，社會(huì)應(yīng)當(dāng)張開雙臂擁抱語言智能，支持語言智能的發(fā)展，適應(yīng)語言智能的發(fā)展，最大限度地從語言智能的發(fā)展中獲取社會(huì)效益，最大限度地避免語言智能對(duì)社會(huì)產(chǎn)生的副作用。

2.語言和語言學(xué)習(xí)是人之所以為人、提升智力和大腦功能的關(guān)鍵。語言智能也不是單純的機(jī)器智能，而是以人類語言能力為基礎(chǔ)、實(shí)現(xiàn)增強(qiáng)與互聯(lián)的深度人機(jī)結(jié)合的綜合智能行為。語言智能在其發(fā)展歷程中也離不開語言學(xué)的基礎(chǔ)支撐。因而在技術(shù)發(fā)展、專業(yè)教育等方面，不應(yīng)輕視人類語言知識(shí)、語言能力的根本作用。

本論壇堅(jiān)持：

1.作為工具的語言智能技術(shù)無法替代外語從業(yè)者，但對(duì)不掌握智能工具的外語從業(yè)者會(huì)帶來沖擊。

2.語言智能發(fā)展應(yīng)以人為本，以公眾福祉為目標(biāo)，應(yīng)尊重社會(huì)倫理和科技倫理，承擔(dān)起社會(huì)責(zé)任。

3.外語教育（包括第二語言教育）應(yīng)與時(shí)俱進(jìn)，將語言智能的挑戰(zhàn)作為轉(zhuǎn)型發(fā)展的契機(jī)。堅(jiān)持語言教育的工具性、人文性的雙重屬性，重視語言運(yùn)用能力、跨文化交際能力和文化包容心的教育，重視語言智能技術(shù)的學(xué)習(xí)與應(yīng)用，培養(yǎng)不同文化間的穿行者。

倡議

我們需要冷靜地、理性地預(yù)測(cè)機(jī)器翻譯等語言智能技術(shù)的發(fā)展未來，科學(xué)估量它在翻譯事務(wù)當(dāng)中將發(fā)揮的作用，有效幫助國家制定符合實(shí)際的外語發(fā)展規(guī)劃，幫助外語從業(yè)者做好心理準(zhǔn)備，主動(dòng)適應(yīng)新形勢(shì)。

本論壇倡議，外語教育面對(duì)語言智能時(shí)代的沖擊和挑戰(zhàn)，為自身發(fā)展和學(xué)生前途計(jì)，應(yīng)當(dāng)全力適應(yīng)人機(jī)共存的語言生活形態(tài)，充分利用語言工具的革命性變化，革新教學(xué)范式和人才培養(yǎng)路徑，增強(qiáng)受教育者智能工具的使用能力，幫助其過好智能時(shí)代的外語生活。

機(jī)器翻譯等語言智能技術(shù)的發(fā)展和實(shí)踐，不應(yīng)也不可能謀求全面替代人類的外語能力，在公共宣傳、科普演示中，語言智能學(xué)界和產(chǎn)業(yè)界應(yīng)當(dāng)實(shí)事求是地報(bào)告語言智能的發(fā)展現(xiàn)實(shí)，不夸大語言智能技術(shù)的現(xiàn)有性能，不做缺乏科學(xué)依據(jù)的展望，不能對(duì)人類的外語工作造成恐慌，不能對(duì)人類的外語事業(yè)規(guī)劃造成形勢(shì)誤判。

語言智能的發(fā)展秉承以人為中心的發(fā)展觀，不斷向更深層次與更廣范圍的人機(jī)互助、人機(jī)共處前進(jìn)，使之成為進(jìn)一步提升人類語言能力和溝通能力、凝聚社群心靈、融會(huì)世界知識(shí)的工具。語言智能與外語教育協(xié)同發(fā)展，共同進(jìn)步，助力人類命運(yùn)共同體的形成。

呼吁語言智能界、倫理學(xué)界及社會(huì)有關(guān)界別及有識(shí)人士，成立“語言智能倫理委員會(huì)”，保證語言智能在符合人類倫理的框架內(nèi)發(fā)展，劃定語言智能技術(shù)應(yīng)用的道德邊界和法律邊界。

雷鋒網(wǎng)雷鋒網(wǎng)

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

2人收藏

汪思穎

編輯

關(guān)注AI學(xué)術(shù)，例如論文

發(fā)私信

當(dāng)月熱門文章