0
本文作者: 汪思穎 | 2019-01-16 14:39 |
雷鋒網(wǎng) AI 科技評(píng)論按,近日,北京語言大學(xué)語言資源高精尖創(chuàng)新中心與中國中文信息學(xué)會(huì)聯(lián)合主辦首屆「語言智能與社會(huì)發(fā)展」論壇,多名來自教育部、高校、語言學(xué)界、機(jī)器翻譯界、企業(yè)界的重磅嘉賓出席。會(huì)上,ACL 終生成就獎(jiǎng)得主、自然語言處理領(lǐng)域泰斗李生教授進(jìn)行了精彩的發(fā)言,闡述了人工智能對(duì)自然語言處理所帶來的突破性改變,以及它的一些局限性。
李生,哈爾濱工業(yè)大學(xué)教授、博士生導(dǎo)師。自然語言處理(NLP)領(lǐng)域?qū)<?、ACL 終身成就獎(jiǎng)得主。李生教授先后主持了 10 余項(xiàng)包括原航天工業(yè)總公司、「863」計(jì)劃、國家自然科學(xué)基金等科研項(xiàng)目,獲得 7 項(xiàng)部級(jí)科技進(jìn)步獎(jiǎng)。他自 1985 年開始研究漢英機(jī)器翻譯,是我國最早從事該方向研究的學(xué)者之一。他帶領(lǐng)團(tuán)隊(duì)研制的漢英機(jī)器翻譯系統(tǒng) CEMT-I 于 1989 年成為我國第一個(gè)通過技術(shù)鑒定的漢英機(jī)器翻譯系統(tǒng),其在機(jī)器翻譯技術(shù)及其相關(guān)的句法、語義分析等自然語言處理方向成就卓著,為機(jī)器翻譯在中國的發(fā)展做出了開拓性貢獻(xiàn)。
作為中國改革開放以來最早從事自然語言處理研究的學(xué)者之一,李生教授除了自身的科研成就以外,更為中國計(jì)算機(jī)領(lǐng)域培養(yǎng)了一批成就卓著的青年專家,包括 ACL 首位華人主席、百度公司技術(shù)副總裁王海峰博士,微軟亞洲研究院首席研究員周明博士,國家杰青獲得者、蘇州大學(xué)計(jì)算機(jī)學(xué)院副院長(zhǎng)張民教授等,為中國計(jì)算機(jī)技術(shù)一代又一代的發(fā)展貢獻(xiàn)了力量。
以下為李生教授發(fā)言內(nèi)容:
大家都談到語言和人工智能的關(guān)系,我是搞自然語言處理的,我深切地領(lǐng)會(huì)到從 16 年開始真正掀起的第三次人工智能熱潮。說人工智能對(duì)語言、圖像和語音識(shí)別起到翻天覆地的作用,那好像夸張了一點(diǎn),但是確實(shí),人工智能起到了很大的作用。
比如說圖像識(shí)別,現(xiàn)在由于有了深度學(xué)習(xí),有了多層人工神經(jīng)網(wǎng)絡(luò)之后,我們?cè)谶@方面的成果確實(shí)突飛猛進(jìn),包括現(xiàn)在的刷臉技術(shù),基本上已經(jīng)用在很多地方了,如車站、碼頭、機(jī)場(chǎng)、無人售貨商店等。神經(jīng)網(wǎng)絡(luò)解決了一個(gè)很大的問題,以往進(jìn)行特征提取時(shí),需要通過人工提取,難度很大,有了深度學(xué)習(xí)之后,機(jī)器自動(dòng)提取特征,難度相應(yīng)減小。其他如語音識(shí)別、機(jī)器翻譯也都突飛猛進(jìn),深度學(xué)習(xí)在這當(dāng)中起到了很大的作用。我覺得在圖像識(shí)別、語音識(shí)別和自然語言處理當(dāng)中,機(jī)器翻譯算得上是難度最大的一個(gè)研究方向。
所以我想談幾點(diǎn)體會(huì):
第一,語言智能是人工智能的最高層次或者最高階段,語言智能在未來人工智能的應(yīng)用上有著舉足輕重的作用。
我對(duì)語言智能的理解就是,它是自然語言處理(NLP)和自然語言理解(NLU)的人工智能化,這應(yīng)該是人工智能的最高層次。很多人說目前這個(gè)時(shí)代,CV 在人工智能中唱主角,未來可能會(huì)由 CV 轉(zhuǎn)成 NLP,NLP 要唱主角。
大家常說,比爾蓋茨說過一句話,「自然語言處理是人工智能皇冠上的一顆明珠」。這句話不是比爾蓋茨說的,當(dāng)時(shí)我們?cè)趧⑼蠋熣n題組關(guān)于情感分析的一個(gè)會(huì)上,微軟亞洲研究院常務(wù)副院長(zhǎng)周明博士說了這句話,周明說由他來說分量不夠,想算成我說的,我說這樣不行,然后他就把這句話移到比爾蓋茨身上了。大家現(xiàn)在知道了,這句話的真正出處不在比爾蓋茨。
NLP 的目標(biāo)是實(shí)現(xiàn)自然語言與機(jī)器語言的連續(xù)交互。人講的語言,無論是漢語、俄語、日語,都屬于自然語言,機(jī)器能夠識(shí)別的叫機(jī)器語言,現(xiàn)在的交互,既有人和人的交互,也有人和機(jī)器的交互。我們的目標(biāo)是實(shí)現(xiàn)自然語言與機(jī)器語言之間的理解、轉(zhuǎn)換與生成,這也是為什么我認(rèn)為語言智能是人工智能的最高層次。
語言和文字是人類區(qū)別于其他動(dòng)物的至關(guān)重要的標(biāo)志,我覺得它對(duì)人類社會(huì)目前發(fā)展至少起到兩方面作用。一是大家的協(xié)同合作,比如在座各位教授不同課題組之間的合作,例如合作協(xié)議也是用語言文字記下的。第二就是代與代之間的文化傳承,這也是靠文字。我擔(dān)任中文信息學(xué)會(huì)理事會(huì)理事長(zhǎng)時(shí),有些少數(shù)民族沒有文字,只有語言,這非??上А?/p>
我談的第二個(gè)觀點(diǎn)就是自然語言處理的核心問題(或難度最大的問題)是機(jī)器翻譯。
機(jī)器翻譯分為三個(gè)階段:第一個(gè)階段是基于規(guī)則的機(jī)器翻譯。那個(gè)階段會(huì)先把文章中打亂的句子變成單詞,之后再查字典,然后進(jìn)行翻譯,翻譯之后,可能中文跟英文并不完全對(duì)應(yīng),需要再按照語法規(guī)則進(jìn)行調(diào)整,最主要是調(diào)序的問題。第二個(gè)階段是基于統(tǒng)計(jì)的機(jī)器翻譯,在 15、16 年之前,我們都是使用這個(gè)方法。第三個(gè)階段是最近幾年的基于多層人工神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)機(jī)器翻譯。
機(jī)器翻譯在近些年間,在這三個(gè)階段其實(shí)有兩個(gè)重大的變化,一是語法上的,喬姆斯基的生成語法理論,第二就是深度學(xué)習(xí)。原來大家一直對(duì)語義分析犯愁,但是深度學(xué)習(xí)已經(jīng)開始對(duì)語義分析進(jìn)行探險(xiǎn),大家知道詞嵌入的方法,現(xiàn)在把詞向量再進(jìn)一步發(fā)展到句子向量,含有語義信息了。在處理過程中,對(duì)于單語種,比如說詞匯的語義信息,可以把語義相近的靠在一起,不同語種的源語言和目標(biāo)語言的分布式處理辦法,也可以把源語言和目標(biāo)語言語義相近的一起靠。這個(gè)雖然不能說從根本上解決問題,但是減輕了人對(duì)語義分析很大的憂愁。
第三個(gè)問題就是機(jī)器翻譯的難點(diǎn)和重點(diǎn)。
我很頭疼的是科學(xué)性和藝術(shù)性,如藝術(shù)性的規(guī)律怎么總結(jié)出來。另外,自然語言具有高度開放性和高度靈活性。在開放性上,如網(wǎng)絡(luò)出現(xiàn)以后,新詞不斷涌現(xiàn),例如粉絲這個(gè)詞匯。在靈活性方面,可以自己隨便去組詞,這些新組成的詞也很讓人頭疼。
語義理解說白了就是對(duì)說話人意圖的理解。意圖理解與上下文有關(guān)系,但是語言本身存在歧義性和多樣性,另外,語言高度依賴知識(shí),大家都知道常識(shí)知識(shí),例如煤球是黑的,元宵是白的,小孩子常說,「地球人都知道」,但是機(jī)器不知道。另外還有領(lǐng)域知識(shí),上下文、語言、環(huán)境等都會(huì)影響對(duì)語義的準(zhǔn)確理解。實(shí)際上在多對(duì)多的翻譯中,根據(jù)當(dāng)前的語境找出一種最為合適的譯文,我覺得這是個(gè)難題。
第四個(gè)問題,人工智能也好,機(jī)器智能也好,人類對(duì)他們有個(gè)共同要求——學(xué)習(xí)和求解問題的能力。
人的學(xué)習(xí)是沒問題的,回顧一下,人在小時(shí)候可能是憑感性認(rèn)識(shí),或者直接學(xué)習(xí)比較多。看到一只貓,媽媽會(huì)告訴你這是只貓,會(huì)給你留下印象,你會(huì)抽象出概念。到了公園看到老虎,老虎和貓長(zhǎng)得差不多。小孩會(huì)問,這是不是也是貓,媽媽就告訴你,這不是貓,這是老虎。怎么區(qū)別老虎和貓呢?最起碼老虎的個(gè)頭比貓大。小孩子他不一定能記太多,記住這個(gè)就基本上會(huì)區(qū)分了。
對(duì)于學(xué)習(xí),人一開始通過感性認(rèn)識(shí),即感知,進(jìn)行自主學(xué)習(xí),到了一定階段,他就從家長(zhǎng)的不斷教導(dǎo)、老師講的課程或者從媒體上接觸新東西,不斷積累知識(shí),這是間接知識(shí)。
前面這種學(xué)習(xí)方法叫無監(jiān)督學(xué)習(xí),后面這種學(xué)習(xí)方法叫監(jiān)督學(xué)習(xí)。人的學(xué)習(xí)是小樣本學(xué)習(xí),將無監(jiān)督學(xué)習(xí)和監(jiān)督學(xué)習(xí)結(jié)合起來,而機(jī)器現(xiàn)在需要依賴大量標(biāo)注數(shù)據(jù)來進(jìn)行學(xué)習(xí),即監(jiān)督學(xué)習(xí),例如前面描述的圖像識(shí)別,就是通過大量的標(biāo)注圖像不斷學(xué)習(xí)。機(jī)器學(xué)習(xí)相對(duì)于人的學(xué)習(xí)來說,受限太多。
有人說我們現(xiàn)在走在感知到認(rèn)知的路上,在感知問題上,不能說大的問題基本上解決,但已經(jīng)解決了一部分。在認(rèn)知階段,形成對(duì)語義的深層理解難度還比較大,這是計(jì)算機(jī)下一步要發(fā)展的。
人工智能突飛猛進(jìn),解決了很多過去想都不敢想的關(guān)鍵問題,但這只是初步的,它還有好多解決不了的致命問題,比如方才所說的常識(shí)知識(shí),以及思考和邏輯推理的問題,這對(duì)機(jī)器學(xué)習(xí)也是一種制約。我們?nèi)祟愑辛酥R(shí)之后,可以不斷推理和思考,但是人工智能現(xiàn)在還不具備思維和推理能力,特別是不具備前面說的常識(shí)性知識(shí)。
我的觀點(diǎn)就是,如果不能解決常識(shí)性問題和邏輯推理,要想實(shí)現(xiàn)通用人工智能或者機(jī)器認(rèn)知,就會(huì)非常困難。現(xiàn)在的研究應(yīng)該在這方面多下些功夫。雖說現(xiàn)在也有思考對(duì)語義的理解,比如 18 年 10 月,谷歌推出了 BERT 雙向編碼語言模型,但這個(gè)模型消耗的資源代價(jià)還是比較高的。
另外,深度學(xué)習(xí)確實(shí)解決了人工智能的很多問題,但是除了深度學(xué)習(xí)之外,還可以探討其他人工智能的算法和模型。我們需要做更多的深度的理論研究和探討,掌握好核心技術(shù)。理論深入之后才能有技術(shù),有了技術(shù)之后才能有算法和模型。
最后一個(gè)問題就是大家常談到的問題,過去也說了很多?!笝C(jī)器會(huì)消滅人類」,「機(jī)器將取代人」,尤其是以不久前去世的霍金為代表的許多人主張這一觀點(diǎn)。我從來就持相反的觀點(diǎn),我認(rèn)為機(jī)器代替不了人。
現(xiàn)在的人工智能還只是弱人工智能,不是強(qiáng)人工智能,也不是超強(qiáng)人工智能?,F(xiàn)在人工智能的作用,還是用機(jī)器代替簡(jiǎn)單的、重復(fù)的以及危險(xiǎn)性的勞動(dòng),想要解決找不到規(guī)律的問題,人工智能還不能做到,也代替不了人。人要盡量用好機(jī)器這個(gè)助手,自如地運(yùn)用好機(jī)器,這樣既可以提高工作效率,也可以保證質(zhì)量。
今天大家談到外語教學(xué),我覺得人工智能對(duì)外語老師和外語專業(yè)的學(xué)生都不會(huì)有太大的影響。低水平淘汰是自然規(guī)律,例如講不好的,沒有科研能力的教師,該淘汰就得被淘汰。原來大家爭(zhēng)論最多的是醫(yī)生,說醫(yī)生要被淘汰,醫(yī)生與教師一樣,是很難被淘汰的。醫(yī)療影像診斷還得靠水平高的醫(yī)生來看。
包括我前面說的翻譯,也是一樣,我覺得最好的翻譯、最好的教師和醫(yī)生,一定是那些對(duì)人工智能系統(tǒng)或者教育機(jī)器深入了解,能運(yùn)用自如的人。把這些作為輔助手段,水平會(huì)越來越高,效果會(huì)越來越好。不是誰淘汰誰的問題,機(jī)器永遠(yuǎn)是人的工具。
附語言智能與社會(huì)發(fā)展論壇 2018 宣言:語言智能與外語教育協(xié)同發(fā)展
序言
近年來,機(jī)器翻譯等語言智能技術(shù)迅猛發(fā)展,并開始在輿論中對(duì)人工外語服務(wù)形成沖擊。一時(shí)間,語言智能技術(shù)落地、外語教育存廢及投入多寡等,成為社會(huì)熱議的話題,也成為國家教育規(guī)劃和技術(shù)規(guī)劃中亟需面對(duì)的問題。
原則
本論壇相信:
1.語言智能技術(shù)的發(fā)展將極大地推進(jìn)人類進(jìn)步,社會(huì)應(yīng)當(dāng)張開雙臂擁抱語言智能,支持語言智能的發(fā)展,適應(yīng)語言智能的發(fā)展,最大限度地從語言智能的發(fā)展中獲取社會(huì)效益,最大限度地避免語言智能對(duì)社會(huì)產(chǎn)生的副作用。
2.語言和語言學(xué)習(xí)是人之所以為人、提升智力和大腦功能的關(guān)鍵。語言智能也不是單純的機(jī)器智能,而是以人類語言能力為基礎(chǔ)、實(shí)現(xiàn)增強(qiáng)與互聯(lián)的深度人機(jī)結(jié)合的綜合智能行為。語言智能在其發(fā)展歷程中也離不開語言學(xué)的基礎(chǔ)支撐。因而在技術(shù)發(fā)展、專業(yè)教育等方面,不應(yīng)輕視人類語言知識(shí)、語言能力的根本作用。
本論壇堅(jiān)持:
1.作為工具的語言智能技術(shù)無法替代外語從業(yè)者,但對(duì)不掌握智能工具的外語從業(yè)者會(huì)帶來沖擊。
2.語言智能發(fā)展應(yīng)以人為本,以公眾福祉為目標(biāo),應(yīng)尊重社會(huì)倫理和科技倫理,承擔(dān)起社會(huì)責(zé)任。
3.外語教育(包括第二語言教育)應(yīng)與時(shí)俱進(jìn),將語言智能的挑戰(zhàn)作為轉(zhuǎn)型發(fā)展的契機(jī)。堅(jiān)持語言教育的工具性、人文性的雙重屬性,重視語言運(yùn)用能力、跨文化交際能力和文化包容心的教育,重視語言智能技術(shù)的學(xué)習(xí)與應(yīng)用,培養(yǎng)不同文化間的穿行者。
倡議
我們需要冷靜地、理性地預(yù)測(cè)機(jī)器翻譯等語言智能技術(shù)的發(fā)展未來,科學(xué)估量它在翻譯事務(wù)當(dāng)中將發(fā)揮的作用,有效幫助國家制定符合實(shí)際的外語發(fā)展規(guī)劃,幫助外語從業(yè)者做好心理準(zhǔn)備,主動(dòng)適應(yīng)新形勢(shì)。
本論壇倡議,外語教育面對(duì)語言智能時(shí)代的沖擊和挑戰(zhàn),為自身發(fā)展和學(xué)生前途計(jì),應(yīng)當(dāng)全力適應(yīng)人機(jī)共存的語言生活形態(tài),充分利用語言工具的革命性變化,革新教學(xué)范式和人才培養(yǎng)路徑,增強(qiáng)受教育者智能工具的使用能力,幫助其過好智能時(shí)代的外語生活。
機(jī)器翻譯等語言智能技術(shù)的發(fā)展和實(shí)踐,不應(yīng)也不可能謀求全面替代人類的外語能力,在公共宣傳、科普演示中,語言智能學(xué)界和產(chǎn)業(yè)界應(yīng)當(dāng)實(shí)事求是地報(bào)告語言智能的發(fā)展現(xiàn)實(shí),不夸大語言智能技術(shù)的現(xiàn)有性能,不做缺乏科學(xué)依據(jù)的展望,不能對(duì)人類的外語工作造成恐慌,不能對(duì)人類的外語事業(yè)規(guī)劃造成形勢(shì)誤判。
語言智能的發(fā)展秉承以人為中心的發(fā)展觀,不斷向更深層次與更廣范圍的人機(jī)互助、人機(jī)共處前進(jìn),使之成為進(jìn)一步提升人類語言能力和溝通能力、凝聚社群心靈、融會(huì)世界知識(shí)的工具。語言智能與外語教育協(xié)同發(fā)展,共同進(jìn)步,助力人類命運(yùn)共同體的形成。
呼吁語言智能界、倫理學(xué)界及社會(huì)有關(guān)界別及有識(shí)人士,成立“語言智能倫理委員會(huì)”,保證語言智能在符合人類倫理的框架內(nèi)發(fā)展,劃定語言智能技術(shù)應(yīng)用的道德邊界和法律邊界。
雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。