1
本文作者: 吳德新 | 2016-12-21 17:05 |
雷鋒網(wǎng)按:本文是清華大學(xué)教授、中國(guó)中文信息學(xué)會(huì)副理事長(zhǎng)孫茂松在MIFS 2016上的演講實(shí)錄,雷鋒網(wǎng)編輯整理。此次在北京舉辦的MIFS 2016是由中國(guó)人工智能學(xué)會(huì)、中國(guó)工程院戰(zhàn)略咨詢中心主辦,今日頭條、IEEE《計(jì)算科學(xué)評(píng)論》協(xié)辦的2016機(jī)器智能前沿論壇,這次論壇同時(shí)也是2016 BYTE CUP國(guó)際機(jī)器學(xué)習(xí)競(jìng)賽的頒獎(jiǎng)儀式。
在MIFS 2016上,孫教授的演講回顧了機(jī)器翻譯波折的發(fā)展歷程,同時(shí)分享了在神經(jīng)翻譯系統(tǒng)之后他們?cè)谔嵘龣C(jī)器翻譯上的實(shí)踐。
“算法+大數(shù)據(jù)+計(jì)算力”
這是我的題目,《當(dāng)巧婦遇到“大米”——機(jī)器翻譯啟示錄》。大家一看就知道來自中國(guó)的一句成語(yǔ),叫巧婦難為無米之炊。巧婦指好的算法,大米是大數(shù)據(jù)的意思,好的算法遇上了大數(shù)據(jù),當(dāng)然還得有一個(gè)灶臺(tái),灶臺(tái)就是強(qiáng)大的計(jì)算能力。這三件事放到一起,對(duì)于機(jī)器翻譯就會(huì)產(chǎn)生很多有趣的事情。
整個(gè)的報(bào)告以機(jī)器翻譯為主線展開,大概分四部分:
第一叫做機(jī)器翻譯的波瀾史,幾十年的發(fā)展一波三折,非常有意思;
第二是機(jī)器翻譯現(xiàn)在主流的技術(shù)神經(jīng)機(jī)器翻譯,還是可以改進(jìn)的。我可以給大家看一些例子,并不是谷歌就做到頭了,還有很多的空間。
第三就是機(jī)器翻譯在技術(shù)實(shí)際上是通用的,其實(shí)它是個(gè)一般性的原理,可以放到很多的領(lǐng)域,所以我會(huì)講應(yīng)用拓展,用計(jì)算機(jī)自動(dòng)創(chuàng)作古詩(shī)為例。
后面是幾句結(jié)束的話。
谷歌前幾個(gè)月發(fā)布了新的機(jī)器翻譯系統(tǒng),這個(gè)系統(tǒng)實(shí)際上是完全基于深度神經(jīng)網(wǎng)絡(luò)的一個(gè)系統(tǒng)。如果說翻譯的最高境界是Perfect,人也做不到完美,谷歌翻譯在西班牙語(yǔ)到英語(yǔ)、法語(yǔ)到英語(yǔ)以及英語(yǔ)到西班牙語(yǔ)的翻譯上和人做得差不多。但中文到英文和英文到中文的翻譯跟人比差別比較大。實(shí)際上中文是世界上最難處理的語(yǔ)言之一,所以機(jī)器翻譯肯定不好做。但是不管怎么樣這個(gè)結(jié)果非常震撼。
回顧一下機(jī)器翻譯的歷史,這個(gè)歷史很有趣。這個(gè)研究應(yīng)該不是凡夫俗子發(fā)起的,實(shí)際上是有大智慧的人開始做的一個(gè)事情。機(jī)器翻譯之父叫Warren Weaver,他在49年和信息論之父香農(nóng)合著寫過一本書,47年3月4日他給控制論之父Norbert寫了一封信,在里面提出了機(jī)器翻譯的可能性。他說這個(gè)事兒,如果咱們翻譯叫信達(dá)雅三個(gè)要求,達(dá)雅做不到,信還是可能的。
Warren Weaver在49年寫了一個(gè)《翻譯》備忘錄,不長(zhǎng),但是提出了系統(tǒng)翻譯的思想,里面有四條是關(guān)鍵的,我簡(jiǎn)稱叫W.W.建議。
第一條談到了意義和上下文,比如說語(yǔ)言中有歧義,歧義要在一個(gè)窗口里解決,就是上下文;
第二個(gè)說到語(yǔ)言與邏輯,就離不開句法語(yǔ)義分析,得到了語(yǔ)義數(shù)分析數(shù)才能抽到邏輯,這點(diǎn)強(qiáng)調(diào)了語(yǔ)言分析對(duì)機(jī)器翻譯的重要性;
第三個(gè)從信息論和密碼學(xué)的角度提出要研究語(yǔ)言的統(tǒng)計(jì)語(yǔ)義性質(zhì),這個(gè)是從香農(nóng)的信息論角度出發(fā);
第四條提出了普遍語(yǔ)言的問題,也就是語(yǔ)言之間有通用性。
當(dāng)時(shí)他好像漫不經(jīng)心寫了一個(gè)備忘錄,基本上機(jī)器翻譯后來到我們目前這幾十年的發(fā)展,都是按他的框架做的,這是非常了不起的。當(dāng)時(shí)從1947年到56年,我把接下來的時(shí)間叫大潮初起,他說這個(gè)事兒以后全世界都在做,當(dāng)時(shí)都是世界說最好的單位在做,比如IBM、麻省理工學(xué)院。
四條備忘中:一和三基本上是統(tǒng)計(jì),我們后來稱為經(jīng)驗(yàn)主義;二和四是基于規(guī)則,叫理性主義。
最初大家的研究都沿著規(guī)則的系統(tǒng)往下走,因?yàn)槟阕稣Z(yǔ)言處理總要循著人類的語(yǔ)言處理分析做詞法分析、語(yǔ)義分析。很快,到了1954年、55年就有這種實(shí)驗(yàn),主要在美國(guó)和前蘇聯(lián),實(shí)際上是和冷戰(zhàn)有關(guān)系,大量的跟軍事相關(guān)的跟情報(bào)需要被翻譯。但很快地大概到1957年到66年這個(gè)階段,就要從第一次波峰跌到了波谷,當(dāng)時(shí)機(jī)器翻譯其實(shí)做得還是很好的,像哈佛、伯克利都在投入,包括中國(guó)做機(jī)器翻譯很早,58、59年國(guó)內(nèi)就做出了一些俄中的機(jī)器翻譯系統(tǒng)。
系統(tǒng)出來以后大家就可以看看結(jié)果,審視結(jié)果以后覺得沒有那么樂觀。最著名的就是60年以色列的著名哲學(xué)家、數(shù)學(xué)家和語(yǔ)言學(xué)家Bar-Hillel發(fā)表了一篇文章,他最初做機(jī)器翻譯是很積極的,包括全世界第一次機(jī)器翻譯國(guó)際會(huì)議也是他組織的。但他后來實(shí)際上下了一個(gè)判斷,就是機(jī)器翻譯不行,做不了。
他舉一個(gè)很簡(jiǎn)單的例子:Little john was looking for his toy box. Finally he found it. The box was in the pen(盒子在圍欄內(nèi))。
因?yàn)閜en有兩個(gè)意思,一個(gè)是筆,一個(gè)是圍欄,到底是鋼筆放在盒子里,還是盒子放在圍欄里。這里面很復(fù)雜,你需要看更遠(yuǎn)的上下文,需要知識(shí)才能解決,所以他的觀點(diǎn)是比較悲觀的。
另外當(dāng)時(shí)還有一個(gè)故事,也很有趣,也是一個(gè)測(cè)試,英文輸入:
The spiit is willing,but the flesh is weak.
精神是愿意的,但肉體確實(shí)不愿意的。
要把這個(gè)翻譯出來,但是經(jīng)過機(jī)器翻譯成俄文,再把它翻譯回英語(yǔ),得到了令人啼笑皆非的結(jié)果,
伏特加酒是好的,但肉卻腐爛了。
這個(gè)例子雖然發(fā)表了,但也有人質(zhì)疑它的真實(shí)性。但確實(shí)能說明那個(gè)時(shí)候機(jī)器翻譯的水平。
1964年,美國(guó)政府成立了一個(gè)機(jī)構(gòu)ALPAC委員會(huì),由權(quán)威人士組成,對(duì)當(dāng)時(shí)美國(guó)機(jī)器翻譯情況進(jìn)行了評(píng)價(jià)。這個(gè)報(bào)告非常有名,也有人稱為機(jī)器翻譯的黑皮書,基本宣布機(jī)器翻譯是不可行的,結(jié)論是全自動(dòng)機(jī)器翻譯基本否定,建議做機(jī)器輔助翻譯,二是機(jī)器翻譯遇到了難以克服的語(yǔ)義屏障問題,應(yīng)該加強(qiáng)對(duì)計(jì)算機(jī)語(yǔ)言學(xué)的研究。
下面的階段是1967年到89年,波瀾不驚水長(zhǎng)流,機(jī)器翻譯的研究中心從美國(guó)轉(zhuǎn)移到了加拿大和歐洲。
在這些研究中,針對(duì)W.W. 第4條原則加強(qiáng)了,因?yàn)闅W洲語(yǔ)言有很多種,通用語(yǔ)言就變得至關(guān)重要。還是有一些商用系統(tǒng)出現(xiàn),特別是用在國(guó)防,但不是面向公眾。這個(gè)期間對(duì)句法語(yǔ)義分析研究大量出現(xiàn),實(shí)際上是為完美的實(shí)現(xiàn)基于理性主義的想法創(chuàng)造了非常好的基礎(chǔ)。
下面是1990年到現(xiàn)在,實(shí)際上形成了一個(gè)新的波峰,是通過兩個(gè)沖擊波上來的。90年對(duì)于計(jì)算是一個(gè)有劃時(shí)代的意義,在赫爾辛基的第13屆國(guó)際計(jì)算語(yǔ)言學(xué)大會(huì)提出處理大規(guī)模真實(shí)文本的戰(zhàn)略任務(wù),所以大數(shù)據(jù)的思想做自然語(yǔ)言處理,我認(rèn)為是這差不多第一提出的,在整個(gè)科學(xué)領(lǐng)域它提的是最早的,整個(gè)研究是基于大規(guī)模真實(shí)語(yǔ)料,這塊別的領(lǐng)域提的很少,我認(rèn)為自然語(yǔ)言處理是最早用的,因?yàn)槟莻€(gè)時(shí)候大量的真實(shí)語(yǔ)料開始有了,包括雙語(yǔ)語(yǔ)料成規(guī)模地出現(xiàn),所以第一個(gè)沖擊波叫統(tǒng)計(jì)機(jī)器翻譯模型,也就是最著名的IBM模型1-5。以前的翻譯服務(wù)是面向特定用戶的,這個(gè)是面向廣大用戶的。
當(dāng)時(shí)很有名的一個(gè)學(xué)者叫Och,有一句話很有名,說只要給我充分的并行語(yǔ)言數(shù)據(jù),對(duì)于任何兩種語(yǔ)言,我就可以在幾小時(shí)之內(nèi)給你構(gòu)造一個(gè)機(jī)器翻譯系統(tǒng)。我靠統(tǒng)計(jì)翻譯方法就可以作出這個(gè)事情,這就徹底摒棄了以前沿著理性主義道路全面改成經(jīng)驗(yàn)主義,這里面基本語(yǔ)言學(xué)家沒有什么機(jī)會(huì),只要你給我雙語(yǔ)料就可以作出系統(tǒng),谷歌幾十個(gè)語(yǔ)言都是機(jī)器翻譯,都是很容易做出來的,所以我叫理性終結(jié)主義。
但很快,大概2014年左右推出了神經(jīng)機(jī)器翻譯,就把剛才的終結(jié)者再度終結(jié)了。像谷歌、百度現(xiàn)在已經(jīng)用神經(jīng)統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)替代純粹的統(tǒng)計(jì)翻譯系統(tǒng),所以你去看其實(shí)發(fā)展到這就是好的神經(jīng)網(wǎng)絡(luò)算法、有大數(shù)據(jù)、還有GPU的積累。所以這是一個(gè)發(fā)展的歷程。
神經(jīng)機(jī)器翻譯系統(tǒng)還是有很多的問題,我們剛才講的
精神是愿意的,但肉體是虛弱的。
我拿谷歌翻譯成中文這是翻譯結(jié)果:
精神是愿意的,但肉體是軟弱的。
翻譯成俄文再翻譯回來基本也是原話,翻譯成苗語(yǔ)再翻譯回來,一來一去看質(zhì)量確實(shí)不錯(cuò)。但它可能還有別的問題。
比如說in the box那個(gè)問題還是不行的,現(xiàn)有模型就是雙語(yǔ)語(yǔ)料,肯定做不對(duì),你隨便測(cè)試一些東西,也不用太難為它,比如我說:”閻肅是個(gè)好同志,閻肅是一個(gè)作家?!八屯炅?,你再看翻譯泰戈?duì)柕摹讹w鳥集》,還是有問題的,是不完美的,有很多需要改進(jìn)的。
我簡(jiǎn)單說一下清華大學(xué)的工作,我們科技組有一個(gè)劉老師,機(jī)器翻譯做了很多的研究,比如說我們可以把最小風(fēng)險(xiǎn)的訓(xùn)練,不是用最大MSE,把這個(gè)東西嵌入到函數(shù)里,最后這個(gè)結(jié)果就非常好。你比如說像BLEU值是0.3338,這是最小的翻譯值,我們可以做到0.4091。
這是翻譯的例子:比如美國(guó)代表團(tuán)包括來自斯坦福大學(xué)的一位中國(guó)專家,兩名參院外交政策助理以及一位負(fù)責(zé)與平壤當(dāng)局打交道的前國(guó)務(wù)院官員。這個(gè)翻譯結(jié)構(gòu)挺難的,靠統(tǒng)計(jì)機(jī)器翻譯是做不好,你看效果就很差,這是我們SMT的效果。你用SMT傳統(tǒng)有一些毛病,我們可以避免這個(gè)問題。
這個(gè)是我們對(duì)比了我們的系統(tǒng)和谷歌、百度等等的翻譯效果。
再往下,其實(shí)我們還有一個(gè)改進(jìn)就是中到英、英到中盡量一致,有一些策略,一來一去應(yīng)該盡量一致,現(xiàn)在的方法是你孤立的看不一致,你再去看它的對(duì)齊,就會(huì)對(duì)的比較好,對(duì)的好以后效果也會(huì)好,你看中到英,獨(dú)立訓(xùn)練是BLEU值23.63,聯(lián)合訓(xùn)練就是26.42,效果比較好。
還有一個(gè)改進(jìn)。雙語(yǔ)語(yǔ)料的獲取比較難,單語(yǔ)語(yǔ)料比較容易得到,如果用中文的單語(yǔ)語(yǔ)料和英文的單語(yǔ)語(yǔ)料放到這個(gè)模型里訓(xùn)練效果也會(huì)提高。比如如果不用單語(yǔ)語(yǔ)料值大概31.74、15.14,如果使用了任何一種單語(yǔ)語(yǔ)料,效果從31.74就可以到36.45,很顯著的提升。
谷歌的神經(jīng)翻譯系統(tǒng)不是把事兒做完了,里面你的任務(wù)還可以提出很多的創(chuàng)新性的想法,提高系統(tǒng)性能,對(duì)研究還是大有用武之地的。
機(jī)器翻譯是通用模型,我拿它做古詩(shī)創(chuàng)作,這個(gè)工作是和我的兩個(gè)本科生同學(xué)合作完成的。這種通用方法對(duì)我們很多行業(yè)都是一個(gè)機(jī)會(huì),現(xiàn)在的人工智能氣候已經(jīng)形成,基本的方法就擺在這了。比如LSTM模型?,F(xiàn)在到了收獲季節(jié),看誰(shuí)去摘桃子,找對(duì)問題,把桃子趕快摘下來。從研究角度第一個(gè)做這個(gè)事情是好的研究,第二個(gè)做的就變成作業(yè)了,所以一定要快。
古詩(shī)實(shí)際上它的復(fù)雜度不比下圍棋低,而且它是從人文角度,我不知道在座各位多少還能作古詩(shī),80%應(yīng)該做不過我這個(gè)系統(tǒng)。用的是LSTM,但是我們有改進(jìn),不是在上面跑就可以作出這個(gè)效果,我給大家看結(jié)果,這個(gè)模型可以比較好的捕捉到詞之間的相似性,句子之間的相似性,有些詞創(chuàng)作非常有意思,你送給系統(tǒng)上句叫:江上西風(fēng)一棹歸。下句就自動(dòng)生成:夕陽(yáng)不見客舟歸(江上的風(fēng)浪不小,船到下面看不到夕陽(yáng)了)。感覺意境還是不錯(cuò)的,比如:又聽西風(fēng)墮葉聲,下面是計(jì)算機(jī)產(chǎn)生的:萬(wàn)事盡隨天籟起。這兩句詩(shī)你查古人是沒有的,是計(jì)算機(jī)創(chuàng)作出來的。
對(duì)仗性,第一個(gè)叫星垂平野擴(kuò),月落遠(yuǎn)林疏。對(duì)的還是挺好的,比如給一個(gè)主題詞,隨便說給秋葉,下面系統(tǒng)創(chuàng)作出來的,白蘋江上驚秋雁,我們把所有的古詩(shī)送進(jìn)去訓(xùn)練,這個(gè)掌聲應(yīng)該給兩位同學(xué)。我們也做過評(píng)測(cè),和人比PG是人,還是要差一點(diǎn),古詩(shī)多了,上百萬(wàn)首,其實(shí)分別不算太遠(yuǎn),但是比古人做的還是有差異的。可以做藏頭詩(shī),因?yàn)槿鲐悓幍拿钟悬c(diǎn)怪,你給我弄個(gè)撒貝寧酷,計(jì)算機(jī)做的撒手離亭送別情,貝葉無夢(mèng)到孤城,寧知梅嶺遙相望,酷似清風(fēng)入夜生,還挺有意境的。其實(shí)你可以隨便遷入,計(jì)算機(jī)做這個(gè)事情容易。
還有一個(gè)是自動(dòng)做集句詩(shī),是古代考察這個(gè)人書讀得夠不夠的一個(gè)本領(lǐng),就是你做一首詩(shī)都是古人做的,聽起來要意境,這是一個(gè)很經(jīng)典的叫楓葉蘆花并客舟,煙波江上使人愁,勸君更進(jìn)一杯酒,昨日少年今白頭,這是我們做的五絕,江南楊柳春,二月芳草新,千里一回首,青青向故人,這也是拼的,都是古人的詩(shī)。
我們還在摘桃子,但是也在改進(jìn),但是你會(huì)看到有了這么通用的工具,我們花半年的努力,搞一兩個(gè)比較行的學(xué)生就有可能把桃子摘下來,我呼吁大家趕緊摘桃子。
你去看機(jī)器翻譯整個(gè)歷史,這句話特別貼切——山重水復(fù)疑無路,柳暗花明又一村。我們遇到很多這種情況,有的時(shí)候做感覺做到頭了,但是又有新的路出來,不是靠技術(shù)細(xì)枝末節(jié)的積累,是靠創(chuàng)新性方法,都是創(chuàng)新性終結(jié)性的方法把境界不斷的提高,所以創(chuàng)新特別重要,這里面有很多的挑戰(zhàn),其實(shí)包括一帶一路,你神經(jīng)網(wǎng)絡(luò)分析基本假設(shè)沒了,大數(shù)據(jù)沒了,因?yàn)殡p語(yǔ)不會(huì)那么多,這里有很多挑戰(zhàn)。這塊我認(rèn)為理性主義和經(jīng)驗(yàn)主義將來還會(huì)在某種程度實(shí)現(xiàn)回歸,不可能完全都是經(jīng)驗(yàn)主義往前走,這個(gè)問題就更深了。
總的想法就還是我們要?jiǎng)?chuàng)新,你看這個(gè)機(jī)器翻譯歷史上,我們中國(guó)人的創(chuàng)新很少,我們基本都跟著人家跑。像谷歌的深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)出來以后,當(dāng)時(shí)我看到這個(gè)報(bào)道覺得這個(gè)模型幾乎人家都做出來了,我還覺得這個(gè)事兒不可思議,這是差距。為什么?因?yàn)槟莻€(gè)模型,比如說把你們這些人打一個(gè)包一壓縮以后分解成那邊的那波人,相當(dāng)于做這樣一個(gè)映射,這邊人捆成一個(gè)向量變換成那邊一群人,成一個(gè)向量,一大堆壓成一個(gè)單體,再單體產(chǎn)生一大堆,邏輯還要保持,這個(gè)事兒一想非常不可思議,但是確實(shí)靠很大的模型就建立這么一個(gè)復(fù)雜的映射,我們的創(chuàng)新能力確實(shí)不夠,所以創(chuàng)新能力要注意。
第二點(diǎn),既然到了秋季趕快摘桃子,創(chuàng)新能力不夠,但是畢竟到了收獲季節(jié),你還是利用人家的創(chuàng)造季節(jié)還是可以做很多的有創(chuàng)造性的創(chuàng)新性的事兒,比如剛才的古詩(shī)就是一個(gè)例子。
本文題圖雷鋒網(wǎng)引用自:視覺中國(guó)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。