丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給WBLUE
發(fā)送

0

EMNLP2018最佳論文:Facebook 提升 11BLEU 的無(wú)監(jiān)督機(jī)器翻譯

本文作者: WBLUE 編輯:楊曉凡 2018-09-20 18:39
導(dǎo)語(yǔ):不同的語(yǔ)言,近似的語(yǔ)言嵌入

EMNLP2018最佳論文:Facebook 提升 11BLEU 的無(wú)監(jiān)督機(jī)器翻譯

雷鋒網(wǎng) AI 科技評(píng)論按:說(shuō)到機(jī)器翻譯,谷歌吃螃蟹并商用的 NMT微軟研究院媲美人類水平的 AI 翻譯系統(tǒng)我們都做過(guò)比較多的報(bào)道,大家也都比較熟悉;不過(guò)它們都是需要監(jiān)督的。谷歌自然可以使用海量語(yǔ)料訓(xùn)練 NMT,微軟研究院的系統(tǒng)即便使用了許多新的技巧來(lái)大幅提高樣本效率,也仍然需要足夠的平行雙語(yǔ)語(yǔ)料。然而我們無(wú)法為所有語(yǔ)言對(duì)都找到大量雙語(yǔ)平行語(yǔ)料,訓(xùn)練出有監(jiān)督 MT 系統(tǒng)。

Facebook 的 EMNLP 2018 論文《Phrase-Based & Neural Unsupervised Machine Translation》(基于詞語(yǔ)的、無(wú)監(jiān)督神經(jīng)網(wǎng)絡(luò)的機(jī)器翻譯)就介紹了他們?cè)跓o(wú)監(jiān)督機(jī)器翻譯方面的最新成果。無(wú)監(jiān)督機(jī)器翻譯是目前的熱門研究課題之一,F(xiàn)acebook 的研究人員們通過(guò)巧妙的設(shè)計(jì)得到了高達(dá) 11 BLEU 的表現(xiàn)提升;而 EMNLP 官方推特今天宣布這篇論文是 EMNLP 2018 的兩篇最佳論文之一。論文作者們?cè)缧r(shí)候也撰寫了一篇通俗介紹文章發(fā)表在了 Facebook 博客上,介紹了他們的主要思路。雷鋒網(wǎng) AI 科技評(píng)論全文編譯如下。

EMNLP2018最佳論文:Facebook 提升 11BLEU 的無(wú)監(jiān)督機(jī)器翻譯

二維詞嵌入的旋轉(zhuǎn)對(duì)齊

自動(dòng)語(yǔ)言翻譯對(duì)于 Facebook 來(lái)說(shuō)非常重要,它可以讓數(shù)十億用戶以他們喜歡的語(yǔ)言進(jìn)行聯(lián)系和交流。為了做到這一點(diǎn),當(dāng)前的機(jī)器翻譯(MT)系統(tǒng)需要訪問(wèn)大量的已翻譯文本(例如,分別用英語(yǔ)和西班牙語(yǔ)表示的相同文本對(duì))。因此,MT 目前僅對(duì)于已擁有大量翻譯文本的少數(shù)語(yǔ)言集表現(xiàn)出不錯(cuò)的效果。

在訓(xùn)練模型時(shí)無(wú)需訪問(wèn)任何翻譯文本資源的 MT 模型的建立(稱為無(wú)監(jiān)督翻譯)是必要的下一步。EMNLP 2018 上我們展示了在該任務(wù)上完成的最新研究成果(http://arxiv.org/abs/1804.07755)。我們的新方法相較于之前最先進(jìn)的無(wú)監(jiān)督方法有了顯著的改進(jìn),效果與用近 100,000 個(gè)參考譯文訓(xùn)練過(guò)的監(jiān)督方法近乎一致。在這個(gè)領(lǐng)域中,1 BLEU (判斷MT準(zhǔn)確度的常用指標(biāo))的提升都被看作不小的成績(jī),而我們的新方法相比之前的方法有超過(guò) 10 BLEU 的改善。

無(wú)監(jiān)督翻譯模型的建立是 MT 領(lǐng)域的一個(gè)重要發(fā)展方向,特別是世界上 6,500 種語(yǔ)言中,大多數(shù)語(yǔ)言對(duì)之間都沒(méi)有可用翻譯文本資源庫(kù)或譯文數(shù)據(jù)量極小以至于無(wú)法使用現(xiàn)有技術(shù)。對(duì)于匱乏譯文的語(yǔ)言,現(xiàn)在有一種方法可以學(xué)習(xí)在任意的語(yǔ)言,比如烏爾都語(yǔ)和英語(yǔ)之間進(jìn)行互譯,只需使用英語(yǔ)中的文本和與烏爾都語(yǔ)中的完全不相關(guān)的文本,而不需要任何相應(yīng)的翻譯文本

這種新方法開(kāi)啟了更多語(yǔ)言翻譯更快、更準(zhǔn)確的大門,而這僅僅是將此類原理應(yīng)用于機(jī)器學(xué)習(xí)和人工智能的方法的一個(gè)開(kāi)始。

逐字翻譯

邁向我們偉大的目標(biāo)的第一步是讓系統(tǒng)學(xué)習(xí)雙語(yǔ)詞典,將一個(gè)詞與其他語(yǔ)言中的合理翻譯聯(lián)系起來(lái)。為此,我們使用了我們?cè)谥暗恼撐闹薪榻B到的方法(https://arxiv.org/abs/1710.04087),其中系統(tǒng)首先為每種語(yǔ)言中的每個(gè)單詞訓(xùn)練詞嵌入(單詞的矢量表示)。

訓(xùn)練詞嵌入通過(guò)上下文(例如,給定單詞前面的五個(gè)單詞和之后的五個(gè)單詞)來(lái)預(yù)測(cè)給定單詞周圍的單詞。盡管詞嵌入的形式簡(jiǎn)單,但是詞嵌入可以抓取有趣的語(yǔ)義結(jié)構(gòu)。例如,離「kitty」最近的是「cat」,并且「kitty」這個(gè)詞嵌入更接近于「animal」的嵌入,而不是「rocket」這個(gè)詞嵌入(因?yàn)椤竢ocket」很少出現(xiàn)在「kitty」這個(gè)詞所在的語(yǔ)境中)。

此外,不同語(yǔ)言的詞嵌入具有相似的鄰域結(jié)構(gòu),因?yàn)椴煌瑖?guó)家的人畢竟活在同一個(gè)世界中。例如,英語(yǔ)中「cat」和「furry」之間的關(guān)系類似于它們?cè)谖靼嘌勒Z(yǔ)中的相應(yīng)翻譯(「gato」和「peludo」)之間的關(guān)系,因?yàn)檫@些單詞的頻率和它們的上下文是相似的。

由于這些相似之處,我們提出了一個(gè)包含各種新舊技術(shù)的組合,例如對(duì)抗訓(xùn)練等,讓系統(tǒng)學(xué)習(xí)旋轉(zhuǎn)變換一種語(yǔ)言中的詞嵌入,以匹配另一種語(yǔ)言中的詞嵌入。有了這些信息,無(wú)需訪問(wèn)任何平行的翻譯譯文,我們就能推斷出一個(gè)相當(dāng)準(zhǔn)確的雙語(yǔ)詞典,并且基本上實(shí)現(xiàn)逐字翻譯。 

EMNLP2018最佳論文:Facebook 提升 11BLEU 的無(wú)監(jiān)督機(jī)器翻譯

可以通過(guò)簡(jiǎn)單的旋轉(zhuǎn)(右)對(duì)齊兩種語(yǔ)言(左)的二維詞嵌入。旋轉(zhuǎn)后,通過(guò)最近鄰搜索實(shí)現(xiàn)單詞翻譯。

翻譯句子

使用無(wú)監(jiān)督方法得到雙語(yǔ)詞典的逐字翻譯并不能完成一個(gè)很好的翻譯——單詞可能會(huì)丟失,無(wú)序或者完全錯(cuò)誤。但是,它保留了大部分詞義。我們可以在此基礎(chǔ)上進(jìn)行改進(jìn)。通過(guò)使用已在大量單語(yǔ)數(shù)據(jù)上訓(xùn)練好的語(yǔ)言模型進(jìn)行局部編輯,它可以對(duì)不同的單詞排序打分,故此流暢的句子得分要高于不符合語(yǔ)法或構(gòu)造不良的句子。

因此,如果已擁有大量烏爾都語(yǔ)的單語(yǔ)數(shù)據(jù)集,我們可以在已有英語(yǔ)語(yǔ)言模型的同時(shí),訓(xùn)練烏爾都語(yǔ)的語(yǔ)言模型。在有了語(yǔ)言模型和初始的逐字翻譯模型之后,我們就可以構(gòu)建翻譯系統(tǒng)的早期版本。

這個(gè)早期的系統(tǒng)雖然還不夠好,但比逐字翻譯效果更好(感謝語(yǔ)言模型),并且它可以用來(lái)將大量句子從源語(yǔ)言(烏爾都語(yǔ))翻譯成目標(biāo)語(yǔ)言(英語(yǔ))。

接下來(lái),我們將這些系統(tǒng)翻譯出的語(yǔ)句(原文為烏爾都語(yǔ),翻譯為英語(yǔ))作為標(biāo)注過(guò)的真實(shí)數(shù)據(jù)進(jìn)行處理,以訓(xùn)練從英語(yǔ)到烏爾都語(yǔ)的反向 MT 系統(tǒng)。不可否認(rèn),由于第一個(gè)系統(tǒng)翻譯中存在錯(cuò)誤,輸入的英語(yǔ)句子會(huì)有些問(wèn)題。ACL2015論文 中 R. Sennrich 等人在半監(jiān)督學(xué)習(xí)的 MT 系統(tǒng)中(有大量平行語(yǔ)料的情況下)曾介紹過(guò)這種技術(shù),并將其稱為反向翻譯。本次是該技術(shù)首次應(yīng)用于完全無(wú)監(jiān)督的系統(tǒng);通常,它最初是在有監(jiān)督數(shù)據(jù)上訓(xùn)練的。

現(xiàn)在我們有了一個(gè)更偏向流暢句子的烏爾都語(yǔ)語(yǔ)言模型,我們可以將反向翻譯中人工生成的平行句子與烏爾都語(yǔ)語(yǔ)言模型提供的校正相結(jié)合,以此來(lái)訓(xùn)練從英語(yǔ)到烏爾都語(yǔ)的翻譯系統(tǒng)。

一旦系統(tǒng)經(jīng)過(guò)訓(xùn)練,我們就可以用它將英語(yǔ)中的許多句子翻譯成烏爾都語(yǔ),形成另一種類型的數(shù)據(jù)集(原始句子為英語(yǔ),翻譯成烏爾都語(yǔ)),有利于改進(jìn)以前的烏爾都語(yǔ)到英語(yǔ)的 MT 系統(tǒng)。隨著一個(gè)系統(tǒng)得到改進(jìn),我們可以使用它以迭代方式在相反方向上為系統(tǒng)生成訓(xùn)練數(shù)據(jù),并根據(jù)需要進(jìn)行多次迭代。

EMNLP2018最佳論文:Facebook 提升 11BLEU 的無(wú)監(jiān)督機(jī)器翻譯

兩全其美的方法

在研究中,我們確定了三個(gè)步驟——逐字嵌入初始化,語(yǔ)言建模,以及反向翻譯——作為無(wú)監(jiān)督 MT 的核心原理。根據(jù)這些原理,我們可以最終得到各種模型。我們將它們應(yīng)用于兩種截然不同的通向無(wú)監(jiān)督 MT 目標(biāo)的方法。

第一種方法是無(wú)監(jiān)督的神經(jīng)模型,它產(chǎn)生的翻譯比逐字翻譯更流暢,但沒(méi)有達(dá)到我們想要的質(zhì)量。然而,它們足以用作反向翻譯句子。通過(guò)反向翻譯,該方法與經(jīng) 100,000 個(gè)并行句子訓(xùn)練的監(jiān)督模型效果一樣。

接下來(lái),我們將這些原理應(yīng)用于經(jīng)典的基于計(jì)數(shù)的統(tǒng)計(jì)方法的另一個(gè)模型,稱為基于短語(yǔ)的 MT。有趣的是,這些模型往往在低資源語(yǔ)言對(duì)上表現(xiàn)更好,但這是第一次將此方法應(yīng)用于無(wú)監(jiān)督的 MT。在這種情況下,我們發(fā)現(xiàn)翻譯具有正確的單詞但不太流暢。同樣,這種方法優(yōu)于以前最先進(jìn)的無(wú)監(jiān)督模型。

最后,我們將兩種模型結(jié)合起來(lái)得到一個(gè)兩全其美的方法:一個(gè)既流利又善于翻譯的模型。為此,我們從訓(xùn)練好的神經(jīng)模型開(kāi)始,然后使用基于短語(yǔ)模型的其他反向翻譯句子對(duì)其進(jìn)行訓(xùn)練。

根據(jù)經(jīng)驗(yàn),我們發(fā)現(xiàn)最后一種組合方法顯著提高了之前無(wú)監(jiān)督 MT 的準(zhǔn)確性——在英語(yǔ)——法語(yǔ)和英語(yǔ)——德語(yǔ)作為測(cè)試集的兩種語(yǔ)言對(duì)中(即使對(duì)于這些語(yǔ)言對(duì),在訓(xùn)練時(shí)也沒(méi)有使用任何并行數(shù)據(jù)——僅在測(cè)試時(shí)進(jìn)行評(píng)估),此組合方式在 BLEU 得分上提高了超過(guò) 10 個(gè)點(diǎn)。

我們還在以下語(yǔ)言上測(cè)試了我們的方法:遠(yuǎn)距離語(yǔ)言對(duì),如英語(yǔ)——俄語(yǔ);譯文資源匱乏的語(yǔ)言,如英語(yǔ)——羅馬尼亞語(yǔ);資源極度匱乏且遠(yuǎn)距離的語(yǔ)言對(duì),如英語(yǔ)——烏爾都語(yǔ)。在所有情況下,我們的方法相較于其他無(wú)監(jiān)督方法都有很大改進(jìn),有時(shí)甚至超過(guò)使用來(lái)自其他域或其他語(yǔ)言的并行語(yǔ)言數(shù)據(jù)的有監(jiān)督方法。

下面的德語(yǔ)——英語(yǔ)翻譯示例顯示了每種方法的結(jié)果:

EMNLP2018最佳論文:Facebook 提升 11BLEU 的無(wú)監(jiān)督機(jī)器翻譯

EMNLP2018最佳論文:Facebook 提升 11BLEU 的無(wú)監(jiān)督機(jī)器翻譯在機(jī)器翻譯之外還有更大的世界

完成超過(guò) 10 BLEU 得分的增加是一個(gè)令人興奮的開(kāi)始,但對(duì)我們來(lái)說(shuō)更令人興奮的是它為未來(lái)改進(jìn)開(kāi)啟的可能性。從短期來(lái)看,這必然有助于我們翻譯更多語(yǔ)言并提高少資源語(yǔ)言的翻譯質(zhì)量。但是,從這種新方法和基本原理中可獲得的知識(shí)遠(yuǎn)遠(yuǎn)超出 MT 本身。

我們認(rèn)為,這項(xiàng)研究的潛力可以應(yīng)用于任何領(lǐng)域的無(wú)監(jiān)督學(xué)習(xí),并有可能使智能體能夠利用未標(biāo)注的數(shù)據(jù),并對(duì)于當(dāng)前需要專家演示(在本例中是翻譯)中的任務(wù),未來(lái)只需要很少就能夠執(zhí)行得到很好的效果。這項(xiàng)工作表明,系統(tǒng)至少有可能在無(wú)監(jiān)督的情況下學(xué)習(xí),并建立一個(gè)雙向的系統(tǒng),在這個(gè)系統(tǒng)中,每個(gè)組件都可以在良性循環(huán)中不斷改進(jìn)。

論文地址:https://arxiv.org/abs/1804.07755

代碼地址:https://github.com/facebookresearch/UnsupervisedMT

博客地址:https://code.fb.com

EMNLP 2018 論文獎(jiǎng)情況

根據(jù) EMNLP 官方推特宣布的消息,兩篇最佳論文中的另一篇來(lái)自谷歌

Linguistically-Informed Self-Attention for Semantic Role Labeling

還有一篇最佳資源論文

MultiWOZ - A Large-Scale Multi-Domain Wizard-of-Oz Dataset for Task-Oriented Dialogue Modelling(論文內(nèi)容尚未公開(kāi))

EMNLP 2018 將于 10 月 31 日到 11 月 4 日在比利時(shí)布魯塞爾召開(kāi),更多報(bào)道請(qǐng)繼續(xù)關(guān)注雷鋒網(wǎng) AI 科技評(píng)論。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知

EMNLP2018最佳論文:Facebook 提升 11BLEU 的無(wú)監(jiān)督機(jī)器翻譯

分享:
相關(guān)文章

知情人士

當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)