丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能開發(fā)者 正文
發(fā)私信給AI研習社-譯站
發(fā)送

0

無需依賴英語數(shù)據(jù),100種語言互譯,臉書推出「 M2M-100」模型

本文作者: AI研習社-譯站 2020-11-19 11:24
導(dǎo)語:機器翻譯(MT)能夠打破語言障礙,將不同語種的人團結(jié)起來,為不同人群提供有關(guān)COVID的權(quán)威信息以幫助他們避免感染。

譯者:AI研習社(季一帆

雙語原文鏈接:Is The Data Science Profession At Risk of Automation?


無需依賴英語數(shù)據(jù),100種語言互譯,臉書推出「 M2M-100」模型

  • Facebook AI首次提出多語言機器翻譯(MMT)模型——M2M -100,該模型可以在不依賴英語數(shù)據(jù)的情況下在任何100種語言間進行翻譯。該項目已開源。

  • 由于英語訓(xùn)練數(shù)據(jù)非常廣泛,之前的中法翻譯模型會分別訓(xùn)練中文與英語以及英語與法語的翻譯模型,通過英語作為中間環(huán)節(jié)實現(xiàn)翻譯。本文模型直接應(yīng)用中文與法語的訓(xùn)練數(shù)據(jù),以更好保留語義。計算BLEU指標,表明其高于以英語中轉(zhuǎn)的系統(tǒng)約10個百分點。

  • M2M-100總共使用2200種語言進行訓(xùn)練,這比之前最好的以英語為中心的多語言模型要多10倍。通過M2M-100模型,將有助于十億人的翻譯工作,對于低資源語言的翻譯提升更加顯著。

  • Facebook AI經(jīng)多年在機器翻譯方面的耕耘,如今終于實現(xiàn)該里程碑式的結(jié)果。接下來,我們將介紹具體的研究工作,包括為100種語言建立的翻譯訓(xùn)練數(shù)據(jù)、模型的細節(jié)和訓(xùn)練。同時,我們還將開源該模型,并發(fā)布模型的訓(xùn)練和評估設(shè)置,以方便其他研究人員的復(fù)現(xiàn),以此為基礎(chǔ)進一步推動多語言模型的發(fā)展。

機器翻譯(MT)能夠打破語言障礙,將不同語種的人團結(jié)起來,為不同人群提供有關(guān)COVID的權(quán)威信息以幫助他們避免感染。得益于我們在低資源機器翻譯翻譯質(zhì)量評估的最新研究與進展,現(xiàn)在,我們每天能夠在Facebook News Feed上提供近200億次翻譯。

典型的MT系統(tǒng)需要對不同語言和任務(wù)單獨構(gòu)建翻譯模型,然而,這樣的方式卻并不適合Facebook,因為在Facebook上,有超過160種語言發(fā)布的數(shù)十億條內(nèi)容?,F(xiàn)在的多語言系統(tǒng)雖然可以一次處理多種語言,但卻是通過英語數(shù)據(jù)作為源語言和目標語言之間的中轉(zhuǎn),從而降低了準確性。因此,我們需要一個真正的多語言機器翻譯(MMT)模型,該模型可以在任何語言之間直接進行翻譯,這將為我們的社區(qū)提供更好的服務(wù)。

我們已經(jīng)在Facebook對MT進行了多年的研究,現(xiàn)在終于可以自豪的宣布:我們首次構(gòu)建了一個的大型MMT模型,該模型可以在100種不同語言之間直接進行翻譯,而無需依賴英語作為中轉(zhuǎn)語言。同時,我們的多語言模型的表現(xiàn)完全不弱于傳統(tǒng)的雙語模型,甚至要比以英語為中轉(zhuǎn)的多語言模型提高了10個BLEU點。

通過新穎的挖掘策略,我們首次構(gòu)建了一個真正的“多對多”翻譯數(shù)據(jù)集,該數(shù)據(jù)集有75億個句子,涵蓋100種不同語言。最終,我們構(gòu)建了一個具有150億個參數(shù)的通用模型,該模型可以捕獲相關(guān)語言的信息,并能夠?qū)W習更加多樣化的語言和形態(tài)特征。開源地址見此。

不同語言的億萬訓(xùn)練語句挖掘

建立多對多MMT模型的最大障礙之一是訓(xùn)練數(shù)據(jù),即不同語言之間直接的高質(zhì)量翻譯數(shù)據(jù),而不是以英語作為中間語言。然而現(xiàn)實情況是,比起法語和中文的直接翻譯數(shù)據(jù),中文和英文以及英語和法語的翻譯數(shù)據(jù)更易獲取。此外,訓(xùn)練所需的數(shù)據(jù)量與支持語言的數(shù)量成正比,例如,如果每種語言需要需要10M句子對,那么10種語言就是1B句子對,100種語言需要100B句子對。

構(gòu)建包含100種語言的75億句子對的多對多MMT數(shù)據(jù)集是艱巨的任務(wù),由于我們多年來積累了不同的數(shù)據(jù)挖掘資源,包括ccAligned,ccMatrixLASER,因此構(gòu)建該數(shù)據(jù)集是可行的。為此,我們創(chuàng)建了新的LASER 2.0,改進了fastText語言識別,從而提高挖掘質(zhì)量,相關(guān)的訓(xùn)練與評估腳本也會開源。當然,所有這些數(shù)據(jù)都是開源合法的。

Facebook AI提出的多對多的多語言模型是多年研究的結(jié)晶,MT模型、數(shù)據(jù)資源和優(yōu)化技術(shù)等方面均是開創(chuàng)性的。本文會重點介紹一些主要成就。除此之外,我們通過挖掘ccNET創(chuàng)建了龐大的訓(xùn)練數(shù)據(jù)集,該數(shù)據(jù)集是基于fastText的(fastText是處理單詞表示的重要方法);基于CCMatrix的LASER庫可將句子嵌入多語言嵌入空間中;CCAligned則能夠根據(jù)URL匹配來對齊文檔。進一步,我們開發(fā)了改進版本LASER 2.0。

即使使用LASER 2.0等先進技術(shù),挖掘100種不同語言/4450種可能語言對中的任意一類訓(xùn)練數(shù)據(jù)也需要大量的計算。由于數(shù)據(jù)規(guī)模巨大,為方便管理,我們首先關(guān)注翻譯請求最多的語言。因此,我們綜合數(shù)據(jù)規(guī)模和數(shù)據(jù)質(zhì)量對挖掘目標進行優(yōu)先排序,舍棄了對極冷門語言的數(shù)據(jù)挖掘,如冰島語-尼泊爾語或僧伽羅語-爪哇語。

接下來,我們引入一種新的過渡挖掘策略,該策略根據(jù)地理和文化相似性將語言分為14個語言組。之所以這樣做,是因為相同國家或地區(qū)中的人們會有更多的交流,這樣的翻譯數(shù)據(jù)質(zhì)量更高。例如,將印度地區(qū)的語言分為一組,包括孟加拉語,北印度語,馬拉地語,尼泊爾語,泰米爾語和烏爾都語。類似的,我們系統(tǒng)挖掘了不同組的全部語言對。

為了在不同組的語言之間建立聯(lián)系,我們從每組中選擇少量過渡語言,一般是一到三種主要語言。在上端的示例中,我們選擇印地語,孟加拉語和泰米爾語作為印度雅-利安語言的過渡語言。然后,我們并行挖掘了過渡語言2200種組合的所有數(shù)據(jù),最終得到包含75億條數(shù)據(jù)的訓(xùn)練集。由于翻譯數(shù)據(jù)是可以在兩種語言之間相互進行訓(xùn)練的(如en-> fr和fr-> en),因此我們的挖掘策略采用高效的稀疏挖掘方式,通過一個模型就能實現(xiàn)100x100(共9,900個)種組合的數(shù)據(jù)挖掘工作。

在并行挖掘過程中,會得到一些低質(zhì)量、低資源的翻譯數(shù)據(jù),基于此,我們采用反向翻譯方法對這類數(shù)據(jù)進行擴充,該方法幫助我們在2018年和2019年的WMT國際機器翻譯比賽中獲得第一名。具體而言,如果我們的目標是訓(xùn)練漢語到法語的翻譯模型,那么我們首先會訓(xùn)練法語到漢語的模型,然后將法語反譯成漢語。我們發(fā)現(xiàn),在數(shù)據(jù)規(guī)模較大時(如上億語句)該方法非常有效。本研究中,我們使用反向翻譯的合成數(shù)據(jù)對挖掘數(shù)據(jù)集進行擴充,同時,我們還使用反向翻譯為那些未標注的語言對創(chuàng)建訓(xùn)練數(shù)據(jù)。

總體而言,相比僅依賴挖掘數(shù)據(jù)訓(xùn)練的模型,結(jié)合過渡策略和反向翻譯的訓(xùn)練數(shù)據(jù)學習到的模型在100個反向翻譯任務(wù)中BLEU平均提升約1.7。有了豐富、高質(zhì)量的訓(xùn)練數(shù)據(jù)集,多對多翻譯模型成為可能。

此外。我們還發(fā)現(xiàn),對于沒有訓(xùn)練數(shù)據(jù)的一個語言對,零樣本(zero-shot)想過顯著。例如,如果模型的訓(xùn)練數(shù)據(jù)只有法語-英語和德語-瑞典語,通過zero-shot我們可以在法語和瑞典語之間實現(xiàn)翻譯。我們的M2M-100模型也表明,對于沒有訓(xùn)練數(shù)據(jù)的語言對,融合zero-shot的多語言模型表現(xiàn)優(yōu)于以英語作為過渡的多語言模型。

MMT模型-150億參數(shù),翻譯快又準

多語言翻譯中的一個挑戰(zhàn)是,單一模型必須要能夠從不同語言獲取信息。為此,通常的方法是增大模型,添加面向特定語言類型的參數(shù)。同時,過量訓(xùn)練數(shù)據(jù)訓(xùn)練的模型包含一些無關(guān)參數(shù),舍棄這類參數(shù)不僅會壓縮模型,還避免了這些參數(shù)對翻譯任務(wù)的干擾。最終,我們當將模型大小縮放到含120億參數(shù),發(fā)現(xiàn)在不同語言的翻譯任務(wù)中BLEU平均提升約1.2,但隨著參數(shù)的繼續(xù)減少,模型性能開始下降。這樣,通用多語言翻譯模型含120參數(shù),加上面向特定語言的32億稀疏參數(shù),最終的模型有150億參數(shù)。

無需依賴英語數(shù)據(jù),100種語言互譯,臉書推出「 M2M-100」模型

我們將該模型與雙語基準模型和以英語作為過渡的多語言模型進行比較,如上圖所示。第一行表示由24個編碼器層和24個解碼器層組成的包含12億參數(shù)的基線模型,第二行是以英語為過渡的的多語言翻譯模型。接下來,分別是包含12億參數(shù)和120億參數(shù)的M2M-100模型,可以看到,更多參數(shù)的模型BLEU提升1.2。

通過增加Transformer的層數(shù)以及每層的寬度,我們訓(xùn)練得到更大的模型,該模型依然訓(xùn)練高效、收斂快遞。值得注意的是,該多對多翻譯系統(tǒng)首次應(yīng)用了Fairscale——一個是專用于pipeline和張量并行運算的新的PyTorch庫。我們建立了通用架構(gòu),以通過Fairscale并行訓(xùn)練大型模型,避免了單GPU的限制。同時,我們應(yīng)用ZeRO優(yōu)化器層內(nèi)模型并行pipeline模型并行來加快模型訓(xùn)練。

然而,120億參數(shù)的多語言翻譯模型是不夠的,我們要訓(xùn)練更準確高效的模型?,F(xiàn)在有許多研究工作使用多模型集成方法,即訓(xùn)練多個模型,并將其用于相同源語句進行翻譯。為降低多個模型訓(xùn)練的復(fù)雜性和計算量,我們引入多源自組技術(shù),該技術(shù)將源句子翻譯成多種語言以提高翻譯質(zhì)量。參照LayerDropDepth-Adaptive,我們訓(xùn)練得到一個具有公共主干和不同語言特定參數(shù)集的模型。該方法能夠按語言對或語言族將模型進行分塊,非常適用多對多模型。最終,將壓縮的多語言模型參數(shù)(12B)與特定語言參數(shù)(約3B)相結(jié)合,我們的模型不僅能像大型模型那樣具有廣泛擴展性,同時還能面向不同語言進行針對處理。

全力打破不同語言間的壁壘

多年來,人工智能研究人員一直在努力構(gòu)建一個能夠理解所有語言的通用模型。這樣一個支持所有語言或方言的通用模型將為所有人提供更好的服務(wù),令人滿意的翻譯將打破數(shù)十億人的語言壁壘,讓他們更加平等的了解這個世界。這項工作使我們更加接近了這一目標。

在長久的研究中,我們在預(yù)訓(xùn)練語言模型,微調(diào)和自我監(jiān)督學習等方面發(fā)展迅速,研究成果振奮人心。這一系列的研究將進一步提高我們的系統(tǒng)使用未標記的數(shù)據(jù)來理解低資源語言文本的能力。例如,XLM-R是一個強大的多語言模型,它可以僅從一種語言數(shù)據(jù)中進行學習,然后擴展到100種語言。針對多語言BART任務(wù),mBART是首次預(yù)訓(xùn)練全模型之一。最近,我們提出新的自我監(jiān)督方法CRISS,通過許多不同語言的未標記數(shù)據(jù)來挖掘不同語言的并行句子,迭代訓(xùn)練更好的多語言模型。

我們將持續(xù)關(guān)注前沿進展,學習最新技術(shù),探索MT系統(tǒng)的部署方式以及更加專業(yè)的計算架構(gòu),以繼續(xù)改進翻譯模型。

GitHub

https://github.com/pytorch/fairseq/tree/master/examples/m2m_100 


AI研習社是AI學術(shù)青年和AI開發(fā)者技術(shù)交流的在線社區(qū)。我們與高校、學術(shù)機構(gòu)和產(chǎn)業(yè)界合作,通過提供學習、實戰(zhàn)和求職服務(wù),為AI學術(shù)青年和開發(fā)者的交流互助和職業(yè)發(fā)展打造一站式平臺,致力成為中國最大的科技創(chuàng)新人才聚集地。

如果,你也是位熱愛分享的AI愛好者。歡迎與譯站一起,學習新知,分享成長。

無需依賴英語數(shù)據(jù),100種語言互譯,臉書推出「 M2M-100」模型

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

無需依賴英語數(shù)據(jù),100種語言互譯,臉書推出「 M2M-100」模型

分享:
相關(guān)文章

知情人士

AI研習社(yanxishe.com)譯站頻道,傳播前沿人工智能知識,讓語言不再成為學習知識的門檻。(原雷鋒字幕組)
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說