丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能 正文
發(fā)私信給AI研習(xí)社-譯站
發(fā)送

0

XLM?—?基于BERT的跨語言模型

本文作者: AI研習(xí)社-譯站 2019-08-23 15:14
導(dǎo)語:這個模型在跨語言分類任務(wù)(15個語言的句子蘊(yùn)含任務(wù))上比其他模型取得了更好的效果,并且顯著提升了有預(yù)訓(xùn)練的機(jī)器翻譯效果。

注意力模型,尤其是BERT模型,已經(jīng)在NLP領(lǐng)域分類和翻譯任務(wù)上取得了極具前景的結(jié)果。Facebook AI在一篇新論文中提出了一個改良版的BERT模型XLM,在以上兩個任務(wù)上均取得了SOTA結(jié)果。

XLM用了一個常見的預(yù)處理技術(shù)BPE(byte pair encoder字節(jié)對編碼)以及BERT雙語言訓(xùn)練機(jī)制來學(xué)習(xí)不同語言中詞與詞之間的關(guān)系。這個模型在跨語言分類任務(wù)(15個語言的句子蘊(yùn)含任務(wù))上比其他模型取得了更好的效果,并且顯著提升了有預(yù)訓(xùn)練的機(jī)器翻譯效果。

  背景

XLM基于幾個核心概念:

Transformers, Google 在2017年提出的一種能夠同時處理輸入文本并且學(xué)到詞語上下文聯(lián)系的注意力機(jī)制。一個 Transformer 包含兩部分:一個編碼器讀入文本輸入并且生成每個詞的向量表示,一個解碼器將向量表示轉(zhuǎn)換成翻譯結(jié)果文本。更詳細(xì)的 Transformer 回顧可以看這篇文章:https://jalammar.github.io/illustrated-transformer/

普通的Transformer只考慮了每個單詞有限的上下文(單詞的前幾個詞),于是在2018年提出的BERT模型在此基礎(chǔ)上更進(jìn)了一步。BERT利用Transformer的編碼器學(xué)習(xí)一個語言模型,通過遮?。ㄉ釛墸┮恍┰~再試著去預(yù)測這些詞。這使得模型可以學(xué)習(xí)全篇內(nèi)容,也就是被遮住詞的前序和后續(xù)詞。

因為在注意力模塊中所有詞都是同時處理的,所以模型還需要考慮額外的位置信息。模型網(wǎng)絡(luò)通過給每個token加一個基于位置的固定值(例如正弦函數(shù)),可以成功學(xué)習(xí)到token間的聯(lián)系,這一步叫位置編碼。可以看這篇我們對BERT的總結(jié):https://www.lyrn.ai/2018/11/07/explained-bert-state-of-the-art-language-model-for-nlp/

2018年Lample et al.提出了將Transformer 和基于短語的統(tǒng)計機(jī)器翻譯技術(shù)(PBSMT)相結(jié)合的模型。后者給出了不同語言中短語的概率表。這篇論文中另一個重要概念是反向翻譯,也就是把句子翻譯成目標(biāo)語言句再翻回原句。這讓我們可以用單一語言作為訓(xùn)練集,比有監(jiān)督的雙語言訓(xùn)練集量更大也更常見。Lample et al.得出的一個結(jié)論是token的初始化嵌入對于模型最終的成功來說至關(guān)重要,尤其對反向翻譯來說。他在文中用了一個簡單的詞嵌入方法FastText,他們認(rèn)為更有效的語言模型能夠進(jìn)一步提升他們的模型結(jié)果。

  XLM模型工作原理

這篇論文提出了兩個創(chuàng)新點:一個是用BERT訓(xùn)練多語言文本分類、另一個是用BERT初始化機(jī)器翻譯模型。

BERT進(jìn)行跨語言文本分類

盡管BERT的訓(xùn)練語料超過100種語言,它的模型本身并沒有針對多語言進(jìn)行優(yōu)化——大多數(shù)詞匯沒有在語言間共享,因此能學(xué)到的跨語言知識是很有限的。針對這一點,XLM模型在以下方面修正了BERT:

首先,XLM的模型輸入用了字節(jié)對編碼(BPE)而不是用字符或詞語。BPE把輸入按所有語言中最常見的詞片段(sub-words)進(jìn)行切分,以此來增加跨語言共享的詞匯。這是一個常見的預(yù)處理算法,關(guān)于BPE可以看這篇總結(jié):https://www.lyrn.ai/2019/01/06/massively-multilingual-sentence-embeddings-for-zero-shot-transfer/#appendix-a-bpe

其次,XLM以下面兩個方式升級了BERT的模型結(jié)構(gòu):

  1. XLM的每個訓(xùn)練樣本包含含義相同語言不同的兩條句子,而不是像BERT中一條樣本僅來自同一語言。BERT的目標(biāo)是預(yù)測被遮住的token。XLM模型中,我們可以對每組句子,用一個語言的上下文信息去預(yù)測另一個語言被遮住的token。因為句子對中不同的隨機(jī)詞語會被遮住,模型可以利用翻譯信息去預(yù)測token。

  2. 模型也接受語言ID和不同語言token的順序信息,也就是位置編碼。這些新的元數(shù)據(jù)能幫模型學(xué)習(xí)到不同語言的token間關(guān)系。

升級版的BERT模型被稱作翻譯語言模型(TLM),普通BERT模型+BPE輸入被稱作有掩碼語言模型(MLM)。

完整的模型同時訓(xùn)練了MLM和TLM,并且在兩者之間進(jìn)行交替訓(xùn)練。

XLM?—?基于BERT的跨語言模型

上圖:類似BERT的單語言模型MLM, 和跨語言模型TLM進(jìn)行對比。來源:XLM

為了評估模型效果,這篇論文在句子蘊(yùn)含(句子對關(guān)系分類)任務(wù)上測試了模型。論文使用了XNLI數(shù)據(jù)集,數(shù)據(jù)集中句子來自15個語言。模型在所有配置上都比當(dāng)下著名模型,比如Artetxe et al.和BERT效果要更好。配置包括模型僅在英語數(shù)據(jù)上訓(xùn)練其他數(shù)據(jù)預(yù)測(Zero-Shot零樣本學(xué)習(xí)),其他語言翻英語(Translate-Train),英語翻其他語言(Translate-Test)。這些結(jié)果都取得了當(dāng)前SOTA結(jié)果。

XLM?—?基于BERT的跨語言模型

在不同的訓(xùn)練、測試集配置上對比模型和其他模型在XNLI數(shù)據(jù)集上的準(zhǔn)確率。每一列代表一種語言。來源:XLM

用MLM初始化翻譯模型

這篇論文提出了BERT的又一貢獻(xiàn),更確切的說是MLM模型:MLM可以作為更好的初始化技術(shù),用來改進(jìn)Lample et al. 的翻譯模型。token初始化不用FastText,而改用MLM,結(jié)果再傳到翻譯模型中。

在編碼和解碼階段均用該方法進(jìn)行token初始化,翻譯模型(使用Transformer的模型)的翻譯質(zhì)量提升了7 BLEU。具體見下表。

XLM?—?基于BERT的跨語言模型

不同初始化方法的翻譯結(jié)果。CLM表示因果語言模型(Causal Language Modeling),不用掩碼技術(shù),每一個詞是基于前序詞來預(yù)測的。來源:XLM

提示:這篇論文同時顯示跨語言模型對于學(xué)習(xí)一個語料匱乏的小語種是非常有用的,通過BPE算法,他們可以利用其它語言的數(shù)據(jù),尤其是相近語言。這個結(jié)論和Artetxe et al.的結(jié)論相似。(我們的總結(jié)可以看這里)

  計算因素

BERT模型在PyTorch框架下的實現(xiàn),以及預(yù)訓(xùn)練模型可以在此處找到:https://github.com/facebookresearch/XLM

我們使用Volta顯卡訓(xùn)練,語言模型64卡,翻譯任務(wù)8卡,訓(xùn)練時間并未指定。具體的實現(xiàn)細(xì)節(jié)可以在論文的5.1和5.2節(jié)中找到。

  結(jié)論

正如近期許多研究所示,本文也展示了語言模型和遷移學(xué)習(xí)的強(qiáng)大功能,特別是BERT,能夠在許多NLP任務(wù)上提高性能。通過簡單高效的微調(diào),BERT的性能可以超過其他跨語言分類模型,并顯著改善翻譯模型。
有趣的是,本文中使用的翻譯模型和用于初始化的MLM模型都基于Transformer??梢酝茢嘣趯?,我們應(yīng)該能夠看到更多這樣的組合應(yīng)用,比如,將新的Transformer-XL用于初始化。

點擊【XLM——基于 BERT 的跨語言模型】即可訪問相關(guān)內(nèi)容和參考文獻(xiàn)~

今日資源推薦:AI入門、大數(shù)據(jù)、機(jī)器學(xué)習(xí)免費教程

35本世界頂級原本教程限時開放,這類書單由知名數(shù)據(jù)科學(xué)網(wǎng)站 KDnuggets 的副主編,同時也是資深的數(shù)據(jù)科學(xué)家、深度學(xué)習(xí)技術(shù)愛好者的Matthew Mayo推薦,他在機(jī)器學(xué)習(xí)和數(shù)據(jù)科學(xué)領(lǐng)域具有豐富的科研和從業(yè)經(jīng)驗。

點擊鏈接即可獲?。?a target="_blank" rel=nofollow>https://ai.yanxishe.com/page/resourceDetail/417

雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)


雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

XLM?—?基于BERT的跨語言模型

分享:
相關(guān)文章

知情人士

AI研習(xí)社(yanxishe.com)譯站頻道,傳播前沿人工智能知識,讓語言不再成為學(xué)習(xí)知識的門檻。(原雷鋒字幕組)
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說