丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給skura
發(fā)送

0

WMT 2019國(guó)際機(jī)器翻譯大賽:微軟亞洲研究院以7項(xiàng)第一成為冠軍

本文作者: skura 2019-04-27 12:23
導(dǎo)語(yǔ):此次,微軟亞洲研究院使用了多種創(chuàng)新算法

雷鋒網(wǎng) AI 科技評(píng)論按,近日,由國(guó)際計(jì)算語(yǔ)言學(xué)協(xié)會(huì) ACL(The Association for Computational Linguistics)舉辦的 WMT 2019 國(guó)際機(jī)器翻譯比賽的客觀評(píng)測(cè)結(jié)果揭曉,微軟亞洲研究院機(jī)器學(xué)習(xí)組在參加的 11 項(xiàng)機(jī)器翻譯任務(wù)中,有 7 項(xiàng)獲得了第一名,另外 4 項(xiàng)獲得第二名。

WMT 2019國(guó)際機(jī)器翻譯大賽:微軟亞洲研究院以7項(xiàng)第一成為冠軍

圖片來(lái)自大賽網(wǎng)站,橫向?yàn)樵凑Z(yǔ)種,縱向?yàn)槟繕?biāo)語(yǔ)種

7項(xiàng)任務(wù)獲第一,4項(xiàng)任務(wù)獲第二

WMT 的全稱為 Conference on Machine Translation (http://www.statmt.org/wmt19/),是全球?qū)W術(shù)界公認(rèn)的國(guó)際頂級(jí)機(jī)器翻譯比賽。自 2006 年至今,WMT 機(jī)器翻譯比賽已經(jīng)成功舉辦 14 屆,每一次比賽都是全球各大高校、科技公司與學(xué)術(shù)機(jī)構(gòu)展示自身機(jī)器翻譯實(shí)力的較量,更是見(jiàn)證了機(jī)器翻譯技術(shù)的不斷進(jìn)步。

在本屆 WMT 2019 大賽中(http://www.statmt.org/wmt19/translation-task.html),共有來(lái)自全球的 50 多支隊(duì)伍參加,包括微軟、Facebook、百度、字節(jié)跳動(dòng)、平安、日本情報(bào)通信研究機(jī)構(gòu)(NICT)等企業(yè)、科研機(jī)構(gòu)和高校。大賽共設(shè)置了 19 項(xiàng)不同語(yǔ)言之間的翻譯任務(wù),微軟亞洲研究院參加了 11 項(xiàng),其中 7 項(xiàng)翻譯任務(wù)獲第一,包括:德語(yǔ)-英語(yǔ)、德語(yǔ)-法語(yǔ)、法語(yǔ)-德語(yǔ)、中文-英語(yǔ)、英語(yǔ)-立陶宛語(yǔ)、英語(yǔ)-芬蘭語(yǔ)、俄語(yǔ)-英語(yǔ)。另外 4 項(xiàng)任務(wù)獲得第二,包括:英語(yǔ)-德語(yǔ)、立陶宛語(yǔ)-英語(yǔ)、芬蘭語(yǔ)-英語(yǔ)、英語(yǔ)-哈薩克語(yǔ)。來(lái)自微軟的另外一支團(tuán)隊(duì)則在英語(yǔ)-德語(yǔ)的任務(wù)上獲得了第一名。

結(jié)果顯示,此次大賽的亞軍團(tuán)隊(duì)在 3 項(xiàng)任務(wù)中獲得了第一,季軍團(tuán)隊(duì)則有兩項(xiàng)獲得第一,來(lái)自微軟亞洲研究院的神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯算法的表現(xiàn)遙遙領(lǐng)先于其他參賽隊(duì)伍。

機(jī)器翻譯算法改進(jìn)

2018 年 3 月,由微軟亞洲研究院與微軟雷德蒙研究院共同研發(fā)的機(jī)器翻譯系統(tǒng)便在 WMT 2017 大會(huì)上發(fā)布的通用新聞報(bào)道測(cè)試 newstest2017 機(jī)器翻譯系統(tǒng)融合了微軟亞洲研究院機(jī)器學(xué)習(xí)組的最近研究成果——對(duì)偶學(xué)習(xí)(Dual Learning)推敲網(wǎng)絡(luò)(Deliberation Networks),以及自然語(yǔ)言計(jì)算組的最新技術(shù)——聯(lián)合訓(xùn)練(Joint Training)和一致性規(guī)范(Agreement Regularization)。

在 WMT 2019 的比賽中,微軟亞洲研究院機(jī)器學(xué)習(xí)組再次將多個(gè)創(chuàng)新的算法運(yùn)用在了機(jī)器翻譯的任務(wù)中,從學(xué)習(xí)機(jī)制、預(yù)訓(xùn)練、網(wǎng)絡(luò)架構(gòu)優(yōu)化、數(shù)據(jù)增強(qiáng)等方面,提升了機(jī)器翻譯結(jié)果的質(zhì)量。

此次使用的創(chuàng)新算法包括:

  • MADL:Multi-agent dual learning,多體對(duì)偶學(xué)習(xí)

  • MASS:Masked sequence to sequence pre-training,屏蔽序列到序列的預(yù)訓(xùn)練

  • NAO:Automatic neural architecture optimization,自動(dòng)神經(jīng)網(wǎng)絡(luò)架構(gòu)優(yōu)化

  • SCA:Soft contextual data augmentation,軟性上下文數(shù)據(jù)增強(qiáng)

其中,關(guān)于 NAO 的論文已被 NIPS 2018 收錄,關(guān)于 MADL 的論文已被 ICLR 2019 收錄,關(guān)于 MASS 的論文則被 ICML 2019 收錄。

新的學(xué)習(xí)機(jī)制:MADL 多體對(duì)偶學(xué)習(xí)

在機(jī)器翻譯中,訓(xùn)練數(shù)據(jù)的數(shù)據(jù)量越大、質(zhì)量越高,其訓(xùn)練的翻譯結(jié)果越好?;趯?duì)偶學(xué)習(xí),創(chuàng)新的 MADL 算法利用正向與反向翻譯的多個(gè)模型對(duì)單語(yǔ)數(shù)據(jù)進(jìn)行前向和后向翻譯并打分,然后將得分最高的數(shù)據(jù)放置到訓(xùn)練數(shù)據(jù)中從而獲得更多高質(zhì)量的數(shù)據(jù),或者將單語(yǔ)數(shù)據(jù)的前向后向重建誤差加入到損失函數(shù)里來(lái)增強(qiáng)學(xué)習(xí)過(guò)程。MADL 不局限于某個(gè)語(yǔ)種,可以在任何源語(yǔ)種和目標(biāo)語(yǔ)種之間提供這樣的對(duì)偶學(xué)習(xí)能力。

更好的預(yù)訓(xùn)練:MASS 屏蔽序列到序列的預(yù)訓(xùn)練

MASS 是針對(duì)序列生成設(shè)計(jì)的預(yù)訓(xùn)練算法,比 BERT 以及 GPT/2 更加通用。BERT 模型通常是屏蔽掉句子中的一個(gè)單詞,然后通過(guò)分類來(lái)預(yù)測(cè)這個(gè)詞;GPT 模型是給定前面的詞,通過(guò)分類生成后面的詞,直至一句話或整篇文檔;兩者都是預(yù)訓(xùn)練一個(gè)編碼器。而翻譯則是基于編碼器-解碼器-注意力框架,因此 BERT 和 GPT/2 并不能很好地適用于翻譯任務(wù)。但 MASS 則能將句子中的部分連續(xù)片斷隨機(jī)屏蔽,然后訓(xùn)練一個(gè)編碼器-解碼器-注意力模型預(yù)測(cè)生成該片斷,從而利用海量單語(yǔ)數(shù)據(jù)預(yù)訓(xùn)練然后初始化翻譯模型。因此,MASS 比 BERT 和 GPT/2 都更適用于機(jī)器翻譯這個(gè)應(yīng)用場(chǎng)景。實(shí)驗(yàn)證明,MASS 屏蔽翻譯句子中 50% 的片斷效果最好。

網(wǎng)絡(luò)架構(gòu)優(yōu)化: NAO 自動(dòng)神經(jīng)網(wǎng)絡(luò)架構(gòu)優(yōu)化

NAO 是從神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)優(yōu)化的角度去提升機(jī)器翻譯水平。不同的網(wǎng)絡(luò)結(jié)構(gòu)通常對(duì)于翻譯結(jié)果有著較大影響,NAO 把離散的網(wǎng)絡(luò)結(jié)構(gòu)嵌入到連續(xù)的向量空間,從而通過(guò)連續(xù)優(yōu)化找到更好的網(wǎng)絡(luò)結(jié)構(gòu)。與固定的 Transformer 相比,NAO 可以找到更多樣的網(wǎng)絡(luò)結(jié)構(gòu),和 Transformer 形成互補(bǔ)優(yōu)勢(shì),使得機(jī)器翻譯多模型集成的結(jié)果更佳。

數(shù)據(jù)增強(qiáng):SCA 軟性上下文數(shù)據(jù)增強(qiáng)

所謂 SCA 軟性上下文數(shù)據(jù)增強(qiáng),是在雙語(yǔ)訓(xùn)練數(shù)據(jù)中隨機(jī)屏蔽某個(gè)詞,再基于語(yǔ)言模型利用上下文來(lái)預(yù)測(cè)這個(gè)詞,隨后選擇概率最高的幾個(gè)詞,根據(jù)預(yù)測(cè)概率把這些預(yù)測(cè)的詞線性組合到一起,替換原來(lái)被屏蔽的詞。這樣一個(gè)句子/句對(duì)可以生成多個(gè)句子/句對(duì),同一個(gè)句子的翻譯就可以出現(xiàn)多個(gè)合理的翻譯結(jié)果,這也與實(shí)際翻譯過(guò)程中翻譯結(jié)果并不唯一這一事實(shí)相吻合。通過(guò)如此軟性上下文數(shù)據(jù)增強(qiáng),從而擴(kuò)大訓(xùn)練數(shù)據(jù)的規(guī)模,增強(qiáng)數(shù)據(jù)質(zhì)量,得到更好的翻譯結(jié)果。

在此次的 11 項(xiàng)機(jī)器翻譯任務(wù)中,微軟亞洲研究院的研究員們?cè)诿總€(gè)翻譯任務(wù)上采用了上述不同的技術(shù)。未來(lái),研究團(tuán)隊(duì)計(jì)劃將這四個(gè)層面的創(chuàng)新技術(shù)整合,并且通過(guò)與微軟翻譯產(chǎn)品部門(mén)的合作,將新技術(shù)盡快轉(zhuǎn)化到微軟翻譯產(chǎn)品中。

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

WMT 2019國(guó)際機(jī)器翻譯大賽:微軟亞洲研究院以7項(xiàng)第一成為冠軍

分享:
相關(guān)文章
當(dāng)月熱門(mén)文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)