丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
人工智能 正文
發(fā)私信給skura
發(fā)送

0

WMT 2019國際機器翻譯大賽:微軟亞洲研究院以7項第一成為冠軍

本文作者: skura 2019-04-27 12:23
導語:此次,微軟亞洲研究院使用了多種創(chuàng)新算法

雷鋒網 AI 科技評論按,近日,由國際計算語言學協(xié)會 ACL(The Association for Computational Linguistics)舉辦的 WMT 2019 國際機器翻譯比賽的客觀評測結果揭曉,微軟亞洲研究院機器學習組在參加的 11 項機器翻譯任務中,有 7 項獲得了第一名,另外 4 項獲得第二名。

WMT 2019國際機器翻譯大賽:微軟亞洲研究院以7項第一成為冠軍

圖片來自大賽網站,橫向為源語種,縱向為目標語種

7項任務獲第一,4項任務獲第二

WMT 的全稱為 Conference on Machine Translation (http://www.statmt.org/wmt19/),是全球學術界公認的國際頂級機器翻譯比賽。自 2006 年至今,WMT 機器翻譯比賽已經成功舉辦 14 屆,每一次比賽都是全球各大高校、科技公司與學術機構展示自身機器翻譯實力的較量,更是見證了機器翻譯技術的不斷進步。

在本屆 WMT 2019 大賽中(http://www.statmt.org/wmt19/translation-task.html),共有來自全球的 50 多支隊伍參加,包括微軟、Facebook、百度、字節(jié)跳動、平安、日本情報通信研究機構(NICT)等企業(yè)、科研機構和高校。大賽共設置了 19 項不同語言之間的翻譯任務,微軟亞洲研究院參加了 11 項,其中 7 項翻譯任務獲第一,包括:德語-英語、德語-法語、法語-德語、中文-英語、英語-立陶宛語、英語-芬蘭語、俄語-英語。另外 4 項任務獲得第二,包括:英語-德語、立陶宛語-英語、芬蘭語-英語、英語-哈薩克語。來自微軟的另外一支團隊則在英語-德語的任務上獲得了第一名。

結果顯示,此次大賽的亞軍團隊在 3 項任務中獲得了第一,季軍團隊則有兩項獲得第一,來自微軟亞洲研究院的神經網絡機器翻譯算法的表現(xiàn)遙遙領先于其他參賽隊伍。

機器翻譯算法改進

2018 年 3 月,由微軟亞洲研究院與微軟雷德蒙研究院共同研發(fā)的機器翻譯系統(tǒng)便在 WMT 2017 大會上發(fā)布的通用新聞報道測試 newstest2017 機器翻譯系統(tǒng)融合了微軟亞洲研究院機器學習組的最近研究成果——對偶學習(Dual Learning)推敲網絡(Deliberation Networks),以及自然語言計算組的最新技術——聯(lián)合訓練(Joint Training)和一致性規(guī)范(Agreement Regularization)。

在 WMT 2019 的比賽中,微軟亞洲研究院機器學習組再次將多個創(chuàng)新的算法運用在了機器翻譯的任務中,從學習機制、預訓練、網絡架構優(yōu)化、數據增強等方面,提升了機器翻譯結果的質量。

此次使用的創(chuàng)新算法包括:

  • MADL:Multi-agent dual learning,多體對偶學習

  • MASS:Masked sequence to sequence pre-training,屏蔽序列到序列的預訓練

  • NAO:Automatic neural architecture optimization,自動神經網絡架構優(yōu)化

  • SCA:Soft contextual data augmentation,軟性上下文數據增強

其中,關于 NAO 的論文已被 NIPS 2018 收錄,關于 MADL 的論文已被 ICLR 2019 收錄,關于 MASS 的論文則被 ICML 2019 收錄。

新的學習機制:MADL 多體對偶學習

在機器翻譯中,訓練數據的數據量越大、質量越高,其訓練的翻譯結果越好。基于對偶學習,創(chuàng)新的 MADL 算法利用正向與反向翻譯的多個模型對單語數據進行前向和后向翻譯并打分,然后將得分最高的數據放置到訓練數據中從而獲得更多高質量的數據,或者將單語數據的前向后向重建誤差加入到損失函數里來增強學習過程。MADL 不局限于某個語種,可以在任何源語種和目標語種之間提供這樣的對偶學習能力。

更好的預訓練:MASS 屏蔽序列到序列的預訓練

MASS 是針對序列生成設計的預訓練算法,比 BERT 以及 GPT/2 更加通用。BERT 模型通常是屏蔽掉句子中的一個單詞,然后通過分類來預測這個詞;GPT 模型是給定前面的詞,通過分類生成后面的詞,直至一句話或整篇文檔;兩者都是預訓練一個編碼器。而翻譯則是基于編碼器-解碼器-注意力框架,因此 BERT 和 GPT/2 并不能很好地適用于翻譯任務。但 MASS 則能將句子中的部分連續(xù)片斷隨機屏蔽,然后訓練一個編碼器-解碼器-注意力模型預測生成該片斷,從而利用海量單語數據預訓練然后初始化翻譯模型。因此,MASS 比 BERT 和 GPT/2 都更適用于機器翻譯這個應用場景。實驗證明,MASS 屏蔽翻譯句子中 50% 的片斷效果最好。

網絡架構優(yōu)化: NAO 自動神經網絡架構優(yōu)化

NAO 是從神經網絡結構優(yōu)化的角度去提升機器翻譯水平。不同的網絡結構通常對于翻譯結果有著較大影響,NAO 把離散的網絡結構嵌入到連續(xù)的向量空間,從而通過連續(xù)優(yōu)化找到更好的網絡結構。與固定的 Transformer 相比,NAO 可以找到更多樣的網絡結構,和 Transformer 形成互補優(yōu)勢,使得機器翻譯多模型集成的結果更佳。

數據增強:SCA 軟性上下文數據增強

所謂 SCA 軟性上下文數據增強,是在雙語訓練數據中隨機屏蔽某個詞,再基于語言模型利用上下文來預測這個詞,隨后選擇概率最高的幾個詞,根據預測概率把這些預測的詞線性組合到一起,替換原來被屏蔽的詞。這樣一個句子/句對可以生成多個句子/句對,同一個句子的翻譯就可以出現(xiàn)多個合理的翻譯結果,這也與實際翻譯過程中翻譯結果并不唯一這一事實相吻合。通過如此軟性上下文數據增強,從而擴大訓練數據的規(guī)模,增強數據質量,得到更好的翻譯結果。

在此次的 11 項機器翻譯任務中,微軟亞洲研究院的研究員們在每個翻譯任務上采用了上述不同的技術。未來,研究團隊計劃將這四個層面的創(chuàng)新技術整合,并且通過與微軟翻譯產品部門的合作,將新技術盡快轉化到微軟翻譯產品中。

雷峰網版權文章,未經授權禁止轉載。詳情見轉載須知。

WMT 2019國際機器翻譯大賽:微軟亞洲研究院以7項第一成為冠軍

分享:
相關文章
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說