丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
人工智能 正文
發(fā)私信給camel
發(fā)送

0

機器翻譯新突破,微軟中英新聞翻譯達人類水平

本文作者: camel 2018-03-15 02:33
導語:對偶學習、推敲網(wǎng)絡、聯(lián)合訓練、一致性規(guī)范
活動
企業(yè):微軟
操作:技術突破
事項:微軟中英新聞翻譯達人類水平

翻譯沒有唯一標準答案,它更像一種藝術。

雷鋒網(wǎng)AI科技評論消息:14日晚,微軟亞洲研究院與雷德蒙研究院的研究人員宣布,其研發(fā)的機器翻譯系統(tǒng)在通用新聞報道測試集newstest2017的中-英測試集上,達到了可與人工翻譯媲美的水平;這是首個在新聞報道的翻譯質(zhì)量和準確率上可以比肩人工翻譯的翻譯系統(tǒng)。

newstest2017測試集由來自產(chǎn)業(yè)界和學術界的團隊共同開發(fā)完成,并于2017年在WMT17大會上發(fā)布。而新聞(news)測試集則是三類翻譯測試集中的一個,其他兩類為生物醫(yī)學(biomedical)和多模式(multimodal)。

四大技術

我們知道,對于同一個意思人類可以用不同的句子來表達,因此翻譯并沒有標準答案,即使是兩位專業(yè)的翻譯人員對于完全相同的句子也會有略微不同的翻譯,而且兩個人的翻譯都不錯。微軟亞洲研究院副院長、自然語言計算組負責人周明表示:“這也是為什么機器翻譯比純粹的模式識別任務復雜得多,人們可能用不同的詞語來表達完全相同的意思,但未必能準確判斷哪一個更好。”

這也是為什么科研人員在機器翻譯上攻堅了數(shù)十年,甚至曾經(jīng)很多人都認為機器翻譯永遠不可能達到人類翻譯的水平。近兩年隨著深度神經(jīng)網(wǎng)絡的引入,機器翻譯的表現(xiàn)取得了很多顯著的提升,翻譯結(jié)果相較于以往的統(tǒng)計機器翻譯結(jié)果更加的自然流暢。

據(jù)雷鋒網(wǎng)了解,在這次的工作中來自微軟亞洲研究院和雷德蒙研究院的三個研究組通過多次交流合作,將他們的研究工作相結(jié)合,再次更進一步地提高了機器翻譯的質(zhì)量,其中用到的技術包括對偶學習(Dual Learning)、推敲網(wǎng)絡(Deliberation Networks)、聯(lián)合訓練(Joint Training)和一致性規(guī)范(Agreement Regularization)等。

機器翻譯新突破,微軟中英新聞翻譯達人類水平

對偶無監(jiān)督學習框架

對偶學習,即利用任務的對偶結(jié)構(gòu)來進行學習。例如,在翻譯領域,我們關心從英文翻譯到中文,也同樣關心從中文翻譯回英文。由于存在這樣的對偶結(jié)構(gòu),兩個任務可以互相提供反饋信息,而這些反饋信息可以用來訓練深度學習模型。也就是說,即便沒有人為標注的數(shù)據(jù),有了對偶結(jié)構(gòu)也可以做深度學習。另一方面,兩個對偶任務可以互相充當對方的環(huán)境,這樣就不必與真實的環(huán)境做交互,兩個對偶任務之間的交互就可以產(chǎn)生有效的反饋信號。因此,充分地利用對偶結(jié)構(gòu),就有望解決深度學習和增強學習的瓶頸——訓練數(shù)據(jù)從哪里來、與環(huán)境的交互怎么持續(xù)進行等問題。

機器翻譯新突破,微軟中英新聞翻譯達人類水平

推敲網(wǎng)絡的解碼過程

推敲網(wǎng)絡中的“推敲”二字可以認為是來源于人類閱讀、寫文章以及做其他任務時候的一種行為方式,即任務完成之后,并不當即終止,而是會反復推敲。微軟亞洲研究院機器學習組將這個過程沿用到了機器學習中。推敲網(wǎng)絡具有兩段解碼器,其中第一階段解碼器用于解碼生成原始序列,第二階段解碼器通過推敲的過程打磨和潤色原始語句。后者了解全局信息,在機器翻譯中看,它可以基于第一階段生成的語句,產(chǎn)生更好的翻譯結(jié)果。

機器翻譯新突破,微軟中英新聞翻譯達人類水平

聯(lián)合訓練:從源語言到目標語言翻譯(Source to Target)P(y|x) 與從目標語言到源語言翻譯(Target to Source)P(x|y)

聯(lián)合訓練可以認為是從源語言到目標語言翻譯(Source to Target)的學習與從目標語言到源語言翻譯(Target to Source)的學習的結(jié)合。中英翻譯和英中翻譯都使用初始并行數(shù)據(jù)來訓練,在每次訓練的迭代過程中,中英翻譯系統(tǒng)將中文句子翻譯成英文句子,從而獲得新的句對,而該句對又可以反過來補充到英中翻譯系統(tǒng)的數(shù)據(jù)集中。同理,這個過程也可以反向進行。這樣雙向融合不僅使得兩個系統(tǒng)的訓練數(shù)據(jù)集大大增加,而且準確率也大幅提高。

機器翻譯新突破,微軟中英新聞翻譯達人類水平

   一致性規(guī)范:從左到右P(y|x,theta->)  和從右到左P(y|x,theta<-)

一致性規(guī)范,即翻譯結(jié)果可以從左到右按順序產(chǎn)生,也可以從右到左進行生成。該規(guī)范對從左到右和從右到左的翻譯結(jié)果進行約束。如果這兩個過程生成的翻譯結(jié)果一樣,一般而言比結(jié)果不一樣的翻譯更加可信。這個約束,應用于神經(jīng)機器翻譯訓練過程中,以鼓勵系統(tǒng)基于這兩個相反的過程生成一致的翻譯結(jié)果。

與人類比較

由于機器翻譯沒有“正確的”翻譯結(jié)果,為了與人類的翻譯水平進行比較,就必須嚴格地定義什么是與人類翻譯水平相當。根據(jù)其發(fā)表的論文中表述,這種定義有兩種:

1、如果一個具備雙語能力的人判斷人類輸出的譯文質(zhì)量與機器輸出的譯文質(zhì)量相當,則機器達到人類水平。

2、如果機器翻譯系統(tǒng)在測試集上的譯文質(zhì)量得分(人工評分)與人類譯文得分沒有顯著差別,則機器達到人類水平。

微軟選擇了第二種定義,因為這樣相對而言比較公平且有實際意義。

newstest2017新聞報道測試集中共包括了約2000個句子,它們是由專業(yè)人員從在線報紙樣本翻譯而來。

微軟團隊對測試集進行了多輪評估,每次評估會隨機挑選數(shù)百個句子進行翻譯。

隨后,為了驗證微軟的機器翻譯是否達到了人類翻譯水平,微軟從外部聘請了一群雙語語言顧問,讓他們對微軟的翻譯結(jié)果和人工的翻譯進行比較和評分,結(jié)果如下:

機器翻譯新突破,微軟中英新聞翻譯達人類水平

#表示集群的排名,Ave%表示平均原始分數(shù)(范圍在[0,100]之間),Ave z表示標準 z分數(shù)。該表顯示了系統(tǒng)收集了至少1827份評估結(jié)果。

從表中我們可以看出,微軟的系統(tǒng)(Combo-4, 5, 6)已經(jīng)與人類翻譯(Reference-HT)無顯著差別,遠遠超過Reference-PE(人類翻譯—基于機器翻譯后的編輯)以及Reference-WMT。

任重而道遠

對于這項結(jié)果,來自微軟的研究人員卻表現(xiàn)地極為自然。

機器翻譯新突破,微軟中英新聞翻譯達人類水平

微軟技術院士黃學東,負責微軟語音、自然語言和機器翻譯

微軟技術院士黃學東告訴記者:

“在機器翻譯方面達到與人類相同的水平是所有人的夢想,我們沒有想到這么快就能實現(xiàn)。消除語言障礙,幫助人們更好地溝通,這非常有意義,值得我們多年來為此付出的努力。”

微軟機器翻譯團隊研究經(jīng)理Arul Menezes表示:

“團隊想要證明的是:當一種語言對(比如中-英)擁有較多的訓練數(shù)據(jù),且測試集中包含的是常見的大眾類新聞詞匯時,那么在人工智能技術的加持下機器翻譯系統(tǒng)的表現(xiàn)可以與人類媲美?!?/p>

機器翻譯新突破,微軟中英新聞翻譯達人類水平

微軟亞洲研究院副院長、自然語言計算組負責人周明

微軟亞洲研究院副院長、自然語言計算組負責人周明則表示任重而道遠:

“在WMT17測試集上的翻譯結(jié)果達到人類水平很鼓舞人心,但仍有很多挑戰(zhàn)需要我們解決,比如在實時的新聞報道上測試系統(tǒng)等。”


機器翻譯新突破,微軟中英新聞翻譯達人類水平

微軟亞洲研究院副院長、機器學習組負責人劉鐵巖

而微軟亞洲研究院副院長、機器學習組負責人劉鐵巖對技術的進展表示樂觀:

“我們不知道哪一天機器翻譯系統(tǒng)才能在翻譯任何語言、任何類型的文本時,都能在“信、達、雅”等多個維度上達到專業(yè)翻譯人員的水準。我們可以預測的是,新技術的應用一定會讓機器翻譯的結(jié)果日臻完善?!?/p>

據(jù)雷鋒網(wǎng)了解,此次的技術突破將很快應用到微軟的商用多語言翻譯系統(tǒng)產(chǎn)品中,從而幫助其它語言或詞匯更復雜、更專業(yè)的文本實現(xiàn)更準確、更地道的翻譯。此外,這些新技術還可以被應用在機器翻譯之外的其他領域,催生更多人工智能技術和應用的突破。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

機器翻譯新突破,微軟中英新聞翻譯達人類水平

分享:
相關文章
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說