號稱打敗谷歌翻譯的 DeepL 究竟靠不靠譜？

本文作者：三川

2017-09-08 05:22

導(dǎo)語：上周，這家位于德國科隆的公司聲稱，DeepL 在盲測中以壓倒性優(yōu)勢擊敗了谷歌、微軟與 Facebook 的 NMT 系統(tǒng)。

鑒于數(shù)據(jù)、計算力、算法等諸多門檻，自神經(jīng)機(jī)器翻譯（NMT）產(chǎn)品化以來，在很大程度上便是互聯(lián)網(wǎng)巨頭們的競技場。

如今，又一個新的挑戰(zhàn)者高調(diào)加入進(jìn)來，直接把矛頭指向堪稱行業(yè)技術(shù)標(biāo)桿的谷歌、微軟以及 Facebook。

上周，來自德國的 DeepL 翻譯上線，號稱實現(xiàn)了 NMT 技術(shù)的新突破，打造出了“世界上最精確、語言組織最自然的機(jī)器翻譯系統(tǒng)”；并宣布在自家組織的盲測中，打敗了谷歌翻譯以及微軟與 Facebook 的 NMT 系統(tǒng)，釁意十足。

目前，DeepL 翻譯已支持英德法西等 42 門歐洲語言，正在對漢、日、俄等語言進(jìn)行訓(xùn)練，并計劃在將來發(fā)布一款 API，讓開發(fā)者能夠?qū)?DeepL 翻譯整合入其應(yīng)用中。

公司前身

首先要說，這家公司的來歷并不簡單。

公司的前身是運(yùn)營已近十年的在線外語詞典 Linguee，DeepL 翻譯也完全由 Linguee 團(tuán)隊打造。Linguee 在國內(nèi)沒什么存在感，至于在海外……有谷歌翻譯專美于前，存在感也不是很高，但還是有一批認(rèn)可它的用戶。

號稱打敗谷歌翻譯的 DeepL 究竟靠不靠譜？

Linguee 的英漢、漢英詞典界面

不過，Linguee 的成敗現(xiàn)在已經(jīng)不重要，畢竟都換馬甲了——Linguee 在今年正式更名 DeepL，以“Deep”提醒 VC 自己是一家正兒八經(jīng)的深度學(xué)習(xí)公司。

真正重要的是 Linguee 的技術(shù)積累。Linguee 由前谷歌翻譯研究員 Gereon Frahling 在 2007 年離職開發(fā)，2009 年正式上線。就雷鋒網(wǎng)所知，Linguee 的核心優(yōu)勢是它的爬蟲和機(jī)器學(xué)習(xí)系統(tǒng)，前者抓取互聯(lián)網(wǎng)上的雙語對照翻譯，后者對這些翻譯的質(zhì)量進(jìn)行評估。兩者結(jié)合，使 Linguee 成為了當(dāng)時“世界上首個翻譯搜索引擎”。十年積累，Linguee 無論在數(shù)據(jù)和對算法的研究上都不可小覷。

號稱打敗谷歌翻譯的 DeepL 究竟靠不靠譜？

去年在倫敦 Noah 上演講的 Gereon Frahling

一年前，其研究團(tuán)隊著手欲實現(xiàn)一個新目標(biāo)：利用在機(jī)器翻譯領(lǐng)域的多年專業(yè)積累，打造一套業(yè)內(nèi)最先進(jìn)的 NMT 系統(tǒng)。這便是 8 月 29 日上線的 DeepL 翻譯。

三大優(yōu)勢

既然底子厚實，我們來看看這些積累給 DeepL 帶來了哪些資源優(yōu)勢。

雷鋒網(wǎng)要提醒，以下信息均是 DeepL 一家之言，尚無第三方背書，大家需自行判斷其含金量。

數(shù)據(jù)

Linguee 的數(shù)據(jù)集有逾十億組對照翻譯語句，號稱是世界上最大的人工翻譯數(shù)據(jù)集。 Linguee 能隨時搜索近似翻譯結(jié)果。

計算力

DeepL 在冰島搭建了一臺超算，號稱在全球 HPC 中性能排名第 23 位，浮點運(yùn)算能力達(dá)到 5.1 petaFLOPS。因而能實現(xiàn)令 DeepL 十分自豪的計算速度：每秒處理百萬量級的詞語翻譯。

算法

采用 CNN 而不是 NMT 產(chǎn)品通用的 RNN。DeepL 宣稱其技術(shù)積累使得它能夠克服 CNN 的主要短板，因而能實現(xiàn)比基于 RNN 的競品算法更精確、自然的翻譯結(jié)果。

效果展示

DeepL 宣稱其翻譯系統(tǒng)的表現(xiàn)打敗了谷歌翻譯以及微軟、Facebook 的 NMT 系統(tǒng)，是基于兩個指標(biāo)：盲測反饋和 BLEU 分?jǐn)?shù)。

盲測

DeepL 邀請了職業(yè)翻譯者，對 DeepL 翻譯、谷歌翻譯、微軟翻譯以及 Facebook 的 NMT 系統(tǒng)進(jìn)行了盲測，要求測試者選出所認(rèn)為的最好的翻譯結(jié)果。測試語言為三組，分別是英德、英法、英西互譯，樣本為 100 個句子。DeepL 并未公布每組參與測試的職業(yè)譯者數(shù)量。測試結(jié)果如下：

號稱打敗谷歌翻譯的 DeepL 究竟靠不靠譜？

如圖所示，在每一門測試中，選擇 DeepL 的測試者都最多。 DeepL 在英譯德、英譯法、英譯西的優(yōu)勢尤其明顯。其官方統(tǒng)計是：選擇 DeepL 為最佳翻譯結(jié)果的次數(shù)，與選擇另外三家 NMT 服務(wù)的平均比例為 3：1 。

BLEU

BLEU 是業(yè)內(nèi)評估機(jī)器翻譯質(zhì)量最常用的打分算法，其得分被認(rèn)為與人類的評判結(jié)果具有較大相關(guān)性。

DeepL 宣布，其英譯德、英譯法的 BLEU 得分超過了所有已發(fā)表的 NMT 研究，包括谷歌 Transformer。結(jié)果如下：

號稱打敗谷歌翻譯的 DeepL 究竟靠不靠譜？

如圖，在英譯法項目上，DeepL 的 BLEU 分?jǐn)?shù)超過次優(yōu)方案約 3.5%。

業(yè)內(nèi)觀點

踏入江湖的第一日，DeepL 就自封“天下第一”。業(yè)內(nèi)同行對此怎么看？

對此，雷鋒網(wǎng)咨詢了搜狗語音交互中心總監(jiān)陳偉、商鵲網(wǎng) CEO 鄒劍宇，以及 Facebook 機(jī)器學(xué)習(xí)工程師王楊。需要說明的是，三位老師均表示：由于缺乏關(guān)于 DeepL 算法、數(shù)據(jù)庫的第一手資料，也沒有來自第三方的信息，無法對其翻譯水平做出客觀判斷。商鵲網(wǎng)的 CEO 鄒劍宇評論道：“從相關(guān)報道中，對算法的描述并不詳細(xì)，沒有論文披露細(xì)節(jié)，所以并不好理解?！?/p>

因此，以下僅為這四位看到 DeepL 宣傳信息后的一些個人看法。

一、

在 Facebook從事應(yīng)用機(jī)器學(xué)習(xí)的工程師王楊，聽到這件事的第一反應(yīng)是懷疑——單是同時勝過谷歌翻譯和Facebook NMT這一點，不拿出有足夠說服力的證據(jù)就難以取信于人。谷歌的NMT 積累深厚，F(xiàn)acebook的NMT也在快速發(fā)展。一個新的產(chǎn)品想要如其所宣傳的那樣實現(xiàn)大幅超越，很難。

若 DeepL 確實在技術(shù)上實現(xiàn)了突破，那么不排除他們有全新的多語種（multilingual）模型。

至于 DeepL 的算法模型基于 CNN 而不是 RNN，王楊表示“這從側(cè)面支持了 Facebook 的研究”。FAIR（Facebook AI Research）一直認(rèn)為 CNN 在機(jī)器翻譯上的潛力遠(yuǎn)遠(yuǎn)大過 RNN，尤其是計算速度，這也是 Facebook 在 NMT 領(lǐng)域的主要研究方向之一。

二、

搜狗語音交互中心總監(jiān)陳偉，他們機(jī)器翻譯團(tuán)隊剛剛在 WMT 2017評測中獲得中英、英中兩個翻譯方向的第一名，他認(rèn)為數(shù)據(jù)對 DeepL 的貢獻(xiàn)可能遠(yuǎn)大過其它因素。而 Linguee 的數(shù)據(jù)爬取和積累，是一項不小的優(yōu)勢。

陳偉評論道：

“從 BLEU 對比看，提升的比較明顯，感覺他們十億量級的高質(zhì)量數(shù)據(jù)對效果幫助比較大。實測大家都覺得好，這至少說明它數(shù)據(jù)的全面性還是夠的。”

據(jù)一位德語專業(yè)的譯員說，DeepL 德英互譯的體驗確實不錯，這絲毫不意外——作為一家德國公司，順理成章的，DeepL 重點關(guān)注的是德英、法英這些語種的翻譯。這為 DeepL 在這幾門語種的數(shù)據(jù)積累也提供了一定的聚焦和便利。

DeepL 公布的盲測、BLEU 評分，衡量的均是德、法、西這三門歐洲語言與英語之間的互譯。

在算法方面，陳偉向雷鋒網(wǎng)表示：

“沒看到他們技術(shù)的詳細(xì)介紹，只了解到使用了 CNN 而沒有使用 RNN，但是我感覺架構(gòu)變動不會太大，應(yīng)該類似于 Facebook 的 convs2s。

他并不認(rèn)可“CNN 是神經(jīng)機(jī)器翻譯未來”的說法：

在搜狗的實驗對比中，“RNN-NMT、CNN-NMT 和谷歌的 Transformer 框架。三個技術(shù)我們都認(rèn)真研究和優(yōu)化過，目前 Transformer 框架已經(jīng)在搜狗翻譯系統(tǒng)上線，從機(jī)器評分和人工評測來看，都領(lǐng)先主要競品，較RNN-NMT、CNN-NMT提升也比較明顯。

業(yè)內(nèi)也沒有一致觀點認(rèn)為 CNN 是 NMT 的未來。我覺得技術(shù)方案無論是 CNN、RNN、Transformer 都沒做到極致，目前主流技術(shù)框架到底是什么沒有定論，算法細(xì)節(jié)的打磨和多種技術(shù)的融合會是未來發(fā)展趨勢，另外數(shù)據(jù)量會是各家公司的技術(shù)壁壘。”

最后，陳偉總結(jié)，根據(jù) DeepL 公布的報告，目前的評測存在三個地方導(dǎo)致難以評估其技術(shù)：

人工評測的測試數(shù)據(jù)量僅有 100 句，而一般人工評測或者 BLEU 評測會采用幾千句的數(shù)量。

DeepL對比其他家并沒有使用相同的訓(xùn)練數(shù)據(jù)集，因此性能無法很好評估。

更多的技術(shù)細(xì)節(jié)沒有公布，很難把握具體的情況。

三、

商鵲網(wǎng) CEO 鄒劍宇十分認(rèn)同數(shù)據(jù)和計算資源對 NMT 產(chǎn)品的重要性：

“報道說其訓(xùn)練引擎是基于一臺冰島超級計算機(jī)，可以說深度學(xué)習(xí)真的很需要計算力。Linguee 本身是一個不錯的語料庫公司，數(shù)據(jù)積累有自己的特點，這應(yīng)該是其引擎優(yōu)秀表現(xiàn)的一個基礎(chǔ)。

對于引擎的評測，Linguee引擎的盲測很好，BLEU 值超過其他引擎最優(yōu)質(zhì) 3 個百分點（行業(yè)通識是，2 個 BLEU 值的提高就可以稱作‘顯著’）?！?/p>

對于 BLEU 值究竟能在多大程度上客觀反映翻譯質(zhì)量，鄒劍宇強(qiáng)調(diào)，需要合理看待其參考價值，不可把它等同于普通人面對翻譯結(jié)果的直觀體驗：