快9倍！Facebook開源機(jī)器學(xué)習(xí)翻譯項(xiàng)目fairseq

本文作者：彭鵬

編輯：郭奕欣

2017-05-10 20:28

導(dǎo)語：日前，F(xiàn)aceBook的人工智能實(shí)驗(yàn)室宣布了其在翻譯任務(wù)上所取得的突破性成果。研究表明：利用CNN比傳統(tǒng)的RNN方法速度快了9倍。

Facebook的使命是讓世界變得更加開放，讓每個(gè)人都能以最高的準(zhǔn)確性和最快的速度使用自己喜歡的語言來發(fā)帖子和視頻進(jìn)行互動(dòng)，語言翻譯對(duì)此十分重要。

雷鋒網(wǎng)了解到，今天，F(xiàn)acebook的人工智能研究團(tuán)隊(duì)發(fā)表了他們的研究成果Fairseq，他們使用了一種新型的卷積神經(jīng)網(wǎng)絡(luò)來做語言翻譯，比循環(huán)神經(jīng)網(wǎng)絡(luò)的速度快了9倍，而且準(zhǔn)確性也是現(xiàn)有模型中最高的。此外，F(xiàn)AIR序列建模工具包的源代碼和訓(xùn)練好的系統(tǒng)都已經(jīng)在開源平臺(tái)GitHub上公布，其他的研究者可以在此基礎(chǔ)上建立自己的關(guān)于翻譯、文本總結(jié)和其他任務(wù)的模型。

為什么選擇卷積神經(jīng)網(wǎng)絡(luò)？

卷積神經(jīng)網(wǎng)絡(luò)在數(shù)十年前由Yann Lecun 提出，已經(jīng)在諸如圖像處理之類的領(lǐng)域取得了成功。循環(huán)神經(jīng)網(wǎng)絡(luò)卻是文本領(lǐng)域的現(xiàn)有技術(shù)，并且由于其極高的效率而成為語言翻譯的首選。

盡管循環(huán)神經(jīng)網(wǎng)絡(luò)以前在語言翻譯上比卷積神經(jīng)網(wǎng)絡(luò)表現(xiàn)的更好。但是其設(shè)計(jì)具有固有的局限性，這可以通過它們?cè)趺刺幚硇畔砝斫?。?jì)算機(jī)一句一句地來翻譯一個(gè)文本然后去預(yù)測(cè)另外一種語言具有相同意思的單詞序列。循環(huán)神經(jīng)網(wǎng)絡(luò)以嚴(yán)格的從左到右或者從右到左的來進(jìn)行運(yùn)算，一次處理一個(gè)單詞。這和現(xiàn)在高度并行的GPU硬件有點(diǎn)不符合。由于單詞只能一個(gè)接著一個(gè)進(jìn)行處理，計(jì)算不能完全并行。而卷積神經(jīng)網(wǎng)絡(luò)可以同時(shí)計(jì)算所有的元素，充分利用了GPU的并行性。CNN的另一個(gè)優(yōu)點(diǎn)是它對(duì)信息進(jìn)行分層處理，這讓它可以更容易獲得數(shù)據(jù)之間的復(fù)雜關(guān)系。

雷鋒網(wǎng)獲悉，在先前的研究中，卷積神經(jīng)網(wǎng)絡(luò)在翻譯任務(wù)上的表現(xiàn)要差于循環(huán)神經(jīng)網(wǎng)絡(luò)。然而，由于卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)上的潛力，F(xiàn)AIR開始了研究，發(fā)現(xiàn)所設(shè)計(jì)的翻譯模型顯示了CNN在翻譯方面的優(yōu)異性能。CNN優(yōu)異的計(jì)算性能將有可能會(huì)擴(kuò)展可翻譯的語言，將包括全球的6500種語言。

最快最好的結(jié)果

Facebook團(tuán)隊(duì)的結(jié)果表明，在廣泛應(yīng)用的標(biāo)準(zhǔn)測(cè)試數(shù)據(jù)集（WMT會(huì)議提供）上，其比RNN表現(xiàn)的更好。尤其是卷積神經(jīng)網(wǎng)絡(luò)比先前在WMT發(fā)表的結(jié)果都要好。在英語-法語任務(wù)上提高了1.5 BLEU，在英語-德語任務(wù)上提高了0.5BLEU，在WMT2016的英語-羅馬尼亞語任務(wù)上，提高了1.8BLEU。

對(duì)神經(jīng)機(jī)器學(xué)習(xí)實(shí)際應(yīng)用考慮的一個(gè)方面在于翻譯一個(gè)句子所需要的時(shí)間。 FAIR的卷積神經(jīng)網(wǎng)絡(luò)模型計(jì)算的相當(dāng)快速，比循環(huán)神經(jīng)網(wǎng)絡(luò)快樂整整9倍。許多研究都通過量化權(quán)重或者其他的方法的方法來加速神經(jīng)網(wǎng)絡(luò)，這也同樣可以用于卷積神經(jīng)網(wǎng)絡(luò)。

用多跳注意和門控來獲得更好的翻譯效果

團(tuán)隊(duì)的架構(gòu)一個(gè)重要的部分就是多跳注意。注意力的機(jī)制類似于一個(gè)人在翻譯句子的時(shí)候會(huì)把句子分開翻譯，而不是僅僅看一次句子然后就直接寫下完整的翻譯。所設(shè)計(jì)的網(wǎng)絡(luò)會(huì)重復(fù)地掃描句子來決定它將要翻譯的下一個(gè)單詞。多跳注意是這種機(jī)制的加強(qiáng)版，它讓網(wǎng)絡(luò)更多次地掃描句子來產(chǎn)生更加好的結(jié)果。每一次掃描之間都相互影響。舉一個(gè)例子，第一次掃描會(huì)注意到一個(gè)動(dòng)詞，然后第二次掃描會(huì)注意到相關(guān)聯(lián)的助動(dòng)詞。

在下面這幅圖中，F(xiàn)acebook團(tuán)隊(duì)展示了一個(gè)系統(tǒng)是怎么閱讀一個(gè)法語短語然后再翻譯成英語的。首先，用卷積神經(jīng)網(wǎng)絡(luò)來生成每一個(gè)法語單詞的對(duì)應(yīng)向量，在此同時(shí)進(jìn)行計(jì)算。然后解碼的CNN再生成對(duì)應(yīng)的英語單詞。在每一步，都掃描一下法語單詞來看一下哪些詞語與下一個(gè)要翻譯的英文單詞關(guān)系最為密切。在解碼器中有兩層，下面的動(dòng)畫說明了每一層的注意力機(jī)制是怎么完成的。綠線的強(qiáng)度表現(xiàn)了網(wǎng)絡(luò)對(duì)每一個(gè)法語單詞的注意力。當(dāng)網(wǎng)絡(luò)訓(xùn)練好之后，也就可以進(jìn)行翻譯了，英文單詞的計(jì)算也可以同時(shí)進(jìn)行。

快9倍！Facebook開源機(jī)器學(xué)習(xí)翻譯項(xiàng)目fairseq

系統(tǒng)的另一個(gè)方面是門控，其控制神經(jīng)網(wǎng)絡(luò)里面的信息流。在每個(gè)神經(jīng)網(wǎng)絡(luò)中，信息都流過所謂的隱藏單元。的門控機(jī)制精確的控制了傳向下一個(gè)單元的信息，一個(gè)好的翻譯才因此產(chǎn)生。例如，當(dāng)預(yù)測(cè)下一個(gè)單詞的時(shí)候，網(wǎng)絡(luò)會(huì)把它前面的翻譯部分考慮進(jìn)去。門控允許它在翻譯的一個(gè)特定方向進(jìn)行放大—這一切都取決于網(wǎng)絡(luò)認(rèn)為其在上下文中認(rèn)為合不合適。

以后的發(fā)展

這一種方法是機(jī)器翻譯的一種替代框架，也給其它的文本處理任務(wù)提供了新的思路。例如，多跳機(jī)制在對(duì)話系統(tǒng)中允許網(wǎng)絡(luò)注意對(duì)話的不同部分。例如對(duì)兩個(gè)沒有聯(lián)系的事實(shí)，可以把它們聯(lián)系在一起來更好地回答復(fù)雜的問題。

via code.facebook，雷鋒網(wǎng)編譯

AI科技評(píng)論招業(yè)界記者啦！

在這里，你可以密切關(guān)注海外會(huì)議的大牛演講；可以采訪國(guó)內(nèi)巨頭實(shí)驗(yàn)室的技術(shù)專家；對(duì)人工智能的動(dòng)態(tài)了如指掌；更能深入剖析AI前沿的技術(shù)與未來！

如果你：

＊對(duì)人工智能有一定的興趣或了解

* 求知欲強(qiáng)，具備強(qiáng)大的學(xué)習(xí)能力

* 有AI業(yè)界報(bào)道或者媒體經(jīng)驗(yàn)優(yōu)先

簡(jiǎn)歷投遞：

lizongren@leiphone.com

雷峰網(wǎng)版權(quán)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。