0
Facebook的使命是讓世界變得更加開放,讓每個人都能以最高的準確性和最快的速度使用自己喜歡的語言來發(fā)帖子和視頻進行互動,語言翻譯對此十分重要。
雷鋒網(wǎng)了解到,今天,F(xiàn)acebook的人工智能研究團隊發(fā)表了他們的研究成果Fairseq,他們使用了一種新型的卷積神經(jīng)網(wǎng)絡(luò)來做語言翻譯,比循環(huán)神經(jīng)網(wǎng)絡(luò)的速度快了9倍,而且準確性也是現(xiàn)有模型中最高的。此外,F(xiàn)AIR序列建模工具包的源代碼和訓練好的系統(tǒng)都已經(jīng)在開源平臺GitHub上公布,其他的研究者可以在此基礎(chǔ)上建立自己的關(guān)于翻譯、文本總結(jié)和其他任務(wù)的模型。
卷積神經(jīng)網(wǎng)絡(luò)在數(shù)十年前由Yann Lecun 提出,已經(jīng)在諸如圖像處理之類的領(lǐng)域取得了成功。 循環(huán)神經(jīng)網(wǎng)絡(luò)卻是文本領(lǐng)域的現(xiàn)有技術(shù),并且由于其極高的效率而成為語言翻譯的首選。
盡管循環(huán)神經(jīng)網(wǎng)絡(luò)以前在語言翻譯上比卷積神經(jīng)網(wǎng)絡(luò)表現(xiàn)的更好。但是其設(shè)計具有固有的局限性,這可以通過它們怎么處理信息來理解。計算機一句一句地來翻譯一個文本然后去預(yù)測另外一種語言具有相同意思的單詞序列。循環(huán)神經(jīng)網(wǎng)絡(luò)以嚴格的從左到右或者從右到左的來進行運算,一次處理一個單詞。這和現(xiàn)在高度并行的GPU硬件有點不符合。由于單詞只能一個接著一個進行處理,計算不能完全并行。而卷積神經(jīng)網(wǎng)絡(luò)可以同時計算所有的元素,充分利用了GPU的并行性。CNN的另一個優(yōu)點是它對信息進行分層處理,這讓它可以更容易獲得數(shù)據(jù)之間的復雜關(guān)系。
雷鋒網(wǎng)獲悉,在先前的研究中,卷積神經(jīng)網(wǎng)絡(luò)在翻譯任務(wù)上的表現(xiàn)要差于循環(huán)神經(jīng)網(wǎng)絡(luò)。然而,由于卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)上的潛力,F(xiàn)AIR開始了研究,發(fā)現(xiàn)所設(shè)計的翻譯模型顯示了CNN在翻譯方面的優(yōu)異性能。CNN優(yōu)異的計算性能將有可能會擴展可翻譯的語言,將包括全球的6500種語言。
Facebook團隊的結(jié)果表明,在廣泛應(yīng)用的標準測試數(shù)據(jù)集(WMT會議提供)上,其比RNN表現(xiàn)的更好。尤其是卷積神經(jīng)網(wǎng)絡(luò)比先前在WMT發(fā)表的結(jié)果都要好。在英語-法語任務(wù)上提高了1.5 BLEU,在英語-德語任務(wù)上提高了0.5BLEU,在WMT2016的英語-羅馬尼亞語任務(wù)上,提高了1.8BLEU。
對神經(jīng)機器學習實際應(yīng)用考慮的一個方面在于翻譯一個句子所需要的時間。 FAIR的卷積神經(jīng)網(wǎng)絡(luò)模型計算的相當快速,比循環(huán)神經(jīng)網(wǎng)絡(luò)快樂整整9倍。許多研究都通過量化權(quán)重或者其他的方法的方法來加速神經(jīng)網(wǎng)絡(luò),這也同樣可以用于卷積神經(jīng)網(wǎng)絡(luò)。
團隊的架構(gòu)一個重要的部分就是多跳注意。注意力的機制類似于一個人在翻譯句子的時候會把句子分開翻譯,而不是僅僅看一次句子然后就直接寫下完整的翻譯。所設(shè)計的網(wǎng)絡(luò)會重復地掃描句子來決定它將要翻譯的下一個單詞。多跳注意是這種機制的加強版,它讓網(wǎng)絡(luò)更多次地掃描句子來產(chǎn)生更加好的結(jié)果。每一次掃描之間都相互影響。舉一個例子,第一次掃描會注意到一個動詞,然后第二次掃描會注意到相關(guān)聯(lián)的助動詞。
在下面這幅圖中,F(xiàn)acebook團隊展示了一個系統(tǒng)是怎么閱讀一個法語短語然后再翻譯成英語的。首先,用卷積神經(jīng)網(wǎng)絡(luò)來生成每一個法語單詞的對應(yīng)向量,在此同時進行計算。然后解碼的CNN再生成對應(yīng)的英語單詞。在每一步,都掃描一下法語單詞來看一下哪些詞語與下一個要翻譯的英文單詞關(guān)系最為密切。在解碼器中有兩層,下面的動畫說明了每一層的注意力機制是怎么完成的。綠線的強度表現(xiàn)了網(wǎng)絡(luò)對每一個法語單詞的注意力。當網(wǎng)絡(luò)訓練好之后,也就可以進行翻譯了,英文單詞的計算也可以同時進行。
系統(tǒng)的另一個方面是門控,其控制神經(jīng)網(wǎng)絡(luò)里面的信息流。在每個神經(jīng)網(wǎng)絡(luò)中,信息都流過所謂的隱藏單元。的門控機制精確的控制了傳向下一個單元的信息,一個好的翻譯才因此產(chǎn)生。例如,當預(yù)測下一個單詞的時候,網(wǎng)絡(luò)會把它前面的翻譯部分考慮進去。門控允許它在翻譯的一個特定方向進行放大—這一切都取決于網(wǎng)絡(luò)認為其在上下文中認為合不合適。
這一種方法是機器翻譯的一種替代框架,也給其它的文本處理任務(wù)提供了新的思路。例如,多跳機制在對話系統(tǒng)中允許網(wǎng)絡(luò)注意對話的不同部分。例如對兩個沒有聯(lián)系的事實,可以把它們聯(lián)系在一起來更好地回答復雜的問題。
via code.facebook,雷鋒網(wǎng)編譯
AI科技評論招業(yè)界記者啦!
在這里,你可以密切關(guān)注海外會議的大牛演講;可以采訪國內(nèi)巨頭實驗室的技術(shù)專家;對人工智能的動態(tài)了如指掌;更能深入剖析AI前沿的技術(shù)與未來!
如果你:
*對人工智能有一定的興趣或了解
* 求知欲強,具備強大的學習能力
* 有AI業(yè)界報道或者媒體經(jīng)驗優(yōu)先
簡歷投遞:
lizongren@leiphone.com
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。