0
本文作者: sunshine_lady | 編輯:郭奕欣 | 2017-12-25 10:46 | 專題:AAAI 2018 |
雷鋒網(wǎng) AI 科技評論消息,近日,百度機器翻譯團隊在 arxiv.org 上發(fā)布了最新研究成果「Multi-channel Encoder for Neural Machine Translation」,這一論文已被 AAAI 2018 錄用。
論文鏈接:https://arxiv.org/abs/1712.02109
以下內(nèi)容是雷鋒網(wǎng) AI 科技評論根據(jù)論文內(nèi)容進行的部分編譯。
摘要:文章提出一種多通道的基于注意力機制(Attention-based)的編碼器(MCE,Multi-channel Encoder)。MCE 在基于 RNN 編碼器中加入了隱層狀態(tài),使得其具有兩大優(yōu)勢:1)改善了原編碼過程中在字嵌入(Word embedding)時合成處理的效果;2)針對更加復(fù)雜的合成場景,對神經(jīng)圖靈機(NTM,Neural Turing Machine)的外存使用做了特別的優(yōu)化設(shè)計。在中英翻譯方面,相較開源的 DL4MT 系統(tǒng)有 6.25 BLEU 的提升;在 WMT14 英法翻譯數(shù)據(jù)集上 BLEU=38.8,領(lǐng)先于目前最新算法。
目前,很多研究工作者提出了許多基于注意力的神經(jīng)翻譯系統(tǒng)(NMT,Neural Machine Translation)的改進方法,其中效果最優(yōu)的是基于注意力架構(gòu)的編解碼系統(tǒng)。圖 1. 提供了基于注意力 NMT 模型的結(jié)構(gòu)原理,共包括三個部分:編碼、解碼層,及中間級聯(lián)的引入注意力機制的結(jié)構(gòu)。
圖 1. 基于注意力的 NMT 模型。左側(cè)是基于卷積的 NMT,右側(cè)是文章提出的多通道 NMT。
NMT 系統(tǒng)首先將所有完成分割的符號轉(zhuǎn)換到一個序列中,即:字嵌入過程(Word Embedding)。在這一過程中,每個字符都要進行單獨處理,最后生成字嵌入后的原序列。圖中在字嵌入層的上方,NMT 使用雙向循環(huán)神經(jīng)網(wǎng)絡(luò)(biRNN) 經(jīng)訓(xùn)練得到整個原序列的表示。在編碼層與解碼層之間,加入注意力機制融合輸入序列的全部的時間步(time step),并將注意力放到解碼層的當前時間步上。在生成目標詞的過程中,控制器會整合:上一生成詞、當前隱層狀態(tài)、由注意力機制計算出的上下文信息這三項,從而確定最終的目標詞。
RNN 編碼層對基于注意力模型的 NMT 而言是十分重要的,然而傳統(tǒng) RNN 實現(xiàn)多層信息整合是存在一定困難的,而機器翻譯越來越需要這種網(wǎng)絡(luò)結(jié)構(gòu)。因此,這篇文章提出了多通道的注意力機制編碼器,其網(wǎng)絡(luò)如圖 1. 右側(cè)所示。該結(jié)構(gòu)增加了一個外部存儲輔助 RNN 完成更為復(fù)雜的整合學(xué)習(xí)。此外,RNN 的隱層狀態(tài)與字嵌入序列共同為編解碼層之間的注意力機制生成門控注釋。從另一個角度考慮,將字嵌入序列整合輸入到注意力機制模型中也可以看作建立了一條短路連接,可以減輕退化問題(He. 等于 2016 年證明,見引文 [1])。這種短路連接在增強網(wǎng)絡(luò)功能的同時沒有引入任何額外參數(shù)而且沒有引起及計算復(fù)雜的提升。
圖 2. 多通道注意力機制編碼器中,內(nèi)存讀寫示意圖。
圖 2. 中闡述了神經(jīng)翻譯系統(tǒng)的編碼層內(nèi)存讀寫的詳細規(guī)則。在每一時間步內(nèi),RNN 內(nèi)狀態(tài)節(jié)點在內(nèi)存查詢上下文信息,內(nèi)存按照基于注意力機制存儲。這一設(shè)計中,使用前一狀態(tài)節(jié)點查詢并獲取上下文信息作為門控循環(huán)單元(GRU, gated recurrent unit)的輸入狀態(tài),以此取代直接將前一狀態(tài)反饋給 GRU。這一操作保證了控制器在生成當前狀態(tài)前可以獲取更多的上下文信息,可以潛在地幫助 GRU 做出判斷。在設(shè)計讀取內(nèi)存操作的同時,系統(tǒng)中也設(shè)計了寫操作。這一設(shè)計的目的,據(jù)該文百度團隊研究工作在描述,是希望 RNN 和 NTM 能夠?qū)W習(xí)不同類型的關(guān)聯(lián)分別通過不同的更新策略。
表 1. 表示漢譯英翻譯任務(wù)的表現(xiàn)情況。該數(shù)據(jù)在開源系統(tǒng) DL4MT 下測試以確保其魯棒性。首先,與 DL4MT 系統(tǒng)相比,文章提出的多通道基于注意力機制的神經(jīng)網(wǎng)絡(luò)翻譯系統(tǒng)有較大提升:與 DL4MT 相比,文中提出的方法在 BLUE 指標上有 4.94 點的提升??紤]到文中的 RNN 系統(tǒng)是一種基礎(chǔ)的基于注意力機制的應(yīng)用,這一設(shè)計可以與目前最新近的技術(shù)相結(jié)合,比如結(jié)合均勻初始化所有參數(shù)、給嵌入式矢量增加偏差、將前向 RNN 的輸出作為后向 RNN 的輸入并且加入動態(tài)學(xué)習(xí)率來訓(xùn)練等,以發(fā)揮更大的效果。
表 1. 不同系統(tǒng)對 NIST 漢譯英翻譯任務(wù)的表現(xiàn)情況。與目前較強的開源系統(tǒng) DL4MT 相比, 文章提出的模型有較大改進。T2T 和 ConvS2S 是另外兩個新出版的開源工具箱,也作為對比試驗。值得注意的是,T2T 和 ConvS2S 都是多層深度模型,而文中方法能夠達到與之相近的效果。
表二為英譯法表現(xiàn)情況,并將文中提出的 NMT 系統(tǒng)與各種各樣的系統(tǒng)進行對比,如深度 RNN 模型、深度 CNN 模型及基于注意力的深度模型。為了實驗的公平性,表2列舉了這些方法所在文獻的結(jié)果。在英譯法任務(wù)中,文中設(shè)計的方法在 目前最新的機器翻譯系統(tǒng)中,表現(xiàn)很有競爭力,甚至可與深度模型達到相近的效果。此外,與其他 RNN 模型相比,該系統(tǒng)非常具有競爭力,盡管是一種淺層模型。
表 2. 文章方法的英譯法 BLEU 分數(shù)。最下面一欄中 RNN 是文中的基本模型,MCE 是結(jié)合了三種編碼組件:嵌入字,RNN 隱層狀態(tài),以及 NTM 外存。
今年的 AAAI 2018 將于 2 月 2 日 - 2 月 7 日 在美國新奧爾良舉行,雷鋒網(wǎng) AI 科技評論也將到現(xiàn)場進行一線報道。如果你也有論文被 AAAI 錄用 ,歡迎在后臺留下你的聯(lián)系方式,我們將與您聯(lián)系,并進行更多交流!
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。
本專題其他文章