丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
人工智能 正文
發(fā)私信給高云河
發(fā)送

0

Google Brain提出基于固定尺寸記憶表示的注意力模型,翻譯任務推理速度提高20%

本文作者: 高云河 2017-07-10 10:45
導語:Google Brain團隊提出基于固定尺寸記憶表示的高效注意力模型,將翻譯任務的推理速度提高20%。

Attention模型是近些年來自然語言處理領域重要的進展之一。注意力模型是從認知心理學中人腦注意力模型中引入的概念,在人觀察世界時,對不同對象的關注程度是不同的,比如你在看書仔細品味文章中的一句話時,雖然你能看到整頁的文字,但是注意力的焦點集中在這個句子上,其他文字雖然還在你的眼中,但是實際分配到的注意力是很少的。自然語言處理中也是同理,輸入文本的不同部分對輸出的貢獻是不同的,即需要分配的注意力權重不同。使用注意力模型能夠得到更好的生成結果。

由于標準的基于內(nèi)容的attention機制主要應用在sequence-to-sequence模型中,由于該方法需要在每個時間狀態(tài)下大量比較編碼器和解碼器的狀態(tài),因此需要大量計算資源。Google Brain的研究者Denny Britz, Melody Y. Guan和Minh-Thang Luong提出了固定尺寸記憶表示的高效注意力模型,能夠?qū)⒎g任務推理速度提高20%。

以下為雷鋒網(wǎng)(公眾號:雷鋒網(wǎng))AI科技評論據(jù)論文內(nèi)容進行的部分編譯。

論文摘要:

Sequence-to-sequence模型在許多任務得到了最好的效果,例如神經(jīng)機器翻譯(Neural Machine Translation,NMT),文本概括(text summarization),語音識別,圖像配字幕,以及對話建模等。

最流行的attention方法基于編碼器-解碼器架構,包含兩個循環(huán)神經(jīng)網(wǎng)絡和attention機制使得目標與源符號對齊。在這種結構中使用的典型attention機制計算在每個解碼步驟中基于解碼器當前的狀態(tài)計算新的attention上下文。更直觀的說法是,這對應于每個單個目標符號輸出之后查看源序列。

受人類是如何處理句子的啟發(fā),研究者認為在每個步驟中可能沒有必要回顧整個原始源序列。因此,研究者提出了一種替代attention機制,可以使得計算時間復雜度的降低。該方法在讀取源數(shù)據(jù)時,預測K attention上下文向量。并學習在每個解碼步驟中使用這些向量的加權平均值。因此,一旦編碼了源序列,就避免回頭看。結果顯示,這可以加速推理。同時,在玩具數(shù)據(jù)集和WMT翻譯數(shù)據(jù)集上,該方法達到了與標準attention機制相若的性能。結果還顯示,隨著序列變長,該機制能夠?qū)崿F(xiàn)更多的加速。最后,通過可視化attention分數(shù),研究人員驗證了該技術能夠?qū)W習有意義的對比,并且不同的attention上下文向量專注于源的不同部分。

 Google Brain提出基于固定尺寸記憶表示的注意力模型,翻譯任務推理速度提高20%

上圖為該方法與標準注意力模型的結構對比。在編碼階段預測K個attention向量,在解碼階段線性組合這些預測。在上圖中K=3??梢詫⒒谟洃浀淖⒁饬δP徒忉尀椤邦A測”編碼期間由標準attention機制產(chǎn)生的一組注意上下文。如上圖,K=3,在這種情況下,在編碼階段預測所有3種attention上下文,并在解碼過程中學習選擇合適的attention上下文,進行線性組合。這中方法比基于解碼器編碼內(nèi)同的諸葛計算上下文更加節(jié)省計算量。

實驗結果

玩具數(shù)據(jù)集結果:

由于計算時間復雜度的下降,該方法能夠得到更高的性能表現(xiàn),尤其是對于那些較長的序列,或者那些能夠被緊湊表示為一個固定尺寸記憶矩陣的任務。為了研究速度和性能之間的權衡,研究者比較了該方法和標準模型在具有和不具有attention的情況下在Sequence Copy Task上的表現(xiàn)。

下表展示了該模型在不同序列長度和K的情況下的BLEU分數(shù)。較大的K可以計算復雜的源表示,值為1的K限制了源表示為單個向量。可以看到,性能一直隨著K的增加而增加,這取決于數(shù)據(jù)長度,更長的序列需要更復雜的表示。無論是否具有位置編碼,結果在玩具數(shù)據(jù)集上幾乎相同。盡管表示能力較低,但該方法仍與標準attention機制模型一樣能夠擬合數(shù)據(jù)。兩者都以顯著的差距擊敗non-attention基線。最后一列表明了該方法能夠極大的加速推理過程,隨著序列長度變長,推理速度的差距越來越大。

Google Brain提出基于固定尺寸記憶表示的注意力模型,翻譯任務推理速度提高20%

下圖左側展示了序列長度為200的學習曲線??梢钥吹終=1不能擬合數(shù)據(jù)分布,而K∈{32,64}幾乎與基于attention的模型一樣快。越大的K能夠?qū)е赂斓氖諗克俣?,較小的K的性能與non-attention基線相似。右圖展示了在softmax和sigmoid之間改變編碼器和解碼器評分函數(shù)的效果。所有組合都可以擬合數(shù)據(jù),但有些收斂速度比其他更快。

Google Brain提出基于固定尺寸記憶表示的注意力模型,翻譯任務推理速度提高20%

機器翻譯數(shù)據(jù)集結果:

接下來,研究者測試了基于記憶的attention方法能否擬合復雜的真實數(shù)據(jù)集。研究人員使用了WMT’15的4個大型機器翻譯數(shù)據(jù)集:English-Czech, EnglishGerman, English-Finish, 和English-Turkish。

Google Brain提出基于固定尺寸記憶表示的注意力模型,翻譯任務推理速度提高20%

上表展示了該模型即使在擁有16K詞匯的大型復雜數(shù)據(jù)集上仍有更快的解碼速度。該時間實在整個驗證集上測量的解碼時間,沒有包括模型設置和數(shù)據(jù)讀取的時間,為運行10次的平均時間。數(shù)據(jù)中平均序列長度為35,對于其他有更長序列長度的任務,該方法應該會有更顯著的速度提升。

Google Brain提出基于固定尺寸記憶表示的注意力模型,翻譯任務推理速度提高20%

                 左:en-fi的訓練曲線                                                       右:en-tr的訓練曲線

Google Brain提出基于固定尺寸記憶表示的注意力模型,翻譯任務推理速度提高20%

上圖展示了在編碼器和解碼器中使用sigmoid和softmax函數(shù)的效果。Softmax/softmax的性能表現(xiàn)最差,其他的組合表現(xiàn)幾乎相當。

可視化Attention:

Google Brain提出基于固定尺寸記憶表示的注意力模型,翻譯任務推理速度提高20%

上圖為在序列長度為100的玩具數(shù)據(jù)集中對每個樣本進行解碼的每個步驟中的attention分數(shù)。(y軸:源符號; x軸:目標符號)

Google Brain提出基于固定尺寸記憶表示的注意力模型,翻譯任務推理速度提高20%

上圖為在序列長度為11的樣本上的K=4的解碼的每個步驟的attention分數(shù),(y軸:源; x軸:目標)

Google Brain提出基于固定尺寸記憶表示的注意力模型,翻譯任務推理速度提高20%

上圖為在使用sigmoid評分函數(shù)和K=32的模型下,對每個步驟進行解碼的en-de WMT翻譯任務的attention分數(shù)。左側子圖分別顯示每個單獨的attention向量,右側子圖顯示attention的完整組合。

想要深入了解該方法的請閱讀原論文:https://arxiv.org/abs/1707.00110,雷鋒網(wǎng)編譯

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

Google Brain提出基于固定尺寸記憶表示的注意力模型,翻譯任務推理速度提高20%

分享:
相關文章
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說