受啟于做夢，DeepMind 提出壓縮 Transformer，并開源書本級數(shù)據(jù)集PG-19

本文作者： camel

2020-02-12 15:15

導(dǎo)語：長時記憶，值得研究~

受啟于做夢，DeepMind 提出壓縮 Transformer，并開源書本級數(shù)據(jù)集PG-19 雷鋒網(wǎng)AI科技評論按：DeepMind最近提出一種新的長程記憶模型——Compressive Transformer（壓縮Transformer），這種模型基于Transformer模型做了調(diào)整，通過增添壓縮記憶模塊，有效增加了模型的記憶長度。

而另一方面，為了提升對基于長程記憶的推理問題的研究，DeepMind的研究人員也開發(fā)了一個書籍級別的語言數(shù)據(jù)集PG-19。這個新的基準(zhǔn)是目前已有的長時記憶基準(zhǔn)的兩倍還多，包含的上下文文本是長程語言模型基準(zhǔn)測試WikiText-103的10倍以上。

論文鏈接：https://arxiv.org/pdf/1911.05507.pdf

PG-19開源鏈接：https://github.com/deepmind/pg19

在過去二十年的時間里，人工神經(jīng)網(wǎng)絡(luò)在記憶這一方面有了長足的進(jìn)展。

被稱為長短時記憶（Long Short-Term-Memory，LSTM）的遞歸神經(jīng)網(wǎng)絡(luò)（RNN）是目前最早、應(yīng)用最為廣泛的記憶結(jié)構(gòu)之一。LSTM以數(shù)字向量的形式維護(hù)一個緊湊的內(nèi)存，通過門控讀、寫和遺忘操作來訪問和修改這個內(nèi)存。它最初是在一套綜合任務(wù)上開發(fā)的，包括學(xué)習(xí)一串bit的邏輯操作。不過現(xiàn)在它已經(jīng)被廣泛應(yīng)用在所有的序列數(shù)據(jù)模型當(dāng)中了。

LSTM，以及許多現(xiàn)在所使用的RNNs，存在一個巨大的缺點(diǎn)，就是容量問題。最初設(shè)計(jì)這些結(jié)構(gòu)的目的是為了，使每個單元的內(nèi)存都可以影響其他單元，并且具有科學(xué)系的權(quán)重。但這導(dǎo)致系統(tǒng)的計(jì)算效率非常低下，模型中可學(xué)習(xí)參數(shù)的數(shù)量會隨內(nèi)存大小的增加呈平方地增加，例如內(nèi)存64KB的LSTM，會產(chǎn)生8GB的參數(shù)。

如何繞過這一記憶容量瓶頸，成為一個嚴(yán)峻的問題。

DeepMind的研究人員曾提出過一種新的架構(gòu)，可微分神經(jīng)計(jì)算機(jī)(DNC)，它用更大的內(nèi)存矩陣來擴(kuò)充LSTM，以此來解決這些缺陷。

在我們看東西時，我們的眼睛會聚焦于視覺場景中的相關(guān)物體。例如，你可能會花更多的時間注意朋友的面部表情，而不是注意他們的鞋子。

DNC采用了類似的方法，使用一個「注意力操作」從這個內(nèi)存矩陣中讀取數(shù)據(jù)。

在DNC中，內(nèi)存模型可以處理過去的特定事件/數(shù)據(jù)。這種注意力操作需要固定數(shù)量的參數(shù)，而與內(nèi)存大小無關(guān)，因此可以顯著提高模型的內(nèi)存容量。

隨著 DNC的開發(fā)，帶有附加注意力機(jī)制的遞歸神經(jīng)網(wǎng)絡(luò)在翻譯和問題回答領(lǐng)域顯示出了巨大的潛力。這些模型能夠使用兩種內(nèi)存結(jié)構(gòu)進(jìn)行推理，一種是小型且緊湊的LSTM內(nèi)存，一種是大型的外部內(nèi)存。

不過，最近谷歌Google Brain 的研究人員提出了一種Transformer模型，它可以去除掉 LSTM，只利用注意力來傳輸信息。

Transformer 最初是應(yīng)用在機(jī)器翻譯任務(wù)上，性能明顯優(yōu)于遞歸神經(jīng)網(wǎng)絡(luò)。

隨后Transformer被廣泛應(yīng)用到NLP的的其他任務(wù)當(dāng)中，例如問答、文本摘要、情感分析等。過去一年，因?yàn)門ransformer，這些方面取得了巨大的進(jìn)步。

但這些模型仍然存在一個缺點(diǎn)，即它們會把所有的信息都存儲起來，這樣在每一個時間步上所消耗的計(jì)算成本和存儲成本都非常大。

我們的大腦顯然不是這樣做的，我們不會像攝像機(jī)那樣，把我們一生當(dāng)中接收到的所有信息存儲起來。而是會根據(jù)相關(guān)性、驚喜度、危險性、重復(fù)次數(shù)等因素來選擇、過濾、整合所有的輸入刺激。換句話說，我們會把一生的經(jīng)歷壓縮成一組亮點(diǎn)記憶，幫助我們來理解過去，以及更好地預(yù)測未來。

這就是如何壓縮的問題。

之前有一些工作通過稀疏訪問機(jī)制來嘗試壓縮注意力中的計(jì)算消耗。但稀疏注意力方法并不能解決存儲問題，而且通常需要定制的稀疏核才能有效地實(shí)現(xiàn)。

1、壓縮Transformer

據(jù)雷鋒網(wǎng)AI科技評論了解，DeepMind為此提出了 Compressive Transformer模型（壓縮 Transformer）。

簡單來說，這是Transformer的一個簡單變種，將過去隱藏激活（past hidden activations ，記憶）映射到一個更小的壓縮表示集（壓縮記憶）中。在記憶和壓縮記憶上，壓縮Transformer會使用相同的注意力機(jī)制，來學(xué)習(xí)查詢它的短期顆粒記憶和長期粗記憶。