0
本文作者: camel | 2020-02-12 15:15 |
雷鋒網(wǎng)AI科技評論按:DeepMind最近提出一種新的長程記憶模型——Compressive Transformer(壓縮Transformer),這種模型基于Transformer模型做了調(diào)整,通過增添壓縮記憶模塊,有效增加了模型的記憶長度。
而另一方面,為了提升對基于長程記憶的推理問題的研究,DeepMind的研究人員也開發(fā)了一個書籍級別的語言數(shù)據(jù)集PG-19。這個新的基準(zhǔn)是目前已有的長時記憶基準(zhǔn)的兩倍還多,包含的上下文文本是長程語言模型基準(zhǔn)測試WikiText-103的10倍以上。
論文鏈接:https://arxiv.org/pdf/1911.05507.pdf
PG-19開源鏈接:https://github.com/deepmind/pg19
在過去二十年的時間里,人工神經(jīng)網(wǎng)絡(luò)在記憶這一方面有了長足的進(jìn)展。
被稱為長短時記憶(Long Short-Term-Memory,LSTM)的遞歸神經(jīng)網(wǎng)絡(luò)(RNN)是目前最早、應(yīng)用最為廣泛的記憶結(jié)構(gòu)之一。LSTM以數(shù)字向量的形式維護(hù)一個緊湊的內(nèi)存,通過門控讀、寫和遺忘操作來訪問和修改這個內(nèi)存。它最初是在一套綜合任務(wù)上開發(fā)的,包括學(xué)習(xí)一串bit的邏輯操作。不過現(xiàn)在它已經(jīng)被廣泛應(yīng)用在所有的序列數(shù)據(jù)模型當(dāng)中了。
LSTM,以及許多現(xiàn)在所使用的RNNs,存在一個巨大的缺點(diǎn),就是容量問題。最初設(shè)計(jì)這些結(jié)構(gòu)的目的是為了,使每個單元的內(nèi)存都可以影響其他單元,并且具有科學(xué)系的權(quán)重。但這導(dǎo)致系統(tǒng)的計(jì)算效率非常低下,模型中可學(xué)習(xí)參數(shù)的數(shù)量會隨內(nèi)存大小的增加呈平方地增加,例如內(nèi)存64KB的LSTM,會產(chǎn)生8GB的參數(shù)。
如何繞過這一記憶容量瓶頸,成為一個嚴(yán)峻的問題。
DeepMind的研究人員曾提出過一種新的架構(gòu),可微分神經(jīng)計(jì)算機(jī)(DNC),它用更大的內(nèi)存矩陣來擴(kuò)充LSTM,以此來解決這些缺陷。
在我們看東西時,我們的眼睛會聚焦于視覺場景中的相關(guān)物體。例如,你可能會花更多的時間注意朋友的面部表情,而不是注意他們的鞋子。
DNC采用了類似的方法,使用一個「注意力操作」從這個內(nèi)存矩陣中讀取數(shù)據(jù)。
在DNC中,內(nèi)存模型可以處理過去的特定事件/數(shù)據(jù)。這種注意力操作需要固定數(shù)量的參數(shù),而與內(nèi)存大小無關(guān),因此可以顯著提高模型的內(nèi)存容量。
隨著 DNC的開發(fā),帶有附加注意力機(jī)制的遞歸神經(jīng)網(wǎng)絡(luò)在翻譯和問題回答領(lǐng)域顯示出了巨大的潛力。這些模型能夠使用兩種內(nèi)存結(jié)構(gòu)進(jìn)行推理,一種是小型且緊湊的LSTM內(nèi)存,一種是大型的外部內(nèi)存。
不過,最近谷歌Google Brain 的研究人員提出了一種Transformer模型,它可以去除掉 LSTM,只利用注意力來傳輸信息。
Transformer 最初是應(yīng)用在機(jī)器翻譯任務(wù)上,性能明顯優(yōu)于遞歸神經(jīng)網(wǎng)絡(luò)。
隨后Transformer被廣泛應(yīng)用到NLP的的其他任務(wù)當(dāng)中,例如問答、文本摘要、情感分析等。過去一年,因?yàn)門ransformer,這些方面取得了巨大的進(jìn)步。
但這些模型仍然存在一個缺點(diǎn),即它們會把所有的信息都存儲起來,這樣在每一個時間步上所消耗的計(jì)算成本和存儲成本都非常大。
我們的大腦顯然不是這樣做的,我們不會像攝像機(jī)那樣,把我們一生當(dāng)中接收到的所有信息存儲起來。而是會根據(jù)相關(guān)性、驚喜度、危險性、重復(fù)次數(shù)等因素來選擇、過濾、整合所有的輸入刺激。換句話說,我們會把一生的經(jīng)歷壓縮成一組亮點(diǎn)記憶,幫助我們來理解過去,以及更好地預(yù)測未來。
這就是如何壓縮的問題。
之前有一些工作通過稀疏訪問機(jī)制來嘗試壓縮注意力中的計(jì)算消耗。但稀疏注意力方法并不能解決存儲問題,而且通常需要定制的稀疏核才能有效地實(shí)現(xiàn)。
據(jù)雷鋒網(wǎng)AI科技評論了解,DeepMind為此提出了 Compressive Transformer模型(壓縮 Transformer)。
簡單來說,這是Transformer的一個簡單變種,將過去隱藏激活(past hidden activations ,記憶)映射到一個更小的壓縮表示集(壓縮記憶)中。在記憶和壓縮記憶上,壓縮Transformer會使用相同的注意力機(jī)制,來學(xué)習(xí)查詢它的短期顆粒記憶和長期粗記憶。
壓縮Transformer保持對過去激活的細(xì)粒度記憶,然后將其壓縮為更粗的壓縮記憶。上面的模型有三層,一個序列長度ns = 3,記憶大小nm = 6,壓縮記憶大小ncm = 6。高亮顯示的記憶被壓縮,每層使用壓縮函數(shù)fc將其壓縮到單個壓縮記憶中,而不是在下一個序列中丟棄。在本例中,壓縮率c = 3。
據(jù)作者 Jack Rae介紹,這個模型的靈感來源是,睡眠能夠鞏固我們的情景記憶。眾所周知,睡眠有助于記憶,原因是人們在睡覺過程中能夠?qū)⑿褧r的記憶進(jìn)行壓縮和鞏固,從而提高記憶力。
我們知道谷歌提出的TransformerXL模型,為了進(jìn)行長時推理,會對過去激活記憶進(jìn)行保持。但是當(dāng)過去激活足夠“老”(由內(nèi)存大小決定)時,TranformerXL就會將這些記憶給丟棄掉。
與之不同的是壓縮Transformer并不將它們丟棄,而是通過一個壓縮函數(shù)進(jìn)行壓縮,并存儲在一個額外的壓縮記憶(壓縮內(nèi)存)中。這個壓縮函數(shù)能夠?qū)W習(xí)并過濾掉不相關(guān)的記憶,使一些較為重要的信息保留更長一段時間。這種方式,相比于TransformerXL模型,顯然能夠保留更長時間的記憶,對長時推理任務(wù)將大有裨益。
據(jù)作者介紹,這個模型具有較大的普適性,不僅可以用于語言序列,還能夠用于建模高頻語音波形,也可以充當(dāng)增強(qiáng)學(xué)習(xí)agent、IMPALA等的記憶組件(顯然可以壓縮和利用過去的觀察加過)。
為了進(jìn)一步驗(yàn)證壓縮Transformer在長時推理方面的強(qiáng)大功能,作者基于從古騰堡計(jì)劃的文本,提出了一個新的書籍級語言建?;鶞?zhǔn)PG-19,來進(jìn)一步促進(jìn)長上下文序列建模(long-context sequence modelling)的研究。值得一提的是,這個新的基準(zhǔn)是目前已有的長時記憶基準(zhǔn)的兩倍還多,包含的上下文文本是長程語言模型基準(zhǔn)測試WikiText-103的10倍以上。
書籍為長期記憶模型的發(fā)展提供了豐富的背景。作者從大約28,000本古騰堡計(jì)劃中1919年以前(也即100年前,避免版權(quán)問題)出版的書中選擇了一個子集。與以前的語言建模數(shù)據(jù)集不同,作者很少對文本應(yīng)用預(yù)處理。舉例來說,他們不會限制數(shù)據(jù)的詞匯量或?qū)彶閿?shù)字,以避免過濾有用的信息。
數(shù)據(jù)集包含了28752本書,共約 11GB。
其中,28602本用作訓(xùn)練集,50本作為有效集,100本作為測試集:
DeepMind隨后將壓縮Transformer與TransformerXL在最新的PG-19書籍?dāng)?shù)據(jù)集上進(jìn)行了基準(zhǔn)測試,具體設(shè)置可以參看論文原文。結(jié)果如下圖所示:
可以看到,壓縮Transformer的測試?yán)Щ蠖葹?3.6,TransformerXL的為36.3。盡管數(shù)據(jù)集很大,但顯然這仍然是一個具有挑戰(zhàn)性的領(lǐng)域,而這個測試結(jié)果可以作為這個長程語言建模基準(zhǔn)的第一個基線。
如果想要創(chuàng)建一個操作時間超過幾天、幾周甚至幾年的agent,在每個步驟中對所有原始輸入數(shù)據(jù)都進(jìn)行計(jì)算顯然是不切實(shí)際的。
即使在當(dāng)前計(jì)算能力持續(xù)增長的情況下,我們?nèi)匀恍枰_發(fā)壓縮和稀疏的記憶架構(gòu)來構(gòu)建操作的表示和推理。
可以期待的是,能夠捕捉到以日、月、年為單位的相關(guān)性的模型,即將問世。而這需要我們有相應(yīng)的任務(wù)和數(shù)據(jù)集來評判長時任務(wù)。PG-19顯然是朝向這個方向邁進(jìn)的一步,因?yàn)椤敢徽緯挂呀?jīng)是人類通常使用的最長文本形式。
而選擇性注意力,和其他更有效的壓縮機(jī)制,顯然也將極大地促進(jìn)更加強(qiáng)大的推理研究。
雷鋒網(wǎng)報(bào)道。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。