從NLP終生學(xué)習(xí)開始，談?wù)勆疃葘W(xué)習(xí)中記憶結(jié)構(gòu)的設(shè)計(jì)和使用

本文作者：楊曉凡

2019-09-11 17:23

導(dǎo)語：吃一塹，長(zhǎng)一智

雷鋒網(wǎng) AI 科技評(píng)論按：終生學(xué)習(xí)，簡(jiǎn)單說是讓模型有能力持續(xù)地學(xué)習(xí)新的信息，但更重要的是讓模型學(xué)習(xí)新信息的同時(shí)還不要完全忘記以往學(xué)習(xí)過的內(nèi)容（避免「災(zāi)難性遺忘」），是深度學(xué)習(xí)的長(zhǎng)期發(fā)展和大規(guī)模應(yīng)用中必不可少的一項(xiàng)模型能力。

近期，「NLP 網(wǎng)紅」Sebastian Ruder 小哥把終生學(xué)習(xí)能力融入了語言模型中，方法是加入一個(gè)片段式記憶存儲(chǔ)模塊。實(shí)際上類似的做法也并不是第一次得到應(yīng)用了，雷鋒網(wǎng) AI 科技評(píng)論一并介紹幾篇相關(guān)論文。

Episodic Memory in Lifelong Language Learning

終生語言學(xué)習(xí)中片段式記憶的作用

論文地址：https://arxiv.org/abs/1906.01076

內(nèi)容簡(jiǎn)介：首先我們把「終生語言學(xué)習(xí)」（lifelong language learning）任務(wù)定義為：模型需要從連續(xù)的文本樣本流中學(xué)習(xí)，其中不會(huì)指明數(shù)據(jù)集的邊界。作者們提出了一個(gè)用片段式記憶存儲(chǔ)結(jié)構(gòu)增強(qiáng)語言模型的方式，模型中的存儲(chǔ)可以進(jìn)行稀疏經(jīng)驗(yàn)重放，也可以進(jìn)行局部適應(yīng)，以減緩這種任務(wù)中的災(zāi)難性遺忘現(xiàn)象。另外，作者們也表明，這個(gè)記憶存儲(chǔ)結(jié)構(gòu)的空間復(fù)雜度可以進(jìn)行大幅簡(jiǎn)化（可以降低 50% 到 90%），只需要隨機(jī)選擇把哪些樣本存儲(chǔ)在記憶中，這種做法對(duì)性能的影響非常小。作者們認(rèn)為片段式記憶存儲(chǔ)部件是通用語言智能模型中不可或缺的重要組件。

通過記憶能力增強(qiáng)模型表現(xiàn)其實(shí)并不是新鮮事，「經(jīng)驗(yàn)重放（experience replay）」的思路最早可以追溯到 1990 年代的強(qiáng)化學(xué)習(xí)機(jī)器人控制論文《Programming Robots Using Reinforcement Learning and Teaching》（https://www.aaai.org/Papers/AAAI/1991/AAAI91-122.pdf ）以及《Self-Improving Reactive Agents Based On Reinforcement Learning, Planning and Teaching》（http://www.incompleteideas.net/lin-92.pdf ），論文中用教學(xué)的方式讓機(jī)器人學(xué)會(huì)新的技能，那么記憶能力就與教學(xué)過程相配合，記錄已經(jīng)學(xué)會(huì)的技能。

下面我們?cè)俳榻B幾個(gè)新一些的成果

Human Level Control Through Deep Reinforcement Learning

通過深度強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)人類級(jí)別的控制

論文地址：https://storage.googleapis.com/deepmind-media/dqn/DQNNaturePaper.pdf

論文亮點(diǎn)：DeepMind 發(fā)表在《Nature》的鼎鼎大名的 DQN 論文中也使用了經(jīng)驗(yàn)重放。在強(qiáng)化學(xué)習(xí)的設(shè)定中，智能體通過與環(huán)境交互獲得數(shù)據(jù)（相當(dāng)于監(jiān)督學(xué)習(xí)中的標(biāo)注數(shù)據(jù)集），經(jīng)驗(yàn)重放可以讓智能體重放、排練曾經(jīng)執(zhí)行過的動(dòng)作，更高效地使用已經(jīng)采集到的數(shù)據(jù)。當(dāng)然了，DQN 的另一大貢獻(xiàn)是學(xué)習(xí)到原始輸入的高維表征，不再需要人工的特征工程。

Memory-Augmented Monte Carlo Tree Search

記憶增強(qiáng)的蒙特卡洛樹搜索

論文地址：https://webdocs.cs.ualberta.ca/~mmueller/ps/2018/Chenjun-Xiao-M-MCTS-aaai18-final.pdf

AAAI 2018 杰出論文

論文簡(jiǎn)介：這篇論文把一個(gè)記憶結(jié)構(gòu)和蒙特卡洛樹搜索結(jié)合起來，為在線實(shí)時(shí)搜索提出了一種新的利用泛化性的方式。記憶結(jié)構(gòu)中的每個(gè)存儲(chǔ)位置都可以包含某個(gè)特定狀態(tài)的信息。通過綜合類似的狀態(tài)的估計(jì)結(jié)果，這些記憶可以生成逼近的估計(jì)值。作者們展示了，在隨機(jī)情況下，基于記憶的逼近值有更高可能性比原始的蒙特卡洛樹搜索表現(xiàn)更好。

經(jīng)驗(yàn)重放還有一些高級(jí)改進(jìn)

Prioritized Experience Replay

優(yōu)先經(jīng)驗(yàn)重放

論文地址：https://arxiv.org/abs/1511.05952

論文亮點(diǎn)：這篇論文的作者們提出，在之前的研究中，智能體學(xué)習(xí)到的經(jīng)驗(yàn)是均勻地從重放記憶中采樣的。而既然記憶的存儲(chǔ)來自于智能體實(shí)際的探索活動(dòng)，這就意味著智能體進(jìn)行活動(dòng)、獲得記憶的分布和從記憶中采樣、利用記憶的分布是一樣的。作者們認(rèn)為，智能體獲得的記憶中肯定有一些是重要的、有一些是不那么重要的，我們應(yīng)當(dāng)更多地利用比較重要的記憶，這樣可以用同樣多的記憶提高智能體的表現(xiàn)。這篇論文中作者們就設(shè)計(jì)了一個(gè)為記憶的優(yōu)先程度排序的框架，更多地重放重要的記憶，以便更快地學(xué)習(xí)。作者們?cè)?DQN 上做了這個(gè)實(shí)驗(yàn)，改進(jìn)后的 DQN 比原來的（均一記憶）的 DQN 在絕大多數(shù)游戲中都取得了更好的表現(xiàn)。

Hindsight Experience Replay

后見經(jīng)驗(yàn)重放

論文地址：https://arxiv.org/abs/1707.01495

論文亮點(diǎn)：假想要讓機(jī)械臂執(zhí)行一個(gè)用末端在桌面上推方塊到指定地點(diǎn)的任務(wù)。對(duì)于強(qiáng)化學(xué)習(xí)模型來說，初次嘗試基本是注定失敗的；如果不是特別的幸運(yùn)，接下來的幾次嘗試也同樣會(huì)失敗。典型的強(qiáng)化學(xué)習(xí)算法是無法從這些失敗經(jīng)驗(yàn)中學(xué)習(xí)的，因?yàn)樗鼈円恢苯邮盏焦潭ǖ氖。?1）反饋，也就不含有任何可以指導(dǎo)學(xué)習(xí)的信號(hào)。

人類在執(zhí)行任務(wù)的時(shí)候其實(shí)有一個(gè)直覺的感受是：即便我沒有達(dá)成原來那個(gè)給定的目標(biāo)，我起碼還是完成了另外一個(gè)目標(biāo)的。HER 的核心思想就是把這一人類直覺公式化。在這里，HER 會(huì)把實(shí)際達(dá)到的目標(biāo)暫且看成要達(dá)到的目標(biāo)；進(jìn)行這個(gè)替換以后，算法認(rèn)為自己畢竟達(dá)到了某個(gè)目標(biāo)，從而可以得到一個(gè)學(xué)習(xí)信號(hào)進(jìn)行學(xué)習(xí)，即便達(dá)到的目標(biāo)并不是最開始任務(wù)要求的那個(gè)目標(biāo)。如果持續(xù)進(jìn)行這個(gè)過程，最終算法可以學(xué)會(huì)達(dá)成任意一個(gè)目標(biāo)，其中也自然就包括了我們最開始要求的目標(biāo)。

依靠這樣的辦法，即便最開始的時(shí)候機(jī)械臂根本就碰不到圓盤、以及反饋是稀疏的，最終它也學(xué)會(huì)了如何把圓盤撥到桌子上的指定位置。這個(gè)算法之所以稱為 Hindsight Experience Replay 后見經(jīng)驗(yàn)重放，就是因?yàn)樗窃谕瓿闪艘淮蝿?dòng)作之后再選定目標(biāo)、重放經(jīng)驗(yàn)進(jìn)行學(xué)習(xí)。也所以，HER 可以和任何策略無關(guān)的強(qiáng)化學(xué)習(xí)算法結(jié)合起來使用，比如 DDPG+HER。

這 7 篇論文打包下載：https://www.yanxishe.com/resourceDetail/1005

雷鋒網(wǎng) AI 科技評(píng)論整理

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。