「元學(xué)習(xí)」解析：學(xué)習(xí)如何梯度下降與學(xué)習(xí)新的算法

本文作者： MrBear

編輯：楊曉凡

2018-04-30 10:20

導(dǎo)語(yǔ)：讓機(jī)器自己學(xué)會(huì)學(xué)習(xí)的元學(xué)習(xí)算法，了解一下？

雷鋒網(wǎng) AI 科技評(píng)論按：本文作者 Cody Marie Wild，她是一位機(jī)器學(xué)習(xí)領(lǐng)域的數(shù)據(jù)科學(xué)家，在生活中還是名貓咪鏟屎官，她鐘愛(ài)語(yǔ)言和簡(jiǎn)潔優(yōu)美的系統(tǒng)。在這篇文章中，Cody 介紹了元學(xué)習(xí)的基本概念和方法類(lèi)別，討論了「元學(xué)習(xí)」到底在學(xué)什么、又有哪些限制。雷鋒網(wǎng) AI 科技評(píng)論把全文編譯如下。

「元學(xué)習(xí)」解析：學(xué)習(xí)如何梯度下降與學(xué)習(xí)新的算法

當(dāng)我第一次聽(tīng)到「元學(xué)習(xí)」的時(shí)候，它的概念是如此地令我沉醉：這個(gè)項(xiàng)目要構(gòu)建不僅能夠進(jìn)行學(xué)習(xí)的機(jī)器，這些機(jī)器還能學(xué)習(xí)「如何學(xué)習(xí)」的方法。理想的元學(xué)習(xí)算法應(yīng)該能夠根據(jù)反應(yīng)其性能的信號(hào)去修改它們的基本結(jié)構(gòu)、參數(shù)空間，或者能夠在它們面對(duì)新的環(huán)境時(shí)利用它們之前積累起來(lái)的經(jīng)驗(yàn)。簡(jiǎn)而言之：當(dāng)未來(lái)主義者憧憬著通用強(qiáng)人工智能時(shí)，符合這種描述的組件就是這個(gè)愿景必不可少的組成部分。

本文的目的在于從這些高屋建瓴的概念慢慢落到實(shí)處，從我們所想象的那些抽象的能夠自我修改的智能體可以做的事開(kāi)始，一直到這個(gè)領(lǐng)域的現(xiàn)狀，來(lái)討論這個(gè)領(lǐng)域的成功、它的局限性，以及我們距離魯棒的多任務(wù)人工智能還有多遠(yuǎn)。

為什么人類(lèi)可以做到我們習(xí)以為常的事？

具體而言：在許多強(qiáng)化學(xué)習(xí)任務(wù)中，相對(duì)于人類(lèi)而言，算法需要花費(fèi)長(zhǎng)得多的時(shí)間去學(xué)習(xí)任務(wù)；目前最先進(jìn)的能夠玩 Atari 游戲的算法需要花 83 個(gè)小時(shí)（或 1800萬(wàn)幀）的游戲時(shí)間才能達(dá)到人類(lèi)的平均表現(xiàn)，大多數(shù)人在玩了幾個(gè)小時(shí)游戲之后就能達(dá)到這個(gè)水平。

「元學(xué)習(xí)」解析：學(xué)習(xí)如何梯度下降與學(xué)習(xí)新的算法

圖1 該圖來(lái)自最近的 Rainbow RL 的論文

這種差異導(dǎo)致機(jī)器學(xué)習(xí)研究人員提出這樣的一個(gè)問(wèn)題：人類(lèi)大腦在這樣的任務(wù)體現(xiàn)了什么樣的工具和能力，我們?nèi)绾文軌蛴媒y(tǒng)計(jì)學(xué)和信息論的方式理解這些工具呢？具體來(lái)說(shuō)，元學(xué)習(xí)的研究人員所追求的策略似乎可以分為兩類(lèi)，它們大致可以和下面兩種人類(lèi)認(rèn)知「什么是工具」的理論相對(duì)應(yīng)。

學(xué)到的先驗(yàn)知識(shí)：從這一點(diǎn)看，人類(lèi)可以很快地學(xué)習(xí)新的任務(wù)，因?yàn)槲覀兛梢灾貜?fù)使用我們已經(jīng)在之前的任務(wù)中學(xué)到的信息。比如直覺(jué)上物體如何在空間中移動(dòng)的物理特征，或者在一個(gè)電子游戲中死掉會(huì)降低獎(jiǎng)勵(lì)的元知識(shí)。
學(xué)到的策略：這種思路是，在我們的生活中（或許在進(jìn)化的過(guò)程中），我們不僅僅收集對(duì)象級(jí)別的關(guān)于世界的知識(shí)，而且還建立了一個(gè)更高效的神經(jīng)結(jié)構(gòu)，這種結(jié)構(gòu)使得我們即使在非常新的環(huán)境中也能接受輸入，并且準(zhǔn)確地將其轉(zhuǎn)化為輸出或者策略。

現(xiàn)如今，很明顯，這兩個(gè)觀點(diǎn)并不是相互排斥的，而且這兩者之間甚至并沒(méi)有一個(gè)硬性的、快速區(qū)分它們的邊界：我們與世界互動(dòng)的一些硬編碼策略可能是基于對(duì)世界的深刻的先驗(yàn)知識(shí)，正如事實(shí)上（至少對(duì)于所有與這篇博文相關(guān)的目的而言）世界有一個(gè)因果結(jié)構(gòu)。即便如此，我覺(jué)得這兩個(gè)想法的區(qū)別足夠大，值得我們將它們分到這兩個(gè)標(biāo)簽之下，并且將他們看作一個(gè)平面上的 x 和 y 坐標(biāo)。

別忘了我們的?。▎危颖緦W(xué)習(xí)（one-shot learning）

在正式研究元學(xué)習(xí)之前，了解一些與單樣本學(xué)習(xí)相關(guān)的概念基礎(chǔ)是十分有用的。如果說(shuō)元學(xué)習(xí)的問(wèn)題在于「如何建立一個(gè)能快速學(xué)習(xí)新任務(wù)的模型」，那么單樣本學(xué)習(xí)的問(wèn)題則是：我們?nèi)绾谓⒁粋€(gè)模型，它能夠在只看到某個(gè)類(lèi)別的一個(gè)示例后，就能夠?qū)W習(xí)如何去對(duì)這個(gè)類(lèi)別進(jìn)行分類(lèi)。

現(xiàn)在，我們不妨思考一下，從概念層面上說(shuō)，是什么讓單樣本學(xué)習(xí)如此困難。如果我們?cè)囍挥媚骋粋€(gè)類(lèi)別的一個(gè)樣本數(shù)據(jù)上訓(xùn)練一般性的模型，這幾乎必然會(huì)產(chǎn)生過(guò)擬合。如果一個(gè)模型僅僅能得到一個(gè)手寫(xiě)數(shù)字的數(shù)據(jù)，比方說(shuō)「3」，它不會(huì)知道一張圖片可以經(jīng)過(guò)怎樣的像素變化之后還能在本質(zhì)上是一個(gè)「3」。例如，如果這個(gè)這個(gè)模型僅僅看到了一組數(shù)字中的第一個(gè)「3」，他如何能知道第二個(gè)「3」也是同種數(shù)字這樣的先驗(yàn)?zāi)?？從理論上講，我們感興趣的類(lèi)別標(biāo)簽在網(wǎng)絡(luò)學(xué)習(xí)中與構(gòu)成它的線(xiàn)條的粗細(xì)情況可能相關(guān)嗎？對(duì)于人類(lèi)來(lái)說(shuō)，這似乎是很愚蠢的想法，但是由于我們只有一個(gè)「3」的示例，網(wǎng)絡(luò)需要進(jìn)行的推斷并不簡(jiǎn)單，所以這也不失為一種有效的嘗試。

「元學(xué)習(xí)」解析：學(xué)習(xí)如何梯度下降與學(xué)習(xí)新的算法

更多的數(shù)字「3」的示例有助于解決這個(gè)問(wèn)題，因?yàn)槲覀兛梢粤私鈭D像的什么特性決定了它是「3」：主要是垂直方向上存在的兩個(gè)凸形。以及了解什么樣的修改是無(wú)關(guān)緊要的：線(xiàn)條的粗細(xì)、角度的銳度。為了成功地進(jìn)行單樣本學(xué)習(xí)，我們必須激勵(lì)網(wǎng)絡(luò)去學(xué)習(xí)什么樣的屬性能夠在不給出每個(gè)數(shù)字所允許的具體的變化的情況下，泛化性地將一個(gè)數(shù)字和另外的數(shù)字區(qū)分開(kāi)來(lái)。

在單樣本學(xué)習(xí)中，一個(gè)常見(jiàn)的技巧是學(xué)習(xí)一個(gè)嵌入空間，在這個(gè)空間中計(jì)算兩個(gè)樣本的表示之間的歐式距離，這是一種很好的計(jì)算兩個(gè)樣本是否屬于同一類(lèi)的方法。從直覺(jué)上來(lái)說(shuō)，這需要學(xué)習(xí)在這個(gè)分布中總體來(lái)講可以使得類(lèi)別間的差異最強(qiáng)的內(nèi)部維度，并且學(xué)習(xí)如何將輸入壓縮、轉(zhuǎn)化成最相關(guān)的維度。

我發(fā)現(xiàn)，首先考慮這樣的問(wèn)題是一個(gè)很有用的基礎(chǔ)。我們并非試圖學(xué)習(xí)如何總結(jié)各種不同的類(lèi)之間共通的信息和模式，而是試圖學(xué)習(xí)一組任務(wù)中的總會(huì)存在的規(guī)律，并且每個(gè)任務(wù)都有自己的內(nèi)部結(jié)構(gòu)或者目標(biāo)。

如果要我以從低到高的抽象程度為標(biāo)準(zhǔn)對(duì)神經(jīng)網(wǎng)絡(luò)的元參數(shù)進(jìn)行排序，排序結(jié)果應(yīng)該如下：

一個(gè)能夠通過(guò)超參數(shù)梯度下降法學(xué)習(xí)到完整的任務(wù)分布上的數(shù)據(jù)表示的網(wǎng)絡(luò)。MAML 和 Reptile 就是一個(gè)這樣做的很通俗易懂的例子。而共享層次的元學(xué)習(xí)也是一種有趣的方法，它將學(xué)習(xí)數(shù)據(jù)表示作為被一個(gè)主策略控制的顯式子策略去學(xué)習(xí)。
一個(gè)能夠?qū)W著去優(yōu)化自己的梯度下降操作的參數(shù)的網(wǎng)絡(luò)。這些參數(shù)包括：學(xué)習(xí)率、動(dòng)量、自適應(yīng)學(xué)習(xí)率算法的權(quán)重。在這里，我們開(kāi)始沿著修改學(xué)習(xí)算法本身的道路前進(jìn)，但是我們的方法是有限的、參數(shù)化的。這就是《Learning to Learn by Gradient Descent by Gradient Descent》（https://arxiv.org/abs/1606.04474）一文所做的工作。
一個(gè)能夠?qū)W到本身就是神經(jīng)網(wǎng)絡(luò)的內(nèi)循環(huán)優(yōu)化器的網(wǎng)絡(luò)。也就是說(shuō)：在這里，梯度下降算法被應(yīng)用于更新神經(jīng)優(yōu)化器網(wǎng)絡(luò)的參數(shù)，使其在各項(xiàng)任務(wù)中運(yùn)行良好，但是每個(gè)任務(wù)中輸入數(shù)據(jù)到輸出預(yù)測(cè)的映射是完全由網(wǎng)絡(luò)進(jìn)行的，沒(méi)有任何顯式的損失或者梯度計(jì)算。這就是 RL^２（https://arxiv.org/abs/1611.02779）和 A simple neural attentive meta learner （https://openreview.net/forum?id=B1DmUzWAW）的工作方式。

為了使本文不那么龐大，我將主要關(guān)注 1 和 3，以說(shuō)明這個(gè)連續(xù)的概念譜的兩端。

其它名稱(chēng)的任務(wù)

此外還有一個(gè)小問(wèn)題，最后一個(gè)......我保證！我希望能夠澄清一個(gè)令人困惑的話(huà)題。通常，在關(guān)于元學(xué)習(xí)的討論中，你常常會(huì)看到「任務(wù)分布」的概念。你可能會(huì)注意到這是一個(gè)定義不明確的概念，是的，你是對(duì)的！似乎沒(méi)有一個(gè)明確的標(biāo)準(zhǔn)來(lái)判斷什么時(shí)候一個(gè)問(wèn)題是一個(gè)任務(wù)，或者一個(gè)任務(wù)分布。例如：我們是否應(yīng)該把 ImageNet 看作一個(gè)任務(wù)——物體識(shí)別——或者多項(xiàng)任務(wù)：在一個(gè)任務(wù)中區(qū)分狗，在另一個(gè)任務(wù)中區(qū)分貓。為什么將玩 Atari 游戲視為一個(gè)單獨(dú)的任務(wù)，而不是將游戲中的各個(gè)關(guān)卡分別作為多個(gè)任務(wù)？

我已經(jīng)能從這一切描述中總結(jié)出來(lái)的是：

「任務(wù)」的概念與「我們建立了什么樣的數(shù)據(jù)集」這兩個(gè)概念是糾纏在一起的，因?yàn)槲覀儠?huì)很自然地把學(xué)習(xí)一個(gè)數(shù)據(jù)集作為一個(gè)單一的任務(wù)
對(duì)于任何給定的任務(wù)分布，其中的任務(wù)之間的差異可以是非常明顯的（例如：任務(wù)分布中的每個(gè)任務(wù)都在學(xué)習(xí)一個(gè)不同振幅的正弦波 vs 任務(wù)分布中的每個(gè)任務(wù)都在玩不同的 Atari 游戲）
因此，我們不應(yīng)該直接說(shuō)「噢！這個(gè)方法可以泛化到<這個(gè)任務(wù)分布的樣本上>，這說(shuō)明它能夠泛化運(yùn)行在一些任意的不同的任務(wù)分布上?！箯姆椒ǖ挠行陨险f(shuō)，這當(dāng)然不是一個(gè)不好的證據(jù)，但是我們確實(shí)需要批判性思考，去考慮：為了在所有的任務(wù)上表現(xiàn)出色，網(wǎng)絡(luò)需要多大的靈活性。

那些以動(dòng)物命名的令人費(fèi)解的名字

在 2017 年初，Chelsea Finn 和來(lái)自加州大學(xué)伯克利分校的團(tuán)隊(duì)發(fā)布了一項(xiàng)被稱(chēng)為「MAML：模型無(wú)關(guān)的元學(xué)習(xí)」的技術(shù)（https://arxiv.org/abs/1703.03400 ）。

「元學(xué)習(xí)」解析：學(xué)習(xí)如何梯度下降與學(xué)習(xí)新的算法

如果你認(rèn)為這個(gè)笑話(huà)不是有意為之的，那么請(qǐng)看一下論文中的「MAML 物種」一節(jié)。

在學(xué)習(xí)策略和學(xué)習(xí)先驗(yàn)之間，這種方法傾向于后者。這個(gè)網(wǎng)絡(luò)的目標(biāo)是訓(xùn)練一個(gè)模型，對(duì)于一個(gè)新任務(wù)只需要做單步梯度更新，就可以很好地在這個(gè)任務(wù)上進(jìn)行泛化。偽代碼大概長(zhǎng)這個(gè)樣子：

隨機(jī)初始化一個(gè)網(wǎng)絡(luò)的參數(shù)，把這組參數(shù)記為 theta。
在一個(gè)任務(wù)分布 T 中選擇一些任務(wù) t。使用訓(xùn)練集中的 k 個(gè)（k通常在 10 左右）樣本，在當(dāng)前參數(shù)集所在的位置執(zhí)行一個(gè)梯度步，你將得到一組最終的參數(shù)。
在測(cè)試集上評(píng)估使用最終這組參數(shù)的模型性能。
然后，求模型執(zhí)行任務(wù)集 t 的性能關(guān)于初始參數(shù) theta 的梯度。然后根據(jù)這個(gè)梯度更新參數(shù)，接下來(lái)回到第一步，使用剛剛更新的 theta 作為這一輪的初始 theta 值。

這是在做什么呢？從一個(gè)非常抽象的層面上講，這是在尋找參數(shù)空間中的一個(gè)點(diǎn)，這個(gè)點(diǎn)對(duì)于任務(wù)分布中的許多任務(wù)來(lái)說(shuō)，在期望上是泛化最好的那個(gè)點(diǎn)。你也可以認(rèn)為這就像迫使模型在對(duì)參數(shù)空間的探索中維持了一定的不確定性和保守性。簡(jiǎn)而言之：一個(gè)認(rèn)為它的梯度能完全表示整體分布的網(wǎng)絡(luò)，可能會(huì)陷入一個(gè)損失特別低的區(qū)域，MAML 更容易被激勵(lì)去找到一個(gè)靠近多個(gè)損失函數(shù)的「峽谷」尖點(diǎn)的區(qū)域，這些「峽谷」在所有的任務(wù)上的期望損失都相當(dāng)?shù)汀Ｕ沁@種對(duì)于保守性的激勵(lì)使 MAML 不會(huì)像那些一般通過(guò)少量來(lái)自新任務(wù)的樣本訓(xùn)練的模型一樣過(guò)擬合。

2018 年初，OpenAI 又發(fā)表了一篇名為 Reptile 的論文（https://arxiv.org/abs/1803.02999，雷鋒網(wǎng) AI 科技評(píng)論往期文章點(diǎn)這里）。正如你可能從它的名字中猜到的那樣——使用了早先的 MAML 的方法起名。Reptile 以 MAML 為前提，但是找到了一種更高效的循環(huán)計(jì)算更新初始參數(shù)的方法。MAML 需要顯式地計(jì)算在初始化參數(shù) theta 下運(yùn)行的測(cè)試集損失的梯度，Reptile 則僅在每項(xiàng)任務(wù)中執(zhí)行了幾步 SGD 更新，然后用更新結(jié)束時(shí)的權(quán)重和初始權(quán)重的差異，作為用于更新初始權(quán)重的「梯度」。

「元學(xué)習(xí)」解析：學(xué)習(xí)如何梯度下降與學(xué)習(xí)新的算法

這里的 g_1 代表了為每個(gè)任務(wù)只執(zhí)行一次梯度下降步得到的更新后的梯度

從直觀上說(shuō)，這項(xiàng)研究能運(yùn)行出任何結(jié)果都非常奇怪，因?yàn)楹?jiǎn)單的說(shuō)，這看起來(lái)和在將所有任務(wù)合并而成的一個(gè)任務(wù)上對(duì)模型進(jìn)行訓(xùn)練沒(méi)有任何不同。然而，作者認(rèn)為，由于對(duì)每個(gè)任務(wù)都使用了 SGD 的多個(gè)步驟，每個(gè)任務(wù)損失函數(shù)的二階導(dǎo)數(shù)都被影響了。為了做到這一點(diǎn)，他們將更新工作分解為兩部分：

第一項(xiàng)：促使結(jié)果趨向「聯(lián)合訓(xùn)練損失」，也就是說(shuō)，如果你僅僅使用合并的任務(wù)作為數(shù)據(jù)集，訓(xùn)練會(huì)得到什么樣的結(jié)果。
第二項(xiàng)：促使初始化參數(shù)趨向于一個(gè)點(diǎn)，在這一點(diǎn)，后續(xù)的 SGD mini-batch 的梯度都是接近的：也就是說(shuō)，各個(gè) mini-batch 之間的梯度差異很小。作者推測(cè)，這一項(xiàng)能夠使得訓(xùn)練時(shí)間更快，因?yàn)樗偈鼓Ｐ驮诿總€(gè)任務(wù)上都處于一個(gè)穩(wěn)定、低反差的訓(xùn)練區(qū)域。

我選擇 MAML/Reptile 的組合代表事物的「學(xué)習(xí)到的先驗(yàn)」，因?yàn)閺睦碚撋现v，這個(gè)網(wǎng)絡(luò)通過(guò)對(duì)學(xué)習(xí)內(nèi)部數(shù)據(jù)表示取得了成功，這些數(shù)據(jù)表示要么有助于對(duì)全部的任務(wù)分布進(jìn)行分類(lèi)，要么在參數(shù)空間中與普遍使用的數(shù)據(jù)表示相接近。

「元學(xué)習(xí)」解析：學(xué)習(xí)如何梯度下降與學(xué)習(xí)新的算法

為了進(jìn)一步明確這一點(diǎn)，請(qǐng)看上圖。上圖對(duì) MAML 和一個(gè)預(yù)訓(xùn)練網(wǎng)絡(luò)進(jìn)行了比較，這兩個(gè)網(wǎng)絡(luò)都用一組由不同相位與振幅組成的正弦曲線(xiàn)組成的回歸任務(wù)進(jìn)行訓(xùn)練。這之后，兩個(gè)網(wǎng)絡(luò)都針對(duì)新的具體任務(wù)進(jìn)行了精細(xì)調(diào)節(jié)（fine-tune）：如紅色曲線(xiàn)所示。紫色三角的代表寥寥幾步梯度步中使用的數(shù)據(jù)點(diǎn)。與預(yù)訓(xùn)練網(wǎng)絡(luò)相比，MAML 學(xué)到了例如——正弦曲線(xiàn)具有周期性結(jié)構(gòu)：在 K=5 時(shí)，它可以在沒(méi)有真正從空間的這一區(qū)域觀察到數(shù)據(jù)的情況下快得多地將左邊的峰值移到正確的地方。雖然說(shuō)很難判斷我們的解釋是不是與底層發(fā)生的情況完美地相匹配，但我們不妨推測(cè)： MAML 在算出兩個(gè)相關(guān)正弦曲線(xiàn)不同之處——相位和振幅——方面做得更好，同時(shí)也能更好地從給定的數(shù)據(jù)中學(xué)到它們的數(shù)據(jù)表示。

一直下降的網(wǎng)絡(luò)

「元學(xué)習(xí)」解析：學(xué)習(xí)如何梯度下降與學(xué)習(xí)新的算法

對(duì)一些人來(lái)說(shuō)，他們使用已有的、像梯度下降這樣的算法，來(lái)對(duì)全局先驗(yàn)進(jìn)行學(xué)習(xí)。但誰(shuí)說(shuō)我們以往設(shè)計(jì)的算法就是最高效的呢？難道我們不能學(xué)到更好的方法嗎？

這就是 RL2（通過(guò)慢速增強(qiáng)學(xué)習(xí)進(jìn)行快速增強(qiáng)學(xué)習(xí)）所采用的方法。這個(gè)模型的基礎(chǔ)結(jié)構(gòu)是循環(huán)神經(jīng)網(wǎng)絡(luò)（具體來(lái)說(shuō)，是一個(gè) LTSM 網(wǎng)絡(luò)）。因?yàn)?RNN 有儲(chǔ)存狀態(tài)信息的能力，并且給出不同輸出，這些輸是該狀態(tài)的函數(shù)，所以理論上它們可以學(xué)到任意可計(jì)算的算法：換而言之，它們都具有圖靈完備的潛力。以此為基礎(chǔ)，RL2 的作者設(shè)計(jì)了一個(gè) RNN，每一個(gè)用于訓(xùn)練 RNN 的「序列」事實(shí)上都是一組具有特定 MDP（MDP = Markov Decision Process，馬爾科夫決策過(guò)程?；谶@個(gè)解釋?zhuān)阒恍鑼⒚看?MDP 看作定義一系列可能動(dòng)作并且在環(huán)境中對(duì)這些動(dòng)作產(chǎn)生獎(jiǎng)勵(lì)）的經(jīng)驗(yàn)片段。接著，會(huì)在許多序列上訓(xùn)練這個(gè) RNN，像一般的 RNN 一樣，這樣就會(huì)對(duì)應(yīng)多個(gè)不同的 MDP，并且 RNN 的參數(shù)會(huì)被優(yōu)化，使得找所有序列或試驗(yàn)集合中產(chǎn)生的負(fù)反饋（regret）較低。負(fù)反饋（regret）是一個(gè)可以捕獲你一組事件中所有獎(jiǎng)勵(lì)的度量，所以除了激勵(lì)網(wǎng)絡(luò)在試驗(yàn)結(jié)束時(shí)得到更好的策略之外，它還可以激勵(lì)網(wǎng)絡(luò)更快地進(jìn)行學(xué)習(xí)，以致于網(wǎng)絡(luò)會(huì)在低回報(bào)的策略中更少地使用探索性動(dòng)作。

如圖所示，這是運(yùn)行在多重試驗(yàn)上的 RNN 的內(nèi)部工作機(jī)制，對(duì)應(yīng)多個(gè)不同的 MDP

在試驗(yàn)中的每一個(gè)點(diǎn)，網(wǎng)絡(luò)采取的動(dòng)作都是一個(gè)以從都個(gè)任務(wù)中學(xué)到的權(quán)重和隱含狀態(tài)的內(nèi)容為常數(shù)的函數(shù)，隱藏狀態(tài)的內(nèi)容是作為數(shù)據(jù)的函數(shù)進(jìn)行更新并用作動(dòng)態(tài)參數(shù)集合。因此，RNN 在多個(gè)任務(wù)中學(xué)習(xí)到了如何更新隱含狀態(tài)的權(quán)重，以及控制如何利用隱含狀態(tài)的權(quán)重。然后，在一個(gè)給定的任務(wù)中，隱藏狀態(tài)可以描述網(wǎng)絡(luò)的確定性、當(dāng)前應(yīng)該繼續(xù)探索還是利用學(xué)到的信息，等等，作為它在這個(gè)特定任務(wù)中看到的數(shù)據(jù)的函數(shù)。從這個(gè)意義上講，RNN 這種學(xué)習(xí)算法決定了如何最好地探索空間、把什么樣的策略看作最佳策略，而且通過(guò)學(xué)習(xí)使該算法在一組任務(wù)分布上得到很好的效果。該作者把 RL2 的架構(gòu)和專(zhuān)門(mén)對(duì)任務(wù)進(jìn)行過(guò)漸進(jìn)優(yōu)化的算法進(jìn)行了對(duì)比，RL2 取得了與其相當(dāng)?shù)男阅堋?/p>

我們能對(duì)此進(jìn)行擴(kuò)展嗎？

本文只是對(duì)該領(lǐng)域一個(gè)非常精煉的簡(jiǎn)介，我確信我忽略了一些想法或者概念。如果你需要其它（更明智的）的觀點(diǎn)，我強(qiáng)烈推薦這篇 Chelsea Finn 的博客（http://bair.berkeley.edu/blog/2017/07/18/learning-to-learn/，雷鋒網(wǎng) AI 科技評(píng)論譯文見(jiàn)這里），Chelsea Finn 是 MAML 論文的第一作者。

過(guò)去的幾周中，我試著從概念上對(duì)這些文章進(jìn)行壓縮，并產(chǎn)生一個(gè)能夠普遍解釋這些文章的理解，在這個(gè)過(guò)程中我想到了一系列一般性的問(wèn)題：

這些方法該如何被擴(kuò)展到更多樣的任務(wù)？這些文章大多是在多樣性較低的任務(wù)分布中對(duì)概念進(jìn)行了驗(yàn)證：具有不同參數(shù)的正弦曲線(xiàn)、參數(shù)不同的吃角子老虎機(jī)、不同語(yǔ)言的字符識(shí)別。我認(rèn)為，在這些任務(wù)上性能好并不是顯然能在復(fù)雜程度不同、模態(tài)不同的任務(wù)上得以泛化，例如圖像識(shí)別、問(wèn)答和邏輯謎題結(jié)合的任務(wù)。然而，人類(lèi)的大腦確實(shí)從這些高度多樣化的任務(wù)中形成了先驗(yàn)，可以在不同的任務(wù)中來(lái)回傳遞關(guān)于世界的信息。我主要的問(wèn)題是：只要你投入更多的單元計(jì)算它們，這些方法在這些更多樣的任務(wù)中是否會(huì)像作者們宣稱(chēng)的一樣有效？或者，在任務(wù)多樣性曲線(xiàn)上的某一點(diǎn)上，是否存在一種非線(xiàn)性效應(yīng)，使得在這些低多樣性的情況下起作用的方法在高多樣性問(wèn)題中并不有效。
這些方法在多大程度上依賴(lài)于大量計(jì)算？這些文章中的大部分都使用小型簡(jiǎn)單的數(shù)據(jù)集的部分原因是，當(dāng)你每訓(xùn)練一次，就會(huì)涉及一個(gè)內(nèi)部循環(huán)，這個(gè)內(nèi)部循環(huán)則包含（有效地）用元參數(shù)效果相關(guān)的數(shù)據(jù)點(diǎn)訓(xùn)練模型，以及測(cè)試，這都是需要耗費(fèi)相當(dāng)大時(shí)間和計(jì)算量的。由于現(xiàn)在摩爾定律似乎漸漸失效，在 Google 以外的地方研究這些算法的實(shí)用版本的可能性有多大？在這種情況下，每個(gè)內(nèi)部循環(huán)對(duì)一個(gè)難題進(jìn)行迭代可能要花費(fèi)數(shù)百個(gè)小時(shí)的 GPU 時(shí)間。
這些方法與尋找能顯式地對(duì)這個(gè)世界的先驗(yàn)進(jìn)行編碼的思路相比如何呢？語(yǔ)言是人類(lèi)世界的百寶箱中一個(gè)十分有價(jià)值的工具。以機(jī)器學(xué)習(xí)的話(huà)來(lái)說(shuō)，基本上是是將高度壓縮的信息嵌入我們知道該如何在概念上進(jìn)行操作的空間中，我們可以將這些信息從一個(gè)人傳遞給另一個(gè)人。沒(méi)人可以獨(dú)立地從經(jīng)驗(yàn)中提取出所有這些知識(shí)，所以除非我們弄清楚如何做出與這些學(xué)習(xí)算法相似的事，不然我懷疑我們是否真的可以整合關(guān)于世界的知識(shí)，建立解決問(wèn)題的模型。

via towardsdatascience，雷鋒網(wǎng) AI 科技評(píng)論編譯

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

3人收藏

相關(guān)文章

MrBear

知情人士

發(fā)私信

當(dāng)月熱門(mén)文章

「元學(xué)習(xí)」解析：學(xué)習(xí)如何梯度下降與學(xué)習(xí)新的算法

為什么人類(lèi)可以做到我們習(xí)以為常的事？

圖1 該圖來(lái)自最近的 Rainbow RL 的論文

別忘了我們的?。▎危颖緦W(xué)習(xí)（one-shot learning）

其它名稱(chēng)的任務(wù)

那些以動(dòng)物命名的令人費(fèi)解的名字

如果你認(rèn)為這個(gè)笑話(huà)不是有意為之的，那么請(qǐng)看一下論文中的「MAML 物種」一節(jié)。

這里的 g_1 代表了為每個(gè)任務(wù)只執(zhí)行一次梯度下降步得到的更新后的梯度

一直下降的網(wǎng)絡(luò)

如圖所示，這是運(yùn)行在多重試驗(yàn)上的 RNN 的內(nèi)部工作機(jī)制，對(duì)應(yīng)多個(gè)不同的 MDP

我們能對(duì)此進(jìn)行擴(kuò)展嗎？

別忘了我們的?。▎危颖緦W(xué)習(xí)（one-shot learning）

如果你認(rèn)為這個(gè)笑話(huà)不是有意為之的，那么請(qǐng)看一下論文中的「MAML 物種」一節(jié)。

如圖所示，這是運(yùn)行在多重試驗(yàn)上的 RNN 的內(nèi)部工作機(jī)制，對(duì)應(yīng)多個(gè)不同的 MDP

我們能對(duì)此進(jìn)行擴(kuò)展嗎？