1
雷鋒網(wǎng) AI 科技評(píng)論按:本文作者 Cody Marie Wild,她是一位機(jī)器學(xué)習(xí)領(lǐng)域的數(shù)據(jù)科學(xué)家,在生活中還是名貓咪鏟屎官,她鐘愛(ài)語(yǔ)言和簡(jiǎn)潔優(yōu)美的系統(tǒng)。在這篇文章中,Cody 介紹了元學(xué)習(xí)的基本概念和方法類(lèi)別,討論了「元學(xué)習(xí)」到底在學(xué)什么、又有哪些限制。雷鋒網(wǎng) AI 科技評(píng)論把全文編譯如下。
當(dāng)我第一次聽(tīng)到「元學(xué)習(xí)」的時(shí)候,它的概念是如此地令我沉醉:這個(gè)項(xiàng)目要構(gòu)建不僅能夠進(jìn)行學(xué)習(xí)的機(jī)器,這些機(jī)器還能學(xué)習(xí)「如何學(xué)習(xí)」的方法。理想的元學(xué)習(xí)算法應(yīng)該能夠根據(jù)反應(yīng)其性能的信號(hào)去修改它們的基本結(jié)構(gòu)、參數(shù)空間,或者能夠在它們面對(duì)新的環(huán)境時(shí)利用它們之前積累起來(lái)的經(jīng)驗(yàn)。簡(jiǎn)而言之:當(dāng)未來(lái)主義者憧憬著通用強(qiáng)人工智能時(shí),符合這種描述的組件就是這個(gè)愿景必不可少的組成部分。
本文的目的在于從這些高屋建瓴的概念慢慢落到實(shí)處,從我們所想象的那些抽象的能夠自我修改的智能體可以做的事開(kāi)始,一直到這個(gè)領(lǐng)域的現(xiàn)狀,來(lái)討論這個(gè)領(lǐng)域的成功、它的局限性,以及我們距離魯棒的多任務(wù)人工智能還有多遠(yuǎn)。
具體而言:在許多強(qiáng)化學(xué)習(xí)任務(wù)中,相對(duì)于人類(lèi)而言,算法需要花費(fèi)長(zhǎng)得多的時(shí)間去學(xué)習(xí)任務(wù);目前最先進(jìn)的能夠玩 Atari 游戲的算法需要花 83 個(gè)小時(shí)(或 1800萬(wàn)幀)的游戲時(shí)間才能達(dá)到人類(lèi)的平均表現(xiàn),大多數(shù)人在玩了幾個(gè)小時(shí)游戲之后就能達(dá)到這個(gè)水平。
這種差異導(dǎo)致機(jī)器學(xué)習(xí)研究人員提出這樣的一個(gè)問(wèn)題:人類(lèi)大腦在這樣的任務(wù)體現(xiàn)了什么樣的工具和能力,我們?nèi)绾文軌蛴媒y(tǒng)計(jì)學(xué)和信息論的方式理解這些工具呢?具體來(lái)說(shuō),元學(xué)習(xí)的研究人員所追求的策略似乎可以分為兩類(lèi),它們大致可以和下面兩種人類(lèi)認(rèn)知「什么是工具」的理論相對(duì)應(yīng)。
學(xué)到的先驗(yàn)知識(shí):從這一點(diǎn)看,人類(lèi)可以很快地學(xué)習(xí)新的任務(wù),因?yàn)槲覀兛梢灾貜?fù)使用我們已經(jīng)在之前的任務(wù)中學(xué)到的信息。比如直覺(jué)上物體如何在空間中移動(dòng)的物理特征,或者在一個(gè)電子游戲中死掉會(huì)降低獎(jiǎng)勵(lì)的元知識(shí)。
學(xué)到的策略:這種思路是,在我們的生活中(或許在進(jìn)化的過(guò)程中),我們不僅僅收集對(duì)象級(jí)別的關(guān)于世界的知識(shí),而且還建立了一個(gè)更高效的神經(jīng)結(jié)構(gòu),這種結(jié)構(gòu)使得我們即使在非常新的環(huán)境中也能接受輸入,并且準(zhǔn)確地將其轉(zhuǎn)化為輸出或者策略。
現(xiàn)如今,很明顯,這兩個(gè)觀點(diǎn)并不是相互排斥的,而且這兩者之間甚至并沒(méi)有一個(gè)硬性的、快速區(qū)分它們的邊界:我們與世界互動(dòng)的一些硬編碼策略可能是基于對(duì)世界的深刻的先驗(yàn)知識(shí),正如事實(shí)上(至少對(duì)于所有與這篇博文相關(guān)的目的而言)世界有一個(gè)因果結(jié)構(gòu)。即便如此,我覺(jué)得這兩個(gè)想法的區(qū)別足夠大,值得我們將它們分到這兩個(gè)標(biāo)簽之下,并且將他們看作一個(gè)平面上的 x 和 y 坐標(biāo)。
在正式研究元學(xué)習(xí)之前,了解一些與單樣本學(xué)習(xí)相關(guān)的概念基礎(chǔ)是十分有用的。如果說(shuō)元學(xué)習(xí)的問(wèn)題在于「如何建立一個(gè)能快速學(xué)習(xí)新任務(wù)的模型」,那么單樣本學(xué)習(xí)的問(wèn)題則是:我們?nèi)绾谓⒁粋€(gè)模型,它能夠在只看到某個(gè)類(lèi)別的一個(gè)示例后,就能夠?qū)W習(xí)如何去對(duì)這個(gè)類(lèi)別進(jìn)行分類(lèi)。
現(xiàn)在,我們不妨思考一下,從概念層面上說(shuō),是什么讓單樣本學(xué)習(xí)如此困難。如果我們?cè)囍挥媚骋粋€(gè)類(lèi)別的一個(gè)樣本數(shù)據(jù)上訓(xùn)練一般性的模型,這幾乎必然會(huì)產(chǎn)生過(guò)擬合。如果一個(gè)模型僅僅能得到一個(gè)手寫(xiě)數(shù)字的數(shù)據(jù),比方說(shuō)「3」,它不會(huì)知道一張圖片可以經(jīng)過(guò)怎樣的像素變化之后還能在本質(zhì)上是一個(gè)「3」。例如,如果這個(gè)這個(gè)模型僅僅看到了一組數(shù)字中的第一個(gè)「3」,他如何能知道第二個(gè)「3」也是同種數(shù)字這樣的先驗(yàn)?zāi)??從理論上講,我們感興趣的類(lèi)別標(biāo)簽在網(wǎng)絡(luò)學(xué)習(xí)中與構(gòu)成它的線(xiàn)條的粗細(xì)情況可能相關(guān)嗎?對(duì)于人類(lèi)來(lái)說(shuō),這似乎是很愚蠢的想法,但是由于我們只有一個(gè)「3」的示例,網(wǎng)絡(luò)需要進(jìn)行的推斷并不簡(jiǎn)單,所以這也不失為一種有效的嘗試。
更多的數(shù)字「3」的示例有助于解決這個(gè)問(wèn)題,因?yàn)槲覀兛梢粤私鈭D像的什么特性決定了它是「3」:主要是垂直方向上存在的兩個(gè)凸形。以及了解什么樣的修改是無(wú)關(guān)緊要的:線(xiàn)條的粗細(xì)、角度的銳度。為了成功地進(jìn)行單樣本學(xué)習(xí),我們必須激勵(lì)網(wǎng)絡(luò)去學(xué)習(xí)什么樣的屬性能夠在不給出每個(gè)數(shù)字所允許的具體的變化的情況下,泛化性地將一個(gè)數(shù)字和另外的數(shù)字區(qū)分開(kāi)來(lái)。
在單樣本學(xué)習(xí)中,一個(gè)常見(jiàn)的技巧是學(xué)習(xí)一個(gè)嵌入空間,在這個(gè)空間中計(jì)算兩個(gè)樣本的表示之間的歐式距離,這是一種很好的計(jì)算兩個(gè)樣本是否屬于同一類(lèi)的方法。從直覺(jué)上來(lái)說(shuō),這需要學(xué)習(xí)在這個(gè)分布中總體來(lái)講可以使得類(lèi)別間的差異最強(qiáng)的內(nèi)部維度,并且學(xué)習(xí)如何將輸入壓縮、轉(zhuǎn)化成最相關(guān)的維度。
我發(fā)現(xiàn),首先考慮這樣的問(wèn)題是一個(gè)很有用的基礎(chǔ)。我們并非試圖學(xué)習(xí)如何總結(jié)各種不同的類(lèi)之間共通的信息和模式,而是試圖學(xué)習(xí)一組任務(wù)中的總會(huì)存在的規(guī)律,并且每個(gè)任務(wù)都有自己的內(nèi)部結(jié)構(gòu)或者目標(biāo)。
如果要我以從低到高的抽象程度為標(biāo)準(zhǔn)對(duì)神經(jīng)網(wǎng)絡(luò)的元參數(shù)進(jìn)行排序,排序結(jié)果應(yīng)該如下:
一個(gè)能夠通過(guò)超參數(shù)梯度下降法學(xué)習(xí)到完整的任務(wù)分布上的數(shù)據(jù)表示的網(wǎng)絡(luò)。MAML 和 Reptile 就是一個(gè)這樣做的很通俗易懂的例子。而共享層次的元學(xué)習(xí)也是一種有趣的方法,它將學(xué)習(xí)數(shù)據(jù)表示作為被一個(gè)主策略控制的顯式子策略去學(xué)習(xí)。
一個(gè)能夠?qū)W著去優(yōu)化自己的梯度下降操作的參數(shù)的網(wǎng)絡(luò)。這些參數(shù)包括:學(xué)習(xí)率、動(dòng)量、自適應(yīng)學(xué)習(xí)率算法的權(quán)重。在這里,我們開(kāi)始沿著修改學(xué)習(xí)算法本身的道路前進(jìn),但是我們的方法是有限的、參數(shù)化的。這就是《Learning to Learn by Gradient Descent by Gradient Descent》(https://arxiv.org/abs/1606.04474)一文所做的工作。
一個(gè)能夠?qū)W到本身就是神經(jīng)網(wǎng)絡(luò)的內(nèi)循環(huán)優(yōu)化器的網(wǎng)絡(luò)。也就是說(shuō):在這里,梯度下降算法被應(yīng)用于更新神經(jīng)優(yōu)化器網(wǎng)絡(luò)的參數(shù),使其在各項(xiàng)任務(wù)中運(yùn)行良好,但是每個(gè)任務(wù)中輸入數(shù)據(jù)到輸出預(yù)測(cè)的映射是完全由網(wǎng)絡(luò)進(jìn)行的,沒(méi)有任何顯式的損失或者梯度計(jì)算。這就是 RL2(https://arxiv.org/abs/1611.02779)和 A simple neural attentive meta learner (https://openreview.net/forum?id=B1DmUzWAW) 的工作方式。
為了使本文不那么龐大,我將主要關(guān)注 1 和 3,以說(shuō)明這個(gè)連續(xù)的概念譜的兩端。
此外還有一個(gè)小問(wèn)題,最后一個(gè)......我保證!我希望能夠澄清一個(gè)令人困惑的話(huà)題。通常,在關(guān)于元學(xué)習(xí)的討論中,你常常會(huì)看到「任務(wù)分布」的概念。你可能會(huì)注意到這是一個(gè)定義不明確的概念,是的,你是對(duì)的!似乎沒(méi)有一個(gè)明確的標(biāo)準(zhǔn)來(lái)判斷什么時(shí)候一個(gè)問(wèn)題是一個(gè)任務(wù),或者一個(gè)任務(wù)分布。例如:我們是否應(yīng)該把 ImageNet 看作一個(gè)任務(wù)——物體識(shí)別——或者多項(xiàng)任務(wù):在一個(gè)任務(wù)中區(qū)分狗,在另一個(gè)任務(wù)中區(qū)分貓。為什么將玩 Atari 游戲視為一個(gè)單獨(dú)的任務(wù),而不是將游戲中的各個(gè)關(guān)卡分別作為多個(gè)任務(wù)?
我已經(jīng)能從這一切描述中總結(jié)出來(lái)的是:
「任務(wù)」的概念與「我們建立了什么樣的數(shù)據(jù)集」這兩個(gè)概念是糾纏在一起的,因?yàn)槲覀儠?huì)很自然地把學(xué)習(xí)一個(gè)數(shù)據(jù)集作為一個(gè)單一的任務(wù)
對(duì)于任何給定的任務(wù)分布,其中的任務(wù)之間的差異可以是非常明顯的(例如:任務(wù)分布中的每個(gè)任務(wù)都在學(xué)習(xí)一個(gè)不同振幅的正弦波 vs 任務(wù)分布中的每個(gè)任務(wù)都在玩不同的 Atari 游戲)
因此,我們不應(yīng)該直接說(shuō)「噢!這個(gè)方法可以泛化到<這個(gè)任務(wù)分布的樣本上>,這說(shuō)明它能夠泛化運(yùn)行在一些任意的不同的任務(wù)分布上?!箯姆椒ǖ挠行陨险f(shuō),這當(dāng)然不是一個(gè)不好的證據(jù),但是我們確實(shí)需要批判性思考,去考慮:為了在所有的任務(wù)上表現(xiàn)出色,網(wǎng)絡(luò)需要多大的靈活性。
在 2017 年初,Chelsea Finn 和來(lái)自加州大學(xué)伯克利分校的團(tuán)隊(duì)發(fā)布了一項(xiàng)被稱(chēng)為「MAML:模型無(wú)關(guān)的元學(xué)習(xí)」的技術(shù)(https://arxiv.org/abs/1703.03400 )。
在學(xué)習(xí)策略和學(xué)習(xí)先驗(yàn)之間,這種方法傾向于后者。這個(gè)網(wǎng)絡(luò)的目標(biāo)是訓(xùn)練一個(gè)模型,對(duì)于一個(gè)新任務(wù)只需要做單步梯度更新,就可以很好地在這個(gè)任務(wù)上進(jìn)行泛化。偽代碼大概長(zhǎng)這個(gè)樣子:
隨機(jī)初始化一個(gè)網(wǎng)絡(luò)的參數(shù),把這組參數(shù)記為 theta。
在一個(gè)任務(wù)分布 T 中選擇一些任務(wù) t。使用訓(xùn)練集中的 k 個(gè)(k通常在 10 左右)樣本,在當(dāng)前參數(shù)集所在的位置執(zhí)行一個(gè)梯度步,你將得到一組最終的參數(shù)。
在測(cè)試集上評(píng)估使用最終這組參數(shù)的模型性能。
然后,求模型執(zhí)行任務(wù)集 t 的性能關(guān)于初始參數(shù) theta 的梯度。然后根據(jù)這個(gè)梯度更新參數(shù),接下來(lái)回到第一步,使用剛剛更新的 theta 作為這一輪的初始 theta 值。
這是在做什么呢?從一個(gè)非常抽象的層面上講,這是在尋找參數(shù)空間中的一個(gè)點(diǎn),這個(gè)點(diǎn)對(duì)于任務(wù)分布中的許多任務(wù)來(lái)說(shuō),在期望上是泛化最好的那個(gè)點(diǎn)。你也可以認(rèn)為這就像迫使模型在對(duì)參數(shù)空間的探索中維持了一定的不確定性和保守性。簡(jiǎn)而言之:一個(gè)認(rèn)為它的梯度能完全表示整體分布的網(wǎng)絡(luò),可能會(huì)陷入一個(gè)損失特別低的區(qū)域,MAML 更容易被激勵(lì)去找到一個(gè)靠近多個(gè)損失函數(shù)的「峽谷」尖點(diǎn)的區(qū)域,這些「峽谷」在所有的任務(wù)上的期望損失都相當(dāng)?shù)汀U沁@種對(duì)于保守性的激勵(lì)使 MAML 不會(huì)像那些一般通過(guò)少量來(lái)自新任務(wù)的樣本訓(xùn)練的模型一樣過(guò)擬合。
2018 年初,OpenAI 又發(fā)表了一篇名為 Reptile 的論文(https://arxiv.org/abs/1803.02999,雷鋒網(wǎng) AI 科技評(píng)論往期文章點(diǎn)這里)。正如你可能從它的名字中猜到的那樣——使用了早先的 MAML 的方法起名。Reptile 以 MAML 為前提,但是找到了一種更高效的循環(huán)計(jì)算更新初始參數(shù)的方法。MAML 需要顯式地計(jì)算在初始化參數(shù) theta 下運(yùn)行的測(cè)試集損失的梯度,Reptile 則僅在每項(xiàng)任務(wù)中執(zhí)行了幾步 SGD 更新,然后用更新結(jié)束時(shí)的權(quán)重和初始權(quán)重的差異,作為用于更新初始權(quán)重的「梯度」。
從直觀上說(shuō),這項(xiàng)研究能運(yùn)行出任何結(jié)果都非常奇怪,因?yàn)楹?jiǎn)單的說(shuō),這看起來(lái)和在將所有任務(wù)合并而成的一個(gè)任務(wù)上對(duì)模型進(jìn)行訓(xùn)練沒(méi)有任何不同。然而,作者認(rèn)為,由于對(duì)每個(gè)任務(wù)都使用了 SGD 的多個(gè)步驟,每個(gè)任務(wù)損失函數(shù)的二階導(dǎo)數(shù)都被影響了。為了做到這一點(diǎn),他們將更新工作分解為兩部分:
第一項(xiàng):促使結(jié)果趨向「聯(lián)合訓(xùn)練損失」,也就是說(shuō),如果你僅僅使用合并的任務(wù)作為數(shù)據(jù)集,訓(xùn)練會(huì)得到什么樣的結(jié)果。
第二項(xiàng):促使初始化參數(shù)趨向于一個(gè)點(diǎn),在這一點(diǎn),后續(xù)的 SGD mini-batch 的梯度都是接近的:也就是說(shuō),各個(gè) mini-batch 之間的梯度差異很小。作者推測(cè),這一項(xiàng)能夠使得訓(xùn)練時(shí)間更快,因?yàn)樗偈鼓P驮诿總€(gè)任務(wù)上都處于一個(gè)穩(wěn)定、低反差的訓(xùn)練區(qū)域。
我選擇 MAML/Reptile 的組合代表事物的「學(xué)習(xí)到的先驗(yàn)」,因?yàn)閺睦碚撋现v,這個(gè)網(wǎng)絡(luò)通過(guò)對(duì)學(xué)習(xí)內(nèi)部數(shù)據(jù)表示取得了成功,這些數(shù)據(jù)表示要么有助于對(duì)全部的任務(wù)分布進(jìn)行分類(lèi),要么在參數(shù)空間中與普遍使用的數(shù)據(jù)表示相接近。
為了進(jìn)一步明確這一點(diǎn),請(qǐng)看上圖。上圖對(duì) MAML 和一個(gè)預(yù)訓(xùn)練網(wǎng)絡(luò)進(jìn)行了比較,這兩個(gè)網(wǎng)絡(luò)都用一組由不同相位與振幅組成的正弦曲線(xiàn)組成的回歸任務(wù)進(jìn)行訓(xùn)練。這之后,兩個(gè)網(wǎng)絡(luò)都針對(duì)新的具體任務(wù)進(jìn)行了精細(xì)調(diào)節(jié)(fine-tune):如紅色曲線(xiàn)所示。紫色三角的代表寥寥幾步梯度步中使用的數(shù)據(jù)點(diǎn)。與預(yù)訓(xùn)練網(wǎng)絡(luò)相比,MAML 學(xué)到了例如——正弦曲線(xiàn)具有周期性結(jié)構(gòu):在 K=5 時(shí),它可以在沒(méi)有真正從空間的這一區(qū)域觀察到數(shù)據(jù)的情況下快得多地將左邊的峰值移到正確的地方。雖然說(shuō)很難判斷我們的解釋是不是與底層發(fā)生的情況完美地相匹配,但我們不妨推測(cè): MAML 在算出兩個(gè)相關(guān)正弦曲線(xiàn)不同之處——相位和振幅——方面做得更好,同時(shí)也能更好地從給定的數(shù)據(jù)中學(xué)到它們的數(shù)據(jù)表示。
對(duì)一些人來(lái)說(shuō),他們使用已有的、像梯度下降這樣的算法,來(lái)對(duì)全局先驗(yàn)進(jìn)行學(xué)習(xí)。但誰(shuí)說(shuō)我們以往設(shè)計(jì)的算法就是最高效的呢?難道我們不能學(xué)到更好的方法嗎?
這就是 RL2(通過(guò)慢速增強(qiáng)學(xué)習(xí)進(jìn)行快速增強(qiáng)學(xué)習(xí))所采用的方法。這個(gè)模型的基礎(chǔ)結(jié)構(gòu)是循環(huán)神經(jīng)網(wǎng)絡(luò)(具體來(lái)說(shuō),是一個(gè) LTSM 網(wǎng)絡(luò))。因?yàn)?RNN 有儲(chǔ)存狀態(tài)信息的能力,并且給出不同輸出,這些輸是該狀態(tài)的函數(shù),所以理論上它們可以學(xué)到任意可計(jì)算的算法:換而言之,它們都具有圖靈完備的潛力。以此為基礎(chǔ),RL2 的作者設(shè)計(jì)了一個(gè) RNN,每一個(gè)用于訓(xùn)練 RNN 的「序列」事實(shí)上都是一組具有特定 MDP(MDP = Markov Decision Process,馬爾科夫決策過(guò)程?;谶@個(gè)解釋?zhuān)阒恍鑼⒚看?MDP 看作定義一系列可能動(dòng)作并且在環(huán)境中對(duì)這些動(dòng)作產(chǎn)生獎(jiǎng)勵(lì))的經(jīng)驗(yàn)片段。接著,會(huì)在許多序列上訓(xùn)練這個(gè) RNN,像一般的 RNN 一樣,這樣就會(huì)對(duì)應(yīng)多個(gè)不同的 MDP,并且 RNN 的參數(shù)會(huì)被優(yōu)化,使得找所有序列或試驗(yàn)集合中產(chǎn)生的負(fù)反饋(regret)較低。負(fù)反饋(regret)是一個(gè)可以捕獲你一組事件中所有獎(jiǎng)勵(lì)的度量,所以除了激勵(lì)網(wǎng)絡(luò)在試驗(yàn)結(jié)束時(shí)得到更好的策略之外,它還可以激勵(lì)網(wǎng)絡(luò)更快地進(jìn)行學(xué)習(xí),以致于網(wǎng)絡(luò)會(huì)在低回報(bào)的策略中更少地使用探索性動(dòng)作。
在試驗(yàn)中的每一個(gè)點(diǎn),網(wǎng)絡(luò)采取的動(dòng)作都是一個(gè)以從都個(gè)任務(wù)中學(xué)到的權(quán)重和隱含狀態(tài)的內(nèi)容為常數(shù)的函數(shù),隱藏狀態(tài)的內(nèi)容是作為數(shù)據(jù)的函數(shù)進(jìn)行更新并用作動(dòng)態(tài)參數(shù)集合。因此,RNN 在多個(gè)任務(wù)中學(xué)習(xí)到了如何更新隱含狀態(tài)的權(quán)重,以及控制如何利用隱含狀態(tài)的權(quán)重。然后,在一個(gè)給定的任務(wù)中,隱藏狀態(tài)可以描述網(wǎng)絡(luò)的確定性、當(dāng)前應(yīng)該繼續(xù)探索還是利用學(xué)到的信息,等等,作為它在這個(gè)特定任務(wù)中看到的數(shù)據(jù)的函數(shù)。從這個(gè)意義上講,RNN 這種學(xué)習(xí)算法決定了如何最好地探索空間、把什么樣的策略看作最佳策略,而且通過(guò)學(xué)習(xí)使該算法在一組任務(wù)分布上得到很好的效果。該作者把 RL2 的架構(gòu)和專(zhuān)門(mén)對(duì)任務(wù)進(jìn)行過(guò)漸進(jìn)優(yōu)化的算法進(jìn)行了對(duì)比,RL2 取得了與其相當(dāng)?shù)男阅堋?/p>
本文只是對(duì)該領(lǐng)域一個(gè)非常精煉的簡(jiǎn)介,我確信我忽略了一些想法或者概念。如果你需要其它(更明智的)的觀點(diǎn),我強(qiáng)烈推薦這篇 Chelsea Finn 的博客(http://bair.berkeley.edu/blog/2017/07/18/learning-to-learn/,雷鋒網(wǎng) AI 科技評(píng)論譯文見(jiàn)這里),Chelsea Finn 是 MAML 論文的第一作者。
過(guò)去的幾周中,我試著從概念上對(duì)這些文章進(jìn)行壓縮,并產(chǎn)生一個(gè)能夠普遍解釋這些文章的理解,在這個(gè)過(guò)程中我想到了一系列一般性的問(wèn)題:
這些方法該如何被擴(kuò)展到更多樣的任務(wù)?這些文章大多是在多樣性較低的任務(wù)分布中對(duì)概念進(jìn)行了驗(yàn)證:具有不同參數(shù)的正弦曲線(xiàn)、參數(shù)不同的吃角子老虎機(jī)、不同語(yǔ)言的字符識(shí)別。我認(rèn)為,在這些任務(wù)上性能好并不是顯然能在復(fù)雜程度不同、模態(tài)不同的任務(wù)上得以泛化,例如圖像識(shí)別、問(wèn)答和邏輯謎題結(jié)合的任務(wù)。然而,人類(lèi)的大腦確實(shí)從這些高度多樣化的任務(wù)中形成了先驗(yàn),可以在不同的任務(wù)中來(lái)回傳遞關(guān)于世界的信息。我主要的問(wèn)題是:只要你投入更多的單元計(jì)算它們,這些方法在這些更多樣的任務(wù)中是否會(huì)像作者們宣稱(chēng)的一樣有效?或者,在任務(wù)多樣性曲線(xiàn)上的某一點(diǎn)上,是否存在一種非線(xiàn)性效應(yīng),使得在這些低多樣性的情況下起作用的方法在高多樣性問(wèn)題中并不有效。
這些方法在多大程度上依賴(lài)于大量計(jì)算?這些文章中的大部分都使用小型簡(jiǎn)單的數(shù)據(jù)集的部分原因是,當(dāng)你每訓(xùn)練一次,就會(huì)涉及一個(gè)內(nèi)部循環(huán),這個(gè)內(nèi)部循環(huán)則包含(有效地)用元參數(shù)效果相關(guān)的數(shù)據(jù)點(diǎn)訓(xùn)練模型,以及測(cè)試,這都是需要耗費(fèi)相當(dāng)大時(shí)間和計(jì)算量的。由于現(xiàn)在摩爾定律似乎漸漸失效,在 Google 以外的地方研究這些算法的實(shí)用版本的可能性有多大?在這種情況下,每個(gè)內(nèi)部循環(huán)對(duì)一個(gè)難題進(jìn)行迭代可能要花費(fèi)數(shù)百個(gè)小時(shí)的 GPU 時(shí)間。
這些方法與尋找能顯式地對(duì)這個(gè)世界的先驗(yàn)進(jìn)行編碼的思路相比如何呢?語(yǔ)言是人類(lèi)世界的百寶箱中一個(gè)十分有價(jià)值的工具。以機(jī)器學(xué)習(xí)的話(huà)來(lái)說(shuō),基本上是是將高度壓縮的信息嵌入我們知道該如何在概念上進(jìn)行操作的空間中,我們可以將這些信息從一個(gè)人傳遞給另一個(gè)人。沒(méi)人可以獨(dú)立地從經(jīng)驗(yàn)中提取出所有這些知識(shí),所以除非我們弄清楚如何做出與這些學(xué)習(xí)算法相似的事,不然我懷疑我們是否真的可以整合關(guān)于世界的知識(shí),建立解決問(wèn)題的模型。
via towardsdatascience,雷鋒網(wǎng) AI 科技評(píng)論編譯
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。