1
雷鋒網(wǎng) AI 科技評論按:本文作者 Cody Marie Wild,她是一位機(jī)器學(xué)習(xí)領(lǐng)域的數(shù)據(jù)科學(xué)家,在生活中還是名貓咪鏟屎官,她鐘愛語言和簡潔優(yōu)美的系統(tǒng)。在這篇文章中,Cody 介紹了元學(xué)習(xí)的基本概念和方法類別,討論了「元學(xué)習(xí)」到底在學(xué)什么、又有哪些限制。雷鋒網(wǎng) AI 科技評論把全文編譯如下。
當(dāng)我第一次聽到「元學(xué)習(xí)」的時(shí)候,它的概念是如此地令我沉醉:這個(gè)項(xiàng)目要構(gòu)建不僅能夠進(jìn)行學(xué)習(xí)的機(jī)器,這些機(jī)器還能學(xué)習(xí)「如何學(xué)習(xí)」的方法。理想的元學(xué)習(xí)算法應(yīng)該能夠根據(jù)反應(yīng)其性能的信號去修改它們的基本結(jié)構(gòu)、參數(shù)空間,或者能夠在它們面對新的環(huán)境時(shí)利用它們之前積累起來的經(jīng)驗(yàn)。簡而言之:當(dāng)未來主義者憧憬著通用強(qiáng)人工智能時(shí),符合這種描述的組件就是這個(gè)愿景必不可少的組成部分。
本文的目的在于從這些高屋建瓴的概念慢慢落到實(shí)處,從我們所想象的那些抽象的能夠自我修改的智能體可以做的事開始,一直到這個(gè)領(lǐng)域的現(xiàn)狀,來討論這個(gè)領(lǐng)域的成功、它的局限性,以及我們距離魯棒的多任務(wù)人工智能還有多遠(yuǎn)。
具體而言:在許多強(qiáng)化學(xué)習(xí)任務(wù)中,相對于人類而言,算法需要花費(fèi)長得多的時(shí)間去學(xué)習(xí)任務(wù);目前最先進(jìn)的能夠玩 Atari 游戲的算法需要花 83 個(gè)小時(shí)(或 1800萬幀)的游戲時(shí)間才能達(dá)到人類的平均表現(xiàn),大多數(shù)人在玩了幾個(gè)小時(shí)游戲之后就能達(dá)到這個(gè)水平。
這種差異導(dǎo)致機(jī)器學(xué)習(xí)研究人員提出這樣的一個(gè)問題:人類大腦在這樣的任務(wù)體現(xiàn)了什么樣的工具和能力,我們?nèi)绾文軌蛴媒y(tǒng)計(jì)學(xué)和信息論的方式理解這些工具呢?具體來說,元學(xué)習(xí)的研究人員所追求的策略似乎可以分為兩類,它們大致可以和下面兩種人類認(rèn)知「什么是工具」的理論相對應(yīng)。
學(xué)到的先驗(yàn)知識:從這一點(diǎn)看,人類可以很快地學(xué)習(xí)新的任務(wù),因?yàn)槲覀兛梢灾貜?fù)使用我們已經(jīng)在之前的任務(wù)中學(xué)到的信息。比如直覺上物體如何在空間中移動(dòng)的物理特征,或者在一個(gè)電子游戲中死掉會(huì)降低獎(jiǎng)勵(lì)的元知識。
學(xué)到的策略:這種思路是,在我們的生活中(或許在進(jìn)化的過程中),我們不僅僅收集對象級別的關(guān)于世界的知識,而且還建立了一個(gè)更高效的神經(jīng)結(jié)構(gòu),這種結(jié)構(gòu)使得我們即使在非常新的環(huán)境中也能接受輸入,并且準(zhǔn)確地將其轉(zhuǎn)化為輸出或者策略。
現(xiàn)如今,很明顯,這兩個(gè)觀點(diǎn)并不是相互排斥的,而且這兩者之間甚至并沒有一個(gè)硬性的、快速區(qū)分它們的邊界:我們與世界互動(dòng)的一些硬編碼策略可能是基于對世界的深刻的先驗(yàn)知識,正如事實(shí)上(至少對于所有與這篇博文相關(guān)的目的而言)世界有一個(gè)因果結(jié)構(gòu)。即便如此,我覺得這兩個(gè)想法的區(qū)別足夠大,值得我們將它們分到這兩個(gè)標(biāo)簽之下,并且將他們看作一個(gè)平面上的 x 和 y 坐標(biāo)。
在正式研究元學(xué)習(xí)之前,了解一些與單樣本學(xué)習(xí)相關(guān)的概念基礎(chǔ)是十分有用的。如果說元學(xué)習(xí)的問題在于「如何建立一個(gè)能快速學(xué)習(xí)新任務(wù)的模型」,那么單樣本學(xué)習(xí)的問題則是:我們?nèi)绾谓⒁粋€(gè)模型,它能夠在只看到某個(gè)類別的一個(gè)示例后,就能夠?qū)W習(xí)如何去對這個(gè)類別進(jìn)行分類。
現(xiàn)在,我們不妨思考一下,從概念層面上說,是什么讓單樣本學(xué)習(xí)如此困難。如果我們試著只用某一個(gè)類別的一個(gè)樣本數(shù)據(jù)上訓(xùn)練一般性的模型,這幾乎必然會(huì)產(chǎn)生過擬合。如果一個(gè)模型僅僅能得到一個(gè)手寫數(shù)字的數(shù)據(jù),比方說「3」,它不會(huì)知道一張圖片可以經(jīng)過怎樣的像素變化之后還能在本質(zhì)上是一個(gè)「3」。例如,如果這個(gè)這個(gè)模型僅僅看到了一組數(shù)字中的第一個(gè)「3」,他如何能知道第二個(gè)「3」也是同種數(shù)字這樣的先驗(yàn)?zāi)??從理論上講,我們感興趣的類別標(biāo)簽在網(wǎng)絡(luò)學(xué)習(xí)中與構(gòu)成它的線條的粗細(xì)情況可能相關(guān)嗎?對于人類來說,這似乎是很愚蠢的想法,但是由于我們只有一個(gè)「3」的示例,網(wǎng)絡(luò)需要進(jìn)行的推斷并不簡單,所以這也不失為一種有效的嘗試。
更多的數(shù)字「3」的示例有助于解決這個(gè)問題,因?yàn)槲覀兛梢粤私鈭D像的什么特性決定了它是「3」:主要是垂直方向上存在的兩個(gè)凸形。以及了解什么樣的修改是無關(guān)緊要的:線條的粗細(xì)、角度的銳度。為了成功地進(jìn)行單樣本學(xué)習(xí),我們必須激勵(lì)網(wǎng)絡(luò)去學(xué)習(xí)什么樣的屬性能夠在不給出每個(gè)數(shù)字所允許的具體的變化的情況下,泛化性地將一個(gè)數(shù)字和另外的數(shù)字區(qū)分開來。
在單樣本學(xué)習(xí)中,一個(gè)常見的技巧是學(xué)習(xí)一個(gè)嵌入空間,在這個(gè)空間中計(jì)算兩個(gè)樣本的表示之間的歐式距離,這是一種很好的計(jì)算兩個(gè)樣本是否屬于同一類的方法。從直覺上來說,這需要學(xué)習(xí)在這個(gè)分布中總體來講可以使得類別間的差異最強(qiáng)的內(nèi)部維度,并且學(xué)習(xí)如何將輸入壓縮、轉(zhuǎn)化成最相關(guān)的維度。
我發(fā)現(xiàn),首先考慮這樣的問題是一個(gè)很有用的基礎(chǔ)。我們并非試圖學(xué)習(xí)如何總結(jié)各種不同的類之間共通的信息和模式,而是試圖學(xué)習(xí)一組任務(wù)中的總會(huì)存在的規(guī)律,并且每個(gè)任務(wù)都有自己的內(nèi)部結(jié)構(gòu)或者目標(biāo)。
如果要我以從低到高的抽象程度為標(biāo)準(zhǔn)對神經(jīng)網(wǎng)絡(luò)的元參數(shù)進(jìn)行排序,排序結(jié)果應(yīng)該如下:
一個(gè)能夠通過超參數(shù)梯度下降法學(xué)習(xí)到完整的任務(wù)分布上的數(shù)據(jù)表示的網(wǎng)絡(luò)。MAML 和 Reptile 就是一個(gè)這樣做的很通俗易懂的例子。而共享層次的元學(xué)習(xí)也是一種有趣的方法,它將學(xué)習(xí)數(shù)據(jù)表示作為被一個(gè)主策略控制的顯式子策略去學(xué)習(xí)。
一個(gè)能夠?qū)W著去優(yōu)化自己的梯度下降操作的參數(shù)的網(wǎng)絡(luò)。這些參數(shù)包括:學(xué)習(xí)率、動(dòng)量、自適應(yīng)學(xué)習(xí)率算法的權(quán)重。在這里,我們開始沿著修改學(xué)習(xí)算法本身的道路前進(jìn),但是我們的方法是有限的、參數(shù)化的。這就是《Learning to Learn by Gradient Descent by Gradient Descent》(https://arxiv.org/abs/1606.04474)一文所做的工作。
一個(gè)能夠?qū)W到本身就是神經(jīng)網(wǎng)絡(luò)的內(nèi)循環(huán)優(yōu)化器的網(wǎng)絡(luò)。也就是說:在這里,梯度下降算法被應(yīng)用于更新神經(jīng)優(yōu)化器網(wǎng)絡(luò)的參數(shù),使其在各項(xiàng)任務(wù)中運(yùn)行良好,但是每個(gè)任務(wù)中輸入數(shù)據(jù)到輸出預(yù)測的映射是完全由網(wǎng)絡(luò)進(jìn)行的,沒有任何顯式的損失或者梯度計(jì)算。這就是 RL2(https://arxiv.org/abs/1611.02779)和 A simple neural attentive meta learner (https://openreview.net/forum?id=B1DmUzWAW) 的工作方式。
為了使本文不那么龐大,我將主要關(guān)注 1 和 3,以說明這個(gè)連續(xù)的概念譜的兩端。
此外還有一個(gè)小問題,最后一個(gè)......我保證!我希望能夠澄清一個(gè)令人困惑的話題。通常,在關(guān)于元學(xué)習(xí)的討論中,你常常會(huì)看到「任務(wù)分布」的概念。你可能會(huì)注意到這是一個(gè)定義不明確的概念,是的,你是對的!似乎沒有一個(gè)明確的標(biāo)準(zhǔn)來判斷什么時(shí)候一個(gè)問題是一個(gè)任務(wù),或者一個(gè)任務(wù)分布。例如:我們是否應(yīng)該把 ImageNet 看作一個(gè)任務(wù)——物體識別——或者多項(xiàng)任務(wù):在一個(gè)任務(wù)中區(qū)分狗,在另一個(gè)任務(wù)中區(qū)分貓。為什么將玩 Atari 游戲視為一個(gè)單獨(dú)的任務(wù),而不是將游戲中的各個(gè)關(guān)卡分別作為多個(gè)任務(wù)?
我已經(jīng)能從這一切描述中總結(jié)出來的是:
「任務(wù)」的概念與「我們建立了什么樣的數(shù)據(jù)集」這兩個(gè)概念是糾纏在一起的,因?yàn)槲覀儠?huì)很自然地把學(xué)習(xí)一個(gè)數(shù)據(jù)集作為一個(gè)單一的任務(wù)
對于任何給定的任務(wù)分布,其中的任務(wù)之間的差異可以是非常明顯的(例如:任務(wù)分布中的每個(gè)任務(wù)都在學(xué)習(xí)一個(gè)不同振幅的正弦波 vs 任務(wù)分布中的每個(gè)任務(wù)都在玩不同的 Atari 游戲)
因此,我們不應(yīng)該直接說「噢!這個(gè)方法可以泛化到<這個(gè)任務(wù)分布的樣本上>,這說明它能夠泛化運(yùn)行在一些任意的不同的任務(wù)分布上?!箯姆椒ǖ挠行陨险f,這當(dāng)然不是一個(gè)不好的證據(jù),但是我們確實(shí)需要批判性思考,去考慮:為了在所有的任務(wù)上表現(xiàn)出色,網(wǎng)絡(luò)需要多大的靈活性。
在 2017 年初,Chelsea Finn 和來自加州大學(xué)伯克利分校的團(tuán)隊(duì)發(fā)布了一項(xiàng)被稱為「MAML:模型無關(guān)的元學(xué)習(xí)」的技術(shù)(https://arxiv.org/abs/1703.03400 )。
在學(xué)習(xí)策略和學(xué)習(xí)先驗(yàn)之間,這種方法傾向于后者。這個(gè)網(wǎng)絡(luò)的目標(biāo)是訓(xùn)練一個(gè)模型,對于一個(gè)新任務(wù)只需要做單步梯度更新,就可以很好地在這個(gè)任務(wù)上進(jìn)行泛化。偽代碼大概長這個(gè)樣子:
隨機(jī)初始化一個(gè)網(wǎng)絡(luò)的參數(shù),把這組參數(shù)記為 theta。
在一個(gè)任務(wù)分布 T 中選擇一些任務(wù) t。使用訓(xùn)練集中的 k 個(gè)(k通常在 10 左右)樣本,在當(dāng)前參數(shù)集所在的位置執(zhí)行一個(gè)梯度步,你將得到一組最終的參數(shù)。
在測試集上評估使用最終這組參數(shù)的模型性能。
然后,求模型執(zhí)行任務(wù)集 t 的性能關(guān)于初始參數(shù) theta 的梯度。然后根據(jù)這個(gè)梯度更新參數(shù),接下來回到第一步,使用剛剛更新的 theta 作為這一輪的初始 theta 值。
這是在做什么呢?從一個(gè)非常抽象的層面上講,這是在尋找參數(shù)空間中的一個(gè)點(diǎn),這個(gè)點(diǎn)對于任務(wù)分布中的許多任務(wù)來說,在期望上是泛化最好的那個(gè)點(diǎn)。你也可以認(rèn)為這就像迫使模型在對參數(shù)空間的探索中維持了一定的不確定性和保守性。簡而言之:一個(gè)認(rèn)為它的梯度能完全表示整體分布的網(wǎng)絡(luò),可能會(huì)陷入一個(gè)損失特別低的區(qū)域,MAML 更容易被激勵(lì)去找到一個(gè)靠近多個(gè)損失函數(shù)的「峽谷」尖點(diǎn)的區(qū)域,這些「峽谷」在所有的任務(wù)上的期望損失都相當(dāng)?shù)汀U沁@種對于保守性的激勵(lì)使 MAML 不會(huì)像那些一般通過少量來自新任務(wù)的樣本訓(xùn)練的模型一樣過擬合。
2018 年初,OpenAI 又發(fā)表了一篇名為 Reptile 的論文(https://arxiv.org/abs/1803.02999,雷鋒網(wǎng) AI 科技評論往期文章點(diǎn)這里)。正如你可能從它的名字中猜到的那樣——使用了早先的 MAML 的方法起名。Reptile 以 MAML 為前提,但是找到了一種更高效的循環(huán)計(jì)算更新初始參數(shù)的方法。MAML 需要顯式地計(jì)算在初始化參數(shù) theta 下運(yùn)行的測試集損失的梯度,Reptile 則僅在每項(xiàng)任務(wù)中執(zhí)行了幾步 SGD 更新,然后用更新結(jié)束時(shí)的權(quán)重和初始權(quán)重的差異,作為用于更新初始權(quán)重的「梯度」。
從直觀上說,這項(xiàng)研究能運(yùn)行出任何結(jié)果都非常奇怪,因?yàn)楹唵蔚恼f,這看起來和在將所有任務(wù)合并而成的一個(gè)任務(wù)上對模型進(jìn)行訓(xùn)練沒有任何不同。然而,作者認(rèn)為,由于對每個(gè)任務(wù)都使用了 SGD 的多個(gè)步驟,每個(gè)任務(wù)損失函數(shù)的二階導(dǎo)數(shù)都被影響了。為了做到這一點(diǎn),他們將更新工作分解為兩部分:
第一項(xiàng):促使結(jié)果趨向「聯(lián)合訓(xùn)練損失」,也就是說,如果你僅僅使用合并的任務(wù)作為數(shù)據(jù)集,訓(xùn)練會(huì)得到什么樣的結(jié)果。
第二項(xiàng):促使初始化參數(shù)趨向于一個(gè)點(diǎn),在這一點(diǎn),后續(xù)的 SGD mini-batch 的梯度都是接近的:也就是說,各個(gè) mini-batch 之間的梯度差異很小。作者推測,這一項(xiàng)能夠使得訓(xùn)練時(shí)間更快,因?yàn)樗偈鼓P驮诿總€(gè)任務(wù)上都處于一個(gè)穩(wěn)定、低反差的訓(xùn)練區(qū)域。
我選擇 MAML/Reptile 的組合代表事物的「學(xué)習(xí)到的先驗(yàn)」,因?yàn)閺睦碚撋现v,這個(gè)網(wǎng)絡(luò)通過對學(xué)習(xí)內(nèi)部數(shù)據(jù)表示取得了成功,這些數(shù)據(jù)表示要么有助于對全部的任務(wù)分布進(jìn)行分類,要么在參數(shù)空間中與普遍使用的數(shù)據(jù)表示相接近。
為了進(jìn)一步明確這一點(diǎn),請看上圖。上圖對 MAML 和一個(gè)預(yù)訓(xùn)練網(wǎng)絡(luò)進(jìn)行了比較,這兩個(gè)網(wǎng)絡(luò)都用一組由不同相位與振幅組成的正弦曲線組成的回歸任務(wù)進(jìn)行訓(xùn)練。這之后,兩個(gè)網(wǎng)絡(luò)都針對新的具體任務(wù)進(jìn)行了精細(xì)調(diào)節(jié)(fine-tune):如紅色曲線所示。紫色三角的代表寥寥幾步梯度步中使用的數(shù)據(jù)點(diǎn)。與預(yù)訓(xùn)練網(wǎng)絡(luò)相比,MAML 學(xué)到了例如——正弦曲線具有周期性結(jié)構(gòu):在 K=5 時(shí),它可以在沒有真正從空間的這一區(qū)域觀察到數(shù)據(jù)的情況下快得多地將左邊的峰值移到正確的地方。雖然說很難判斷我們的解釋是不是與底層發(fā)生的情況完美地相匹配,但我們不妨推測: MAML 在算出兩個(gè)相關(guān)正弦曲線不同之處——相位和振幅——方面做得更好,同時(shí)也能更好地從給定的數(shù)據(jù)中學(xué)到它們的數(shù)據(jù)表示。
對一些人來說,他們使用已有的、像梯度下降這樣的算法,來對全局先驗(yàn)進(jìn)行學(xué)習(xí)。但誰說我們以往設(shè)計(jì)的算法就是最高效的呢?難道我們不能學(xué)到更好的方法嗎?
這就是 RL2(通過慢速增強(qiáng)學(xué)習(xí)進(jìn)行快速增強(qiáng)學(xué)習(xí))所采用的方法。這個(gè)模型的基礎(chǔ)結(jié)構(gòu)是循環(huán)神經(jīng)網(wǎng)絡(luò)(具體來說,是一個(gè) LTSM 網(wǎng)絡(luò))。因?yàn)?RNN 有儲存狀態(tài)信息的能力,并且給出不同輸出,這些輸是該狀態(tài)的函數(shù),所以理論上它們可以學(xué)到任意可計(jì)算的算法:換而言之,它們都具有圖靈完備的潛力。以此為基礎(chǔ),RL2 的作者設(shè)計(jì)了一個(gè) RNN,每一個(gè)用于訓(xùn)練 RNN 的「序列」事實(shí)上都是一組具有特定 MDP(MDP = Markov Decision Process,馬爾科夫決策過程。基于這個(gè)解釋,你只需將每次 MDP 看作定義一系列可能動(dòng)作并且在環(huán)境中對這些動(dòng)作產(chǎn)生獎(jiǎng)勵(lì))的經(jīng)驗(yàn)片段。接著,會(huì)在許多序列上訓(xùn)練這個(gè) RNN,像一般的 RNN 一樣,這樣就會(huì)對應(yīng)多個(gè)不同的 MDP,并且 RNN 的參數(shù)會(huì)被優(yōu)化,使得找所有序列或試驗(yàn)集合中產(chǎn)生的負(fù)反饋(regret)較低。負(fù)反饋(regret)是一個(gè)可以捕獲你一組事件中所有獎(jiǎng)勵(lì)的度量,所以除了激勵(lì)網(wǎng)絡(luò)在試驗(yàn)結(jié)束時(shí)得到更好的策略之外,它還可以激勵(lì)網(wǎng)絡(luò)更快地進(jìn)行學(xué)習(xí),以致于網(wǎng)絡(luò)會(huì)在低回報(bào)的策略中更少地使用探索性動(dòng)作。
在試驗(yàn)中的每一個(gè)點(diǎn),網(wǎng)絡(luò)采取的動(dòng)作都是一個(gè)以從都個(gè)任務(wù)中學(xué)到的權(quán)重和隱含狀態(tài)的內(nèi)容為常數(shù)的函數(shù),隱藏狀態(tài)的內(nèi)容是作為數(shù)據(jù)的函數(shù)進(jìn)行更新并用作動(dòng)態(tài)參數(shù)集合。因此,RNN 在多個(gè)任務(wù)中學(xué)習(xí)到了如何更新隱含狀態(tài)的權(quán)重,以及控制如何利用隱含狀態(tài)的權(quán)重。然后,在一個(gè)給定的任務(wù)中,隱藏狀態(tài)可以描述網(wǎng)絡(luò)的確定性、當(dāng)前應(yīng)該繼續(xù)探索還是利用學(xué)到的信息,等等,作為它在這個(gè)特定任務(wù)中看到的數(shù)據(jù)的函數(shù)。從這個(gè)意義上講,RNN 這種學(xué)習(xí)算法決定了如何最好地探索空間、把什么樣的策略看作最佳策略,而且通過學(xué)習(xí)使該算法在一組任務(wù)分布上得到很好的效果。該作者把 RL2 的架構(gòu)和專門對任務(wù)進(jìn)行過漸進(jìn)優(yōu)化的算法進(jìn)行了對比,RL2 取得了與其相當(dāng)?shù)男阅堋?/p>
本文只是對該領(lǐng)域一個(gè)非常精煉的簡介,我確信我忽略了一些想法或者概念。如果你需要其它(更明智的)的觀點(diǎn),我強(qiáng)烈推薦這篇 Chelsea Finn 的博客(http://bair.berkeley.edu/blog/2017/07/18/learning-to-learn/,雷鋒網(wǎng) AI 科技評論譯文見這里),Chelsea Finn 是 MAML 論文的第一作者。
過去的幾周中,我試著從概念上對這些文章進(jìn)行壓縮,并產(chǎn)生一個(gè)能夠普遍解釋這些文章的理解,在這個(gè)過程中我想到了一系列一般性的問題:
這些方法該如何被擴(kuò)展到更多樣的任務(wù)?這些文章大多是在多樣性較低的任務(wù)分布中對概念進(jìn)行了驗(yàn)證:具有不同參數(shù)的正弦曲線、參數(shù)不同的吃角子老虎機(jī)、不同語言的字符識別。我認(rèn)為,在這些任務(wù)上性能好并不是顯然能在復(fù)雜程度不同、模態(tài)不同的任務(wù)上得以泛化,例如圖像識別、問答和邏輯謎題結(jié)合的任務(wù)。然而,人類的大腦確實(shí)從這些高度多樣化的任務(wù)中形成了先驗(yàn),可以在不同的任務(wù)中來回傳遞關(guān)于世界的信息。我主要的問題是:只要你投入更多的單元計(jì)算它們,這些方法在這些更多樣的任務(wù)中是否會(huì)像作者們宣稱的一樣有效?或者,在任務(wù)多樣性曲線上的某一點(diǎn)上,是否存在一種非線性效應(yīng),使得在這些低多樣性的情況下起作用的方法在高多樣性問題中并不有效。
這些方法在多大程度上依賴于大量計(jì)算?這些文章中的大部分都使用小型簡單的數(shù)據(jù)集的部分原因是,當(dāng)你每訓(xùn)練一次,就會(huì)涉及一個(gè)內(nèi)部循環(huán),這個(gè)內(nèi)部循環(huán)則包含(有效地)用元參數(shù)效果相關(guān)的數(shù)據(jù)點(diǎn)訓(xùn)練模型,以及測試,這都是需要耗費(fèi)相當(dāng)大時(shí)間和計(jì)算量的。由于現(xiàn)在摩爾定律似乎漸漸失效,在 Google 以外的地方研究這些算法的實(shí)用版本的可能性有多大?在這種情況下,每個(gè)內(nèi)部循環(huán)對一個(gè)難題進(jìn)行迭代可能要花費(fèi)數(shù)百個(gè)小時(shí)的 GPU 時(shí)間。
這些方法與尋找能顯式地對這個(gè)世界的先驗(yàn)進(jìn)行編碼的思路相比如何呢?語言是人類世界的百寶箱中一個(gè)十分有價(jià)值的工具。以機(jī)器學(xué)習(xí)的話來說,基本上是是將高度壓縮的信息嵌入我們知道該如何在概念上進(jìn)行操作的空間中,我們可以將這些信息從一個(gè)人傳遞給另一個(gè)人。沒人可以獨(dú)立地從經(jīng)驗(yàn)中提取出所有這些知識,所以除非我們弄清楚如何做出與這些學(xué)習(xí)算法相似的事,不然我懷疑我們是否真的可以整合關(guān)于世界的知識,建立解決問題的模型。
via towardsdatascience,雷鋒網(wǎng) AI 科技評論編譯
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。