丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能開發(fā)者 正文
發(fā)私信給汪思穎
發(fā)送

0

元學(xué)習(xí):實(shí)現(xiàn)通用人工智能的關(guān)鍵!

本文作者: 汪思穎 編輯:郭奕欣 2017-08-21 19:07
導(dǎo)語:一文帶你看遍元學(xué)習(xí)

雷鋒網(wǎng)按 :本文作者Flood Sung,本文原載于其知乎專欄——智能單元。雷鋒網(wǎng)已獲得原作者授權(quán)。

1 前言

Meta Learning(元學(xué)習(xí))或者叫做 Learning to Learn(學(xué)會(huì)學(xué)習(xí))已經(jīng)成為繼Reinforcement Learning(增強(qiáng)學(xué)習(xí))之后又一個(gè)重要的研究分支(以后僅稱為Meta Learning)。對(duì)于人工智能的理論研究,呈現(xiàn)出了

Artificial Intelligence --> Machine Learning --> Deep Learning --> Deep Reinforcement Learning --> Deep Meta Learning

這樣的趨勢(shì)。

之所以會(huì)這樣發(fā)展完全取決于當(dāng)前人工智能的發(fā)展。在Machine Learning時(shí)代,復(fù)雜一點(diǎn)的分類問題效果就不好了,Deep Learning深度學(xué)習(xí)的出現(xiàn)基本上解決了一對(duì)一映射的問題,比如說圖像分類,一個(gè)輸入對(duì)一個(gè)輸出,因此出現(xiàn)了AlexNet這樣的里程碑式的成果。但如果輸出對(duì)下一個(gè)輸入還有影響呢?也就是sequential decision making的問題,單一的深度學(xué)習(xí)就解決不了了,這個(gè)時(shí)候Reinforcement Learning增強(qiáng)學(xué)習(xí)就出來了,Deep Learning + Reinforcement Learning = Deep Reinforcement Learning深度增強(qiáng)學(xué)習(xí)。有了深度增強(qiáng)學(xué)習(xí),序列決策初步取得成效,因此,出現(xiàn)了AlphaGo這樣的里程碑式的成果。但是,新的問題又出來了,深度增強(qiáng)學(xué)習(xí)太依賴于巨量的訓(xùn)練,并且需要精確的Reward,對(duì)于現(xiàn)實(shí)世界的很多問題,比如機(jī)器人學(xué)習(xí),沒有好的reward,也沒辦法無限量訓(xùn)練,怎么辦?這就需要能夠快速學(xué)習(xí)。而人類之所以能夠快速學(xué)習(xí)的關(guān)鍵是人類具備學(xué)會(huì)學(xué)習(xí)的能力,能夠充分的利用以往的知識(shí)經(jīng)驗(yàn)來指導(dǎo)新任務(wù)的學(xué)習(xí),因此Meta Learning成為新的攻克的方向。

與此同時(shí),星際2 DeepMind使用現(xiàn)有深度增強(qiáng)學(xué)習(xí)算法失效說明了目前的深度增強(qiáng)學(xué)習(xí)算法很難應(yīng)對(duì)過于復(fù)雜的動(dòng)作空間的情況,特別是需要真正意義的戰(zhàn)略戰(zhàn)術(shù)思考的問題。這引到了通用人工智能中極其核心的一個(gè)問題,就是要讓人工智能自己學(xué)會(huì)思考,學(xué)會(huì)推理。AlphaGo在我看來在棋盤特征輸入到神經(jīng)網(wǎng)絡(luò)的過程中完成了思考,但是圍棋的動(dòng)作空間畢竟非常有限,也就是幾百個(gè)選擇,這和星際2幾乎無窮的選擇對(duì)比就差太多了(按屏幕分辨率*鼠標(biāo)加鍵盤的按鍵 = 1920*1080*10 約等于20,000,000種選擇)。然而在如此巨量選擇的情況下,人類依然沒問題,關(guān)鍵是人類通過確定的戰(zhàn)略戰(zhàn)術(shù)大幅度降低了選擇范圍(比如當(dāng)前目標(biāo)就是造人,挖礦)因此如何使人工智能能夠?qū)W會(huì)思考,構(gòu)造戰(zhàn)術(shù)非常關(guān)鍵。這個(gè)問題甚至比快速學(xué)習(xí)還要困難,但是Meta Learning因?yàn)榫邆鋵W(xué)會(huì)學(xué)習(xí)的能力,或許也可以學(xué)會(huì)思考。因此,Meta Learning依然是學(xué)會(huì)思考這種高難度問題的潛在解決方法之一。

經(jīng)過以上的分析,不過是為了得出下面的結(jié)論:

Meta Learning是實(shí)現(xiàn)通用人工智能的關(guān)鍵!

在本文之前,專欄已經(jīng)發(fā)布了兩篇和Meta Learning相關(guān)的文章:

  1. 學(xué)會(huì)學(xué)習(xí)Learning to Learn:讓AI擁有核心價(jià)值觀從而實(shí)現(xiàn)快速學(xué)習(xí)

  2. 機(jī)器人革命與學(xué)會(huì)學(xué)習(xí)Learning to Learn

之前采用Learning to Learn這個(gè)名稱是希望讓更多的知友明白這個(gè)概念,從本篇開始,我們會(huì)直接使用Meta Learning這個(gè)名稱(其實(shí)只是因?yàn)檫@個(gè)名稱看起來更專業(yè)更酷)

關(guān)于Meta Learning的概念本文就不介紹了,在上面列出的兩篇Blog已有講解。本文將和大家分享一下Meta Learning的一些最前沿的研究進(jìn)展,可以說是百家爭(zhēng)鳴的階段。

2 Meta Learning百花齊放的研究思路

為什么說Meta Learning的研究是百家爭(zhēng)鳴呢?因?yàn)槊恳患业难芯克悸范纪耆煌?,真的是各種方法各種試,呈現(xiàn)出一種智慧大爆發(fā)的階段。

關(guān)于Meta Learning的papers,我收集了一下:

songrotek/Meta-Learning-Papers

這里主要分析一下最近一兩年來的發(fā)展情況,先作個(gè)分類,然后做一下簡(jiǎn)要的分析。

2.1 基于記憶Memory的方法

基本思路:既然要通過以往的經(jīng)驗(yàn)來學(xué)習(xí),那么是不是可以通過在神經(jīng)網(wǎng)絡(luò)上添加Memory來實(shí)現(xiàn)呢?

代表文章:

[1] Santoro, Adam, Bartunov, Sergey, Botvinick, Matthew, Wierstra, Daan, and Lillicrap, Timothy. Meta-learning with memory-augmented neural networks. In Proceedings of The 33rd International Conference on Machine Learning, pp. 1842–1850, 2016.

[2] Munkhdalai T, Yu H. Meta Networks. arXiv preprint arXiv:1703.00837, 2017.

以Meta-Learning with memory-augmented neural networks這篇文章為例,我們看一下他的網(wǎng)絡(luò)結(jié)構(gòu):

元學(xué)習(xí):實(shí)現(xiàn)通用人工智能的關(guān)鍵!

我們可以看到,網(wǎng)絡(luò)的輸入把上一次的y label也作為輸入,并且添加了external memory存儲(chǔ)上一次的x輸入,這使得下一次輸入后進(jìn)行反向傳播時(shí),可以讓y label和x建立聯(lián)系,使得之后的x能夠通過外部記憶獲取相關(guān)圖像進(jìn)行比對(duì)來實(shí)現(xiàn)更好的預(yù)測(cè)。

2.2 基于預(yù)測(cè)梯度的方法

基本思路:既然Meta Learning的目的是實(shí)現(xiàn)快速學(xué)習(xí),而快速學(xué)習(xí)的關(guān)鍵一點(diǎn)是神經(jīng)網(wǎng)絡(luò)的梯度下降要準(zhǔn),要快,那么是不是可以讓神經(jīng)網(wǎng)絡(luò)利用以往的任務(wù)學(xué)習(xí)如何預(yù)測(cè)梯度,這樣面對(duì)新的任務(wù),只要梯度預(yù)測(cè)得準(zhǔn),那么學(xué)習(xí)得就會(huì)更快了?

代表文章:

[1] Andrychowicz, Marcin, Denil, Misha, Gomez, Sergio, Hoffman, Matthew W, Pfau, David, Schaul, Tom, and de Freitas, Nando. Learning to learn by gradient descent by gradient descent. In Advances in Neural Information Processing Systems, pp. 3981–3989, 2016

元學(xué)習(xí):實(shí)現(xiàn)通用人工智能的關(guān)鍵!

這篇文章的思路很清奇,訓(xùn)練一個(gè)通用的神經(jīng)網(wǎng)絡(luò)來預(yù)測(cè)梯度,用一次二次方程的回歸問題來訓(xùn)練,然后這種方法得到的神經(jīng)網(wǎng)絡(luò)優(yōu)化器比Adam,RMSProp還要好,這樣顯然就加快了訓(xùn)練。

2.3 利用Attention注意力機(jī)制的方法

基本思路:人的注意力是可以利用以往的經(jīng)驗(yàn)來實(shí)現(xiàn)提升的,比如我們看一個(gè)性感圖片,我們會(huì)很自然的把注意力集中在關(guān)鍵位置。那么,能不能利用以往的任務(wù)來訓(xùn)練一個(gè)Attention模型,從而面對(duì)新的任務(wù),能夠直接關(guān)注最重要的部分。

代表文章:

[1] Vinyals, Oriol, Blundell, Charles, Lillicrap, Tim, Wierstra, Daan, et al. Matching networks for one shot learning. In Advances in Neural Information Processing Systems, pp. 3630–3638, 2016.

元學(xué)習(xí):實(shí)現(xiàn)通用人工智能的關(guān)鍵!

這篇文章構(gòu)造一個(gè)attention機(jī)制,也就是最后的label判斷是通過attention的疊加得到的:

元學(xué)習(xí):實(shí)現(xiàn)通用人工智能的關(guān)鍵!

attention a則通過g和f得到?;灸康木褪抢靡延腥蝿?wù)訓(xùn)練出一個(gè)好的attention model。

2.4 借鑒LSTM的方法

基本思路:LSTM內(nèi)部的更新非常類似于梯度下降的更新,那么,能否利用LSTM的結(jié)構(gòu)訓(xùn)練出一個(gè)神經(jīng)網(wǎng)絡(luò)的更新機(jī)制,輸入當(dāng)前網(wǎng)絡(luò)參數(shù),直接輸出新的更新參數(shù)?這個(gè)想法非常巧妙。

代表文章:

[1] Ravi, Sachin and Larochelle, Hugo. Optimization as a model for few-shot learning. In International Conference on Learning Representations (ICLR), 2017.

元學(xué)習(xí):實(shí)現(xiàn)通用人工智能的關(guān)鍵!

這篇文章的核心思想是下面這一段:

元學(xué)習(xí):實(shí)現(xiàn)通用人工智能的關(guān)鍵!

怎么把LSTM的更新和梯度下降聯(lián)系起來才是更值得思考的問題吧。

2.5 面向RL的Meta Learning方法

基本思路:既然Meta Learning可以用在監(jiān)督學(xué)習(xí),那么增強(qiáng)學(xué)習(xí)上又可以怎么做呢?能否通過增加一些外部信息的輸入比如reward,之前的action來實(shí)現(xiàn)?

代表文章:

[1] Wang J X, Kurth-Nelson Z, Tirumala D, et al. Learning to reinforcement learn. arXiv preprint arXiv:1611.05763, 2016.

[2] Y. Duan, J. Schulman, X. Chen, P. Bartlett, I. Sutskever, and P. Abbeel. Rl2: Fast reinforcement learning via slow reinforcement learning. Technical report, UC Berkeley and OpenAI, 2016.

兩篇文章思路一致,就是額外增加reward和之前action的輸入,從而強(qiáng)制讓神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)一些任務(wù)級(jí)別的信息:

元學(xué)習(xí):實(shí)現(xiàn)通用人工智能的關(guān)鍵!

2.6 通過訓(xùn)練一個(gè)好的base model的方法,并且同時(shí)應(yīng)用到監(jiān)督學(xué)習(xí)和增強(qiáng)學(xué)習(xí)

基本思路:之前的方法都只能局限在或者監(jiān)督學(xué)習(xí)或者增強(qiáng)學(xué)習(xí)上,能不能搞個(gè)更通用的呢?是不是相比finetune學(xué)習(xí)一個(gè)更好的base model就能work?

代表文章:

[1] Finn, C., Abbeel, P., & Levine, S. (2017). Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks. arXiv preprint arXiv:1703.03400.

元學(xué)習(xí):實(shí)現(xiàn)通用人工智能的關(guān)鍵!

這篇文章的基本思路是同時(shí)啟動(dòng)多個(gè)任務(wù),然后獲取不同任務(wù)學(xué)習(xí)的合成梯度方向來更新,從而學(xué)習(xí)一個(gè)共同的最佳base。

2.7 利用WaveNet的方法

基本思路:WaveNet的網(wǎng)絡(luò)每次都利用了之前的數(shù)據(jù),那么是否可以照搬WaveNet的方式來實(shí)現(xiàn)Meta Learning呢?就是充分利用以往的數(shù)據(jù)呀?

代表文章:

[1] Mishra N, Rohaninejad M, Chen X, et al. Meta-Learning with Temporal Convolutions. arXiv preprint arXiv:1707.03141, 2017.

元學(xué)習(xí):實(shí)現(xiàn)通用人工智能的關(guān)鍵!

直接利用之前的歷史數(shù)據(jù),思路極其簡(jiǎn)單,效果極其之好,是目前omniglot,mini imagenet圖像識(shí)別的state-of-the-art。

2.8 預(yù)測(cè)Loss的方法

基本思路:要讓學(xué)習(xí)的速度更快,除了更好的梯度,如果有更好的loss,那么學(xué)習(xí)的速度也會(huì)更快,因此,是不是可以構(gòu)造一個(gè)模型利用以往的任務(wù)來學(xué)習(xí)如何預(yù)測(cè)Loss呢?

代表文章:

[1] Flood Sung, Zhang L, Xiang T, Hospedales T, et al. Learning to Learn: Meta-Critic Networks for Sample Efficient Learning. arXiv preprint arXiv:1706.09529, 2017.

元學(xué)習(xí):實(shí)現(xiàn)通用人工智能的關(guān)鍵!

本文構(gòu)造了一個(gè)Meta-Critic Network(包含Meta Value Network和Task-Actor Encoder)來學(xué)習(xí)預(yù)測(cè)Actor Network的Loss。對(duì)于Reinforcement Learning而言,這個(gè)Loss就是Q Value。

本文詳細(xì)分析詳見:學(xué)會(huì)學(xué)習(xí)Learning to Learn:讓AI擁有核心價(jià)值觀從而實(shí)現(xiàn)快速學(xué)習(xí)

本文 紐約大學(xué)的Kyunghyun Cho 做了評(píng)價(jià):

元學(xué)習(xí):實(shí)現(xiàn)通用人工智能的關(guān)鍵!

也算是一種全新的思路。

3 小結(jié)

從上面的分析可以看出,Meta Learning方興未艾,各種神奇的idea層出不窮,但是真正的殺手級(jí)算法還未出現(xiàn),非常期待未來的發(fā)展!也希望更多的朋友們可以投入到Meta Learning這個(gè)研究方向上來。

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

元學(xué)習(xí):實(shí)現(xiàn)通用人工智能的關(guān)鍵!

分享:

編輯

關(guān)注AI學(xué)術(shù),例如論文
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說