丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能學術(shù) 正文
發(fā)私信給栗峰
發(fā)送

0

發(fā)現(xiàn)神經(jīng)元連線

本文作者: 栗峰 2019-10-30 10:01
導(dǎo)語:神經(jīng)元連線你了解多少?

本文來自Mitchell Wortsman, Alvaro Herrasti, Sarah Pratt, Ali Farhadi 和 Mohammad Rastegari的文章《Discovering Neural Wirings》在不改變原文意思的基礎(chǔ)上,雷鋒網(wǎng)AI科技評論的編譯如下:

雷鋒網(wǎng)導(dǎo)讀:在這篇文章中,討論了最近發(fā)表的關(guān)于發(fā)現(xiàn)神經(jīng)元連線的論文中很有意思的研究(將在NeurIPS 2019上發(fā)表)。傳統(tǒng)意義上,人工神經(jīng)網(wǎng)絡(luò)(ANN)的連接模式是人工定義的,或者說在很大程度上都限制了人工神經(jīng)網(wǎng)絡(luò)的范圍。相反,我們放寬了層的典型概念范圍,以允許更大的可能連線空間。在訓練過程中,我們的人工神經(jīng)網(wǎng)絡(luò)的連線不是固定的,也就是說當我們在學習網(wǎng)絡(luò)參數(shù)的同時,也學習了連接。

在我們的研究過程中,得出以下結(jié)論:在推理過程中訓練出一個小型的模型是有可能的,但是在訓練過程中仍然會被過度的參數(shù)化。將這種方法應(yīng)用于稀疏神經(jīng)網(wǎng)絡(luò)的發(fā)現(xiàn),填補了神經(jīng)結(jié)構(gòu)搜索與稀疏神經(jīng)網(wǎng)絡(luò)學習之間的空白。

移動下面的滑塊,查看在MNIST上對一個小型網(wǎng)絡(luò)進行不同時間段的訓練(即這里的代碼)時,連線的變化情況。

發(fā)現(xiàn)神經(jīng)元連線

為什么要連線?

在現(xiàn)代人工神經(jīng)網(wǎng)絡(luò)問世之前,研究人員會人工設(shè)計好的特征(高維向量表示)?,F(xiàn)在已經(jīng)可以通過ANNs學習良好的特征,但必須指定ANN的體系結(jié)構(gòu)。 因此,神經(jīng)元結(jié)構(gòu)搜索(NAS)最近大量的工作都集中在學習ANN的結(jié)構(gòu)上。但是,NAS仍然是在一組人工設(shè)計的構(gòu)建塊中進行搜索的,因此ANN連接在很大程度上仍然會受到限制。相比之下,RandWire通過考慮隨機接線的ANNs探索出了一組不同的連接模式。盡管隨機連線的神經(jīng)網(wǎng)絡(luò)對NAS而言是具有競爭優(yōu)勢的,但它們的連接在訓練過程中是固定的。

我們提出了一種在訓練過程中聯(lián)合學習ANN的參數(shù)和接線的方法。我們證明了我們的發(fā)現(xiàn)神經(jīng)元連線(DNW)的方法優(yōu)于許多人工設(shè)計和隨機連線的神經(jīng)網(wǎng)絡(luò)。

人工神經(jīng)網(wǎng)絡(luò)的靈感來源于動物大腦的生物神經(jīng)網(wǎng)絡(luò)。盡管這兩種系統(tǒng)之間存在的基本差異性很大,但生物學上的啟發(fā)可能還是有用的?!蹲匀煌ㄓ崱?Nature Communications)最近發(fā)表的一篇文章(題為《純粹學習的批判以及人工神經(jīng)網(wǎng)絡(luò)能從動物大腦中學到什么》(the critical of pure learning and what artificial neural networks can learn from animal brains)認為,動物大腦的連通性能夠促進快速學習。因此,本文建議“將連線拓撲結(jié)構(gòu)和網(wǎng)絡(luò)結(jié)構(gòu)作為人工系統(tǒng)優(yōu)化的目標”?!拔覀兿M@項工作能為這個方向提供一些有益的步驟。

即使是重量不可知神經(jīng)網(wǎng)絡(luò)的并行工作也強調(diào)了人工神經(jīng)網(wǎng)絡(luò)連線的重要性。他們證明,給定的神經(jīng)網(wǎng)絡(luò)連線可以有效地解決一些簡單的任務(wù),而不需要做任何的訓練,解決方案已經(jīng)被編碼在了連通性中。

靜態(tài)神經(jīng)圖(SNG):前饋ANN的便捷抽象

現(xiàn)在,我們來描述前饋ANN的便捷抽象,也就是靜態(tài)神經(jīng)圖(SNG)。我們的目標是學習SNG的最佳邊緣集。我們略讀下面的一些細節(jié),你可以參考本文,盡管這種抽象應(yīng)該會讓人有種熟悉的感覺。

SNG是一個有向非循環(huán)圖G,它由節(jié)點ν和邊ε組成。另外,每個節(jié)點υ都有輸出Zυ和輸入Iυ。輸入數(shù)據(jù)X通過一組指定的節(jié)點ν0導(dǎo)入網(wǎng)絡(luò),而對于輸入節(jié)點υ∈ν或ν0是母本輸出的加權(quán)和。

發(fā)現(xiàn)神經(jīng)元連線

每個節(jié)點的輸出通過參數(shù)化函數(shù)進行計算

發(fā)現(xiàn)神經(jīng)元連線

邊緣權(quán)值WΥv和θυ是可學習的網(wǎng)絡(luò)參數(shù)。 然后通過一組指定的節(jié)點νE計算網(wǎng)絡(luò)的輸出。

 發(fā)現(xiàn)神經(jīng)元連線

發(fā)現(xiàn)神經(jīng)元連線

發(fā)現(xiàn)神經(jīng)元連線的算法

發(fā)現(xiàn)神經(jīng)元連線

發(fā)現(xiàn)神經(jīng)元連線

放到一起會怎么樣呢?

發(fā)現(xiàn)神經(jīng)元連線

規(guī)模連線

我們采用以下兩種策略來大規(guī)模發(fā)現(xiàn)連線:

發(fā)現(xiàn)神經(jīng)元連線

為了進行均衡的比較,如果將MobileNet V1解釋為一連串的圖,我們認為其結(jié)構(gòu)和邊數(shù)與MobileNet V1完全相同。通過學習連通性,我們可以在較低水平的計算環(huán)境下將ImageNet的精準度提高約10%。

發(fā)現(xiàn)神經(jīng)元連線

稀疏網(wǎng)絡(luò)?彩票?

Overparameterization?

在過去的幾年中,稀疏的神經(jīng)網(wǎng)絡(luò)領(lǐng)域的研究工作取得了令人矚目的成就。在《彩票假說》中,弗蘭克(Frankle)和卡賓(Carbin)證明了密集的神經(jīng)網(wǎng)絡(luò)包含了可以單獨有效訓練的子網(wǎng)絡(luò)。然而,他們發(fā)現(xiàn)這些所謂的中獎彩票形成的過程代價是及其高昂的,因為它首先需要一個密集訓練的網(wǎng)絡(luò)。在從零開始的稀疏網(wǎng)絡(luò)中,Dettmers和Zettlemoyer引入了稀疏學習,就是在保持稀疏權(quán)值的同時,只訓練一次神經(jīng)網(wǎng)絡(luò)。

我們的工作是將神經(jīng)結(jié)構(gòu)搜索與稀疏神經(jīng)網(wǎng)絡(luò)學習相結(jié)合。隨著NAS的限制越來越少,粒度越來越細,找到一個好的結(jié)構(gòu)就如同找到一個完整圖的稀疏子網(wǎng)絡(luò)。

因此,我們可以將我們的算法用于發(fā)現(xiàn)神經(jīng)元連線,并將其應(yīng)用到訓練其他稀疏神經(jīng)網(wǎng)絡(luò)的任務(wù)中。我們的方法不需要進行微調(diào)或重新訓練來發(fā)現(xiàn)稀疏的子網(wǎng)絡(luò)。這個觀點是由Dettmers和Zettelmoyer提出的,我們也想強調(diào)一下其中存在的一些區(qū)別。雖然我們很密集的向后臺傳送數(shù)據(jù),但他們的研究工作可以加快訓練的速度。此外,他們的研究工作允許參數(shù)跨層重新分配,而我們認為每層都應(yīng)該有固定的空間。最后 的結(jié)果還是他們的訓練效率更高,因為他們實際上將未使用的權(quán)值直接發(fā)送為零,而我們是繼續(xù)在向后臺傳遞的過程中更新它們。

我們將偏差和batchnorm保留在密集的位置上,并使用調(diào)整后的ResNet-50。 這反映了從零開始的稀疏網(wǎng)絡(luò)附錄C中的實驗設(shè)置。下圖說明了top-1的精度是如何隨稀疏度變化而變化的(卷積濾波器和線性權(quán)值的稀疏性,也就是0%的稀疏性對應(yīng)于密集網(wǎng)絡(luò))。該圖還顯示了另一種設(shè)置,其中第一個卷積層(參數(shù)<10k約占整個網(wǎng)絡(luò)的0.04%)保持密集狀態(tài)。

發(fā)現(xiàn)神經(jīng)元連線

為了生成上面的圖,我們僅考慮10%的倍數(shù),其余部分進行插值。 盡管我們在下面提供了ResNet-50的相關(guān)ImageNet Top-1精度指標,但很快就會在我們的Github上找到所有的模型和數(shù)字。

發(fā)現(xiàn)神經(jīng)元連線

我們可以從這個結(jié)果中得出結(jié)論:即使生成的模型是稀疏的,也有可能在訓練期間實現(xiàn)過參數(shù)化的優(yōu)勢。盡管我們在向前傳遞過程中僅使用一小部分權(quán)值,但是我們的網(wǎng)絡(luò)與大型網(wǎng)絡(luò)在初始化的時候的競爭力相差不多。

用我們的算法訓練稀疏神經(jīng)網(wǎng)絡(luò)其實非常簡單。我們默認每個參數(shù)是一個邊,因此所有卷積都替換為以下的pytorch代碼:

發(fā)現(xiàn)神經(jīng)元連線

  下圖說明了這段代碼的工作方式。

發(fā)現(xiàn)神經(jīng)元連線

發(fā)現(xiàn)動態(tài)神經(jīng)圖(DNG)的神經(jīng)連線

發(fā)現(xiàn)神經(jīng)元連線

在靜態(tài)和動態(tài)設(shè)置中,我們將用于發(fā)現(xiàn)神經(jīng)元連線的算法應(yīng)用于微小的(41k參數(shù))分類器。

發(fā)現(xiàn)神經(jīng)元連線

發(fā)現(xiàn)神經(jīng)元連線

證明過程

在這里,我們簡要地說明一下,當確實發(fā)生邊交換的時候,在某些假定情況下這是有益的。想象一個靜態(tài)神經(jīng)圖,其中在小部分的梯度更新之后,邊(i,k)替換了邊(j,k)。 我們可以證明,當學習速率α足夠小且節(jié)點狀態(tài)固定時,針對當前的 mini-batch進行處理,損耗就會減少。 我們在此處省略了一些細節(jié),你可以參考論文,例如,我們還必須假設(shè)損失是Lipschitz連續(xù)的。本文還包括一般情況下的說明。

 發(fā)現(xiàn)神經(jīng)元連線

引用:

發(fā)現(xiàn)神經(jīng)元連線

雷鋒網(wǎng)注:原文鏈接:https://mitchellnw.github.io/blog/2019/dnw/?from=singlemessage&isappinstalled=0

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

發(fā)現(xiàn)神經(jīng)元連線

分享:
相關(guān)文章
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說