丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能開發(fā)者 正文
發(fā)私信給AI研習(xí)社-譯站
發(fā)送

0

「新奇」假設(shè)!Adam 或許不是最佳的深度學(xué)習(xí)優(yōu)化器

本文作者: AI研習(xí)社-譯站 2021-01-15 11:42
導(dǎo)語:和我平時的帖子不同,我寫的東西完全有可能是錯的。

譯者:AI研習(xí)社(Born alone°

雙語原文鏈接:NEURAL NETWORKS (MAYBE) EVOLVED TO MAKE ADAM THE BEST OPTIMIZER


免責(zé)聲明:這篇文章和我平時的有些不同。事實上,我不會證明任何東西,我只是簡單地解釋一下我關(guān)于深度神經(jīng)網(wǎng)絡(luò)優(yōu)化的一些猜想。和我平時的帖子不同,我寫的東西完全有可能是錯的。  

我已經(jīng)從實踐和經(jīng)驗的角度研究在線和隨機優(yōu)化有一段時間了。所以,當(dāng)Adam (Kingma and Ba, 2015)被提出時,我已經(jīng)在這個領(lǐng)域了。 

「新奇」假設(shè)!Adam 或許不是最佳的深度學(xué)習(xí)優(yōu)化器

這篇論文還可以,但算不上突破,就今天的標(biāo)準(zhǔn)而言更是如此。事實上,這個理論是薄弱的:對于一種應(yīng)該處理非凸函數(shù)隨機優(yōu)化的算法給出了 regret guarantee。這些實驗也很弱:在這些日子里,同樣的實驗肯定會遭到拒絕。晚些時候人們還在證明中發(fā)現(xiàn)了一個錯誤以及該算法不收斂于某些一維隨機凸函數(shù)的事實。盡管如此,現(xiàn)在 Adam 被認(rèn)為是優(yōu)化算法之王。讓我明確一點:眾所周知, Adam 不會總實現(xiàn)最佳性能, 但大多數(shù)時候,人們認(rèn)為可以利用 Adam 的默認(rèn)參數(shù)在處理某個深度學(xué)習(xí)問題上實現(xiàn)至少次優(yōu)的性能。換句話說,Adam 現(xiàn)在被認(rèn)為是深度學(xué)習(xí)的默認(rèn)優(yōu)化器。那么,Adam 背后成功的秘密是什么? 

多年來,人們發(fā)表了大量的論文試圖解釋 Adam 和它的表現(xiàn),太多了,不能一一列舉。從“適應(yīng)學(xué)習(xí)率”(適應(yīng)到什么?沒有人確切地知道……)到動量,到幾乎標(biāo)度不變性 ,它的神秘配方的每一個方面都被檢查過。然而,這些分析都沒有給我們關(guān)于其性能的最終答案。很明顯,這些成分中的大多數(shù)對任何函數(shù)的優(yōu)化過程都是有益的,但仍然不清楚為什么這個確切的組合而不是另一個組合使它成為最好的算法?;旌衔锏钠胶馐侨绱说奈⒚钜灾劣谛拚皇諗繂栴}所需的小更改被認(rèn)為比 Adam 表現(xiàn)稍差。

Adam 的名聲也伴隨著強烈的情感:閱讀 r/MachineLearning on Reddit 上的帖子就足以看出人們對捍衛(wèi)他們最喜歡的優(yōu)化器的熱情。這種熱情你可以在宗教、體育和政治中看到。 

然而,這一切的可能性有多大?我是說,Adam 是最佳優(yōu)化算法的可能性有多大?幾年前,在一個如此年輕的領(lǐng)域,我們達(dá)到深度學(xué)習(xí)優(yōu)化的頂峰的可能性有多大?它的驚人表現(xiàn)還有其他的解釋嗎?  

我有一個假設(shè),但在解釋之前,我們必須簡單談?wù)勆疃葘W(xué)習(xí)社區(qū)。

在談話中,Olivier Bousquet 將深度學(xué)習(xí)社區(qū)描述為一個巨人 genetic algorithm:這個社區(qū)的研究人員正在以一種半隨機的方式探索各種算法和架構(gòu)的空間。在大型實驗中一直有效的東西被保留,無效的被丟棄。請注意,這個過程似乎與論文的接受和拒絕無關(guān):這個社區(qū)是如此的龐大和活躍,關(guān)于被拒絕論文的好想法仍然會被保存下來,并在幾個月內(nèi)轉(zhuǎn)化為最佳實踐,參見舉例  (Loshchilov and Hutter, 2019)。類似地,發(fā)表的論文中的觀點被成百上千的人復(fù)制,他們無情地丟棄那些不會復(fù)制的東西。這個過程創(chuàng)造了許多啟發(fā)式,在實驗中始終產(chǎn)生良好的結(jié)果,這里的重點是“始終如一”。事實上,盡管是一種基于非凸公式的方法,深度學(xué)習(xí)方法的性能證明是非常可靠的。(需要注意的是,深度學(xué)習(xí)社區(qū)對“名人”也有很大的偏好,所以并不是所有的想法都能得到同等程度的關(guān)注……)

那么,這個巨大的遺傳算法和亞當(dāng)之間有什么聯(lián)系?嗯,仔細(xì)觀察深度學(xué)習(xí)社區(qū)的創(chuàng)建過程,我注意到一個模式:通常人們嘗試新的架構(gòu),保持優(yōu)化算法不變,大多數(shù)時候選擇的算法是 Adam。如上所述,這是因為 Adam是默認(rèn)的優(yōu)化器。

所以,我的假設(shè)是:Adam 是一個非常好的神經(jīng)網(wǎng)絡(luò)架構(gòu)的優(yōu)化算法,我們幾年前就有了,人們不斷地發(fā)展新的架構(gòu),讓 Adam 在上面工作。因此,我們可能不會看到許多 Adam 不工作的架構(gòu),因為這些想法被過早地拋棄了!這樣的想法需要同時設(shè)計一個新的架構(gòu)和一個新的優(yōu)化器,這將是一個非常困難的任務(wù)。換句話說,社區(qū)只進(jìn)化了一組參數(shù)(架構(gòu)、初始化策略、超參數(shù)搜索算法等),大部分時間優(yōu)化器都固定在 Adam 身上。  

現(xiàn)在,我相信很多人不會相信這個假設(shè),我相信他們會列出各種具體的問題,在這些問題中 Adam 不是最好的算法,在這些問題中  隨機梯度下降 動量是最好的,以此類推。然而,我想指出兩件事:1)我并不是在這里描述自然規(guī)律,而是簡單地描述社區(qū)的一種趨勢,它可能會影響某些架構(gòu)和優(yōu)化器的共同進(jìn)化;事實上,我有一些證據(jù)來支持這一說法。

如果我說的是真的,我們可以預(yù)期 Adam 在深度神經(jīng)網(wǎng)絡(luò)方面會非常出色而在其他方面則會非常差。這確實發(fā)生了!例如,眾所周知,Adam在非深度神經(jīng)網(wǎng)絡(luò)的簡單凸和非凸問題上表現(xiàn)很差,參見下面的實驗(Vaswani et al., 2019):

「新奇」假設(shè)!Adam 或許不是最佳的深度學(xué)習(xí)優(yōu)化器

似乎當(dāng)我們遠(yuǎn)離深度神經(jīng)網(wǎng)絡(luò)的特定設(shè)置,以及它們對初始化的特定選擇、特定權(quán)重的比例、特定的損失函數(shù)等,Adam 就失去了它的自適應(yīng)能力,它神奇的默認(rèn)學(xué)習(xí)率必須再次調(diào)整。請注意,您總是可以將線性預(yù)測器寫成單層神經(jīng)網(wǎng)絡(luò),但 Adam 在這種情況下也不太好用。因此,在深度學(xué)習(xí)中,所有特定的架構(gòu)選擇可能已經(jīng)進(jìn)化到讓 Adam 工作得越來越好,而上述簡單的問題并沒有任何讓 Adam 發(fā)光的好特性。

總的來說,Adam 可能是最好的優(yōu)化器,因為深度學(xué)習(xí)社區(qū)可能只在架構(gòu)/優(yōu)化器的聯(lián)合搜索空間中探索一小塊區(qū)域。如果這是真的,對于一個脫離凸方法的社區(qū)來說,這將是一個諷刺,因為他們只關(guān)注可能的機器學(xué)習(xí)算法的一個狹窄區(qū)域,它就像  Yann LeCun “寫道:“在路燈下尋找丟失的車鑰匙,卻發(fā)現(xiàn)鑰匙丟在了別的地方?!?nbsp;

「新奇」假設(shè)!Adam 或許不是最佳的深度學(xué)習(xí)優(yōu)化器

AI研習(xí)社是AI學(xué)術(shù)青年和AI開發(fā)者技術(shù)交流的在線社區(qū)。我們與高校、學(xué)術(shù)機構(gòu)和產(chǎn)業(yè)界合作,通過提供學(xué)習(xí)、實戰(zhàn)和求職服務(wù),為AI學(xué)術(shù)青年和開發(fā)者的交流互助和職業(yè)發(fā)展打造一站式平臺,致力成為中國最大的科技創(chuàng)新人才聚集地。

如果,你也是位熱愛分享的AI愛好者。歡迎與譯站一起,學(xué)習(xí)新知,分享成長。

「新奇」假設(shè)!Adam 或許不是最佳的深度學(xué)習(xí)優(yōu)化器

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

「新奇」假設(shè)!Adam 或許不是最佳的深度學(xué)習(xí)優(yōu)化器

分享:
相關(guān)文章

知情人士

AI研習(xí)社(yanxishe.com)譯站頻道,傳播前沿人工智能知識,讓語言不再成為學(xué)習(xí)知識的門檻。(原雷鋒字幕組)
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說