「新奇」假設！Adam 或許不是最佳的深度學習優(yōu)化器

本文作者： AI研習社-譯站

2021-01-15 11:42

導語：和我平時的帖子不同，我寫的東西完全有可能是錯的。

譯者：AI研習社（Born alone°）

雙語原文鏈接：NEURAL NETWORKS (MAYBE) EVOLVED TO MAKE ADAM THE BEST OPTIMIZER

免責聲明:這篇文章和我平時的有些不同。事實上，我不會證明任何東西，我只是簡單地解釋一下我關于深度神經(jīng)網(wǎng)絡優(yōu)化的一些猜想。和我平時的帖子不同，我寫的東西完全有可能是錯的。

我已經(jīng)從實踐和經(jīng)驗的角度研究在線和隨機優(yōu)化有一段時間了。所以，當Adam (Kingma and Ba, 2015)被提出時，我已經(jīng)在這個領域了。

「新奇」假設！Adam 或許不是最佳的深度學習優(yōu)化器

這篇論文還可以，但算不上突破，就今天的標準而言更是如此。事實上，這個理論是薄弱的：對于一種應該處理非凸函數(shù)隨機優(yōu)化的算法給出了 regret guarantee。這些實驗也很弱：在這些日子里，同樣的實驗肯定會遭到拒絕。晚些時候人們還在證明中發(fā)現(xiàn)了一個錯誤以及該算法不收斂于某些一維隨機凸函數(shù)的事實。盡管如此，現(xiàn)在 Adam 被認為是優(yōu)化算法之王。讓我明確一點：眾所周知， Adam 不會總實現(xiàn)最佳性能，但大多數(shù)時候，人們認為可以利用 Adam 的默認參數(shù)在處理某個深度學習問題上實現(xiàn)至少次優(yōu)的性能。換句話說，Adam 現(xiàn)在被認為是深度學習的默認優(yōu)化器。那么，Adam 背后成功的秘密是什么?

多年來，人們發(fā)表了大量的論文試圖解釋 Adam 和它的表現(xiàn)，太多了，不能一一列舉。從“適應學習率”(適應到什么?沒有人確切地知道……)到動量，到幾乎標度不變性，它的神秘配方的每一個方面都被檢查過。然而，這些分析都沒有給我們關于其性能的最終答案。很明顯，這些成分中的大多數(shù)對任何函數(shù)的優(yōu)化過程都是有益的，但仍然不清楚為什么這個確切的組合而不是另一個組合使它成為最好的算法。混合物的平衡是如此的微妙以至于修正不收斂問題所需的小更改被認為比 Adam 表現(xiàn)稍差。

Adam 的名聲也伴隨著強烈的情感：閱讀 r/MachineLearning on Reddit 上的帖子就足以看出人們對捍衛(wèi)他們最喜歡的優(yōu)化器的熱情。這種熱情你可以在宗教、體育和政治中看到。

然而，這一切的可能性有多大?我是說，Adam 是最佳優(yōu)化算法的可能性有多大?幾年前，在一個如此年輕的領域，我們達到深度學習優(yōu)化的頂峰的可能性有多大?它的驚人表現(xiàn)還有其他的解釋嗎?

我有一個假設，但在解釋之前，我們必須簡單談談深度學習社區(qū)。

在談話中,Olivier Bousquet 將深度學習社區(qū)描述為一個巨人 genetic algorithm：這個社區(qū)的研究人員正在以一種半隨機的方式探索各種算法和架構的空間。在大型實驗中一直有效的東西被保留，無效的被丟棄。請注意，這個過程似乎與論文的接受和拒絕無關:這個社區(qū)是如此的龐大和活躍，關于被拒絕論文的好想法仍然會被保存下來，并在幾個月內轉化為最佳實踐，參見舉例 (Loshchilov and Hutter, 2019)。類似地，發(fā)表的論文中的觀點被成百上千的人復制，他們無情地丟棄那些不會復制的東西。這個過程創(chuàng)造了許多啟發(fā)式，在實驗中始終產生良好的結果，這里的重點是“始終如一”。事實上，盡管是一種基于非凸公式的方法，深度學習方法的性能證明是非?？煽康摹?需要注意的是，深度學習社區(qū)對“名人”也有很大的偏好，所以并不是所有的想法都能得到同等程度的關注……)

那么，這個巨大的遺傳算法和亞當之間有什么聯(lián)系?嗯，仔細觀察深度學習社區(qū)的創(chuàng)建過程，我注意到一個模式:通常人們嘗試新的架構，保持優(yōu)化算法不變，大多數(shù)時候選擇的算法是 Adam。如上所述，這是因為 Adam是默認的優(yōu)化器。

所以，我的假設是:Adam 是一個非常好的神經(jīng)網(wǎng)絡架構的優(yōu)化算法，我們幾年前就有了，人們不斷地發(fā)展新的架構，讓 Adam 在上面工作。因此，我們可能不會看到許多 Adam 不工作的架構，因為這些想法被過早地拋棄了!這樣的想法需要同時設計一個新的架構和一個新的優(yōu)化器，這將是一個非常困難的任務。換句話說，社區(qū)只進化了一組參數(shù)(架構、初始化策略、超參數(shù)搜索算法等)，大部分時間優(yōu)化器都固定在 Adam 身上。

現(xiàn)在，我相信很多人不會相信這個假設，我相信他們會列出各種具體的問題，在這些問題中 Adam 不是最好的算法，在這些問題中隨機梯度下降動量是最好的，以此類推。然而，我想指出兩件事:1)我并不是在這里描述自然規(guī)律，而是簡單地描述社區(qū)的一種趨勢，它可能會影響某些架構和優(yōu)化器的共同進化;事實上，我有一些證據(jù)來支持這一說法。

如果我說的是真的，我們可以預期 Adam 在深度神經(jīng)網(wǎng)絡方面會非常出色而在其他方面則會非常差。這確實發(fā)生了!例如，眾所周知，Adam在非深度神經(jīng)網(wǎng)絡的簡單凸和非凸問題上表現(xiàn)很差，參見下面的實驗(Vaswani et al., 2019):

「新奇」假設！Adam 或許不是最佳的深度學習優(yōu)化器

似乎當我們遠離深度神經(jīng)網(wǎng)絡的特定設置，以及它們對初始化的特定選擇、特定權重的比例、特定的損失函數(shù)等，Adam 就失去了它的自適應能力，它神奇的默認學習率必須再次調整。請注意，您總是可以將線性預測器寫成單層神經(jīng)網(wǎng)絡，但 Adam 在這種情況下也不太好用。因此，在深度學習中，所有特定的架構選擇可能已經(jīng)進化到讓 Adam 工作得越來越好，而上述簡單的問題并沒有任何讓 Adam 發(fā)光的好特性。

總的來說，Adam 可能是最好的優(yōu)化器，因為深度學習社區(qū)可能只在架構/優(yōu)化器的聯(lián)合搜索空間中探索一小塊區(qū)域。如果這是真的，對于一個脫離凸方法的社區(qū)來說，這將是一個諷刺，因為他們只關注可能的機器學習算法的一個狹窄區(qū)域，它就像 Yann LeCun “寫道:“在路燈下尋找丟失的車鑰匙，卻發(fā)現(xiàn)鑰匙丟在了別的地方?！?nbsp;

「新奇」假設！Adam 或許不是最佳的深度學習優(yōu)化器