0
本文作者: AI研習社-譯站 | 2019-07-16 17:15 |
原標題 | 10 Gradient Descent Optimisation Algorithms + Cheat Sheet
作者 | Raimi Karim in Towards Data Science
譯者 | 斯蒂芬?二狗子(沈陽化工大學)、intelLigenJ(算法工程師)、星期五、萊特?諾頓、滄海一升
本文編輯:王立魚
英語原文:https://towardsdatascience.com/10-gradient-descent-optimisation-algorithms-86989510b5e9
梯度下降是一種尋找函數(shù)極小值的優(yōu)化方法,在深度學習模型中常常用來在反向傳播過程中更新神經(jīng)網(wǎng)絡的權(quán)值。
在這篇文章中,我會總結(jié)應用在目前較為流行深度學習框架中的常見梯度下降算法(如TensorFlow, Keras, PyTorch, Caffe)。本文之目的是為了方便理解和掌握這些內(nèi)容,因為除此之外總結(jié)并不多,而且它可以作為你從零基礎入門的“小抄”。
在一個線性回歸問題中,我已經(jīng)用梯度下降實現(xiàn)了SGD, momentum, Nesterov, RMSprop 以及Adam,獲取代碼(JavaScript)
通過梯度下降,優(yōu)化算法可以在如下三個主要方面起作用:
1、修改學習率成分,α, 或
2、修改梯度成分 ?L/?w
3、或二者兼有
且看如下方程1:
方程1:隨機梯度下降中的各種量
學習率調(diào)度器vs梯度下降優(yōu)化
主要的不同在于梯度下降優(yōu)化讓學習率乘以一個因子,該因子是梯度的函數(shù),以此來調(diào)整學習率成分,然而學習率調(diào)度器讓學習率乘以一個恒為常數(shù)或是關于時間步幅的函數(shù)的因子,以此來更新學習率。
第1種方法主要通過在學習率(learning rate)之上乘一個0到1之間的因子從而使得學習率降低(例如RMSprop)。第2種方法通常會使用梯度(Gradient)的滑動平均(也可稱之為“動量”)而不是純梯度來決定下降方向。第3種方法則是結(jié)合兩者,例如Adam和AMSGrad。
Fig.2:各類梯度下降優(yōu)化算法、其發(fā)表年份和用到的核心思路。
Fig.3 自上而下展示了這些優(yōu)化算法如何從最簡單的純梯度下降(SGD)演化成Adam的各類變種的。SGD一開始分別往兩個方向演變,一類是AdaGrad,主要是調(diào)整學習率(learning rate)。另一類是Momentum,主要調(diào)整梯度(gradient)的構(gòu)成要素(譯注:原文此處寫反了)。隨著演化逐步推進,Momentum和RMSprop融為一體,“亞當”(Adam)誕生了。你可能覺得我這樣的組織方式抱有異議,不過我目前一直是這樣理解的。
Fig.3:各類優(yōu)化算法的演化圖(gist)
t - 迭代步數(shù)
w - 我們需要更新的權(quán)重及參數(shù)
α - 學習率
??L/?w - L(損失函數(shù))對于w的梯度
我統(tǒng)一了論文中出現(xiàn)過的希臘字母及符號表示,這樣我們可以以統(tǒng)一的“演化”視角來看這些優(yōu)化算法
最原始的隨機梯度下降算法主要依據(jù)當前梯度?L/?w乘上一個系數(shù)學習率α來更新模型權(quán)重w的。
動量算法使用帶有動量的梯度(梯度的指數(shù)滑動平均,Polyak, 1964)而不是當前梯度來對w進行更新。在后續(xù)的文章中你會看到,采用指數(shù)滑動平均作為動量更新的方式幾乎成為了一個業(yè)內(nèi)標準。
其中
并且V初始化值為0。β一般會被設置為0.9。
值得注意的是,很多文章在引用Momemtum算法時會使用Ning Qian, 1999的文章。但這個算法的原出處為Sutskever et al。而經(jīng)典動量算法在1964年就被Polyak提出了,所以上文也引用了Polyak的文章。(感謝James指出了這一點)
在Polyak提出了動量法之后(雙關:Polyak勢頭正盛),一個使用Nesterov加速梯度下降法(Sutskever et al., 2013)的類似更新方法也被實現(xiàn)了。此更新方法使用V,即我稱之為投影梯度的指數(shù)移動平均值。
其中
且V 初始化為0。
第二個等式中的最后一項就是一個投影梯度。這個值可以通過使用先前的速度“前進一步”獲得(等式4)。這意味著對于這個時間步驟t,我們必須在最終執(zhí)行反向傳播之前執(zhí)行另一個前向傳播。這是步驟:
1.使用先前的速度將當前權(quán)重w更新為投影權(quán)重w*
(等式4)
2. 使用投影權(quán)重計算前向傳播
3.獲得投影梯度?L/?w*
4.計算相應的V和w
常見的默認值:
β = 0.9
請注意,原始的Nesterov 加速梯度下降法論文( Nesterov, 1983 )并不是關于隨機梯度下降,也沒有明確使用梯度下降方程。因此,更合適的參考是上面提到的Sutskever等人的出版物。在2013年,它描述了NAG在隨機梯度下降中的應用。(再一次,我要感謝James對HackerNews的評論中指出這一點。)
自適應梯度算法,也稱AdaGrad算法(Duchi等,2011),通過將學習率除以S的平方根來研究學習率分量,其中S為當前和過去平方梯度的累積和(即直到時間t)。請注意,和SGD算法相同,自適應學習率算法中的梯度分量也保持不變。
其中,
并將S的初始值置0.
請注意,這里在分母中添加了ε。Keras稱之為模糊因子,它是一個小的浮點值,以確保我們永遠不會遇到除零的情況。
默認值(來自Keras):
α = 0.01
ε = 10??
均方根傳遞算法,也稱RMSprop算法(Hinton等,2012),是在AdaGrad算法上進行改進的另一種自適應學習率算法。 它使用指數(shù)加權(quán)平均計算,而不是使用累積平方梯度和。
其中,
并將S的初始值置0.
默認值(來自Keras):
α = 0.001
β = 0.9 (本文作者推薦)
ε = 10??
與RMSprop算法類似,Adadelta(Zeiler,2012)是在AdaGrad算法的基礎上針對學習率進行改進的一種自適應算法。Adadelta應該是是“自適應增量”的縮寫,其中,delta表示當前權(quán)重與新更新權(quán)重之間的差值。
Adadelta算法和RMSprop算法的區(qū)別,在于Adadelta算法中用delta的指數(shù)加權(quán)平均值D來替代原來在Adadelta算法中的學習率參數(shù)。
其中,
并把D和S的初始值置0. 此外,
默認值(來自Keras):
β = 0.95
ε = 10??
適應矩估計算法,也稱Adam算法(Kingma&Ba,2014),是一種將動量和RMSprop結(jié)合使用的算法。它通過
(i) 使用梯度分量V,梯度的指數(shù)移動平均值(如動量)和
(ii)將學習率α除以S的平方根,平方梯度的指數(shù)移動平均值(如在RMSprop中)來學習率分量而起作用。
其中
是偏差修正,并有
V和S的初始值置0.
作者推薦的默認值:
α = 0.001
β? = 0.9
β? = 0.999
ε = 10??
AdaMax(Kingma&Ba,2015)是使用無限范圍(因此為'max')的由Adam算法的原作者們對其優(yōu)化器進行改編的一種算法。V是梯度的指數(shù)加權(quán)平均值,S是過去p階梯度的指數(shù)加權(quán)平均值,類似于最大函數(shù),如下所示(參見論文收斂證明)。
其中
是對V的偏差修正,并有
V和S的初始值置0.
作者推薦的默認值:
α = 0.002
β? = 0.9
β? = 0.999
Nadam一詞由(Dozat,2015)是Nesterov和Adam優(yōu)化器的名稱拼接而成。Nesterov組件在Nadam算法中對學習率產(chǎn)生了更強的約束,同時對梯度的更新也有更直接的影響。一般而言,在想使用帶動量的RMSprop,或者Adam的地方,大多可以使用Nadam取得更好的效果。
Adam優(yōu)化器也可以寫成:
公式5:Adam優(yōu)化器的權(quán)重更新
Nadam利用Nesterov通過將上面等式中的前一時刻的V_hat替換為當前時刻的V_hat,實現(xiàn)了提前一步更新梯度:
其中
并有
V和S初始值置0.
默認值(取自Keras):
α = 0.002
β? = 0.9
β? = 0.999
ε = 10??
Adam算法的另一個變體是AMSGrad算法(Reddi等,2018)。該算法重新訪問Adam中的自適應學習速率組件并對其進行更改以確保當前S始終大于前一時間步長。
其中
此外
V和S初始值置0.
默認值(取自Keras):
α = 0.001
β? = 0.9
β? = 0.999
ε = 10??
我想和你們分享一些直觀的見解,為什么梯度下降法優(yōu)化器對梯度部分使用的是指數(shù)移動平均值(EMA),對學習率部分使用均方根(RMS)。
為什么要對梯度取指數(shù)移動平均?
我們需要使用一些數(shù)值來更新權(quán)重。我們唯一有的數(shù)值呢就是當前梯度,所以讓我們利用它來更新權(quán)重。
但僅取當前梯度值是不夠好的。我們希望我們的更新是(對模型來說,是)“更好的指導”。讓我們考慮(每次更新中)包括之前的梯度值。
將當前梯度值和過去梯度信息的結(jié)合起來一種方法是,我們可以對過去和現(xiàn)在的所有梯度進行簡單的平均。但這意味著每個梯度的權(quán)重是相等的。這樣做是反直覺的,因為在空間上,如果我們正在接近最小值,那么最近的梯度值可能會提供更有效的信息。
因此,最安全的方法是采用指數(shù)移動平均法,其中最近的梯度值的權(quán)重(重要性)比前面的值高。
為什么要把學習速率除以梯度的均方根呢?
這個目的是為了調(diào)整學習的速率。調(diào)整為了適應什么?答案是梯度。我們需要確保的是,當梯度較大時,我們希望更新適當縮小(否則,一個巨大的值將減去當前的權(quán)重!)
為了到達這種效果,讓我們學習率α除以當前梯度得到一個調(diào)整學習速率。
請記住,學習率成分必須始終是正的(因為學習率成分,當乘以梯度成分,后者應該有相同的符號)。為了確保它總是正的,我們可以取它的絕對值或者它的平方。當我們?nèi)‘斍疤荻鹊钠椒剑梢栽偃∑椒礁?quot;取消"這個平方。
但是就像動量的思路一樣,僅僅采用當前的梯度值是不夠好的。我們希望我們的訓練中的(每次)更新update都能更好的指導(模型)。因此,我們也需要使用之前的梯度值。正如上面所討論的,我們?nèi)∵^去梯度的指數(shù)移動平均值('mean square') ,然后取其平方根('root') ,也就是'均方根'(RMS)。除了 AdaGrad (采用累積的平方梯度之和)之外,本文中所有的優(yōu)化器都會對學習速率部分進行優(yōu)化。
(上述要點)
如果有什么不妥之處,或者如果這篇文章中的內(nèi)容可以再改進,請與我聯(lián)系???
梯度下降優(yōu)化算法概述(ruder.io)
為什么Momentum真的有效
這是一個關于動量的流行故事:梯度下降是一個人走在山上。
感謝Ren Jie,Derek,William Tjhi,Chan Kai,Serene和James對本文的想法,建議和更正。
想要繼續(xù)查看該篇文章相關鏈接和參考文獻?雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)
點擊【10個梯度下降優(yōu)化算法+備忘單】即可訪問:
免費贈送課程啦~「好玩的Python:從數(shù)據(jù)挖掘到深度學習」該課程涵蓋了從Python入門到CV、NLP實踐等內(nèi)容,是非常不錯的深度學習入門課程,共計9節(jié)32課時,總長度約為13個小時?!,F(xiàn)AI研習社將此課程免費開放給社區(qū)認證用戶,只要您在認證時在備注框里填寫「Python」,待認證通過后,即可獲得該課程全部解鎖權(quán)限。心動不如行動噢~
課程頁面:https://ai.yanxishe.com/page/domesticCourse/37
認證方式:https://ai.yanxishe.com/page/blogDetail/11609
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。