0
本文作者: 雪莉?休斯敦 | 編輯:郭奕欣 | 2017-04-25 10:23 | 專題:ICLR 2017 |
雷鋒網(wǎng)AI科技評(píng)論按:ICLR 2017 于4月24-26日在法國(guó)土倫舉行,雷鋒網(wǎng)AI科技評(píng)論的編輯們也于法國(guó)帶來(lái)一線報(bào)道。在這個(gè)深度學(xué)習(xí)會(huì)議舉辦之際,雷鋒網(wǎng)也圍繞會(huì)議議程及論文介紹展開(kāi)一系列的覆蓋和專題報(bào)道,敬請(qǐng)期待。
由西北大學(xué)(Northwestern U)的Nitish Shirish Keskar和Jorge Nocedal和英特爾的Dheevatsa Mudigere,Mikhail Smelyanskiy以及Ping Tak Peter Tang近期發(fā)表的論文《ON LARGE-BATCH TRAINING FOR DEEP LEARNING: GENERALIZATION GAP AND SHARP MINIMA》,當(dāng)選 ICLR 2017的oral paper。文章描述了在傳統(tǒng)神經(jīng)網(wǎng)絡(luò)訓(xùn)練時(shí),大的 batch size(如,超過(guò)512)會(huì)導(dǎo)致網(wǎng)絡(luò)模型泛化能力下降的問(wèn)題,并通過(guò)實(shí)驗(yàn)證明其原因是泛化誤差和尖銳收斂,并提出了一些解決方案。
很多深度學(xué)習(xí)過(guò)程中都在算法上應(yīng)用了隨機(jī)梯度下降的方法或隨機(jī)梯度下降的衍生方法。但是這種方法一般適用于小批量(樣本數(shù)量在32-512之間)的計(jì)算。觀察數(shù)據(jù)顯示,當(dāng)大批量計(jì)算時(shí)(樣品數(shù)量超過(guò)512),如果用泛化能力作為標(biāo)準(zhǔn)的話,模型的計(jì)算質(zhì)量就會(huì)下降。Intel與西北大學(xué)研究的這篇文章,就這個(gè)問(wèn)題進(jìn)行了討論,并提出了大量的證據(jù)證明大批量的方法會(huì)傾向于將模型和函數(shù)歸一化,從而導(dǎo)致尖銳收斂,并最終生成了比較差的泛化效果。
論文分析了在小批量情況下結(jié)果不同的原因,并提出這種不同來(lái)自于在梯度預(yù)測(cè)時(shí)內(nèi)部噪聲的差異。如下圖片,在這個(gè)案例中,隨機(jī)的選擇一組小批量(SB)和大批量(LB)的最小值,可以發(fā)現(xiàn),LB極小值比SB極小值更加尖銳。因此,泛化能力則更低一些。同時(shí),論文還就減小泛化間隙的問(wèn)題提出了在大批量計(jì)算中適用的幾種策略,開(kāi)放性的預(yù)留了未來(lái)的討論點(diǎn),包括在大批量計(jì)算中可進(jìn)行的尖銳收斂和可能的優(yōu)化方案。
論文鏈接:https://openreview.net/pdf?id=H1oyRlYgg
原文鏈接:https://openreview.net/forum?id=H1oyRlYgg¬eId=H1oyRlYgg
對(duì)這篇論文的評(píng)論普遍非常正面,這說(shuō)明了這篇論文映射了一個(gè)在工程應(yīng)用領(lǐng)域普遍存在的問(wèn)題。我相信整個(gè)研究環(huán)境會(huì)通過(guò)閱讀這篇論文得到一些建設(shè)性的解決問(wèn)題的新思路。
決定:接受(Oral)
評(píng)分:8分,Top 50%,明確接受
評(píng)論:這是一篇很有趣的文章,就為什么大批量訓(xùn)練效果變差的原因進(jìn)行了分析,這對(duì)整個(gè)深度學(xué)習(xí)的社區(qū)有著重要的意義。
評(píng)論:我想這篇文章明確了一點(diǎn),大批量計(jì)算時(shí),泛化效果就會(huì)變差。并通過(guò)對(duì)比分析大批量和小批量的失真函數(shù)進(jìn)行了很好的闡釋。
評(píng)分:10分,Top 5%,這是一篇研討會(huì)文章
評(píng)分:6分,剛好及格
評(píng)價(jià):我覺(jué)得這篇文章還不錯(cuò),很有趣也很有用,但是如果增加更多的論證,比如增加一些高斯噪聲梯度的分析。
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。
本專題其他文章