大批量深度學(xué)習(xí)為何泛化效果差？西北大學(xué)聯(lián)合英特爾給出了答案 | ICLR 2017

本文作者：雪莉?休斯敦

編輯：郭奕欣

2017-04-25 10:23

專題：ICLR 2017

導(dǎo)語：大量的證據(jù)證明，大批量的方法會(huì)傾向于將模型和函數(shù)歸一化，從而導(dǎo)致尖銳收斂，并最終生成了比較差的泛化效果。

雷鋒網(wǎng)AI科技評(píng)論按：ICLR 2017 于4月24-26日在法國土倫舉行，雷鋒網(wǎng)AI科技評(píng)論的編輯們也于法國帶來一線報(bào)道。在這個(gè)深度學(xué)習(xí)會(huì)議舉辦之際，雷鋒網(wǎng)也圍繞會(huì)議議程及論文介紹展開一系列的覆蓋和專題報(bào)道，敬請期待。

大批量深度學(xué)習(xí)為何泛化效果差？西北大學(xué)聯(lián)合英特爾給出了答案 | ICLR 2017

由西北大學(xué)（Northwestern U）的Nitish Shirish Keskar和Jorge Nocedal和英特爾的Dheevatsa Mudigere，Mikhail Smelyanskiy以及Ping Tak Peter Tang近期發(fā)表的論文《ON LARGE-BATCH TRAINING FOR DEEP LEARNING: GENERALIZATION GAP AND SHARP MINIMA》，當(dāng)選 ICLR 2017的oral paper。文章描述了在傳統(tǒng)神經(jīng)網(wǎng)絡(luò)訓(xùn)練時(shí)，大的 batch size（如，超過512）會(huì)導(dǎo)致網(wǎng)絡(luò)模型泛化能力下降的問題，并通過實(shí)驗(yàn)證明其原因是泛化誤差和尖銳收斂，并提出了一些解決方案。

很多深度學(xué)習(xí)過程中都在算法上應(yīng)用了隨機(jī)梯度下降的方法或隨機(jī)梯度下降的衍生方法。但是這種方法一般適用于小批量（樣本數(shù)量在32-512之間）的計(jì)算。觀察數(shù)據(jù)顯示，當(dāng)大批量計(jì)算時(shí)（樣品數(shù)量超過512），如果用泛化能力作為標(biāo)準(zhǔn)的話，模型的計(jì)算質(zhì)量就會(huì)下降。Intel與西北大學(xué)研究的這篇文章，就這個(gè)問題進(jìn)行了討論，并提出了大量的證據(jù)證明大批量的方法會(huì)傾向于將模型和函數(shù)歸一化，從而導(dǎo)致尖銳收斂，并最終生成了比較差的泛化效果。

論文分析了在小批量情況下結(jié)果不同的原因，并提出這種不同來自于在梯度預(yù)測時(shí)內(nèi)部噪聲的差異。如下圖片，在這個(gè)案例中，隨機(jī)的選擇一組小批量（SB）和大批量（LB）的最小值，可以發(fā)現(xiàn)，LB極小值比SB極小值更加尖銳。因此，泛化能力則更低一些。同時(shí)，論文還就減小泛化間隙的問題提出了在大批量計(jì)算中適用的幾種策略，開放性的預(yù)留了未來的討論點(diǎn)，包括在大批量計(jì)算中可進(jìn)行的尖銳收斂和可能的優(yōu)化方案。

大批量深度學(xué)習(xí)為何泛化效果差？西北大學(xué)聯(lián)合英特爾給出了答案 | ICLR 2017