深度學習為何泛化的那么好？秘密或許隱藏在內(nèi)核機中

本文作者：我在思考中

2021-10-13 17:37

導語：無限寬神經(jīng)網(wǎng)絡與內(nèi)核機的等價性，揭開了深度學習黑匣子的一角。

無限寬神經(jīng)網(wǎng)絡與內(nèi)核機的等價性，揭開了深度學習黑匣子的一角。

編譯 | 杏花

編輯 | 青暮

在機器學習領域，人工神經(jīng)網(wǎng)絡逐年擴大規(guī)模，并取得了巨大成功，但同時它也制造了一個概念性難題。

當一個名為 AlexNet網(wǎng)絡在2012年贏得年度圖像識別比賽時，大約有6,000萬個參數(shù)。這些參數(shù)在訓練過程中進行了微調(diào)，使AlexNet能夠識別出以前從未見過的圖像。兩年后，一個名為 VGG 的網(wǎng)絡以超過 1.3 億個參數(shù)贏得了全場喝彩。如今，一些人工神經(jīng)網(wǎng)絡（或ANN）甚至達到了數(shù)十億個參數(shù)。

這些龐大的網(wǎng)絡，在圖像分類、語音識別和文本翻譯等任務上取得了驚人的表現(xiàn)，已經(jīng)開始主導機器學習和人工智能領域。然而，這些網(wǎng)絡仍然是神秘的，其驚人的力量背后的原因仍然難以捉摸。

但一些研究人員表明，這些強大網(wǎng)絡的理想化版本（比如無限寬）在數(shù)學上等同于更古老、更簡單的機器學習模型，即內(nèi)核機（kernel machines）。如果這種等價性可以擴展到理想化的神經(jīng)網(wǎng)絡之外，就可以解釋實際的人工神經(jīng)網(wǎng)絡為何能取得驚人的效果。

人工神經(jīng)網(wǎng)絡的一部分神秘之處在于，它們似乎顛覆了傳統(tǒng)的機器學習理論，而這些理論嚴重依賴統(tǒng)計學和概率論的觀點。在通常的思維方式中，機器學習模型，包括神經(jīng)網(wǎng)絡，通過學習樣本數(shù)據(jù)中的模式來預測新數(shù)據(jù)——特別是當它們擁有正確數(shù)量的參數(shù)時，表現(xiàn)最佳。

如果參數(shù)太少，學習模型可能會過于簡單，無法捕捉訓練數(shù)據(jù)的所有細微差別。若參數(shù)太多，模型則會變得過于復雜，在訓練數(shù)據(jù)中學習模式的粒度太細，以至于在要求對新數(shù)據(jù)進行分類時無法泛化，這種現(xiàn)象稱為過擬合。“這是在以某種方式很好地擬合數(shù)據(jù)和根本不擬合之間的平衡，我們需要找到一個居中點。”加州大學圣地亞哥分校(University of California, San Diego)機器學習研究員Mikhail Belkin如是說。

深度學習為何泛化的那么好？秘密或許隱藏在內(nèi)核機中

眾所周知，像VGG這樣的深度神經(jīng)網(wǎng)絡參數(shù)太多，應該會過擬合，但事實并非如此。而且恰恰相反，這類網(wǎng)絡對新數(shù)據(jù)的泛化能力驚人的好——直到最近，還沒人知道其中的原因。

這并不是因為缺乏這方面的探索。例如，于今年8月去世的耶路撒冷希伯來大學計算機科學家和神經(jīng)科學家Naftali Tishby認為，深度神經(jīng)網(wǎng)絡首先擬合訓練數(shù)據(jù)，然后（通過信息瓶頸）丟棄無關信息，這有助于它們泛化。但其他人認為，這并不適用于所有類型的深度神經(jīng)網(wǎng)絡，這個想法仍然存在爭議。

現(xiàn)在，內(nèi)核機和理想化神經(jīng)網(wǎng)絡的數(shù)學等價性為這些過度參數(shù)化的網(wǎng)絡效果如此好的原因和過程提供了線索。內(nèi)核機是一種算法，它通過將數(shù)據(jù)投射到極高的維度中來尋找數(shù)據(jù)中的模式。也就是說，通過研究理想化神經(jīng)網(wǎng)絡在數(shù)學上易于處理的內(nèi)核機等價對應物，研究人員正在了解為什么深度網(wǎng)絡盡管具有令人震驚的復雜性，但在訓練過程中會收斂到可以很好地泛化到未見過的數(shù)據(jù)的解決方案。

“神經(jīng)網(wǎng)絡有點像Rube Goldberg機器。你不知道其中哪一部分真正重要?！?Belkin說?！拔艺J為將[它們]簡化為內(nèi)核方法（因為內(nèi)核方法沒有這么復雜），在某種程度上允許我們打開這個黑箱?！?/span>

尋找線性分隔符

內(nèi)核方法或內(nèi)核機，依賴于具有悠久歷史的數(shù)學領域。這要追溯到19世紀德國數(shù)學家卡爾·弗里德里?！じ咚梗–arl Friedrich Gauss），他提出了同名的高斯核函數(shù)，這一函數(shù)將變量x映射到一個熟悉的鐘形曲線的函數(shù)。20世紀初，英國數(shù)學家James Mercer用核函數(shù)來解積分方程，核函數(shù)的現(xiàn)代用法開始興起。到了20世紀60年代，核函數(shù)被用于機器學習，以處理不適合簡單分類技術的數(shù)據(jù)。

理解內(nèi)核方法需要從機器學習中被稱為線性分類器的算法開始。假設貓和狗只能使用二維數(shù)據(jù)進行分類，這意味著你需要兩個特征（比如鼻子的大小，我們可以在 x 軸上繪制，而耳朵的大小可以在y軸上表示）來區(qū)分兩種類型的動物。根據(jù)x-y平面上繪制標記的數(shù)據(jù)，貓應該在一個集群中，而狗在另一個集群。

深度學習為何泛化的那么好？秘密或許隱藏在內(nèi)核機中

然后我們可以使用標記的數(shù)據(jù)訓練線性分類器，找出一條將兩個集群分開的直線。這涉及找到表示線的方程的系數(shù)?，F(xiàn)在，給定新的未標記數(shù)據(jù)，通過看這些數(shù)據(jù)落在線的哪一側(cè)，很容易將其歸類為狗或貓。

然而，愛狗人士和愛貓人士會對這種過于簡單化的做法感到震驚。許多類型的貓和狗的鼻子和耳朵的實際數(shù)據(jù)幾乎肯定不能被線性分隔符分割。在這種情況下，當數(shù)據(jù)是線性不可分的，可以將其轉(zhuǎn)換或投影到更高維的空間中。（一種簡單的方法是將兩個特征的值相乘，從而創(chuàng)建出第三個特征：也許將狗與貓區(qū)分開來的鼻子和耳朵的大小之間存在某種相關性。）

更普遍地說，在高維空間中查看數(shù)據(jù)更容易找到線性分隔符，當空間具有三個以上的維度時，該線性分隔符被稱為超平面。當這個超平面被投影回較低維度時，它將呈現(xiàn)出帶有曲線和擺動的非線性函數(shù)的形狀，將原始低維數(shù)據(jù)分成兩個集群。

深度學習為何泛化的那么好？秘密或許隱藏在內(nèi)核機中

然而，當我們處理真實數(shù)據(jù)時，在高維中找到超平面的系數(shù)通常是計算效率低下的，有時甚至是不可能找到的。但內(nèi)核機不存在這種情況。

真理的內(nèi)核

內(nèi)核機的強大之處在于它們能完成這兩件事。首先，內(nèi)核機將低維數(shù)據(jù)集中的每個點映射到更高維數(shù)據(jù)集中的一個點。這個超空間的維度可能是無限的，取決于映射，這可能會帶來一個問題：找到分離超平面的系數(shù)涉及到計算每一對高維特征的內(nèi)積，當數(shù)據(jù)被投射到無限維時，這就變得很困難。

其次，給定兩個低維數(shù)據(jù)點，內(nèi)核機可以使用核函數(shù)輸出一個數(shù)字，這個數(shù)字等于相應的高維特征的內(nèi)積。關鍵是，該算法可以使用這種技巧來找到超平面的系數(shù)，而無需真正進入高維空間。

加州大學伯克利分校名譽教授Bernhard Boser說，“內(nèi)核技巧的偉大之處在于，所有計算都發(fā)生在低維空間”，而不是可能的無限維空間。

Boser和他的同事Isabelle Guyon以及Vladimir Vapnik在20世紀80年代末和90年代初發(fā)明了一類稱為支持向量機 (SVM) 的內(nèi)核機，當時他們都在新澤西州霍爾姆德爾的貝爾實驗室（Bell Labs）。雖然從20世紀60年代開始，各種類型的內(nèi)核機已經(jīng)在機器學習領域取得了顯著的成就，但正是隨著SVM的發(fā)明，它們才登上了舞臺的中心。事實證明，SVM 非常強大。到21世紀初，它們被廣泛應用于生物信息學（例如，用于發(fā)現(xiàn)不同蛋白質(zhì)序列之間的相似性并預測蛋白質(zhì)的功能）、機器視覺和手寫識別等領域。

SVM繼續(xù)主導機器學習領域，直到 2012 年AlexNet 的到來，標志著深度神經(jīng)網(wǎng)絡發(fā)展成熟。隨著機器學習社區(qū)轉(zhuǎn)向ANN，SVM陷入困境，但它們（以及一般的內(nèi)核機）仍然是強大的模型，有很多東西值得我們學習。例如，他們可以做的不僅僅是使用內(nèi)核技巧來找到一個分離超平面。

“如果你有一個強大的內(nèi)核，那么你就可以將數(shù)據(jù)映射到一個無限維且非常強大的內(nèi)核空間，”谷歌研究大腦團隊的研究科學家張志遠（Chiyuan Zhang）說道?！霸谶@個強大的隱藏空間中，你總能找到一個線性分隔符來分隔數(shù)據(jù)，而且有無限多種可能的解決方案?！?/span>

但是，內(nèi)核理論不是讓你僅僅選擇一個任意的線性分隔符，而是通過限制搜索的解決方案的空間，選擇一個可能的最佳分隔符（對于某些“最佳”的定義而言）。類似于減少模型中的參數(shù)數(shù)量以防止其過擬合，這一過程稱為正則化。張志遠想知道深度神經(jīng)網(wǎng)絡是否也在做類似的事情。

深度神經(jīng)網(wǎng)絡由多層人工神經(jīng)元組成。它們有一個輸入層、一個輸出層和至少一個夾在它們之間的隱藏層。隱藏層越多，網(wǎng)絡就越深。網(wǎng)絡的參數(shù)代表了這些神經(jīng)元之間連接的強度。例如，訓練一個網(wǎng)絡進行圖像識別，需要反復向它展示之前分類過的圖像，并確定其參數(shù)值，以幫助它正確地描述這些圖像。經(jīng)過訓練后，神經(jīng)網(wǎng)絡成為了一個將輸入（比如圖像）轉(zhuǎn)換為輸出（標簽或類別）的模型。

2017年，張志遠和同事對AlexNet和VGG等網(wǎng)絡進行了一系列實證測試，以查看用于訓練這些ANN的算法是否以某種方式有效地減少了可調(diào)參數(shù)的數(shù)量，從而產(chǎn)生了一種隱式正則化形式。換句話說，訓練機制是否使這些網(wǎng)絡無法過擬合？

張志遠團隊發(fā)現(xiàn)事實并非如此。使用巧妙操縱的數(shù)據(jù)集，張教授的團隊證明了AlexNet和其他類似的人工神經(jīng)網(wǎng)絡確實會過擬合，而不是泛化。但是，當給定未更改的數(shù)據(jù)時，使用相同算法訓練的相同網(wǎng)絡并沒有過擬合——相反，它們泛化得很好。這種隱式正則化不可能是答案。張志遠說，這一發(fā)現(xiàn)要求“更好地解釋描述深度神經(jīng)網(wǎng)絡中的泛化特征”。

無限的神經(jīng)元

與此同時，研究表明，較寬的神經(jīng)網(wǎng)絡在泛化方面通常與較窄的神經(jīng)網(wǎng)絡表現(xiàn)一樣好，甚至更好。對某些人來說，這暗示著或許可以通過采用物理學中的策略來理解人工神經(jīng)網(wǎng)絡，“研究極限情況有時可以簡化問題?！?/span>谷歌研究大腦團隊的研究科學家Yasaman Bahri說。為了解決這種情況，物理學家經(jīng)常通過考慮極端情況來簡化問題。例如，當系統(tǒng)中的粒子數(shù)趨于無窮時會發(fā)生什么？Bahri說:“在這些限制條件下，統(tǒng)計效應會變得更容易處理?！?/span>從數(shù)學上講，如果神經(jīng)網(wǎng)絡層的寬度——即單層神經(jīng)元的數(shù)量——是無限的，那么神經(jīng)網(wǎng)絡會發(fā)生什么？

1994年，現(xiàn)為多倫多大學名譽教授的Radford Neal提出了一個關于具有單個隱藏層的無限寬網(wǎng)絡的確切問題。他指出，如果這個網(wǎng)絡的權重被重新設置或初始化，具有某些統(tǒng)計性質(zhì)，那么在初始化時（在任何訓練之前），這樣的網(wǎng)絡在數(shù)學上等價于一個眾所周知的核函數(shù)，稱為高斯過程。20多年后，在2017年，包括Bahri在內(nèi)的兩個研究小組表明，具有許多隱藏層的無限寬理想化深度神經(jīng)網(wǎng)絡也是如此。

這背后的含義是驚人的。通常情況下，即使在訓練了深度網(wǎng)絡之后，也不能使用解析數(shù)學表達式來對未見過的數(shù)據(jù)進行預測。你只需要運行深度網(wǎng)絡，看看它說了什么——它就像一個黑匣子。但在理想化的場景中，初始化時網(wǎng)絡等價于高斯過程。這時你可以拋棄神經(jīng)網(wǎng)絡，只訓練有數(shù)學表達式的內(nèi)核機器。

“一旦你把它映射到高斯過程中……你就可以通過分析計算預測應該是什么，”Bahri說。

這已經(jīng)是個里程碑式的發(fā)現(xiàn)，但它并沒有從數(shù)學上描述在實踐中最常見的訓練形式所發(fā)生的情況。在后一種情況下，尚不清楚該解決方案如何能夠很好地泛化。

開始梯度下降

部分謎團集中在如何訓練深度神經(jīng)網(wǎng)絡上，這涉及一種稱為梯度下降的算法。“下降”一詞指的是，在訓練過程中，網(wǎng)絡穿越了一個復雜的、高維的、布滿山丘和山谷的景觀，景觀中的每個位置都代表了網(wǎng)絡對給定的一組參數(shù)值所造成的誤差。最終，一旦參數(shù)得到適當調(diào)整，人工神經(jīng)網(wǎng)絡就會到達一個稱為全局最小值的區(qū)域，這意味著它將盡可能準確地對訓練數(shù)據(jù)進行分類。訓練網(wǎng)絡本質(zhì)上是一個優(yōu)化問題，即尋找全局最小值，訓練后的網(wǎng)絡表示將輸入映射到輸出的幾乎最優(yōu)函數(shù)。這是一個難以分析的復雜過程。

西雅圖華盛頓大學的機器學習專家Simon Du說：“如果你應用一些廣泛使用的算法，如梯度下降，（人工神經(jīng)網(wǎng)絡）可以收斂到全局最小值，現(xiàn)有的理論無法保證這一點。” 到2018年底，我們開始明白其中的原因。

同樣，正如重大科學進步常表現(xiàn)的那樣，基于對無限寬網(wǎng)絡的數(shù)學分析，以及它們與更容易理解的內(nèi)核機器之間的關系，多個研究小組同時得出了一個可能的答案。在Simon Du的團隊和其他人發(fā)表論文的時候，一位名叫Arthur Jacot的年輕瑞士研究生在該領域的旗艦會議NeurIPS 2018上展示了他的團隊的成果。

雖然各團隊在細節(jié)和工作框架上有所不同，但本質(zhì)是一致的，即無限寬的深度神經(jīng)網(wǎng)絡，其權值是根據(jù)特定的統(tǒng)計屬性初始化的，不僅在初始化時，而且在整個訓練過程中都與核函數(shù)完全相同。關于權重的一個關鍵假設是，它們在訓練過程中單個變化很?。ūM管無限數(shù)量的小變化的凈影響是顯著的）。Jacot和他在瑞士洛桑聯(lián)邦理工學院的同事證明了一個無限寬的深度神經(jīng)網(wǎng)絡總是等同于一個在訓練期間不會改變的內(nèi)核，它甚至不依賴于訓練數(shù)據(jù)。核函數(shù)只依賴于神經(jīng)網(wǎng)絡的結(jié)構，如連接的深度和類型?；谒囊恍缀翁匦裕搱F隊將其內(nèi)核命名為神經(jīng)正切核。

“我們知道，至少在某些情況下，神經(jīng)網(wǎng)絡可以像內(nèi)核方法一樣運行，”雅科特說。“這是嘗試真正比較這些方法以試圖了解差異的第一步?！?/span>

所有的人工神經(jīng)網(wǎng)絡

這個結(jié)果最重要的發(fā)現(xiàn)是，它解釋了為什么深度神經(jīng)網(wǎng)絡，至少在這種理想情況下，會收斂到一個好的解。當我們在參數(shù)空間中查看人工神經(jīng)網(wǎng)絡時，即從其參數(shù)和復雜的損失景觀來看，這種收斂性很難在數(shù)學上證明。但由于理想的深度網(wǎng)絡相當于一個內(nèi)核機，我們可以使用訓練數(shù)據(jù)來訓練深度網(wǎng)絡或內(nèi)核機，最終都會找到一個近似最優(yōu)的函數(shù)，將輸入轉(zhuǎn)換為輸出。

在訓練過程中，無限寬神經(jīng)網(wǎng)絡所代表的函數(shù)的演化與內(nèi)核機所代表的函數(shù)的演化相匹配。當我們看到函數(shù)空間時，神經(jīng)網(wǎng)絡和它的等效內(nèi)核機都在某個超維空間中滾下一個簡單的碗狀景觀。很容易證明梯度下降會讓你到達碗的底部——全局最小值。至少對于這種理想化的場景，“你可以證明全局收斂，”Du說?！斑@就是為什么學習理論社區(qū)的人們這么興奮?！?/span>

并不是每個人都相信核函數(shù)和神經(jīng)網(wǎng)絡之間的這種等價性適用于實際的神經(jīng)網(wǎng)絡——這些神經(jīng)網(wǎng)絡的寬度是有限的，并且其參數(shù)在訓練過程中會發(fā)生巨大變化。“我認為還需要把一些地方聯(lián)系起來，”張志遠說。此外，還有心理方面的原因：神經(jīng)網(wǎng)絡本身就很神秘，將它們簡化為內(nèi)核機讓張感到失望?！拔矣悬c希望這不是最終答案，因為從舊理論可用的意義上來說，它會讓事情變得不那么有趣?！?/span>

但其他人卻很興奮。例如，Belkin認為，即使內(nèi)核方法是舊理論，它們?nèi)匀粵]有被完全理解。他的團隊根據(jù)經(jīng)驗表明，內(nèi)核方法不會過擬合，并且在不需要任何正則化的情況下可以很好地泛化到測試數(shù)據(jù)，這與神經(jīng)網(wǎng)絡類似，且與我們對傳統(tǒng)學習理論的預期相反。“如果我們了解了內(nèi)核方法的發(fā)展，那么我認為這確實為我們提供了打開神經(jīng)網(wǎng)絡這個神秘盒子的鑰匙，”Belkin如是說。

研究人員不僅對核函數(shù)有更牢固的數(shù)學掌握，從而更容易將它們作為模擬物來理解神經(jīng)網(wǎng)絡，而且從經(jīng)驗上講，核函數(shù)也比神經(jīng)網(wǎng)絡更容易使用。核函數(shù)遠沒有那么復雜，它們不需要隨機初始化參數(shù)，而且它們的性能更具有可重復性。研究人員已經(jīng)開始研究現(xiàn)實網(wǎng)絡和核函數(shù)之間的聯(lián)系，并對他們在這一新理解上能走多遠感到興奮。

“如果我們建立了絕對、完全的等價，那么我認為它將在某種程度上改變整個游戲。”Belkin說。

原文鏈接：

https://www.quantamagazine.org/a-new-link-to-an-old-model-could-crack-the-mystery-of-deep-learning-20211011/

深度學習為何泛化的那么好？秘密或許隱藏在內(nèi)核機中