0
本文作者: 我在思考中 | 2021-10-13 17:37 |
編譯 | 杏花
編輯 | 青暮
在機器學習領域,人工神經(jīng)網(wǎng)絡逐年擴大規(guī)模,并取得了巨大成功,但同時它也制造了一個概念性難題。
當一個名為 AlexNet網(wǎng)絡在2012年贏得年度圖像識別比賽時,大約有6,000萬個參數(shù)。這些參數(shù)在訓練過程中進行了微調(diào),使AlexNet能夠識別出以前從未見過的圖像。兩年后,一個名為 VGG 的網(wǎng)絡以超過 1.3 億個參數(shù)贏得了全場喝彩。如今,一些人工神經(jīng)網(wǎng)絡(或ANN)甚至達到了數(shù)十億個參數(shù)。
這些龐大的網(wǎng)絡,在圖像分類、語音識別和文本翻譯等任務上取得了驚人的表現(xiàn),已經(jīng)開始主導機器學習和人工智能領域。然而,這些網(wǎng)絡仍然是神秘的,其驚人的力量背后的原因仍然難以捉摸。
但一些研究人員表明,這些強大網(wǎng)絡的理想化版本(比如無限寬)在數(shù)學上等同于更古老、更簡單的機器學習模型,即內(nèi)核機(kernel machines)。如果這種等價性可以擴展到理想化的神經(jīng)網(wǎng)絡之外,就可以解釋實際的人工神經(jīng)網(wǎng)絡為何能取得驚人的效果。
人工神經(jīng)網(wǎng)絡的一部分神秘之處在于,它們似乎顛覆了傳統(tǒng)的機器學習理論,而這些理論嚴重依賴統(tǒng)計學和概率論的觀點。在通常的思維方式中,機器學習模型,包括神經(jīng)網(wǎng)絡,通過學習樣本數(shù)據(jù)中的模式來預測新數(shù)據(jù)——特別是當它們擁有正確數(shù)量的參數(shù)時,表現(xiàn)最佳。
如果參數(shù)太少,學習模型可能會過于簡單,無法捕捉訓練數(shù)據(jù)的所有細微差別。若參數(shù)太多,模型則會變得過于復雜,在訓練數(shù)據(jù)中學習模式的粒度太細,以至于在要求對新數(shù)據(jù)進行分類時無法泛化,這種現(xiàn)象稱為過擬合。“這是在以某種方式很好地擬合數(shù)據(jù)和根本不擬合之間的平衡,我們需要找到一個居中點。”加州大學圣地亞哥分校(University of California, San Diego)機器學習研究員Mikhail Belkin如是說。
眾所周知,像VGG這樣的深度神經(jīng)網(wǎng)絡參數(shù)太多,應該會過擬合,但事實并非如此。而且恰恰相反,這類網(wǎng)絡對新數(shù)據(jù)的泛化能力驚人的好——直到最近,還沒人知道其中的原因。
這并不是因為缺乏這方面的探索。例如,于今年8月去世的耶路撒冷希伯來大學計算機科學家和神經(jīng)科學家Naftali Tishby認為,深度神經(jīng)網(wǎng)絡首先擬合訓練數(shù)據(jù),然后(通過信息瓶頸)丟棄無關信息,這有助于它們泛化。但其他人認為,這并不適用于所有類型的深度神經(jīng)網(wǎng)絡,這個想法仍然存在爭議。
現(xiàn)在,內(nèi)核機和理想化神經(jīng)網(wǎng)絡的數(shù)學等價性為這些過度參數(shù)化的網(wǎng)絡效果如此好的原因和過程提供了線索。內(nèi)核機是一種算法,它通過將數(shù)據(jù)投射到極高的維度中來尋找數(shù)據(jù)中的模式。也就是說,通過研究理想化神經(jīng)網(wǎng)絡在數(shù)學上易于處理的內(nèi)核機等價對應物,研究人員正在了解為什么深度網(wǎng)絡盡管具有令人震驚的復雜性,但在訓練過程中會收斂到可以很好地泛化到未見過的數(shù)據(jù)的解決方案。
“神經(jīng)網(wǎng)絡有點像Rube Goldberg機器。你不知道其中哪一部分真正重要?!?Belkin說?!拔艺J為將[它們]簡化為內(nèi)核方法(因為內(nèi)核方法沒有這么復雜),在某種程度上允許我們打開這個黑箱?!?/span>
內(nèi)核方法或內(nèi)核機,依賴于具有悠久歷史的數(shù)學領域。這要追溯到19世紀德國數(shù)學家卡爾·弗里德里?!じ咚梗–arl Friedrich Gauss),他提出了同名的高斯核函數(shù),這一函數(shù)將變量x映射到一個熟悉的鐘形曲線的函數(shù)。20世紀初,英國數(shù)學家James Mercer用核函數(shù)來解積分方程,核函數(shù)的現(xiàn)代用法開始興起。到了20世紀60年代,核函數(shù)被用于機器學習,以處理不適合簡單分類技術的數(shù)據(jù)。
理解內(nèi)核方法需要從機器學習中被稱為線性分類器的算法開始。假設貓和狗只能使用二維數(shù)據(jù)進行分類,這意味著你需要兩個特征(比如鼻子的大小,我們可以在 x 軸上繪制,而耳朵的大小可以在y軸上表示)來區(qū)分兩種類型的動物。根據(jù)x-y平面上繪制標記的數(shù)據(jù),貓應該在一個集群中,而狗在另一個集群。
然后我們可以使用標記的數(shù)據(jù)訓練線性分類器,找出一條將兩個集群分開的直線。這涉及找到表示線的方程的系數(shù)?,F(xiàn)在,給定新的未標記數(shù)據(jù),通過看這些數(shù)據(jù)落在線的哪一側(cè),很容易將其歸類為狗或貓。
然而,愛狗人士和愛貓人士會對這種過于簡單化的做法感到震驚。許多類型的貓和狗的鼻子和耳朵的實際數(shù)據(jù)幾乎肯定不能被線性分隔符分割。在這種情況下,當數(shù)據(jù)是線性不可分的,可以將其轉(zhuǎn)換或投影到更高維的空間中。(一種簡單的方法是將兩個特征的值相乘,從而創(chuàng)建出第三個特征:也許將狗與貓區(qū)分開來的鼻子和耳朵的大小之間存在某種相關性。)
更普遍地說,在高維空間中查看數(shù)據(jù)更容易找到線性分隔符,當空間具有三個以上的維度時,該線性分隔符被稱為超平面。當這個超平面被投影回較低維度時,它將呈現(xiàn)出帶有曲線和擺動的非線性函數(shù)的形狀,將原始低維數(shù)據(jù)分成兩個集群。
然而,當我們處理真實數(shù)據(jù)時,在高維中找到超平面的系數(shù)通常是計算效率低下的,有時甚至是不可能找到的。但內(nèi)核機不存在這種情況。
內(nèi)核機的強大之處在于它們能完成這兩件事。首先,內(nèi)核機將低維數(shù)據(jù)集中的每個點映射到更高維數(shù)據(jù)集中的一個點。這個超空間的維度可能是無限的,取決于映射,這可能會帶來一個問題:找到分離超平面的系數(shù)涉及到計算每一對高維特征的內(nèi)積,當數(shù)據(jù)被投射到無限維時,這就變得很困難。
其次,給定兩個低維數(shù)據(jù)點,內(nèi)核機可以使用核函數(shù)輸出一個數(shù)字,這個數(shù)字等于相應的高維特征的內(nèi)積。關鍵是,該算法可以使用這種技巧來找到超平面的系數(shù),而無需真正進入高維空間。
加州大學伯克利分校名譽教授Bernhard Boser說,“內(nèi)核技巧的偉大之處在于,所有計算都發(fā)生在低維空間”,而不是可能的無限維空間。
Boser和他的同事Isabelle Guyon以及Vladimir Vapnik在20世紀80年代末和90年代初發(fā)明了一類稱為支持向量機 (SVM) 的內(nèi)核機,當時他們都在新澤西州霍爾姆德爾的貝爾實驗室(Bell Labs)。雖然從20世紀60年代開始,各種類型的內(nèi)核機已經(jīng)在機器學習領域取得了顯著的成就,但正是隨著SVM的發(fā)明,它們才登上了舞臺的中心。事實證明,SVM 非常強大。到21世紀初,它們被廣泛應用于生物信息學(例如,用于發(fā)現(xiàn)不同蛋白質(zhì)序列之間的相似性并預測蛋白質(zhì)的功能)、機器視覺和手寫識別等領域。
SVM繼續(xù)主導機器學習領域,直到 2012 年AlexNet 的到來,標志著深度神經(jīng)網(wǎng)絡發(fā)展成熟。隨著機器學習社區(qū)轉(zhuǎn)向ANN,SVM陷入困境,但它們(以及一般的內(nèi)核機)仍然是強大的模型,有很多東西值得我們學習。例如,他們可以做的不僅僅是使用內(nèi)核技巧來找到一個分離超平面。
“如果你有一個強大的內(nèi)核,那么你就可以將數(shù)據(jù)映射到一個無限維且非常強大的內(nèi)核空間,”谷歌研究大腦團隊的研究科學家張志遠(Chiyuan Zhang)說道?!霸谶@個強大的隱藏空間中,你總能找到一個線性分隔符來分隔數(shù)據(jù),而且有無限多種可能的解決方案?!?/span>
但是,內(nèi)核理論不是讓你僅僅選擇一個任意的線性分隔符,而是通過限制搜索的解決方案的空間,選擇一個可能的最佳分隔符(對于某些“最佳”的定義而言)。類似于減少模型中的參數(shù)數(shù)量以防止其過擬合,這一過程稱為正則化。張志遠想知道深度神經(jīng)網(wǎng)絡是否也在做類似的事情。
深度神經(jīng)網(wǎng)絡由多層人工神經(jīng)元組成。它們有一個輸入層、一個輸出層和至少一個夾在它們之間的隱藏層。隱藏層越多,網(wǎng)絡就越深。網(wǎng)絡的參數(shù)代表了這些神經(jīng)元之間連接的強度。例如,訓練一個網(wǎng)絡進行圖像識別,需要反復向它展示之前分類過的圖像,并確定其參數(shù)值,以幫助它正確地描述這些圖像。經(jīng)過訓練后,神經(jīng)網(wǎng)絡成為了一個將輸入(比如圖像)轉(zhuǎn)換為輸出(標簽或類別)的模型。
2017年,張志遠和同事對AlexNet和VGG等網(wǎng)絡進行了一系列實證測試,以查看用于訓練這些ANN的算法是否以某種方式有效地減少了可調(diào)參數(shù)的數(shù)量,從而產(chǎn)生了一種隱式正則化形式。換句話說,訓練機制是否使這些網(wǎng)絡無法過擬合?
張志遠團隊發(fā)現(xiàn)事實并非如此。使用巧妙操縱的數(shù)據(jù)集,張教授的團隊證明了AlexNet和其他類似的人工神經(jīng)網(wǎng)絡確實會過擬合,而不是泛化。但是,當給定未更改的數(shù)據(jù)時,使用相同算法訓練的相同網(wǎng)絡并沒有過擬合——相反,它們泛化得很好。這種隱式正則化不可能是答案。張志遠說,這一發(fā)現(xiàn)要求“更好地解釋描述深度神經(jīng)網(wǎng)絡中的泛化特征”。
與此同時,研究表明,較寬的神經(jīng)網(wǎng)絡在泛化方面通常與較窄的神經(jīng)網(wǎng)絡表現(xiàn)一樣好,甚至更好。對某些人來說,這暗示著或許可以通過采用物理學中的策略來理解人工神經(jīng)網(wǎng)絡,“研究極限情況有時可以簡化問題?!?/span>谷歌研究大腦團隊的研究科學家Yasaman Bahri說。為了解決這種情況,物理學家經(jīng)常通過考慮極端情況來簡化問題。例如,當系統(tǒng)中的粒子數(shù)趨于無窮時會發(fā)生什么?Bahri說:“在這些限制條件下,統(tǒng)計效應會變得更容易處理?!?/span>從數(shù)學上講,如果神經(jīng)網(wǎng)絡層的寬度——即單層神經(jīng)元的數(shù)量——是無限的,那么神經(jīng)網(wǎng)絡會發(fā)生什么?
1994年,現(xiàn)為多倫多大學名譽教授的Radford Neal提出了一個關于具有單個隱藏層的無限寬網(wǎng)絡的確切問題。他指出,如果這個網(wǎng)絡的權重被重新設置或初始化,具有某些統(tǒng)計性質(zhì),那么在初始化時(在任何訓練之前),這樣的網(wǎng)絡在數(shù)學上等價于一個眾所周知的核函數(shù),稱為高斯過程。20多年后,在2017年,包括Bahri在內(nèi)的兩個研究小組表明,具有許多隱藏層的無限寬理想化深度神經(jīng)網(wǎng)絡也是如此。
這背后的含義是驚人的。通常情況下,即使在訓練了深度網(wǎng)絡之后,也不能使用解析數(shù)學表達式來對未見過的數(shù)據(jù)進行預測。你只需要運行深度網(wǎng)絡,看看它說了什么——它就像一個黑匣子。但在理想化的場景中,初始化時網(wǎng)絡等價于高斯過程。這時你可以拋棄神經(jīng)網(wǎng)絡,只訓練有數(shù)學表達式的內(nèi)核機器。
“一旦你把它映射到高斯過程中……你就可以通過分析計算預測應該是什么,”Bahri說。
這已經(jīng)是個里程碑式的發(fā)現(xiàn),但它并沒有從數(shù)學上描述在實踐中最常見的訓練形式所發(fā)生的情況。在后一種情況下,尚不清楚該解決方案如何能夠很好地泛化。
部分謎團集中在如何訓練深度神經(jīng)網(wǎng)絡上,這涉及一種稱為梯度下降的算法。“下降”一詞指的是,在訓練過程中,網(wǎng)絡穿越了一個復雜的、高維的、布滿山丘和山谷的景觀,景觀中的每個位置都代表了網(wǎng)絡對給定的一組參數(shù)值所造成的誤差。最終,一旦參數(shù)得到適當調(diào)整,人工神經(jīng)網(wǎng)絡就會到達一個稱為全局最小值的區(qū)域,這意味著它將盡可能準確地對訓練數(shù)據(jù)進行分類。訓練網(wǎng)絡本質(zhì)上是一個優(yōu)化問題,即尋找全局最小值,訓練后的網(wǎng)絡表示將輸入映射到輸出的幾乎最優(yōu)函數(shù)。這是一個難以分析的復雜過程。
西雅圖華盛頓大學的機器學習專家Simon Du說:“如果你應用一些廣泛使用的算法,如梯度下降,(人工神經(jīng)網(wǎng)絡)可以收斂到全局最小值,現(xiàn)有的理論無法保證這一點。” 到2018年底,我們開始明白其中的原因。
同樣,正如重大科學進步常表現(xiàn)的那樣,基于對無限寬網(wǎng)絡的數(shù)學分析,以及它們與更容易理解的內(nèi)核機器之間的關系,多個研究小組同時得出了一個可能的答案。在Simon Du的團隊和其他人發(fā)表論文的時候,一位名叫Arthur Jacot的年輕瑞士研究生在該領域的旗艦會議NeurIPS 2018上展示了他的團隊的成果。
雖然各團隊在細節(jié)和工作框架上有所不同,但本質(zhì)是一致的,即無限寬的深度神經(jīng)網(wǎng)絡,其權值是根據(jù)特定的統(tǒng)計屬性初始化的,不僅在初始化時,而且在整個訓練過程中都與核函數(shù)完全相同。關于權重的一個關鍵假設是,它們在訓練過程中單個變化很?。ūM管無限數(shù)量的小變化的凈影響是顯著的)。Jacot和他在瑞士洛桑聯(lián)邦理工學院的同事證明了一個無限寬的深度神經(jīng)網(wǎng)絡總是等同于一個在訓練期間不會改變的內(nèi)核,它甚至不依賴于訓練數(shù)據(jù)。核函數(shù)只依賴于神經(jīng)網(wǎng)絡的結(jié)構,如連接的深度和類型?;谒囊恍缀翁匦裕搱F隊將其內(nèi)核命名為神經(jīng)正切核。
“我們知道,至少在某些情況下,神經(jīng)網(wǎng)絡可以像內(nèi)核方法一樣運行,”雅科特說。“這是嘗試真正比較這些方法以試圖了解差異的第一步?!?/span>
這個結(jié)果最重要的發(fā)現(xiàn)是,它解釋了為什么深度神經(jīng)網(wǎng)絡,至少在這種理想情況下,會收斂到一個好的解。當我們在參數(shù)空間中查看人工神經(jīng)網(wǎng)絡時,即從其參數(shù)和復雜的損失景觀來看,這種收斂性很難在數(shù)學上證明。但由于理想的深度網(wǎng)絡相當于一個內(nèi)核機,我們可以使用訓練數(shù)據(jù)來訓練深度網(wǎng)絡或內(nèi)核機,最終都會找到一個近似最優(yōu)的函數(shù),將輸入轉(zhuǎn)換為輸出。
在訓練過程中,無限寬神經(jīng)網(wǎng)絡所代表的函數(shù)的演化與內(nèi)核機所代表的函數(shù)的演化相匹配。當我們看到函數(shù)空間時,神經(jīng)網(wǎng)絡和它的等效內(nèi)核機都在某個超維空間中滾下一個簡單的碗狀景觀。很容易證明梯度下降會讓你到達碗的底部——全局最小值。至少對于這種理想化的場景,“你可以證明全局收斂,”Du說?!斑@就是為什么學習理論社區(qū)的人們這么興奮?!?/span>
并不是每個人都相信核函數(shù)和神經(jīng)網(wǎng)絡之間的這種等價性適用于實際的神經(jīng)網(wǎng)絡——這些神經(jīng)網(wǎng)絡的寬度是有限的,并且其參數(shù)在訓練過程中會發(fā)生巨大變化。“我認為還需要把一些地方聯(lián)系起來,”張志遠說。此外,還有心理方面的原因:神經(jīng)網(wǎng)絡本身就很神秘,將它們簡化為內(nèi)核機讓張感到失望?!拔矣悬c希望這不是最終答案,因為從舊理論可用的意義上來說,它會讓事情變得不那么有趣?!?/span>
但其他人卻很興奮。例如,Belkin認為,即使內(nèi)核方法是舊理論,它們?nèi)匀粵]有被完全理解。他的團隊根據(jù)經(jīng)驗表明,內(nèi)核方法不會過擬合,并且在不需要任何正則化的情況下可以很好地泛化到測試數(shù)據(jù),這與神經(jīng)網(wǎng)絡類似,且與我們對傳統(tǒng)學習理論的預期相反。“如果我們了解了內(nèi)核方法的發(fā)展,那么我認為這確實為我們提供了打開神經(jīng)網(wǎng)絡這個神秘盒子的鑰匙,”Belkin如是說。
研究人員不僅對核函數(shù)有更牢固的數(shù)學掌握,從而更容易將它們作為模擬物來理解神經(jīng)網(wǎng)絡,而且從經(jīng)驗上講,核函數(shù)也比神經(jīng)網(wǎng)絡更容易使用。核函數(shù)遠沒有那么復雜,它們不需要隨機初始化參數(shù),而且它們的性能更具有可重復性。研究人員已經(jīng)開始研究現(xiàn)實網(wǎng)絡和核函數(shù)之間的聯(lián)系,并對他們在這一新理解上能走多遠感到興奮。
“如果我們建立了絕對、完全的等價,那么我認為它將在某種程度上改變整個游戲。”Belkin說。
原文鏈接:
https://www.quantamagazine.org/a-new-link-to-an-old-model-could-crack-the-mystery-of-deep-learning-20211011/
雷鋒網(wǎng)
雷峰網(wǎng)版權文章,未經(jīng)授權禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。