丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能學(xué)術(shù) 正文
發(fā)私信給我在思考中
發(fā)送

0

深度學(xué)習(xí)為何泛化的那么好?秘密或許隱藏在內(nèi)核機(jī)中

本文作者: 我在思考中 2021-10-13 17:37
導(dǎo)語:無限寬神經(jīng)網(wǎng)絡(luò)與內(nèi)核機(jī)的等價(jià)性,揭開了深度學(xué)習(xí)黑匣子的一角。
深度學(xué)習(xí)為何泛化的那么好?秘密或許隱藏在內(nèi)核機(jī)中
無限寬神經(jīng)網(wǎng)絡(luò)與內(nèi)核機(jī)的等價(jià)性,揭開了深度學(xué)習(xí)黑匣子的一角。

編譯 杏花

編輯 | 青暮

在機(jī)器學(xué)習(xí)領(lǐng)域,人工神經(jīng)網(wǎng)絡(luò)逐年擴(kuò)大規(guī)模,并取得了巨大成功,但同時它也制造了一個概念性難題。

當(dāng)一個名為 AlexNet網(wǎng)絡(luò)在2012年贏得年度圖像識別比賽時,大約有6,000萬個參數(shù)。這些參數(shù)在訓(xùn)練過程中進(jìn)行了微調(diào),使AlexNet能夠識別出以前從未見過的圖像。兩年后,一個名為 VGG 的網(wǎng)絡(luò)以超過 1.3 億個參數(shù)贏得了全場喝彩。如今,一些人工神經(jīng)網(wǎng)絡(luò)(或ANN)甚至達(dá)到了數(shù)十億個參數(shù)。

這些龐大的網(wǎng)絡(luò),在圖像分類、語音識別和文本翻譯等任務(wù)上取得了驚人的表現(xiàn),已經(jīng)開始主導(dǎo)機(jī)器學(xué)習(xí)和人工智能領(lǐng)域。然而,這些網(wǎng)絡(luò)仍然是神秘的,其驚人的力量背后的原因仍然難以捉摸。

但一些研究人員表明,這些強(qiáng)大網(wǎng)絡(luò)的理想化版本(比如無限寬)在數(shù)學(xué)上等同于更古老、更簡單的機(jī)器學(xué)習(xí)模型,即內(nèi)核機(jī)(kernel machines)。如果這種等價(jià)性可以擴(kuò)展到理想化的神經(jīng)網(wǎng)絡(luò)之外,就可以解釋實(shí)際的人工神經(jīng)網(wǎng)絡(luò)為何能取得驚人的效果。

人工神經(jīng)網(wǎng)絡(luò)的一部分神秘之處在于,它們似乎顛覆了傳統(tǒng)的機(jī)器學(xué)習(xí)理論,而這些理論嚴(yán)重依賴統(tǒng)計(jì)學(xué)和概率論的觀點(diǎn)。在通常的思維方式中,機(jī)器學(xué)習(xí)模型,包括神經(jīng)網(wǎng)絡(luò),通過學(xué)習(xí)樣本數(shù)據(jù)中的模式來預(yù)測新數(shù)據(jù)——特別是當(dāng)它們擁有正確數(shù)量的參數(shù)時,表現(xiàn)最佳。

如果參數(shù)太少,學(xué)習(xí)模型可能會過于簡單,無法捕捉訓(xùn)練數(shù)據(jù)的所有細(xì)微差別。若參數(shù)太多,模型則會變得過于復(fù)雜,在訓(xùn)練數(shù)據(jù)中學(xué)習(xí)模式的粒度太細(xì),以至于在要求對新數(shù)據(jù)進(jìn)行分類時無法泛化,這種現(xiàn)象稱為過擬合。“這是在以某種方式很好地?cái)M合數(shù)據(jù)和根本不擬合之間的平衡,我們需要找到一個居中點(diǎn)?!?/span>加州大學(xué)圣地亞哥分校(University of California, San Diego)機(jī)器學(xué)習(xí)研究員Mikhail Belkin如是說。

深度學(xué)習(xí)為何泛化的那么好?秘密或許隱藏在內(nèi)核機(jī)中

眾所周知,像VGG這樣的深度神經(jīng)網(wǎng)絡(luò)參數(shù)太多,應(yīng)該會過擬合,但事實(shí)并非如此。且恰恰相反,這類網(wǎng)絡(luò)對新數(shù)據(jù)的泛化能力驚人的好——直到最近,還沒人知道其中的原因。

這并不是因?yàn)槿狈@方面的探索。例如,于今年8月去世的耶路撒冷希伯來大學(xué)計(jì)算機(jī)科學(xué)家和神經(jīng)科學(xué)家Naftali Tishby認(rèn)為,深度神經(jīng)網(wǎng)絡(luò)首先擬合訓(xùn)練數(shù)據(jù),然后(通過信息瓶頸)丟棄無關(guān)信息,這有助于它們泛化。但其他人認(rèn)為,這并不適用于所有類型的深度神經(jīng)網(wǎng)絡(luò),這個想法仍然存在爭議。

現(xiàn)在,內(nèi)核機(jī)和理想化神經(jīng)網(wǎng)絡(luò)的數(shù)學(xué)等價(jià)性為這些過度參數(shù)化的網(wǎng)絡(luò)效果如此好的原因和過程提供了線索。內(nèi)核機(jī)是一種算法,它通過將數(shù)據(jù)投射到極高的維度中來尋找數(shù)據(jù)中的模式。也就是說,通過研究理想化神經(jīng)網(wǎng)絡(luò)在數(shù)學(xué)上易于處理的內(nèi)核機(jī)等價(jià)對應(yīng)物,研究人員正在了解為什么深度網(wǎng)絡(luò)盡管具有令人震驚的復(fù)雜性,但在訓(xùn)練過程中會收斂到可以很好地泛化到未見過的數(shù)據(jù)的解決方案。

“神經(jīng)網(wǎng)絡(luò)有點(diǎn)像Rube Goldberg機(jī)器。你不知道其中哪一部分真正重要。” Belkin說?!拔艺J(rèn)為將[它們]簡化為內(nèi)核方法(因?yàn)閮?nèi)核方法沒有這么復(fù)雜),在某種程度上允許我們打開這個黑箱?!?/span>



1

尋找線性分隔符

內(nèi)核方法或內(nèi)核機(jī),依賴于具有悠久歷史的數(shù)學(xué)領(lǐng)域。這要追溯到19世紀(jì)德國數(shù)學(xué)家卡爾·弗里德里希·高斯(Carl Friedrich Gauss),他提出了同名的高斯核函數(shù),這一函數(shù)將變量x映射到一個熟悉的鐘形曲線的函數(shù)。20世紀(jì)初,英國數(shù)學(xué)家James Mercer用核函數(shù)來解積分方程,核函數(shù)的現(xiàn)代用法開始興起。到了20世紀(jì)60年代,核函數(shù)被用于機(jī)器學(xué)習(xí),以處理不適合簡單分類技術(shù)的數(shù)據(jù)。

理解內(nèi)核方法需要從機(jī)器學(xué)習(xí)中被稱為線性分類器的算法開始。假設(shè)貓和狗只能使用二維數(shù)據(jù)進(jìn)行分類,這意味著你需要兩個特征(比如鼻子的大小,我們可以在 x 軸上繪制,而耳朵的大小可以在y軸上表示)來區(qū)分兩種類型的動物。根據(jù)x-y平面上繪制標(biāo)記的數(shù)據(jù),貓應(yīng)該在一個集群中,而狗在另一個集群。

深度學(xué)習(xí)為何泛化的那么好?秘密或許隱藏在內(nèi)核機(jī)中

然后我們可以使用標(biāo)記的數(shù)據(jù)訓(xùn)練線性分類器,找出一條將兩個集群分開的直線。這涉及找到表示線的方程的系數(shù)。現(xiàn)在,給定新的未標(biāo)記數(shù)據(jù),通過看這些數(shù)據(jù)落在線的哪一側(cè),很容易將其歸類為狗或貓。

然而,愛狗人士和愛貓人士會對這種過于簡單化的做法感到震驚。許多類型的貓和狗的鼻子和耳朵的實(shí)際數(shù)據(jù)幾乎肯定不能被線性分隔符分割。在這種情況下,當(dāng)數(shù)據(jù)是線性不可分的,可以將其轉(zhuǎn)換或投影到更高維的空間中。(一種簡單的方法是將兩個特征的值相乘,從而創(chuàng)建出第三個特征:也許將狗與貓區(qū)分開來的鼻子和耳朵的大小之間存在某種相關(guān)性。)

更普遍地說,在高維空間中查看數(shù)據(jù)更容易找到線性分隔符,當(dāng)空間具有三個以上的維度時,該線性分隔符被稱為超平面。當(dāng)這個超平面被投影回較低維度時,它將呈現(xiàn)出帶有曲線和擺動的非線性函數(shù)的形狀,將原始低維數(shù)據(jù)分成兩個集群。

深度學(xué)習(xí)為何泛化的那么好?秘密或許隱藏在內(nèi)核機(jī)中

然而,當(dāng)我們處理真實(shí)數(shù)據(jù)時,在高維中找到超平面的系數(shù)通常是計(jì)算效率低下的,有時甚至是不可能找到的。但內(nèi)核機(jī)不存在這種情況。




2

真理的內(nèi)核

內(nèi)核機(jī)的強(qiáng)大之處在于它們能完成這兩件事。首先,內(nèi)核機(jī)將低維數(shù)據(jù)集中的每個點(diǎn)映射到更高維數(shù)據(jù)集中的一個點(diǎn)。這個超空間的維度可能是無限的,取決于映射,這可能會帶來一個問題:找到分離超平面的系數(shù)涉及到計(jì)算每一對高維特征的內(nèi)積,當(dāng)數(shù)據(jù)被投射到無限維時,這就變得很困難。

其次,給定兩個低維數(shù)據(jù)點(diǎn),內(nèi)核機(jī)可以使用核函數(shù)輸出一個數(shù)字,這個數(shù)字等于相應(yīng)的高維特征的內(nèi)積。關(guān)鍵是,該算法可以使用這種技巧來找到超平面的系數(shù),而無需真正進(jìn)入高維空間。

加州大學(xué)伯克利分校名譽(yù)教授Bernhard Boser說,“內(nèi)核技巧的偉大之處在于,所有計(jì)算都發(fā)生在低維空間”,而不是可能的無限維空間。

Boser和他的同事Isabelle Guyon以及Vladimir Vapnik在20世紀(jì)80年代末和90年代初發(fā)明了一類稱為支持向量機(jī) (SVM) 的內(nèi)核機(jī),當(dāng)時他們都在新澤西州霍爾姆德爾的貝爾實(shí)驗(yàn)室(Bell Labs)。雖然從20世紀(jì)60年代開始,各種類型的內(nèi)核機(jī)已經(jīng)在機(jī)器學(xué)習(xí)領(lǐng)域取得了顯著的成就,但正是隨著SVM的發(fā)明,它們才登上了舞臺的中心。事實(shí)證明,SVM 非常強(qiáng)大。到21世紀(jì)初,它們被廣泛應(yīng)用于生物信息學(xué)(例如,用于發(fā)現(xiàn)不同蛋白質(zhì)序列之間的相似性并預(yù)測蛋白質(zhì)的功能)、機(jī)器視覺和手寫識別等領(lǐng)域。

SVM繼續(xù)主導(dǎo)機(jī)器學(xué)習(xí)領(lǐng)域,直到 2012 年AlexNet 的到來,標(biāo)志著深度神經(jīng)網(wǎng)絡(luò)發(fā)展成熟。隨著機(jī)器學(xué)習(xí)社區(qū)轉(zhuǎn)向ANN,SVM陷入困境,但它們(以及一般的內(nèi)核機(jī))仍然是強(qiáng)大的模型,有很多東西值得我們學(xué)習(xí)。例如,他們可以做的不僅僅是使用內(nèi)核技巧來找到一個分離超平面。

“如果你有一個強(qiáng)大的內(nèi)核,那么你就可以將數(shù)據(jù)映射到一個無限維且非常強(qiáng)大的內(nèi)核空間,”谷歌研究大腦團(tuán)隊(duì)的研究科學(xué)家張志遠(yuǎn)(Chiyuan Zhang)說道?!霸谶@個強(qiáng)大的隱藏空間中,你總能找到一個線性分隔符來分隔數(shù)據(jù),而且有無限多種可能的解決方案?!?/span>

但是,內(nèi)核理論不是讓你僅僅選擇一個任意的線性分隔符,而是通過限制搜索的解決方案的空間,選擇一個可能的最佳分隔符(對于某些“最佳”的定義而言)。類似于減少模型中的參數(shù)數(shù)量以防止其過擬合,這一過程稱為正則化。張志遠(yuǎn)想知道深度神經(jīng)網(wǎng)絡(luò)是否也在做類似的事情。

深度神經(jīng)網(wǎng)絡(luò)由多層人工神經(jīng)元組成。它們有一個輸入層、一個輸出層和至少一個夾在它們之間的隱藏層。隱藏層越多,網(wǎng)絡(luò)就越深。網(wǎng)絡(luò)的參數(shù)代表了這些神經(jīng)元之間連接的強(qiáng)度。例如,訓(xùn)練一個網(wǎng)絡(luò)進(jìn)行圖像識別,需要反復(fù)向它展示之前分類過的圖像,并確定其參數(shù)值,以幫助它正確地描述這些圖像。經(jīng)過訓(xùn)練后,神經(jīng)網(wǎng)絡(luò)成為了一個將輸入(比如圖像)轉(zhuǎn)換為輸出(標(biāo)簽或類別)的模型。

2017年,張志遠(yuǎn)和同事對AlexNet和VGG等網(wǎng)絡(luò)進(jìn)行了一系列實(shí)證測試,以查看用于訓(xùn)練這些ANN的算法是否以某種方式有效地減少了可調(diào)參數(shù)的數(shù)量,從而產(chǎn)生了一種隱式正則化形式。換句話說,訓(xùn)練機(jī)制是否使這些網(wǎng)絡(luò)無法過擬合?

張志遠(yuǎn)團(tuán)隊(duì)發(fā)現(xiàn)事實(shí)并非如此。使用巧妙操縱的數(shù)據(jù)集,張教授的團(tuán)隊(duì)證明了AlexNet和其他類似的人工神經(jīng)網(wǎng)絡(luò)確實(shí)會過擬合,而不是泛化。但是,當(dāng)給定未更改的數(shù)據(jù)時,使用相同算法訓(xùn)練的相同網(wǎng)絡(luò)并沒有過擬合——相反,它們泛化得很好。這種隱式正則化不可能是答案。張志遠(yuǎn)說,這一發(fā)現(xiàn)要求“更好地解釋描述深度神經(jīng)網(wǎng)絡(luò)中的泛化特征”。



3

無限的神經(jīng)元

與此同時,研究表明,較寬的神經(jīng)網(wǎng)絡(luò)在泛化方面通常與較窄的神經(jīng)網(wǎng)絡(luò)表現(xiàn)一樣好,甚至更好。對某些人來說,這暗示著或許可以通過采用物理學(xué)中的策略來理解人工神經(jīng)網(wǎng)絡(luò),“研究極限情況有時可以簡化問題?!?/span>谷歌研究大腦團(tuán)隊(duì)的研究科學(xué)家Yasaman Bahri說。為了解決這種情況,物理學(xué)家經(jīng)常通過考慮極端情況來簡化問題。例如,當(dāng)系統(tǒng)中的粒子數(shù)趨于無窮時會發(fā)生什么?Bahri說:“在這些限制條件下,統(tǒng)計(jì)效應(yīng)會變得更容易處理?!?/span>從數(shù)學(xué)上講,如果神經(jīng)網(wǎng)絡(luò)層的寬度——即單層神經(jīng)元的數(shù)量——是無限的,那么神經(jīng)網(wǎng)絡(luò)會發(fā)生什么?

1994年,現(xiàn)為多倫多大學(xué)名譽(yù)教授的Radford Neal提出了一個關(guān)于具有單個隱藏層的無限寬網(wǎng)絡(luò)的確切問題。他指出,如果這個網(wǎng)絡(luò)的權(quán)重被重新設(shè)置或初始化,具有某些統(tǒng)計(jì)性質(zhì),那么在初始化時(在任何訓(xùn)練之前),這樣的網(wǎng)絡(luò)在數(shù)學(xué)上等價(jià)于一個眾所周知的核函數(shù),稱為高斯過程。20多年后,在2017年,包括Bahri在內(nèi)的兩個研究小組表明,具有許多隱藏層的無限寬理想化深度神經(jīng)網(wǎng)絡(luò)也是如此。

這背后的含義是驚人的。通常情況下,即使在訓(xùn)練了深度網(wǎng)絡(luò)之后,也不能使用解析數(shù)學(xué)表達(dá)式來對未見過的數(shù)據(jù)進(jìn)行預(yù)測。你只需要運(yùn)行深度網(wǎng)絡(luò),看看它說了什么——它就像一個黑匣子。但在理想化的場景中,初始化時網(wǎng)絡(luò)等價(jià)于高斯過程。這時你可以拋棄神經(jīng)網(wǎng)絡(luò),只訓(xùn)練有數(shù)學(xué)表達(dá)式的內(nèi)核機(jī)器。

“一旦你把它映射到高斯過程中……你就可以通過分析計(jì)算預(yù)測應(yīng)該是什么,”Bahri說。

這已經(jīng)是個里程碑式的發(fā)現(xiàn),但它并沒有從數(shù)學(xué)上描述在實(shí)踐中最常見的訓(xùn)練形式所發(fā)生的情況。在后一種情況下,尚不清楚該解決方案如何能夠很好地泛化。



4

開始梯度下降

部分謎團(tuán)集中在如何訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)上,這涉及一種稱為梯度下降的算法?!跋陆怠币辉~指的是,在訓(xùn)練過程中,網(wǎng)絡(luò)穿越了一個復(fù)雜的、高維的、布滿山丘和山谷的景觀,景觀中的每個位置都代表了網(wǎng)絡(luò)對給定的一組參數(shù)值所造成的誤差。最終,一旦參數(shù)得到適當(dāng)調(diào)整,人工神經(jīng)網(wǎng)絡(luò)就會到達(dá)一個稱為全局最小值的區(qū)域,這意味著它將盡可能準(zhǔn)確地對訓(xùn)練數(shù)據(jù)進(jìn)行分類。訓(xùn)練網(wǎng)絡(luò)本質(zhì)上是一個優(yōu)化問題,即尋找全局最小值,訓(xùn)練后的網(wǎng)絡(luò)表示將輸入映射到輸出的幾乎最優(yōu)函數(shù)。這是一個難以分析的復(fù)雜過程。

西雅圖華盛頓大學(xué)的機(jī)器學(xué)習(xí)專家Simon Du說:“如果你應(yīng)用一些廣泛使用的算法,如梯度下降,(人工神經(jīng)網(wǎng)絡(luò))可以收斂到全局最小值,現(xiàn)有的理論無法保證這一點(diǎn)?!?到2018年底,我們開始明白其中的原因。

同樣,正如重大科學(xué)進(jìn)步常表現(xiàn)的那樣,基于對無限寬網(wǎng)絡(luò)的數(shù)學(xué)分析,以及它們與更容易理解的內(nèi)核機(jī)器之間的關(guān)系,多個研究小組同時得出了一個可能的答案。在Simon Du的團(tuán)隊(duì)和其他人發(fā)表論文的時候,一位名叫Arthur Jacot的年輕瑞士研究生在該領(lǐng)域的旗艦會議NeurIPS 2018上展示了他的團(tuán)隊(duì)的成果。

雖然各團(tuán)隊(duì)在細(xì)節(jié)和工作框架上有所不同,但本質(zhì)是一致的,即無限寬的深度神經(jīng)網(wǎng)絡(luò),其權(quán)值是根據(jù)特定的統(tǒng)計(jì)屬性初始化的,不僅在初始化時,而且在整個訓(xùn)練過程中都與核函數(shù)完全相同。關(guān)于權(quán)重的一個關(guān)鍵假設(shè)是,它們在訓(xùn)練過程中單個變化很小(盡管無限數(shù)量的小變化的凈影響是顯著的)。Jacot和他在瑞士洛桑聯(lián)邦理工學(xué)院的同事證明了一個無限寬的深度神經(jīng)網(wǎng)絡(luò)總是等同于一個在訓(xùn)練期間不會改變的內(nèi)核,它甚至不依賴于訓(xùn)練數(shù)據(jù)。核函數(shù)只依賴于神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu),如連接的深度和類型。基于它的一些幾何特性,該團(tuán)隊(duì)將其內(nèi)核命名為神經(jīng)正切。

“我們知道,至少在某些情況下,神經(jīng)網(wǎng)絡(luò)可以像內(nèi)核方法一樣運(yùn)行,”雅科特說。“這是嘗試真正比較這些方法以試圖了解差異的第一步?!?/span>



5

所有的人工神經(jīng)網(wǎng)絡(luò)

這個結(jié)果最重要的發(fā)現(xiàn)是,它解釋了為什么深度神經(jīng)網(wǎng)絡(luò),至少在這種理想情況下,會收斂到一個好的解。當(dāng)我們在參數(shù)空間中查看人工神經(jīng)網(wǎng)絡(luò)時,即從其參數(shù)和復(fù)雜的損失景觀來看,這種收斂性很難在數(shù)學(xué)上證明。但由于理想的深度網(wǎng)絡(luò)相當(dāng)于一個內(nèi)核機(jī),我們可以使用訓(xùn)練數(shù)據(jù)來訓(xùn)練深度網(wǎng)絡(luò)或內(nèi)核機(jī),最終都會找到一個近似最優(yōu)的函數(shù),將輸入轉(zhuǎn)換為輸出。

在訓(xùn)練過程中,無限寬神經(jīng)網(wǎng)絡(luò)所代表的函數(shù)的演化與內(nèi)核機(jī)所代表的函數(shù)的演化相匹配。當(dāng)我們看到函數(shù)空間時,神經(jīng)網(wǎng)絡(luò)和它的等效內(nèi)核機(jī)都在某個超維空間中滾下一個簡單的碗狀景觀。很容易證明梯度下降會讓你到達(dá)碗的底部——全局最小值。至少對于這種理想化的場景,“你可以證明全局收斂,”Du說?!斑@就是為什么學(xué)習(xí)理論社區(qū)的人們這么興奮?!?/span>

并不是每個人都相信核函數(shù)和神經(jīng)網(wǎng)絡(luò)之間的這種等價(jià)性適用于實(shí)際的神經(jīng)網(wǎng)絡(luò)——這些神經(jīng)網(wǎng)絡(luò)的寬度是有限的,并且其參數(shù)在訓(xùn)練過程中會發(fā)生巨大變化。“我認(rèn)為還需要把一些地方聯(lián)系起來,”張志遠(yuǎn)說。此外,還有心理方面的原因:神經(jīng)網(wǎng)絡(luò)本身就很神秘,將它們簡化為內(nèi)核機(jī)讓張感到失望?!拔矣悬c(diǎn)希望這不是最終答案,因?yàn)閺呐f理論可用的意義上來說,它會讓事情變得不那么有趣。”

但其他人卻很興奮。例如,Belkin認(rèn)為,即使內(nèi)核方法是舊理論,它們?nèi)匀粵]有被完全理解。他的團(tuán)隊(duì)根據(jù)經(jīng)驗(yàn)表明,內(nèi)核方法不會過擬合,并且在不需要任何正則化的情況下可以很好地泛化到測試數(shù)據(jù),這與神經(jīng)網(wǎng)絡(luò)類似,且與我們對傳統(tǒng)學(xué)習(xí)理論的預(yù)期相反。“如果我們了解了內(nèi)核方法的發(fā)展,那么我認(rèn)為這確實(shí)為我們提供了打開神經(jīng)網(wǎng)絡(luò)這個神秘盒子的鑰匙,”Belkin如是說。

研究人員不僅對核函數(shù)有更牢固的數(shù)學(xué)掌握,從而更容易將它們作為模擬物來理解神經(jīng)網(wǎng)絡(luò),而且從經(jīng)驗(yàn)上講,核函數(shù)也比神經(jīng)網(wǎng)絡(luò)更容易使用。核函數(shù)遠(yuǎn)沒有那么復(fù)雜,它們不需要隨機(jī)初始化參數(shù),而且它們的性能更具有可重復(fù)性。研究人員已經(jīng)開始研究現(xiàn)實(shí)網(wǎng)絡(luò)和核函數(shù)之間的聯(lián)系,并對他們在這一新理解上能走多遠(yuǎn)感到興奮。

“如果我們建立了絕對、完全的等價(jià),那么我認(rèn)為它將在某種程度上改變整個游戲?!盉elkin說。

原文鏈接:

https://www.quantamagazine.org/a-new-link-to-an-old-model-could-crack-the-mystery-of-deep-learning-20211011/

深度學(xué)習(xí)為何泛化的那么好?秘密或許隱藏在內(nèi)核機(jī)中

雷鋒網(wǎng)


雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

深度學(xué)習(xí)為何泛化的那么好?秘密或許隱藏在內(nèi)核機(jī)中

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說