理論計算機科學家 Boaz Barak：深度學習并非“簡單的統(tǒng)計”，二者距離已越來越遠

本文作者：我在思考中

2022-08-04 10:37

導語：統(tǒng)計學習在深度學習中扮演重要角色，但仍無法提供完整的理解畫面。

作者｜Boaz Barak

編譯｜黃楠

編輯｜陳彩嫻

上世紀九十年代，斯坦福大學的知名生物信息學教授 Rob Tibshirani 曾擬了一個詞匯表，將機器學習與統(tǒng)計學中的不同概念作了簡單而粗暴的對應關(guān)系：

理論計算機科學家 Boaz Barak：深度學習并非“簡單的統(tǒng)計”，二者距離已越來越遠

一方面，這個表格為理解機器學習提供了基礎的認識，但同時，其簡單地將深度學習或機器學習中的概念歸納為統(tǒng)計學中的詞義，也引起了大多數(shù)人對深度學習本質(zhì)的認知偏差：即深度學習是“簡單的統(tǒng)計”。

然而，在深入探討中，這樣的認知在一定程度上阻礙了研究者理解深度學習成功的本質(zhì)原因。在今年六月的一篇文章“The uneasy relationship between deep learning and (classical) statistics”中，哈佛大學知名教授、理論計算機科學家 Boaz Barak 就將深度學習與統(tǒng)計學進行了對比區(qū)分，指出深度學習的根本構(gòu)成因素就與統(tǒng)計學有諸多不同。

Boaz Barak 提出一個重要的觀察：從模型的用途來看，如果是側(cè)重預測與觀察，那么具備黑匣子特性的深度學習模型可能是最好的選擇；但如果是希望獲取對事物的因果關(guān)系理解、提高可解釋性，那么“簡單”的模型可能表現(xiàn)更佳。這與馬毅、曹穎、沈向洋三位科學家在上個月提出的構(gòu)成智能兩大原理之一的“簡約性”見解不謀而合。

與此同時，Boaz Barak 通過展示擬合統(tǒng)計模型和學習數(shù)學這兩個不同的場景案例，探討其與深度學習的匹配性；他認為，雖然深度學習的數(shù)學和代碼與擬合統(tǒng)計模型幾乎相同，但在更深層次上，深度學習中的極大部分都可在“向?qū)W生傳授技能”場景中被捕獲。

統(tǒng)計學習在深度學習中扮演著重要的角色，這是毋庸置疑的。但可以肯定的是，統(tǒng)計角度無法為理解深度學習提供完整的畫面，要理解深度學習的不同方面，仍需要人們從不同的角度出發(fā)來實現(xiàn)。

下面是 Boaz Barak 的論述：

模型擬合中的預測與解釋

幾千年來，科學家們一直在為觀測結(jié)果擬合模型。比如在科學哲學書皮中所提到的，埃及天文學家托勒密提出了一個巧妙的行星運動模型。托勒密的模型是地心的（即行星圍繞地球旋轉(zhuǎn)），但有一系列“旋鈕”（knobs，具體來說就是“本輪”），使其具有出色的預測準確性。相比之下，哥白尼最初的日心說模型則是假設行星圍繞太陽的圓形軌道。它比托勒密的模型更簡單（“可調(diào)節(jié)旋鈕”更少）、且整體上更正確，但在預測觀察方面卻不太準確。（哥白尼在后來也添加了他自己的本輪，從而與托勒密的表現(xiàn)可以相媲美。）

托勒密和哥白尼的模型是無與倫比的。當你需要一個“黑匣子”來進行預測時，那托勒密的地心模型更勝一籌。而如果你想要一個可以“窺視內(nèi)部”的簡單模型，并作為解釋星星運動的理論起點，那哥白尼的模型就更好。

事實上，開普勒最終將哥白尼的模型改進為橢圓軌道，并提出了他的行星運動三定律，這使得牛頓能夠使用地球上適用的相同引力定律來解釋它們。為此，至關(guān)重要的是，日心模型并不僅是一個提供預測的“黑匣子”，而是由幾乎沒有“活動部件”的簡單數(shù)學方程給出的。多年來，天文學一直是發(fā)展統(tǒng)計技術(shù)的靈感來源。高斯和勒讓德（獨立地）在 1800 年左右發(fā)明了最小二乘回歸，用于預測小行星和其他天體的軌道；柯西在1847年發(fā)明的梯度下降，也是受到了天文預測的推動。

在物理學中，（至少有時）你可以“擁有一切”——找到能夠?qū)崿F(xiàn)最佳預測準確性和數(shù)據(jù)最佳解釋的“正確”理論，這被諸如奧卡姆剃刀原理之類的觀點所捕捉，假設簡單性、預測能力和解釋性洞察力都是相互一致的。然而在許多其他領(lǐng)域，解釋（或一般情況下稱，洞察力）和預測的雙重目標之間存在張力。如果只是想預測觀察結(jié)果，“黑匣子”可能是最好的選擇。但如果你提取因果模型、一般原理或重要特征，那么一個容易理解和解釋的簡單模型可能會更好。

模型的正確選擇取決于其用途。例如，考慮一個包含許多個體的基因表達和表型（比如某種疾?。┑臄?shù)據(jù)集，如果其目標是預測個人生病的幾率，往往會希望為該任務使用最佳模型，不管它有多復雜或它依賴于多少基因。相比之下，如果你的目標是在濕實驗室中識別一些基因來進一步研究，那么復雜的黑匣子的用途將是有限的，即使它非常準確。

2001年， Leo Breiman 在關(guān)于統(tǒng)計建模兩種文化的著名文章“Statistical Modeling: The Two Cultures”中，就有力地闡述了這一點。“數(shù)據(jù)建模文化”側(cè)重于解釋數(shù)據(jù)的簡單生成模型，而“算法建模文化 ”對數(shù)據(jù)是如何產(chǎn)生的并不了解，而是專注于尋找能夠預測數(shù)據(jù)的模型。Breiman 認為，統(tǒng)計數(shù)據(jù)太受第一文化的支配，而這種關(guān)注“導致了不相關(guān)的理論和有問題的科學結(jié)論” 和“阻止統(tǒng)計學家研究令人興奮的新問題?！?/span>

但是，Breiman 的論文充滿爭議。雖然 Brad Efron 對部分觀點表示贊同，但“看第一遍，Leo Breiman 那篇令人振奮的論文看起來像是反對簡約和科學洞察力，支持很多旋鈕可操縱的黑盒子。而看第二遍，還是那個樣子” 。但在近期一篇文章（“Prediction, Estimation, and Attribution”）中，Efron 大方承認“事實證明，Breiman 比我更有先見之明：純粹的預測算法在 21 世紀占據(jù)了統(tǒng)計的風頭，其發(fā)展方向與 Leo 此前提到的差不多。”

經(jīng)典和現(xiàn)代預測模型

無論機器學習是否“深度”，它都屬于 Breiman 所說的第二種文化，即專注于預測，這種文化已流傳很長一段時間。例如 Duda 和 Hart 1973 年的教科書《Deconstructing Distributions: A Pointwise Framework of Learning》、以及Highleyman 1962 年《The Design and Analysis of Pattern Recognition Experiments》的論文片段，對于今天的深度學習從業(yè)者來說，其辨識度非常高：

同樣地，Highleyman 的手寫字符數(shù)據(jù)集和被用來與數(shù)據(jù)集擬合的架構(gòu) Chow（準確率約為 58%）也引起了現(xiàn)代讀者的共鳴。

為什么深度學習不同？

1992 年，Stuart Geman、Elie Bienenstock 和 Rene Doursat 共同寫了一篇題為“Neural Networks and the Bias/Varian Dilemma”的論文，其中談到一些悲觀的看法，例如，“當前的前饋神經(jīng)網(wǎng)絡，在很大程度上不足以解決機器感知和機器學習中的難題”；具體來說，他們認為通用神經(jīng)網(wǎng)絡無法成功解決困難的任務，神經(jīng)網(wǎng)絡成功的唯一途徑是通過手工設計特征。用他們的話來說，即是：“重要的特征必須是內(nèi)置的或‘硬連線的’(hard-wired）……而不是通過統(tǒng)計的方法來學習。”

事后看來，他們的觀點完全錯了。而且，現(xiàn)代神經(jīng)網(wǎng)絡的架構(gòu)如 Transformer 甚至比當時的卷積網(wǎng)絡更通用。但理解他們犯錯的背后原因是很有趣的。

我認為，他們犯錯的原因是深度學習確實與其他學習方法不同。一個先驗的現(xiàn)象是：深度學習似乎只是多了一個預測模型，像最近的鄰居或隨機森林。它可能有更多的“旋鈕”（knobs），但這似乎是數(shù)量上而不是質(zhì)量上的差異。用 PW Andreson 的話來說，就是“more is different”（多的就是不同的）。

在物理學中，一旦規(guī)模發(fā)生了幾個數(shù)量級的變化，我們往往只需要一個完全不同的理論就可以解釋，深度學習也是如此。事實上，深度學習與經(jīng)典模型（參數(shù)或非參數(shù)）的運行過程是完全不同的，即使從更高的角度看，方程（和 Python 代碼）看起來相同。

為了解釋這一點，我們來看兩個非常不同例子的學習過程：擬合統(tǒng)計模型，與教學生學習數(shù)學。

場景A：擬合統(tǒng)計模型

通常來說，將統(tǒng)計模型與數(shù)據(jù)進行擬合的步驟如下：

1、我們觀察一些數(shù)據(jù) x 與y?？蓪?x 視為一個 n x p 的矩陣，y 視為一個 n 維向量；數(shù)據(jù)來源于一個結(jié)構(gòu)和噪聲模型：每個坐標理論計算機科學家 Boaz Barak：深度學習并非“簡單的統(tǒng)計”，二者距離已越來越遠

的得到形式是

，其中

是對應的噪聲，為簡單起見使用了加性噪聲，而理論計算機科學家 Boaz Barak：深度學習并非“簡單的統(tǒng)計”，二者距離已越來越遠

是正確的真實標簽。）

2、通過運行某種優(yōu)化算法，我們可以將模型理論計算機科學家 Boaz Barak：深度學習并非“簡單的統(tǒng)計”，二者距離已越來越遠

擬合到數(shù)據(jù)中，使理論計算機科學家 Boaz Barak：深度學習并非“簡單的統(tǒng)計”，二者距離已越來越遠

的經(jīng)驗風險最小。也就是說，我們使用優(yōu)化算法來找到理論計算機科學家 Boaz Barak：深度學習并非“簡單的統(tǒng)計”，二者距離已越來越遠

的最小化數(shù)量理論計算機科學家 Boaz Barak：深度學習并非“簡單的統(tǒng)計”，二者距離已越來越遠

，其中

是一個損失項（捕捉

距離 y 有多近)，理論計算機科學家 Boaz Barak：深度學習并非“簡單的統(tǒng)計”，二者距離已越來越遠

是一個可選的規(guī)范化項（試圖使得理論計算機科學家 Boaz Barak：深度學習并非“簡單的統(tǒng)計”，二者距離已越來越遠

偏向更簡單的模型）。

3、我們希望，我們的模型能具有良好的總體損失，因為泛化誤差/損失理論計算機科學家 Boaz Barak：深度學習并非“簡單的統(tǒng)計”，二者距離已越來越遠

很?。ㄟ@種預測是基于實驗數(shù)據(jù)所在的總體數(shù)據(jù)來獲得的）。

理論計算機科學家 Boaz Barak：深度學習并非“簡單的統(tǒng)計”，二者距離已越來越遠

圖注：Bradley Efron經(jīng)過對噪音的觀察所復現(xiàn)的牛頓第一定律漫畫

這種非常通用的范式包含了許多設置，包括最小二乘線性回歸、最近鄰、神經(jīng)網(wǎng)絡訓練等等。在經(jīng)典的統(tǒng)計設置中，我們期望觀察到以下情況：

偏差/方差權(quán)衡：將 F 作為優(yōu)化的模型集。(當我們處于非凸設置和/或有一個正則器項，我們可以讓 F作為這種模型的集合，考慮到算法選擇和正則器的影響，這些模型可以由算法以不可忽略的概率實現(xiàn)。)

F 的偏差是對正確標簽的最佳近似，可以通過元素理論計算機科學家 Boaz Barak：深度學習并非“簡單的統(tǒng)計”，二者距離已越來越遠

來實現(xiàn)。F 的類越大，偏差越小，當理論計算機科學家 Boaz Barak：深度學習并非“簡單的統(tǒng)計”，二者距離已越來越遠

，偏差甚至可以是零。然而，當 F 類越大，則需要越多樣本來縮小其成員范圍，從而算法輸出模型中的方差就越大?？傮w泛化誤差是偏差項和方差貢獻的總和。

因此，統(tǒng)計學習通常會顯示偏差/方差權(quán)衡，并通過正確模型復雜性的“金發(fā)姑娘選擇”來最小化整體誤差。事實上，Geman 等人也是這么做的，通過說“偏差-方差困境導致的基本限制適用于包括神經(jīng)網(wǎng)絡在內(nèi)的所有非參數(shù)推理模型”來證明他們對神經(jīng)網(wǎng)絡的悲觀情緒是合理的。

更多并非總是最好的。在統(tǒng)計學習中，獲得更多的特征或數(shù)據(jù)并不一定能提高性能。例如，從包含許多不相關(guān)特征的數(shù)據(jù)中學習更具挑戰(zhàn)性。類似地，從混合模型中學習，其中數(shù)據(jù)來自兩個分布之一（例如理論計算機科學家 Boaz Barak：深度學習并非“簡單的統(tǒng)計”，二者距離已越來越遠

和

），比獨立學習單個更難。

收益遞減。在許多情況下，將預測噪聲降低到某個參數(shù) 理論計算機科學家 Boaz Barak：深度學習并非“簡單的統(tǒng)計”，二者距離已越來越遠

，其所需的數(shù)據(jù)點數(shù)量在某些參數(shù) k 下以理論計算機科學家 Boaz Barak：深度學習并非“簡單的統(tǒng)計”，二者距離已越來越遠

的形式拓展。在這種情況下，需要大約 k 個樣本來“起飛”，而一旦這樣做，則會面臨收益遞減的制度，即假設花耗 n 個點來達到（比如）90%的準確度，那么想要將準確度提高到95%，則大約需要另外 3n 個點。一般來說，隨著資源增加（無論是數(shù)據(jù)、模型的復雜性，還是計算），我們希望捕捉到更多更細的區(qū)別，而不是解鎖新的質(zhì)量上的能力。

對損失、數(shù)據(jù)的強烈依賴。在將模型擬合到高維數(shù)據(jù)時，一個很小的細節(jié)就有可能造成結(jié)果的很大不同。統(tǒng)計學家知道，諸如 L1 或 L2 正則化器之類的選擇很重要，更不用說使用完全不同的數(shù)據(jù)集，不同數(shù)量的高維優(yōu)化器將具有極大的差異性。

數(shù)據(jù)點沒有自然的“難度”（至少在某些情況下）。傳統(tǒng)上認為，數(shù)據(jù)點是獨立于某個分布進行采樣的。盡管靠近決策邊界的點可能更難分類，但考慮到高維度的測量集中現(xiàn)象，可預計大多數(shù)點的距離將存在相似的情況。因此，至少在經(jīng)典數(shù)據(jù)分布中，并不期望點在其難度水平上有很大差異。然而，混合模型可以顯示這種差異的不同難度級別，所以與上述其他問題不同，這種差異在統(tǒng)計設置中不會非常令人驚訝。

場景B：學習數(shù)學

與上述相反，我們來談談教學生一些特定的數(shù)學題目（如計算導數(shù)），給予他們常規(guī)指導及要做的練習。這不是一個正式定義的設置，但可考慮它的一些定性特征：

理論計算機科學家 Boaz Barak：深度學習并非“簡單的統(tǒng)計”，二者距離已越來越遠

圖注：從IXL 網(wǎng)站學習特定數(shù)學技能的練習

學習一項技能，而不是近似分布。在這種情況下，學生是學習一種技能，而非某個數(shù)量的估計器/預測器。雖然定義“技能”不是一項微不足道的任務，但卻是一個性質(zhì)不同的目標。特別是，即使函數(shù)映射練習不能用作解決某些相關(guān)任務 X 的“黑匣子”，但我們相信，學生在解決這些問題時所形成的內(nèi)部表征，仍是對 X 有用的。

越多越好。一般來說，學生練習更多問題和不同類型問題，會取得更好的成績。但事實上，“混合模型”——做一些微積分問題和代數(shù)問題——不會影響學生在微積分上的表現(xiàn)，反而會幫助他們學習。

“探索”或解鎖功能，轉(zhuǎn)向自動表示。雖然在某些時候解決問題也會出現(xiàn)收益遞減，但學生似乎確實經(jīng)歷了幾個階段，有的階段做一些問題有助于概念“點擊”并解鎖新功能。另外，當學生們重復某一特定類型的問題時，他們似乎將自己的能力和對這些問題的表述轉(zhuǎn)移至較低的水平，使他們能夠?qū)@些問題產(chǎn)生某些以前所沒有的自動性。

性能部分獨立于損失和數(shù)據(jù)。教授數(shù)學概念的方法不止一種，即使學生使用不同書籍、教育方法或評分系統(tǒng)學習，但最終仍可學習到相同的材料和相似的內(nèi)部表示。

一些問題更難。在數(shù)學練習中，我們經(jīng)?？梢钥吹讲煌瑢W生在解決同一個問題時所采取的方法存在很強的相關(guān)性。一個問題的難度似乎是固定的，解決難題的順序也是固定的，這就使學習的過程能夠優(yōu)化。這事實上也是IXL等平臺正在做的事情。

深度學習更像統(tǒng)計估計還是學生學習技巧？

那么，上述兩個比喻中，哪個更恰當?shù)孛枋隽爽F(xiàn)代深度學習，特別是它如此成功的原因呢？統(tǒng)計模型擬合似乎更符合數(shù)學和代碼。實際上，規(guī)范的 Pytorch 訓練循環(huán)，就是通過如上所述的經(jīng)驗風險最小化來訓練深度網(wǎng)絡的：

然而，在更深層次上，這兩種設置之間的關(guān)系并不那么清楚。具體而言，可以通過修復一個特定的學習任務來展開，使用“自監(jiān)督學習 + 線性探頭（linear probe）”的方法訓練分類算法，其算法訓練如下：

1、假設數(shù)據(jù)是一個序列理論計算機科學家 Boaz Barak：深度學習并非“簡單的統(tǒng)計”，二者距離已越來越遠

，其中

是某個數(shù)據(jù)點（例如具體的圖像）、理論計算機科學家 Boaz Barak：深度學習并非“簡單的統(tǒng)計”，二者距離已越來越遠

是一個標簽。

2、首先找到一個深度神經(jīng)網(wǎng)絡來表示函數(shù) 理論計算機科學家 Boaz Barak：深度學習并非“簡單的統(tǒng)計”，二者距離已越來越遠

，這個函數(shù)的訓練只使用數(shù)據(jù)點理論計算機科學家 Boaz Barak：深度學習并非“簡單的統(tǒng)計”，二者距離已越來越遠

而不使用標簽，通過最小化某種類型的自監(jiān)督損失函數(shù)。這種損失函數(shù)的例子是重建或畫中畫（從另一個輸入 x 的某些部分恢復）或?qū)Ρ葘W習（找到理論計算機科學家 Boaz Barak：深度學習并非“簡單的統(tǒng)計”，二者距離已越來越遠

使

顯著更小，當理論計算機科學家 Boaz Barak：深度學習并非“簡單的統(tǒng)計”，二者距離已越來越遠

是同一個數(shù)據(jù)點的增量時，并列關(guān)系比兩個隨機點的并列關(guān)系要小得多）。

3、然后我們使用完整的標記數(shù)據(jù) 理論計算機科學家 Boaz Barak：深度學習并非“簡單的統(tǒng)計”，二者距離已越來越遠

來擬合線性分類器

（其中 C 是類的數(shù)量），使交叉熵損失最小。最終的分類器得出了理論計算機科學家 Boaz Barak：深度學習并非“簡單的統(tǒng)計”，二者距離已越來越遠

的映射。

第 3 步僅適合線性分類器，因此“魔法”發(fā)生在第 2 步（深度網(wǎng)絡的自監(jiān)督學習）。在自監(jiān)督學習中，可以看到的一些屬性包括：

學習一項技能，而不是逼近一個函數(shù)。自監(jiān)督學習不是逼近一個函數(shù)，而是學習可用于各種下游任務的表示。假設這是自然語言處理中的主導范式，那么下游任務是通過線性探測、微調(diào)還是提示獲得，都是次要的。

越多越好。在自監(jiān)督學習中，表征的質(zhì)量隨著數(shù)據(jù)量的增加而提高。而且，數(shù)據(jù)越多樣越好。

理論計算機科學家 Boaz Barak：深度學習并非“簡單的統(tǒng)計”，二者距離已越來越遠

圖注：谷歌 PaLM 模型的數(shù)據(jù)集

解鎖能力。隨著資源（數(shù)據(jù)、計算、模型大小）的拓展，深度學習模型的不連續(xù)改進一次又一次地被看到，這在一些合成環(huán)境中也得到了證明。

理論計算機科學家 Boaz Barak：深度學習并非“簡單的統(tǒng)計”，二者距離已越來越遠

圖注：隨著模型大小的增加，PaLM 模型在一些基準測試中顯示出一些不連續(xù)的改進（上述圖中只有三個大小的警告），并解鎖了一些令人驚訝的功能，比如解釋笑話。

性能在很大程度上與損失或數(shù)據(jù)無關(guān)。不止一種自監(jiān)督損失，有幾種對比性和重建性損失被用于圖像。語言模型有時采用單面重建（預測下一個標記），有時則是使用掩蔽模型，其目標是預測來自左右標記的掩蔽輸入。

也可以使用稍微不同的數(shù)據(jù)集，這可能會影響效率，但只要做出“合理”的選擇，常規(guī)情況下，原始資源比使用的特定損失或數(shù)據(jù)集更能預測性能。

有些實例比其他實例更難。這一點不只限于自監(jiān)督學習，數(shù)據(jù)點或存在一些固有的“難度級別”。

事實上，有幾個實際證據(jù)表明，不同的學習算法有不同的“技能水平”，不同的點有不同的“難度水平”（分類器 f 對 x 進行正確分類的概率，隨著 f 的技能單向遞增，隨 x 的難度單向遞減）?！凹寄芘c難度”范式是對 Recht 和 Miller 等人所發(fā)現(xiàn)的“線上準確性”現(xiàn)象最清晰的解釋，在我同 Kaplun、Ghosh、Garg 和 Nakkiran 的合著論文中，還展示了數(shù)據(jù)集中的不同輸入如何具有固有的“難度特征”，常規(guī)情況下，該特征似乎對不同的模型來說是穩(wěn)健的。

理論計算機科學家 Boaz Barak：深度學習并非“簡單的統(tǒng)計”，二者距離已越來越遠

圖注：Miller 等人的圖表顯示了在 CIFAR-10 上訓練并在 CINIC-10 上測試的分類器的線現(xiàn)象準確性

理論計算機科學家 Boaz Barak：深度學習并非“簡單的統(tǒng)計”，二者距離已越來越遠

圖注：將數(shù)據(jù)集解構(gòu)為來自 Kaplun 和 Ghosh 等人在論文“Deconstructing Distributions: A Pointwise Framework of Learning”中的不同“難度概況”點，以獲得越來越多的資源分類器。頂部圖表描述了最可能類的不同 softmax 概率，作為由訓練時間索引的某個類別分類器的全局精度的函數(shù)；底部餅圖展示了將不同數(shù)據(jù)集分解為不同類型的點。值得注意的是，這種分解對于不同的神經(jīng)架構(gòu)是相似的。

訓練即教學。現(xiàn)代對大模型的訓練似乎更像是在教學生，而不是讓模型適應數(shù)據(jù)，在學生不理解或看起來疲勞（訓練偏離）時采取“休息”或嘗試其他方式。Meta 大模型的訓練日志很有啟發(fā)性——除了硬件問題外，還可以看到一些干預措施，例如在訓練過程中切換不同的優(yōu)化算法，甚至考慮“熱交換”激活函數(shù)（GELU 到 RELU）。如果將模型訓練視為擬合數(shù)據(jù)而不是學習表示，則后者沒有多大意義。

圖注：Meta 的訓練日志節(jié)選

下面探討兩種情況：

情況1：監(jiān)督學習

到目前為止，我們只討論了自監(jiān)督學習，但深度學習的典型例子仍然是監(jiān)督學習，畢竟深度學習的 “ImageNet時刻”是來自ImageNet。那么，我們上面所探討的內(nèi)容是否適用于監(jiān)督學習呢？

首先，有監(jiān)督的大規(guī)模深度學習的出現(xiàn)，在某種程度上是一個歷史性的意外，這得益于大型高質(zhì)量標記數(shù)據(jù)集（即 ImageNet）的可用性。可以想象另一種歷史：深度學習首先通過無監(jiān)督學習在自然語言處理方面取得突破性進展，然后才轉(zhuǎn)移到視覺和監(jiān)督學習中。

其次，有一些證據(jù)表明，即使監(jiān)督學習與自監(jiān)督學習使用完全不同的損失函數(shù)，它們在“幕后”的行為也相似。兩者通常都能達到相同的性能。在“Revisiting Model Stitching to Compare Neural Representations”這篇論文中也發(fā)現(xiàn)，它們學習了相似的內(nèi)部表示。具體來說，對于每一個理論計算機科學家 Boaz Barak：深度學習并非“簡單的統(tǒng)計”，二者距離已越來越遠

，都可以將通過自監(jiān)督訓練的深度 d 模型的首 k 層數(shù)與監(jiān)督模型的最后 d-k 層數(shù)“縫合”起來，并且使性能幾乎保持原有水平。

圖注：來自 Hinton 團隊論文“Big Self-Supervised Models are Strong Semi-Supervised Learners”的表格。請注意監(jiān)督學習、微調(diào) (100%) 自監(jiān)督和自監(jiān)督 + 線性探測在性能上的普遍相似性

理論計算機科學家 Boaz Barak：深度學習并非“簡單的統(tǒng)計”，二者距離已越來越遠

圖注：摘自論文“Revisiting Model Stitching to Compare Neural Representations”的自監(jiān)督與監(jiān)督模型。左圖——如果自監(jiān)督模型的準確度比監(jiān)督模型低3%，那么，完全兼容的表示將造成 p·3% 的拼接懲罰（p層來自自監(jiān)督模型時）。如果模型完全不兼容，那么隨著更多模型的縫合，預計準確度會急劇下降。右圖——拼接不同自監(jiān)督模型的實際結(jié)果。

自監(jiān)督 + 簡單模型的優(yōu)勢在于，它們可以將特征學習或“深度學習魔法”（深度表示函數(shù)的結(jié)果）與統(tǒng)計模型擬合（由線性或其他“簡單”分類器完成，分離出來在此表示之上）。

最后，雖然是推測，但“元學習”似乎通常等同于學習表示這一事實（詳情看論文“Rapid Learning or Feature Reuse? Towards Understanding the Effectiveness of MAML”），可以視為另一個支持本文觀點的證據(jù)，不管模型表面上優(yōu)化的目標是什么。

情況2：過度參數(shù)化

讀者可能已經(jīng)注意到，我跳過了統(tǒng)計學習模型與深度學習模型在實際應用中存在差異的典型例子，即缺少“偏差-方差權(quán)衡”以及過度參數(shù)化模型出色的泛化能力。

我不詳細講這些例子的原因有兩個：

一是如果監(jiān)督學習確實等于自監(jiān)督 + 簡單的“底層”學習，那么就可以解釋它的泛化能力（詳情請看論文“For self-supervised learning, Rationality implies generalization, provably”）；

二是我認為過度參數(shù)化并不是深度學習成功的關(guān)鍵。深度網(wǎng)絡之所以特別，并不是因為它們與樣本數(shù)量相比很大，而是因為它們的絕對值很大。實際上，無監(jiān)督/自監(jiān)督學習模型中通常沒有過度參數(shù)化。即使是大規(guī)模的語言模型，它們也只是數(shù)據(jù)集更大，但這也并沒有減少它們性能的神秘性。

理論計算機科學家 Boaz Barak：深度學習并非“簡單的統(tǒng)計”，二者距離已越來越遠

圖注：在“The Deep Bootstrap Framework: Good Online Learners are Good Offline Generalizers”這篇論文中，研究者的發(fā)現(xiàn)表明，如今的深度學習架構(gòu)在“過度參數(shù)化”與“欠采樣”狀態(tài)下表現(xiàn)相似（其中，模型在有限數(shù)據(jù)上訓練多代，直到過度擬合：也就是上圖所示的“真實世界”），在“參數(shù)化不足”與“在線”情況下也如此（其中，模型只訓練一代，每個樣本只看到一次：也就是上圖中的“理想世界”）

總結(jié)

毫無疑問，統(tǒng)計學習在深度學習中扮演著重要的角色。但是，如果僅僅將深度學習視為一個比經(jīng)典模型擬合更多旋鈕（knobs）的模型，則會忽略其成功背后的許多因素。所謂的“人類學生”隱喻更是不恰當表述。

深度學習與生物進化相似，雖然對同一規(guī)則（即經(jīng)驗損失的梯度下降）有許多重復的應用，但會產(chǎn)生高度復雜的結(jié)果。在不同的時間內(nèi)，神經(jīng)網(wǎng)絡的不同組成部分似乎會學習不同的內(nèi)容，包括表示學習、預測擬合、隱式正則化和純噪聲等。目前我們?nèi)栽趯ふ艺_的視角來提出有關(guān)深度學習的問題，更別說回答這些問題了。

任重道遠，與君共勉。

原文鏈接：

https://windowsontheory.org/2022/06/20/the-uneasy-relationship-between-deep-learning-and-classical-statistics/

更多內(nèi)容，點擊下方關(guān)注：

掃碼添加 AI 科技評論微信號，投稿&進群：