看懂這25個核心概念，就沒有啃不動的機器學習論文

本文作者：我在思考中

2023-01-17 11:08

導語：MLer 寒假也要卷起來。

作者 | 李梅

編輯 | 陳彩嫻

機器學習領(lǐng)域的研究進展迅速，研究者既要及時跟進最新研究，也要不時地回顧經(jīng)典。寒假開始，各位機器學習er在度假之余，想必也不會忘了自己卷王的身份。

最近，Github上出現(xiàn)了一個名為“ML Papers Explained”的優(yōu)質(zhì)項目，精選了機器學習領(lǐng)域的一些核心概念，對相關(guān)工作的原始論文做了解讀，實在是廣大MLer的一大福利。

項目地址：https://github.com/dair-ai/ML-Papers-Explained

25個必學的ML概念

該項目由三位數(shù)據(jù) Rastogi、Diego Marinho、Elvis Saravia創(chuàng)建，旨在介紹機器學習領(lǐng)域重點技術(shù)的研究論文，既有經(jīng)典重現(xiàn)，也有最新前沿跟進，突出論文的主要創(chuàng)新點，討論它們對研究領(lǐng)域的影響及其應(yīng)用空間。

該項目目前集合了25個機器學習概念，涉及計算機視覺、目標檢測、文檔信息處理、自然語言處理等方向。按類別劃分，包括RCNN系列：

看懂這25個核心概念，就沒有啃不動的機器學習論文

Transformer系列（Layout Transformers、Document Information Processing、Vision Transformers）：

看懂這25個核心概念，就沒有啃不動的機器學習論文

以及Single Stage Object Detectors系列：

看懂這25個核心概念，就沒有啃不動的機器學習論文

點擊這些關(guān)鍵詞，就是一篇論文詳解，這些論文解讀大都不是長篇累牘，而是簡明扼要地介紹論文的核心發(fā)現(xiàn)、實驗結(jié)果，同時有進一步的延伸思考。文章的排版也清晰明了，能夠幫助研究者快速且深入理解一篇論文的精髓。這里選取兩篇解讀來一睹為快。

論文解讀示例

TinyBERT解讀

在大模型越來越成為AI核心研究方向的當下，回顧這些經(jīng)典的語言模型論文是大有裨益的。比如自BERT模型出現(xiàn)以后，提高模型參數(shù)量的同時降低大模型的計算成本，就一直是該領(lǐng)域的一個熱點方向。

Github上的這個論文解讀項目就精選了多篇相關(guān)論文，以一篇對知識蒸餾方法TinyBERT的解讀為例：

看懂這25個核心概念，就沒有啃不動的機器學習論文

這項工作由年華中科技大學和華為諾亞方舟實驗室合作，在2019年提出。這篇解讀概括了TinyBERT這項工作的三個核心貢獻：Transformer蒸餾、兩步蒸餾過程、數(shù)據(jù)增強，這些方法改進了基于Transformer的模型在特定情況下的知識蒸餾效果。

首先是Transformer蒸餾。這部分介紹了論文所用蒸餾方法的核心思想和公式，并解釋了先前的蒸餾工作DistillBERT的弊端，如它使用教師模型來初始化學生模型的權(quán)重，導致兩者必須有相同的內(nèi)部尺寸并允許層數(shù)不同，而TinyBERT通過在嵌入和隱藏損失函數(shù)中引入可學習的投影矩陣來規(guī)避這個問題，從而使得學生和教師模型的內(nèi)部表示在元素方面可以進行比較。

看懂這25個核心概念，就沒有啃不動的機器學習論文

另外，解讀作者還在這里引用了另一項相關(guān)研究，為TinyBERT的進一步工作提出了一個有趣的方向。

看懂這25個核心概念，就沒有啃不動的機器學習論文

然后是兩步蒸餾法。這里說明了TinyBERT所使用的蒸餾過程遵循了原始BERT的訓練方法——在大規(guī)模的通用數(shù)據(jù)集上進行預訓練以獲得語言特征，然后針對特定任務(wù)數(shù)據(jù)進行微調(diào)。所以在第一個步驟中，使用在通用數(shù)據(jù)上訓練的通用BERT作為教師，學生學習模仿教師的嵌入和轉(zhuǎn)換層激活來創(chuàng)建一個通用的TinyBERT；在第二個步驟中，將教師模型切換到特定任務(wù)模型并繼續(xù)訓練學生模型。

看懂這25個核心概念，就沒有啃不動的機器學習論文