刷arxiv有哪些技巧？5個問題快速理解機器學習論文

本文作者： AI研習社-譯站

2021-02-03 15:37

導(dǎo)語：怎么看arxiv才能不錯過機器學習領(lǐng)域的優(yōu)秀論文呢？

譯者：AI研習社（聽風1996）

雙語原文鏈接：How to Understand ML Papers Quickly

我所指導(dǎo)的ML學員經(jīng)常會問我一些不同的問題："你如何從每天大量充斥在Arxiv網(wǎng)址上的出版資料中選擇閱讀哪些論文？"

閱讀大多數(shù)ML論文的好處是，你只需提出五個簡單的問題就能跨越（忽略）一些專業(yè)術(shù)語。當我瀏覽論文時，我會盡可能快地回答這些問題。

1）函數(shù)近似器的輸入是什么？

如：一張224x224x3的RGB圖像，其中單個物體大致位于視圖中心。

2）函數(shù)近似器的輸出是什么？

如：一個對應(yīng)輸入圖像的類維度為1000的向量。

請借助與具體（論文中的）方法無關(guān)的方式考慮整個系統(tǒng)的輸入和輸出，可以讓你從算法術(shù)語本身中脫身，并考慮其他領(lǐng)域是否已經(jīng)開發(fā)出使用不同方法（算法）在這里可能會有效的方法。我發(fā)現(xiàn)這種方法在閱讀Meta-Learning論文時非常有用。

通過首先將ML問題視為一組輸入和期望的輸出，可以推斷輸入是否足以預(yù)測輸出。如果沒有這種推斷練習，你可能會意外得到一個ML問題，其中輸出不可能由輸入決定。結(jié)果可能會是一個ML系統(tǒng)進行預(yù)測的方式是社會所認為有問題的方式（譯者注：這里可能是想表達不符合人類常識與邏輯的執(zhí)行方式）。

3）什么樣的損失在監(jiān)督輸出預(yù)測（譯者注：關(guān)注損失函數(shù)）？這個目標函數(shù)在什么樣的背景假設(shè)下設(shè)立的？

ML模型是通過組合偏差和數(shù)據(jù)而形成的。有時偏差很強，有時偏差很弱。為了使模型具有更好的泛化能力，你需要添加更多的偏差或添加更多的無偏數(shù)據(jù)。天下沒有免費的午餐。

舉一個例子：許多最優(yōu)控制算法都會假設(shè)一個固定的數(shù)據(jù)偶發(fā)過程，這個過程就是馬爾科夫決策過程（MDP）。在MDP中，"狀態(tài) "和 "決策"通過環(huán)境的動態(tài)轉(zhuǎn)換來確定映射到 "下一個狀態(tài)、獎勵以及事件是否結(jié)束"。這種結(jié)構(gòu)雖然很籠統(tǒng)，但也是可以用來構(gòu)造一個損失，讓學習Q值遵循Bellman方程。

4）一旦模型被訓(xùn)練后，對于以前沒見過的輸入/輸出對，模型能夠泛化到什么程度？

歸功于所捕獲的數(shù)據(jù)信息或模型架構(gòu)，ML系統(tǒng)可能會相當好地泛化到它以前從未見過的輸入。近年來，我們看到越來越多和更高等次的泛化能力，所以在閱讀論文時，我注意觀察那些在論文中驚人的泛化能力以及它的泛化能力來自哪里（數(shù)據(jù)、偏差或兩者都有）。

對于這個領(lǐng)域來說，更好的歸納偏差意味著存在更多的噪音，例如因果推理或符號方法或以對象為中心的表示。這些是構(gòu)建穩(wěn)健可靠的ML系統(tǒng)的重要工具，我發(fā)現(xiàn)將結(jié)構(gòu)化數(shù)據(jù)與模型偏差分開的界限可能是模糊的。話雖如此，但讓我感到困惑的是，有許多的研究人員認為推動ML前進的方式是減少學習量（譯者注：訓(xùn)練輪次）并增加編寫硬編碼的量。

我們之所以進行ML研究，恰恰是因為有些東西我們不知道如何編寫硬編碼。作為機器學習的研究者，我們應(yīng)該把工作重點放在改進學習方法上，把編寫硬編碼和符號方法留給那些研究編寫硬編碼的研究者。

5）論文中的說法是否可以證偽？

那些聲稱不能證偽的論文是不屬于科學范疇的。

AI研習社是AI學術(shù)青年和AI開發(fā)者技術(shù)交流的在線社區(qū)。我們與高校、學術(shù)機構(gòu)和產(chǎn)業(yè)界合作，通過提供學習、實戰(zhàn)和求職服務(wù)，為AI學術(shù)青年和開發(fā)者的交流互助和職業(yè)發(fā)展打造一站式平臺，致力成為中國最大的科技創(chuàng)新人才聚集地。

如果，你也是位熱愛分享的AI愛好者。歡迎與譯站一起，學習新知，分享成長。

刷arxiv有哪些技巧？5個問題快速理解機器學習論文