0
本文作者: MrBear | 2020-01-02 09:58 |
作為 2019 年最后一場重量級的人工智能國際學(xué)術(shù)頂會,NeurIPS 2019 所反映出的一些人工智能研究趨勢,例如神經(jīng)網(wǎng)絡(luò)可解釋性、深度學(xué)習(xí)新方法、神經(jīng)科學(xué)等等,想必對于大家在新的一年開展研究工作,具有一定的借鑒和參考價值。
NeurIPS 2019 共舉辦 51 場研討會,接收了 1,428 篇論文,以及有超過 13,000 名參會者,可謂萬眾矚目。
來自英偉達的工程師小姐姐 Chip Huyen 基于自己的參會體驗,較為全面地總結(jié)了 NeurIPS 2019 反映的關(guān)鍵研究趨勢。
下面我們一一來看:
最近,研究人員對深度學(xué)習(xí)的局限性進行了大量的反思,以下為幾個例子:
Facebook 的人工智能總監(jiān)表達了對算力達到瓶頸的擔(dān)憂。人工智能企業(yè)不應(yīng)該僅僅寄希望于通過更大的深度學(xué)習(xí)系統(tǒng)來不斷取得進步。因為「現(xiàn)在,一個實驗可能要花費七位數(shù)的金錢,但現(xiàn)實情況不會讓這一數(shù)字增長到九位數(shù)或十位數(shù),因為沒人負擔(dān)得起這樣的開銷」
Yoshua Bengio 認為以 Gary Marcus 為代表的一些人經(jīng)常指出深度學(xué)習(xí)的局限性。Bengio 將 Gary Marcus 的觀點總結(jié)為「你們看,我就說深度學(xué)習(xí)不行吧」,而 Gary Marcus 則反駁了這種說法。
針對這一趨勢,Yann Lecun 談到:「我不明白,為什么突然之間,我們看到了許多新聞和推特聲稱人工智能的進步正在放緩,或稱深度學(xué)習(xí)正在碰壁。在過去的五年中,我?guī)缀踉诿恳淮窝葜v上都會指出這兩個局限和挑戰(zhàn)。所以,認識到這些局限性并不是什么新鮮事。而且,實際上人工智能的發(fā)展并沒有慢下來」。
在這種大環(huán)境下,我們很高興看到探究深度學(xué)習(xí)背后的理論(深度學(xué)習(xí)為何有效?它是如何工作的?)的論文的數(shù)量迎來了爆炸式增長。
在今年的 NeurIPS 上,有 31 篇融合了各種技術(shù)的論文。本屆大會的杰出新方向論文獎授予了 Baishnavh 和 J.Zico Kolter 的論文「Uniform convergence may be unable to explain generalization in deep learning」
他們認為一致收斂理論本身并不能解釋深度學(xué)習(xí)的泛化能力。隨著數(shù)據(jù)集的規(guī)模增大,泛化差異(Generalization Gap,模型在見過和未見過的數(shù)據(jù)上的性能差異)的理論界限也會增大,而經(jīng)驗泛化差異則會減小。
圖 1:泛化差異和泛化邊界隨訓(xùn)練集規(guī)模變化的情況
神經(jīng)切線核(NTK,https://arxiv.org/abs/1806.07572)是近年來提出的一個研究方向,旨在理解神經(jīng)網(wǎng)絡(luò)的優(yōu)化和泛化。有關(guān) NTK 的討論多次出現(xiàn)在本屆 NeurIPS 的亮點演講中,我在 NeurIPS 期間也與其他人多次談到 NTK。
Arthur Jacot 等人提出了「全連接的神經(jīng)網(wǎng)絡(luò)等價于寬度無限時的高斯過程」這一眾所周知的概念,能夠在函數(shù)空間而不是參數(shù)空間中研究它們的訓(xùn)練動力學(xué)(Training Dynamics)。他們證明了「在人工神經(jīng)網(wǎng)絡(luò)參數(shù)梯度下降的過程中,網(wǎng)絡(luò)函數(shù)(將輸入向量映射到輸出向量)遵循關(guān)于一種新的核——NTK的函數(shù)代價的核梯度」。
他們還表明,當(dāng)我們使用梯度下降法訓(xùn)練一個有限層版本的 NTK 時,其性能將收斂到寬度無限的 NTK 上,然后在訓(xùn)練中性能保持不變。
下面,我們列出本屆 NeurIPS 上一些基于 NTK 構(gòu)建的論文:
Learning and Generalization in Overparameterized Neural Networks, Going Beyond Two Layers,論文鏈接:https://arxiv.org/abs/1811.04918
On the Inductive Bias of Neural Tangent Kernels,論文鏈接:http://papers.nips.cc/paper/9449-on-the-inductive-bias-of-neural-tangent-kernels
然而,許多人認為 NTK 不能完全解釋深度學(xué)習(xí)。一個神經(jīng)網(wǎng)絡(luò)要接近 NTK 狀態(tài)需要具備學(xué)習(xí)率小、初始化寬度大、無權(quán)值衰減等超參數(shù)設(shè)置,而在實際訓(xùn)練中并不經(jīng)常使用這樣的設(shè)置。
NTK 的觀點還認為,神經(jīng)網(wǎng)絡(luò)只會像核方法一樣泛化,但根據(jù)我們的經(jīng)驗來看,它們可以更好地泛化。
Colin Wei 等人的論文「Regularization Matters: Generalization and Optimization of Neural Nets v.s. their Induced Kernel」從理論上證明了帶有權(quán)值衰減的神經(jīng)網(wǎng)絡(luò)具有比 NTK 更好的泛化能力,這說明研究 L2 正則化神經(jīng)網(wǎng)絡(luò)可以為泛化問題提供更好的研究思路。此論文鏈接:
本屆 NeurIPS 上也有幾篇論文說明了,傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)可以具有比 NTK 更好的性能:
What Can ResNet Learn Efficiently, Going Beyond Kernels?論文鏈接:http://papers.nips.cc/paper/9103-what-can-resnet-learn-efficiently-going-beyond-kernels
Limitations of Lazy Training of Two-layers Neural Network,論文鏈接:http://papers.nips.cc/paper/9111-limitations-of-lazy-training-of-two-layers-neural-network
許多論文分析了神經(jīng)網(wǎng)絡(luò)的不同組成部分的表現(xiàn)。比如,Chulhee Yun 等人提出了「Small ReLU networks are powerful memorizers: a tight analysis of memorization capacity」,說明了「帶有 O(sqrt(N)) 個隱藏節(jié)點的 3 層的 ReLU 網(wǎng)絡(luò)可以完美地記憶大多數(shù)帶有 N 個數(shù)據(jù)點的數(shù)據(jù)集」。論文鏈接:https://arxiv.org/abs/1810.07770
Shirin Jalali 等人在論文「Efficient Deep Learning of Gaussian Mixture Models」(論文鏈接:https://papers.nips.cc/paper/8704-efficient-deep-approximation-of-gmms)中,開篇就提出了這樣一個問題:通用近似定理(Universal approximation theorem,一譯萬能逼近定理)表明,任何正則函數(shù)都可以通過一個單隱層神經(jīng)網(wǎng)絡(luò)近似。
那么,增加深度能讓它更有效率嗎?他們說明了,在高斯混合模型的最優(yōu)貝葉斯分類的情況下,這些函數(shù)可以用帶有單個隱層的神經(jīng)網(wǎng)絡(luò)中的 o (exp (n)) 個節(jié)點以任意精度近似,而在兩層網(wǎng)絡(luò)中只需要用 o (n) 個節(jié)點近似。
在一篇更為實用的論文「Control Batch Size and Learning Rate to Generalize Well: Theoretical and Empirical Evidence」中,F(xiàn)engxiang He 和他的團隊在 CIFAR 數(shù)據(jù)集上使用隨機梯度下降算法(SGD)訓(xùn)練了 1,600 個 ResNet-110 模型和 VGG-19 模型,發(fā)現(xiàn)這些模型的泛化能力與批處理大小呈負相關(guān),與學(xué)習(xí)率呈正相關(guān),與「批處理大小/學(xué)習(xí)率」的比值呈負相關(guān)。
圖 2:測試準確率于批處理大小、學(xué)習(xí)率的誒關(guān)系。第四行分別是(1)使用 CIFAR-10 數(shù)據(jù)集訓(xùn)練的 ResNet-110 模型(2)使用 CIFAR-100 數(shù)據(jù)集訓(xùn)練的 ResNet-110 模型(3)使用 CIFAR-10 數(shù)據(jù)集訓(xùn)練的 VGG-19 模型(4)使用 CIFAR-100 數(shù)據(jù)集訓(xùn)練的 VGG-19 模型。每條曲線都是根據(jù) 20 個網(wǎng)絡(luò)的情況綜合繪制而出。
與此同時,Yuanzhi Li 等人的論文「Towards Explaining the Regularization Effect of Initial Large Learning Rate in Training Neural Networks」指出:「一個具有較大的初始學(xué)習(xí)率并使用退火算法訓(xùn)練的雙層網(wǎng)絡(luò),比使用較小的初始學(xué)習(xí)率訓(xùn)練的相同的網(wǎng)絡(luò)具有更好的泛化性能。這是因為學(xué)習(xí)率較小的模型首先會記憶低噪聲、難以擬合的模式,它在較高噪聲、易于擬合的情況下的泛化性能比學(xué)習(xí)率較大的情況下差一些。」
盡管這些理論分析非常吸引人,也很重要,但是很難講它們聚合成一個大的研究體系,因為這其中的一個研究都集中在整個系統(tǒng)的一個較為狹窄的方面。
在今年的 NeurIPS 上,研究者們提出了一系列新穎的方法,而不僅僅是在別人的工作上疊加上新的網(wǎng)絡(luò)層。我感興趣的三個方向是:貝葉斯學(xué)習(xí)、圖神經(jīng)網(wǎng)絡(luò),以及凸優(yōu)化。
1、使用貝葉斯原理進行深度學(xué)習(xí)
正如 Emtiyaz Khan 在他的演講「Deep Learning with Bayesian Principles」中所強調(diào)的,貝葉斯學(xué)習(xí)和深度學(xué)習(xí)是有很大的而區(qū)別。
根據(jù) Khan 的說法,深度學(xué)習(xí)使用的是一種「試錯」的方法,我們通過實驗看看會得到什么結(jié)果,然而貝葉斯原理迫使你事先考慮一個假設(shè)(先驗)。
圖 3:貝葉斯學(xué)習(xí)與深度學(xué)習(xí)對比
與常規(guī)的深度學(xué)習(xí)相比,貝葉斯深度學(xué)習(xí)有兩個主要的優(yōu)勢:非確定性估計以及在小數(shù)據(jù)集上更好的泛化性能。
在現(xiàn)實世界的應(yīng)用中,讓系統(tǒng)能夠進行預(yù)測是遠遠不夠的。弄明白每個預(yù)測的可靠性是很重要的。例如,對癌癥進行預(yù)測時,可靠性為 50.1% 和可靠性為 99.9% 時的治療方案是不同的。在貝葉斯學(xué)習(xí)中,非確定性估計是一個內(nèi)在的特質(zhì)。
傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)給出的是單點估計——它們使用一組權(quán)值針對一個數(shù)據(jù)點輸出一個預(yù)測。另一方面,貝葉斯神經(jīng)網(wǎng)絡(luò)使用一個關(guān)于網(wǎng)絡(luò)權(quán)重的概率分布,并輸出該分布中所有權(quán)重組合的平均預(yù)測值,這與對許多神經(jīng)網(wǎng)絡(luò)求平均的效果相同。
因此,貝葉斯神經(jīng)網(wǎng)絡(luò)是一種自然的集成,它的作用類似于正則化,并且能夠防止過擬合。
訓(xùn)練具有數(shù)百萬參數(shù)的貝葉斯神經(jīng)網(wǎng)絡(luò)仍然需要非常大的計算開銷。要想使網(wǎng)絡(luò)收斂到一個后驗上可能需要花費數(shù)周的時間,因此諸如變分推斷這樣的近似方法越來越流行。本屆 NeurIPS 的「概率方法-變分推斷」環(huán)節(jié)共有 10 篇論文與這類變分貝葉斯方法有關(guān)。
下面是向大家推薦的本屆 NeurIPS 上有關(guān)貝葉斯深度學(xué)習(xí)的 3 篇論文:
Importance Weighted Hierarchical Variational Inference(https://arxiv.org/abs/1905.03290)
A Simple Baseline for Bayesian Uncertainty in Deep Learning(https://arxiv.org/abs/1902.02476)
Practical Deep Learning with Bayesian Principles(https://arxiv.org/abs/1906.02506)
2、圖神經(jīng)網(wǎng)絡(luò)(GNN)
多年來,我經(jīng)常談到:圖論是在機器學(xué)習(xí)領(lǐng)域最被低估的課題之一。我很高興有關(guān)圖的工作在本屆 NeurIPS 上大放異彩。
「圖表征學(xué)習(xí)」是本屆 NeurIPS 上最受歡迎的研討會。令人驚訝的是,該領(lǐng)域已經(jīng)取得了如此大的進步。時間回到 2015 年,當(dāng)我在實習(xí)期間開始研究圖神經(jīng)網(wǎng)絡(luò)時,我沒有想到會有如此多的研究人員參與到這個領(lǐng)域中來。
圖是適用于許多種數(shù)據(jù)(例如,社交網(wǎng)絡(luò)、知識庫、游戲的狀態(tài))的優(yōu)雅而自然的表征形式。用于推薦系統(tǒng)的「用戶-物品」數(shù)據(jù)可以被表示為一個二分圖,其中一個不相交的集合由用戶組成,另一個由物品組成。
圖也可以表征神經(jīng)網(wǎng)絡(luò)的輸出。正如 Yoshua Bengio 在他的演講中提醒人們的那樣:任何聯(lián)合分布都可以通過因子圖來表示。
這使得圖神經(jīng)網(wǎng)絡(luò)能夠完美地適應(yīng)組合優(yōu)化(例如,旅行商問題、任務(wù)調(diào)度問題)、身份匹配(在這種問題中 Twitter 用戶和 Facebook 的用戶是一樣的嗎?)、推薦系統(tǒng)等任務(wù)。
目前最流行的圖神經(jīng)網(wǎng)絡(luò)是圖卷積神經(jīng)網(wǎng)絡(luò)(GCNN),這是意料之中的,因為圖和卷積都可以編碼局部的信息。卷積以尋找輸入中鄰近部分之間的關(guān)系為目標編碼一種偏置。而圖通過邊對輸入中關(guān)系最密切的部分進行編碼。
圖 4:(左圖)二分圖 St=(G,C,E,V)有 n=3 個變量和 m=2 個常量。(右圖)用于將策略πθ(a|st)參數(shù)化的二分圖 GCNN 架構(gòu)。
下面是向大家推薦的 GNN 論文:
Exact Combinatorial Optimization with Graph Convolutional Neural Networks,論文地址:https://arxiv.org/abs/1906.01629
是的, 今年有一篇論文融合了 NTK 和圖神經(jīng)網(wǎng)絡(luò)兩個最熱門的研究趨勢:Graph Neural Tangent Kernel: Fusing Graph Neural Networks with Graph Kernels,論文地址:https://arxiv.org/abs/1905.13192
本屆NeurIPS 上我最喜歡的海報展示:(Nearly) Efficient Algorithms for the Graph Matching Problem on Correlated Random Graphs,論文地址:https://arxiv.org/abs/1805.02349
圖 5:(Nearly) Efficient Algorithms for the Graph Matching Problem on Correlated Random Graphs
(除 NeurIPS 論文之外的)推薦閱讀材料:
Thomas N. Kipf 關(guān)于圖卷積網(wǎng)絡(luò)的博文(https://tkipf.github.io/graph-convolutional-networks/)
Kung-Hsiang,Huang 的圖神經(jīng)網(wǎng)絡(luò)(Basics,DeepWalk,GraphSage)簡介(https://towardsdatascience.com/a-gentle-introduction-to-graph-neural-network-basics-deepwalk-and-graphsage-db5d540d50b3)
3、凸優(yōu)化
我一直默默推崇 Stephen Boyd 關(guān)于凸優(yōu)化的工作,所以很高興看到它在 NeurIPS 上越來越受歡迎。在今年的 NeurIPS 上,有 32 篇論文是關(guān)于這個主題的。
Stephen Boyd 和 j. Zico Kolter 的實驗室也展示了他們的論文「Differentiable Convex Optimization Layers」,該論文說明了如何通過凸優(yōu)化問題的解來進行微分,這使得將它們可以被嵌入可微分的程序(如神經(jīng)網(wǎng)絡(luò))并根據(jù)數(shù)據(jù)進行學(xué)習(xí)。
凸優(yōu)化問題之所以吸引人,是因為它們可以被精確地求解(可以實現(xiàn) 1e-10 的容錯率),而且速度很快。它們也不會產(chǎn)生奇怪的或意料之外的輸出,而這對于現(xiàn)實世界中的應(yīng)用是至關(guān)重要的。盡管在真實場景中遇到的許多問題是非凸的,但是將它們分解為一系列凸問題可以達到很好的效果。
神經(jīng)網(wǎng)絡(luò)也使用凸優(yōu)化的算法進行訓(xùn)練。然而,神經(jīng)網(wǎng)絡(luò)重點強調(diào)以一種端到端的方式從頭進行學(xué)習(xí),而凸優(yōu)化問題的應(yīng)用則顯式地使用領(lǐng)域特定的知識對系統(tǒng)建模。如果能夠以凸方法對系統(tǒng)進行顯式建模,那么通常所需的數(shù)據(jù)就會少得多。關(guān)于可微凸優(yōu)化層的工作是將端到端學(xué)習(xí)和顯式建模的優(yōu)勢結(jié)合起來的一種方法。
當(dāng)你想要控制一個系統(tǒng)的輸出時,凸優(yōu)化特別有用。例如,SpaceX 公司使用凸優(yōu)化來發(fā)射火箭,BlackRock 公司將它用于交易算法??吹酵箖?yōu)化在深度學(xué)習(xí)中的應(yīng)用真的很酷,就像現(xiàn)在的貝葉斯學(xué)習(xí)一樣。
下面是 Akshay Agrawal 推薦的一些有關(guān)凸優(yōu)化的 NeurIPS 論文:
Acceleration via Symplectic Discretization of High-Resolution Differential Equations,論文鏈接:https://papers.nips.cc/paper/8811-acceleration-via-symplectic-discretization-of-high-resolution-differential-equations
Hamiltonian descent for composite objectives,論文鏈接:http://papers.nips.cc/paper/9590-hamiltonian-descent-for-composite-objectives
圖 6:用于問題的Hamiltonian 下降(HD)和梯度下降算法的對比情況
根據(jù) NeurIPS 2019 程序委員會主席 Hugo Larochelle 的分析,接收率最高的論文類別是神經(jīng)科學(xué)。在Yoshua Bengio的演講「From System 1 Deep Learning to System 2 Deep Learning」和 Blaise Aguera y Arcas的演講「Social Intelligence」中,他們都敦促機器學(xué)習(xí)研究社區(qū)更多地思考自然智能的生物學(xué)根源。
圖 7:神經(jīng)科學(xué)是論文接收率最高的類別
Bengio 的演講將「意識」引入了主流的機器學(xué)習(xí)詞匯體系中。Bengio 提出的「意識」概念的核心是注意力。他將機器注意力機制與我們的大腦選擇分配注意力的方式進行了比較:「機器學(xué)習(xí)可以用來幫助腦科學(xué)家更好地理解意識,但我們對意識的理解也可以幫助機器學(xué)習(xí)發(fā)展出更好的能力」。
根據(jù) Bengio 的說法,如果我們希望機器學(xué)習(xí)算法能夠泛化到分布之外的樣本上,那么受意識啟發(fā)的方法可能是一種解決方案。
圖 8:將機器學(xué)習(xí)用于意識&將意識用于機器學(xué)習(xí)——(1)形式化定義并測試特定的意識的假設(shè)函數(shù)(2)揭開意識的神秘面紗(3)從計算和統(tǒng)計的角度(例如,系統(tǒng)的泛化)理解意識演化的優(yōu)勢(4)將這些優(yōu)勢應(yīng)用于學(xué)習(xí)智能體。
在本屆大會上,我最喜歡 Aguera y Arcas 的演講。他的演講在理論上非常嚴謹,但同時也是可行的。他認為通過優(yōu)化方法不足以獲得類似于人類的智力:「優(yōu)化不是生命體工作的方式,大腦不僅僅是在評估一個函數(shù)。它們會發(fā)展。它們會自我修正。他們從經(jīng)驗中學(xué)習(xí)。僅僅通過一個函數(shù)并不能包含這些東西」。
他呼吁人們研究「一種更通用的、受生物學(xué)啟發(fā)的突觸更新規(guī)則,它允許使用損失函數(shù)和梯度下降法,但并不要求一定要這么做」。
NeurIPS 上的這一趨勢與我觀察到的現(xiàn)象不謀而合:很多人工智能界的研究人員正轉(zhuǎn)而研究神經(jīng)科學(xué)。他們把神經(jīng)科學(xué)重新帶回了機器學(xué)習(xí)領(lǐng)域。
有些我所熟知的智者紛紛離開了人工智能研究領(lǐng)域,投身工業(yè)界或神經(jīng)科學(xué)領(lǐng)域。這是為什么呢?
1. 我們需要理解人類學(xué)習(xí)的機制,從而教導(dǎo)機器進行學(xué)習(xí)。
2. 科學(xué)研究應(yīng)該是一個從假設(shè)到實驗的過程,而如今的人工智能研究則往往是先做實驗然后證明結(jié)果成立。
讓我們從更宏觀的角度看看本屆 NeurIPS 大會上的論文都與什么主題相關(guān)。首先,我使用 Vennclods 將 1,011 份 NeurIPS 2018 的論文和 1,428 份 NeurIPS 2019 的論文的標題進行了可視化。中間黑色的部分是在這兩年都十分常見的論文關(guān)鍵詞的列表。
圖 9:NeurIPS 關(guān)鍵詞云
接著,如下圖所示,我計算出了這些關(guān)鍵詞從 2018 年到 2019 年的百分比變化。例如,如果在2018年,所有被接收的論文中有 1% 包含關(guān)鍵詞「X」,而在2019年,這個數(shù)字是 2% ,那么這一比例的變化是(2-1) / 1=100% 。在下圖中,我將絕對比例變化在 20% 以上的關(guān)鍵詞繪制了出來。
圖 10:NeurIPS 關(guān)鍵詞百分比變化情況
要點:
即使是在機器人領(lǐng)域之外,強化學(xué)習(xí)也得到了進一步發(fā)展。具有顯著正向變化的關(guān)鍵詞有:多臂老虎機、反饋、遺憾值、控制。
生成模型依然很流行。GAN 仍然吸引著我們的想象力,但是炒作變少了。
循環(huán)神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)依然延續(xù)了去年的下降趨勢。
與硬件相關(guān)的關(guān)鍵詞也在增加,這表明有更多考慮到硬件的算法誕生。這是解決「硬件成為機器學(xué)習(xí)瓶頸」這一問題的方法。
令人遺憾的是,「數(shù)據(jù)」這一關(guān)鍵詞的百分比處于下降趨勢。我激動萬分地前去參觀「Algorithms–Missing Data」海報展,但卻發(fā)現(xiàn)竟然只有一張海報「Missing Not at Random in Matrix Completion: The Effectiveness of Estimating Missingness Probabilities Under a Low Nuclear Norm Assumption」張貼了出來!
「元」這一關(guān)鍵詞在今年增長的最多。詳情請參閱 Jesse Mu 的「Meta-meme」(https://twitter.com/jayelmnop/status/1206637800537362432)
盡管「貝葉斯」一詞的比例下降了,但「非確定性」卻上升了。去年,有許多論文使用了貝葉斯原理,但并不是將其運用在深度學(xué)習(xí)中。
提交給正會的 7 千多篇論文中,有 1428 篇被接收,接收率為 21%。
據(jù)我估計,1萬3千多名參會者中,至少有一半人并沒有在會議期間展示論文。
57 個研討會,其中 4 個專注于包容性:Black in AI,Women in Machine Learning,LatinX in AI,,Queer in AI,New In Machine Learning,Machine Learning Competitions for All。
1萬6千多頁會議記錄
在所有被接收的論文中,有 12% 至少包含一名來自谷歌或 DeepMind 的作者。
有 87 篇論文來自斯坦福,它是本屆 NeurIPS 被接收論文最多的學(xué)術(shù)機構(gòu)。
有 250 篇關(guān)于應(yīng)用的論文,占總論文數(shù)的 16.7%。
648 是本屆大會時間檢驗論文獎獲得者 Lin Xiao 的「Dual Averaging Method for Regularized Stochastic Learning and Online Optimization」的引用次數(shù)。這證明了引用量與貢獻不一定相關(guān)。
75% 的論文在「camera-ready」版中給出了代碼鏈接,去年這一數(shù)字只有 50%。
2,255 份審稿意見提到了查看提交的代碼。
173 篇論文聲稱進行了 OpenReview 上的可復(fù)現(xiàn)性挑戰(zhàn)。
31 張海報出現(xiàn)在了本屆 NeurIPS 的「創(chuàng)意和設(shè)計中的機器學(xué)習(xí)」研討會上。一些人告訴我這是他們在本屆大會上最喜歡的環(huán)節(jié)。
為「Good Kid」樂隊在閉幕宴會上的演出打 call!如果你還沒有欣賞過他們的音樂作品,可以去 Spotify 上聽一聽。
有時,他們是機器學(xué)習(xí)研究者;有時,他們又是搖滾明星。今夜,他們二者都是!
「Retrospectives: A Venue for Self-Reflection in ML Research」研討會進行了 11 場演講,這也是大家最喜歡的環(huán)節(jié)之一。
除此之外,本屆 NeurIPS 的火爆氛圍也相當(dāng)引人關(guān)注,大家可回顧《學(xué)術(shù)會議,1.3 萬人參加,我們該慶賀還是反思?》一文。
無論從知識的角度還是從社交的角度來說,NeurIPS 都勢不可擋。我不認為任何人能夠閱讀16,000頁的會議記錄。海報展人滿為患,這使得我們很難與作者交談。毫無疑問,我錯過了很多。
然而,會議的大規(guī)模召開也意味著匯聚了許多的研究方向和相關(guān)的研究人員。讓我能夠了解自己研究的分支領(lǐng)域之外的工作,能夠向那些研究背景和興趣與我不同的研究人員學(xué)習(xí),這種感覺很好。
看到研究社區(qū)從「更大就更好」的誤區(qū)中走出來是一件很棒的事。我逛海報展收獲的印象是:許多論文只是在小數(shù)據(jù)集上做實驗,比如 MNIST 和 CIFAR。最佳論文獎獲得者 Ilias Diakonikolas 等人的「Distribution-Independent PAC Learning of Halfspaces with Massart Noise」就沒有任何實驗。
我經(jīng)常聽到年輕的研究人員擔(dān)心:只有加入大型研究實驗室,才能獲得計算資源。但 NeurIPS 證明了:你可以在無需擔(dān)心數(shù)據(jù)和計算問題的情況下做出重要的貢獻。
在我參加的 NewInML 圓桌討論上,有人說他不知道 NeurIPS 上的大多數(shù)論文如何被應(yīng)用到生產(chǎn)環(huán)節(jié)中去。Neil Lawence 指出,也許他應(yīng)該考慮參加其它會議。
NeurIPS 比許多其它的機器學(xué)習(xí)會議更加理論化——從事基礎(chǔ)研究是很重要的。
總的來說,我在 NeurIPS 上度過了一段美好的時光,并計劃明年急需參會。然而,對于那些新加入機器學(xué)習(xí)研究社區(qū)的人來說,我建議他們將 ICLR 作為參加的第一個學(xué)術(shù)會議。ICLR 的規(guī)模更小、時間更短、也更加面向?qū)嶋H應(yīng)用。明年,ICLR 將在埃塞俄比亞召開,那是一個神奇的國度!
Via https://huyenchip.com/2019/12/18/key-trends-neurips-2019.html 雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。