0
譯者:AI研習社(Champagne Jin)
雙語原文鏈接:https://www.yanxishe.com/TextTranslation/2999
數(shù)據(jù)科學可能是一個年輕的領域,但這并不意味著你不期待了解某些相關主題。本文涵蓋了最近幾個極為重要的發(fā)展以及頗有影響力的理論片段。
這些論文所涉及的主題包括:編制數(shù)據(jù)科學工作流、輕量化神經(jīng)網(wǎng)絡的突破、重新思考使用統(tǒng)計學解決問題的基本方法。對每篇論文,我都給出了將其思想應用到自己手頭工作上的一些想法。
這是由谷歌研究院團隊傾情奉獻(2015年NeurIPS),當我們需要設置自己的數(shù)據(jù)科學工作流時,我們可以從該論文中學習到多個避免反模式的明確方案。(所謂反模式,就是讓系統(tǒng)逐漸惡化的典型場景)
via DataBricks. (譯者注:你瞅瞅這圖,機器學習在最終的系統(tǒng)中看起來不過是滄海一粟)
下一篇將要介紹的論文里會更詳盡地探討這個問題,構建機器學習產(chǎn)品是軟件工程的一個高度專業(yè)化的子集,因此從軟件工程這個學科中吸取的許多經(jīng)驗教訓應用于數(shù)據(jù)科學也是很有意義的。
那么究竟該怎么做呢?不妨試試論文中專家談到的實用技巧來簡化你的開發(fā)和生產(chǎn)。
這篇來自于Andrej Karpathy的優(yōu)質(zhì)博文闡明了機器學習模型是基于數(shù)據(jù)進行編程的軟件應用程序之范例。
如果數(shù)據(jù)科學是軟件,那么我們到底要朝著什么方向發(fā)展呢? Ben Bengafort在其頗具影響力的博文《The Age of the Data Product》中探究了這個問題。
數(shù)據(jù)產(chǎn)品代表了機器學習項目的運作化階段。圖源:Noémi Macavei-Katócz on Unsplash.
那么如何使用呢?多讀讀數(shù)據(jù)產(chǎn)品適應模型選擇過程的相關文章吧。
這篇論文中,來自谷歌研究院的團隊提出了一種全新的自然語言處理(NLP)模型,該模型的出現(xiàn)堪稱機器文本分析能力的階梯式增長。
對于為何BERT能夠恐怖如斯仍有不少爭議,不過這也提醒了我們,機器學習領域可能已經(jīng)發(fā)現(xiàn)了一些成功的方法,但可惜我們卻沒有完全理解它們是如何工作的。與大自然一樣,人工神經(jīng)網(wǎng)絡也充滿神秘感。
(此處為一段YouTube視頻,??:在這個歡快的問答片段中,諾德斯特龍數(shù)據(jù)科學主任解釋了人工神經(jīng)網(wǎng)絡是如何從自然中獲得靈感的。)
具體該怎么入手呢?
BERT這篇論文很快就能讀完,而且論文里還包含一些默認超參數(shù)設置,完全可以從這些參數(shù)著手開動起來(具體參見論文附錄A.3)。
無論你是否是NLP新手,不妨看看Jay Alammar的<A Visual GUide to Using BERT for the First Time>,這篇文章里對于BERT的技能有著相當引人入勝的展示。
哦對了,記得看看ktrain,這是一個基于Keras的庫。ktrain能讓你在自己的工作中無痛實現(xiàn)BERT。Arun Maiya開發(fā)了這個強大的庫,目的就是讓我們快速獲取對于NLP,圖像識別以及圖相關方法的深刻認知。
誠然,NLP模型正在越變越大(你看,GPT-3的參數(shù)量達到了恐怖如斯的1750億?。?,不過也有一些研究人員偏愛“倒行逆施”,他們的目標是開發(fā)更小、更快、更高效的神經(jīng)網(wǎng)絡。這些網(wǎng)絡能夠確保其更快的運行速度,更低的訓練成本以及對于計算資源的更少需求。
在這篇具有開創(chuàng)性意義的論文中,機器學習小天才Jonathan Frankle以及Michael Carbin概述了一種剪枝策略以尋找稀疏子網(wǎng)絡,這些子網(wǎng)絡可以達到堪比原始超大型神經(jīng)網(wǎng)絡的性能。
圖源:Nolan Day的論文《Breaking down the Lottery Ticket Hypothesis》
彩票(lottery ticket)是指剪枝策略與有效的初始權重之間的聯(lián)系(這可不就跟刮彩票一樣嘛)。神經(jīng)網(wǎng)絡剪枝這一發(fā)明在存儲空間、運行時間和計算性能方面提供了諸多優(yōu)勢,并贏得了ICLR 2019年度最佳論文獎。在此基礎上所進行的進一步研究證明了該方法的適用性,甚至將其應用于原本就很稀疏的網(wǎng)絡中。
具體怎么操作呢?
在將你的神經(jīng)網(wǎng)絡部署到生產(chǎn)環(huán)境之前,不妨考慮一下對其進行剪枝。網(wǎng)絡權重剪枝能夠大幅降低參數(shù)數(shù)量(參數(shù)可減少達90%+)同時確保其與原始網(wǎng)絡相近的性能表現(xiàn)。
還有,聽聽Ben Lorica與Neural Magic在這一集數(shù)據(jù)交換播客里面的相關討論。Neural Magic是一家初創(chuàng)公司,其希望利用剪枝和量化等技術,搭配一個精巧的用戶界面,使實現(xiàn)網(wǎng)絡稀疏性更容易。
再來點加餐:
看看這個很有意思的側邊欄目,原論文作者之一在這里聊了聊機器學習社區(qū)評估好想法的缺陷。
經(jīng)典的假設檢驗會導致過度的確定性,并產(chǎn)生了通過統(tǒng)計方法來確定原因的錯誤想法。(更多內(nèi)容)
假設檢驗在計算機出現(xiàn)之前就被廣泛使用??紤]到這種方法所帶來的深刻挑戰(zhàn)(例如,即使是統(tǒng)計學家也發(fā)現(xiàn)要解釋p值幾乎是不可能的),也許是時候考慮其他方法了,比如某種程度上的精確結果測試(SPOT)。
“顯著性”via xkcd
怎么辦呢?
看看這篇博文,《The Death of the Statistical Tests of Hypotheses》。文中,一個沮喪的統(tǒng)計學家概述了一些與經(jīng)典假設檢驗方法相關的問題,并利用置信區(qū)間解釋了一種替代方法。
AI研習社是AI學術青年和AI開發(fā)者技術交流的在線社區(qū)。我們與高校、學術機構和產(chǎn)業(yè)界合作,通過提供學習、實戰(zhàn)和求職服務,為AI學術青年和開發(fā)者的交流互助和職業(yè)發(fā)展打造一站式平臺,致力成為中國最大的科技創(chuàng)新人才聚集地。
如果,你也是位熱愛分享的AI愛好者。歡迎與譯站一起,學習新知,分享成長。
雷峰網(wǎng)版權文章,未經(jīng)授權禁止轉載。詳情見轉載須知。