0
本文作者: AI研習社-譯站 | 2020-12-10 10:33 |
雙語原文鏈接:My Recommendations for Getting Started with NLP
自2013年以來,我一直在研究自然語言處理(NLP),當時手動特征工程在機器學習領域非常流行。從那時起,我們已經(jīng)走了很長一段路。我實際上是為我的博士專門研究信息檢索和機器學習技術的,尤其是它們?nèi)绾螒糜谏缃挥嬎愫陀嬎阏Z言學,同時還開發(fā)了從大規(guī)?;谖谋镜臄?shù)據(jù)中高效提取信息的方法。我很幸運有將經(jīng)典機器學習應用于NLP的經(jīng)驗,并親眼目睹了該領域深度學習的爆炸式增長。
許多學生一直在要求我為如何開始自然語言處理準備指南。這篇博客文章旨在根據(jù)研究,對該領域的了解和個人經(jīng)驗來幫助他人。盡管這不是直接指南,但我在此處共享的資源可以幫助您根據(jù)需要創(chuàng)建自己的NLP學習路徑。這將是我多年來遇到的教育資源的結(jié)合。我將分享我在研究這些資源及其適用方面的經(jīng)驗。
這份清單無論如何都不是詳盡無遺的,但是它應該提供一些選擇,對于任何有興趣開始使用NLP的人來說都是一個很好的起點。您實際上并不需要消耗所有內(nèi)容。只需選擇適合您當前需求的資源即可。例如,也許您已經(jīng)有了一些理論基礎,而您只需要獲得開發(fā)生產(chǎn)中的NLP系統(tǒng)的最佳實踐。在這種情況下,您可以直接跳至建議,以獲取有關NLP技術的動手經(jīng)驗。我只是在介紹我個人學習過的內(nèi)容,我敢肯定還有很多其他我想念的資源,如果有任何建議,請隨時發(fā)表評論。
by Dan Jurafsky and James H. Martin
學習基礎知識對于學習任何一門學科都是至關重要的。我是非常推崇這一點的,因為這對我來說很有效。我關注這本書已經(jīng)有一段時間了,現(xiàn)在已經(jīng)是第三版了。這本書所涉及的材料寫得特別好,為NLP提供了一個很好的理論基礎。對于任何想要開始學習NLP的人來說,這有可能是一個很好的起點。即使我已經(jīng)讀過這本書,我也會定期回顧它,因為它定期更新該領域的最新發(fā)展。如果你真的很喜歡這本書,你也會發(fā)現(xiàn)這些講座很有用,因為它們確實涵蓋了書中所涉及的很多基本主題。
by Emily M. Bender
Emily Bender是我最喜歡的語言學研究者之一。她的工作對我所從事的研究產(chǎn)生了巨大的影響,使我能夠采用更加嚴謹?shù)姆椒▉磉M行關于NLP研究。NLP深受語言學的影響,事實上,Emily 主張用語言學的規(guī)則來指導NLP的發(fā)展。她的書為NLP中使用的語言學概念進行了一個精彩的介紹。對于任何從事NLP的學生來說,這都是一本必讀的書。
Linguistic Structure Prediction
by Noah A. Smith
本書主要介紹自然語言處理與機器學習之間的聯(lián)系,涵蓋了統(tǒng)計,基于計算方法建模語言結(jié)構(gòu)。本書假定你已經(jīng)對機器學習有一定的接觸。如果你對機器學習不太熟悉,可以在這里查看我做的機器學習推薦列表。建議你至少要做一門機器學習的入門課程,才能最大限度地利用這本書。
Introduction to Natural Language Processing
by Jacob Eisenstein
這是我最喜歡的NLP書籍之一,因為它專注于討論語言學概念和應用。它涵蓋了波束搜索、最大似然估計、矩陣因子化等方法。然后,它解釋了如何利用這些方法來解決廣泛的任務,如分類、詞性標注、關系提取、語言建模等。這本書假定讀者具備多元演算和線性代數(shù)等知識。這本書直接推薦的一本書是《機器學習數(shù)學》一書。與其他書相比,它是一本更高級的教科書,它確實需要對機器學習和數(shù)學概念有所了解。
by Yoav Goldberg
如果你剛剛開始學習NLP的旅程,你可能已經(jīng)接觸到NLP中更現(xiàn)代的方法,比如RNN和其他基于深度學習的模型。如果您正在尋找關于神經(jīng)網(wǎng)絡理論上的全面綜述以及它們?nèi)绾卧贜LP中使用,這本書就是為你準備的。在本書中找到的參考文獻對我自己的研究起到了重要作用。
Modern Deep Learning Techniques Applied to Natural Language Processing
by Soujanya Poria and Elvis Saravia
關于NLP的現(xiàn)代方法,我還想推薦我和Soujanya Poria一起整理的這個開放資源。它會引導你了解NLP領域的一些最新發(fā)展,從單詞嵌入到注意力機制再到強化學習。
by Christopher Manning and Abigail See
如果你最近剛開始接觸NLP,你可能已經(jīng)接觸過這門流行的NLP課程。所有的講座和幻燈片都是公開的,你可以在課程網(wǎng)站上找到它。這門課程非常注重NLP的深度學習方法,所以你會看到第一講直接從詞向量開始,然后過渡到卷積網(wǎng)絡和transfomer等更高級的主題。如果你對經(jīng)典的NLP方法感興趣,你可能要看看開頭提到的一本書。事實上,我強烈建議你這樣做,因為它是對構(gòu)建實際NLP系統(tǒng)在實踐中有用的寶貴知識。
這樣的理論知識很好,但是無論您是NLP研究人員還是工程師,都必須通過動手實踐對其進行補充。我發(fā)現(xiàn)這些書對于在語言建模和基于文本的分類等主題上進行練習非常有用。
by Delip Rao and Brian McMahan
盡管這本書是基于PyTorch的,但用深度學習構(gòu)建語言應用的實踐還是很不錯的。此外,還有一些傳統(tǒng)概念和方法的內(nèi)容和代碼,比如TF-IDF和語義,等等。如果你是一名PyTorch開發(fā)人員,你會發(fā)現(xiàn)本書很容易上手。
by Hobson Lane, Cole Howard, and Hannes Hapke
這是另一本特別的書,也是我最喜歡的一本書,可以讓你對所有的NLP進行實戰(zhàn)練習。這本書指導你如何從語料庫建立第一個詞匯,一直到建立一個聊天機器人。這本書中有很多代碼示例,所以如果你喜歡敲代碼,它可能很適合你。
Practical Natural Language Processing
by Sowmya Vajjala, Bodhisattwa Majumder, Anuj Gupta, and Harshit Surana
在NLP的動手實踐,我非常喜歡今年出版的這本書。它涵蓋了從NLP的各種實際應用到部署NLP系統(tǒng)的最佳實踐等主題。盡管我對這本書只讀了一半,但我還是不得不把它收錄進來,因為有很多NLP工程師都想熟悉如何更有效地構(gòu)建NLP系統(tǒng),了解構(gòu)建NLP系統(tǒng)所需的技術。
?? 附錄(獎勵)
這里有一些其他資源和項目,可以幫助你保持對NLP領域的了解。
關于如何開始對NLP學習,我的建議就到這里了。重要的是,你要選擇最適合自己的內(nèi)容。我已經(jīng)嘗試為每個條目提供一些解釋,希望能幫助你創(chuàng)建自己的學習路徑。這些都是我遇到的最好的資源,我發(fā)現(xiàn)它們對擴展我的知識甚至教授這些概念非常有用,更不用說將它們應用于研究思路和構(gòu)建從語義搜索引擎到情感分類器的NLP系統(tǒng)了。
AI研習社是AI學術青年和AI開發(fā)者技術交流的在線社區(qū)。我們與高校、學術機構(gòu)和產(chǎn)業(yè)界合作,通過提供學習、實戰(zhàn)和求職服務,為AI學術青年和開發(fā)者的交流互助和職業(yè)發(fā)展打造一站式平臺,致力成為中國最大的科技創(chuàng)新人才聚集地。
如果,你也是位熱愛分享的AI愛好者。歡迎與譯站一起,學習新知,分享成長。
雷峰網(wǎng)版權文章,未經(jīng)授權禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。