0
本文作者: AI研習(xí)社-譯站 | 2020-12-10 10:33 |
譯者:AI研習(xí)社(聽風(fēng)1996、姚晗)
雙語原文鏈接:My Recommendations for Getting Started with NLP
自2013年以來,我一直在研究自然語言處理(NLP),當(dāng)時手動特征工程在機(jī)器學(xué)習(xí)領(lǐng)域非常流行。從那時起,我們已經(jīng)走了很長一段路。我實(shí)際上是為我的博士專門研究信息檢索和機(jī)器學(xué)習(xí)技術(shù)的,尤其是它們?nèi)绾螒?yīng)用于社交計(jì)算和計(jì)算語言學(xué),同時還開發(fā)了從大規(guī)模基于文本的數(shù)據(jù)中高效提取信息的方法。我很幸運(yùn)有將經(jīng)典機(jī)器學(xué)習(xí)應(yīng)用于NLP的經(jīng)驗(yàn),并親眼目睹了該領(lǐng)域深度學(xué)習(xí)的爆炸式增長。
許多學(xué)生一直在要求我為如何開始自然語言處理準(zhǔn)備指南。這篇博客文章旨在根據(jù)研究,對該領(lǐng)域的了解和個人經(jīng)驗(yàn)來幫助他人。盡管這不是直接指南,但我在此處共享的資源可以幫助您根據(jù)需要創(chuàng)建自己的NLP學(xué)習(xí)路徑。這將是我多年來遇到的教育資源的結(jié)合。我將分享我在研究這些資源及其適用方面的經(jīng)驗(yàn)。
這份清單無論如何都不是詳盡無遺的,但是它應(yīng)該提供一些選擇,對于任何有興趣開始使用NLP的人來說都是一個很好的起點(diǎn)。您實(shí)際上并不需要消耗所有內(nèi)容。只需選擇適合您當(dāng)前需求的資源即可。例如,也許您已經(jīng)有了一些理論基礎(chǔ),而您只需要獲得開發(fā)生產(chǎn)中的NLP系統(tǒng)的最佳實(shí)踐。在這種情況下,您可以直接跳至建議,以獲取有關(guān)NLP技術(shù)的動手經(jīng)驗(yàn)。我只是在介紹我個人學(xué)習(xí)過的內(nèi)容,我敢肯定還有很多其他我想念的資源,如果有任何建議,請隨時發(fā)表評論。
by Dan Jurafsky and James H. Martin
學(xué)習(xí)基礎(chǔ)知識對于學(xué)習(xí)任何一門學(xué)科都是至關(guān)重要的。我是非常推崇這一點(diǎn)的,因?yàn)檫@對我來說很有效。我關(guān)注這本書已經(jīng)有一段時間了,現(xiàn)在已經(jīng)是第三版了。這本書所涉及的材料寫得特別好,為NLP提供了一個很好的理論基礎(chǔ)。對于任何想要開始學(xué)習(xí)NLP的人來說,這有可能是一個很好的起點(diǎn)。即使我已經(jīng)讀過這本書,我也會定期回顧它,因?yàn)樗ㄆ诟略擃I(lǐng)域的最新發(fā)展。如果你真的很喜歡這本書,你也會發(fā)現(xiàn)這些講座很有用,因?yàn)樗鼈兇_實(shí)涵蓋了書中所涉及的很多基本主題。
by Emily M. Bender
Emily Bender是我最喜歡的語言學(xué)研究者之一。她的工作對我所從事的研究產(chǎn)生了巨大的影響,使我能夠采用更加嚴(yán)謹(jǐn)?shù)姆椒▉磉M(jìn)行關(guān)于NLP研究。NLP深受語言學(xué)的影響,事實(shí)上,Emily 主張用語言學(xué)的規(guī)則來指導(dǎo)NLP的發(fā)展。她的書為NLP中使用的語言學(xué)概念進(jìn)行了一個精彩的介紹。對于任何從事NLP的學(xué)生來說,這都是一本必讀的書。
Linguistic Structure Prediction
by Noah A. Smith
本書主要介紹自然語言處理與機(jī)器學(xué)習(xí)之間的聯(lián)系,涵蓋了統(tǒng)計(jì),基于計(jì)算方法建模語言結(jié)構(gòu)。本書假定你已經(jīng)對機(jī)器學(xué)習(xí)有一定的接觸。如果你對機(jī)器學(xué)習(xí)不太熟悉,可以在這里查看我做的機(jī)器學(xué)習(xí)推薦列表。建議你至少要做一門機(jī)器學(xué)習(xí)的入門課程,才能最大限度地利用這本書。
Introduction to Natural Language Processing
by Jacob Eisenstein
這是我最喜歡的NLP書籍之一,因?yàn)樗鼘W⒂谟懻撜Z言學(xué)概念和應(yīng)用。它涵蓋了波束搜索、最大似然估計(jì)、矩陣因子化等方法。然后,它解釋了如何利用這些方法來解決廣泛的任務(wù),如分類、詞性標(biāo)注、關(guān)系提取、語言建模等。這本書假定讀者具備多元演算和線性代數(shù)等知識。這本書直接推薦的一本書是《機(jī)器學(xué)習(xí)數(shù)學(xué)》一書。與其他書相比,它是一本更高級的教科書,它確實(shí)需要對機(jī)器學(xué)習(xí)和數(shù)學(xué)概念有所了解。
by Yoav Goldberg
如果你剛剛開始學(xué)習(xí)NLP的旅程,你可能已經(jīng)接觸到NLP中更現(xiàn)代的方法,比如RNN和其他基于深度學(xué)習(xí)的模型。如果您正在尋找關(guān)于神經(jīng)網(wǎng)絡(luò)理論上的全面綜述以及它們?nèi)绾卧贜LP中使用,這本書就是為你準(zhǔn)備的。在本書中找到的參考文獻(xiàn)對我自己的研究起到了重要作用。
Modern Deep Learning Techniques Applied to Natural Language Processing
by Soujanya Poria and Elvis Saravia
關(guān)于NLP的現(xiàn)代方法,我還想推薦我和Soujanya Poria一起整理的這個開放資源。它會引導(dǎo)你了解NLP領(lǐng)域的一些最新發(fā)展,從單詞嵌入到注意力機(jī)制再到強(qiáng)化學(xué)習(xí)。
by Christopher Manning and Abigail See
如果你最近剛開始接觸NLP,你可能已經(jīng)接觸過這門流行的NLP課程。所有的講座和幻燈片都是公開的,你可以在課程網(wǎng)站上找到它。這門課程非常注重NLP的深度學(xué)習(xí)方法,所以你會看到第一講直接從詞向量開始,然后過渡到卷積網(wǎng)絡(luò)和transfomer等更高級的主題。如果你對經(jīng)典的NLP方法感興趣,你可能要看看開頭提到的一本書。事實(shí)上,我強(qiáng)烈建議你這樣做,因?yàn)樗菍?gòu)建實(shí)際NLP系統(tǒng)在實(shí)踐中有用的寶貴知識。
這樣的理論知識很好,但是無論您是NLP研究人員還是工程師,都必須通過動手實(shí)踐對其進(jìn)行補(bǔ)充。我發(fā)現(xiàn)這些書對于在語言建模和基于文本的分類等主題上進(jìn)行練習(xí)非常有用。
by Delip Rao and Brian McMahan
盡管這本書是基于PyTorch的,但用深度學(xué)習(xí)構(gòu)建語言應(yīng)用的實(shí)踐還是很不錯的。此外,還有一些傳統(tǒng)概念和方法的內(nèi)容和代碼,比如TF-IDF和語義,等等。如果你是一名PyTorch開發(fā)人員,你會發(fā)現(xiàn)本書很容易上手。
by Hobson Lane, Cole Howard, and Hannes Hapke
這是另一本特別的書,也是我最喜歡的一本書,可以讓你對所有的NLP進(jìn)行實(shí)戰(zhàn)練習(xí)。這本書指導(dǎo)你如何從語料庫建立第一個詞匯,一直到建立一個聊天機(jī)器人。這本書中有很多代碼示例,所以如果你喜歡敲代碼,它可能很適合你。
Practical Natural Language Processing
by Sowmya Vajjala, Bodhisattwa Majumder, Anuj Gupta, and Harshit Surana
在NLP的動手實(shí)踐,我非常喜歡今年出版的這本書。它涵蓋了從NLP的各種實(shí)際應(yīng)用到部署NLP系統(tǒng)的最佳實(shí)踐等主題。盡管我對這本書只讀了一半,但我還是不得不把它收錄進(jìn)來,因?yàn)橛泻芏郚LP工程師都想熟悉如何更有效地構(gòu)建NLP系統(tǒng),了解構(gòu)建NLP系統(tǒng)所需的技術(shù)。
?? 附錄(獎勵)
這里有一些其他資源和項(xiàng)目,可以幫助你保持對NLP領(lǐng)域的了解。
關(guān)于如何開始對NLP學(xué)習(xí),我的建議就到這里了。重要的是,你要選擇最適合自己的內(nèi)容。我已經(jīng)嘗試為每個條目提供一些解釋,希望能幫助你創(chuàng)建自己的學(xué)習(xí)路徑。這些都是我遇到的最好的資源,我發(fā)現(xiàn)它們對擴(kuò)展我的知識甚至教授這些概念非常有用,更不用說將它們應(yīng)用于研究思路和構(gòu)建從語義搜索引擎到情感分類器的NLP系統(tǒng)了。
AI研習(xí)社是AI學(xué)術(shù)青年和AI開發(fā)者技術(shù)交流的在線社區(qū)。我們與高校、學(xué)術(shù)機(jī)構(gòu)和產(chǎn)業(yè)界合作,通過提供學(xué)習(xí)、實(shí)戰(zhàn)和求職服務(wù),為AI學(xué)術(shù)青年和開發(fā)者的交流互助和職業(yè)發(fā)展打造一站式平臺,致力成為中國最大的科技創(chuàng)新人才聚集地。
如果,你也是位熱愛分享的AI愛好者。歡迎與譯站一起,學(xué)習(xí)新知,分享成長。
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。