丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能 正文
發(fā)私信給AI研習(xí)社-譯站
發(fā)送

0

NLP 研究靈感庫

本文作者: AI研習(xí)社-譯站 2018-06-08 11:32
導(dǎo)語:為你提供快樂研究的源泉

雷鋒網(wǎng)按:本文為雷鋒字幕組編譯的研究博客,原標(biāo)題 Requests for research ,作者 NLP PHD Sebastian Ruder avatar。

翻譯 | 趙朋飛、姚秀清、程思婕  整理 | 吳璇

插播一則小廣告:NLP領(lǐng)域的C位課程,斯坦福CS224n正在AI慕課學(xué)院持續(xù)更新中,無限次免費觀看!

目錄

NLP 中任務(wù)無關(guān)的數(shù)據(jù)增強

NLP 中的少量學(xué)習(xí)

NLP 中的遷移學(xué)習(xí)

多任務(wù)學(xué)習(xí)

跨語言學(xué)習(xí)

任務(wù)無關(guān)的架構(gòu)優(yōu)化

當(dāng)你開始進入新的研究領(lǐng)域時,很難找到有價值的選題,也很難知道哪些問題是有趣的。如今,機器學(xué)習(xí)研究進展如此之快,就更難找到新的選題了。

寫這篇文章是為初級研究人員或希望從事研究工作的人員提供靈感和研究方向。文章中收集了我認為有趣的研究課題,主要關(guān)注 NLP 和遷移學(xué)習(xí)。當(dāng)然,這些課題可能并不是所有人都感興趣。如果你對強化學(xué)習(xí)感興趣,OpenAI 提供了一系列有趣的以強化學(xué)習(xí)為中心的研究課題。如果你想與他人合作或?qū)Ω鼜V泛的課題感興趣,不妨看看人工智能開放網(wǎng)絡(luò)。

大多數(shù)選題還沒有被研究過;在很多情況下,概況描述都是非常模糊和主觀的,許多方向都充滿著可能性。另外,這些課題并不是唾手可得的,要給出解決方案的話需要付出很大的努力。我很高興可以提供這方面的反饋,但是沒有時間提供更多的細節(jié)指導(dǎo),除非你有一個可行的概念證明。我將對文章中列出的研究方向和進展定期更新。請注意,文章中收集的內(nèi)容并不是試圖回顧大量的文獻,只是為了初步了解這些課題。因此,這些引用并不全面。

我希望收集的這些內(nèi)容能激發(fā)你的興趣,并為你自己的研究內(nèi)容提供靈感。

NLP 中任務(wù)無關(guān)的數(shù)據(jù)增強

數(shù)據(jù)增強是通過增加現(xiàn)有訓(xùn)練實例的變化來擴展訓(xùn)練數(shù)據(jù)集,比如通過各種變換(它可以反應(yīng)真實世界遇到得的情形)。在計算機視覺(CV)中,常用的增強技術(shù)有鏡像、隨機裁剪和剪切等。數(shù)據(jù)增強技術(shù)在計算機視覺中超級有用。例如,它已經(jīng)在 AlexNet(Krizhevsky 等,2012)[ 1 ]中被廣泛應(yīng)用于對抗過度擬合,同時也應(yīng)用于各種先進的模型中。另外,數(shù)據(jù)增強具有非常直觀的意義,它增加了數(shù)據(jù)的多樣性,并增強了模型的泛化能力。

然而,在 NLP 中,數(shù)據(jù)增強技術(shù)并沒有被廣泛使用,在我看來,有兩個原因:

NLP 中的數(shù)據(jù)是離散的。這阻礙了我們直接對輸入數(shù)據(jù)進行簡單的轉(zhuǎn)換。目前在 CV 中推薦的大部分增強方法都是集中在這些轉(zhuǎn)換,例如,域隨機化 (Tobin 等,2017) [2]。

微小的擾動可能改變其含義。刪除一個否定可能會改變一個句子的觀點,而在段落中修改一個詞可能會在無意中改變關(guān)于那一段問題的答案。在 CV 中不會有這樣的問題,單獨改變一個像素并不會改變一副圖像是只狗還是貓,有時甚至插入不同的圖像是很有用的。(Zhang 等,2017) [3]。

我所知道的現(xiàn)有方法要么是基于規(guī)則的 (Li 等,2017) [5],要么是基于任務(wù)的。例如,解析 (Wang and Eisner, 2016) [6],或者 zero-pronoun 方法 (Liu 等,2017) [7]。Xie 等 (2017) [39] 用來自不同版本的樣本做單詞替換,用于語言建模和機器翻譯。最近的研究重點是通過替換單詞或字符來創(chuàng)建反例 (Samanta and Mehta, 2017; Ebrahimi 等,2017) [8, 9],連接 (Jia and Liang,2017) [11],或增加反例干擾 (Yasunaga 等,2017) [10]。創(chuàng)建反例也同樣被 Li 等人 (2017) [16] 使用,他們訓(xùn)練了一個系統(tǒng)來產(chǎn)生與人類對話語言難以區(qū)分的序列。

回譯(Back-translation)(Sennrich 等,2015;Sennrich 等,2016) [12, 13] 是機器翻譯(MT)經(jīng)常使用的數(shù)據(jù)增強方法,這使我們能夠引入單語訓(xùn)練數(shù)據(jù)。例如,當(dāng)訓(xùn)練英語 →→ 法語系統(tǒng)時,使用法語→→ 英語系統(tǒng),將單語法語文本翻譯成英語;然后,合成的并行數(shù)據(jù)可以用于訓(xùn)練。回譯也可以用于釋義(Mallinson 等,2017)[14]。釋義已被用于問題回答中的數(shù)據(jù)增強,但我還不知道其是否被應(yīng)用于其他任務(wù)。

另一種與釋義相近的方法是在連續(xù)空間使用變分自動編碼器生成句子。(Bowman 等,2016; Guu 等,2017)[17, 19]。如過像 Hu 等人 [18] 所表述的那樣,那么我們也離風(fēng)格遷移不遠了。

下面這些有趣的方向很值得研究:

評估研究:評估一系列現(xiàn)有的數(shù)據(jù)增強方法,以及那些沒有被廣泛應(yīng)用的技術(shù),例如在包括文本分類和序列標(biāo)簽等各種任務(wù)的解釋和樣式轉(zhuǎn)移。確定哪些類型的數(shù)據(jù)增強在多任務(wù)間都是穩(wěn)定的,哪些是用于特定于任務(wù)的。這些可以封裝成軟件庫的形式,方便將來使用 ( 可以考慮 NLP 中的 CleverHans )。

風(fēng)格遷移的數(shù)據(jù)增強: 研究是否可以使用風(fēng)格遷移來修改訓(xùn)練樣本的各種屬性,以獲得更穩(wěn)定的學(xué)習(xí)。

學(xué)習(xí)數(shù)據(jù)增強: 與 Dong 等人(2017)相似,我們可以學(xué)習(xí)為一個特定的任務(wù)進行解釋或為其生成轉(zhuǎn)換。

學(xué)習(xí)數(shù)據(jù)增強的單詞嵌入空間 : 一個典型的單詞嵌入空間將同義詞和反義詞結(jié)合在一起,在這個空間中,使用最近的鄰居進行替換是最不可行的。受到最近研究的啟發(fā) (Mrk?i?等,2017) [21],我們可以將單詞嵌入空間進行專門研究,以更加適合于數(shù)據(jù)增強。

反例數(shù)據(jù)增強:與最近的可解釋性方面的研究相關(guān)(Ribeiro et al., 2016)[22],我們可以改變一個例子中最突出的詞,即模型所依賴用于進行預(yù)測的那些單詞。然而,這仍然需要一個保留語義的替換方法。

NLP 的少量學(xué)習(xí)

零次學(xué)習(xí)(Zero-shot)、一次學(xué)習(xí)(one-shot)和少量學(xué)習(xí)(few-shot)是最近 IMO 最有意思的研究方向之一。根據(jù) Vinyals 等人 (2016) [4] 的見解,少量學(xué)習(xí)模型應(yīng)該進行明確的訓(xùn)練以執(zhí)行少量學(xué)習(xí)任務(wù),我們已經(jīng)看到最近有很多進展(Ravi and Larochelle,2017;Snell 等 2017)[23, 24]。

從少量標(biāo)記過的樣本中學(xué)習(xí)是一個困難的問題,也是將當(dāng)前的 ML 模型與更普遍適用的系統(tǒng)分離開來的核心功能之一。據(jù)我所知,零次學(xué)習(xí)只在有未知單詞嵌入的上下文學(xué)習(xí)中研究過。無數(shù)據(jù)分類(Song and Roth,2014;Song et al., 2016)[25, 26] 是一個有趣的研究方向,在一個聯(lián)合空間中融合了標(biāo)簽和文檔,但需要有良好表述的可解釋性標(biāo)簽。

潛在的研究方向如下:

標(biāo)準(zhǔn)化基準(zhǔn):為 NLP 的少量學(xué)習(xí)創(chuàng)建標(biāo)準(zhǔn)化基準(zhǔn)。Vinyals 等人(2016)為 Penn Treebank 引入了一次性語言建模任務(wù)。這個任務(wù)雖然很有用,但對 CV 基準(zhǔn)測試的廣泛評估卻沒有多大幫助,并且沒有太多的使用 AFAIK。NLP 的少量學(xué)習(xí)基準(zhǔn)應(yīng)該包含大量的分類,并提供標(biāo)準(zhǔn)化的重復(fù)性分割。好的候選任務(wù)將是主題分類或細粒度的實體識別。

評估研究:創(chuàng)建這樣一個基準(zhǔn)后,下一步是評估現(xiàn)有的 CV 少量學(xué)習(xí)(few-shot learning)模型是否對 NLP 適用。

新的 NLP 方法:給定一個基準(zhǔn)數(shù)據(jù)集和一個經(jīng)驗性評估研究,然后我們開始為 NLP 開發(fā)用于執(zhí)行少量學(xué)習(xí)(few-shot learning)的新方法。

NLP 遷移學(xué)習(xí)

遷移學(xué)習(xí)對計算機視覺(CV)產(chǎn)生了巨大影響,并大大降低了人們想利用 CV 算法去解決實際問題的學(xué)習(xí)門檻。CV 從業(yè)者不再需要為每項新任務(wù)執(zhí)行額外的特征工程,而僅僅只需要通過少量示例代碼來對大型數(shù)據(jù)集上預(yù)先訓(xùn)練好的模型進行微調(diào)。

然而,在 NLP 中,到目前為止我們只通過預(yù)訓(xùn)練嵌入(embedding)的方式來預(yù)訓(xùn)練模型的第一層。最新的方法(Peters 等,2017,2018)[31, 32] 增加了預(yù)訓(xùn)練語言模型嵌入(language model embeddding),但這些方法任然需要針對每項任務(wù)來定制架構(gòu)。在我看來,為了釋放 NLP 遷移學(xué)習(xí)的真正潛力,我們需要預(yù)訓(xùn)練整個模型并在目標(biāo)任務(wù)上對其進行微調(diào),類似于微調(diào)的 ImageNet 模型。例如,語言建模是預(yù)訓(xùn)練和 NLP 將 ImageNet 分類歸類到 CV 的一項重要任務(wù)(Howard 和 Ruder,2018)[33] 。

有如下本文中描述的潛在研究方向: 

識別有用的預(yù)訓(xùn)練任務(wù):選擇訓(xùn)練任務(wù)是非常重要的,因為即使對相關(guān)任務(wù)的模型進行微調(diào)也許只能提供有限的成功(Mou 等,2016)[38] 。其他一些任務(wù),如近期關(guān)于學(xué)習(xí)通用句子嵌入的研究(Conneau 等,2017;Subramanian 等,2018;Nie 等,2017)[34, 35,40] 可能是對語言模型預(yù)訓(xùn)練的補充或適合于其他目標(biāo)任務(wù)。

微調(diào)復(fù)雜的體系結(jié)構(gòu):當(dāng)模型可以應(yīng)用于多目標(biāo)任務(wù)時,預(yù)訓(xùn)練是最有用的。然而,對于如何預(yù)訓(xùn)練更復(fù)雜的體系結(jié)構(gòu),如用于配對分類任務(wù)(pairwise classification task)(Augenstein 等,2018)或推理任務(wù)(reasoning task),如 QA 或閱讀理解,仍然不是很清楚。

多任務(wù)學(xué)習(xí)

多任務(wù)學(xué)習(xí)(MTL)在 NLP 中已經(jīng)變得越來越常用。然而,我們始終還是不知道多任務(wù)學(xué)習(xí)是如何落地的。

MTL 的主要問題產(chǎn)生了許多有趣的研究方向:

確定有效的輔助任務(wù):主要問題之一是哪些任務(wù)對多任務(wù)學(xué)習(xí)有用。標(biāo)簽熵已被成功證明為 MTL 的預(yù)測指標(biāo)(Alonso 和 Plank,2017)[28] ,但這并不能說明什么。在最近的工作中(Augenstein 等,2018)[27] ,我們發(fā)現(xiàn)具有更多數(shù)據(jù)和更細粒度標(biāo)簽的輔助任務(wù)更有用。我們期望未來的 MTL 論文不僅能提出新的模型或輔助任務(wù),而且還還試圖去理解為什么某個輔助任務(wù)可能比另一個緊密相關(guān)的任務(wù)更好。

硬參數(shù)共享的替代方案:硬參數(shù)共享仍然是 MTL 的默認操作方式,但是該方法為了用相同的參數(shù)去壓縮屬于不同任務(wù)的相關(guān)知識,便對模型加上了很強的約束,結(jié)果是提升了學(xué)習(xí)難度。我們需要更好的和易于使用的 MTL 方法,這些方法可以在許多任務(wù)中可靠地運行。最近提出的,如十字繡裝置(Misra 等,2017;Ruder 等,2017)[29, 30] 和標(biāo)簽嵌入層(Augenstein 等,2018)在這個方向上都是不錯的方法。

人工輔助任務(wù):最好的輔助任務(wù)是針對目標(biāo)任務(wù)來定制的輔助任務(wù),不需要任何其他數(shù)據(jù)。我在此列出了可能的人工輔助任務(wù)列表。然而,目前尚不清楚哪些工作能在多種不同的任務(wù)中可靠地工作,或者哪些變化或特定任務(wù)的修改是有用的。

多語言學(xué)習(xí)

創(chuàng)建跨語言表現(xiàn)良好并可將知識從資源豐富的語言遷移到資源貧乏的語言的模型是 IMO 最重要的研究方向之一。在學(xué)習(xí)將不同語言投影到共享嵌入空間的跨語言表示方面取得了很大進展。參考 Ruder 等。(2017)[36] 進行調(diào)查。

跨語言表示的評估通常是依據(jù)內(nèi)在的相似性基準(zhǔn)或外在的下游任務(wù)(如文本分類)。雖然最新的方法已經(jīng)推進了這些參數(shù)的相關(guān)技術(shù)發(fā)展,但是我們并沒有很好地理解這些方法失敗的任務(wù)或語言,以及如何以與任務(wù)無關(guān)的方式去減少這些失敗,例如,通過注入特定于任務(wù)的約束(Mrk?i? 等,2017)。

獨立任務(wù)的架構(gòu)改進

架構(gòu)體系不斷推陳出新,這些新架構(gòu)超越了當(dāng)前最先進的技術(shù)并針對特定任務(wù)量身定制。我已經(jīng)概述了適用于不同 NLP 任務(wù)的最佳實踐,但是如果沒有在不同任務(wù)中去比較這些架構(gòu),通常很難從專門的體系結(jié)構(gòu)中獲得一些有用的知識并且知道哪些組件在其他環(huán)境中也有用。

Transformer(Vaswani 等,2017)[37] 是一個特別有前途的新模型。雖然完整的模型可能不適合每個任務(wù),但多頭注意(multi-head attention)或基于位置(position-based)的編碼等組件可以構(gòu)建對許多 NLP 任務(wù)都很有用的模塊。

總結(jié)

我希望您已經(jīng)發(fā)現(xiàn)這個研究集方向很有用。如果您有關(guān)于如何解決相關(guān)研究主題的問題、想法或建議,請隨時在下面發(fā)表評論。

參考

  1. Krizhevsky, A., Sutskever, I., & Hinton, G. E. (2012). Imagenet classification with deep convolutional neural networks. In Advances in neural information processing systems (pp. 1097-1105). ?

  2. Tobin, J., Fong, R., Ray, A., Schneider, J., Zaremba, W., & Abbeel, P. (2017). Domain Randomization for Transferring Deep Neural Networks from Simulation to the Real World. arXiv Preprint arXiv:1703.06907. Retrieved from http://arxiv.org/abs/1703.06907 ?

  3. Zhang, H., Cisse, M., Dauphin, Y. N., & Lopez-Paz, D. (2017). mixup: Beyond Empirical Risk Minimization, 1–11. Retrieved from http://arxiv.org/abs/1710.09412 ?

  4. Vinyals, O., Blundell, C., Lillicrap, T., Kavukcuoglu, K., & Wierstra, D. (2016). Matching Networks for One Shot Learning. NIPS 2016. Retrieved from http://arxiv.org/abs/1606.04080 ?

  5. Li, Y., Cohn, T., & Baldwin, T. (2017). Robust Training under Linguistic Adversity. In Proceedings of the 15th Conference of the European Chapter of the Association for Computational Linguistics (Vol. 2, pp. 21–27). ?

  6. Wang, D., & Eisner, J. (2016). The Galactic Dependencies Treebanks: Getting More Data by Synthesizing New Languages. Tacl, 4, 491–505. Retrieved from https://www.transacl.org/ojs/index.php/tacl/article/viewFile/917/212%0Ahttps://transacl.org/ojs/index.php/tacl/article/view/917 ?

  7. Liu, T., Cui, Y., Yin, Q., Zhang, W., Wang, S., & Hu, G. (2017). Generating and Exploiting Large-scale Pseudo Training Data for Zero Pronoun Resolution. In Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (pp. 102–111). ?

  8. Samanta, S., & Mehta, S. (2017). Towards Crafting Text Adversarial Samples. arXiv preprint arXiv:1707.02812. ?

  9. Ebrahimi, J., Rao, A., Lowd, D., & Dou, D. (2017). HotFlip: White-Box Adversarial Examples for NLP. Retrieved from http://arxiv.org/abs/1712.06751 ?

  10. Yasunaga, M., Kasai, J., & Radev, D. (2017). Robust Multilingual Part-of-Speech Tagging via Adversarial Training. In Proceedings of NAACL 2018. Retrieved from http://arxiv.org/abs/1711.04903 ?

  11. Jia, R., & Liang, P. (2017). Adversarial Examples for Evaluating Reading Comprehension Systems. In Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing. ?

  12. Sennrich, R., Haddow, B., & Birch, A. (2015). Improving neural machine translation models with monolingual data. arXiv preprint arXiv:1511.06709. ?

  13. Sennrich, R., Haddow, B., & Birch, A. (2016). Edinburgh neural machine translation systems for wmt 16. arXiv preprint arXiv:1606.02891. ?

  14. Mallinson, J., Sennrich, R., & Lapata, M. (2017). Paraphrasing revisited with neural machine translation. In Proceedings of the 15th Conference of the European Chapter of the Association for Computational Linguistics: Volume 1, Long Papers (Vol. 1, pp. 881-893). ?

  15. Dong, L., Mallinson, J., Reddy, S., & Lapata, M. (2017). Learning to Paraphrase for Question Answering. In Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing. ?

  16. Li, J., Monroe, W., Shi, T., Ritter, A., & Jurafsky, D. (2017). Adversarial Learning for Neural Dialogue Generation. In Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing. Retrieved from http://arxiv.org/abs/1701.06547 ?

  17. Bowman, S. R., Vilnis, L., Vinyals, O., Dai, A. M., Jozefowicz, R., & Bengio, S. (2016). Generating Sentences from a Continuous Space. In Proceedings of the 20th SIGNLL Conference on Computational Natural Language Learning (CoNLL). Retrieved from http://arxiv.org/abs/1511.06349 ?

  18. Hu, Z., Yang, Z., Liang, X., Salakhutdinov, R., & Xing, E. P. (2017). Toward Controlled Generation of Text. In Proceedings of the 34th International Conference on Machine Learning. ?

  19. Guu, K., Hashimoto, T. B., Oren, Y., & Liang, P. (2017). Generating Sentences by Editing Prototypes. ?

  20. Shen, T., Lei, T., Barzilay, R., & Jaakkola, T. (2017). Style Transfer from Non-Parallel Text by Cross-Alignment. In Advances in Neural Information Processing Systems. Retrieved from http://arxiv.org/abs/1705.09655 ?

  21. Mrk?i?, N., Vuli?, I., Séaghdha, D. ó., Leviant, I., Reichart, R., Ga?i?, M., … Young, S. (2017). Semantic Specialisation of Distributional Word Vector Spaces using Monolingual and Cross-Lingual Constraints. TACL. Retrieved from http://arxiv.org/abs/1706.00374 ?

  22. Ribeiro, M. T., Singh, S., & Guestrin, C. (2016, August). Why should i trust you?: Explaining the predictions of any classifier. In Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (pp. 1135-1144). ACM. ?

  23. Ravi, S., & Larochelle, H. (2017). Optimization as a Model for Few-Shot Learning. In ICLR 2017. ?

  24. Snell, J., Swersky, K., & Zemel, R. S. (2017). Prototypical Networks for Few-shot Learning. In Advances in Neural Information Processing Systems. ?

  25. Song, Y., & Roth, D. (2014). On dataless hierarchical text classification. Proceedings of AAAI, 1579–1585. Retrieved from http://cogcomp.cs.illinois.edu/papers/SongSoRo14.pdf ?

  26. Song, Y., Upadhyay, S., Peng, H., & Roth, D. (2016). Cross-Lingual Dataless Classification for Many Languages. Ijcai, 2901–2907. ?

  27. Augenstein, I., Ruder, S., & S?gaard, A. (2018). Multi-task Learning of Pairwise Sequence Classification Tasks Over Disparate Label Spaces. In Proceedings of NAACL 2018. ?

  28. Alonso, H. M., & Plank, B. (2017). When is multitask learning effective? Multitask learning for semantic sequence prediction under varying data conditions. In EACL. Retrieved from http://arxiv.org/abs/1612.02251 ?

  29. Misra, I., Shrivastava, A., Gupta, A., & Hebert, M. (2016). Cross-stitch Networks for Multi-task Learning. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. http://doi.org/10.1109/CVPR.2016.433 ?

  30. Ruder, S., Bingel, J., Augenstein, I., & S?gaard, A. (2017). Sluice networks: Learning what to share between loosely related tasks. arXiv preprint arXiv:1705.08142. ?

  31. Peters, M. E., Ammar, W., Bhagavatula, C., & Power, R. (2017). Semi-supervised sequence tagging with bidirectional language models. In Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (ACL 2017). ?

  32. Peters, M. E., Neumann, M., Iyyer, M., Gardner, M., Clark, C., Lee, K., & Zettlemoyer, L. (2018). Deep contextualized word representations. Proceedings of NAACL. ?

  33. Howard, J., & Ruder, S. (2018). Fine-tuned Language Models for Text Classification. arXiv preprint arXiv:1801.06146. ?

  34. Conneau, A., Kiela, D., Schwenk, H., Barrault, L., & Bordes, A. (2017). Supervised Learning of Universal Sentence Representations from Natural Language Inference Data. In Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing. ?

  35. Subramanian, S., Trischler, A., Bengio, Y., & Pal, C. J. (2018). Learning General Purpose Distributed Sentence Representations via Large Scale Multi-task Learning. In Proceedings of ICLR 2018. ?

  36. Ruder, S., Vuli?, I., & S?gaard, A. (2017). A Survey of Cross-lingual Word Embedding Models. arXiv Preprint arXiv:1706.04902. Retrieved from http://arxiv.org/abs/1706.04902 ?

  37. Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., … Polosukhin, I. (2017). Attention Is All You Need. In Advances in Neural Information Processing Systems. ?

  38. Mou, L., Meng, Z., Yan, R., Li, G., Xu, Y., Zhang, L., & Jin, Z. (2016). How Transferable are Neural Networks in NLP Applications? Proceedings of 2016 Conference on Empirical Methods in Natural Language Processing. ?

  39. Xie, Z., Wang, S. I., Li, J., Levy, D., Nie, A., Jurafsky, D., & Ng, A. Y. (2017). Data Noising as Smoothing in Neural Network Language Models. In Proceedings of ICLR 2017. ?

  40. Nie, A., Bennett, E. D., & Goodman, N. D. (2017). DisSent: Sentence Representation Learning from Explicit Discourse Relations. arXiv Preprint arXiv:1710.04334. Retrieved from http://arxiv.org/abs/1710.04334 ?

來源 http://ruder.io/requests-for-research/

NLP 研究靈感庫

雷鋒網(wǎng)雷鋒網(wǎng)


雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

NLP 研究靈感庫

分享:
相關(guān)文章

知情人士

AI研習(xí)社(yanxishe.com)譯站頻道,傳播前沿人工智能知識,讓語言不再成為學(xué)習(xí)知識的門檻。(原雷鋒字幕組)
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說