丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給AI研習(xí)社-譯站
發(fā)送

0

NLP 研究靈感庫(kù)

本文作者: AI研習(xí)社-譯站 2018-06-08 11:32
導(dǎo)語(yǔ):為你提供快樂(lè)研究的源泉

雷鋒網(wǎng)按:本文為雷鋒字幕組編譯的研究博客,原標(biāo)題 Requests for research ,作者 NLP PHD Sebastian Ruder avatar。

翻譯 | 趙朋飛、姚秀清、程思婕  整理 | 吳璇

插播一則小廣告:NLP領(lǐng)域的C位課程,斯坦福CS224n正在AI慕課學(xué)院持續(xù)更新中,無(wú)限次免費(fèi)觀看!

目錄

NLP 中任務(wù)無(wú)關(guān)的數(shù)據(jù)增強(qiáng)

NLP 中的少量學(xué)習(xí)

NLP 中的遷移學(xué)習(xí)

多任務(wù)學(xué)習(xí)

跨語(yǔ)言學(xué)習(xí)

任務(wù)無(wú)關(guān)的架構(gòu)優(yōu)化

當(dāng)你開(kāi)始進(jìn)入新的研究領(lǐng)域時(shí),很難找到有價(jià)值的選題,也很難知道哪些問(wèn)題是有趣的。如今,機(jī)器學(xué)習(xí)研究進(jìn)展如此之快,就更難找到新的選題了。

寫(xiě)這篇文章是為初級(jí)研究人員或希望從事研究工作的人員提供靈感和研究方向。文章中收集了我認(rèn)為有趣的研究課題,主要關(guān)注 NLP 和遷移學(xué)習(xí)。當(dāng)然,這些課題可能并不是所有人都感興趣。如果你對(duì)強(qiáng)化學(xué)習(xí)感興趣,OpenAI 提供了一系列有趣的以強(qiáng)化學(xué)習(xí)為中心的研究課題。如果你想與他人合作或?qū)Ω鼜V泛的課題感興趣,不妨看看人工智能開(kāi)放網(wǎng)絡(luò)。

大多數(shù)選題還沒(méi)有被研究過(guò);在很多情況下,概況描述都是非常模糊和主觀的,許多方向都充滿著可能性。另外,這些課題并不是唾手可得的,要給出解決方案的話需要付出很大的努力。我很高興可以提供這方面的反饋,但是沒(méi)有時(shí)間提供更多的細(xì)節(jié)指導(dǎo),除非你有一個(gè)可行的概念證明。我將對(duì)文章中列出的研究方向和進(jìn)展定期更新。請(qǐng)注意,文章中收集的內(nèi)容并不是試圖回顧大量的文獻(xiàn),只是為了初步了解這些課題。因此,這些引用并不全面。

我希望收集的這些內(nèi)容能激發(fā)你的興趣,并為你自己的研究?jī)?nèi)容提供靈感。

NLP 中任務(wù)無(wú)關(guān)的數(shù)據(jù)增強(qiáng)

數(shù)據(jù)增強(qiáng)是通過(guò)增加現(xiàn)有訓(xùn)練實(shí)例的變化來(lái)擴(kuò)展訓(xùn)練數(shù)據(jù)集,比如通過(guò)各種變換(它可以反應(yīng)真實(shí)世界遇到得的情形)。在計(jì)算機(jī)視覺(jué)(CV)中,常用的增強(qiáng)技術(shù)有鏡像、隨機(jī)裁剪和剪切等。數(shù)據(jù)增強(qiáng)技術(shù)在計(jì)算機(jī)視覺(jué)中超級(jí)有用。例如,它已經(jīng)在 AlexNet(Krizhevsky 等,2012)[ 1 ]中被廣泛應(yīng)用于對(duì)抗過(guò)度擬合,同時(shí)也應(yīng)用于各種先進(jìn)的模型中。另外,數(shù)據(jù)增強(qiáng)具有非常直觀的意義,它增加了數(shù)據(jù)的多樣性,并增強(qiáng)了模型的泛化能力。

然而,在 NLP 中,數(shù)據(jù)增強(qiáng)技術(shù)并沒(méi)有被廣泛使用,在我看來(lái),有兩個(gè)原因:

NLP 中的數(shù)據(jù)是離散的。這阻礙了我們直接對(duì)輸入數(shù)據(jù)進(jìn)行簡(jiǎn)單的轉(zhuǎn)換。目前在 CV 中推薦的大部分增強(qiáng)方法都是集中在這些轉(zhuǎn)換,例如,域隨機(jī)化 (Tobin 等,2017) [2]。

微小的擾動(dòng)可能改變其含義。刪除一個(gè)否定可能會(huì)改變一個(gè)句子的觀點(diǎn),而在段落中修改一個(gè)詞可能會(huì)在無(wú)意中改變關(guān)于那一段問(wèn)題的答案。在 CV 中不會(huì)有這樣的問(wèn)題,單獨(dú)改變一個(gè)像素并不會(huì)改變一副圖像是只狗還是貓,有時(shí)甚至插入不同的圖像是很有用的。(Zhang 等,2017) [3]。

我所知道的現(xiàn)有方法要么是基于規(guī)則的 (Li 等,2017) [5],要么是基于任務(wù)的。例如,解析 (Wang and Eisner, 2016) [6],或者 zero-pronoun 方法 (Liu 等,2017) [7]。Xie 等 (2017) [39] 用來(lái)自不同版本的樣本做單詞替換,用于語(yǔ)言建模和機(jī)器翻譯。最近的研究重點(diǎn)是通過(guò)替換單詞或字符來(lái)創(chuàng)建反例 (Samanta and Mehta, 2017; Ebrahimi 等,2017) [8, 9],連接 (Jia and Liang,2017) [11],或增加反例干擾 (Yasunaga 等,2017) [10]。創(chuàng)建反例也同樣被 Li 等人 (2017) [16] 使用,他們訓(xùn)練了一個(gè)系統(tǒng)來(lái)產(chǎn)生與人類(lèi)對(duì)話語(yǔ)言難以區(qū)分的序列。

回譯(Back-translation)(Sennrich 等,2015;Sennrich 等,2016) [12, 13] 是機(jī)器翻譯(MT)經(jīng)常使用的數(shù)據(jù)增強(qiáng)方法,這使我們能夠引入單語(yǔ)訓(xùn)練數(shù)據(jù)。例如,當(dāng)訓(xùn)練英語(yǔ) →→ 法語(yǔ)系統(tǒng)時(shí),使用法語(yǔ)→→ 英語(yǔ)系統(tǒng),將單語(yǔ)法語(yǔ)文本翻譯成英語(yǔ);然后,合成的并行數(shù)據(jù)可以用于訓(xùn)練?;刈g也可以用于釋義(Mallinson 等,2017)[14]。釋義已被用于問(wèn)題回答中的數(shù)據(jù)增強(qiáng),但我還不知道其是否被應(yīng)用于其他任務(wù)。

另一種與釋義相近的方法是在連續(xù)空間使用變分自動(dòng)編碼器生成句子。(Bowman 等,2016; Guu 等,2017)[17, 19]。如過(guò)像 Hu 等人 [18] 所表述的那樣,那么我們也離風(fēng)格遷移不遠(yuǎn)了。

下面這些有趣的方向很值得研究:

評(píng)估研究:評(píng)估一系列現(xiàn)有的數(shù)據(jù)增強(qiáng)方法,以及那些沒(méi)有被廣泛應(yīng)用的技術(shù),例如在包括文本分類(lèi)和序列標(biāo)簽等各種任務(wù)的解釋和樣式轉(zhuǎn)移。確定哪些類(lèi)型的數(shù)據(jù)增強(qiáng)在多任務(wù)間都是穩(wěn)定的,哪些是用于特定于任務(wù)的。這些可以封裝成軟件庫(kù)的形式,方便將來(lái)使用 ( 可以考慮 NLP 中的 CleverHans )。

風(fēng)格遷移的數(shù)據(jù)增強(qiáng): 研究是否可以使用風(fēng)格遷移來(lái)修改訓(xùn)練樣本的各種屬性,以獲得更穩(wěn)定的學(xué)習(xí)。

學(xué)習(xí)數(shù)據(jù)增強(qiáng): 與 Dong 等人(2017)相似,我們可以學(xué)習(xí)為一個(gè)特定的任務(wù)進(jìn)行解釋或?yàn)槠渖赊D(zhuǎn)換。

學(xué)習(xí)數(shù)據(jù)增強(qiáng)的單詞嵌入空間 : 一個(gè)典型的單詞嵌入空間將同義詞和反義詞結(jié)合在一起,在這個(gè)空間中,使用最近的鄰居進(jìn)行替換是最不可行的。受到最近研究的啟發(fā) (Mrk?i?等,2017) [21],我們可以將單詞嵌入空間進(jìn)行專(zhuān)門(mén)研究,以更加適合于數(shù)據(jù)增強(qiáng)。

反例數(shù)據(jù)增強(qiáng):與最近的可解釋性方面的研究相關(guān)(Ribeiro et al., 2016)[22],我們可以改變一個(gè)例子中最突出的詞,即模型所依賴用于進(jìn)行預(yù)測(cè)的那些單詞。然而,這仍然需要一個(gè)保留語(yǔ)義的替換方法。

NLP 的少量學(xué)習(xí)

零次學(xué)習(xí)(Zero-shot)、一次學(xué)習(xí)(one-shot)和少量學(xué)習(xí)(few-shot)是最近 IMO 最有意思的研究方向之一。根據(jù) Vinyals 等人 (2016) [4] 的見(jiàn)解,少量學(xué)習(xí)模型應(yīng)該進(jìn)行明確的訓(xùn)練以執(zhí)行少量學(xué)習(xí)任務(wù),我們已經(jīng)看到最近有很多進(jìn)展(Ravi and Larochelle,2017;Snell 等 2017)[23, 24]。

從少量標(biāo)記過(guò)的樣本中學(xué)習(xí)是一個(gè)困難的問(wèn)題,也是將當(dāng)前的 ML 模型與更普遍適用的系統(tǒng)分離開(kāi)來(lái)的核心功能之一。據(jù)我所知,零次學(xué)習(xí)只在有未知單詞嵌入的上下文學(xué)習(xí)中研究過(guò)。無(wú)數(shù)據(jù)分類(lèi)(Song and Roth,2014;Song et al., 2016)[25, 26] 是一個(gè)有趣的研究方向,在一個(gè)聯(lián)合空間中融合了標(biāo)簽和文檔,但需要有良好表述的可解釋性標(biāo)簽。

潛在的研究方向如下:

標(biāo)準(zhǔn)化基準(zhǔn):為 NLP 的少量學(xué)習(xí)創(chuàng)建標(biāo)準(zhǔn)化基準(zhǔn)。Vinyals 等人(2016)為 Penn Treebank 引入了一次性語(yǔ)言建模任務(wù)。這個(gè)任務(wù)雖然很有用,但對(duì) CV 基準(zhǔn)測(cè)試的廣泛評(píng)估卻沒(méi)有多大幫助,并且沒(méi)有太多的使用 AFAIK。NLP 的少量學(xué)習(xí)基準(zhǔn)應(yīng)該包含大量的分類(lèi),并提供標(biāo)準(zhǔn)化的重復(fù)性分割。好的候選任務(wù)將是主題分類(lèi)或細(xì)粒度的實(shí)體識(shí)別。

評(píng)估研究:創(chuàng)建這樣一個(gè)基準(zhǔn)后,下一步是評(píng)估現(xiàn)有的 CV 少量學(xué)習(xí)(few-shot learning)模型是否對(duì) NLP 適用。

新的 NLP 方法:給定一個(gè)基準(zhǔn)數(shù)據(jù)集和一個(gè)經(jīng)驗(yàn)性評(píng)估研究,然后我們開(kāi)始為 NLP 開(kāi)發(fā)用于執(zhí)行少量學(xué)習(xí)(few-shot learning)的新方法。

NLP 遷移學(xué)習(xí)

遷移學(xué)習(xí)對(duì)計(jì)算機(jī)視覺(jué)(CV)產(chǎn)生了巨大影響,并大大降低了人們想利用 CV 算法去解決實(shí)際問(wèn)題的學(xué)習(xí)門(mén)檻。CV 從業(yè)者不再需要為每項(xiàng)新任務(wù)執(zhí)行額外的特征工程,而僅僅只需要通過(guò)少量示例代碼來(lái)對(duì)大型數(shù)據(jù)集上預(yù)先訓(xùn)練好的模型進(jìn)行微調(diào)。

然而,在 NLP 中,到目前為止我們只通過(guò)預(yù)訓(xùn)練嵌入(embedding)的方式來(lái)預(yù)訓(xùn)練模型的第一層。最新的方法(Peters 等,2017,2018)[31, 32] 增加了預(yù)訓(xùn)練語(yǔ)言模型嵌入(language model embeddding),但這些方法任然需要針對(duì)每項(xiàng)任務(wù)來(lái)定制架構(gòu)。在我看來(lái),為了釋放 NLP 遷移學(xué)習(xí)的真正潛力,我們需要預(yù)訓(xùn)練整個(gè)模型并在目標(biāo)任務(wù)上對(duì)其進(jìn)行微調(diào),類(lèi)似于微調(diào)的 ImageNet 模型。例如,語(yǔ)言建模是預(yù)訓(xùn)練和 NLP 將 ImageNet 分類(lèi)歸類(lèi)到 CV 的一項(xiàng)重要任務(wù)(Howard 和 Ruder,2018)[33] 。

有如下本文中描述的潛在研究方向: 

識(shí)別有用的預(yù)訓(xùn)練任務(wù):選擇訓(xùn)練任務(wù)是非常重要的,因?yàn)榧词箤?duì)相關(guān)任務(wù)的模型進(jìn)行微調(diào)也許只能提供有限的成功(Mou 等,2016)[38] 。其他一些任務(wù),如近期關(guān)于學(xué)習(xí)通用句子嵌入的研究(Conneau 等,2017;Subramanian 等,2018;Nie 等,2017)[34, 35,40] 可能是對(duì)語(yǔ)言模型預(yù)訓(xùn)練的補(bǔ)充或適合于其他目標(biāo)任務(wù)。

微調(diào)復(fù)雜的體系結(jié)構(gòu):當(dāng)模型可以應(yīng)用于多目標(biāo)任務(wù)時(shí),預(yù)訓(xùn)練是最有用的。然而,對(duì)于如何預(yù)訓(xùn)練更復(fù)雜的體系結(jié)構(gòu),如用于配對(duì)分類(lèi)任務(wù)(pairwise classification task)(Augenstein 等,2018)或推理任務(wù)(reasoning task),如 QA 或閱讀理解,仍然不是很清楚。

多任務(wù)學(xué)習(xí)

多任務(wù)學(xué)習(xí)(MTL)在 NLP 中已經(jīng)變得越來(lái)越常用。然而,我們始終還是不知道多任務(wù)學(xué)習(xí)是如何落地的。

MTL 的主要問(wèn)題產(chǎn)生了許多有趣的研究方向:

確定有效的輔助任務(wù):主要問(wèn)題之一是哪些任務(wù)對(duì)多任務(wù)學(xué)習(xí)有用。標(biāo)簽熵已被成功證明為 MTL 的預(yù)測(cè)指標(biāo)(Alonso 和 Plank,2017)[28] ,但這并不能說(shuō)明什么。在最近的工作中(Augenstein 等,2018)[27] ,我們發(fā)現(xiàn)具有更多數(shù)據(jù)和更細(xì)粒度標(biāo)簽的輔助任務(wù)更有用。我們期望未來(lái)的 MTL 論文不僅能提出新的模型或輔助任務(wù),而且還還試圖去理解為什么某個(gè)輔助任務(wù)可能比另一個(gè)緊密相關(guān)的任務(wù)更好。

硬參數(shù)共享的替代方案:硬參數(shù)共享仍然是 MTL 的默認(rèn)操作方式,但是該方法為了用相同的參數(shù)去壓縮屬于不同任務(wù)的相關(guān)知識(shí),便對(duì)模型加上了很強(qiáng)的約束,結(jié)果是提升了學(xué)習(xí)難度。我們需要更好的和易于使用的 MTL 方法,這些方法可以在許多任務(wù)中可靠地運(yùn)行。最近提出的,如十字繡裝置(Misra 等,2017;Ruder 等,2017)[29, 30] 和標(biāo)簽嵌入層(Augenstein 等,2018)在這個(gè)方向上都是不錯(cuò)的方法。

人工輔助任務(wù):最好的輔助任務(wù)是針對(duì)目標(biāo)任務(wù)來(lái)定制的輔助任務(wù),不需要任何其他數(shù)據(jù)。我在此列出了可能的人工輔助任務(wù)列表。然而,目前尚不清楚哪些工作能在多種不同的任務(wù)中可靠地工作,或者哪些變化或特定任務(wù)的修改是有用的。

多語(yǔ)言學(xué)習(xí)

創(chuàng)建跨語(yǔ)言表現(xiàn)良好并可將知識(shí)從資源豐富的語(yǔ)言遷移到資源貧乏的語(yǔ)言的模型是 IMO 最重要的研究方向之一。在學(xué)習(xí)將不同語(yǔ)言投影到共享嵌入空間的跨語(yǔ)言表示方面取得了很大進(jìn)展。參考 Ruder 等。(2017)[36] 進(jìn)行調(diào)查。

跨語(yǔ)言表示的評(píng)估通常是依據(jù)內(nèi)在的相似性基準(zhǔn)或外在的下游任務(wù)(如文本分類(lèi))。雖然最新的方法已經(jīng)推進(jìn)了這些參數(shù)的相關(guān)技術(shù)發(fā)展,但是我們并沒(méi)有很好地理解這些方法失敗的任務(wù)或語(yǔ)言,以及如何以與任務(wù)無(wú)關(guān)的方式去減少這些失敗,例如,通過(guò)注入特定于任務(wù)的約束(Mrk?i? 等,2017)。

獨(dú)立任務(wù)的架構(gòu)改進(jìn)

架構(gòu)體系不斷推陳出新,這些新架構(gòu)超越了當(dāng)前最先進(jìn)的技術(shù)并針對(duì)特定任務(wù)量身定制。我已經(jīng)概述了適用于不同 NLP 任務(wù)的最佳實(shí)踐,但是如果沒(méi)有在不同任務(wù)中去比較這些架構(gòu),通常很難從專(zhuān)門(mén)的體系結(jié)構(gòu)中獲得一些有用的知識(shí)并且知道哪些組件在其他環(huán)境中也有用。

Transformer(Vaswani 等,2017)[37] 是一個(gè)特別有前途的新模型。雖然完整的模型可能不適合每個(gè)任務(wù),但多頭注意(multi-head attention)或基于位置(position-based)的編碼等組件可以構(gòu)建對(duì)許多 NLP 任務(wù)都很有用的模塊。

總結(jié)

我希望您已經(jīng)發(fā)現(xiàn)這個(gè)研究集方向很有用。如果您有關(guān)于如何解決相關(guān)研究主題的問(wèn)題、想法或建議,請(qǐng)隨時(shí)在下面發(fā)表評(píng)論。

參考

  1. Krizhevsky, A., Sutskever, I., & Hinton, G. E. (2012). Imagenet classification with deep convolutional neural networks. In Advances in neural information processing systems (pp. 1097-1105). ?

  2. Tobin, J., Fong, R., Ray, A., Schneider, J., Zaremba, W., & Abbeel, P. (2017). Domain Randomization for Transferring Deep Neural Networks from Simulation to the Real World. arXiv Preprint arXiv:1703.06907. Retrieved from http://arxiv.org/abs/1703.06907 ?

  3. Zhang, H., Cisse, M., Dauphin, Y. N., & Lopez-Paz, D. (2017). mixup: Beyond Empirical Risk Minimization, 1–11. Retrieved from http://arxiv.org/abs/1710.09412 ?

  4. Vinyals, O., Blundell, C., Lillicrap, T., Kavukcuoglu, K., & Wierstra, D. (2016). Matching Networks for One Shot Learning. NIPS 2016. Retrieved from http://arxiv.org/abs/1606.04080 ?

  5. Li, Y., Cohn, T., & Baldwin, T. (2017). Robust Training under Linguistic Adversity. In Proceedings of the 15th Conference of the European Chapter of the Association for Computational Linguistics (Vol. 2, pp. 21–27). ?

  6. Wang, D., & Eisner, J. (2016). The Galactic Dependencies Treebanks: Getting More Data by Synthesizing New Languages. Tacl, 4, 491–505. Retrieved from https://www.transacl.org/ojs/index.php/tacl/article/viewFile/917/212%0Ahttps://transacl.org/ojs/index.php/tacl/article/view/917 ?

  7. Liu, T., Cui, Y., Yin, Q., Zhang, W., Wang, S., & Hu, G. (2017). Generating and Exploiting Large-scale Pseudo Training Data for Zero Pronoun Resolution. In Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (pp. 102–111). ?

  8. Samanta, S., & Mehta, S. (2017). Towards Crafting Text Adversarial Samples. arXiv preprint arXiv:1707.02812. ?

  9. Ebrahimi, J., Rao, A., Lowd, D., & Dou, D. (2017). HotFlip: White-Box Adversarial Examples for NLP. Retrieved from http://arxiv.org/abs/1712.06751 ?

  10. Yasunaga, M., Kasai, J., & Radev, D. (2017). Robust Multilingual Part-of-Speech Tagging via Adversarial Training. In Proceedings of NAACL 2018. Retrieved from http://arxiv.org/abs/1711.04903 ?

  11. Jia, R., & Liang, P. (2017). Adversarial Examples for Evaluating Reading Comprehension Systems. In Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing. ?

  12. Sennrich, R., Haddow, B., & Birch, A. (2015). Improving neural machine translation models with monolingual data. arXiv preprint arXiv:1511.06709. ?

  13. Sennrich, R., Haddow, B., & Birch, A. (2016). Edinburgh neural machine translation systems for wmt 16. arXiv preprint arXiv:1606.02891. ?

  14. Mallinson, J., Sennrich, R., & Lapata, M. (2017). Paraphrasing revisited with neural machine translation. In Proceedings of the 15th Conference of the European Chapter of the Association for Computational Linguistics: Volume 1, Long Papers (Vol. 1, pp. 881-893). ?

  15. Dong, L., Mallinson, J., Reddy, S., & Lapata, M. (2017). Learning to Paraphrase for Question Answering. In Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing. ?

  16. Li, J., Monroe, W., Shi, T., Ritter, A., & Jurafsky, D. (2017). Adversarial Learning for Neural Dialogue Generation. In Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing. Retrieved from http://arxiv.org/abs/1701.06547 ?

  17. Bowman, S. R., Vilnis, L., Vinyals, O., Dai, A. M., Jozefowicz, R., & Bengio, S. (2016). Generating Sentences from a Continuous Space. In Proceedings of the 20th SIGNLL Conference on Computational Natural Language Learning (CoNLL). Retrieved from http://arxiv.org/abs/1511.06349 ?

  18. Hu, Z., Yang, Z., Liang, X., Salakhutdinov, R., & Xing, E. P. (2017). Toward Controlled Generation of Text. In Proceedings of the 34th International Conference on Machine Learning. ?

  19. Guu, K., Hashimoto, T. B., Oren, Y., & Liang, P. (2017). Generating Sentences by Editing Prototypes. ?

  20. Shen, T., Lei, T., Barzilay, R., & Jaakkola, T. (2017). Style Transfer from Non-Parallel Text by Cross-Alignment. In Advances in Neural Information Processing Systems. Retrieved from http://arxiv.org/abs/1705.09655 ?

  21. Mrk?i?, N., Vuli?, I., Séaghdha, D. ó., Leviant, I., Reichart, R., Ga?i?, M., … Young, S. (2017). Semantic Specialisation of Distributional Word Vector Spaces using Monolingual and Cross-Lingual Constraints. TACL. Retrieved from http://arxiv.org/abs/1706.00374 ?

  22. Ribeiro, M. T., Singh, S., & Guestrin, C. (2016, August). Why should i trust you?: Explaining the predictions of any classifier. In Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (pp. 1135-1144). ACM. ?

  23. Ravi, S., & Larochelle, H. (2017). Optimization as a Model for Few-Shot Learning. In ICLR 2017. ?

  24. Snell, J., Swersky, K., & Zemel, R. S. (2017). Prototypical Networks for Few-shot Learning. In Advances in Neural Information Processing Systems. ?

  25. Song, Y., & Roth, D. (2014). On dataless hierarchical text classification. Proceedings of AAAI, 1579–1585. Retrieved from http://cogcomp.cs.illinois.edu/papers/SongSoRo14.pdf ?

  26. Song, Y., Upadhyay, S., Peng, H., & Roth, D. (2016). Cross-Lingual Dataless Classification for Many Languages. Ijcai, 2901–2907. ?

  27. Augenstein, I., Ruder, S., & S?gaard, A. (2018). Multi-task Learning of Pairwise Sequence Classification Tasks Over Disparate Label Spaces. In Proceedings of NAACL 2018. ?

  28. Alonso, H. M., & Plank, B. (2017). When is multitask learning effective? Multitask learning for semantic sequence prediction under varying data conditions. In EACL. Retrieved from http://arxiv.org/abs/1612.02251 ?

  29. Misra, I., Shrivastava, A., Gupta, A., & Hebert, M. (2016). Cross-stitch Networks for Multi-task Learning. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. http://doi.org/10.1109/CVPR.2016.433 ?

  30. Ruder, S., Bingel, J., Augenstein, I., & S?gaard, A. (2017). Sluice networks: Learning what to share between loosely related tasks. arXiv preprint arXiv:1705.08142. ?

  31. Peters, M. E., Ammar, W., Bhagavatula, C., & Power, R. (2017). Semi-supervised sequence tagging with bidirectional language models. In Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (ACL 2017). ?

  32. Peters, M. E., Neumann, M., Iyyer, M., Gardner, M., Clark, C., Lee, K., & Zettlemoyer, L. (2018). Deep contextualized word representations. Proceedings of NAACL. ?

  33. Howard, J., & Ruder, S. (2018). Fine-tuned Language Models for Text Classification. arXiv preprint arXiv:1801.06146. ?

  34. Conneau, A., Kiela, D., Schwenk, H., Barrault, L., & Bordes, A. (2017). Supervised Learning of Universal Sentence Representations from Natural Language Inference Data. In Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing. ?

  35. Subramanian, S., Trischler, A., Bengio, Y., & Pal, C. J. (2018). Learning General Purpose Distributed Sentence Representations via Large Scale Multi-task Learning. In Proceedings of ICLR 2018. ?

  36. Ruder, S., Vuli?, I., & S?gaard, A. (2017). A Survey of Cross-lingual Word Embedding Models. arXiv Preprint arXiv:1706.04902. Retrieved from http://arxiv.org/abs/1706.04902 ?

  37. Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., … Polosukhin, I. (2017). Attention Is All You Need. In Advances in Neural Information Processing Systems. ?

  38. Mou, L., Meng, Z., Yan, R., Li, G., Xu, Y., Zhang, L., & Jin, Z. (2016). How Transferable are Neural Networks in NLP Applications? Proceedings of 2016 Conference on Empirical Methods in Natural Language Processing. ?

  39. Xie, Z., Wang, S. I., Li, J., Levy, D., Nie, A., Jurafsky, D., & Ng, A. Y. (2017). Data Noising as Smoothing in Neural Network Language Models. In Proceedings of ICLR 2017. ?

  40. Nie, A., Bennett, E. D., & Goodman, N. D. (2017). DisSent: Sentence Representation Learning from Explicit Discourse Relations. arXiv Preprint arXiv:1710.04334. Retrieved from http://arxiv.org/abs/1710.04334 ?

來(lái)源 http://ruder.io/requests-for-research/

NLP 研究靈感庫(kù)

雷鋒網(wǎng)雷鋒網(wǎng)


雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

NLP 研究靈感庫(kù)

分享:
相關(guān)文章

知情人士

AI研習(xí)社(yanxishe.com)譯站頻道,傳播前沿人工智能知識(shí),讓語(yǔ)言不再成為學(xué)習(xí)知識(shí)的門(mén)檻。(原雷鋒字幕組)
當(dāng)月熱門(mén)文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)