丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
人工智能 正文
發(fā)私信給camel
發(fā)送

0

XLNet團隊:公平對比,BERT才會知道差距!

本文作者: camel 2019-07-23 14:12
導語:來,讓我們掐架~

雷鋒網按:XLNet發(fā)布之后,在GLUE基準和多個NLP任務中都超越BERT。但幾天前,F(xiàn)acebook研究人員表示BERT如果有更大的數(shù)據(jù),就會重回排行榜第一名。之所以有人對這種超越不服,原因在于BERT在預訓練中只使用了13GB的文本,而XLNet卻使用了126GB。

那么如果使用相同數(shù)據(jù)集進行預訓練,結果會怎樣呢?XLNet團隊為了回應質疑,再次以更公平的方式(相同的配置、相同的數(shù)據(jù))將XLNet與BERT進行對比。如下——


幾周前,我們發(fā)布了新模型XLNet,它在各種基準測試中優(yōu)于BERT。與BERT相比,我們最大的模型相比BERT在訓練中使用了大約10倍的數(shù)據(jù)。為了公平比較,我們在比較時使用了基礎模型架構以及相同的訓練數(shù)據(jù)。

但我們在學術界和工業(yè)界的朋友對XLNet-Large與BERT在相同訓練數(shù)據(jù)下的比較產生較大的興趣。

當然,我們自己也好奇當使用額外數(shù)據(jù)情況下會有什么收益。我們所需要做的就是將我們所擁有的所有數(shù)據(jù)都投入到我們初始版本的訓練中。

我們認為使用大型模型架構和相同數(shù)據(jù)在XLNet 和BERT之間進行公平的比較研究具有重要的科學價值。

一、相同配置

在本研究中,我們確保BERT和XLNet訓練中幾乎所有可能的超參數(shù)都相同。這些超參數(shù)都是有BERT作者發(fā)布的。換句話說,選擇這些超參的目的是為了優(yōu)化BERT,而不是XLNet。具體來講,我們仔細控制了以下的超參:

用于BERT并由BERT作者發(fā)布。換句話說,它們被選擇并且可能針對BERT而不是XLNet進行了優(yōu)化。具體來說,我們仔細控制以下超參數(shù):

  • 相同的批量大小:256

  • 相同數(shù)量的培訓步數(shù):1M

  • 相同的優(yōu)化器:Adam,學習率1e-4,預熱10K,線性衰減

  • 相同的培訓語料庫:Wikipedia + BooksCorpus。我們使用相同的工具來處理維基百科,如BERT repo中所描述的。但由于某些未知原因,我們的Wikipedia語料庫只有2B 的詞,而BERT使用的是2.5B 的詞。因此,XLNet接受了略微少的數(shù)據(jù)訓練。

  • 相同型號的架構參數(shù):24層,1024個隱藏大小,16個heads

  • 相同的微調超參數(shù)搜索空間

此外,我們修改了一些與數(shù)據(jù)相關的實現(xiàn)細節(jié),以便與BERT進行一對一的比較。

在我們之前的實現(xiàn)中,未屏蔽的令牌在預訓練中看不到CLS和SEP。在我們當前的實現(xiàn)中,未屏蔽的令牌確實看到了CLS和SEP,這與BERT一致。

在微調期間,在BERT之后,我們使用“BERT格式”[CLS,A,SEP,B,SEP]而不是[A,SEP,B,SEP,CLS]。

此外,我們考慮BERT的三種變體,并報告每個單獨任務的最佳微調結果。三種變體如下:

  • Model-I:作者發(fā)布的原始BERT

  • Model-II:BERT具有全字掩蔽,也由作者發(fā)布

  • Model-III:由于我們發(fā)現(xiàn)下一句話預測(NSP)可能會影響性能,我們使用已發(fā)布的BERT代碼預先訓練一個新模型,而不會造成NSP損失

請注意,此設置可能會為BERT帶來一些優(yōu)勢,因為可以通過不同的變體獲得單個任務的最佳性能。


二、對比結果

在GLUE和SQuAD上的開發(fā)設置結果和在RACE上的測試集結果如下(沒有使用數(shù)據(jù)擴充、集合或多任務學習):

XLNet團隊:公平對比,BERT才會知道差距!

不同模型的比較。XLNet-Large經過了更多數(shù)據(jù)和更大批量的訓練。對于BERT,我們報告了每個數(shù)據(jù)集的3個變體的最佳微調結果。


三、分析

表中有一些有趣的結果:

  1. 使用幾乎相同的訓練配方,訓練相同的數(shù)據(jù),XLNet在所有數(shù)據(jù)集上都以相當大的優(yōu)勢超越BERT。

  2. 11個基準中有8個,在10倍以上數(shù)據(jù)(比較XLNet-Large-wikibooks和XLNet-Large)的訓練收益小于從BERT切換到XLNet的收益。

  3. 在一些基準測試中,例如CoLA和MRPC,在更多數(shù)據(jù)上訓練模型的性能甚至低于在較少數(shù)據(jù)上訓練模型的性能。

我們相信我們從上述結果中獲得了寶貴的經驗。

XLNet提高了性能。觀察#1與我們早期在基礎模型上的消融研究一致,表明在相同的訓練條件下XLNet優(yōu)于BERT。

XLNet-Large可以更好地進行優(yōu)化。觀察#2和#3似乎表明我們之前發(fā)布的XLNet-Large(經過更多數(shù)據(jù)培訓)沒有充分利用數(shù)據(jù)規(guī)模。因此,我們將繼續(xù)研究如何正確擴展XLNet的語言預訓練。根據(jù)我們目前的(有限的)觀察結果,我們推測以下培訓細節(jié)可能會發(fā)揮重要作用:

  • 數(shù)據(jù)相關:數(shù)據(jù)規(guī)模、數(shù)據(jù)源、數(shù)據(jù)清理、數(shù)據(jù)編碼、數(shù)據(jù)格式化

  • 優(yōu)化相關:學習率(和時間表)、批量大小、培訓步驟數(shù)、優(yōu)化器

  • 重要的是,這些超參數(shù)可能彼此具有高階交互。

Facebook AI最近進入GLUE排行榜似乎也暗示了培訓細節(jié)的重要性。雷鋒網

總之,這項研究更明確地將算法/模型的影響與其他因素(如訓練細節(jié)、大型計算和大數(shù)據(jù))分離開來。根據(jù)結果,我們認為算法和模型至少與其他因素一樣重要。它們很可能都是實現(xiàn)自然語言理解最終目標所必需的。我們將很快用上述新結果更新XLNet的論文。

原文鏈接:https://medium.com/@xlnet.team/a-fair-comparison-study-of-xlnet-and-bert-with-large-models-5a4257f59dc0

雷鋒網報道

雷峰網原創(chuàng)文章,未經授權禁止轉載。詳情見轉載須知。

XLNet團隊:公平對比,BERT才會知道差距!

分享:
相關文章
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說