0
雷鋒網按:XLNet發(fā)布之后,在GLUE基準和多個NLP任務中都超越BERT。但幾天前,F(xiàn)acebook研究人員表示BERT如果有更大的數(shù)據(jù),就會重回排行榜第一名。之所以有人對這種超越不服,原因在于BERT在預訓練中只使用了13GB的文本,而XLNet卻使用了126GB。
那么如果使用相同數(shù)據(jù)集進行預訓練,結果會怎樣呢?XLNet團隊為了回應質疑,再次以更公平的方式(相同的配置、相同的數(shù)據(jù))將XLNet與BERT進行對比。如下——
幾周前,我們發(fā)布了新模型XLNet,它在各種基準測試中優(yōu)于BERT。與BERT相比,我們最大的模型相比BERT在訓練中使用了大約10倍的數(shù)據(jù)。為了公平比較,我們在比較時使用了基礎模型架構以及相同的訓練數(shù)據(jù)。
但我們在學術界和工業(yè)界的朋友對XLNet-Large與BERT在相同訓練數(shù)據(jù)下的比較產生較大的興趣。
當然,我們自己也好奇當使用額外數(shù)據(jù)情況下會有什么收益。我們所需要做的就是將我們所擁有的所有數(shù)據(jù)都投入到我們初始版本的訓練中。
我們認為使用大型模型架構和相同數(shù)據(jù)在XLNet 和BERT之間進行公平的比較研究具有重要的科學價值。
在本研究中,我們確保BERT和XLNet訓練中幾乎所有可能的超參數(shù)都相同。這些超參數(shù)都是有BERT作者發(fā)布的。換句話說,選擇這些超參的目的是為了優(yōu)化BERT,而不是XLNet。具體來講,我們仔細控制了以下的超參:
用于BERT并由BERT作者發(fā)布。換句話說,它們被選擇并且可能針對BERT而不是XLNet進行了優(yōu)化。具體來說,我們仔細控制以下超參數(shù):
相同的批量大小:256
相同數(shù)量的培訓步數(shù):1M
相同的優(yōu)化器:Adam,學習率1e-4,預熱10K,線性衰減
相同的培訓語料庫:Wikipedia + BooksCorpus。我們使用相同的工具來處理維基百科,如BERT repo中所描述的。但由于某些未知原因,我們的Wikipedia語料庫只有2B 的詞,而BERT使用的是2.5B 的詞。因此,XLNet接受了略微少的數(shù)據(jù)訓練。
相同型號的架構參數(shù):24層,1024個隱藏大小,16個heads
相同的微調超參數(shù)搜索空間
此外,我們修改了一些與數(shù)據(jù)相關的實現(xiàn)細節(jié),以便與BERT進行一對一的比較。
在我們之前的實現(xiàn)中,未屏蔽的令牌在預訓練中看不到CLS和SEP。在我們當前的實現(xiàn)中,未屏蔽的令牌確實看到了CLS和SEP,這與BERT一致。
在微調期間,在BERT之后,我們使用“BERT格式”[CLS,A,SEP,B,SEP]而不是[A,SEP,B,SEP,CLS]。
此外,我們考慮BERT的三種變體,并報告每個單獨任務的最佳微調結果。三種變體如下:
Model-I:作者發(fā)布的原始BERT
Model-II:BERT具有全字掩蔽,也由作者發(fā)布
Model-III:由于我們發(fā)現(xiàn)下一句話預測(NSP)可能會影響性能,我們使用已發(fā)布的BERT代碼預先訓練一個新模型,而不會造成NSP損失
請注意,此設置可能會為BERT帶來一些優(yōu)勢,因為可以通過不同的變體獲得單個任務的最佳性能。
在GLUE和SQuAD上的開發(fā)設置結果和在RACE上的測試集結果如下(沒有使用數(shù)據(jù)擴充、集合或多任務學習):
不同模型的比較。XLNet-Large經過了更多數(shù)據(jù)和更大批量的訓練。對于BERT,我們報告了每個數(shù)據(jù)集的3個變體的最佳微調結果。
表中有一些有趣的結果:
使用幾乎相同的訓練配方,訓練相同的數(shù)據(jù),XLNet在所有數(shù)據(jù)集上都以相當大的優(yōu)勢超越BERT。
11個基準中有8個,在10倍以上數(shù)據(jù)(比較XLNet-Large-wikibooks和XLNet-Large)的訓練收益小于從BERT切換到XLNet的收益。
在一些基準測試中,例如CoLA和MRPC,在更多數(shù)據(jù)上訓練模型的性能甚至低于在較少數(shù)據(jù)上訓練模型的性能。
我們相信我們從上述結果中獲得了寶貴的經驗。
XLNet提高了性能。觀察#1與我們早期在基礎模型上的消融研究一致,表明在相同的訓練條件下XLNet優(yōu)于BERT。
XLNet-Large可以更好地進行優(yōu)化。觀察#2和#3似乎表明我們之前發(fā)布的XLNet-Large(經過更多數(shù)據(jù)培訓)沒有充分利用數(shù)據(jù)規(guī)模。因此,我們將繼續(xù)研究如何正確擴展XLNet的語言預訓練。根據(jù)我們目前的(有限的)觀察結果,我們推測以下培訓細節(jié)可能會發(fā)揮重要作用:
數(shù)據(jù)相關:數(shù)據(jù)規(guī)模、數(shù)據(jù)源、數(shù)據(jù)清理、數(shù)據(jù)編碼、數(shù)據(jù)格式化
優(yōu)化相關:學習率(和時間表)、批量大小、培訓步驟數(shù)、優(yōu)化器
重要的是,這些超參數(shù)可能彼此具有高階交互。
Facebook AI最近進入GLUE排行榜似乎也暗示了培訓細節(jié)的重要性。雷鋒網
總之,這項研究更明確地將算法/模型的影響與其他因素(如訓練細節(jié)、大型計算和大數(shù)據(jù))分離開來。根據(jù)結果,我們認為算法和模型至少與其他因素一樣重要。它們很可能都是實現(xiàn)自然語言理解最終目標所必需的。我們將很快用上述新結果更新XLNet的論文。
雷鋒網報道
雷峰網原創(chuàng)文章,未經授權禁止轉載。詳情見轉載須知。