開源|谷歌發(fā)布最新“天馬”模型，自動生成文本摘要已超越人類！

本文作者：貝爽

2020-06-16 22:57

導(dǎo)語：僅1000個樣本數(shù)據(jù)，即可達(dá)到SOTA性能

我們知道，Transfromer在處理長序列文本方面比CNN/RNN表現(xiàn)更為出色，因此，最強(qiáng)大的預(yù)訓(xùn)練模型，如BERT、GPT均采用的是Transfromer基礎(chǔ)架構(gòu)。而且事實(shí)證明，在處理諸如機(jī)器翻譯、文本摘要、語音識別、問答系統(tǒng)等多種語言任務(wù)時，只需進(jìn)行微調(diào)，即可達(dá)到SOTA性能。

但是，Transfromer的自監(jiān)督目標(biāo)（self-supervised）更偏通用性，與下游語言任務(wù)聯(lián)系性不強(qiáng)，也就是說它不知道下游執(zhí)行的是機(jī)器翻譯，還是文本摘要。如果自監(jiān)督目標(biāo)能夠與下游任務(wù)建立緊密聯(lián)系，那么，微調(diào)性能會更好。

基于這樣的目的，Google AI團(tuán)隊(duì)研發(fā)出了PEGASU（天馬）模型。

開源|谷歌發(fā)布最新“天馬”模型，自動生成文本摘要已超越人類！

基于Transfromer編/譯碼器的天馬架構(gòu)

結(jié)果出人意料，研究發(fā)現(xiàn)“天馬”模型不僅表現(xiàn)出了卓越的性能，而且在小樣本數(shù)據(jù)下，能夠達(dá)到同樣的效果，極大地優(yōu)化了訓(xùn)練效率，降低了數(shù)據(jù)成本。

目前，這項(xiàng)研究的論文《PEGASUS：Pre-training with Extracted Gap-sentence for Abstractive Summarization》已經(jīng)發(fā)表在預(yù)印論文庫arXiv上，而且被ICML國際機(jī)器學(xué)習(xí)大會收錄。

從“間隙句子”到文本摘要，小樣本性能更佳

研究人員假設(shè)，預(yù)訓(xùn)練目標(biāo)越接近下游任務(wù)，微調(diào)的性能越好。為此，他們設(shè)定下游語言任務(wù)為“提取文本摘要”，而預(yù)訓(xùn)練目標(biāo)為“生成間隙句子”（Gap Sentences Generation）。研究人員在輸入文檔中刪除一些完整句子，天馬模型的任務(wù)就是恢復(fù)他們。如果輸出結(jié)果中能夠呈現(xiàn)被刪掉的句子，即表示與下游任務(wù)建立了聯(lián)系，即生成了GSG。如下圖所示：

開源|谷歌發(fā)布最新“天馬”模型，自動生成文本摘要已超越人類！

這個過程就像我們做填空題一樣。研究人員表示，這項(xiàng)看似人類都無法完成的任務(wù)真的實(shí)現(xiàn)了。而且他們發(fā)現(xiàn)越是刪除一些“重要”的句子，試驗(yàn)的效果越好。

基于此，他們在12個下游摘要數(shù)據(jù)集上對模型進(jìn)行了微調(diào)，結(jié)果顯示預(yù)訓(xùn)練后的輸出示例與微調(diào)摘要非常相似，而且這一結(jié)果經(jīng)過了ROUGE標(biāo)準(zhǔn)測試。ROUGE通過N元語法重疊來計(jì)算兩個文本的相似度。

另外，這些數(shù)據(jù)集十分豐富，包含文章，科學(xué)論文，專利，短篇小說，電子郵件，法律文件和使用說明，等，這說明天馬模型在選擇文本主題上方面并沒有局限性。

更令人驚奇的是，研究人員發(fā)現(xiàn)天馬模型在小樣本數(shù)據(jù)集中同樣表現(xiàn)出了卓越的性能。以下是研究人員選定4個數(shù)據(jù)集后，ROUGE得分與監(jiān)督樣本數(shù)量的關(guān)系。（虛線表示具有全監(jiān)督但沒有預(yù)訓(xùn)練的Transformer編解碼器性能。）

開源|谷歌發(fā)布最新“天馬”模型，自動生成文本摘要已超越人類！

可以看出，僅1000個微調(diào)示例，天馬模型已經(jīng)有了非常好的性能表現(xiàn)，而且高于未經(jīng)訓(xùn)練的示例（虛線）。這一結(jié)果，表明天馬模型在優(yōu)化性能的同時，可以極大的降低數(shù)據(jù)使用的成本，同時提高了訓(xùn)練效率。

超越人類的性能表現(xiàn)

為了確保實(shí)驗(yàn)結(jié)果的準(zhǔn)確性，除了ROUGE標(biāo)準(zhǔn)的衡量外，研究人員還采取了人工評估的方法。即將實(shí)驗(yàn)后的摘要與人類撰寫的摘要進(jìn)行對比。這類似于圖靈測試。

研究人員采用了3個不同的數(shù)據(jù)集，評分者在進(jìn)行優(yōu)劣判斷時，并不知道哪一個是人類的，最終結(jié)果顯示評分者并不總是喜歡人類編寫的摘要。

開源|谷歌發(fā)布最新“天馬”模型，自動生成文本摘要已超越人類！

而且，從XSum、CNN /Daily Mail和Reddit TIFU這三個數(shù)據(jù)集中可以看出，僅訓(xùn)練1000個示例同樣達(dá)到了超越人類的水平，再次印證天馬模型在小樣本下的性能優(yōu)勢。

開源|谷歌發(fā)布最新“天馬”模型，自動生成文本摘要已超越人類！

不過，雖然經(jīng)天馬模型預(yù)訓(xùn)練后的性能表現(xiàn)能夠與人類相媲美，它還是會存在失誤。比如研究人員就以下文本進(jìn)行了預(yù)訓(xùn)練。XSum數(shù)據(jù)集中的這篇示例全文沒有提到數(shù)字“4”，但是在文本提取中，天馬能夠抽象出文本摘要“No proposals have been submitted to preserve four Royal Navy frigates for reuse, the BBC has learned.”，而且從2-5都是如此。

開源|谷歌發(fā)布最新“天馬”模型，自動生成文本摘要已超越人類！