OpenAI發(fā)布更大的GPT-2，但濫用風險解決了嗎？

本文作者：栗峰

編輯：楊曉凡

2019-08-26 16:31

導語：那個能從短句續(xù)寫出成篇文章、續(xù)寫故事水平達到人類水準的 AI - OpenAI GPT-2 最近又有新動作了！

雷鋒網(wǎng)AI科技評論按：那個能從短句續(xù)寫出成篇文章、續(xù)寫故事水平達到人類水準的 AI - OpenAI GPT-2 最近又有新動作了！8月21日，OpenAI 公開發(fā)布了大規(guī)模的含有 774M 參數(shù)的預訓練模型、發(fā)布了一份針對這個大小的模型的技術報告，也公布了一些合作進展。GPT-2從今年年初的初次見面到現(xiàn)在，OpenAI都做了些什么呢？

先來回顧一下它創(chuàng)造的輝煌歷史

OpenAI 的 GPT-2 是 GPT 的直接技術升級版，擁有多達 1558M模型參數(shù)，并在多 10 倍的數(shù)據(jù)上進行訓練。訓練數(shù)據(jù)是來自互聯(lián)網(wǎng)的 40GB 高質量語料。

該模型不僅可以根據(jù)給定的文本流暢地續(xù)寫句子，甚至可以形成成篇的文章，就像人類的續(xù)寫文章一樣。雖然還存在一定的問題，例如文字重復，錯誤的世界觀不自然的切換話題等。但在成功的例子中模型生成的文本多樣、全面，對事件的介紹也完全符合邏輯標準，接近人類的表達質量，這已經(jīng)可以說是非常驚人了。拋出一個例子先隨(雷鋒網(wǎng))隨意感受一下。 OpenAI發(fā)布更大的GPT-2，但濫用風險解決了嗎？

由于OpenAI認為這個模型的文本生成能力太強，所以他們做了一件與學術慣例不同的事情：當今的NLP研究人員們公開新模型的時候，除了開源模型的代碼（可以制作一個空白模型），還會同步公開一個預訓練模型，可以直接用在任務中或者為別的任務做進一步的微調；OpenAI訓練了多個不同大小的模型，最大的模型含有1558M個參數(shù)，但OpenAI只公布了最小的、含有124M個參數(shù)的預訓練模型，因為他們聲稱更大、文本生成能力更強的模型“有遭到惡意濫用的風險”。

引發(fā)社會各界討論

OpenAI的語言模型GPT-2一經(jīng)面世就引發(fā)了社會各界的強烈討論，討論的內容包括：這項研究的正面價值大嗎、人類水準的虛假文本會帶來怎樣的社會影響、AI熱潮以及OpenAI未來的科研目標到底如何，甚至還有人質疑OpenAI此舉是夸張炒作（故意把模型吹得很厲害的樣子）。

針對OpenAI的語言模型本身還存在不足，它所帶來的社會效益以及可能引起的惡意使用者濫用的問題方面，其實研究人員也有自己的考慮，幾個月來也從沒停下腳步，接下來就讓我們來看看他們的工作進展。

這幾個月來OpenAI的后續(xù)進展

1、研究人員從中收獲到的關鍵信息

協(xié)調是很困難的，但也并不是沒有可能。到目前為止， 1558M個參數(shù)的語言模型還沒有被公開發(fā)布，盡管多個組織已經(jīng)開發(fā)了系統(tǒng)來訓練這些模型，或者公開討論了如何訓練更大的模型。自2月以來，工作人員已經(jīng)與超過五組復現(xiàn)GPT-2的團隊進行了交流。

合成文本具有信服力 研究人員的合作伙伴Sarah Kreps和Miles McCain在康奈爾大學的“外交事務”雜志上發(fā)表了研究報告：人們覺得GPT-2生成的文本樣本的說服力幾乎和紐約時報上的真實文章相當(72%的人認為GPT-2生成的文章是可信的，紐約時報文章則為83%)。除此之外，華盛頓大學AI2研究院的研究也表明，一個名為“GROVER”的系統(tǒng)生成的宣傳文章比人類寫的還要受歡迎。這都讓OpenAI的研究人員們在考慮發(fā)布語言模型時更為謹慎。

檢測也并不是一項簡單的工作 實踐中，研究人員更希望檢測器能檢測出絕大部分的生成文本，減少濫用，同時也避免錯誤地檢測出確實由人類撰寫的文章。模型的惡意使用者可能使用各種采樣技術(包括拒絕采樣)或微調模型來逃避檢測。一個理想的系統(tǒng)應當在各種不同的生成文本上達到非常高（99.9%到99.99%）的準確率。研究表明，目前基于ML的方法的準確率只能達到90%到95%之間而已，而對語言模型進行微調將會進一步降低精準確率；雖然有一些值得嘗試的方案但這仍然是一個非常困難的研究問題。研究人員認為，文本的統(tǒng)計檢測需要與人工判斷和元數(shù)據(jù)相補充，以便有效地制止濫用語言模型的狀況。

2、與更多機構合作

OpenAI目前已經(jīng)與四家領先的研究機構合作，共同分析GPT-2模型，包括此次新發(fā)布的774M參數(shù)GPT-2模型和尚未公開發(fā)布的全尺寸GPT-2模型。在此次同步公開的技術報告中涉及了一些初步的結果，其中一些分析結果也會影響是否公開發(fā)布1558M參數(shù)模型的考慮。OpenAI還制定了一項非商業(yè)法律協(xié)議，以促進組織之間的模式共享，為了幫助其他人啟動此類共享計劃。

具體的合作內容：

l Cornell大學正在研究人類對語言模型產(chǎn)生的數(shù)字信息的敏感性。

l 關于恐怖主義、極端主義和反恐的Middlebury Institute 國際研究中心(CTEC)正在探索GPT-2是如何被恐怖分子和網(wǎng)絡極端分子利用的。

l Oregon大學正在開發(fā)一系列的“偏差調查”來分析GPT-2中的偏差。

l Texas大學Texas分校正在研究在對特定領域數(shù)據(jù)集上的模型進行微調后， GPT-2輸出的統(tǒng)計可檢測性，以及不同語言模型之間檢測傳遞程度。

3、未來規(guī)劃

這些合作伙伴的研究將適應OpenAI未來的發(fā)布決策，通過觀察774M參數(shù)模型的使用情況，以了解大型模型的還需要考慮哪些因素。作為分階段發(fā)布策略的一部分，OpenAI目前的計劃是在幾個月內發(fā)布1558M參數(shù)模型。但根據(jù)合作伙伴調查結果，或者如果有惡意使用的774M模型的情況發(fā)生，那么可能會適當?shù)淖龀稣{整。隨著時間的推移，大型模型固有的問題將會有所增加，而不是減少。

4、時間線梳理

2019年2月

OpenAI首次公布GPT-2論文以及發(fā)布小型124M參數(shù)的GPT-2模型。雷鋒網(wǎng) AI 科技評論報道見 http://m.ozgbdpf.cn/news/201902/A0LIv4qeizhuABLF.html

2019年3月

The Partnership on AI與OpenAI共同舉辦了晚宴，討論出版規(guī)范。

2019年5月

分階段發(fā)布中型335M參數(shù)模型以及大型模型的輸出數(shù)據(jù)集,發(fā)布檢測基線，幫助人們了解如何檢測像GPT-2這樣的模型的輸出。

2019年6月

OpenAI出席美國國會聽證會，解釋合成媒體的含義，包括對合成文本的討論。開始與人工智能合作伙伴開展研究合作，以發(fā)布人工智能研究規(guī)范，嘗試與不同的研究機構展開合作。

2019年7月

DeepTabNine基于GPT-2開發(fā)代碼自動補全應用；用自回歸Transformer模型生成多圈對話響應；生成文本的統(tǒng)計檢測和可視化。

2019年8月

Thoughtful Technology Project的研究人員和劍橋大學一同發(fā)表了一篇論文，主題是“減少合成惡意濫用的工作文件媒體研究：機器學習的注意事項和潛在發(fā)布實踐”。

小結：

雷鋒網(wǎng)認為：AI智能作為現(xiàn)代科技的風向標，所面臨的機遇和挑戰(zhàn)前所未有。OpenAI作為其中的一個代表，發(fā)表驚人的研究成果的同時也引發(fā)了人們對許多問題的注意，比如除了研究機理和參照的數(shù)據(jù)集，還需要關心強大的模型是否會被惡意濫用等相關的社會道德問題，幾個月來OpenAI的研究人員也一直在努力繼續(xù)研究和協(xié)調，相信他們最終能找到完善的答案。

拓展閱讀：

1、 OpenAI博客鏈接：https://openai.com/blog/gpt-2-6-month-follow-up/

2、故事達到人類水平的AI，OpenAI大規(guī)模無監(jiān)督語言模型GPT-2

http://m.ozgbdpf.cn/news/201902/wuK3G9qDcrf5dX0r.html

3、OpenAI不公開發(fā)布GPT-2，應該反對還是贊同？

http://m.ozgbdpf.cn/news/201902/A0LIv4qeizhuABLF.html

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權禁止轉載。詳情見轉載須知。