0
雷鋒網(wǎng)AI科技評論按:那個能從短句續(xù)寫出成篇文章、續(xù)寫故事水平達到人類水準的 AI - OpenAI GPT-2 最近又有新動作了!8月21日,OpenAI 公開發(fā)布了大規(guī)模的含有 774M 參數(shù)的預訓練模型、發(fā)布了一份針對這個大小的模型的技術報告,也公布了一些合作進展。GPT-2從今年年初的初次見面到現(xiàn)在,OpenAI都做了些什么呢?
先來回顧一下它創(chuàng)造的輝煌歷史
OpenAI 的 GPT-2 是 GPT 的直接技術升級版,擁有多達 1558M模型參數(shù),并在多 10 倍的數(shù)據(jù)上進行訓練。訓練數(shù)據(jù)是來自互聯(lián)網(wǎng)的 40GB 高質量語料。
該模型不僅可以根據(jù)給定的文本流暢地續(xù)寫句子,甚至可以形成成篇的文章,就像人類的續(xù)寫文章一樣。雖然還存在一定的問題,例如文字重復,錯誤的世界觀不自然的切換話題等。但在成功的例子中模型生成的文本多樣、全面,對事件的介紹也完全符合邏輯標準, 接近人類的表達質量,這已經(jīng)可以說是非常驚人了。拋出一個例子先隨(雷鋒網(wǎng))隨意感受一下。
由于OpenAI認為這個模型的文本生成能力太強,所以他們做了一件與學術慣例不同的事情:當今的NLP研究人員們公開新模型的時候,除了開源模型的代碼(可以制作一個空白模型),還會同步公開一個預訓練模型,可以直接用在任務中或者為別的任務做進一步的微調;OpenAI訓練了多個不同大小的模型,最大的模型含有1558M個參數(shù),但OpenAI只公布了最小的、含有124M個參數(shù)的預訓練模型,因為他們聲稱更大、文本生成能力更強的模型“有遭到惡意濫用的風險”。
OpenAI的語言模型GPT-2一經(jīng)面世就引發(fā)了社會各界的強烈討論,討論的內容包括:這項研究的正面價值大嗎、人類水準的虛假文本會帶來怎樣的社會影響、AI熱潮以及OpenAI未來的科研目標到底如何,甚至還有人質疑OpenAI此舉是夸張炒作(故意把模型吹得很厲害的樣子)。
針對OpenAI的語言模型本身還存在不足,它所帶來的社會效益以及可能引起的惡意使用者濫用的問題方面,其實研究人員也有自己的考慮,幾個月來也從沒停下腳步,接下來就讓我們來看看他們的工作進展。
協(xié)調是很困難的,但也并不是沒有可能。到目前為止, 1558M個參數(shù)的語言模型還沒有被公開發(fā)布,盡管多個組織已經(jīng)開發(fā)了系統(tǒng)來訓練這些模型,或者公開討論了如何訓練更大的模型。自2月以來,工作人員已經(jīng)與超過五組復現(xiàn)GPT-2的團隊進行了交流。
合成文本具有信服力 研究人員的合作伙伴Sarah Kreps和Miles McCain在康奈爾大學的“外交事務”雜志上發(fā)表了研究報告:人們覺得GPT-2生成的文本樣本的說服力幾乎和紐約時報上的真實文章相當(72%的人認為GPT-2生成的文章是可信的,紐約時報文章則為83%)。除此之外,華盛頓大學AI2研究院的研究也表明,一個名為“GROVER”的系統(tǒng)生成的宣傳文章比人類寫的還要受歡迎。這都讓OpenAI的研究人員們在考慮發(fā)布語言模型時更為謹慎。
檢測也并不是一項簡單的工作 實踐中,研究人員更希望檢測器能檢測出絕大部分的生成文本,減少濫用,同時也避免錯誤地檢測出確實由人類撰寫的文章。模型的惡意使用者可能使用各種采樣技術(包括拒絕采樣)或微調模型來逃避檢測。一個理想的系統(tǒng)應當在各種不同的生成文本上達到非常高(99.9%到99.99%)的準確率。研究表明,目前基于ML的方法的準確率只能達到90%到95%之間而已,而對語言模型進行微調將會進一步降低精準確率;雖然有一些值得嘗試的方案但這仍然是一個非常困難的研究問題。研究人員認為,文本的統(tǒng)計檢測需要與人工判斷和元數(shù)據(jù)相補充,以便有效地制止濫用語言模型的狀況。
OpenAI目前已經(jīng)與四家領先的研究機構合作,共同分析GPT-2模型,包括此次新發(fā)布的774M參數(shù)GPT-2模型和尚未公開發(fā)布的全尺寸GPT-2模型。在此次同步公開的技術報告中涉及了一些初步的結果,其中一些分析結果也會影響是否公開發(fā)布1558M參數(shù)模型的考慮。OpenAI還制定了一項非商業(yè)法律協(xié)議,以促進組織之間的模式共享,為了幫助其他人啟動此類共享計劃。
具體的合作內容:
l Cornell大學正在研究人類對語言模型產(chǎn)生的數(shù)字信息的敏感性。
l 關于恐怖主義、極端主義和反恐的Middlebury Institute 國際研究中心(CTEC)正在探索GPT-2是如何被恐怖分子和網(wǎng)絡極端分子利用的。
l Oregon大學正在開發(fā)一系列的“偏差調查”來分析GPT-2中的偏差。
l Texas大學Texas分校正在研究在對特定領域數(shù)據(jù)集上的模型進行微調后, GPT-2輸出的統(tǒng)計可檢測性,以及不同語言模型之間檢測傳遞程度。
這些合作伙伴的研究將適應OpenAI未來的發(fā)布決策,通過觀察774M參數(shù)模型的使用情況,以了解大型模型的還需要考慮哪些因素。作為分階段發(fā)布策略的一部分,OpenAI目前的計劃是在幾個月內發(fā)布1558M參數(shù)模型。但根據(jù)合作伙伴調查結果,或者如果有惡意使用的774M模型的情況發(fā)生,那么可能會適當?shù)淖龀稣{整。隨著時間的推移,大型模型固有的問題將會有所增加,而不是減少。
2019年2月
OpenAI首次公布GPT-2論文以及發(fā)布小型124M參數(shù)的GPT-2模型。雷鋒網(wǎng) AI 科技評論報道見 http://m.ozgbdpf.cn/news/201902/A0LIv4qeizhuABLF.html
2019年3月
The Partnership on AI與OpenAI共同舉辦了晚宴,討論出版規(guī)范。
2019年5月
分階段發(fā)布中型335M參數(shù)模型以及大型模型的輸出數(shù)據(jù)集,發(fā)布檢測基線,幫助人們了解如何檢測像GPT-2這樣的模型的輸出。
2019年6月
OpenAI出席美國國會聽證會,解釋合成媒體的含義,包括對合成文本的討論。開始與人工智能合作伙伴開展研究合作,以發(fā)布人工智能研究規(guī)范,嘗試與不同的研究機構展開合作。
2019年7月
DeepTabNine基于GPT-2開發(fā)代碼自動補全應用;用自回歸Transformer模型生成多圈對話響應;生成文本的統(tǒng)計檢測和可視化。
2019年8月
Thoughtful Technology Project的研究人員和劍橋大學一同發(fā)表了一篇論文,主題是“減少合成惡意濫用的工作文件媒體研究:機器學習的注意事項和潛在發(fā)布實踐”。
小結:
雷鋒網(wǎng)認為:AI智能作為現(xiàn)代科技的風向標,所面臨的機遇和挑戰(zhàn)前所未有。OpenAI作為其中的一個代表,發(fā)表驚人的研究成果的同時也引發(fā)了人們對許多問題的注意,比如除了研究機理和參照的數(shù)據(jù)集,還需要關心強大的模型是否會被惡意濫用等相關的社會道德問題,幾個月來OpenAI的研究人員也一直在努力繼續(xù)研究和協(xié)調,相信他們最終能找到完善的答案。
拓展閱讀:
1、 OpenAI博客鏈接:https://openai.com/blog/gpt-2-6-month-follow-up/
2、故事達到人類水平的AI,OpenAI大規(guī)模無監(jiān)督語言模型GPT-2
http://m.ozgbdpf.cn/news/201902/wuK3G9qDcrf5dX0r.html
3、OpenAI不公開發(fā)布GPT-2,應該反對還是贊同?
http://m.ozgbdpf.cn/news/201902/A0LIv4qeizhuABLF.html
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉載。詳情見轉載須知。