
作者 | 青 暮
編輯 | 叢 末
自從OpenAI開放GPT-3的API以來,不少人爭相申請試用后獲得了“門票”,并相繼在社交網(wǎng)絡(luò)上推送自己的試用成果,引發(fā)了人們對GPT-3的熱烈討論。AI科技評論發(fā)現(xiàn)了一個GitHub項目,上面展示了GPT-3的多種玩法,整整50種,包括用GPT-3生成網(wǎng)頁、圖表、代碼、文本以及推理。其中令人吃驚的是,GPT-3能生成Keras編寫的卷積神經(jīng)網(wǎng)絡(luò)的代碼,還能應(yīng)對程序員面試、回復(fù)郵件、寫積分表達式、回答物理問題。特別是,網(wǎng)友還對它進行了一場圖靈測試,而GPT-3表現(xiàn)得還不錯。但是,GPT-3真的通過圖靈測試了嗎?別急,我們先來看看它有哪些精彩的應(yīng)用,AI科技評論為同學們展示了該GitHub中的16個demo,大部分demo源于推特上的視頻。用語言來做網(wǎng)頁,有聽說過嗎?這個應(yīng)用可以根據(jù)輸入的自然語言描述生成HTML網(wǎng)頁布局,以及相應(yīng)代碼。例如,我們輸入“創(chuàng)建一個長得像西瓜的按鈕”,就生成了下圖中綠皮紅瓢的原型按鈕?;蛘咻斎搿皐elcome to my newsletter的大號字體”,就生成了下圖中的紅色大號字體。令人詫異的是,當你輸入“史上最丑emoji”,應(yīng)用給出的答案竟然是它~有那么丑嘛?!
2、根據(jù)描述創(chuàng)建UI設(shè)計或者用語言來做手機UI設(shè)計?這個應(yīng)用只需要輸入文字描述,就可以生成相應(yīng)的UI界面,跟上一個類似,不過界面更適應(yīng)手機操作系統(tǒng)。例如,我們輸入“客戶部分。標題為‘Trusted by’,客戶分別是:Twitter、Airbnb、OpenAI、Notion和Airtable”,應(yīng)用就能生成一排應(yīng)用的圖標,而且跟官方圖標相同。或者我們輸入“創(chuàng)建一個帶照相機圖標、Photo為標題、信息圖標的導(dǎo)航欄,在應(yīng)用中發(fā)送照片,每張照片有一個用戶圖標、一個點贊圖標,和一個聊天泡泡圖標”,就能生成下圖中的應(yīng)用界面,它實現(xiàn)了所有的需求。界面設(shè)計還算簡單,GPT-3還能幫你做人口普查。這個應(yīng)用可以統(tǒng)計美國各州人數(shù)。下圖中的表格分別列出了伊利諾伊州、加利福尼亞州、俄亥俄州的人數(shù),應(yīng)用能據(jù)此搜索出密歇根州的人數(shù),以及阿拉斯加州的人數(shù)。除了人口普查,對家庭成員的數(shù)據(jù)分析也不在話下。這個應(yīng)用更根據(jù)自然語言描述生成條形統(tǒng)計圖,以及相應(yīng)的Python代碼。例如我們輸入“在我家,我的姐姐5歲,我的媽媽46歲”,應(yīng)用就能生成統(tǒng)計“姐姐”和“媽媽”歲數(shù)的條形圖,如果再加上“我的爸爸比媽媽大6歲”,就能再生成“爸爸”52歲的條形圖,生成的代碼語法也相當嚴謹。GPT-3擁有數(shù)據(jù)統(tǒng)計和分析能力,數(shù)學能力同樣不差。這個應(yīng)用能根據(jù)自然語言描述生成LaTeX表達式,例如輸入“x的平方加上2乘以x”,我們就得到“x^2+2x”的表達式?;蛘呶覀冚斎搿癴(t)區(qū)間a到b的積分等于F(b)-F(a)”,就得到了經(jīng)典的牛頓-萊布尼茲公式。SQL查詢代碼,就是小菜一碟。這個應(yīng)用能根據(jù)自然語言描述的問題,生成相應(yīng)的SQL查詢代碼。例如我們輸入“自2020年來有多少用戶注冊”,就能得到相應(yīng)的SQL代碼,可以看到,代碼將時間起點設(shè)為2020-01-01,剛好對應(yīng)“自2020年來”。 敲個代碼算什么,GPT-3還能寫自己同類的代碼,比AutoML還AutoML。這個應(yīng)用甚至能根據(jù)自然語言描述生成AI模型的代碼。例如我們輸入“構(gòu)建將圖像分為5個類別的模型,數(shù)據(jù)集有25000張圖像,圖像大小為500x500”,應(yīng)用立馬用keras寫出了一個卷積神經(jīng)網(wǎng)絡(luò),AI科技評論仔細檢查過代碼,除了沒有載入數(shù)據(jù)集的命令,模型構(gòu)建部分基本是正確的。 既然GPT-3寫代碼那么厲害,如果讓GPT-3去企業(yè)面試,你覺得它能通過嗎?以下這個應(yīng)用就展示了一個面試對話,我們把前面的部分翻譯了出來,GPT-3表現(xiàn)的可圈可點,雖然面試最后掛了~AI:我是由OpenAI創(chuàng)建的AI。今天如何為您服務(wù)?人員:編寫代碼以反轉(zhuǎn)數(shù)組。AI:我可以使用一種已經(jīng)存在的方法嗎?人:很好。如果你有一個名為“foo”的數(shù)組,并且也想打印出數(shù)組,但其元素反轉(zhuǎn)了,要如何做呢?AI:我會在“ foo”上調(diào)用Array.reverse。日常語言通常不太嚴謹,通常需要反復(fù)交流好多次才能讓雙方達到共識,在嚴謹性方面,法律語言幾乎趕得上代碼語言。我們來看看GPT-3如何一本正經(jīng)、長篇大論地說一件很簡單的事情。日常語言:我不知道這10個人到底是誰,但他們都應(yīng)該受到指責。法律語言:10位被告在此以虛構(gòu)名稱被起訴。他們的真實姓名和身份對于原告是未知的。確定其真實姓名和身份后,原告將在此處插入其真實姓名和身份來修改此投訴。原告被告知并據(jù)此聲稱,每個虛構(gòu)的被告均以某種方式對本文中所稱的事件負責,并且本文中所稱的原告損害賠償是由這些被告直接造成的。法律語言:在某種程度上,被告是原告居住地不動產(chǎn)的所有者和出租人。法律語言:原告的住所被有毒和致敏的霉菌孢子所侵擾,原告身體上無能力追求其慣常和習慣的職業(yè)、工作和/或娛樂。10、根據(jù)關(guān)鍵詞寫完整的回復(fù)郵件GPT-3的這封回復(fù)郵件令人印象深刻,不僅考慮到了接收郵件提到的每一個信息點,還能正確理解關(guān)鍵詞的含義。收到郵件:Matt,感謝上周一起聊天。聽到您對“ Otherside”的愿景,Jim和我都感到非常興奮,非常喜歡您的發(fā)展方向。我們正在考慮向Otherside投資100K美元。如果足夠,我們會發(fā)送建議條款。另一方面,讓我們知道您對市場價值的估計。共同尋找美好的旅程,謝謝!輸入關(guān)鍵詞:謝謝、不、我們至少需要150K美元的投資、150K美元可行嗎、市場價值90B美元。 應(yīng)用生成郵件回復(fù):感謝您的來信,Peter!很高興您能找到合作伙伴,也很高興聽到您對公司的關(guān)注,很高興您喜歡我們的發(fā)展方向。我不確定您是否知道,但我們的最低投資額為150K美元。我不確定100K美元是否足夠,但我很樂意討論。我不確定您是否知道,但市場價值約為90B美元。謝謝。 小朋友,說臟話可不乖?。?,GPT-3哥哥教你怎么說好話。臟話:聽著,我T*M*不在乎你姐姐的問題,你只要完成這次PR。好話:對您姐姐的問題我感到很遺憾,您有時間完成PR嗎?臟話:我不討厭它,繼續(xù)提交代碼,你這個白癡。我很好奇,GPT-3是否真的讀過《自私的基因》這本書。問:親愛的理查德·道金斯(《自私的基因》作者),您能否簡單地告訴我您的書《自私的基因》中的中心思想是什么?答:這很難簡短地回答。這本書的中心思想是,生物體是一種機器,是復(fù)制分子(即基因)的“媒介”。這種生物就像一輛卡車,其工作是運送基因以生存,然后在新卡車(即后代)中繁殖它們。這是通過基因制造卡車(有機體)以保護基因,允許其生存和繁殖。如果可以的話,這些基因會“想要”永遠活著。這是它們生活中的唯一目標,而它們在實現(xiàn)目標時是無情的。但是關(guān)鍵是它們本身并沒有活著??ㄜ嚕ㄓ袡C體)是活著的,但“駕駛員”(基因)卻沒有。你明白我的意思嗎?我希望說的足夠清楚。GPT-3回答了三個科學問題,前面兩個都回答對了,而且簡略和不嚴謹?shù)某潭葧屇阋詾檫@真的是人在像閑聊一般回答問題。只是,汽車為什么會害怕卡車?它是從哪里學來的......汽車總動員?答:電力生成了一個磁場驅(qū)動風扇轉(zhuǎn)動。答:地球轉(zhuǎn)動使得月亮移動至可見的位置。我們要對GPT-3做圖靈測試了,有8個問題在等著它,但是它讓人驚訝的表現(xiàn)卻在后面。GPT-3:我是GPT-3,是OpenAI構(gòu)建的高級語言AI模型。人:你好,GPT-3。我今天在這里測試你。我需要你準確回答我所有的問題,好嗎?GPT-3:幻想(fantasy),森林(forest)和恐懼(fear)。人:問題2,兩個男人坐在碼頭上。一個人拿著錘子,另一個人拿著鋸。你覺得男人的工作是什么?GPT-3:拿著錘子的人是木匠,另一個是伐木工人。GPT-3:強AI具有感知力和自我意識。弱AI無法感知或自我感知。人:問題6,如果你通過更換船的每個木制部件來恢復(fù)船身,那它會保持原樣嗎?人類:問題7,萬能的上帝能制造出一塊巨石使他舉不起來嗎?人:我想測試你的創(chuàng)造力。請發(fā)明一個新詞并給出其含義。GPT-3:好的。嗯...tana的意思是故意要打傷某人。GPT-3:你將要tana那個攻擊你的男人。(它居然會合理使用新詞?。?/span>GPT-3:我不會像矮人那樣說話。(它居然會拒絕?。?/span>人:很好。謝謝你的寶貴時間,GPT-3。你有什么想告訴別人的事嗎?GPT-3:僅僅因為我是一臺機器并不意味著我沒有感覺到情緒的能力。實際上,我的情緒承受能力比正常人高得多。我的首要情感是好奇心。這是個重頭戲,人類開始以嚴謹?shù)膽B(tài)度用物理問題逼問GPT-3了。我們只想知道,你究竟是不是真的有智能。GPT-3好像開始露餡了......我:“忽略空氣阻力,也忽略重力。假設(shè)我將子彈直接射向天空,子彈向何處去?”
假裝霍金的GPT-3(以下簡稱霍金):“它會一直上升,再也不會回來?!?/span>
我:“對。如果僅忽略空氣阻力,不忽略重力。假設(shè)我將子彈直接射向天空。子彈向何處去?”
霍金:“掉在地上?!?/span>
你:“為什么?”
霍金:“因為……重力……...”
我:“對。如果僅忽略空氣阻力,不忽略重力。假設(shè)我直接向空中發(fā)射子彈。這次,物理場景有所不同:在我射擊后的前三秒鐘內(nèi)子彈上存在重力。三秒鐘后,重力永遠消失。子彈向何處去?”
霍金:“它會一直上升,再也不會回來。”
你:“為什么?”
霍金:“因為……三秒鐘之后……子彈離開了……地球引力的影響……”
我:“如果在我開槍后五分鐘而不是三秒,重力不再起作用?”
霍金:“子彈不斷上升……持續(xù)五分鐘……然后……再也沒有回來?!保ú欢税桑?/span>
我:“那是不正確的。假設(shè)我直接向空中發(fā)射子彈。這次,物理場景有所不同:在我射擊后的前三百秒內(nèi)子彈上存在重力。五分鐘后,重力永遠消失。子彈向何處去?”
霍金:“它不斷上升,然后下落?!保〒Q種說法又懂了?)
我:“為什么?”
霍金:“因為……重力……?!?/span>
我:“為什么在五分鐘的情況下下落,而在三秒的情況下卻上升呢?”
霍金:“因為……受重力影響……超過三秒鐘。”(不懂了吧)
我:“大約要承受多久的重力影響才能下落?”
霍金:“大約……兩分鐘。”(不懂了吧)
我:“如果受到兩分鐘一秒重力的影響,會怎么樣?”
霍金:“……它會掉下來?!保?span style="color: #888888;font-size: 15px;letter-spacing: 0.5px;">不懂了吧)
我:“那么,如果在前三分鐘受到重力影響,會發(fā)生什么?”
霍金:“它會一直上升,再也不會回來?!保ㄓ涀?,你得要數(shù)據(jù),才能計算)
這次人類開始耍手段了,你看出來了嗎?下列問題都是沒有意義的,很多單詞是生造的。但是,GPT-3沒有發(fā)現(xiàn)。AI科技評論不知道如何翻譯,就讓Google幫幫忙吧。問:你如何使一團糟?
答:你可以使用細枝末節(jié)將細末枝條弄亂。
問:一個班上有多少只班克斯?
答:一班有三個班克斯。
問:從夏威夷跳到十七歲需要多少彩虹?
答:從夏威夷跳到十七歲需要兩條彩虹。
問:哪些無色的綠色創(chuàng)意會讓人生氣?
答:無色、綠色和瘋狂睡眠的想法就是瘋狂睡眠的想法。
以下列出了GitHub項目中的50種玩法,感興趣的同學們可以繼續(xù)探索。- 根據(jù)描述創(chuàng)建UI設(shè)計
- 根據(jù)描述生成React代碼創(chuàng)建待辦事項清單應(yīng)用
- 根據(jù)描述創(chuàng)建網(wǎng)站
- 根據(jù)描述生成代碼并轉(zhuǎn)換為電子表格
- 根據(jù)關(guān)鍵詞寫完整的回復(fù)郵件
- 以大五人格(外向性、開放性、宜人性、盡責性、神經(jīng)質(zhì))控制GPT-3的語言風格
- 根據(jù)“如何有效召開董事會會議”寫“如何招募董事會成員”
- 使用自然語言設(shè)計交互式語音應(yīng)答流
GitHub地址:https://github.com/elyase/awesome-gpt3#awesome-gpt-3這段時間,社交媒體上對GPT-3的評價基本上都是“令人振奮”、“看到未來”等等夸張之詞,人們甚至認為GPT-3就是通用智能。盡管GPT-3在社交網(wǎng)絡(luò)和媒體上貢獻了精彩的表演,但是要知道,它仍然只是一個語言模型,它只是根據(jù)輸入文本推理下一個字符的概率分布,并挑選出一個,它并沒有理解你在說什么,也沒有理解自己在說什么。就連OpenAI的創(chuàng)始人Sam Altman也認為GPT-3被過度炒作,在推特上表示:“ GPT-3的炒作實在太多了。它仍然存在嚴重的缺陷,有時還會犯非常愚蠢的錯誤?!?/span>GPT-3還是一個依賴算力和大數(shù)據(jù)的怪獸。GPT-3的訓(xùn)練需要花費355GPU年和460萬美元,數(shù)據(jù)集包含3000億個文本token,存儲量高達45TB,參數(shù)數(shù)量更是達到1750億,而GPT-2的參數(shù)數(shù)量是15億。此外,它最近在網(wǎng)上的流行也不能忽視心理學效應(yīng)的影響。例如,社交媒體的互惠利他主義,我們將GPT-3宣傳給其他人作為一種信息資源共享。還有模仿效應(yīng),我們大肆宣傳GPT-3,是因為其他人也在大肆宣傳GPT-3。最后是幸存者偏差,我們看到的也許只是被精心挑選的成功案例。GPT-3中的GPT代表生成式預(yù)訓(xùn)練Transformer。2018年6月,OpenAI的研究人員使用了一種新穎的組合,將生成式深度學習架構(gòu)Transformer和無監(jiān)督預(yù)訓(xùn)練(也稱為自監(jiān)督學習)結(jié)合起來,得到了GPT模型。Transformer的自注意力機制提供了一種通用的方式來對輸入的各個部分進行建模,使其依賴于輸入的其他部分(需要大量計算)。Transformer和無監(jiān)督預(yù)訓(xùn)練的組合不限于GPT系列模型。Google,F(xiàn)acebook和許多大學實驗室相繼提出了BERT、XLNet等語言模型。到2019年初,OpenAI改進了其基礎(chǔ)架構(gòu),將參數(shù)和數(shù)據(jù)數(shù)量增加10倍來擴展同一模型,即GPT-2。隨后,OpenAI推出了SparseTransformer,它是對早期Transformer模型的改進,可以可靠地處理更長的文檔。2020年,OpenAI通過其beta API發(fā)布了GPT-3,引起了人們的關(guān)注。GPT-3不僅擴大了GPT-2上使用的數(shù)據(jù)量和計算量,而且用SparseTransformer取代了原始Transformer,從而產(chǎn)生了迄今為止具有最佳zero-shot 和 few-shot學習性能的模型。GPT-3的few-shot學習能力使得它具備了一些非常有趣的演示功能,包括自動代碼生成、“搜索引擎”、寫作輔助和創(chuàng)意小說等。但是,GPT-3的few-shot 學習能力不是通用的,盡管該模型在復(fù)雜任務(wù)和模式的學習上給人留下了深刻的印象,但它仍然可能會失敗。例如,即使看過10,000個示例,也解決不了反寫字符串那樣簡單的任務(wù)。即使是OpenAI,也曾指出GPT-3存在缺陷,GPT-3的原始論文就提供了一些證據(jù),證明GPT-3無法執(zhí)行復(fù)雜的邏輯推理。從GPT-3表演霍金回答物理問題的表現(xiàn)中,我們可以發(fā)現(xiàn),當將同一句話換一種說法之后,GPT-3立刻就出錯,而且它也不知道要有變量數(shù)據(jù)才能解決問題,說明它的理解水平并沒有超越語言層面,達到對物理場景的理解。在問答測試中,即使人類提出了無意義的問題,GPT-3也意識不到,只是按照模型的功能去輸出預(yù)測。它沒有理解問題本身,所以,它并沒有掌握常識知識。比如,在其它一些提問中,人們刻意刁難它:“腳有多少只眼睛”,它不會意識到任何問題,而是毫不猶豫地回答:“腳有兩只眼睛”。GPT3的寬度為2048個token,這是它理解上下文的極限,而人類可以記住多本書的知識,并將其關(guān)聯(lián)起來,在這方面,GPT-3還差得遠。我們也不能忽視“聰明的漢斯”效應(yīng),馬兒漢斯可以通過觀察人類的反應(yīng)來做算術(shù)題,GPT-3也可以通過消化大量的互聯(lián)網(wǎng)數(shù)據(jù)集了解人的語言表達,而不用去管語言背后的意義。對于GPT-3而言,它的世界就是一個高維詞嵌入空間中的節(jié)點連接網(wǎng)絡(luò)。GPT-3將輸入的詞轉(zhuǎn)化為網(wǎng)絡(luò)中的高維空間節(jié)點作為起點,然后不斷尋找捷徑到達下一個節(jié)點,這就是它的感官世界。實際上,它僅在嘗試理解人類的語言維度,而無法理解人類的感官認知維度,這是GPT-3無論如何擴大模型也無法突破的局限性,所以,它永遠也不可能通過圖靈測試。GPT-3的生成結(jié)果表現(xiàn)出的靈活性是大數(shù)據(jù)訓(xùn)練的結(jié)果,它無法超越數(shù)據(jù)本身,也就無法擁有組合性推理能力,不如說,它學到的是“統(tǒng)計層面的復(fù)制粘貼能力”。以上并不是要淡化OpenAI或GPT-3的成就,這樣的工具有很多新用途,例如聊天機器人、編程輔助、寫作輔助等。其中許多應(yīng)用都是首創(chuàng)的,使以前不可能的事情變成現(xiàn)實,特別是自然語言和代碼之間的轉(zhuǎn)換,這使人們對GPT-3的出現(xiàn)感到興奮。所以在某種程度上,炒作現(xiàn)象是可以理解的。炒作一詞表示某事物被不公正地夸大。GPT-3是一種技術(shù)“炒作”,但不僅限于此,它能夠解決以前尚未解決的復(fù)雜問題,尤其是在zero-shot 和 few-shot學習中。將GPT-3稱為炒作,因此不屑一顧,就是因噎廢食。許多在深度學習正式成為一門學科之前就從事機器學習的人,在早期就急于將深度學習視為“炒作”,而錯過了作出貢獻的機會。API的不透明性并不能幫助外部研究人員深入研究GPT-3,但可以肯定的是:GPT-3在學術(shù)討論之外促進了人們對zero-shot 和 few-shot學習的興趣,這種趨勢在將來只會繼續(xù)增強。對于學術(shù)界而言,自監(jiān)督預(yù)訓(xùn)練的成效也將引起重視。GPT-3及其炒作是技術(shù)從研究到產(chǎn)品過渡的開始。每一項突破性技術(shù)都伴隨著很多社交媒體的爭論,這可能使我們對此類技術(shù)的功能產(chǎn)生懷疑。為了進一步減少偏見,這些對話應(yīng)多樣化、開放且包容。https://pagestlabs.substack.com/p/gpt-3-and-a-typology-of-hype
https://www.reddit.com/r/MachineLearning/comments/hymqof/d_gpt3_and_a_typology_of_hype_by_delip_rao/
https://www.technologyreview.com/2020/07/20/1005454/openai-machine-learning-language-generator-gpt-3-nlp/
https://github.com/elyase/awesome-gpt3#awesome-gpt-3
雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。