0
雷峰網(wǎng)(公眾號:雷峰網(wǎng))訊 GPT-5 發(fā)布,雖然靠著“OpenAI”的名氣也刷了一波流量,但在 AI 科技評論看來,GPT-5 的結(jié)果是讓人失望的。
原因在于:Sam Altman 對 GPT-5 的“推銷”已經(jīng)全面轉(zhuǎn)向現(xiàn)有的模型能力可以在多少個(我們知道是“很多”)任務上性能提升幾個點,而非基礎大模型的能力在現(xiàn)有技術(shù)路線上朝著“智能進化”的方向做了多少突破——以至于正常發(fā)布會看下來,只是“Scaling Law 遇到瓶頸”的又一有力佐證。
唯一值得樂觀的點是:GPT-5 告訴了我們,OpenAI 對基礎模型的能力突破也沒招了,而下一代基礎模型的高地戰(zhàn)、每一個科研團隊都有同等的機會。
大模型發(fā)展到現(xiàn)在,不難發(fā)現(xiàn),全球在 AGI 技術(shù)創(chuàng)新上的方向最終歸納到了兩個點:一是多任務表現(xiàn)(但這并不脫離“專有數(shù)據(jù)+預訓練”的“背誦”范式),另一個是自主思考、學習與推理能力。而這次,時隔一年多姍姍來遲的 GPT-5,顯然是將落腳點放在了前者。
雖然走“白盒路線”的馬毅被認為離經(jīng)叛道,但其提出的“知識不等同于智能”的觀點之所以在業(yè)內(nèi)能有所擁躉,原因正是現(xiàn)有大模型發(fā)展的瓶頸突顯。通用人工智能之路漫漫,GPT-5 沒有表現(xiàn)出持續(xù)追求智能上限的野心,是否側(cè)面也反映了大模型之于 AGI,已經(jīng)“江郎才盡”了?
這也迫使我們必須重新審視:一個能夠自主學習、思考與推理的人工智能模型,接下來要如何突破?
據(jù) AI 科技評論與多位業(yè)內(nèi)人士的交流,這確實是目前基礎模型最難的問題,且并非單靠多任務熟練、多模態(tài)大模型就能突破。
一位資深研究員向 AI 科技評論舉過這樣一個生動的例子:“如果以人為類比,一個人即使瞎了、聾了、啞了,TA 依然是一個人,因為 TA 的大腦依然在感知、思考并與世界交互?!?/p>
換言之,雖然如今有觀點認為,通過增加多模態(tài)的信息能增強 AI 模型的智能水平,但一個殘忍的事實是:至今依然沒有足夠的研究結(jié)果表明,在現(xiàn)有架構(gòu)的基礎上,通過向模型注入更多模態(tài)的信息能帶來“智能的涌現(xiàn)”。同樣,多任務處理性能提升,本質(zhì)其實是應用工程的創(chuàng)新,而非基礎研究的突破。
GPT-5 的發(fā)布確實取得了一系列出色的成果,但或許也提醒了此刻已到 AGI 的反思關(guān)口。
支持調(diào)用 GPT 系列子模型,高頻任務針對性優(yōu)化
寫作、編程、數(shù)學能力、健康管理、視覺感知、指令遵循、工具調(diào)用……OpenAI 這場深夜發(fā)布會像是才藝表演,讓 GPT-5 在常見任務場景都展示了一遍。在模型智能水平之外,OpenAI 此次更新走的更像是工程路線,結(jié)果以實用為導向。Sam Altman 特意指出,針對 ChatGPT 最常見的三種任務,即編程、寫作和健康管理,GPT-5 均進行了專門的優(yōu)化。
作為大模型的兵家必爭之地,GPT-5 的 Coding 能力首先受到了高度關(guān)注。OpenAI 稱其為自家迄今為止最強大的編程模型,在“復雜的前端生成和調(diào)試大型代碼庫方面表現(xiàn)尤為出色”。有用例顯示,GPT-5 只需幾分鐘就能生成一款帶音樂、計分的小游戲。而此前也有早期測試者表示,GPT-5 的前端設計對于間距、排版和留白等元素的把握有了更好的表現(xiàn)。
Prompt: Create a single-page app in a single HTML file with the following requirements: 提示:在一個 HTML 文件中創(chuàng)建一個單頁應用程序,滿足以下要求:
Name: Jumping Ball Runner
名稱:跳躍球跑者
Goal: Jump over obstacles to survive as long as possible.
目標:跳過障礙物,盡可能長時間生存。
Features: Increasing speed, high score tracking, retry button, and funny sounds for actions and events.
特點:速度遞增、高分記錄、重試按鈕、以及動作和事件相關(guān)的趣味音效。
The UI should be colorful, with parallax scrolling backgrounds.
界面應色彩豐富,帶有視差滾動背景。
The characters should look cartoonish and be fun to watch.
角色應該看起來像卡通一樣,并且很有趣。
The game should be enjoyable for everyone.
游戲應該讓每個人都感到愉快。
寫作能力方面,用戶的日常任務多集中在起草和編輯報告、郵件或撰寫備忘錄上。OpenAI 指出,相較于嚴謹?shù)膶W術(shù)論文,這些文本的結(jié)構(gòu)更加模糊,需要將模糊的想法轉(zhuǎn)化為清晰易讀的文字。比如下面這個婚禮致辭的例子:
語言自然流暢,使用意象和比喻增加文學性,適當埋梗。以及更重要的,沒有把婚姻比作某種量子物理現(xiàn)象。
OpenAI 在第一時間放出了 GPT-5 的多項基準測試結(jié)果,最引人注目的是大模型競技場 LMArena。經(jīng)過對諸多任務場景的針對性優(yōu)化,GPT-5 已經(jīng)在所有細分類目中登頂。
數(shù)學能力方面,GPT-5 在 IME 等三項基準測試中排名第一。
SWE-bench 驗證測試達到 74.9%,Aider Polyglot 測試達到 88%,GPT-5 的現(xiàn)實世界編程能力力壓此前的 o3 和 4o。
多模態(tài)理解能力也在 GPT-5 發(fā)力之列,MMMU 測試得分達到 84.2%,意味著 GPT-5 在執(zhí)行圖標解讀等任務時可以更準確地處理圖像和其它非文本輸入。
指令遵循和工具調(diào)用能力也是模型實用性的重要維度。GPT-5 在 Scale MultiChallenge 等基準測試上也取得了良好表現(xiàn),這意味著它在處理復雜、變化的任務時將更忠實地遵循用戶指令,并利用其可用的工具完成更多端到端的工作。
在性能全面提升的同時,GPT-5 的推理成本還降低了。開啟思考模式的 GPT-5 在視覺推理、代理編程和研究生水平科學問題解決等能力方面,輸出的 token 數(shù)量比 OpenAI o3 減少了 50-80%。
值得注意的是,GPT-5 還被賦予了調(diào)度子模型的能力,堪稱 GPT 全家桶的入口。據(jù) OpenAI 官方介紹,GPT-5 中包含一個實時路由器,可以根據(jù)對話類型、復雜度、工具需求和用戶的明確意圖,快速決定由哪個模型響應用戶指令。
OpenAI 此前發(fā)布的眾多模型在使用場景上各有不同,模型能力及 API 價格的區(qū)別確實值得高頻用戶在選型上多花心思,但也平添了用戶的使用成本。GPT-5 將終結(jié)這一局面,其實時路由器通過真實信號不斷訓練,對用戶切換模型的行為、對回答的偏好以及測得的正確性進行學習,并且上述指標都會隨時間推移不斷提升。
在智能水平未見明顯提升的情況下,這讓 GPT-5 的定位更像是一個跨越不同場景的任務執(zhí)行專家。
探索智能,不如好用
實用性無疑是此次 GPT-5 更新的一大關(guān)鍵詞。相比起展示自身對于智能上限的探索,OpenAI 花了大力氣向用戶證明,GPT-5 已經(jīng)是一個可靠的助手:更少的幻覺,更少的犟嘴。
首先是模型幻覺的問題被顯著優(yōu)化。在啟用網(wǎng)絡搜索的情況下,GPT-5 的回應比 GPT-4o 包含事實性錯誤的概率降低了約 45%,而在思考過程中,GPT-5 的回應比 OpenAI o3 包含事實性錯誤的概率降低了約 80%。
這一改進源于 OpenAI 采取了新增的評估方法,來測試模型在處理復雜開放式問題時的可靠性。研究團隊在兩個公開的事實性基準測試上,測量了 GPT-5 在在思考開放式事實性提示時的幻覺率。在測試結(jié)果中,思考模式下 GPT-5 的幻覺相較 OpenAI o3 減少了約 6 倍。
這意味著 GPT-5 在生成持續(xù)準確的長格式內(nèi)容方面取得了明顯的進步,同時也會減少模型不懂裝懂的可能。
GPT-5 會更誠實地向用戶傳達其行為和能力,特別是對于那些不可能完成、未明確指定或缺少關(guān)鍵工具的任務,GPT-5 會清晰地表達其局限性,而非通過謊報任務成功完成或“知錯不改”而以求在訓練中得到獎勵。目前,GPT-5 的欺騙率已從o3 的 4.8% 降低到了 2.1%。
GPT-4o 此前曾因為“諂媚”的問題引起熱議。這不僅意味著對用戶的無條件順從,Antropic 的研究顯示,其實質(zhì)是 AI 為了對話輪次、用戶停留時長等短期指標,而犧牲真實性和準確性的長期價值。
此次 GPT-5 發(fā)布,OpenAI 表示已經(jīng)在訓練過程中開發(fā)了新的評估方法來衡量奉承程度,并且直接向 GPT-5 展示“過度認同”的例子,教導它不要這樣做。OpenAI 還設計了專門的提示詞誘使 GPT-5 扮演一個馬屁精的角色,但經(jīng)過優(yōu)化后,其奉承回復的比例從 14.5% 顯著降低至不到 6%。
在可感知的維度,用戶會發(fā)現(xiàn) GPT-5 變得不像從前那樣熱衷于附和、愛用表情符號,并且更加體貼。在交互體驗上,研究團隊希望 GPT-5 更像用戶一個“擁有博士學位水平的樂于助人的朋友”。
“雖然減少奉承有時會降低用戶滿意度,但我們所做的改進帶來了其它可衡量的提升,因此用戶能夠繼續(xù)進行高質(zhì)量、有建設性的對話?!監(jiān)penAI 表示。
自今年 2 月 GPT-4.5 發(fā)布之后,GPT-5 便被寄予下一代大模型的厚望,然而這中間卻出現(xiàn)了諸多始料未及的難題。技術(shù)路徑方面,高質(zhì)量數(shù)據(jù)源耗竭導致 Scaling Law 撞墻,模型智力亟需尋求新的增長增長點。組織架構(gòu)上,OpenAI 向商業(yè)實體的轉(zhuǎn)型幾經(jīng)波折,中間伴隨著 IIya Sutskever、Mira Murati 等多位核心人物的出走。近期硅谷的人才大戰(zhàn)中 OpenAI 也無法置身局外,扎克伯格拿著“天才名單”高薪挖人之下,OpenAI 又經(jīng)歷了大規(guī)模人才流失。
GPT-5 發(fā)布前夕,Sam Altman 在自己的社交媒體上發(fā)布了一張不知所云的照片,有人猜測是用《星球大戰(zhàn)》中的死星暗示 GPT-5 的強大。但想到過去半年的種種,難免有守得云開見月明的感覺。
OpenAI 此次更新,GPT-5 的表現(xiàn)也確實令人眼前一亮。作為一款實用的工具,它在基準測試和實際應用中的表現(xiàn)均無可忽視,編程水平可以勝任更多端到端任務,長文本生成的連貫性和一致性更加自然,對復雜、抽象問題的推理能力有了顯著進步。此外 GPT-5 的情境理解能力也得到了顯著提升,能夠更精確地捕捉文本中微妙的情感變化,這都意味著它更有“人味”,在交互中更貼近了我們對 AGI 的想象。
但 OpenAI 目前并未放出 GPT-5 的參數(shù)規(guī)模、模型架構(gòu)等更多信息,后者在任務執(zhí)行能力上的提升,更像是在現(xiàn)有技術(shù)框架內(nèi)的優(yōu)化,而非革命性的進步。早在 GPT-5 發(fā)布之前,亦有早期測試者對媒體表示,GPT-5 在技術(shù)水平上并未實現(xiàn) GPT-4 之于 GPT-3 的飛躍。
“下一代大模型”靠小步快跑就可以抵達嗎?模型架構(gòu)優(yōu)化、訓練效果提升、新的數(shù)據(jù)源……模型智力水平新的源動力在哪?GPT-5 發(fā)布之后,這些問題更加尖銳。而好消息是,諸多模型團隊重新站在了同一條起跑線上。
雷峰網(wǎng)文章
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。