丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給鄭佳美
發(fā)送

0

Agent 要被吃進(jìn)大模型了

本文作者: 鄭佳美   2025-04-23 10:50
導(dǎo)語(yǔ):OpenAI 做 Agent,得天獨(dú)厚。

今天凌晨,奧特曼突然發(fā)文宣布推出自家最新的 o 系列模型:滿(mǎn)血版 o3 和 o4-mini,同時(shí)表示這兩款模型都可以自由調(diào)用 ChatGPT 里的各種工具,包括但不限于圖像生成、圖像分析、文件解釋、網(wǎng)絡(luò)搜索、Python。

總的來(lái)說(shuō),就是比前一代的性能更強(qiáng)而且價(jià)格更低。

Agent 要被吃進(jìn)大模型了

消息一出,馬上就有網(wǎng)友曬出了兩個(gè)模型的“小球測(cè)試”結(jié)果,并配文:“這確實(shí)是迄今為止看到的最好的測(cè)試結(jié)果了?!?/p>

Agent 要被吃進(jìn)大模型了

也有網(wǎng)友曬出了滿(mǎn)血版 o3 和 o4-mini 在 HLM 基準(zhǔn)的中的排名,其中 OpenAI 的兩款新模型僅用了幾個(gè)小時(shí)的時(shí)間就穩(wěn)穩(wěn)的“盤(pán)”上了榜單前三,引得網(wǎng)友大呼震驚。

Agent 要被吃進(jìn)大模型了

Agent 要被吃進(jìn)大模型了

o3 與 o4 mini 全面進(jìn)化

除了網(wǎng)友們的測(cè)評(píng)結(jié)果外,我們也來(lái)看一下 OpenAI 給出的兩個(gè)模型的官方數(shù)據(jù)。

首先,o3 在多個(gè)基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,包括 Codeforces、SWE-bench 和 MMMU 等,刷新了多項(xiàng)紀(jì)錄。除此之外,o3 在應(yīng)對(duì)復(fù)雜現(xiàn)實(shí)任務(wù)時(shí),比 OpenAI o1 減少了 20% 的重大錯(cuò)誤,尤其在編程、商業(yè)咨詢(xún)和創(chuàng)意構(gòu)思領(lǐng)的方面能力最為突出。

Agent 要被吃進(jìn)大模型了

o4 mini 這邊,別看它體量不大,但專(zhuān)為快速、高效的推理任務(wù)而設(shè)計(jì),可以支持比 o3 更高的使用頻率。

在數(shù)學(xué)、編程和視覺(jué)任務(wù)上的表現(xiàn)依然非常亮眼。在 2025 年 AIME 數(shù)學(xué)競(jìng)賽中,借助 Python 解釋器的幫助,o4-mini 取得了99.5%的高分,幾乎達(dá)到了該測(cè)試的滿(mǎn)分水平。專(zhuān)家評(píng)估同樣顯示,它在非 STEM 任務(wù)以及數(shù)據(jù)科學(xué)領(lǐng)域的表現(xiàn)已經(jīng)超越了 o3-mini。

Agent 要被吃進(jìn)大模型了

此外,o3 和 o4-mini 首次實(shí)現(xiàn)了將圖像直接融入思維鏈的能力,它們不僅“看得見(jiàn)”圖像,更能“通過(guò)圖像思考”。這帶來(lái)了視覺(jué)與文本推理的全新融合方式,顯著提升了它們?cè)诙嗄B(tài)任務(wù)中的表現(xiàn)。

關(guān)于這點(diǎn),OpenAI 圖像推理研究員 Jiahui Yu 發(fā)文稱(chēng):“自最初推出 o 系列以來(lái),“圖像思考”始終是我們?cè)诟兄I(lǐng)域的核心戰(zhàn)略之一。早期發(fā)布的 o1 vision,曾為這一方向提供了初步的探索與預(yù)覽;而如今,隨著 o3 和 o4-mini 的發(fā)布,這一戰(zhàn)略終于以更為成熟和完整的形式落地。多模態(tài)能力的持續(xù)演進(jìn),不僅推動(dòng)了模型在理解世界方式上的躍升,也成為 OpenAI 實(shí)現(xiàn) AGI 愿景中不可或缺的關(guān)鍵一環(huán)?!?/p>

Agent 要被吃進(jìn)大模型了

模型性能毋庸置疑,而關(guān)于這兩款模型可以自由調(diào)用 ChatGPT 里的各種工具的能力,OpenAI 首席研究官 Mark Chen 也發(fā)文表示:一旦推理模型學(xué)會(huì)了端到端地使用工具,它們就會(huì)變得更加強(qiáng)大,而最新的 o 系列模型正在“向未來(lái)邁出的質(zhì)的一步”。

Agent 要被吃進(jìn)大模型了

所謂“質(zhì)的一步”,無(wú)非是將大模型的能力擴(kuò)展到目前最火的 Agent 領(lǐng)域,值得一提的是,這已經(jīng)不是 OpenAI 第一次向 Agent 領(lǐng)域進(jìn)發(fā)了。

今年年初,OpenAI 接連推出 Operator 和 Deep Research 兩個(gè)產(chǎn)品宣告向 Agent 進(jìn)發(fā),在此之前,他們還推出過(guò)一個(gè)類(lèi)似于代辦助手的 Agent 產(chǎn)品 —— ChatGPT tasks,來(lái)試了試水花。

而這次的滿(mǎn)血版 o3 和 o4 mini 則是支持直接調(diào)用 ChatGPT 里的各種工具,從之前的“聰明大腦”直接進(jìn)化為了“靈巧雙手”。

有網(wǎng)友在試過(guò)了 o3 最新模型的調(diào)用能力后表示,模型幫他做了一些需要跨工具才能完成的工作,這讓他感覺(jué)到了 Agent 給人們帶來(lái)的便捷。

Agent 要被吃進(jìn)大模型了

OpenAI 做 Agent,得天獨(dú)厚

關(guān)于如何才能做出真正的 Agent,目前坊間的主流觀點(diǎn)是:強(qiáng)化學(xué)習(xí)加基座模型。

但在 Agent 的實(shí)際研發(fā)中,大多數(shù)專(zhuān)注于 Agent 的公司并不具備自研基座模型的能力,能夠組建強(qiáng)化學(xué)習(xí)團(tuán)隊(duì)的更是鳳毛麟角。它們唯一的機(jī)會(huì),往往在于依靠強(qiáng)悍的工程能力持續(xù)打磨產(chǎn)品體驗(yàn),或通過(guò)差異化定位,探索某些功能層面的創(chuàng)新。

然而,由于缺乏底層模型的掌控權(quán),這樣的努力終究只是為自己在與大模型公司的賽道上爭(zhēng)取些許緩沖時(shí)間。正因如此,那些具備訓(xùn)練基礎(chǔ)模型能力的公司,在開(kāi)發(fā) Agent 時(shí),往往能夠?qū)崿F(xiàn)事半功倍的效果,占據(jù)天然優(yōu)勢(shì)。

巧合的是,Deep Research 團(tuán)隊(duì)曾在多次訪談中強(qiáng)調(diào),他們認(rèn)為基于強(qiáng)化學(xué)習(xí)的端到端訓(xùn)練是當(dāng)前 Agent 技術(shù)變革的關(guān)鍵所在,原因在于強(qiáng)化學(xué)習(xí)能夠有效突破傳統(tǒng) AI 系統(tǒng)在復(fù)雜場(chǎng)景中面臨的靈活性不足和泛化能力受限的問(wèn)題。

在此基礎(chǔ)上,疊加 OpenAI 本身在基礎(chǔ)模型上的強(qiáng)大優(yōu)勢(shì),或許不久之后,Agent 就會(huì)被吃進(jìn) ChatGTP 的某個(gè)版本之中。

Agent 要被吃進(jìn)大模型了

一位長(zhǎng)期從事 Agent 方向的研究人員曾對(duì) AI 科技評(píng)論表示:“用強(qiáng)化學(xué)習(xí)訓(xùn)練 Agent,本質(zhì)上更像是將語(yǔ)言模型的能力在特定環(huán)境中進(jìn)行定向強(qiáng)化和適配。也就是說(shuō),強(qiáng)化學(xué)習(xí)更多是在幫助語(yǔ)言模型在某一特定場(chǎng)景中“訓(xùn)得很好”。然而,目前許多學(xué)術(shù)研究仍停留在使用較基礎(chǔ)的 base model 進(jìn)行環(huán)境內(nèi)訓(xùn)練,這樣的工作即便做到極致,其成果也往往只是某個(gè)環(huán)境下的“特化版本”,難以實(shí)現(xiàn)跨環(huán)境的泛化能力,因此其實(shí)際意義和應(yīng)用價(jià)值仍然有限?!?/p>

順著這個(gè)點(diǎn)往下看,不難發(fā)現(xiàn)其實(shí) OpenAI 已經(jīng)同時(shí)掌握了基礎(chǔ)模型和訓(xùn)練方式,擁有從底層能力到上層產(chǎn)品的完整控制權(quán),也因此在定價(jià)方便擁有了更大的自主權(quán)。

例如,Deep Research 的 Agent 以每月 200 美金的價(jià)格對(duì)外訂閱,全部收入可以留在體系內(nèi)部,而那些依賴(lài)第三方模型的獨(dú)立 Agent 團(tuán)隊(duì),不僅受到 API 成本和模型性能波動(dòng)的限制,在產(chǎn)品定價(jià)上也顯得捉襟見(jiàn)肘。

“略知皮毛”不如洞徹本質(zhì),“套殼”并不是長(zhǎng)久之計(jì),這么一看,OpenAI 做 Agent,就得天獨(dú)厚。

開(kāi)源 Codex CLI

新模型之外,OpenAI 還開(kāi)源了一款本地代碼智能體:Codex CLI。它是一個(gè)輕量級(jí)的編碼助手,可直接在用戶(hù)的終端命令行中運(yùn)行,為的是充分發(fā)揮 o3、o4-mini 等模型的推理能力,緊密連接本地開(kāi)發(fā)環(huán)境,未來(lái)還會(huì)支持 GPT 4.1 等其他模型。

值得一提的是,它甚至支持通過(guò)截圖或手繪草圖進(jìn)行多模態(tài)編程,直接刷新了代碼交互與內(nèi)容理解的邊界。

Agent 要被吃進(jìn)大模型了

雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))觀察到,為了測(cè)試這個(gè)功能,在發(fā)布會(huì)的直播中,開(kāi)發(fā)人員還現(xiàn)場(chǎng)用 Codex CLI 展示了一波實(shí)施攝影的 ASCII 畫(huà)面,讓不少直播間網(wǎng)友大呼:“Intresting!”參考鏈接:

https://x.com/sama/status/1912558495997784441

https://news.ycombinator.com/item?id=43707719#43711155

https://github.com/openai/codex

https://x.com/jhyuxm/status/1912562461624131982


雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

Agent 要被吃進(jìn)大模型了

分享:
相關(guān)文章
當(dāng)月熱門(mén)文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶(hù)安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)