丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
業(yè)界 正文
發(fā)私信給二維馬曉寧
發(fā)送

0

32B 模型橫掃 SWE 任務(wù),這款代碼智能體模型有點(diǎn)東西

本文作者: 二維馬曉寧   2025-06-23 16:11
導(dǎo)語:AI 不要只做簡單的代碼生成,還要做復(fù)雜的軟件工程。

32B 模型橫掃 SWE 任務(wù),這款代碼智能體模型有點(diǎn)東西

(雷峰網(wǎng)文章)2025年不僅是智能體爆發(fā)元年,也是AI軟件工程的元年。以AI驅(qū)動(dòng)的自動(dòng)化軟件工程正加速重構(gòu)開發(fā)范式。

今天昆侖萬維官宣,開源代碼智能體Skywork-SWE-32B今日全球上線,以“小參數(shù)”重寫倉庫級(jí)修復(fù)規(guī)則。

這是開源生態(tài)對(duì)抗閉源巨頭的關(guān)鍵一役——Skywork-SWE-32B讓企業(yè)用消費(fèi)級(jí)顯卡部署AI工程師成為現(xiàn)實(shí)。

模型在SWE-bench-Verified上(OpenHands代碼輔助框架)將修復(fù)準(zhǔn)確率拉升至47.0%,一舉超越了現(xiàn)有參數(shù)規(guī)模在32B以下的開源模型,直逼Claude v3.7(56.0%)的閉源神話。

掙脫了閉源的枷鎖,AI正從“工具”升級(jí)為“協(xié)作者”,軟件工程才能真正迎來智能體驅(qū)動(dòng)的范式轉(zhuǎn)移。

現(xiàn)在,開發(fā)者可在Hugging Face領(lǐng)取這份“開源工程師”了。

技術(shù)報(bào)告:https://huggingface.co/Skywork/Skywork-SWE-32B/resolve/main/assets/Report.pdf

博客:https://quixotic-sting-239.notion.site/eb17f379610040ceb54da5d5d24065bd

模型權(quán)重:https://huggingface.co/Skywork/Skywork-SWE-32B

01

SWE任務(wù):對(duì)智能體模型的終極試煉

經(jīng)常寫代碼的人都知道,軟件工程(Software Engineering, SWE)任務(wù),可以說是難度遠(yuǎn)超一般的代碼生成任務(wù)。將大型語言模型驅(qū)動(dòng)的智能體投入真實(shí)的軟件工程任務(wù),絕非簡單的“寫代碼”指令所能涵蓋。

即使是人類工程師,處理陌生項(xiàng)目時(shí)首次修復(fù)正確率也不到70%。

現(xiàn)在,將一個(gè)SWE任務(wù)交給智能體模型,簡直像是要求一個(gè)“AI工程師”在極短的時(shí)間內(nèi),快速融入一個(gè)新團(tuán)隊(duì)接手一個(gè)龐大且不熟悉的遺留系統(tǒng),準(zhǔn)確理解一個(gè)模糊的Bug報(bào)告,找到根本原因,設(shè)計(jì)出符合團(tuán)隊(duì)規(guī)范且不會(huì)破壞任何其他功能的修復(fù)方案,并一次性提交正確的代碼變更。

這樣的“AI工程師”可真不好找。

超越傳統(tǒng)代碼生成的能力要求

和傳統(tǒng)的代碼生成相比,SWE的要求可謂是高得離譜。任何一個(gè)環(huán)節(jié)的薄弱,都可能導(dǎo)致智能體在復(fù)雜工程現(xiàn)實(shí)面前束手無策。

以上下文范圍問題為例吧。代碼生成關(guān)注語法和局部邏輯,就像只看見一棵樹;而軟件工程需要理解整片森林的生態(tài)系統(tǒng)。

說到修改某個(gè)函數(shù)時(shí),普通生成器只看函數(shù)本身,工程師卻要考慮十處調(diào)用點(diǎn)和三年前留下的TODO注釋。非技術(shù)層面更關(guān)鍵,那些從未寫在代碼里的團(tuán)隊(duì)規(guī)范要不要遵守?沒有寫在文檔里的性能底線,要不要了解?

這些可不是什么虛無縹緲的東西,做個(gè)“優(yōu)化排序算法”吧,代碼生成給出快排實(shí)現(xiàn)就結(jié)束;而SWE要考慮:為什么前任用冒泡排序(歷史)?會(huì)不會(huì)破壞報(bào)表模塊的調(diào)用(依賴)?是否符合內(nèi)存限制(約束)?

看似只是一個(gè)簡單的需求,實(shí)際上已經(jīng)給智能體上了無數(shù)道枷鎖,對(duì)模型的能力要求也是高了不止一個(gè)level。

你以為這就完了嗎?

在SWE的開發(fā)中,每個(gè)決策都涉及多維度的取舍,需求、環(huán)境和工具鏈都在發(fā)生持續(xù)的變化,任何修改都會(huì)產(chǎn)生漣漪效應(yīng),智能體與開發(fā)者或者工程師進(jìn)行多輪、深入、澄清性對(duì)話,最好還是能主動(dòng)提問以消除需求歧義。

現(xiàn)在知道,昆侖萬維想要做倉庫級(jí)代碼修復(fù)能力的模型,有多不容易了吧。

現(xiàn)有SWE數(shù)據(jù)集的三大致命缺陷

這是對(duì)智能體模型的工程實(shí)踐水平與系統(tǒng)性思維能力的全面考驗(yàn),想要訓(xùn)練出足夠優(yōu)秀的模型,困難究竟卡在哪里了呢?

在大量的從業(yè)者看來,SWE模型訓(xùn)練最大的bug,還是出在數(shù)據(jù)集上。宣稱能驅(qū)動(dòng)智能體執(zhí)行軟件工程任務(wù)的大模型,其能力基石在于訓(xùn)練數(shù)據(jù)。

盡管已有不少工作聚焦于SWE任務(wù)并收集了相關(guān)的數(shù)據(jù)集,但當(dāng)前的主流數(shù)據(jù)集仍存在三大核心問題,嚴(yán)重阻礙了該領(lǐng)域的進(jìn)一步發(fā)展。它們?nèi)缤林氐逆i鏈,將模型的潛力死死禁錮在實(shí)驗(yàn)室的牢籠中,使其難以突破理論演示的邊界,邁向真實(shí)的工程戰(zhàn)場。

第一大問題,缺乏可執(zhí)行環(huán)境與驗(yàn)證機(jī)制。

已有開源數(shù)據(jù)(如 SWE-bench-extra、SWE-Fixer)通常缺乏環(huán)境或單元測(cè)試來驗(yàn)證數(shù)據(jù)正確性,導(dǎo)致生成的修復(fù)難以驗(yàn)證。

第二大問題,高質(zhì)量訓(xùn)練數(shù)據(jù)稀缺。

盡管某些數(shù)據(jù)集規(guī)模較大(如 SWE-Dev、SWE-Gym),但缺乏經(jīng)過嚴(yán)格驗(yàn)證的訓(xùn)練樣本,公開可用的高質(zhì)量數(shù)據(jù)極為有限,導(dǎo)致開源模型在 SWE 任務(wù)上落后于閉源模型。

第三大問題:數(shù)據(jù)規(guī)模法則適用性不明確。

相較于自然語言領(lǐng)域中的任務(wù),SWE任務(wù)現(xiàn)有的公開訓(xùn)練數(shù)據(jù)體量較小,尚無法有效驗(yàn)證數(shù)據(jù)擴(kuò)展是否能帶來模型能力的持續(xù)增長。

唯有跨越這數(shù)據(jù)鴻溝,智能體才有望從“代碼補(bǔ)全工具”蛻變?yōu)橹档眯刨嚨摹肮こ袒锇椤薄?/p>

誰能想到,這個(gè)眾多國內(nèi)外公司都無法取得突破的問題,竟然就被昆侖萬維這家國內(nèi)的AI公司給實(shí)現(xiàn)了呢?

02

Skywork-SWE-32B的破局之道

為什么是昆侖萬維?可能不少人會(huì)有這樣的疑問。

昆侖萬維作為中國AI開源領(lǐng)域的先行者,自2022年底發(fā)布并開源“昆侖天工”AIGC全系列算法模型以來,持續(xù)深耕AGI,既有著技術(shù)突破,又有全面前瞻的生態(tài)布局。

2023年昆侖萬維就開源了130億參數(shù)模型Skywork-13B系列,配套發(fā)布當(dāng)時(shí)最大的中文數(shù)據(jù)集Skypile-150B(600GB),2024年開源全球首個(gè)支持單臺(tái)RTX 4090服務(wù)器推理的千億MoE稀疏模Skywork-MoE,推理成本降低3倍,性能接近70B稠密模型。前段時(shí)間中國大陸首個(gè)對(duì)標(biāo)OpenAI deep research的天工超級(jí)智能體,也是昆侖萬維推出的agent產(chǎn)品。

既有技術(shù)能力,又有工程思維,能夠做出來倉庫級(jí)代碼修復(fù)能力的智能體模型,也是順理成章了。

為了Skywork-SWE-32B,昆侖萬維團(tuán)隊(duì)構(gòu)建了一套自動(dòng)化、結(jié)構(gòu)化、可復(fù)現(xiàn)的SWE數(shù)據(jù)收集與驗(yàn)證流程,共分為3個(gè)階段、9個(gè)步驟,最終構(gòu)建出超1萬條高質(zhì)量任務(wù)實(shí)例、8千條多輪交互的軌跡,為模型訓(xùn)練提供堅(jiān)實(shí)基礎(chǔ)。

構(gòu)建萬級(jí)可驗(yàn)證閉環(huán)數(shù)據(jù)集

32B 模型橫掃 SWE 任務(wù),這款代碼智能體模型有點(diǎn)東西

數(shù)據(jù)構(gòu)建流程圖

圖中顯示,三個(gè)階段分別為,A.數(shù)據(jù)采集與預(yù)篩選、B.基于執(zhí)行的驗(yàn)證機(jī)制、C.智能體軌跡生成,每個(gè)階段又有主要的三個(gè)步驟。

數(shù)據(jù)采集與預(yù)篩選階段,先通過 GitHub API 抓取超過 15 萬個(gè)開源倉庫的元信息,處理后最終獲得 8,472 個(gè)有效倉庫的元信息,再通過收集與任務(wù)初篩構(gòu)建出初始的146,568個(gè)任務(wù)樣本,最后安裝驗(yàn)證保留23,389個(gè)任務(wù)樣本。

32B 模型橫掃 SWE 任務(wù),這款代碼智能體模型有點(diǎn)東西

數(shù)據(jù)構(gòu)建過程中各個(gè)階段數(shù)據(jù)樣本量變化圖

基于執(zhí)行的驗(yàn)證機(jī)制階段, 統(tǒng)一命令生成,Docker環(huán)境構(gòu)建,最后進(jìn)行單元測(cè)試驗(yàn)證。

最后一個(gè)智能體軌跡生成階段,首先要對(duì)每個(gè)任務(wù)執(zhí)行最多100輪交互,完成智能體軌跡生成,Patch級(jí)驗(yàn)證,最終累計(jì)收集8,209條高質(zhì)量、長上下文、多輪交互的驗(yàn)證通過軌跡,構(gòu)建訓(xùn)練樣本庫。

32B 模型橫掃 SWE 任務(wù),這款代碼智能體模型有點(diǎn)東西

Skywork-SWE數(shù)據(jù)集的GitHub倉庫詞云圖

這樣構(gòu)建的Skywork-SWE數(shù)據(jù)集,在任務(wù)數(shù)量與代碼覆蓋廣度上遠(yuǎn)超現(xiàn)有同類數(shù)據(jù)集(如SWE-Gym Lite與SWE-bench Verified),不僅涵蓋如 Pydantic、SQLGlot、DVC 等主流開源GitHub項(xiàng)目,還包含大量中小型倉庫,為大模型提供了豐富、多樣且貼近實(shí)際的軟件工程任務(wù)樣本,持續(xù)推動(dòng)智能體模型的能力演進(jìn)。

系統(tǒng)性驗(yàn)證軟件工程Scaling Law的機(jī)會(huì)

基于Skywork-SWE數(shù)據(jù)集的高質(zhì)量智能體軌跡,選用目前最具自主性的開源OpenHands框架,昆侖萬維團(tuán)隊(duì)訓(xùn)練了Skywork-SWE-32B模型。看這款模型的參數(shù)和得分,真給開源界整了個(gè)大活兒。

Skywork-SWE-32B基于開源OpenHands Agent框架,實(shí)現(xiàn)了38.0% pass@1的準(zhǔn)確率,在32B規(guī)模的開源代碼智能體中達(dá)到了當(dāng)前最優(yōu)水平。

這說明什么?同尺寸模型里最能打,沒有之一!

更為關(guān)鍵的是,實(shí)驗(yàn)結(jié)果進(jìn)一步表明:Scaling Law在SWE任務(wù)上也成了。

以前我們說,跟語言任務(wù)不一樣,SWE任務(wù)現(xiàn)有的公開訓(xùn)練數(shù)據(jù)體量較小,尚無法有效驗(yàn)證數(shù)據(jù)擴(kuò)展是否能帶來模型能力的持續(xù)增長。

但是現(xiàn)在,這個(gè)論點(diǎn)被昆侖萬維證實(shí)了。

只要訓(xùn)練數(shù)據(jù)規(guī)模能夠持續(xù)擴(kuò)展,模型性能就能持續(xù)提升,在軟件工程任務(wù)中,這句話一樣有效,一樣有用。

32B 模型橫掃 SWE 任務(wù),這款代碼智能體模型有點(diǎn)東西

38.0% 性能就是Skywork-SWE-32B的極限了嗎?不是。

加上測(cè)試時(shí)擴(kuò)展(Test-Time Scaling, TTS),模型性能直接原地起飛到47.0%。單槍匹馬干翻所有同框架模型不說,甚至把671B參數(shù)的DeepSeek-V3-0324都給卷了,領(lǐng)先整整8.2個(gè)百分點(diǎn),小模型打敗十倍大模型的經(jīng)典場景復(fù)刻。

32B 模型橫掃 SWE 任務(wù),這款代碼智能體模型有點(diǎn)東西

在這個(gè)領(lǐng)域,Claude和OpenAI的系列閉源模型才是王者。比起來的話:

加了TTS,Skywork-SWE-32B 顯著超越了GPT-4.1-mini(23.86%)、 Claude 3.5 HaiKu(40.6%)和 OpenAI-o1-preview (41.3%),并且領(lǐng)先于Claude v3.5(46.0%)。

高性能的開源模型,對(duì)于企業(yè)想私有化部署特別有吸引力。

它們不僅保障了核心數(shù)據(jù)在本地環(huán)境的安全可控,規(guī)避了隱私泄露風(fēng)險(xiǎn),更賦予了企業(yè)根據(jù)自身業(yè)務(wù)需求深度定制和優(yōu)化的自由,無需持續(xù)支付高昂的API費(fèi)用。

開源模型DeepSeek-V3 就曾憑借其強(qiáng)大的性能成為不少企業(yè)和組織的首選,Skywork-SWE-32B對(duì)于有SWE需求的企業(yè)來說,同樣有著足夠的吸引力。

03

推動(dòng)軟件開發(fā)范式新進(jìn)化

今年2月5日,OpenAI首席執(zhí)行官Sam Altman在公開場合談到了AI如何改變軟件工程,他的說法是,“到2025年底,軟件工程將發(fā)生翻天覆地的變化。這不僅意味著開發(fā)效率的大幅提升,還可能對(duì)網(wǎng)絡(luò)安全產(chǎn)生深遠(yuǎn)的影響?!?/p>

這個(gè)預(yù)言正在被實(shí)現(xiàn)。

AI對(duì)軟件開發(fā)范式的重構(gòu)已從“工具輔助”階段邁入“智能體主導(dǎo)”的新時(shí)代,推動(dòng)開發(fā)流程、協(xié)作模式、技術(shù)門檻與行業(yè)標(biāo)準(zhǔn)的系統(tǒng)性變革。

Skywork-SWE-32B的出現(xiàn),是這個(gè)變化趨勢(shì)中的特殊時(shí)刻。這不僅是技術(shù)上的升級(jí),更是開發(fā)哲學(xué)的根本轉(zhuǎn)向。

高質(zhì)量且可執(zhí)行驗(yàn)證的數(shù)據(jù)是提升代碼智能體模型性能的關(guān)鍵瓶頸。系統(tǒng)化的數(shù)據(jù)擴(kuò)展策略將在推動(dòng)開源模型性能突破中發(fā)揮關(guān)鍵作用。

智能體開始承擔(dān)需求分析、架構(gòu)設(shè)計(jì)等核心決策任務(wù),推動(dòng)開發(fā)流程從線性流水線向動(dòng)態(tài)自適應(yīng)演進(jìn)。傳統(tǒng)“人主導(dǎo)工具”的協(xié)作模式正被顛覆。

昆侖萬維發(fā)布的Skywork-SWE正在進(jìn)一步拓展多編程語言支持以覆蓋更廣泛的開發(fā)場景,并探索融合運(yùn)行時(shí)測(cè)試反饋的強(qiáng)化學(xué)習(xí)機(jī)制,為構(gòu)建真正具備智能軟件開發(fā)能力的大語言模型奠定堅(jiān)實(shí)基礎(chǔ)。

雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))


雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

分享:
相關(guān)文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說