純蒸餾模型 SOTA 出現(xiàn)！直接 SFT 成本直降 50 倍，數(shù)據(jù)已全部開源

本文作者：郭海惟

2025-05-22 10:21

導(dǎo)語：純蒸餾 SFT 的推理模型性能對(duì)標(biāo)一眾 SFT + RL 模型。

a-m-team 又發(fā)新論文了。

這個(gè)團(tuán)隊(duì)上周剛剛在 Hugging Face 低調(diào)開源了32B稠密模型，但在多項(xiàng)關(guān)鍵推理評(píng)測中擊敗了 DeepSeek-R1，并與超大規(guī)模的 MoE 模型Qwen3-235B-A22B、Seed1.5-Thinking 不相上下，因此贏得了海內(nèi)外的不少關(guān)注。

今天，a-m-team 發(fā)布了一篇名為“Not All Correct Answers Are Equal: Why Your Distillation Source Matters”的論文，介紹了 R1 之后下一代推理模型的小進(jìn)展。

在這篇論文中，研究團(tuán)隊(duì)發(fā)現(xiàn)基于 AM-Thinking-v1 的問答數(shù)據(jù)“純蒸餾”（即只用SFT）訓(xùn)練出的“學(xué)生模型”，竟然在多個(gè)高難推理任務(wù)上接近甚至達(dá)到當(dāng)前最優(yōu)水平（SOTA），不僅超過了Qwen3-32B，甚至接近了 Qwen3-235B 這樣大一個(gè)數(shù)量級(jí)的模型表現(xiàn)。

純蒸餾模型 SOTA 出現(xiàn)！直接 SFT 成本直降 50 倍，數(shù)據(jù)已全部開源

論文鏈接：https://arxiv.org/pdf/2505.14464

在大模型能力競賽持續(xù)推進(jìn)的今天，如何以更低的訓(xùn)練成本獲得更強(qiáng)的推理能力，成為開源社區(qū)面臨的核心挑戰(zhàn)之一。

相比于 SFT+RL 的訓(xùn)練方式，只用 SFT 意味著著數(shù)十倍的成本縮減——也就是說，沒有強(qiáng)化學(xué)習(xí)能力的企業(yè)級(jí)玩家將 AM-Thinking-v1 蒸餾版拿去直接 SFT 后落地，能夠大幅提升應(yīng)用效率、降低落地成本。

這意味著開源社區(qū)未來能以更低的訓(xùn)練成本，獲得更強(qiáng)的推理能力。而這項(xiàng)工作成立的前提條件是，需要能有良好的數(shù)據(jù)源。

換言之，假如數(shù)據(jù)源能驅(qū)動(dòng)蒸餾模型的成長，那么蒸餾也將不只是一個(gè)簡簡單單的智能“壓縮”動(dòng)作，而是會(huì)有潛力成為在開源社區(qū)生態(tài)中螺旋生長的系統(tǒng)性工程。

什么樣的數(shù)據(jù)源更有效？

蒸餾（Distillation）作為一種低成本、高效率的訓(xùn)練方式，已被廣泛用于模型壓縮與能力遷移。一般情況下，基于GRPO 或者 PPO 的 RL 訓(xùn)練，但一個(gè)被長期忽視的問題是：你的蒸餾源選對(duì)了嗎？

a-m-team 近期開源了一套基于 AM-Thinking-v1 和 Qwen3-235B-A22B 兩個(gè)頂尖大模型生成的推理蒸餾數(shù)據(jù)集。通過對(duì) 189 萬條高質(zhì)量推理任務(wù)的并行蒸餾對(duì)比分析發(fā)現(xiàn)：

基于 AM-Thinking-v1 蒸餾訓(xùn)練出的學(xué)生模型在多個(gè)高難推理任務(wù)上接近甚至達(dá)到當(dāng)前最優(yōu)水平（SOTA）；

這份開源數(shù)據(jù)集為低成本構(gòu)建強(qiáng)推理能力模型提供了扎實(shí)支撐；

用同樣的學(xué)生模型、訓(xùn)練配置、benchmark 套件對(duì)比訓(xùn)練結(jié)果；

開源其中兩份（AM-Thinking-v1 和 Qwen3-235B-A22B）的數(shù)據(jù)以供社區(qū)驗(yàn)證。

正如本篇論文一語雙關(guān)的主標(biāo)題，“Not All Correct Answers Are Equal”——不同的模型，如果生成相似正確的答案，但并不代表他們都有相同的價(jià)值。因?yàn)榛谶@個(gè)正確答案背后的數(shù)據(jù)源質(zhì)量、結(jié)構(gòu)存在差異，自然對(duì)后續(xù)訓(xùn)練的貢獻(xiàn)可能存在顯著差異。

a-m-team研究以自家最新發(fā)布的AM-Thinking-v1為例，根據(jù)其團(tuán)隊(duì)研究，以AM-Thinking-v1為教師模型培訓(xùn)出來的純蒸餾模型，相比于Qwen3-235B-A22和DeepSeek-R1的蒸餾模型在性能上有著顯著的領(lǐng)先優(yōu)勢。

純蒸餾模型 SOTA 出現(xiàn)！直接 SFT 成本直降 50 倍，數(shù)據(jù)已全部開源

不僅如此，AM蒸餾過程中的損失曲線也是最低的，這點(diǎn)其實(shí)從圖一的評(píng)分排列中也可見一斑。如下圖所示，AM長期保持了遠(yuǎn)低于其他模型的基準(zhǔn)損耗。

純蒸餾模型 SOTA 出現(xiàn)！直接 SFT 成本直降 50 倍，數(shù)據(jù)已全部開源

損耗低的背后是 AM 團(tuán)隊(duì)本身提供了更適合學(xué)習(xí)的高質(zhì)量的數(shù)據(jù)。

a-m-team 團(tuán)隊(duì)對(duì)從三個(gè)不同的大規(guī)模模型 AM-Thinking-v1、Qwen3-235B-A22B和 DeepSeek-R1的訓(xùn)練數(shù)據(jù)進(jìn)行了詳細(xì)分析后，認(rèn)為這種分?jǐn)?shù)差異來或許自于他們?cè)跀?shù)據(jù)結(jié)構(gòu)上的優(yōu)勢。

純蒸餾模型 SOTA 出現(xiàn)！直接 SFT 成本直降 50 倍，數(shù)據(jù)已全部開源

首先，AM的token 長度分布更加多樣。

如下圖專門展示了數(shù)學(xué)實(shí)例的詞元跨度分布情況。結(jié)果表明，AM-Thinking-v1 的數(shù)學(xué)數(shù)據(jù)呈現(xiàn)出高度分散的分布狀態(tài)，呈現(xiàn)了更多的短序列。

這意味著，AM的響應(yīng)跨度廣——它既能生成簡潔的1024 token以內(nèi)回復(fù)，也能輸出超過 10240 token 的復(fù)雜推理鏈，這種“長短結(jié)合”的分布為模型的自適應(yīng)能力提供了數(shù)據(jù)支撐。

純蒸餾模型 SOTA 出現(xiàn)！直接 SFT 成本直降 50 倍，數(shù)據(jù)已全部開源

其次，AM 模型數(shù)據(jù)源的困惑度更低，數(shù)據(jù)質(zhì)量更高。

研究稱，AM 的平均Perplexity(PPL)數(shù)值為2.5，低于Qwen3.0和DeepSeek R1 2.9，表明 AM 的數(shù)據(jù)在語言流暢性、連貫性等方面更優(yōu)，這或許代表其適合用于訓(xùn)練結(jié)構(gòu)化 reasoning 過程。

純蒸餾模型 SOTA 出現(xiàn)！直接 SFT 成本直降 50 倍，數(shù)據(jù)已全部開源

而由于更好的數(shù)據(jù)結(jié)構(gòu)，除了跑分領(lǐng)先外，生成行為也更符合“人類推理模式”。

研究者聲稱，在較難的任務(wù)中（如下圖AIME2024\2025），AM 蒸餾模型會(huì)自動(dòng)生成更長 reasoning 過程，而在較簡單任務(wù)（如下圖中 MATH500）中則保持簡明。

這意味著模型保持了一個(gè)較好的長調(diào)度能力。

純蒸餾模型 SOTA 出現(xiàn)！直接 SFT 成本直降 50 倍，數(shù)據(jù)已全部開源

從不服跑個(gè)分，到不服蒸個(gè)餾？

a-m-team宣布開源了它的蒸餾數(shù)據(jù)，主要包括AM-Thinking-v1 Distilled Dataset和Qwen3-235B-A22B Distilled Dataset。其中每條數(shù)據(jù)都包含：

標(biāo)準(zhǔn)化 prompt；

符合驗(yàn)證標(biāo)準(zhǔn)的 + 格式推理鏈；

精準(zhǔn)分任務(wù)分類（數(shù)學(xué)、代碼、科學(xué)、指令、多輪對(duì)話等）；

驗(yàn)證分?jǐn)?shù)（均高于 0.9）及自動(dòng)評(píng)分信息。

研究者希望，這份數(shù)據(jù)集不僅能助力社區(qū)低成本達(dá)成強(qiáng)推理能力，更能夠?yàn)楹罄m(xù) RLHF、CoT 微調(diào)、可控生成等高級(jí)能力構(gòu)建提供基礎(chǔ)。同時(shí)，AM團(tuán)隊(duì)也正在試水更廣泛的模型改進(jìn)和應(yīng)用場景。

正如AM團(tuán)隊(duì)在一篇分析文章中指出，“蒸餾數(shù)據(jù)的選擇不再是技術(shù)細(xì)節(jié)，而是決定性能上限的關(guān)鍵因素?！眱?yōu)質(zhì)的蒸餾數(shù)據(jù)源未來或許將直接影響訓(xùn)練效率和性能上限。

而對(duì)于模型觀察者來說，AM團(tuán)隊(duì)在本次論文中旗幟鮮明地提出了“Not All Correct Answers Are Equal”，其實(shí)也是對(duì)現(xiàn)階段模型的一種全新反思框架：

尤其在評(píng)分差異與用戶感知逐漸脫節(jié)，許多從業(yè)者對(duì)評(píng)分審美疲勞的今天，什么樣的開源大模型才更可以被稱作領(lǐng)先的？蒸餾背后體現(xiàn)的數(shù)據(jù)結(jié)構(gòu)或許會(huì)是一個(gè)全新的視角。

近日，大家都在感嘆：DeepSeek 的 R1 之后，大模型已經(jīng)很久沒有新的技術(shù)突破了。但實(shí)際證明，默默在認(rèn)真研究技術(shù)的團(tuán)隊(duì)還在不斷創(chuàng)新和取得貢獻(xiàn)。

（雷峰網(wǎng)(公眾號(hào)：雷峰網(wǎng))）

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

0人收藏

相關(guān)文章

郭海惟

高級(jí)主筆

微信：hai2023zi

掃描關(guān)注作者微信

發(fā)私信

當(dāng)月熱門文章

純蒸餾模型 SOTA 出現(xiàn)！直接 SFT 成本直降 50 倍，數(shù)據(jù)已全部開源

什么樣的數(shù)據(jù)源更有效？

從不服跑個(gè)分，到不服蒸個(gè)餾？

純蒸餾模型 SOTA 出現(xiàn)！直接 SFT 成本直降 50 倍，數(shù)據(jù)已全部開源

從不服跑個(gè)分，到不服蒸個(gè)餾？