多模態(tài)新旗艦MiniCPM-V 4.5：8B 性能超越 72B，高刷視頻理解又準又快

本文作者：徐咪

2025-08-27 11:50

導(dǎo)語：最終，通過輕量化的 RLAIF-V 訓(xùn)練階段，模型在保持推理能力的同時顯著降低了幻覺

今天，我們正式開源 8B 參數(shù)的面壁小鋼炮 MiniCPM-V 4.5 多模態(tài)旗艦?zāi)Ｐ?，成為行業(yè)首個具備“高刷”視頻理解能力的多模態(tài)模型，看得準、看得快，看得長！高刷視頻理解、長視頻理解、OCR、文檔解析能力同級 SOTA，且性能超過 Qwen2.5-VL 72B，堪稱最強端側(cè)多模態(tài)模型。

? MiniCPM-V 4.5 亮點一覽

? 首個「高刷視頻理解」多模態(tài)模型，兼顧性能與效率：高刷視頻理解同級 SOTA 且超過 Qwen2.5-VL 72B 越級領(lǐng)先；同等視覺 token 開銷下， MiniCPM-V 4.5 可接收 6 倍視頻幀數(shù)量，達到 96 倍視覺壓縮率，是同類模型的 12-24 倍；

? 最強多模態(tài) SOTA 模型：圖片理解、長視頻理解、OCR、文檔解析同級 SOTA，且超過 Qwen2.5-VL 72B 達到越級領(lǐng)先；

??? 端側(cè)友好：提供 SOTA 級多模態(tài)表現(xiàn)的同時，帶來最佳的推理效率，顯存占用、平均推理時間等領(lǐng)先優(yōu)勢顯著；

? 支持長思考、短思考可控混合推理，性能好、速度快。

? 模型鏈接

? Github：

https://github.com/OpenBMB/MiniCPM-o

? Hugging Face:

https://huggingface.co/openbmb/MiniCPM-V-4_5

? ModelScope:

https://www.modelscope.cn/models/OpenBMB/MiniCPM-V-4_5

首個高刷視頻理解

兼顧性能與效率

看得更清更準，才能減少視覺信息的誤差，提升視覺理解與推理準確性。更高刷新率，是畫面流暢度的關(guān)鍵。

此前，主流的多模態(tài)模型在處理視頻理解任務(wù)中，因為平衡算力、功耗等因素，通常采取 1 fps 抽幀，即每秒只能截取 1 幀畫面進行識別和理解。雖然一定程度上保證了模型推理效率，但也因此缺失了絕大部分視覺信息，降低了多模態(tài)大模型對動態(tài)世界「精細化」的理解。

MiniCPM-V 4.5 是行業(yè)首個具備高刷視頻理解能力的多模態(tài)模型，通過將模型結(jié)構(gòu)從 2D-Resampler 拓展為 3D-Resampler，進行三維視頻片段的高密度壓縮，在同等視覺 Token 量開銷下的情況下，最大可接收 6 倍視頻幀數(shù)量，達到 96 倍視覺壓縮率，是同類模型的 12-24 倍。

MiniCPM-V 4.5 通過顯著增加抽幀頻次，從看「PPT」變成理解「動態(tài)畫面」，瞬間捕捉，洞見細節(jié)！面對一閃而過的畫面，MiniCPM-V 4.5 要比 Gemini-2.5-Pro、GPT-5、GPT-4o 等代表性云端模型看得更準、更細。

在 MotionBench、FavorBench 兩項體現(xiàn)高刷視頻理解能力的榜單中，MiniCPM-V 4.5 達到同尺寸 SOTA，且超過 Qwen2.5-VL 72B，實現(xiàn)越級領(lǐng)先水平。

多模態(tài)新旗艦MiniCPM-V 4.5：8B 性能超越 72B，高刷視頻理解又準又快

最強端側(cè)多模態(tài)

圖片、視頻理解全 SOTA

以小博大，一直是面壁小鋼炮 MiniCPM 的模型特色。這一次，MiniCPM-V 4.5 憑借 8B 參數(shù)，在圖片理解、視頻理解、復(fù)雜文檔識別等多模態(tài)能力上再次刷新能力上限。

多模態(tài)新旗艦MiniCPM-V 4.5：8B 性能超越 72B，高刷視頻理解又準又快

圖片理解性能上，MiniCPM-V 4.5 在 OpenCompass 測評中，領(lǐng)先 GPT-4o、GPT-4.1、Gemini-2.0-Pro 等眾多閉源模型，甚至超過 Qwen2.5-VL 72B，實現(xiàn)越級領(lǐng)先。

多模態(tài)新旗艦MiniCPM-V 4.5：8B 性能超越 72B，高刷視頻理解又準又快

視頻理解性能上，MiniCPM-V 4.5 在 LVBench、MLVU、Video-MME、LongVideoBench 等榜單中，均達到同級最佳水平。

多模態(tài)新旗艦MiniCPM-V 4.5：8B 性能超越 72B，高刷視頻理解又準又快

在復(fù)雜文檔識別任務(wù)中，MiniCPM-V 4.5 在 OmniDocBench 榜單的 OverallEdit、TextEdit、TableEdit 三項指標上，均取得了通用多模態(tài)模型同級別的 SOTA 表現(xiàn)。

多模態(tài)新旗艦MiniCPM-V 4.5：8B 性能超越 72B，高刷視頻理解又準又快

此外，MiniCPM-V 4.5 同時支持常規(guī)模式和深度思考模式，實現(xiàn)了性能與響應(yīng)速度的有效平衡，常規(guī)模式在絕大部分場景下提供出色的多模態(tài)理解能力，深度思考模式則專注于應(yīng)對復(fù)雜與復(fù)合型推理任務(wù)。

極致推理性價比

端側(cè)應(yīng)用優(yōu)選

在端側(cè) AI 應(yīng)用持續(xù)升溫的當(dāng)下，模型能力再強，如果無法在端側(cè)設(shè)備上穩(wěn)定、流暢運行，一切都是空談。

面壁小鋼炮 MiniCPM 不斷提升模型的「能力密度」，也一直致力于追求大模型的極致「能效比」，通過更低的顯存占用、更快的響應(yīng)速度，確保在提供 SOTA 級多模態(tài)表現(xiàn)的同時，也實現(xiàn)最佳的推理效率和最低的推理開銷。

在視頻理解榜單 VideoMME、以及單圖OpenCompass測試中，MiniCPM-V 4.5 達到同級 SOTA 水平，顯存占用、平均推理時間等方面領(lǐng)先優(yōu)勢顯著。

其中，在覆蓋短、中、長三種類型的視頻理解評測集 Video-MME 上，MiniCPM-V 4.5 采用 3 幀打包策略進行推理，時間開銷（未計算模型抽幀時間）僅為同級模型的 1/10 。

多模態(tài)新旗艦MiniCPM-V 4.5：8B 性能超越 72B，高刷視頻理解又準又快

技術(shù)解析

MiniCPM-V 4.5 作為多模態(tài)模型的新旗艦，之所以具備「高刷」視頻理解能力、并取得圖片理解、OCR、長視頻理解等 SOTA ，主要得益于在模型結(jié)構(gòu)、訓(xùn)練范式等領(lǐng)域的創(chuàng)新。

3D-Resampler 實現(xiàn)高密度視頻壓縮

當(dāng)前，制約多模態(tài)模型視頻理解能力的最核心挑戰(zhàn)是性能和效率的 Trade-off，即模型需要看更多視頻幀，才能獲取更精細的信息以提高理解上限；而模型融入太多視頻幀，又會造成顯存、推理速度等開銷爆炸。由于局部片段的不同視頻幀之間存在信息冗余性，即大部分視覺信息不變，僅有少部分信息發(fā)生變化，存在很大的信息壓縮空間。MiniCPM-V 4.5 將模型結(jié)構(gòu)從 2D-Resampler 拓展為 3D-Resampler，進行三維視頻片段的高密度壓縮。具體來說，視頻會按照每N個視頻幀一組分組（分組尺寸最大為 6 ），3D-Resampler 會對每個視頻組壓縮編碼，得到 64 個視覺token（與編碼單圖視覺token數(shù)量相同），最終在推理開銷不變的情況下，最大 10 fps 抽幀，實現(xiàn)了模型高刷視頻理解能力。得益于 Resampler 機制的靈活性，我們可以在推理階段靈活調(diào)整視頻分組尺寸，同時支持單圖、多圖、視頻的統(tǒng)一編碼（即單圖編碼視為 3D 視頻編碼的 2D 特例），方便知識和能力遷移。

面向多頁文檔圖片的統(tǒng)一 OCR 和知識推理學(xué)習(xí)

「對文字的識別解析」和「從文檔中學(xué)習(xí)知識」是多模態(tài)大模型的兩個重要課題，但這兩個方向的學(xué)習(xí)范式割裂，并且分別受到圖像樣例難度和解析準確性的限制。提升 OCR 能力往往需要補充更豐富且難的數(shù)據(jù)，數(shù)據(jù)增廣（例如對圖像中文字加高斯噪音）往往會被采用，以提升數(shù)據(jù)的難度和多樣性，但是過大的增廣會使得文字不可讀，反而會導(dǎo)致模型幻覺。在文檔知識學(xué)習(xí)方面，大部分工作會將文檔解析成為圖文交替數(shù)據(jù)進行學(xué)習(xí)，嚴重受到文解析工具錯誤的影響。

MiniCPM-V 4.5 連續(xù)控制圖像中的「文字信息可見度」，使得多模態(tài)模型在 OCR 和知識學(xué)習(xí)兩種模式之間無縫切換，首次實現(xiàn)了OCR 和知識學(xué)習(xí)兩種學(xué)習(xí)范式的有效融合，且不會受到過難增廣和解析錯誤的影響。具體來說，我們首先提取出文檔中的文字框（這通常是非常準確的，大部分解析錯誤來源于排版、閱讀順序、低信息量圖文噪音錯誤），然后對文字框內(nèi)區(qū)域進行不同程度的噪音增廣。當(dāng)施加噪音較小，文字處于尚可辨別范圍內(nèi)時，模型會 OCR 學(xué)習(xí)識別文字；當(dāng)施加噪音較大，文字無法辨認時，模型會自動進入知識學(xué)習(xí)，根據(jù)文檔的多模態(tài)上下文還原文字；當(dāng)噪音介于兩者之間，模型會進行混合能力的學(xué)習(xí)?；谏鲜黾夹g(shù)，MiniCPM-V 4.5 低成本實現(xiàn)了領(lǐng)先的 OCR 能力和多模態(tài)知識能力。

通用域混合推理強化學(xué)習(xí)

深度思考推理能力極大拓展了多模態(tài)大模型的推理能力邊界，但在常見問題場景中，也往往伴隨過高的推理延遲。MiniCPM-V 4.5 同時支持常規(guī)模式和深度思考模式，實現(xiàn)了性能與響應(yīng)速度的有效平衡：常規(guī)模式在絕大部分場景下提供出色的多模態(tài)理解能力，深度思考模式則專注于應(yīng)對復(fù)雜與復(fù)合型推理任務(wù)。為了讓模型在兩種模式下都具備出色性能，MiniCPM-V 4.5 提出了混合推理的強化學(xué)習(xí)訓(xùn)練方案，在強化學(xué)習(xí)過程中同時激活常規(guī)和深度思考模式，實現(xiàn)在相同訓(xùn)練時長下顯著更強的常規(guī)模式性能和相似的深度思考模式性能。借助 RLPR 技術(shù)，MiniCPM-V 4.5 進一步從通用域多模態(tài)推理數(shù)據(jù)上獲得高質(zhì)量的獎勵信號，以提升廣泛通用領(lǐng)域的推理能力。最終，通過輕量化的 RLAIF-V 訓(xùn)練階段，模型在保持推理能力的同時顯著降低了幻覺。

雷峰網(wǎng)版權(quán)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

0人收藏

相關(guān)文章

徐咪

編輯

發(fā)私信

當(dāng)月熱門文章

多模態(tài)新旗艦MiniCPM-V 4.5：8B 性能超越 72B，高刷視頻理解又準又快

多模態(tài)新旗艦MiniCPM-V 4.5：8B 性能超越 72B，高刷視頻理解又準又快