丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給徐咪
發(fā)送

0

多模態(tài)新旗艦MiniCPM-V 4.5:8B 性能超越 72B,高刷視頻理解又準(zhǔn)又快

本文作者: 徐咪   2025-08-27 11:50
導(dǎo)語:最終,通過輕量化的 RLAIF-V 訓(xùn)練階段,模型在保持推理能力的同時(shí)顯著降低了幻覺

多模態(tài)新旗艦MiniCPM-V 4.5:8B 性能超越 72B,高刷視頻理解又準(zhǔn)又快

今天,我們正式開源 8B 參數(shù)的面壁小鋼炮 MiniCPM-V 4.5 多模態(tài)旗艦?zāi)P停蔀樾袠I(yè)首個(gè)具備“高刷”視頻理解能力的多模態(tài)模型,看得準(zhǔn)、看得快,看得長!高刷視頻理解、長視頻理解、OCR、文檔解析能力同級(jí) SOTA,且性能超過 Qwen2.5-VL 72B,堪稱最強(qiáng)端側(cè)多模態(tài)模型。

? MiniCPM-V 4.5 亮點(diǎn)一覽 

? 首個(gè)「高刷視頻理解」多模態(tài)模型,兼顧性能與效率:高刷視頻理解同級(jí) SOTA 且超過 Qwen2.5-VL 72B 越級(jí)領(lǐng)先;同等視覺 token 開銷下, MiniCPM-V 4.5 可接收 6 倍視頻幀數(shù)量,達(dá)到 96 倍視覺壓縮率,是同類模型的 12-24 倍;

? 最強(qiáng)多模態(tài) SOTA 模型:圖片理解、長視頻理解、OCR、文檔解析同級(jí) SOTA,且超過 Qwen2.5-VL 72B 達(dá)到 越級(jí)領(lǐng)先;

??? 端側(cè)友好:提供 SOTA 級(jí)多模態(tài)表現(xiàn)的同時(shí),帶來最佳的推理效率,顯存占用、平均推理時(shí)間等領(lǐng)先優(yōu)勢顯著;

? 支持長思考、短思考可控混合推理,性能好、速度快。

 ?  模型鏈接 

? Github: 

https://github.com/OpenBMB/MiniCPM-o

? Hugging Face:  

https://huggingface.co/openbmb/MiniCPM-V-4_5

? ModelScope: 

https://www.modelscope.cn/models/OpenBMB/MiniCPM-V-4_5

  01 

首個(gè)高刷視頻理解

兼顧性能與效率

看得更清更準(zhǔn),才能減少視覺信息的誤差,提升視覺理解與推理準(zhǔn)確性。更高刷新率,是畫面流暢度的關(guān)鍵。

此前,主流的多模態(tài)模型在處理視頻理解任務(wù)中,因?yàn)槠胶馑懔?、功耗等因素,通常采?1 fps 抽幀,即每秒只能截取 1 幀畫面進(jìn)行識(shí)別和理解。雖然一定程度上保證了模型推理效率,但也因此缺失了絕大部分視覺信息,降低了多模態(tài)大模型對(duì)動(dòng)態(tài)世界「精細(xì)化」的理解。

MiniCPM-V 4.5 是行業(yè)首個(gè)具備高刷視頻理解能力的多模態(tài)模型,通過將模型結(jié)構(gòu)從 2D-Resampler 拓展為 3D-Resampler,進(jìn)行三維視頻片段的高密度壓縮,在同等視覺 Token 量開銷下的情況下,最大可接收 6 倍視頻幀數(shù)量,達(dá)到 96 倍視覺壓縮率,是同類模型的 12-24 倍。

MiniCPM-V 4.5 通過顯著增加抽幀頻次,從看「PPT」變成理解「動(dòng)態(tài)畫面」,瞬間捕捉,洞見細(xì)節(jié)!面對(duì)一閃而過的畫面,MiniCPM-V 4.5 要比 Gemini-2.5-Pro、GPT-5、GPT-4o 等代表性云端模型看得更準(zhǔn)、更細(xì)。           

在 MotionBench、FavorBench 兩項(xiàng)體現(xiàn)高刷視頻理解能力的榜單中,MiniCPM-V 4.5 達(dá)到同尺寸 SOTA,且超過 Qwen2.5-VL 72B,實(shí)現(xiàn)越級(jí)領(lǐng)先水平。

多模態(tài)新旗艦MiniCPM-V 4.5:8B 性能超越 72B,高刷視頻理解又準(zhǔn)又快

  02 

最強(qiáng)端側(cè)多模態(tài)

圖片、視頻理解全 SOTA

以小博大,一直是面壁小鋼炮 MiniCPM 的模型特色。這一次,MiniCPM-V 4.5 憑借 8B 參數(shù),在圖片理解、視頻理解、復(fù)雜文檔識(shí)別等多模態(tài)能力上再次刷新能力上限。

多模態(tài)新旗艦MiniCPM-V 4.5:8B 性能超越 72B,高刷視頻理解又準(zhǔn)又快

圖片理解性能上,MiniCPM-V 4.5 在 OpenCompass 測評(píng)中,領(lǐng)先 GPT-4o、GPT-4.1、Gemini-2.0-Pro 等眾多閉源模型 ,甚至超過 Qwen2.5-VL 72B,實(shí)現(xiàn)越級(jí)領(lǐng)先。

多模態(tài)新旗艦MiniCPM-V 4.5:8B 性能超越 72B,高刷視頻理解又準(zhǔn)又快

視頻理解性能上,MiniCPM-V 4.5 在 LVBench、MLVU、Video-MME、LongVideoBench 等榜單中,均達(dá)到同級(jí)最佳水平。

多模態(tài)新旗艦MiniCPM-V 4.5:8B 性能超越 72B,高刷視頻理解又準(zhǔn)又快

在復(fù)雜文檔識(shí)別任務(wù)中,MiniCPM-V 4.5 在 OmniDocBench 榜單的 OverallEdit、TextEdit、TableEdit 三項(xiàng)指標(biāo)上,均取得了通用多模態(tài)模型同級(jí)別的 SOTA 表現(xiàn)。

多模態(tài)新旗艦MiniCPM-V 4.5:8B 性能超越 72B,高刷視頻理解又準(zhǔn)又快

此外,MiniCPM-V 4.5 同時(shí)支持常規(guī)模式和深度思考模式,實(shí)現(xiàn)了性能與響應(yīng)速度的有效平衡,常規(guī)模式在絕大部分場景下提供出色的多模態(tài)理解能力,深度思考模式則專注于應(yīng)對(duì)復(fù)雜與復(fù)合型推理任務(wù)。

  03 

極致推理性價(jià)比

端側(cè)應(yīng)用優(yōu)選

在端側(cè) AI 應(yīng)用持續(xù)升溫的當(dāng)下,模型能力再強(qiáng),如果無法在端側(cè)設(shè)備上穩(wěn)定、流暢運(yùn)行,一切都是空談。

面壁小鋼炮 MiniCPM 不斷提升模型的「能力密度」,也一直致力于追求大模型的極致「能效比」,通過更低的顯存占用、更快的響應(yīng)速度,確保在提供 SOTA 級(jí)多模態(tài)表現(xiàn)的同時(shí),也實(shí)現(xiàn)最佳的推理效率和最低的推理開銷。

在視頻理解榜單 VideoMME、以及單圖OpenCompass測試中,MiniCPM-V 4.5 達(dá)到同級(jí) SOTA 水平,顯存占用、平均推理時(shí)間等方面領(lǐng)先優(yōu)勢顯著。

其中,在覆蓋短、中、長三種類型的視頻理解評(píng)測集 Video-MME 上,MiniCPM-V 4.5 采用 3 幀打包策略進(jìn)行推理,時(shí)間開銷(未計(jì)算模型抽幀時(shí)間)僅為同級(jí)模型的 1/10 。

多模態(tài)新旗艦MiniCPM-V 4.5:8B 性能超越 72B,高刷視頻理解又準(zhǔn)又快

  04 

技術(shù)解析

MiniCPM-V 4.5 作為多模態(tài)模型的新旗艦,之所以具備「高刷」視頻理解能力、并取得圖片理解、OCR、長視頻理解等 SOTA ,主要得益于在模型結(jié)構(gòu)、訓(xùn)練范式等領(lǐng)域的創(chuàng)新。

3D-Resampler 實(shí)現(xiàn)高密度視頻壓縮 

當(dāng)前,制約多模態(tài)模型視頻理解能力的最核心挑戰(zhàn)是性能和效率的 Trade-off,即模型需要看更多視頻幀,才能獲取更精細(xì)的信息以提高理解上限;而模型融入太多視頻幀,又會(huì)造成顯存、推理速度等開銷爆炸。由于局部片段的不同視頻幀之間存在信息冗余性,即大部分視覺信息不變,僅有少部分信息發(fā)生變化,存在很大的信息壓縮空間。MiniCPM-V 4.5 將模型結(jié)構(gòu)從 2D-Resampler 拓展為 3D-Resampler,進(jìn)行三維視頻片段的高密度壓縮。具體來說,視頻會(huì)按照每N個(gè)視頻幀一組分組(分組尺寸最大為 6 ),3D-Resampler 會(huì)對(duì)每個(gè)視頻組壓縮編碼,得到 64 個(gè)視覺token(與編碼單圖視覺token數(shù)量相同),最終在推理開銷不變的情況下,最大 10 fps 抽幀,實(shí)現(xiàn)了模型高刷視頻理解能力。得益于 Resampler 機(jī)制的靈活性,我們可以在推理階段靈活調(diào)整視頻分組尺寸,同時(shí)支持單圖、多圖、視頻的統(tǒng)一編碼(即單圖編碼視為 3D 視頻編碼的 2D 特例),方便知識(shí)和能力遷移。

面向多頁文檔圖片的統(tǒng)一 OCR 和知識(shí)推理學(xué)習(xí)

「對(duì)文字的識(shí)別解析」和「從文檔中學(xué)習(xí)知識(shí)」是多模態(tài)大模型的兩個(gè)重要課題,但這兩個(gè)方向的學(xué)習(xí)范式割裂,并且分別受到圖像樣例難度和解析準(zhǔn)確性的限制。提升 OCR 能力往往需要補(bǔ)充更豐富且難的數(shù)據(jù),數(shù)據(jù)增廣(例如對(duì)圖像中文字加高斯噪音)往往會(huì)被采用,以提升數(shù)據(jù)的難度和多樣性,但是過大的增廣會(huì)使得文字不可讀,反而會(huì)導(dǎo)致模型幻覺。在文檔知識(shí)學(xué)習(xí)方面,大部分工作會(huì)將文檔解析成為圖文交替數(shù)據(jù)進(jìn)行學(xué)習(xí),嚴(yán)重受到文解析工具錯(cuò)誤的影響。

MiniCPM-V 4.5 連續(xù)控制圖像中的「文字信息可見度」,使得多模態(tài)模型在 OCR 和知識(shí)學(xué)習(xí)兩種模式之間無縫切換,首次實(shí)現(xiàn)了OCR 和知識(shí)學(xué)習(xí)兩種學(xué)習(xí)范式的有效融合,且不會(huì)受到過難增廣和解析錯(cuò)誤的影響。具體來說,我們首先提取出文檔中的文字框(這通常是非常準(zhǔn)確的,大部分解析錯(cuò)誤來源于排版、閱讀順序、低信息量圖文噪音錯(cuò)誤),然后對(duì)文字框內(nèi)區(qū)域進(jìn)行不同程度的噪音增廣。當(dāng)施加噪音較小,文字處于尚可辨別范圍內(nèi)時(shí),模型會(huì) OCR 學(xué)習(xí)識(shí)別文字;當(dāng)施加噪音較大,文字無法辨認(rèn)時(shí),模型會(huì)自動(dòng)進(jìn)入知識(shí)學(xué)習(xí),根據(jù)文檔的多模態(tài)上下文還原文字;當(dāng)噪音介于兩者之間,模型會(huì)進(jìn)行混合能力的學(xué)習(xí)?;谏鲜黾夹g(shù),MiniCPM-V 4.5 低成本實(shí)現(xiàn)了領(lǐng)先的 OCR 能力和多模態(tài)知識(shí)能力。

通用域混合推理強(qiáng)化學(xué)習(xí)

深度思考推理能力極大拓展了多模態(tài)大模型的推理能力邊界,但在常見問題場景中,也往往伴隨過高的推理延遲。MiniCPM-V 4.5 同時(shí)支持常規(guī)模式和深度思考模式,實(shí)現(xiàn)了性能與響應(yīng)速度的有效平衡:常規(guī)模式在絕大部分場景下提供出色的多模態(tài)理解能力,深度思考模式則專注于應(yīng)對(duì)復(fù)雜與復(fù)合型推理任務(wù)。為了讓模型在兩種模式下都具備出色性能,MiniCPM-V 4.5 提出了混合推理的強(qiáng)化學(xué)習(xí)訓(xùn)練方案,在強(qiáng)化學(xué)習(xí)過程中同時(shí)激活常規(guī)和深度思考模式,實(shí)現(xiàn)在相同訓(xùn)練時(shí)長下顯著更強(qiáng)的常規(guī)模式性能和相似的深度思考模式性能。借助 RLPR 技術(shù),MiniCPM-V 4.5 進(jìn)一步從通用域多模態(tài)推理數(shù)據(jù)上獲得高質(zhì)量的獎(jiǎng)勵(lì)信號(hào),以提升廣泛通用領(lǐng)域的推理能力。最終,通過輕量化的 RLAIF-V 訓(xùn)練階段,模型在保持推理能力的同時(shí)顯著降低了幻覺。

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

多模態(tài)新旗艦MiniCPM-V 4.5:8B 性能超越 72B,高刷視頻理解又準(zhǔn)又快

分享:
相關(guān)文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說