從“數(shù)據(jù)融合”邁向“原生架構(gòu)”：商湯發(fā)布 NEO 架構(gòu)，重新定義多模態(tài)模型效能邊界

本文作者：徐咪

2025-12-01 20:04

導(dǎo)語：商湯科技正式發(fā)布并開源了與南洋理工大學(xué) S-Lab合作研發(fā)的全新多模態(tài)模型架構(gòu) —— NEO，為日日新 SenseNova 多模態(tài)

商湯科技正式發(fā)布并開源了與南洋理工大學(xué) S-Lab合作研發(fā)的全新多模態(tài)模型架構(gòu) —— NEO，為日日新 SenseNova 多模態(tài)模型奠定了新一代架構(gòu)的基石。

作為行業(yè)首個(gè)可用的、實(shí)現(xiàn)深層次融合的原生多模態(tài)架構(gòu)（Native VLM），NEO 從底層原理出發(fā)，打破了傳統(tǒng)“模塊化”范式的桎梏，以“專為多模態(tài)而生”的創(chuàng)新設(shè)計(jì)，通過核心架構(gòu)層面的多模態(tài)深層融合，實(shí)現(xiàn)了性能、效率和通用性的整體突破，重新定義了多模態(tài)模型的效能邊界，標(biāo)志著人工智能多模態(tài)技術(shù)正式邁入“原生架構(gòu)”的新時(shí)代。

從“數(shù)據(jù)融合”邁向“原生架構(gòu)”：商湯發(fā)布 NEO 架構(gòu)，重新定義多模態(tài)模型效能邊界

論文網(wǎng)址：https://arxiv.org/abs/2510.14979

打破瓶頸：告別“拼湊”，擁抱“原生”

從“數(shù)據(jù)融合”邁向“原生架構(gòu)”：商湯發(fā)布 NEO 架構(gòu)，重新定義多模態(tài)模型效能邊界

當(dāng)前，業(yè)內(nèi)主流的多模態(tài)模型大多遵循“視覺編碼器+投影器+語言模型”的模塊化范式。這種基于大語言模型（LLM）的擴(kuò)展方式，雖然實(shí)現(xiàn)了圖像輸入的兼容，但本質(zhì)上仍以語言為中心，圖像與語言的融合僅停留在數(shù)據(jù)層面。這種“拼湊”式的設(shè)計(jì)不僅學(xué)習(xí)效率低下，更限制了模型在復(fù)雜多模態(tài)場景下（比如涉及圖像細(xì)節(jié)捕捉或復(fù)雜空間結(jié)構(gòu)理解）的處理能力。

商湯 NEO 架構(gòu)正是為了解決這一痛點(diǎn)而生。早在2024 年下半年，商湯便在國內(nèi)率先突破多模態(tài)原生融合訓(xùn)練技術(shù)，以單一模型在 SuperCLUE 語言評(píng)測和 OpenCompass 多模態(tài)評(píng)測中奪冠，并基于這一核心技術(shù)打造了日日新 SenseNova 6.0，實(shí)現(xiàn)多模態(tài)推理能力領(lǐng)先。之后，在2025 年 7 月發(fā)布日日新 SenseNova 6.5 通過實(shí)現(xiàn)編碼器層面的早期融合，把多模態(tài)模型性價(jià)比提升 3 倍，并在國內(nèi)率先推出商用級(jí)別的圖文交錯(cuò)推理。商湯此次更進(jìn)一步，徹底摒棄了傳統(tǒng)的模塊化結(jié)構(gòu)，從底層原理出發(fā)，推出了從零設(shè)計(jì)的 NEO 原生架構(gòu)。

三大內(nèi)核創(chuàng)新：實(shí)現(xiàn)視覺和語言的深層統(tǒng)一

從“數(shù)據(jù)融合”邁向“原生架構(gòu)”：商湯發(fā)布 NEO 架構(gòu)，重新定義多模態(tài)模型效能邊界

NEO 架構(gòu)以極致效率和深度融合為核心理念，通過在注意力機(jī)制、位置編碼和語義映射三個(gè)關(guān)鍵維度的底層創(chuàng)新，讓模型天生具備了統(tǒng)一處理視覺與語言的能力：

● 原生圖塊嵌入 (Native Patch Embedding)：摒棄了離散的圖像 tokenizer，通過獨(dú)創(chuàng)的Patch Embedding Layer (PEL) 自底向上構(gòu)建從像素到詞元的連續(xù)映射。這種設(shè)計(jì)能更精細(xì)地捕捉圖像細(xì)節(jié)，從根本上突破了主流模型的圖像建模瓶頸。

● 原生三維旋轉(zhuǎn)位置編碼 (Native-RoPE)：創(chuàng)新性地解耦了三維時(shí)空頻率分配，視覺維度采用高頻、文本維度采用低頻，完美適配兩種模態(tài)的自然結(jié)構(gòu)。這使得 NEO 不僅能精準(zhǔn)捕獲圖像的空間結(jié)構(gòu)，更具備向視頻處理、跨幀建模等復(fù)雜場景無縫擴(kuò)展的潛力。

● 原生多頭注意力 (Native Multi-Head Attention)：針對(duì)不同模態(tài)特點(diǎn)，NEO 在統(tǒng)一框架下實(shí)現(xiàn)了文本 token 的自回歸注意力和視覺 token 的雙向注意力并存。這種設(shè)計(jì)極大地提升了模型對(duì)空間結(jié)構(gòu)關(guān)聯(lián)的利用率，從而更好地支撐復(fù)雜的圖文混合理解與推理。

此外，配合創(chuàng)新的 Pre-Buffer & Post-LLM 雙階段融合訓(xùn)練策略，NEO 能夠在吸收原始 LLM 完整語言推理能力的同時(shí)，從零構(gòu)建強(qiáng)大的視覺感知能力，徹底解決了傳統(tǒng)跨模態(tài)訓(xùn)練中語言能力受損的難題。

實(shí)測表現(xiàn)：十分之一的數(shù)據(jù)，追平旗艦級(jí)性能

從“數(shù)據(jù)融合”邁向“原生架構(gòu)”：商湯發(fā)布 NEO 架構(gòu)，重新定義多模態(tài)模型效能邊界

在架構(gòu)創(chuàng)新的驅(qū)動(dòng)下，NEO 展現(xiàn)出了驚人的數(shù)據(jù)效率與性能優(yōu)勢：

極高數(shù)據(jù)效率： 僅需業(yè)界同等性能模型 1/10 的數(shù)據(jù)量（3.9億圖像文本示例），NEO 便能開發(fā)出頂尖的視覺感知能力。無需依賴海量數(shù)據(jù)及額外視覺編碼器，其簡潔的架構(gòu)便能在多項(xiàng)視覺理解任務(wù)中追平 Qwen2-VL、InternVL3 等頂級(jí)模塊化旗艦?zāi)Ｐ汀?/p>

性能卓越且均衡： 在 MMMU、MMB、MMStar、SEED-I、POPE 等多項(xiàng)公開權(quán)威評(píng)測中，NEO 架構(gòu)均斬獲高分，展現(xiàn)出優(yōu)于其他原生 VLM 的綜合性能，真正實(shí)現(xiàn)了原生架構(gòu)的“精度無損”。

極致推理性價(jià)比： 特別是在 0.6B-8B 的參數(shù)區(qū)間內(nèi)，NEO 在邊緣部署方面優(yōu)勢顯著。它不僅實(shí)現(xiàn)了精度與效率的雙重躍遷，更大幅降低了推理成本，將多模態(tài)視覺感知的“性價(jià)比”推向了極致。

開源共建：構(gòu)建下一代 AI 基礎(chǔ)設(shè)施

架構(gòu)是模型的“骨架”，只有骨架扎實(shí)，才能支撐起多模態(tài)技術(shù)的未來。NEO 架構(gòu)的早期融合設(shè)計(jì)支持任意分辨率與長圖像輸入，能夠無縫擴(kuò)展至視頻、具身智能等前沿領(lǐng)域，實(shí)現(xiàn)了從底層到頂層、端到端的真正融合。從應(yīng)用角度，端到端的“原生一體化”設(shè)計(jì)，為機(jī)器人具身交互、智能終端多模態(tài)響應(yīng)、視頻理解、3D交互及具身智能等多元化場景的應(yīng)用，提供了堅(jiān)實(shí)的技術(shù)支撐。

目前，商湯已正式開源基于 NEO 架構(gòu)的 2B 與 9B 兩種規(guī)格模型，以推動(dòng)開源社區(qū)在原生多模態(tài)架構(gòu)上的創(chuàng)新與應(yīng)用。商湯科技表示，致力于通過開源協(xié)作與場景落地雙輪驅(qū)動(dòng)，將 NEO 打造為可擴(kuò)展、可復(fù)用的下一代 AI 基礎(chǔ)設(shè)施，推動(dòng)原生多模態(tài)技術(shù)從實(shí)驗(yàn)室走向廣泛的產(chǎn)業(yè)化應(yīng)用，加速構(gòu)建下一代產(chǎn)業(yè)級(jí)原生多模態(tài)技術(shù)標(biāo)準(zhǔn)。

Github 開源網(wǎng)址：https://github.com/EvolvingLMMs-Lab/NEO

雷峰網(wǎng)版權(quán)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

0人收藏

相關(guān)文章

徐咪

編輯

發(fā)私信

當(dāng)月熱門文章

從“數(shù)據(jù)融合”邁向“原生架構(gòu)”：商湯發(fā)布 NEO 架構(gòu)，重新定義多模態(tài)模型效能邊界

從“數(shù)據(jù)融合”邁向“原生架構(gòu)”：商湯發(fā)布 NEO 架構(gòu)，重新定義多模態(tài)模型效能邊界