丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給郭海惟
發(fā)送

0

大模型熱度退潮,真正的技術(shù)創(chuàng)新者開始被「看見」

本文作者: 郭海惟   2025-06-20 16:30
導(dǎo)語:“面壁之于端,正如 DeepSeek 之于云。”


“過去兩年中國的大模型投資并不是投技術(shù),而是套著投技術(shù)的殼投商業(yè)模式。硅谷的投資人投 OpenAI 是投技術(shù)?!币晃煌顿Y人對 AI 科技評論表示。

商業(yè)模式驅(qū)動(dòng)的投資核心是可預(yù)見的數(shù)字增長,而技術(shù)投資則相反:即便沒有明朗的商業(yè)模式,只要技術(shù)創(chuàng)新仍在不斷攀登新的高度,就足以押注。DeepSeek 揚(yáng)名前,追隨 OpenAI 成為大模型的吸金石;DeepSeek 出圈后,“獨(dú)立創(chuàng)新”取代“步步跟隨”、成為大模型的新主流。

在這一變化下,技術(shù)創(chuàng)新與投資開始返璞歸真、回歸本質(zhì)。一個(gè)直接的變化是融資,相比過去兩年的融資節(jié)奏,今年大模型的吸金熱度明顯下降。但截至 2025 年 6 月,國內(nèi)仍有兩家大模型公司官宣了新一輪的融資消息,一家是處于大模型第一梯隊(duì)的智譜 AI,另一家便是專注端側(cè) AI 的面壁智能。

裸泳的人退出競爭,裝備齊全的人正式登場。例如,DeepSeek 在云上千億級大模型的獨(dú)辟蹊徑,成為了百模大戰(zhàn)的終結(jié)者,讓所有比拼基礎(chǔ)模型的公司都不得不開始直面真正的技術(shù)創(chuàng)新。這說明大模型的吸金熱度雖然在下降,行業(yè)的發(fā)展卻正在朝著一個(gè)更健康的趨勢前進(jìn)。

與 DeepSeek 一樣,在大模型基礎(chǔ)技術(shù)上持續(xù)創(chuàng)新的團(tuán)隊(duì)也漸漸浮出水面,得到越來越多的關(guān)注。今年 5 月官宣數(shù)億元融資的面壁智能,不久前在智源大會(huì)上發(fā)布了其同時(shí)在端側(cè)上進(jìn)行推理與架構(gòu)創(chuàng)新的新一代“小鋼炮 4.0”,就向市場傳遞了一個(gè)信號:

AGI 的落地正在朝著云端兩側(cè)發(fā)展,并逐漸形成 DeepSeek 與面壁智能花開兩朵、各表一枝的局面。如果說 DeepSeek 的開源大模型是云上應(yīng)用的福音,那么面壁智能的 MiniCPM “小鋼炮”系列便是終端智能的觸手。

隨著 AGI 基礎(chǔ)技術(shù)話題的不斷收斂,從數(shù)據(jù)、學(xué)習(xí)、架構(gòu)與推理上進(jìn)行創(chuàng)新已成為各家的主要比拼路徑,而在架構(gòu)與推理上同時(shí)進(jìn)行創(chuàng)新的團(tuán)隊(duì)卻不多,DeepSeek 與面壁是國內(nèi)的極少數(shù),且一個(gè)在云、一個(gè)在端,又剛好錯(cuò)開正面競爭、共同彌補(bǔ)了當(dāng)前國產(chǎn)大模型落地的市場供給版圖。

小鋼炮證明了,在 DeepSeek 射程以外,AGI 發(fā)展依然存在豐富的可能性。但更值得關(guān)注的或許是這樣一個(gè)故事:一個(gè)持續(xù)迭代的端側(cè)模型,是如何始終從 AGI 的終局思考每一項(xiàng)技術(shù)創(chuàng)新的意義,不重復(fù)造輪子、并不斷為領(lǐng)域做出貢獻(xiàn)的。

只有真正向創(chuàng)新看齊的團(tuán)隊(duì),才勇于回答一個(gè)簡單卻宏大的問題:AGI 的終局真正需要什么?




01 AGI 四象限的“半壁江山”



從 2020 年 GPT-3 到 2022 年底的 ChatGPT,再到大模型徹底狂飆兩年后的今天,我們可以看到,現(xiàn)階段 AGI 技術(shù)的創(chuàng)新維度已經(jīng)大致收斂至四個(gè)大的板塊:

數(shù)據(jù)、學(xué)習(xí)、推理與架構(gòu)。

在 Scaling Law 式微、范式創(chuàng)新乏力的今天,前兩者正在變得“公平”、幾乎可以為所有團(tuán)隊(duì)所掌握。一方面,數(shù)據(jù)維度的標(biāo)準(zhǔn)化包括大規(guī)模網(wǎng)絡(luò)爬取、多模態(tài)數(shù)據(jù)融合、高質(zhì)量數(shù)據(jù)篩選等技術(shù)已相對成熟,而開源數(shù)據(jù)集的快速發(fā)展,讓數(shù)據(jù)集獲取規(guī)模不斷向著“窮盡”互聯(lián)網(wǎng)數(shù)據(jù)規(guī)模的天花板靠攏。另一方面,訓(xùn)練大模型、提高模型學(xué)習(xí)能力的基礎(chǔ)方法論已經(jīng)變得更加透明,不再是高閣秘密。

相比之下,推理和架構(gòu)由于起步較晚、難度更高,幾乎成為了模型智能增長的“下半場”,是各個(gè)團(tuán)隊(duì)之間拉開差距的核心分水嶺。與此同時(shí),二者的性能又是相伴相生的。

Transformer 架構(gòu)仍是主流,但業(yè)內(nèi)一直討論其不能支撐大家所想象中的終局 AGI 模型,因此架構(gòu)的創(chuàng)新至關(guān)重要。以今年以來備受行業(yè)關(guān)注的稀疏注意力架構(gòu)為例,早在 2020 年,包括 OpenAI 在內(nèi)的許多研究機(jī)構(gòu)就提出了“稀疏注意力”機(jī)制,以此來彌補(bǔ) Transformer 架構(gòu)的缺陷,但相關(guān)研究一直不順暢,原因是動(dòng)態(tài)稀疏注意力的底層算子要求高,速度很難提升。

對于算力條件有限的終端硬件來說,如果不從架構(gòu)上進(jìn)行改進(jìn),硬件層面便難以對注意力機(jī)制進(jìn)行加速,稀疏注意力便很難真正落地實(shí)現(xiàn)。

過去半年內(nèi),國內(nèi)大模型團(tuán)隊(duì)圍繞架構(gòu)創(chuàng)新也進(jìn)行了不斷的創(chuàng)新。例如,DeepSeek、月之暗面分別提出了 NSA 和MoBA 架構(gòu)的塊狀稀疏注意力方案,MiniMax 提出了 Lightning Attention 的線性稀疏注意力方案等。其本質(zhì)都是通過架構(gòu)創(chuàng)新,從而最大化加速底層架構(gòu)對 token 的計(jì)算能力,從而達(dá)到模型軟硬結(jié)合的最優(yōu)解。

不過這些創(chuàng)新都是跑在云上的千億級大模型成功創(chuàng)新,其在端側(cè)場景則未必適用。

以 NSA 架構(gòu)為例,其整個(gè)架構(gòu)主要服務(wù)云端大模型場景,對不同算力平臺的兼容性有限。其采用的分層動(dòng)態(tài)模式,在端側(cè)靈活性稍遜的計(jì)算場景中,也顯得優(yōu)勢不足。在實(shí)測中,NSA 架構(gòu)雖然在長文本處理中有很好的性能表現(xiàn),但在短文本方面卻會(huì)顯得相對遲鈍。

而在 MoBA 架構(gòu)中,大量的專家模塊的通信要求,在端側(cè)場景中會(huì)帶來較高的塊間通信開銷。尤其在端側(cè)內(nèi)存有限的情況下,會(huì)出現(xiàn)非連續(xù)的內(nèi)存訪問,進(jìn)一步降低模型的運(yùn)行效率。

而此次面壁發(fā)布的MiniCPM 4.0首次集成了InfLLM v2稀疏注意力結(jié)構(gòu),便是針對端側(cè)場景做了大量的針對性優(yōu)化,從而大幅提升了其在端側(cè)的效率能力。

首先,InfLLM v2是一個(gè)針對端側(cè)場景優(yōu)化的注意力結(jié)構(gòu),這讓其天然有良好的端側(cè)適應(yīng)能力。

相比于云端大模型注意力機(jī)制對內(nèi)存的高占用現(xiàn)狀,面壁團(tuán)隊(duì)又大幅降低了KV緩存。據(jù)面壁披露,在 128K 長文本場景下,MiniCPM 4.0-8B 相較于 Qwen3-8B 僅需 1/4 的緩存存儲(chǔ)空間,從而大幅提升了整個(gè)模型在端側(cè)場景的通信與計(jì)算效率。

而通過重寫底層算子,再與ArkInfer等成熟的硬件底層工具結(jié)合,讓InfLLM v2可以在端側(cè)硬件中發(fā)布最大的價(jià)值。

值得一提的是,這是除了DeepSeek以外,第二個(gè)有能力在硬件層面進(jìn)行軟硬一體優(yōu)化的團(tuán)隊(duì)。

此外,相比于此前的InfLLM v1,v2將無訓(xùn)練的注意力架構(gòu)方式,升級成為了“可訓(xùn)練”稀疏注意力架構(gòu),進(jìn)一步提升在實(shí)際使用場景中的效率。

例如,通過訓(xùn)練,當(dāng)v2在處理 128K 長文本時(shí),每個(gè)詞元僅需與 不足 5% 的其他詞元 進(jìn)行相關(guān)性計(jì)算。這意味著相比行業(yè)普遍的 40%-50% 稀疏度,面壁將端側(cè)的稀疏度降低到1/10,約為5%的稀疏度。

5% 其實(shí)已經(jīng)與人腦的稀疏激活比例相當(dāng)。某種意義上來說,人腦的運(yùn)作接近一個(gè)稀疏的端側(cè)模型,而平均每次任務(wù)激活的神經(jīng)元也不到5%。這給面壁的研究人員在端側(cè)研發(fā)進(jìn)展中提供了很好的范本——如何在有限計(jì)算資源的情況下達(dá)到效率最優(yōu)。


大模型熱度退潮,真正的技術(shù)創(chuàng)新者開始被「看見」


除了注意力架構(gòu)外,面壁針對端側(cè)環(huán)境對模型的堆疊層數(shù)也做出了優(yōu)化。層數(shù)(Number of Layers)是指模型堆疊的可學(xué)習(xí)計(jì)算單元的數(shù)量,往往決定了模型的容量(Capacity)和復(fù)雜度,通過對每一層的非線性變幻,模型可以逐步提取更高階的數(shù)據(jù)特征

一般而言,層數(shù)越多意味著模型越復(fù)雜,越具備全局能力和高階語義的識別能力。但與之相對應(yīng)的,則是更多的能耗和效率損失。以云端大模型為例,GPT-3和GPT-4的層數(shù)分別為96層和120層,而DeepSeek V3 和R1均只有61層,巨大的層數(shù)差異也決定DeepSeek在模型效率方面具備了壓倒性的領(lǐng)先優(yōu)勢。

面壁此次發(fā)布的MiniCPM 4.0 也在層數(shù)上做了優(yōu)化,在保持能力領(lǐng)先的同時(shí),縮減了層數(shù)。MiniCPM 3.0-4B的層數(shù)達(dá)到了62層,而此次MiniCPM4.0-8B僅為 32 層、同期Qwen的同級別模型為36 層。

根據(jù)面壁方面表示,架構(gòu)上的深度優(yōu)化讓MiniCPM 4.0從底層擁有了更強(qiáng)的效率優(yōu)勢。




02 小鋼炮 4.0 的想象力


6月6日,面壁發(fā)布了小鋼炮系列大模型 MiniCPM 4.0,官方將其稱作:“史上最具想象力”的小鋼炮系列。因?yàn)槌思軜?gòu)層面的優(yōu)化外,MiniCPM 4.0幾乎在數(shù)據(jù)、學(xué)習(xí)、推理與架構(gòu)四個(gè)不同的側(cè)面,都進(jìn)行了不同程度的優(yōu)化。


從數(shù)據(jù)上來看,整個(gè)MiniCPM 4.0此次發(fā)布的兩個(gè)不同規(guī)模的模型,8B和0.5B,兩個(gè)大模型均繼續(xù)衛(wèi)冕同級SOTA的領(lǐng)先地位。


大模型熱度退潮,真正的技術(shù)創(chuàng)新者開始被「看見」


MiniCPM 4.0-8B 模型作為稀疏注意力模型,在MMLU、CEval、MATH500、HumanEval等基準(zhǔn)測試中, 性能超越 Qwen-3-8B、Gemma-3-12B。MiniCPM 4.0-0.5B 在性能上,也顯著優(yōu)于 Qwen-3-0.6B,并實(shí)現(xiàn)了最快  600 Token/s 的極速推理速度。

引用面壁官方的介紹是:“在系統(tǒng)級稀疏創(chuàng)新的支持下,小鋼炮 4.0 與過去產(chǎn)品相比,在極限情況下實(shí)現(xiàn)了 220 倍、常規(guī) 5 倍的速度提升。”


大模型熱度退潮,真正的技術(shù)創(chuàng)新者開始被「看見」


尤其在主打邊緣計(jì)算的Jetson AGX orin芯片中(圖左),MiniCPM4.0幾乎實(shí)現(xiàn)了斷代領(lǐng)先。而且在不同規(guī)模測試下,相比于同類型的模型而言,MiniCPM4.0 的響應(yīng)速度的衰減比例也明顯更低。這從側(cè)面體現(xiàn)了面壁團(tuán)隊(duì)很深入的端側(cè)優(yōu)化能力。

AI大模型領(lǐng)域是一個(gè)復(fù)雜的“動(dòng)力生態(tài)”,不同的玩家想要尋求的身位則不盡相同。有些模型(如 OpenAI 的“GPT-5”、DeepSeek 的“V4”),其目標(biāo)或許是成為法拉利這樣的全球動(dòng)力天花板;有些方案則像卡羅拉,樸實(shí)但靠譜,力圖成為全球銷量最高的通用產(chǎn)品。

而面壁的小鋼炮系列,或許更像是MiniCooper:小巧、精致,致力于用最合適的馬力達(dá)到最好的駕駛體驗(yàn)——它對自己的要求是有性格的,性能強(qiáng)大,小野,拒絕無趣。

如果說InfLLM這樣的架構(gòu)升級是一輛汽車底盤,那么從從底盤和變速箱,到車身和動(dòng)力系統(tǒng),面壁幾乎全面升級了小鋼炮。

例如,面壁團(tuán)隊(duì)采用了創(chuàng)新的“稀疏注意力”模式,即讓模型能夠根據(jù)任務(wù)特征自動(dòng)切換注意力模式。這其實(shí)就像汽車的兩檔“變速箱”,讓汽車可以適合更加復(fù)雜的“端側(cè)路況”。

在處理高難度的長本文、深度思考任務(wù)時(shí),啟用稀疏注意力以降低計(jì)算復(fù)雜度,而在短文本場景下切換至稠密注意力以確保精度與速度,實(shí)現(xiàn)了長、短文本切換的高效響應(yīng)。這種「高效雙頻換擋」機(jī)制,類似混合稀疏注意力的模式設(shè)計(jì),讓MiniCPM4.0能夠擁有靈活的能力。


大模型熱度退潮,真正的技術(shù)創(chuàng)新者開始被「看見」


而其專門自研的全套端側(cè)推理框架CPM.cu,以及此前提到過的內(nèi)存改進(jìn)的 BitCPM 量化算法,對多平臺端側(cè)芯片進(jìn)行優(yōu)化的 ArkInfer 跨平臺部署框架,則像是MiniCPM4.0 的高馬力“三缸發(fā)動(dòng)機(jī)”。


大模型熱度退潮,真正的技術(shù)創(chuàng)新者開始被「看見」


例如CPM.cu 端側(cè)自研推理框架是一個(gè)針對端側(cè)大模型推理設(shè)計(jì)的輕量、高效的 CUDA 推理框架,核心支持 稀疏架構(gòu)、投機(jī)采樣 和 低位寬量化 等前沿技術(shù)創(chuàng)新。而MiniCPM4.0則首次將這個(gè)框架與InfLLM做了融合,從而改進(jìn)了整個(gè)系統(tǒng)在硬件層面的表現(xiàn)效率。

其中FR-Spec 輕量投機(jī)采樣類似于小模型給大模型當(dāng)“實(shí)習(xí)生”,并給小模型進(jìn)行詞表減負(fù)、計(jì)算加速。通過創(chuàng)新的詞表裁剪策略,讓小模型專注于高頻基礎(chǔ)詞匯的草稿生成,避免在低頻高難度詞匯上浪費(fèi)算力,再由大模型進(jìn)行驗(yàn)證和糾正。僅CPM.cu框架讓模型實(shí)現(xiàn)了5倍的速度提升。


大模型熱度退潮,真正的技術(shù)創(chuàng)新者開始被「看見」


BitCPM 量化算法,實(shí)現(xiàn)了業(yè)界SOTA級別的 4-bit 量化,并成功探索了 3 值量化(1.58bit)方案。通過精細(xì)的混合精度策略和自適應(yīng)量化算法,模型在瘦身 90%后,仍能保持出色的性能表現(xiàn)。在優(yōu)化后,CPM4 1B的分?jǐn)?shù)遠(yuǎn)超Llama3.2和Gemma3同規(guī)模的表現(xiàn),僅稍遜于Qwen3 1.7B的表現(xiàn)。


大模型熱度退潮,真正的技術(shù)創(chuàng)新者開始被「看見」


而ArkInfer 的架構(gòu)設(shè)計(jì)主要是為了滿足在碎片化的終端硬件環(huán)境中進(jìn)行統(tǒng)一、高效部署的需求。它通過提供一個(gè)強(qiáng)大的抽象層,成為了一個(gè)可以適配多種不同芯片“適配器”,確保端側(cè)多平臺 Model zoo 絲滑使用。

據(jù)面壁團(tuán)隊(duì)介紹,通過ArkInfer的支持,MiniCPM4.0 能夠支持多種平臺,如聯(lián)發(fā)科、英偉達(dá)、高通和瑞芯微等平臺各自擁有原生的推理框架(例如,NeuroPilot、Genie、RK-LLM、TensorRT-LLM,以及用于 CPU 的 llama.cpp)等,ArkInfer 都能將這些框架無縫集成。

除了軟硬一體外,底層硬件編譯與優(yōu)化能力、高質(zhì)量對齊數(shù)據(jù)與訓(xùn)練策略的優(yōu)化,則像是一輛汽車的“產(chǎn)線”,其中的每一個(gè)細(xì)節(jié)都決定了產(chǎn)品的整體性能。

以底層硬件編譯與優(yōu)化能力為例,除了BitCPM 與ArkInfer 已經(jīng)展示出“軟硬一體”優(yōu)化能力外,MiniCPM 4.0 采用了Chunk-wise Rollout策略,將分塊式強(qiáng)化學(xué)習(xí)引入通過優(yōu)化 GPU 利用率和最小化計(jì)算資源浪費(fèi),顯著提升了GPU利用率并降低了計(jì)算機(jī)資源浪費(fèi)。


大模型熱度退潮,真正的技術(shù)創(chuàng)新者開始被「看見」


在數(shù)據(jù)層面,面壁團(tuán)隊(duì)在進(jìn)行了大量的篩選和對齊工作。

如Ultra-FineWeb,后者通過高知識密度數(shù)據(jù)篩選系統(tǒng)建立了嚴(yán)格的準(zhǔn)入機(jī)制,實(shí)現(xiàn) 90% 的驗(yàn)證成本下降。再結(jié)合輕量化的 FastText 工具進(jìn)行大規(guī)模數(shù)據(jù)質(zhì)檢,使得MiniCPM 4.0在處理 15 萬億 token 數(shù)據(jù)僅需 1000 小時(shí) CPU 時(shí)間。

此外,UltraChat-v2 合成了包含數(shù)百億詞元的高質(zhì)量對齊數(shù)據(jù),在知識類、指令遵循、長文本、工具使用等關(guān)鍵能力上進(jìn)行定向強(qiáng)化。在高質(zhì)量數(shù)據(jù)與高效訓(xùn)練策略的加持下,相比同尺寸開源模型,MiniCPM 4.0-8B 僅用 22% 的訓(xùn)練開銷,即可達(dá)到相同能力水平。

在訓(xùn)練策略方面,MiniCPM 4.0 應(yīng)用了迭代升級后的風(fēng)洞 2.0 方案(Model Wind Tunnel v2)。

通過在 0.01B-0.5B 小模型上進(jìn)行高效實(shí)驗(yàn),搜索最優(yōu)的超參數(shù)配置并遷移到大模型,相比此前的 1.0 版本,風(fēng)洞 2.0 將配置搜索的實(shí)驗(yàn)次數(shù)降低 50%。


大模型熱度退潮,真正的技術(shù)創(chuàng)新者開始被「看見」


有些人將DeepSeek范式的勝利稱作某種“掀桌式”的、帶有“工程美學(xué)”式的創(chuàng)新,人們通過DeepSeek發(fā)現(xiàn)了一條OpenAI模式以外的道路:一條雖非通向最高處,卻是通向更廣處AGI路徑的可行性。

正如面壁智能首席科學(xué)家劉知遠(yuǎn)今年初對ai科技評論表示的那樣,在他看來,大模型“已經(jīng)找到了一種通用地從數(shù)據(jù)學(xué)習(xí)知識的方案”,“已經(jīng)在邁向通用智能了?!?/p>

顯然,從“邁向通用智能”和“抵達(dá)通用智能”,智能的生長總歸需要一個(gè)過程,而且它大概率是會(huì)沿著它技術(shù)效率的方向蔓延。

因?yàn)闊o論智能上限如何增長,效率與普惠永遠(yuǎn)是一切人類技術(shù)演進(jìn)后最終的歸宿,而端側(cè)探索或許將會(huì)成為其中必不可少的答案。


(作者微信:hai2023zi   添加請備注公司-崗位)



(雷峰網(wǎng)(公眾號:雷峰網(wǎng))


雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

大模型熱度退潮,真正的技術(shù)創(chuàng)新者開始被「看見」

分享:
相關(guān)文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個(gè)人簡介
為了您的賬戶安全,請驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說