丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給王悅
發(fā)送

0

WAIC 最具技術(shù)想象力成果發(fā)布:新架構(gòu)面壁小鋼炮又一次驗(yàn)證并加速了面壁定律

本文作者: 王悅 2024-07-06 10:59
導(dǎo)語(yǔ):在非共識(shí)階段打「先手」。


2020 年,1750 億參數(shù)規(guī)模的 GPT-3 問(wèn)世。彼時(shí),完整訓(xùn)練 1750 億參數(shù)的模型需要 3.14E11(TFLOPS)的每秒浮點(diǎn)運(yùn)算量。如果使用英偉達(dá) 80GB A100 GPU(16位浮點(diǎn)算力有 312 TFLOPS,但在分布式環(huán)境中很難達(dá)到峰值),按照每張顯卡 1.5 刀每小時(shí)的租賃價(jià)格來(lái)算,則需要使用一千張 A100 、花費(fèi)81.6 萬(wàn)刀、用 22 天才能完成整個(gè)訓(xùn)練過(guò)程。

2024 年,大模型只需使用 2B 的參數(shù)規(guī)模即可達(dá)到和 2020 年的 GPT-3 一樣的性能表現(xiàn)。

這一現(xiàn)象,類似于半導(dǎo)體領(lǐng)域中的「摩爾定律」——集成電路上可容納的晶體管數(shù)目約每隔兩年便會(huì)增加一倍,芯片性能因此持續(xù)提升。芯片制程帶來(lái)終端算力持續(xù)增強(qiáng),模型制程帶來(lái)模型知識(shí)密度持續(xù)增強(qiáng),兩者交匯揭示端側(cè)智能巨大潛力。

面壁此前推出的端側(cè)多模態(tài)大模型—— MiniCPM-Llama3-V 2.5 ,實(shí)現(xiàn)了「以最小參數(shù),撬動(dòng)最強(qiáng)性能」的最佳平衡點(diǎn)。

WAIC 最具技術(shù)想象力成果發(fā)布:新架構(gòu)面壁小鋼炮又一次驗(yàn)證并加速了面壁定律

而大模型行業(yè)也有自己的摩爾定律,縱觀 OpenAI 的 GPT 系列大模型和各類開源大模型,會(huì)發(fā)現(xiàn)大家都在“默契”地按照如此軌跡演化。

基于這一發(fā)現(xiàn),面壁智能提出了面壁定律——大模型的知識(shí)密度平均每 8 個(gè)月提升一倍。

其中,知識(shí)密度=模型能力 / 推理算力能耗。

WAIC 最具技術(shù)想象力成果發(fā)布:新架構(gòu)面壁小鋼炮又一次驗(yàn)證并加速了面壁定律

當(dāng)前,大模型架構(gòu)-算法-數(shù)據(jù)等多重因素交織的技術(shù)?案仍在?速迭代,模型制程仍有極大的改進(jìn)空間,實(shí)現(xiàn)知識(shí)密度的極致提升。

WAIC 最具技術(shù)想象力成果發(fā)布:新架構(gòu)面壁小鋼炮又一次驗(yàn)證并加速了面壁定律

面壁定律圖

正如面壁定律所揭示的知識(shí)密度發(fā)展趨勢(shì),面壁持續(xù)貫徹高效Scaliing,通過(guò)模型沙盒,在小模型中尋找最優(yōu)數(shù)據(jù)和超參配置再外推至大模型,推出了知識(shí)密度極高的 MiniCPM 小鋼炮旗艦端側(cè)大模型系列,主要包括以小博大的 MiniCPM 2.4B + 1.2B 的基座模型、 可對(duì)標(biāo) GPT-4V 的 MiniCPM -V 端側(cè)多模態(tài)模型以及最小 128K 長(zhǎng)文本模型和高性能 MOE 模型。

數(shù)據(jù)表明,相比 GPT-3,參數(shù)規(guī)模小的多的 MiniCPM2.4B 具備同等性能, 整體知識(shí)密度提高了約86倍。

面壁高效大模型還在持續(xù)進(jìn)化中。在今年的世界人工智能大會(huì)(WAIC 2024)上,面壁發(fā)布了高效稀疏模型 MiniCPM-S 和助力開發(fā)者打造 SuperAPP 的全棧式工坊 MobileCPM。

MiniCPM-S 不僅完美承接過(guò)去面壁智能一系列高效端側(cè)大模型工作,更體現(xiàn)面壁在堅(jiān)定地按照其所提出的高效 Scaling 路徑持續(xù)發(fā)力,同時(shí)又一次驗(yàn)證并加速了面壁定律。

從最初出圈的 AI Infra 到 小鋼炮端側(cè)大模型,面壁智能無(wú)一不是在非共識(shí)階段就打出「先手」,走在 AGI 技術(shù)研究的前沿,預(yù)測(cè)大模型發(fā)展趨勢(shì),成為大模型行業(yè)發(fā)展風(fēng)向標(biāo)。


一、 MiniCPM-S:2.8倍推理速度提升,F(xiàn)FN 模塊 84% 成本降低

在以 LLaMA2 7B 為代表的主流開源大模型中,就存在稀疏激活現(xiàn)象。LLaMA2 FFN 模塊稀疏度為 70% 左右,每個(gè)詞元(token) 保留輸出數(shù)值較大的 30% 神經(jīng)元參與計(jì)算即可讓下游任務(wù)表現(xiàn)不發(fā)生顯著下降。稀疏度越高,每個(gè) 詞元激活的神經(jīng)元越少,模型推理所需的計(jì)算量就越少。

與采用稠密計(jì)算的模型相比,采用稀疏計(jì)算的模型對(duì)給定的詞元輸出的「激活值」有很多為0、或者非零但對(duì)結(jié)果影響很小,這些激活值所對(duì)應(yīng)的神經(jīng)元可稱為處于「未激活」?fàn)顟B(tài),在推理時(shí)跳過(guò)這些未激活的神經(jīng)元,可實(shí)現(xiàn)顯著加速。

然而,現(xiàn)有主流大模型在稀疏激活上面臨兩個(gè)困境:一方面,稀疏模型大都基于 Swish、GELU 等無(wú)法輸出大量零元素的激活函數(shù),需要進(jìn)行激活閾值搜索方可界定神經(jīng)元的激活與否,其稀疏激活特性利用起來(lái)較為復(fù)雜,且在推理時(shí)強(qiáng)制跳過(guò)閾值下的非零神經(jīng)元容易造成性能損失;另一方面,其稀疏度仍相對(duì)有限,如 LLaMA2 停留在 70% 左右。

對(duì)此,面壁的 MiniCPM-S 提出了 ProSparse 的稀疏激活解決方案:

首先,將激活函數(shù)從 Swish 重新替換為 ReLU(最初的Transformer即采用ReLU激活),使激活值自然地存在大量零元素,跳過(guò)這些零激活值的神經(jīng)元嚴(yán)格無(wú)損。

WAIC 最具技術(shù)想象力成果發(fā)布:新架構(gòu)面壁小鋼炮又一次驗(yàn)證并加速了面壁定律

然后,通過(guò)漸進(jìn)式的、帶約束的稀疏感知訓(xùn)練,提升稀疏度。

WAIC 最具技術(shù)想象力成果發(fā)布:新架構(gòu)面壁小鋼炮又一次驗(yàn)證并加速了面壁定律

結(jié)果顯示,性能持平,且將神經(jīng)元激活比例降至約 10%。

WAIC 最具技術(shù)想象力成果發(fā)布:新架構(gòu)面壁小鋼炮又一次驗(yàn)證并加速了面壁定律

論?地址:https://arxiv.org/pdf/2402.13516.pdf

模型地址:https://huggingface.co/openbmb/MiniCPM-S-1B-llama-format

PowerInfer 

可運(yùn)? GGUF 地址:https://huggingface.co/openbmb/MiniCPM-S-1B-sft-gguf

基于此,面壁推出 MiniCPM-S 高效稀疏激活模型。具體而言,這一模型有三大特點(diǎn):

Sparse:高度稀疏。MiniCPM-S 的 FFN 模塊具有極高的稀疏度,平均可達(dá)到 87.89%,F(xiàn)FN FLOPS 下降 84%,大模型能耗與推理成本顯著降低。

Speed:高效推理。相比采用稠密計(jì)算模式的模型,能使用更少計(jì)算量進(jìn)行更快速的推理, 在純 CPU 環(huán)境下推理時(shí),結(jié)合Powerinfer推理框架,decode 速度提升 2.8 倍。

Strong:強(qiáng)大性能。雖然計(jì)算量變少,但無(wú)損于下游任務(wù)性能,其中,神經(jīng)元激活比例降至12.1% ,知識(shí)密度相比稠密模型提升 2.57 倍、相比Mistral-7B 提升 12.1 倍。

可以說(shuō), MiniCPM-S 又一次驗(yàn)證了過(guò)去基于面壁定律發(fā)布的 MiniCPM 1.2B 和 MiniCPM 2.4B ,并且在時(shí)間上進(jìn)行了加速,高效 Scaling Law 仍在持續(xù)演化。


二、MobileCPM:降低開發(fā)者門檻,一鍵集成端側(cè)大模型到APP

隨著大模型賽道的進(jìn)一步演進(jìn),一個(gè)共識(shí)是:基座大模型只屬于資源充足的少數(shù)玩家,普通創(chuàng)業(yè)者的機(jī)會(huì)更多是在上層應(yīng)用?;诖耍楷F(xiàn)了諸多AI 原生應(yīng)用和 Agent 產(chǎn)品,以及與其相對(duì)應(yīng)的能夠起到強(qiáng)大支撐能力的 APP 開發(fā)工具和平臺(tái)。

目前市面上的大模型 APP 開發(fā)平臺(tái)的共性是易用、精度高、易部署、安全可靠等特點(diǎn),而其中能做到提供端側(cè)大模型接口的則少之又少。然而,除了共性的「一鍵集成、開箱即用」優(yōu)勢(shì),面壁智能基于團(tuán)隊(duì)本身強(qiáng)大的高效端側(cè)模型能力推出了 MobileCPM ,如此一來(lái)即無(wú)需云端 GPU ,實(shí)現(xiàn)真正的零推理成本,100 萬(wàn) tokens 只需要 0 元。

WAIC 最具技術(shù)想象力成果發(fā)布:新架構(gòu)面壁小鋼炮又一次驗(yàn)證并加速了面壁定律

可以說(shuō),MobileCPM 拉開基于端側(cè)模式 APP 探索的帷幕,再次降低了開發(fā)者開發(fā)大模型應(yīng)用的門檻,并且增加了端側(cè)大模型應(yīng)用這一選項(xiàng),真正改變了過(guò)去C端產(chǎn)品云端服務(wù)成本?昂的商業(yè)模式,為?模型產(chǎn)品創(chuàng)新提供了新可能。

具體來(lái)看,MobileCPM 可以提供三種模式:

基礎(chǔ)模式:包含了豐富的適配端側(cè)?模型 APP 的 SDK 套件,開發(fā)者基于此即可?由靈活地搭建?模型 APP,但在這個(gè)過(guò)程中,底座模型和智能體仍需要開發(fā)者??開發(fā)和接?;

精裝模式:在基礎(chǔ)模式基礎(chǔ)上,提供 1.2B 參數(shù)的?壁新?代?效稀疏?模型 MiniCPM-S,并且MobileCPM 還支持任意端側(cè)模型的集成,開發(fā)者可以根據(jù)具體需求選擇替換其它端側(cè)模型,并可以通過(guò)增加或修改prompt的方式定制多種API,滿足不同業(yè)務(wù)場(chǎng)景需求。

全包配件模式:在精裝模式的基礎(chǔ)上預(yù)裝豐富的 intent,并提供保姆式教程,開發(fā)者也可使用自定義 intent,減少開發(fā)時(shí)間,?幅提升應(yīng)?的豐富性。

于開發(fā)者而言,無(wú)需 GPU,只需使用 MobileCPM 即可在手機(jī)本地部署大模型,在很大程度上消除了隱私問(wèn)題的擔(dān)憂。并且,也不要求頂配手機(jī),五年內(nèi)發(fā)布的手機(jī)運(yùn)行起來(lái)均無(wú)壓力,端側(cè)毫秒級(jí)響應(yīng),iphone 15 實(shí)測(cè)下,推理速度輕松可達(dá) 30 tokens/s,相當(dāng)于人類語(yǔ)速的18~30倍。

更重要的是,MobileCPM 已經(jīng)全??持 iOS系統(tǒng),立時(shí)可用,Android 版本也即將開啟公測(cè),預(yù)計(jì)即將正式發(fā)布。

MobileCPM 開源地址:https://github.com/OpenBMB/MobileCPM

MobileCPM 這一破壞式創(chuàng)新可以讓任何開發(fā)者都能一鍵集成產(chǎn)品,實(shí)現(xiàn)大模型與 APP 的無(wú)縫對(duì)接。


三、面壁與 AGI 千里江山圖

實(shí)際上,摩爾定律不僅意味著性能的提升和能耗、成本的下降,還意味著整個(gè)行業(yè)需要不停奔跑才能留在原地,在變相地推動(dòng)行業(yè)去吃苦鉆研、迭代技術(shù)。

大模型時(shí)代的面壁定律亦是如此,在本就乾坤未定的 AGI 發(fā)展格局中,從更深層次來(lái)看,這一規(guī)律也拉出一條行業(yè)基本線。也就是說(shuō),一定會(huì)有先行者率先站出來(lái)進(jìn)行技術(shù)的革新,指出并試驗(yàn)出一條技術(shù)迭代的可行路徑,而后將其開放出來(lái)供行業(yè)使用、共同進(jìn)步。

面壁智能就扮演了這樣的角色。

早在面壁智能成立之前,高效的基因就刻在團(tuán)隊(duì)的基因里。而經(jīng)過(guò)一年多的探索與實(shí)踐,從 MiniCPM-2B 到 MiniCPM-S,從不輸 OpenAI 的 Scaling Law 曲線到面壁定律,「高效」在這一團(tuán)隊(duì)也中不斷生出新的定義,被賦予新的內(nèi)涵。雷峰網(wǎng)雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))雷峰網(wǎng)

當(dāng)下,面壁團(tuán)隊(duì)會(huì)將面壁定律視作高效大模型的第一性原理,后續(xù)將會(huì)一直用實(shí)際成果一次次驗(yàn)證它。面壁智能聯(lián)合創(chuàng)始人&CEO 李大海公開表示,在 2026 年年底,面壁就可以做到 GPT-4 水平的端側(cè)模型。

除了技術(shù)層面的進(jìn)步,商業(yè)化落地也是團(tuán)隊(duì)極其看重的事情,一直在以積攢 know-how 的方式去廣泛、高效地探索大模型落地的各種途徑。現(xiàn)已服務(wù)過(guò)大 B 企業(yè),也嘗試過(guò) 2B2C,涉及領(lǐng)域包括金融、營(yíng)銷、法律、內(nèi)容。

在 WAIC 2024 上,面壁智能首席科學(xué)家劉知遠(yuǎn)還透露了關(guān)于穿戴設(shè)備、智能硬件等更多端側(cè) AI 的場(chǎng)景和應(yīng)用,這些也預(yù)示著端側(cè) AI 生態(tài)的序幕即將拉開。

之所以將重點(diǎn)聚焦到端側(cè),一方面是因?yàn)槎藗?cè)是落地起來(lái)更具象化、更現(xiàn)實(shí)的途徑;另一方面也是因?yàn)槊姹谝恢痹谧鲭x用戶最近的事情。

李大海曾說(shuō)道,現(xiàn)在的 AGI 賽道就像一個(gè)千里江山圖在徐徐展開,它代表了「生態(tài)里不同企業(yè)需要緊密合作」的現(xiàn)狀。當(dāng)下,面壁在這幅圖中的位置逐漸清晰。

現(xiàn)在可以放心大膽地說(shuō):高效大模型,就看面壁智能!


雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

WAIC 最具技術(shù)想象力成果發(fā)布:新架構(gòu)面壁小鋼炮又一次驗(yàn)證并加速了面壁定律

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)