丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
芯片 正文
發(fā)私信給包永剛
發(fā)送

0

Arm加速端側(cè)AI普及的「妙招」,把Lumex CPU的AI性能提升5倍

本文作者: 包永剛   2025-11-07 11:52
導(dǎo)語(yǔ):Arm移動(dòng)計(jì)算平臺(tái)的性能連續(xù)6年實(shí)現(xiàn)兩位數(shù)增長(zhǎng)。

生成式AI的浪潮,正從云端走向端側(cè),而端側(cè)AI是生成式AI普及的關(guān)鍵。

然而,端側(cè)設(shè)備普遍對(duì)功耗更為敏感,如何在提供足夠AI性能的同時(shí)保證低功耗?

Arm的妙招是將專(zhuān)用的矩陣加速單元直接嵌入CPU。Arm終端事業(yè)部產(chǎn)品管理副總裁 James McNiven說(shuō),“它使端側(cè)AI推理可以直接在CPU上完成,從而大幅減少數(shù)據(jù)在 CPU、NPU或GPU之間的傳輸延遲?!?/strong>

今年9月,Arm發(fā)布了集成第二代Arm可伸縮矩陣擴(kuò)展 (SME2) 新技術(shù)的 Arm Lumex CSS 平臺(tái),相比前代CPU AI性能提升高達(dá)五倍,能效也優(yōu)化了三倍。

在近日舉行的Arm Unlocked 2025 AI 技術(shù)峰會(huì)深圳站,Arm終端事業(yè)部產(chǎn)品管理副總裁 James McNiven進(jìn)一步解析了Arm全新的Lumex CSS 平臺(tái),集成了基于 Armv9.3 架構(gòu)的 CPU 集群、搭載第二代可伸縮矩陣擴(kuò)展 (SME2) 技術(shù)的處理器、Mali G1-Ultra GPU、先進(jìn)的系統(tǒng) IP,以及針對(duì) 3 納米工藝節(jié)點(diǎn)優(yōu)化的量產(chǎn)級(jí)物理實(shí)現(xiàn)方案。

Arm加速端側(cè)AI普及的「妙招」,把Lumex CPU的AI性能提升5倍

可以看到,Arm全新平臺(tái)的升級(jí)都是為了加速端側(cè)AI的爆發(fā)??梢灶A(yù)見(jiàn),憑借著Arm正在推進(jìn)的“平臺(tái)優(yōu)先”戰(zhàn)略,Arm依舊會(huì)是生成式AI浪潮里,消費(fèi)電子、汽車(chē)及基礎(chǔ)設(shè)施等關(guān)鍵領(lǐng)域的領(lǐng)導(dǎo)者。

Arm啟用全新命名體系Lumex,CPU用「妙招」大幅提升AI性能

Arm今年發(fā)布新一代產(chǎn)品不再延續(xù)此前的命名方式,而是啟用了Arm Lumex的新命名方式。

“Lumex源自拉丁語(yǔ),意為世界之光,象征著引領(lǐng)人們前行,促進(jìn)光與人之間更深層的互動(dòng),與移動(dòng)終端作為我們生活中關(guān)鍵且主要的互動(dòng)設(shè)備概念相似?!盝ames McNiven告訴雷峰網(wǎng),“我們也廣泛聽(tīng)取了包括來(lái)自中國(guó)市場(chǎng)的生態(tài)伙伴反饋,其中包括過(guò)往的命名方式確實(shí)較為復(fù)雜,產(chǎn)品迭代的辨識(shí)度不高。因此,我們希望通過(guò)此次更名,讓品牌體系更加清晰易懂。”

James強(qiáng)調(diào),Arm Lumex CSS 平臺(tái)再次實(shí)現(xiàn)了兩位數(shù)的每時(shí)鐘周期指令數(shù) (IPC) 性能提升,這是Arm連續(xù)第六年實(shí)現(xiàn)兩位數(shù)增長(zhǎng),意味著在相同功耗下可獲得顯著的性能提升。

與連續(xù)六年實(shí)現(xiàn)IPC兩位數(shù)同樣值得關(guān)注的是,在CPU中直接嵌入了專(zhuān)用的矩陣加速單元第二代可伸縮矩陣擴(kuò)展 (SME2),在進(jìn)一步解析SME2之前,先介紹全新的CPU。

新一代計(jì)算平臺(tái)更名為L(zhǎng)umex之后,CPU也不再延續(xù)此前Cortex的命名方式,而是采用更簡(jiǎn)明的C1 命名體系。C1 CPU 集群均基于 Armv9.3 架構(gòu)而設(shè)計(jì),根據(jù)不同客戶、市場(chǎng)需求有Arm C1-Ultra、Arm C1-Premium、Arm C1-Pro、Arm C1-Nano四個(gè)層級(jí)。

Arm加速端側(cè)AI普及的「妙招」,把Lumex CPU的AI性能提升5倍

Arm C1-Ultra能提供最高的旗艦級(jí)設(shè)備峰值性能,可實(shí)現(xiàn)最高 25% 的單線程性能提升;Arm C1-Premium專(zhuān)為次旗艦市場(chǎng)打造,它的性能在接近C1-Ultra 的同時(shí),整體面積縮減約 35%。

“當(dāng)任一設(shè)備采用了C1-Ultra或者是C1-Premium,該設(shè)備就可以被稱(chēng)為L(zhǎng)umex設(shè)備?!盝ames表示。

Arm加速端側(cè)AI普及的「妙招」,把Lumex CPU的AI性能提升5倍

Arm C1-Pro是新一代的Cortex-A700 系列,Arm C1-Nano是新一代的Cortex-A500系列。

雖然Arm C1 CPU的性能層級(jí)不同,但都深度集成了SME2,這是專(zhuān)為加速矩陣運(yùn)算和相關(guān)負(fù)載而設(shè)計(jì),非常適合移動(dòng)設(shè)備等對(duì)功耗和響應(yīng)速度要求極高的場(chǎng)景。

相比SME1,SME2的性能提升達(dá)5倍,能效提升3倍,在低延遲、高實(shí)時(shí)性應(yīng)用場(chǎng)景中展現(xiàn)出獨(dú)特優(yōu)勢(shì)。

Arm加速端側(cè)AI普及的「妙招」,把Lumex CPU的AI性能提升5倍

為什么在CPU中增加矩陣加速是一個(gè)在端側(cè)滿足AI計(jì)算需求的“妙招”?James對(duì)雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))說(shuō),“首先,對(duì)延遲極為敏感的場(chǎng)景而言,在CPU內(nèi)實(shí)現(xiàn)矩陣加速,可以顯著提升應(yīng)用的計(jì)算效率,特別是在快速 AI 推理場(chǎng)景中,無(wú)需再將任務(wù)回傳至NPU,避免了可能導(dǎo)致的內(nèi)存訪問(wèn)延遲。其次,幾乎所有設(shè)備都會(huì)搭載CPU,且Arm CPU 被廣泛采用在絕大多數(shù)的移動(dòng)設(shè)備上,這為開(kāi)發(fā)者帶來(lái)了極大的便利性。他們無(wú)需針對(duì)不同的 NPU 架構(gòu)進(jìn)行適配,也無(wú)需為不同設(shè)備重新設(shè)計(jì)計(jì)算邏輯(因?yàn)槟承┙K端甚至并不具備 NPU),更可免除考慮安全模型等其他因素?!?/p>

當(dāng)然,為CPU增加矩陣加速的能力大幅提升其AI性能,目的并非要替代GPU或者NPU在處理AI負(fù)載時(shí)的作用,而是可以根據(jù)負(fù)載的類(lèi)型選擇最合適的計(jì)算單元,為用戶提供最佳的AI體驗(yàn)。

語(yǔ)音識(shí)別就非常適合使用SME2進(jìn)行加速,這類(lèi)任務(wù)對(duì)響應(yīng)速度要求極高、數(shù)據(jù)量相對(duì)較小,在 CPU 上直接執(zhí)行不僅能顯著提升流暢度。

目前,Arm已經(jīng)與包括支付寶、淘寶等移動(dòng)應(yīng)用伙伴合作,基于SME2的集成,優(yōu)化用戶體驗(yàn)。vivo與OPPO也推出支持SME2的設(shè)備。Arm也與騰訊GiiNEX針對(duì)SME2展開(kāi)游戲方面的合作。騰訊的初步測(cè)試結(jié)果顯示,啟用SME2后性能提升達(dá)2.5倍。Google也確認(rèn)未來(lái)將在Android 系統(tǒng)版本中支持 SME2。

不過(guò),為CPU增加矩陣加速能力并非Arm獨(dú)有的妙招,RISC-V也在采用這樣的方式滿足生成式AI的需求,那Arm的優(yōu)勢(shì)是什么?

James表示,“Arm 的最大優(yōu)勢(shì)在于,我們的CPU架構(gòu)已應(yīng)用于全球約99%的智能手機(jī)之中。對(duì)于開(kāi)發(fā)人員來(lái)說(shuō)非常容易統(tǒng)一目標(biāo),直接可以部署?!?/p>

GPU性能雙位數(shù)提升,神經(jīng)技術(shù)明年商用

與CPU性能持續(xù)兩位數(shù)提升一樣,Arm的GPU也已經(jīng)連續(xù)四年實(shí)現(xiàn)了雙位數(shù)的性能與能效提升。與C1 GPU命名體系對(duì)應(yīng),Arm GPU的命名為“Mali G1”。

Mali G1-Ultra是旗艦級(jí)GPU,能夠在更低功耗下完成包括照片、視頻在內(nèi)的大多數(shù)推理任務(wù)。在各類(lèi)圖形基準(zhǔn)測(cè)試中,Mali G1-Ultra 較前代產(chǎn)品實(shí)現(xiàn)了20%的性能提升,并引入第二代光線追蹤單元,在跨平臺(tái)光線追蹤性能測(cè)試 Solar Bay Extreme 上,Arm最新的光線追蹤單元將實(shí)現(xiàn)兩倍性能提升。

Arm加速端側(cè)AI普及的「妙招」,把Lumex CPU的AI性能提升5倍

Arm將光線追蹤性能實(shí)現(xiàn)兩倍提升的最終目標(biāo),是能夠在游戲中實(shí)現(xiàn)更加全面、自然的光照效果——從局部光照逐步邁向全場(chǎng)景光照。這將為游戲團(tuán)隊(duì)帶來(lái)更大的創(chuàng)作空間,使他們能夠在同一款游戲中整合更多的光線追蹤組件,從而實(shí)現(xiàn)更高質(zhì)量、更具沉浸感的照明表現(xiàn)。

在GPU層面更值得期待的是Arm在今年8月發(fā)布的“神經(jīng)技術(shù)”,這一新技術(shù)將被用于明年面世的終端設(shè)備。

Arm加速端側(cè)AI普及的「妙招」,把Lumex CPU的AI性能提升5倍

James介紹,神經(jīng)技術(shù)是Arm未來(lái)的重要發(fā)展方向。這項(xiàng)技術(shù)能幫助開(kāi)發(fā)者更充分地將 AI 能力應(yīng)用于圖形處理,無(wú)論是圖像放大、去噪還是新內(nèi)容生成,都將帶來(lái)更加真實(shí)與沉浸的視覺(jué)體驗(yàn)。目前,已有多個(gè)開(kāi)發(fā)者社區(qū)和游戲工作室在與Arm共同推進(jìn)這一方向。

當(dāng)然,Arm面向Vulkan的開(kāi)放Arm ML擴(kuò)展能讓開(kāi)發(fā)者更輕易地將AI作為圖形管線的原生部分整合到移動(dòng)端渲染。

加速端側(cè)AI爆發(fā)的關(guān)鍵——開(kāi)發(fā)者友好

Arm全新的Lumex CSS 平臺(tái)在CPU與GPU層面都實(shí)現(xiàn)了兩位數(shù)性能提升,也帶來(lái)了顯著的AI性能增強(qiáng)。

要讓這些性能被充分釋放,開(kāi)發(fā)者友好的生態(tài)至關(guān)重要,Arm對(duì)此投入巨大。

“為了讓開(kāi)發(fā)者更好地發(fā)揮 SME2 的潛能,自去年起,我們?cè)?KleidiAI 軟件庫(kù)的基礎(chǔ)上,進(jìn)一步擴(kuò)大其功能范圍。KleidiAI專(zhuān)為加速AI應(yīng)用而設(shè)計(jì),已與業(yè)界主流的AI框架實(shí)現(xiàn)深度集成。這意味著無(wú)論是舊架構(gòu)還是最新支持 SME2 的架構(gòu),開(kāi)發(fā)者都能獲得一致的性能加速體驗(yàn)?!盝ames表示。

Arm加速端側(cè)AI普及的「妙招」,把Lumex CPU的AI性能提升5倍

面向GPU,Arm推出了全球首個(gè)全面開(kāi)放的神經(jīng)圖形開(kāi)發(fā)套件,旨在將AI渲染集成到現(xiàn)有的工作流程中,使得開(kāi)發(fā)者能夠在硬件面世前一年就能著手進(jìn)行開(kāi)發(fā)。這一開(kāi)發(fā)套件在今年八月的發(fā)布時(shí)就已得到六家主要游戲工作室的支持,最近又有一家新的游戲工作室完成了集成測(cè)試。

除了更好的性能和開(kāi)發(fā)者友好的生態(tài),端側(cè)AI的爆發(fā)也面臨其它技術(shù)挑戰(zhàn)。James認(rèn)為,在系統(tǒng)級(jí) IT 設(shè)計(jì)中,必須確保 CPU 與 GPU 之間,以及它們與存儲(chǔ)系統(tǒng)之間的高效互連。優(yōu)化數(shù)據(jù)互連以實(shí)現(xiàn)更高效的數(shù)據(jù)流,是當(dāng)前面臨的主要挑戰(zhàn)之一。Arm通過(guò)優(yōu)化互連架構(gòu),進(jìn)一步降低數(shù)據(jù)傳輸過(guò)程中的延遲,實(shí)現(xiàn)更快速的內(nèi)部?jī)?nèi)存訪問(wèn)。

另一個(gè)突出的挑戰(zhàn)在于,AI應(yīng)用幾乎每隔數(shù)月甚至是數(shù)周就會(huì)出現(xiàn)新的應(yīng)用形態(tài),涉及不同的數(shù)據(jù)類(lèi)型、運(yùn)算符與指令集。Arm新推出的C1 CPU提供了高度靈活的計(jì)算引擎,可以生成并執(zhí)行幾乎任意類(lèi)型的運(yùn)算符,處理各種類(lèi)型的數(shù)據(jù)。

另外,和所有AI參與者一樣,Arm也要面對(duì)各種不同的場(chǎng)景。Arm的策略是通過(guò)微架構(gòu)來(lái)實(shí)現(xiàn)不同細(xì)分市場(chǎng)的差異化需求。比如Arm C1 CPU的四個(gè)層級(jí)的產(chǎn)品,既能為客戶提供豐富的選擇,也能讓他們更方便地為目標(biāo)市場(chǎng)“定制”適配方案。

在消費(fèi)電子領(lǐng)域之外,Arm還有面向汽車(chē)行業(yè)的 Arm Zena CSS 計(jì)算平臺(tái)、面向基礎(chǔ)設(shè)施的Arm Neoverse CSS計(jì)算平臺(tái),還有即將發(fā)布的面向PC市場(chǎng)的Arm Niva平臺(tái)。

Arm正通過(guò)從云端到邊緣再到端側(cè)的全線計(jì)算平臺(tái),加速生成式AI的普及。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

分享:
相關(guān)文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄