0
本文作者: 吳優(yōu) | 2023-05-25 18:48 |
經(jīng)過多年生態(tài)建設(shè),Arm服務(wù)器CPU市場已經(jīng)越來越繁榮,前有亞馬遜、Marvell基于Arm架構(gòu)應(yīng)用于云端,后有華為海思、平頭哥基于Arm推出數(shù)據(jù)中心服務(wù)器,近一兩年,更是有不少順應(yīng)芯片創(chuàng)業(yè)潮而生的Arm服務(wù)器CPU初創(chuàng)公司,遇賢微、鴻鈞微電子都包括在內(nèi)......
近日,專注Arm云原生服務(wù)器CPU的Ampere Computing在2023年度戰(zhàn)略和產(chǎn)品路線圖更新分享中表示,Ampere推出了全新的AmpereOne系列處理器,基于5nm工藝節(jié)點制造,擁有多達192個單線程Ampere核,再一次創(chuàng)造業(yè)內(nèi)最高核心記錄。
這一核心數(shù)量遠遠超過英特爾和AMD服務(wù)器CPU的核心數(shù),如果放在一個具體的場景中,在云環(huán)境中運行虛擬機(VM),將192核的AmpereOne、96核的AMD Genoa、60核的英特爾Sapphire Rapids進行對比,AmpereOne每機架運行的虛擬機數(shù)量是AMD Genoa的2.9倍,是英特爾Sapphire Rapids的4.3倍。
“AmpereOne現(xiàn)已投產(chǎn)并交付給客戶,AmpereOne能夠為云工作負載提供更高的性能、更高的可擴展性以及更高的密度,這是第一款基于Ampere新自研核的產(chǎn)品。”Ampere Computing首席產(chǎn)品官Jeff Wittich說到。
192自研核再創(chuàng)紀錄,針對更大規(guī)模數(shù)據(jù)中心
Ampere發(fā)展至今已經(jīng)有將近6年歷史,此前的兩年,已經(jīng)推出了幾款不同的產(chǎn)品,核數(shù)從32核到128核不等,今年又將核數(shù)進一步提升,最高可達192核,對比隔壁X86陣營的英特爾至強開始強調(diào)“多放10 個核數(shù),不如多放一個加速器”,Ampere的產(chǎn)品升級似乎執(zhí)著于核心數(shù)的提升。
這對數(shù)據(jù)中心市場而言意味著什么?
”全新推出的AmpereOne系列處理器并不是要取代Ampere Altra系列,而是在它原本的基礎(chǔ)之上進行持續(xù)擴張。我們的出發(fā)點是希望能夠滿足不同客戶的不同需求?!盝eff Wittich說到。
AmpereOne系列處理器因為擁有更高的核數(shù),不僅在計算性能上有所擴展,還擴展了內(nèi)存容量、帶寬和IO帶寬,采用了PCIe 5.0 和 DDR5。這些新增的功能主要是為對算力有更高需求的用戶提供服務(wù),主要針對大規(guī)模的數(shù)據(jù)中心,而對于邊緣計算場景,只需要部署32核、功耗40瓦的Ampere Altra處理器就能滿足需求。
另外,考慮到生成式AI算力需求爆發(fā),提升對AI工作負載需求是此次AmpereOne升級的重點。
三年前,Ampere收購了專注于創(chuàng)建AI軟件的OnSpecta公司,通過創(chuàng)建AI軟件助力硬件在AI負載之下運行更快,過去幾年,Ampere的AI團隊也已經(jīng)建立了形成標準框架的Libraries,能夠更高性地運行Ampere Altra。
而Ampere提供的產(chǎn)品,非常適合AI推理,特別是大規(guī)模的云推理,目前已經(jīng)有不少客戶在使用Ampere提供的處理器進行AI推理工作負載,比如Matoha,其鑒別特定材料的應(yīng)用程序模型就在Ampere上運行,用以鑒別玻璃、金屬或織物以實現(xiàn)便捷回收。
Ampere提供的測試數(shù)據(jù)顯示,相比AMD Genoa,AmpereOne可每秒多提供2.3倍的幀數(shù)(圖像),在運行穩(wěn)定的擴散模型中勝出。此外在運行DLRM模型的推薦系統(tǒng)中,通過AmpereOne響應(yīng)的查詢數(shù)量是AMD Genoa的每秒查詢數(shù)量的兩倍多。
值得注意的是,通過Ampere云原生處理器進行AI推理,不僅能打破效率瓶頸,也可以解決云服務(wù)提供商(CSPs)的行業(yè)痛點——使用GPU實現(xiàn)AI推理所產(chǎn)生的高能耗,以及容量擴展和可部署的服務(wù)器數(shù)量都會受到制約。
采用Chiplet設(shè)計,解決內(nèi)存不均衡問題
為避免內(nèi)存墻問題更加嚴重,除了擁有高達192個內(nèi)核,AmpereOne還擁有128通道的PCIe Gen5和8通道的DDR5,以此提升內(nèi)存帶寬,獲得更高的內(nèi)存速度。
值得注意的是,AmpereOne還大量采用了Chiplet設(shè)計,以解決內(nèi)存不均衡的問題。
”我們在Chiplet設(shè)計中實現(xiàn)了特定的拓撲結(jié)構(gòu)以及單一的計算裸片,同時還有單一大網(wǎng)格結(jié)構(gòu),這樣可以助力我們?yōu)榭蛻籼峁┢胶獾母咝阅堋7粗?,其他設(shè)計則要求從一個計算的小芯片傳輸?shù)搅硪粋€小芯片,這種設(shè)計則會帶來延遲問題。”Jeff Wittich解釋道。
也就是說,AmpereOne采用的是一個大的計算Chiplet被數(shù)個控制Chiplet包圍的設(shè)計方式,且64MB的System Level Cache(系統(tǒng)級緩存)被放在計算芯片上,這樣能夠輕易實現(xiàn)內(nèi)存到內(nèi)存的訪問,同時避免造成訪問時間和系統(tǒng)級緩存之間的不平衡,不需要為處理器引入額外的HOPs。
那么,采用了Chiplet設(shè)計和自研核心的AmpereOne是否會出現(xiàn)與過去Neoverse核心的Ampere Altra處理器不兼容的問題?
Jeff Wittich表示,因為AmpereOne系列處理器和Ampere Altra系列處理器都是基于ARM ISA的,所以所有能夠在Ampere Altra系列處理器上運行的代碼,在全新的AmpereOne系列處理器上也能運行,不需要做任何改動。
Ampere針對云原生研發(fā)的Arm服務(wù)器CPU,已經(jīng)再次證明了Arm ISA在數(shù)據(jù)中心的潛力。不過面對X86在數(shù)據(jù)中心建立起的生態(tài),為云原生而生的Ampere還有很長的路要走。
Ampere也表示,Ampere有許多目標,用某個單獨的目標并不足以概括,其中的一個目標是希望繼續(xù)擴展生態(tài)合作,讓Ampere的產(chǎn)品面向更多的用戶,觸手可及。(雷峰網(wǎng)(公眾號:雷峰網(wǎng)))
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。