丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
芯片 正文
發(fā)私信給劉伊倫
發(fā)送

0

存力競爭開啟,平頭哥鎮(zhèn)岳510正在成為阿里AI Infra的新基石

本文作者: 劉伊倫   2025-09-28 14:38
導(dǎo)語: 基于鎮(zhèn)岳510的pSLC方案已在阿里云OSS開展灰度測試,平頭哥與阿里云深度合作開展ZNS+QLC存儲解決方案的探索。

“存儲是保證大模型正常運行的基礎(chǔ)?!?/strong>平頭哥半導(dǎo)體產(chǎn)品總監(jiān)周冠鋒向雷峰網(wǎng)(公眾號:雷峰網(wǎng))說到。

在大模型時代,全球正掀起大規(guī)模算力基建潮?!八懔Α⑺懔?,還是算力”的口號成為行業(yè)對這一趨勢的直白概括,不少人將算力視為最核心的競爭資源。

但鮮少有人意識到,大模型從千億參數(shù)訓(xùn)練到實時場景推理,每一步都需要EB級海量數(shù)據(jù)的持續(xù)供給,而這些數(shù)據(jù)的安全留存、高效調(diào)取,全依賴存儲系統(tǒng)的穩(wěn)定運行,若缺乏高質(zhì)量、高可靠的存儲支撐,再強大的算力也會因“數(shù)據(jù)斷供”陷入“無米之炊”的困境。

這也恰恰點破了大模型時代技術(shù)基建的核心邏輯:看似聚焦“算力突破”的技術(shù)革命,實則離不開“存儲支撐”的底層托舉。

中國信通院最新出具的《2025先進存力研究報告》指出,我國數(shù)據(jù)生產(chǎn)量逐年增長,存力建設(shè)卻略顯滯后,數(shù)據(jù)“應(yīng)存未存”現(xiàn)象凸顯。

在數(shù)據(jù)產(chǎn)量與存儲容量的規(guī)模方面,2023至2024年數(shù)據(jù)年產(chǎn)量由32.85ZB增至41.06ZB,增速達到25%,而數(shù)據(jù)存儲總量僅由1.73ZB提升至2.09ZB,增速為20.81%,數(shù)據(jù)存儲增量明顯落后于數(shù)據(jù)生產(chǎn)速度,存力缺口已然出現(xiàn)。

“國內(nèi)對智算算力的消納主要是圍繞大模型的訓(xùn)練、推理、微調(diào)及開發(fā),所以這并不單純是對于計算能力的價值體現(xiàn),而是算力+存力+網(wǎng)絡(luò)運力的綜合能力體現(xiàn)。”某智算云頭部廠商負責(zé)人對雷峰網(wǎng)表示,也正因如此,在智算中心組網(wǎng)方案的合理性以及如何合理消納算力等方面,一旦出現(xiàn)不合理之處,在運營過程中就會面臨瓶頸和問題。

某算力集群就曾因設(shè)計的計算訪存比過小,導(dǎo)致工作負載僅維持在10%,通過優(yōu)化存儲的性能,該集群提高到了20%-30%的使用范圍,改造設(shè)計后客戶數(shù)量大幅上升。

當存力缺口成為制約算力效能釋放的關(guān)鍵瓶頸,當存儲優(yōu)化對算力集群的價值已被實踐驗證,如何系統(tǒng)性彌補存力短板?如何優(yōu)化存儲技術(shù)以實現(xiàn)大規(guī)模算力集群高效運轉(zhuǎn)?平頭哥鎮(zhèn)岳510,正在為這些問題提供關(guān)鍵解決方案。

鎮(zhèn)岳510補齊阿里AI基建,實現(xiàn)「算力-存力-運力」業(yè)務(wù)閉環(huán)

從政策加碼到企業(yè)競逐,AI基建已成為各國科技競爭的核心籌碼。

正如阿里巴巴集團CEO吳泳銘在2025云棲大會上所指,未來五年全球AI累計投入金額將超過4萬億美元,這是人類歷史上最大規(guī)模的算力與研發(fā)投入。

2025年2月,阿里率先宣布未來三年投入超3800億元建設(shè)云計算和AI硬件基礎(chǔ)設(shè)施,七個月后,吳泳銘在云棲大會上再次強調(diào)這一規(guī)劃,并明確表示將追加更多投入。

真金白銀的投入已落地為具體動作:僅過去四個季度,阿里在AI基礎(chǔ)設(shè)施和產(chǎn)品研發(fā)上的累計投入已超1000億元,2025年資本支出預(yù)計達1100-1200億元,其中700-800億元直接用于服務(wù)器采購與數(shù)據(jù)中心建設(shè)。

從擴建墨西哥、日本等地的數(shù)據(jù)中心,到首次在巴西、法國、荷蘭布局云計算地域節(jié)點,阿里的算力網(wǎng)絡(luò)正加速織密全球版圖,而這背后,亟需解決“算力-存力-運力”的協(xié)同瓶頸。

若僅僅關(guān)注算力芯片的性能,就很容易面臨“內(nèi)存墻”等存儲領(lǐng)域的限制,無法充分發(fā)揮集群的性能。

這種瓶頸在大模型訓(xùn)練與推理場景中尤為突出:訓(xùn)練階段需頻繁讀取PB級數(shù)據(jù)集、寫入TB級Checkpoint(檢查點)文件,推理場景中長上下文對話導(dǎo)致的KV緩存爆炸,都可能讓GPU陷入“空等數(shù)據(jù)”的閑置狀態(tài)。

為此,國內(nèi)各大廠商紛紛發(fā)力破局,鎮(zhèn)岳510的存在,補全了阿里及合作廠商在對先進存力的需求,使數(shù)據(jù)從“產(chǎn)生-存儲-調(diào)用”形成高效閉環(huán)。

作為平頭哥推出的鎮(zhèn)岳510高性能SSD主控,其4μs超低時延比業(yè)界主流水平低30%以上,搭配340萬IOPS的超高隨機讀性能與14GB/s順序讀帶寬,可直接為GPU提供“無間斷數(shù)據(jù)供給”。

更關(guān)鍵的是,它通過“雙向適配”覆蓋全場景需求:向上支持pSLC模式,降低隨機讀時延,適配數(shù)據(jù)準備階段的高頻隨機讀寫;向下兼容ZNS+QLC方案,通過分區(qū)順序?qū)懭胂厥臻_銷,兼顧冷數(shù)據(jù)存儲的大容量與低成本。

躋身存儲主控芯片第一梯隊,鎮(zhèn)岳510如何打造「高性能、低成本」的AI存儲方案?

在阿里云大規(guī)模算力基建的實踐中,存儲與計算的協(xié)同效率始終是決定集群效能的核心命題。

“算力集群的計算過程是把數(shù)據(jù)從存儲搬運到計算單元,計算完成后其中間結(jié)果以及存力結(jié)果會返存回存力集群,存力是不是能以更大的帶寬、更低的時延將數(shù)據(jù)搬運到算力單元中進行計算,將影響算力的利用率?!敝芄阡h表示。

由于計算集群會不定時發(fā)生故障,計算過程中需要定期進行Checkpoint保存,更是對存儲性能的“壓力測試”,保存耗時越短、整個計算過程被中斷的時間越少,因集群故障導(dǎo)致的訓(xùn)練中斷風(fēng)險就越低,業(yè)務(wù)連續(xù)性與可靠性也隨之增強,從而進一步提升計算的效率。

這一邏輯在阿里云的實際運營中得到了深刻印證。

為平衡存儲成本與容量需求,阿里云曾廣泛采用HDD(機械硬盤)作為底層存儲介質(zhì),但HDD有限的帶寬與IOPS(每秒輸入輸出操作數(shù)),在大模型訓(xùn)練前的數(shù)據(jù)準備、高頻次Checkpoint寫入等場景中顯得力不從心。

為突破瓶頸,需要在HDD上加一層緩存,以提升整個存儲集群的帶寬和IOPS。阿里云此前選用傲騰(Optane)作為緩存層核心,但隨著傲騰的逐步停產(chǎn),急需替代品作為緩存進行持續(xù)供應(yīng)。

平頭哥鎮(zhèn)岳510通過對pSLC NAND(偽SLC NAND)技術(shù)的深度適配,不僅解決了阿里云的存儲性能瓶頸,還規(guī)避了傲騰停產(chǎn)造成的供應(yīng)鏈風(fēng)險。

在云棲大會的演講中,平頭哥披露,基于鎮(zhèn)岳510的pSLC方案實現(xiàn)了對傲騰的性能超越,隨機讀帶寬提升17%,隨機寫IOPS提升4%。

更關(guān)鍵的是,這一方案打破了“高性能必高成本”的行業(yè)困境:在性能升級的同時,SSD整體成本大幅降低,完美適配了阿里云對“高效能+低成本”的核心訴求,高度適配大語言模型訓(xùn)練前的數(shù)據(jù)準備階段。如今,這一方案已在阿里云OSS(對象存儲服務(wù))等場景中開展灰度測試,意味著其技術(shù)成熟度與場景適配性已通過初步驗證,即將進入規(guī)?;瘧?yīng)用階段。

為了進一步提供高性能、低成本的AI存儲方案,平頭哥與阿里云的深度合作,開展ZNS+QLC存儲解決方案的探索。QLC NAND作為高密度存儲介質(zhì),雖憑借每GB更低的成本成為大規(guī)模存儲場景的理想選擇,但傳統(tǒng)SSD主控對QLC的適配始終存在短板,隨機寫入時的寫放大效應(yīng)顯著,不僅導(dǎo)致性能波動,更縮短了SSD的使用壽命,讓QLC的成本優(yōu)勢難以充分釋放。

而ZNS(分區(qū)命名空間)技術(shù)的出現(xiàn),為解決這一痛點提供了方向:它通過將閃存劃分為獨立分區(qū),讓數(shù)據(jù)按分區(qū)順序?qū)懭耄瑥母瓷蠝p少垃圾回收操作,但如何讓ZNS與QLC深度協(xié)同成了又一命題。

鎮(zhèn)岳510針對ZNS+QLC方案進行了底層架構(gòu)優(yōu)化:

一方面,通過定制化的分區(qū)管理算法,讓數(shù)據(jù)寫入嚴格匹配ZNS分區(qū)的順序特性,改善了傳統(tǒng)方案中的空間浪費問題;

另一方面,鎮(zhèn)岳510內(nèi)置的智能磨損均衡機制,能根據(jù)QLC的擦寫壽命特性,動態(tài)調(diào)整各分區(qū)的數(shù)據(jù)分布,避免單一分區(qū)過度損耗,延長QLC SSD的使用壽命。

更關(guān)鍵的是,這些優(yōu)化并未以性能妥協(xié)為代價,完全滿足AI冷數(shù)據(jù)存儲、訓(xùn)練數(shù)據(jù)集歸檔等場景的性能需求。

鎮(zhèn)岳510的價值不止于AI場景,其對分布式存儲的深度支持,在阿里云EBS(彈性塊存儲)等核心產(chǎn)品中也展現(xiàn)出優(yōu)勢。

分布式存儲作為云計算的底層基石,需要應(yīng)對多租戶、多場景的混合讀寫需求,對QoS(服務(wù)質(zhì)量,衡量存儲系統(tǒng)性能穩(wěn)定性與可靠性的關(guān)鍵指標)的穩(wěn)定性要求極高。

鎮(zhèn)岳510從硬件層面重構(gòu)了QoS保障機制:通過獨立的讀寫通道設(shè)計,將隨機讀、順序?qū)?、混合讀寫等不同任務(wù)的資源需求進行隔離,避免任務(wù)間的相互干擾;同時,內(nèi)置的智能優(yōu)先級調(diào)度算法,能根據(jù) EBS 的業(yè)務(wù)場景動態(tài)分配帶寬與IO資源,確保核心業(yè)務(wù)的時延優(yōu)先。

平頭哥在云棲大會現(xiàn)場的對比數(shù)據(jù)顯示,在混合讀寫場景下,鎮(zhèn)岳510為阿里云EBS提供99%時延表現(xiàn),意為在統(tǒng)計周期內(nèi),存儲系統(tǒng)處理混合讀寫請求時,99%的請求響應(yīng)時間都能控制在某一特定時延值以內(nèi)?;阪?zhèn)岳510的EBS混合讀寫QoS 99%時延僅為兩款國外主流競品時延的56%和84%,時延明顯更短。

鎮(zhèn)岳510規(guī)?;荷罡⒗镌艵BS,驅(qū)動高性能SSD發(fā)展

在商業(yè)世界里,技術(shù)不是唯一,實現(xiàn)規(guī)?;涞夭拍苷嬲尫女a(chǎn)品的價值。

得益于背靠阿里云的天然優(yōu)勢,鎮(zhèn)岳510以“內(nèi)部深度應(yīng)用+外部生態(tài)合作”的雙輪驅(qū)動,從阿里云存儲的“芯” 底座走向全產(chǎn)業(yè)的存儲解決方案

阿里云EBS作為支撐千萬級云服務(wù)器的底層存儲服務(wù),是鎮(zhèn)岳510規(guī)?;瘧?yīng)用的關(guān)鍵場景之一。

鎮(zhèn)岳510通過硬件架構(gòu)優(yōu)化與智能調(diào)度算法,為EBS帶來了全方位的性能躍升:不僅大幅提升系統(tǒng)的IOPS(每秒輸入輸出操作數(shù))與吞吐帶寬,更在讀寫混合場景下實現(xiàn)關(guān)鍵突破,時延較行業(yè)其他主控壓縮92%,同等資源條件下,有效提升承載用戶的并發(fā)訪問量。

在內(nèi)部場景驗證技術(shù)成熟度后,鎮(zhèn)岳510以“核心主控芯片”的身份向外延伸,與憶恒創(chuàng)源、得瑞領(lǐng)新、佰維存儲等頭部存儲廠商達成深度合作。

憶恒創(chuàng)源基于鎮(zhèn)岳510打造的PBlaze7 7A40系列企業(yè)級SSD,成為業(yè)內(nèi)首款實現(xiàn)4K隨機寫入100萬IOPS的企業(yè)級存儲產(chǎn)品。該系列SSD推出后,迅速切入多個應(yīng)用場景,支持大規(guī)模模型訓(xùn)練和推理任務(wù),優(yōu)化在線交易處理(OLTP)和數(shù)據(jù)分析性能,滿足金融、電商等行業(yè)需求,并且助力云服務(wù)提供商提升存儲效率,降低運營成本。

依托鎮(zhèn)岳510芯片,得瑞領(lǐng)新推出了首款支持PCIe5.0接口的高性能NVMe SSD,即D8000 系列,能夠穩(wěn)定滿足 AI 訓(xùn)練、實時數(shù)據(jù)分析等高性能計算場景的嚴苛需求。

行業(yè)內(nèi)的技術(shù)探索從未停歇,平頭哥作為專注該領(lǐng)域研發(fā)的重要力量,也有著清晰且長遠的規(guī)劃。

“平頭哥的存儲產(chǎn)品線目前還是聚焦于SSD主控芯片的研發(fā),因此平頭哥存儲產(chǎn)品線會持續(xù)開發(fā)下一代性能更強、容量更大、糾錯性能更高、訪問時延更低的SSD主控芯片,來解決未來AI算力增加、算力規(guī)模增大之后對存儲帶來的性能更高的要求?!敝芄阡h說道。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

分享:
相關(guān)文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄