0
本文作者: 趙之齊 | 2025-09-09 18:22 |
是什么契機(jī),讓國內(nèi)耳熟能詳?shù)乃懔ο嚓P(guān)公司都濟(jì)濟(jì)一堂?
在2025世界智能產(chǎn)業(yè)博覽會的AI計(jì)算開放架構(gòu)暨新品發(fā)布會上,國產(chǎn)算力友商們擁有了某種向心力。而串聯(lián)起他們的核心紐帶,正是中科曙光發(fā)布的國內(nèi)首個(gè)AI計(jì)算開放架構(gòu)。
此次發(fā)布中,中科曙光協(xié)同AI芯片、AI整機(jī)、大模型等20多家產(chǎn)業(yè)鏈上下游企業(yè),共同推出AI超集群系統(tǒng)。在開放多項(xiàng)技術(shù)能力的同時(shí),也宣布依托國家先進(jìn)計(jì)算產(chǎn)業(yè)創(chuàng)新中心,啟動 “AI計(jì)算開放架構(gòu)聯(lián)合實(shí)驗(yàn)室” 的建設(shè)。
算力廠商們的集體亮相,背后也藏著大家對當(dāng)前國內(nèi)算力市場困局的共同焦慮:行業(yè)過去“強(qiáng)競爭、弱合作”,導(dǎo)致國內(nèi)基礎(chǔ)設(shè)施市場雖然火熱,但不同廠商的服務(wù)器、存儲設(shè)備、算力調(diào)度平臺大多采用專有接口與協(xié)議,缺乏統(tǒng)一技術(shù)標(biāo)準(zhǔn),從而難以形成合力,突破瓶頸。
那么,對當(dāng)下的國內(nèi)算力生態(tài)而言,曙光的這步嘗試究竟價(jià)值何在?為了推動這場突破,他們又做了哪些準(zhǔn)備?
算力產(chǎn)業(yè)鏈環(huán)節(jié)細(xì)分,內(nèi)部卻是“一盤散沙”
在外部生態(tài)護(hù)城河難以攻克之時(shí),內(nèi)部算力廠商卻仍各自為戰(zhàn)、缺乏協(xié)同,這是國內(nèi)算力市場的一大瓶頸。
而這種局面的出現(xiàn),一大原因是GPU領(lǐng)域內(nèi)大量不同的品牌、廠商,彼此之間不同的算力密度、互聯(lián)方式以及生態(tài)體系差別,筑起的異構(gòu)壁壘。
2023年前后,異構(gòu)問題的解決被越來越多廠商提上日程。然而,目前的嘗試并不盡如人意——
在技術(shù)上,不同芯片算子庫不同,運(yùn)行時(shí)的技術(shù)適配差異會增大整合難度;同時(shí),異構(gòu)的協(xié)調(diào)需要對GPU性能進(jìn)行預(yù)測及拆分,甚至涉及硬件協(xié)調(diào)。
在生態(tài)上,中科曙光總裁助理、智能計(jì)算產(chǎn)品事業(yè)部總經(jīng)理杜夏威向雷峰網(wǎng)介紹,行業(yè)已習(xí)慣在國際主流生態(tài)的框架下運(yùn)行,現(xiàn)有慣性難以打破;且產(chǎn)業(yè)迭代速度極快、技術(shù)更新頻繁之下,AI各個(gè)產(chǎn)業(yè)板塊發(fā)展都很活躍,這導(dǎo)致“齒輪”之間并沒有嚴(yán)絲合縫協(xié)同。
這些問題沒有解決,目前的異構(gòu)混訓(xùn)就依然會對效率造成莫大犧牲——有業(yè)內(nèi)人士指出,隨著AI加速卡數(shù)量的增加和不同芯片類型加入,混訓(xùn)的魯棒性和穩(wěn)定性都會變差。杜夏威觀察到“人們對打破壁壘的未知恐懼普遍存在”,但市場對廠商邁出這一步的需求,已迫在眉睫。
杜夏威指出,云計(jì)算時(shí)代,客戶的起步往往較云計(jì)算提供商晚,市場教育周期可能較長;而在AI大模型時(shí)代,客戶接受度極高,快速增長的海量需求反推數(shù)據(jù)中心的運(yùn)營革新,市場正倒逼廠商啃下異構(gòu)集群統(tǒng)一標(biāo)準(zhǔn)的“硬骨頭”。
雖然有觀點(diǎn)認(rèn)為,異構(gòu)需求只是國產(chǎn)芯片提升性能過程中的過渡性階段,智算中心最終還是會回歸到同構(gòu)的基礎(chǔ)架構(gòu);然而,在未來算力市場發(fā)展的短期內(nèi),異構(gòu)需求只會有增無減:
一方面,數(shù)據(jù)中心的國產(chǎn)化比例要求逐漸嚴(yán)格,以前國產(chǎn)卡比例在數(shù)據(jù)中心內(nèi)可能只占兩成,但今年窗口指導(dǎo)等相關(guān)政策頒布后,未來可能有所升高。
另一方面,部分使用先進(jìn)算力加國產(chǎn)化算力的組合集群的大模型客戶,也明確擁有對混訓(xùn)能力的要求。
有見及此,2025智博會上,中科曙光協(xié)同AI芯片、AI整機(jī)、大模型等20多家產(chǎn)業(yè)鏈上下游企業(yè),共同發(fā)布了國內(nèi)首個(gè)AI計(jì)算開放架構(gòu),并基于該架構(gòu)推出AI超集群系統(tǒng)。
這套超集群單機(jī)柜支持96張加速卡,可提供超過100P的AI算力,最高能夠?qū)崿F(xiàn)百萬卡大規(guī)模擴(kuò)展。它還能支持深度開發(fā)用戶迭代自有程序,同時(shí)幫助傳統(tǒng)行業(yè)用戶快速復(fù)用AI模型、整合業(yè)務(wù)。
與專有封閉系統(tǒng)相比,這套系統(tǒng)可適配支持多品牌GPU加速卡,兼容CUDA等主流軟件生態(tài),為用戶提供更多選擇;同時(shí)也大幅降低硬件成本和軟件開發(fā)適配成本,使得前期投資壓力較小。
并且,曙光也攜手眾多產(chǎn)業(yè)鏈企業(yè)開放七項(xiàng)核心技術(shù),包括CPU與AI加速器高性能接口協(xié)議、加速器互連協(xié)議,液冷基礎(chǔ)設(shè)施層面的規(guī)范,以及軟件棧的整合經(jīng)驗(yàn)等。
“這個(gè)AI超集群最大的特點(diǎn),就是多元化和包容化”,杜夏威說道。在他看來,異構(gòu)并非局限地理解為把多個(gè)品牌揉在一個(gè)系統(tǒng)下,而是尋找大家在整個(gè)系統(tǒng)化工程中擅長的部分,嘗試通過深度合作來形成對產(chǎn)業(yè)的良好支撐。
而曙光能成為開放架構(gòu)號召人的角色,正源自其多年來的實(shí)驗(yàn)積累。
中科曙光高級副總裁李斌說道,過去十年,中科曙光建設(shè)了20多個(gè)大規(guī)模算力集群,累計(jì)部署超50萬張異構(gòu)加速卡。從大型機(jī)到集群,從小規(guī)模算力到超大規(guī)模算力系統(tǒng),曙光在產(chǎn)業(yè)鏈各層級的沉淀,令其足以起串聯(lián)上下游。
這種串聯(lián),一方面能讓各個(gè)環(huán)節(jié)的算力公司不再“重復(fù)造輪子”,減少為多種不同架構(gòu)重復(fù)研發(fā)的無效過程;另一方面,也能在當(dāng)前國內(nèi)算力供需匹配不足的情況下,有效整合起分散的算力資源。
不過,讓算力資源有效運(yùn)轉(zhuǎn)的條件之一,是要保障集群能長久穩(wěn)定地基礎(chǔ)運(yùn)營。為此,曙光做的準(zhǔn)備遠(yuǎn)不止這些。
做好模型訓(xùn)練中的“臟活累活”
智博會上,中科曙光展臺正中間立著AI超集群產(chǎn)品,其存儲、液冷、生態(tài)等板塊的細(xì)分展區(qū)分布四周,將其簇?fù)砥渲小?/p>
據(jù)介紹,這套AI超集群千卡集群大模型訓(xùn)推性能達(dá)到業(yè)界主流水平的2.3倍,其完善的工具鏈和軟件棧能把開發(fā)效率提升4倍,人力和時(shí)間投入降低70%。
GPU時(shí)代對軟硬件的協(xié)同優(yōu)化提出更高要求,杜夏威說道,曙光的這套架構(gòu),也涵蓋了資源運(yùn)管調(diào)度、下層并行化等策略,以及專家并行、PD分離等技術(shù),確保底層算力高效發(fā)揮。同時(shí),也對底層通信庫、算子庫進(jìn)行優(yōu)化,能做到以軟件棧的形態(tài)交付服務(wù)。
而在存算方面,曙光也提出了“以存提算”、存算一體,通過Burstbuffer數(shù)據(jù)緩存的使用,結(jié)合超級隧道降低交互,保障數(shù)據(jù)IO以及傳輸有自己高效的專屬通道,讓GPU算力效能增加了55%。
此外,那些在大模型時(shí)代發(fā)展早期被有意回避的“臟活累活”——提高穩(wěn)定性、減少故障率、縮短故障恢復(fù)時(shí)間——反而成了曙光新品的亮眼名片:
在曙光的這套新集群中,其平均無故障時(shí)間(MTBF)提高了2.1倍,平均故障修復(fù)時(shí)間(MTTR)降低到原來的47%等?!鞍巡挥绊懺袠I(yè)務(wù)運(yùn)轉(zhuǎn)的故障替換技術(shù),逐步釋放到整個(gè)AI超集群中”,是曙光下一步發(fā)展的目標(biāo)。
高溫,也是大集群穩(wěn)定運(yùn)行的一大克星。一般來說,芯片工作溫度每升高10度,失效率就會翻倍。曙光數(shù)創(chuàng)CTO張鵬算了這樣一筆賬:目前,曙光通過液冷能做到PUE 1.04,相當(dāng)于每帶走100個(gè)單位的熱量,只需額外花費(fèi)4個(gè)單位的能量;而以往風(fēng)冷的能量比效率只是1:1,相比起來,液冷的能耗節(jié)省非常明顯。
不過,在冷板、浸沒、噴淋三大液冷路線中,冷板雖先行落地成為主流,但面對目前已達(dá)1000w級GPU運(yùn)行時(shí)的“熱浪”,已有些捉襟見肘。
要讓芯片算力得以充分釋放,下一扇需要開啟的門是“浸沒”。而曙光已經(jīng)率先握住了這把鑰匙。
中科曙光在展會現(xiàn)場展出的相變浸沒液冷設(shè)備,令雷峰網(wǎng)(公眾號:雷峰網(wǎng))印象深刻——
透過玻璃視窗,可以看到8塊GPU和2塊CPU浸泡在無色液體中。細(xì)密的氣泡從芯片上覆蓋而過,旋即升騰、折向右側(cè),形成穩(wěn)定而精確的“蒸汽軌道”。
據(jù)現(xiàn)場工作人員介紹,這些特殊液體的沸騰溫度僅在50度左右,遠(yuǎn)低于芯片運(yùn)行時(shí)80-90度的工作溫度。于是,在持續(xù)的沸騰中,熱量便被汽化的小氣泡裹挾帶走、隨后消散。
曙光展出的相變浸沒液冷設(shè)備,攝:雷峰網(wǎng)李想
做大型機(jī)和集群起家的曙光,從2011年就開始布局靜默式冷板液冷,在2015年量產(chǎn)TC40冷板式高密度服務(wù)器。盡管如此,張鵬還是感慨,數(shù)據(jù)中心需求迅猛增長的這幾年,已經(jīng)對液冷發(fā)展提出近乎苛刻的高要求:
現(xiàn)在的智算中心比起傳統(tǒng)通用數(shù)據(jù)中心,負(fù)載變化率很快——在訓(xùn)練和推理中,一個(gè)回車按下的毫秒里,所有需求就要達(dá)到滿載。與此同時(shí),單機(jī)柜功率密度在短短幾年內(nèi)從60千瓦,飆升至200千瓦甚至300千瓦。
曙光的這場發(fā)布,是一次團(tuán)結(jié)國內(nèi)算力生態(tài)的初嘗試,具體效果有待時(shí)間檢驗(yàn),但至少,在“蘋果生態(tài)”為王的算力市場里,他們已經(jīng)打響構(gòu)建“安卓生態(tài)”的第一槍。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。