0
本文作者: 劉伊倫 | 2025-03-21 15:57 |
雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))消息,北京時(shí)間3月19日凌晨,英偉達(dá)公司創(chuàng)始人兼CEO黃仁勛在GTC會(huì)議上發(fā)表主題演講。
DeepSeek爆火后,英偉達(dá)被推上風(fēng)口浪尖,對(duì)于AI發(fā)展是否會(huì)帶來(lái)更大數(shù)量級(jí)的算力需求,市場(chǎng)生出隱憂。演講開(kāi)場(chǎng),黃仁勛便做出回答:“全世界都錯(cuò)了,Scaling law有更強(qiáng)的韌性,現(xiàn)在的計(jì)算量是去年同期的100倍?!?/strong>
推理讓AI具備“思維鏈”,模型響應(yīng)需求時(shí)會(huì)對(duì)問(wèn)題進(jìn)行拆解,而不是直接給出答案,對(duì)每個(gè)步驟進(jìn)行推理勢(shì)必讓產(chǎn)生的Token數(shù)量增加。模型變得更加復(fù)雜,為了保證原有的推理速度以及響應(yīng)能力,便對(duì)算力提出了更高的要求。
Token是AI的基本單元,推理模型本質(zhì)上是一座生產(chǎn)Token的工廠,提高Token的生產(chǎn)速度就是提高工廠的生產(chǎn)效率,效率越高,利益越大,算力要做的就是探索生產(chǎn)效率的邊界。
而具備自主推理能力的Agentic AI發(fā)展趨勢(shì)之下,勢(shì)必帶動(dòng)物理AI的發(fā)展。GTC會(huì)議上,英偉達(dá)帶來(lái)Blackwell Ultra、推理系統(tǒng)Dynamo、Blackwell NVLink 72、下一代AI芯片Rubin等全新發(fā)布,用性能回應(yīng)需求。
AI芯片將「年更」,Rubin性能達(dá)Hopper「900倍」
AI的發(fā)展讓數(shù)據(jù)中心的資本支出不斷攀升,數(shù)據(jù)顯示,2028年數(shù)據(jù)中心資本支出將達(dá)到1萬(wàn)億美元,黃仁勛稱:“這其中的大部分增長(zhǎng)可能還會(huì)加速?!?/strong>資本支出增加、盈利能力提升,帶來(lái)的是英偉達(dá)在數(shù)據(jù)中心領(lǐng)域的營(yíng)收增加。
為了讓計(jì)算機(jī)成為更強(qiáng)的“Token生成器”,英偉達(dá)發(fā)布新一代“最強(qiáng)AI芯片” Blackwell Ultra。
單從硬件上看,Blackwell Ultra相較于GB200帶來(lái)的最大升級(jí)是采用12層堆疊的HBM3e內(nèi)存,成為全球首個(gè)顯存達(dá)到288GB的GPU。對(duì)此,有消息稱,SK海力士將獨(dú)家供應(yīng)Blackwell Ultra。
高效響應(yīng)推理模型,對(duì)算力、內(nèi)存及帶寬提出更高的要求。英偉達(dá)推出Blackwell Ultra GB300 NVL72機(jī)架級(jí)解決方案,集成72個(gè)Blackwell Ultra GPU和36個(gè)Grace CPU,滿足AI推理工作負(fù)載對(duì)算力和內(nèi)存的要求。
Blackwell Ultra GB300 NVL72將于2025年下半年發(fā)布,其性能為GB200 NVL72的1.5倍、40TB快速閃存為前代1.5倍,14.4TB/s帶寬為前代2倍。
要更好釋放硬件的算力,軟硬件協(xié)同變得更加重要,為此,英偉達(dá)推出分布式推理服務(wù)庫(kù)NVIDIA Dynamo,通過(guò)協(xié)調(diào)并加速數(shù)千個(gè)GPU之間的推理通信,為部署推理AI模型的AI工廠最大化其token收益。
在GPU數(shù)量相同的情況下,Dynamo可以實(shí)現(xiàn)Hopper平臺(tái)上運(yùn)行Llama模型的AI工廠性能和收益翻倍,在由GB200 NVL72機(jī)架組成的集群上運(yùn)行DeepSeek-R1模型時(shí),Dynamo的智能推理優(yōu)化能將每個(gè)GPU生成的Token數(shù)量提高30倍以上,并讓Blackwell的性能相較于Hopper提升了25倍。
黃仁勛表示,Dynamo將完全開(kāi)源并支持PyTorch、SGLang、NVIDIA TensorRT-LLM和vLLM,使企業(yè)、初創(chuàng)公司和研究人員能夠開(kāi)發(fā)和優(yōu)化在分離推理時(shí)部署AI模型的方法。
在推理模型中,Dynamo則讓Blackwell的性能達(dá)到Hopper的40倍,黃仁勛笑稱:“當(dāng)Blackwell批量發(fā)貨時(shí),就不要再拿Hopper去送人了?!?/p>
以功率為100兆瓦的AI工廠為例,其能供能45000個(gè)H100芯片,共計(jì)1400個(gè)H100 NVL8機(jī)架,生產(chǎn)力為3億個(gè)Token。同等功率下,其能供能85000個(gè)GB200芯片,共計(jì)600個(gè)機(jī)架,生產(chǎn)力為120億個(gè)Token。相較于H100 NVL8,GB200 NVL72不僅帶來(lái)更強(qiáng)的算力,而且在功耗和空間占用上更有優(yōu)勢(shì)。
“買得越多,省得越多?!秉S仁勛又說(shuō)出了他的帶貨名言,這次還補(bǔ)充道,“買得越多,賺得越多。”
旗艦版AI芯片作為GTC的“最大看點(diǎn)”,僅僅宣布Blackwell Ultra很難滿足外界預(yù)期。對(duì)此,黃仁勛公布了英偉達(dá)旗艦芯片的全新路線圖,芯片架構(gòu)的更新周期正在加速,由每?jī)赡晖瞥鲂碌漠a(chǎn)品線調(diào)整為“每年一更”的產(chǎn)品節(jié)奏。
每代產(chǎn)品更新均基于全棧解決方案、依托統(tǒng)一架構(gòu),并秉持“CUDA無(wú)處不在”的理念推進(jìn)。按照路線圖規(guī)劃,黃仁勛提前預(yù)告了下一代AI芯片“Rubin”,遵循以往采用科學(xué)家名字命名架構(gòu)的慣例,本次新架構(gòu)以美國(guó)天文學(xué)家“Vera Rubin”的姓氏命名,以紀(jì)念其證實(shí)了暗物質(zhì)存在的卓越貢獻(xiàn)。
Vera Rubin NVL144預(yù)計(jì)將在2026年下半年發(fā)布,在進(jìn)行FP4精度的推理任務(wù)時(shí),性能達(dá)到3.6ExaFLOPS,進(jìn)行FP8精度的訓(xùn)練任務(wù)時(shí),性能為1.2ExaFLOPS,與GB300 NVL72相比,性能提升了3.3倍。
Vera Rubin NVL144配備HBM4,帶寬達(dá)到13TB/s,擁有達(dá)到前代1.6倍的75TB快速閃存。支持NVLink6和CX9,帶寬均達(dá)到前代2倍,實(shí)現(xiàn)數(shù)據(jù)傳輸效率的提升。
黃仁勛表示,Blackwell的性能相較于Hopper提升了68倍,而Rubin的性能將達(dá)到Hopper的900倍。
與Blackwell一樣,除了標(biāo)準(zhǔn)版本,英偉達(dá)還計(jì)劃于2027年下半年推出Rubin Ultra NVL576,在進(jìn)行FP4精度的推理任務(wù)時(shí),其性能達(dá)到15ExaFLOPS,進(jìn)行FP8精度的訓(xùn)練任務(wù)時(shí),性能為5ExaFLOPS,與GB300 NVL72相比,性能提升了14倍。
Vera Rubin NVL144將配備HBM4e,帶寬達(dá)到4.6PB/s,擁有達(dá)到前代8倍的365TB快速內(nèi)存。支持NVLink7,帶寬1.5PB/s,為前代12倍。支持CX9,帶寬115.2TB/s,為前代8倍。
CPU部分,Vera芯片搭載88個(gè)定制Arm核心,支持176線程,具備1.8TB/s的NVLink - C2C(芯片到芯片)帶寬,在多芯片互聯(lián)等場(chǎng)景下能高效傳輸數(shù)據(jù)。GPU方面,Rubin Ultra集成4個(gè)Reticle-Sized GPU,每顆GPU擁有100PF的FP4算力,搭配1TB HBM4e顯存,在性能和內(nèi)存容量上達(dá)到新高。
在訓(xùn)練、推理及應(yīng)用部署等關(guān)鍵環(huán)節(jié),AI芯片平臺(tái)都需要網(wǎng)絡(luò)為其提供高速穩(wěn)定的數(shù)據(jù)傳輸。英偉達(dá)推出Spectrum-X和Quantum-X硅光網(wǎng)絡(luò)交換機(jī),為全球最先進(jìn)的AI云及AI工廠提供支持。
Spectrum-X網(wǎng)絡(luò)交換機(jī)有多種配置,最高配置512端口800Gb/s或2048端口200Gb/s,總吞吐量達(dá)400Tb/s。與之配套的Quantum - X網(wǎng)絡(luò)交換機(jī)基于200Gb/s SerDes技術(shù),提供144端口800Gb/s的InfiniBand連接,與上一代相比,速度提升2倍、可擴(kuò)展性提升5倍。
不止AI工廠,DGX Spark和DGX Station打造「AI桌面」
為了支持AI開(kāi)發(fā)者、研究人員、數(shù)據(jù)科學(xué)家和學(xué)生等群體,英偉達(dá)推出“全球最小AI超級(jí)計(jì)算機(jī)”DGX Spark,其支持在臺(tái)式電腦上對(duì)大模型進(jìn)行原型設(shè)計(jì)、微調(diào)和推理,用戶可以在本地、云或數(shù)據(jù)中心基礎(chǔ)設(shè)施中運(yùn)行這些模型。
DGX Spark是基于GB10 Grace Blackwell打造的個(gè)人AI超級(jí)計(jì)算機(jī)系列產(chǎn)品,根據(jù)臺(tái)式電腦外形規(guī)格進(jìn)行了針對(duì)性優(yōu)化,其支持第五代Tensor Core和FP4,每秒計(jì)算次數(shù)達(dá)到1000萬(wàn)億次。GB10采用NVIDIA NVLink-C2C互連技術(shù),帶寬是第五代PCIe的五倍,并且能夠訪問(wèn)GPU和CPU之間的數(shù)據(jù),為內(nèi)存密集型AI開(kāi)發(fā)者工作負(fù)載優(yōu)化性能。
英偉達(dá)的全棧AI平臺(tái)支持DGX Spark用戶將其模型從臺(tái)式機(jī)遷移到DGX Cloud、其他加速云及數(shù)據(jù)中心基礎(chǔ)設(shè)施中,并且無(wú)需修改代碼,簡(jiǎn)化了對(duì)其工作流進(jìn)行原型設(shè)計(jì)、微調(diào)和迭代的要求。
黃仁勛表示:“AI改變了每一層計(jì)算堆棧。我們有理由相信將出現(xiàn)一類專為AI原生開(kāi)發(fā)者而設(shè)計(jì)并用于運(yùn)行AI原生應(yīng)用的新型計(jì)算機(jī)。借助全新的DGX個(gè)人AI計(jì)算機(jī),AI能夠從云服務(wù)擴(kuò)展到臺(tái)式電腦和邊緣應(yīng)用?!?nbsp;
DGX Station是Ultra平臺(tái)的高性能桌面超級(jí)計(jì)算機(jī),定位為面向企業(yè)和科研機(jī)構(gòu)的高性能AI計(jì)算站,能夠幫助企業(yè)構(gòu)建私有AI推理系統(tǒng),相較于DGX Spark,適用于更大規(guī)模的AI開(kāi)發(fā)領(lǐng)域。
DGX Station是第一款采用英偉達(dá)GB300 Grace Blackwell Ultra桌面超級(jí)芯片構(gòu)建的臺(tái)式機(jī)系統(tǒng),擁有784GB統(tǒng)一系統(tǒng)內(nèi)存,支持800Gb/s網(wǎng)絡(luò)連接的ConnectX-8 SuperNIC,AI性能達(dá)到20PFLOPS。
從數(shù)據(jù)、模型到算力,英偉達(dá)「全面驅(qū)動(dòng)」人形機(jī)器人
“機(jī)器人時(shí)代已經(jīng)到來(lái),其能夠與物理世界交互并執(zhí)行數(shù)字信息無(wú)法完成的任務(wù)?!?/strong>黃仁勛說(shuō),“世界正面臨嚴(yán)重的勞動(dòng)力短缺,到2030年,全世界將短缺5000萬(wàn)名工人,我們可能不得不每年支付5萬(wàn)美元薪水給機(jī)器人。”
物理AI正在改變規(guī)模50萬(wàn)億美元的產(chǎn)業(yè)。英偉達(dá)推出全新Cosmos世界基礎(chǔ)模型,引入開(kāi)放式、可完全定制的物理AI開(kāi)發(fā)推理模型,包含各種模型尺寸并適用于多種輸入數(shù)據(jù)格式,幫助生成大型數(shù)據(jù)集,能將圖像從3D擴(kuò)展到真實(shí)場(chǎng)景,縮小仿真與現(xiàn)實(shí)之間的差距。
1X、Agility Robotics、Figure AI、Foretellix、Skild AI和Uber是首批采用Cosmos的企業(yè),可更快、更大規(guī)模地為物理AI生成更豐富的訓(xùn)練數(shù)據(jù)。
“正如大語(yǔ)言模型改變了生成式和代理式 AI,Cosmos世界基礎(chǔ)模型是物理AI的一項(xiàng)重大突破。”黃仁勛表示, “Cosmos為物理AI帶來(lái)了一個(gè)開(kāi)放式、可完全定制的推理模型,為機(jī)器人和物理工業(yè)領(lǐng)域的突破性發(fā)展帶來(lái)了機(jī)遇。”
滿足數(shù)據(jù)需求之外,英偉達(dá)推出人形機(jī)器人基礎(chǔ)模型Isaac GR00T N1,采用“快速反應(yīng)”的系統(tǒng)1以及“深度推理”的系統(tǒng)2雙架構(gòu),黃仁勛表示,Isaac GR00T N1將開(kāi)源,機(jī)器人開(kāi)發(fā)者可以用真實(shí)或合成數(shù)據(jù)進(jìn)行后訓(xùn)練。
Isaac GR00T N1基礎(chǔ)模型采用廣義類人推理和技能進(jìn)行了預(yù)訓(xùn)練,開(kāi)發(fā)者可以通過(guò)進(jìn)行后訓(xùn)練,使其滿足特定的需求,例如完成不同工廠生產(chǎn)線的特定任務(wù)以及自主完成不同的家務(wù)。
英偉達(dá)、谷歌DeepMind及迪士尼合作開(kāi)發(fā)了開(kāi)源物理引擎Newton,采用Isaac GR00T N1作為底座驅(qū)動(dòng)了迪士尼BDX機(jī)器人。
人形機(jī)器人是AI時(shí)代下一個(gè)增長(zhǎng)點(diǎn),從數(shù)據(jù)生成、基礎(chǔ)大模型到算力,英偉達(dá)為開(kāi)發(fā)者提供了全面支持。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。