0
本文作者: 田哲 | 2021-04-13 17:19 |
今日凌晨,一年一度影響人工智能及高性能計(jì)算技術(shù)盛會(huì)NVIDIA GTC如期而至,這是GTC大會(huì)繼去年后第二次在線上舉行,其圖形和加速器設(shè)計(jì)師宣布他們將再次設(shè)計(jì)自己的Arm處理器/SoC。
這款CPU以計(jì)算機(jī)編程先驅(qū)、美國(guó)海軍少將格蕾絲?霍珀(Grace Hopper)的名字命名,它是英偉達(dá)在全面垂直整合硬件堆棧方面的最新嘗試,能夠在常規(guī)GPU產(chǎn)品的同時(shí)提供高性能CPU。據(jù)英偉達(dá)介紹,該芯片是專為大規(guī)模神經(jīng)網(wǎng)絡(luò)工作負(fù)載設(shè)計(jì)的,預(yù)計(jì)將于2023年在英偉達(dá)的產(chǎn)品中使用。
距離芯片準(zhǔn)備完畢仍有兩年,英偉達(dá)這次表現(xiàn)得相對(duì)克制。該公司只提供了關(guān)于芯片有限的細(xì)節(jié)——例如,未來(lái)它將基于Arm的Neoverse內(nèi)核迭代——因?yàn)榻裉斓陌l(fā)布會(huì)更多關(guān)注的是英偉達(dá)未來(lái)的工作路線圖,而不是速度和產(chǎn)品。
目前,英偉達(dá)已經(jīng)明確表示,“Grace”是英偉達(dá)的內(nèi)部產(chǎn)品,將作為其大型服務(wù)器產(chǎn)品的一部分。該公司并沒(méi)有直接爭(zhēng)奪英特爾或AMD EPYC服務(wù)器市場(chǎng)。相反,他們正在建造自己的芯片來(lái)補(bǔ)充他們的GPU產(chǎn)品,創(chuàng)造一種可以直接連接其GPU的專用芯片,幫助處理龐大的萬(wàn)億級(jí)參數(shù)人工智能模型。
從廣義上說(shuō),“Grace”旨在填補(bǔ)英偉達(dá)AI服務(wù)器產(chǎn)品中CPU的空白。 該公司的GPU非常適合某些特定類的深度學(xué)習(xí)工作負(fù)載,但不是所有工作負(fù)載都是純粹的GPU-bound,所有工作負(fù)載都不都是GPU綁定的。
相應(yīng)地,英偉達(dá)當(dāng)前的服務(wù)器產(chǎn)品通常依賴于AMD的EPYC處理器,該處理器對(duì)于以通用計(jì)算為目的而言非???,但缺少英偉達(dá)尋找的那種高速I(mǎi) / O和深度學(xué)習(xí)優(yōu)化。 特別是英偉達(dá)目前因使用PCI Express進(jìn)行CPU-GPU連接而成為瓶頸,它們的GPU可以通過(guò)NVLink進(jìn)行快速通信,但不能返回主機(jī)CPU或系統(tǒng)RAM。
正因如此,該問(wèn)題解決方案是使用NVLink進(jìn)行CPU-GPU通信,就像“Grace”之前的情況一樣。此前,英偉達(dá)曾與OpenPOWER基金會(huì)合作,將NVLink引入到POWER9中。
然而,隨著POWER的流行度下降,以及POWER10正在跳過(guò)NVLink,這種關(guān)系似乎正在逐漸消失。相反,英偉達(dá)正在以自己的方式構(gòu)建帶有必要NVLink功能的Arm服務(wù)器CPU。
根據(jù)英偉達(dá)的說(shuō)法,最終的結(jié)果將是一種高性能、高帶寬的CPU,其設(shè)計(jì)目的是與未來(lái)一代的英偉達(dá)服務(wù)器GPU協(xié)同工作。在英偉達(dá)討論將每個(gè)英偉達(dá) GPU與一個(gè)Grace CPU集成在同一塊板上的情況下(類似于今天的夾層卡),CPU性能和系統(tǒng)內(nèi)存通過(guò)迂回方式隨GPU的數(shù)量而增加。這是英偉達(dá)特色鮮明的解決方案,不僅可以提高性能,而且在傳統(tǒng)上集成了AMD或Intel的處理器嘗試某種類似的CPU + GPU融合發(fā)揮。
據(jù)估計(jì)到2023年,英偉達(dá)將達(dá)到NVLink 4, SoC和GPU之間的累積帶寬將至少達(dá)到900GB/秒,Grace SoC之間的累積帶寬將超過(guò)600GB/秒。關(guān)鍵在于,這大于SoC的內(nèi)存帶寬,這意味著英偉達(dá)的GPU將有一個(gè)到CPU的高速緩存連貫鏈接,可以在全帶寬下訪問(wèn)系統(tǒng)內(nèi)存,同時(shí)也允許整個(gè)系統(tǒng)擁有一個(gè)單一的共享內(nèi)存地址空間。
英偉達(dá)將此描述為平衡系統(tǒng)中可用的帶寬數(shù)量。擁有包內(nèi)CPU是增加英偉達(dá) GPU能夠有效訪問(wèn)和使用的內(nèi)存數(shù)量的主要手段,因?yàn)閮?nèi)存容量仍然是大型神經(jīng)網(wǎng)絡(luò)的主要限制因素——你只能有效地運(yùn)行與本地內(nèi)存池一樣大的網(wǎng)絡(luò)。
這種以內(nèi)存為中心的策略也反映在Grace的內(nèi)存池設(shè)計(jì)中。英偉達(dá)將CPU放在GPU共享包上,并將RAM放在其旁邊,Grace配備的GPU模塊將包括一個(gè)有待確定的LPDDR5x內(nèi)存數(shù)量,英偉達(dá)的目標(biāo)是至少達(dá)到500GB/秒的內(nèi)存帶寬。
在2023年,LPDDR5x或?qū)⒊蔀閹捵罡叩姆秋@卡存儲(chǔ)器選項(xiàng)。此外,由于LPDDR5x技術(shù)的目的是應(yīng)用于移動(dòng)設(shè)備,而且追蹤長(zhǎng)度非常短,英偉達(dá)還在大力宣傳使用LPDDR5x可以提高能源效率。同時(shí),由于這是服務(wù)器的一部分,Grace的內(nèi)存也將啟用ECC。
至于CPU性能,這實(shí)際上是英偉達(dá)公布最少的部分。該公司將使用下一代Arm的Neoverse CPU內(nèi)核,最初的N1設(shè)計(jì)已經(jīng)成為了轉(zhuǎn)折點(diǎn)。但是除此之外,該公司透露內(nèi)核應(yīng)該在SPECrate2017_int_base吞吐量的基準(zhǔn)上突破300點(diǎn),這可以與AMD第二代64核EPYC CPU中的某些處理器相媲美。
該公司沒(méi)有透露太多關(guān)于如何配置CPU或?qū)iT(mén)針對(duì)神經(jīng)網(wǎng)絡(luò)處理添加了哪些優(yōu)化。但是,由于Grace旨在支持英偉達(dá)的GPU,預(yù)計(jì)在GPU較弱的情況下它會(huì)更強(qiáng)大。
另外如前所述,英偉達(dá)對(duì)Grace的預(yù)期目標(biāo)是大大減少大型神經(jīng)網(wǎng)絡(luò)模型所需的時(shí)間。 英偉達(dá)力爭(zhēng)在1萬(wàn)億個(gè)參數(shù)模型上實(shí)現(xiàn)10倍的更高性能,而他們對(duì)64模塊Grace + A100系統(tǒng)(具有理論NVLink 4支持)的性能預(yù)測(cè)將把此模型的訓(xùn)練時(shí)間從一個(gè)月縮短至三天。或者,能夠在8個(gè)模塊的系統(tǒng)上對(duì)5000億個(gè)參數(shù)模型進(jìn)行實(shí)時(shí)推斷。
英偉達(dá)的Project Denver計(jì)劃最初于十年前宣布,但從未真正達(dá)到其預(yù)期。自定義Arm內(nèi)核家族仍不夠好,也從未使用英偉達(dá)的移動(dòng)SoC制成。相比之下,對(duì)于英偉達(dá)而言,Grace是一個(gè)更安全的項(xiàng)目。它們只是授予Arm內(nèi)核許可,而不是構(gòu)建自己的內(nèi)核,這些內(nèi)核也將被其他許多方使用。因此,英偉達(dá)的風(fēng)險(xiǎn)得以降低,可以在很大程度上使I / O和內(nèi)存檢測(cè)正確無(wú)誤,并保持最終設(shè)計(jì)的能源效率。
如果一切都按計(jì)劃進(jìn)行,有望在2023年見(jiàn)到Grace。英偉達(dá)已經(jīng)確認(rèn)Grace模塊將可用于HGX載板,以及擴(kuò)展為DGX和所有其他使用這些板的系統(tǒng)。因此,盡管我們還沒(méi)有看到英偉達(dá)有關(guān)Grace計(jì)劃的全部?jī)?nèi)容,但是顯然,他們正在計(jì)劃使其成為未來(lái)服務(wù)器產(chǎn)品的核心部分。
編譯鏈接:https://www.anandtech.com/show/16610/nvidia-unveils-grace-a-highperformance-arm-server-cpu-for-use-in-ai-systems
雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。