英偉達(dá)推出首個(gè)CPU！預(yù)計(jì)2023年正式投入使用

本文作者：田哲

2021-04-13 17:19

導(dǎo)語(yǔ)：今日凌晨，一年一度影響人工智能及高性能計(jì)算技術(shù)盛會(huì)NVIDIA GTC如期而至，這是GTC大會(huì)繼去年后第二次在線上舉行。

今日凌晨，一年一度影響人工智能及高性能計(jì)算技術(shù)盛會(huì)NVIDIA GTC如期而至，這是GTC大會(huì)繼去年后第二次在線上舉行，其圖形和加速器設(shè)計(jì)師宣布他們將再次設(shè)計(jì)自己的Arm處理器/SoC。

這款CPU以計(jì)算機(jī)編程先驅(qū)、美國(guó)海軍少將格蕾絲?霍珀(Grace Hopper)的名字命名，它是英偉達(dá)在全面垂直整合硬件堆棧方面的最新嘗試，能夠在常規(guī)GPU產(chǎn)品的同時(shí)提供高性能CPU。據(jù)英偉達(dá)介紹，該芯片是專為大規(guī)模神經(jīng)網(wǎng)絡(luò)工作負(fù)載設(shè)計(jì)的，預(yù)計(jì)將于2023年在英偉達(dá)的產(chǎn)品中使用。

距離芯片準(zhǔn)備完畢仍有兩年，英偉達(dá)這次表現(xiàn)得相對(duì)克制。該公司只提供了關(guān)于芯片有限的細(xì)節(jié)——例如，未來(lái)它將基于Arm的Neoverse內(nèi)核迭代——因?yàn)榻裉斓陌l(fā)布會(huì)更多關(guān)注的是英偉達(dá)未來(lái)的工作路線圖，而不是速度和產(chǎn)品。

目前，英偉達(dá)已經(jīng)明確表示，“Grace”是英偉達(dá)的內(nèi)部產(chǎn)品，將作為其大型服務(wù)器產(chǎn)品的一部分。該公司并沒(méi)有直接爭(zhēng)奪英特爾或AMD EPYC服務(wù)器市場(chǎng)。相反，他們正在建造自己的芯片來(lái)補(bǔ)充他們的GPU產(chǎn)品，創(chuàng)造一種可以直接連接其GPU的專用芯片，幫助處理龐大的萬(wàn)億級(jí)參數(shù)人工智能模型。

英偉達(dá)推出首個(gè)CPU！預(yù)計(jì)2023年正式投入使用

從廣義上說(shuō)，“Grace”旨在填補(bǔ)英偉達(dá)AI服務(wù)器產(chǎn)品中CPU的空白。該公司的GPU非常適合某些特定類的深度學(xué)習(xí)工作負(fù)載，但不是所有工作負(fù)載都是純粹的GPU-bound，所有工作負(fù)載都不都是GPU綁定的。

相應(yīng)地，英偉達(dá)當(dāng)前的服務(wù)器產(chǎn)品通常依賴于AMD的EPYC處理器，該處理器對(duì)于以通用計(jì)算為目的而言非?？?，但缺少英偉達(dá)尋找的那種高速I(mǎi) / O和深度學(xué)習(xí)優(yōu)化。特別是英偉達(dá)目前因使用PCI Express進(jìn)行CPU-GPU連接而成為瓶頸，它們的GPU可以通過(guò)NVLink進(jìn)行快速通信，但不能返回主機(jī)CPU或系統(tǒng)RAM。

英偉達(dá)推出首個(gè)CPU！預(yù)計(jì)2023年正式投入使用

正因如此，該問(wèn)題解決方案是使用NVLink進(jìn)行CPU-GPU通信，就像“Grace”之前的情況一樣。此前，英偉達(dá)曾與OpenPOWER基金會(huì)合作，將NVLink引入到POWER9中。

然而，隨著POWER的流行度下降，以及POWER10正在跳過(guò)NVLink，這種關(guān)系似乎正在逐漸消失。相反，英偉達(dá)正在以自己的方式構(gòu)建帶有必要NVLink功能的Arm服務(wù)器CPU。

根據(jù)英偉達(dá)的說(shuō)法，最終的結(jié)果將是一種高性能、高帶寬的CPU，其設(shè)計(jì)目的是與未來(lái)一代的英偉達(dá)服務(wù)器GPU協(xié)同工作。在英偉達(dá)討論將每個(gè)英偉達(dá) GPU與一個(gè)Grace CPU集成在同一塊板上的情況下（類似于今天的夾層卡），CPU性能和系統(tǒng)內(nèi)存通過(guò)迂回方式隨GPU的數(shù)量而增加。這是英偉達(dá)特色鮮明的解決方案，不僅可以提高性能，而且在傳統(tǒng)上集成了AMD或Intel的處理器嘗試某種類似的CPU + GPU融合發(fā)揮。

據(jù)估計(jì)到2023年，英偉達(dá)將達(dá)到NVLink 4, SoC和GPU之間的累積帶寬將至少達(dá)到900GB/秒，Grace SoC之間的累積帶寬將超過(guò)600GB/秒。關(guān)鍵在于，這大于SoC的內(nèi)存帶寬，這意味著英偉達(dá)的GPU將有一個(gè)到CPU的高速緩存連貫鏈接，可以在全帶寬下訪問(wèn)系統(tǒng)內(nèi)存，同時(shí)也允許整個(gè)系統(tǒng)擁有一個(gè)單一的共享內(nèi)存地址空間。

英偉達(dá)將此描述為平衡系統(tǒng)中可用的帶寬數(shù)量。擁有包內(nèi)CPU是增加英偉達(dá) GPU能夠有效訪問(wèn)和使用的內(nèi)存數(shù)量的主要手段，因?yàn)閮?nèi)存容量仍然是大型神經(jīng)網(wǎng)絡(luò)的主要限制因素——你只能有效地運(yùn)行與本地內(nèi)存池一樣大的網(wǎng)絡(luò)。

這種以內(nèi)存為中心的策略也反映在Grace的內(nèi)存池設(shè)計(jì)中。英偉達(dá)將CPU放在GPU共享包上，并將RAM放在其旁邊，Grace配備的GPU模塊將包括一個(gè)有待確定的LPDDR5x內(nèi)存數(shù)量，英偉達(dá)的目標(biāo)是至少達(dá)到500GB/秒的內(nèi)存帶寬。

在2023年，LPDDR5x或?qū)⒊蔀閹捵罡叩姆秋@卡存儲(chǔ)器選項(xiàng)。此外，由于LPDDR5x技術(shù)的目的是應(yīng)用于移動(dòng)設(shè)備，而且追蹤長(zhǎng)度非常短，英偉達(dá)還在大力宣傳使用LPDDR5x可以提高能源效率。同時(shí)，由于這是服務(wù)器的一部分，Grace的內(nèi)存也將啟用ECC。

英偉達(dá)推出首個(gè)CPU！預(yù)計(jì)2023年正式投入使用

至于CPU性能，這實(shí)際上是英偉達(dá)公布最少的部分。該公司將使用下一代Arm的Neoverse CPU內(nèi)核，最初的N1設(shè)計(jì)已經(jīng)成為了轉(zhuǎn)折點(diǎn)。但是除此之外，該公司透露內(nèi)核應(yīng)該在SPECrate2017_int_base吞吐量的基準(zhǔn)上突破300點(diǎn)，這可以與AMD第二代64核EPYC CPU中的某些處理器相媲美。

該公司沒(méi)有透露太多關(guān)于如何配置CPU或?qū)ｉT(mén)針對(duì)神經(jīng)網(wǎng)絡(luò)處理添加了哪些優(yōu)化。但是，由于Grace旨在支持英偉達(dá)的GPU，預(yù)計(jì)在GPU較弱的情況下它會(huì)更強(qiáng)大。

另外如前所述，英偉達(dá)對(duì)Grace的預(yù)期目標(biāo)是大大減少大型神經(jīng)網(wǎng)絡(luò)模型所需的時(shí)間。英偉達(dá)力爭(zhēng)在1萬(wàn)億個(gè)參數(shù)模型上實(shí)現(xiàn)10倍的更高性能，而他們對(duì)64模塊Grace + A100系統(tǒng)（具有理論NVLink 4支持）的性能預(yù)測(cè)將把此模型的訓(xùn)練時(shí)間從一個(gè)月縮短至三天。或者，能夠在8個(gè)模塊的系統(tǒng)上對(duì)5000億個(gè)參數(shù)模型進(jìn)行實(shí)時(shí)推斷。

英偉達(dá)的Project Denver計(jì)劃最初于十年前宣布，但從未真正達(dá)到其預(yù)期。自定義Arm內(nèi)核家族仍不夠好，也從未使用英偉達(dá)的移動(dòng)SoC制成。相比之下，對(duì)于英偉達(dá)而言，Grace是一個(gè)更安全的項(xiàng)目。它們只是授予Arm內(nèi)核許可，而不是構(gòu)建自己的內(nèi)核，這些內(nèi)核也將被其他許多方使用。因此，英偉達(dá)的風(fēng)險(xiǎn)得以降低，可以在很大程度上使I / O和內(nèi)存檢測(cè)正確無(wú)誤，并保持最終設(shè)計(jì)的能源效率。

如果一切都按計(jì)劃進(jìn)行，有望在2023年見(jiàn)到Grace。英偉達(dá)已經(jīng)確認(rèn)Grace模塊將可用于HGX載板，以及擴(kuò)展為DGX和所有其他使用這些板的系統(tǒng)。因此，盡管我們還沒(méi)有看到英偉達(dá)有關(guān)Grace計(jì)劃的全部?jī)?nèi)容，但是顯然，他們正在計(jì)劃使其成為未來(lái)服務(wù)器產(chǎn)品的核心部分。

英偉達(dá)推出首個(gè)CPU！預(yù)計(jì)2023年正式投入使用

編譯鏈接：https://www.anandtech.com/show/16610/nvidia-unveils-grace-a-highperformance-arm-server-cpu-for-use-in-ai-systems

雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)

雷峰網(wǎng)版權(quán)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

1人收藏

相關(guān)文章

田哲

編輯

關(guān)注自動(dòng)駕駛汽車(chē)及其產(chǎn)業(yè)發(fā)展，微信號(hào)“tz--hh”

發(fā)私信

當(dāng)月熱門(mén)文章