花20億美元打造P100，但Nvidia只是拿來(lái)畫(huà)了一張餅

本文作者：訾竣喆

2016-04-07 12:29

導(dǎo)語(yǔ)：昨日，Nvidia在GTC 2016大會(huì)上正式發(fā)布了新一代的Pascal架構(gòu)顯卡，作為該家族中第一張亮相的顯卡，Tesla P100正式亮相。

昨日，Nvidia在GTC 2016大會(huì)上正式發(fā)布了新一代的Pascal架構(gòu)顯卡，作為該家族中第一張亮相的顯卡，搭載新核心GP100的Tesla P100正式亮相。

據(jù)Nvidia介紹，NVIDIA Tesla P100將由臺(tái)積電代工，并使用與華為麒麟950同等工藝的16nm FinFET打造，將擁有高達(dá)153億個(gè)晶體管和16GB 4096 bit HBM2堆疊內(nèi)存。

在計(jì)算能力上，Tesla P100可提供5.3 Teraflops的雙精度性能、10.6 Teraflops單精度性能以及適用于深度學(xué)習(xí)的21.2 Teraflops半精度性能。

花20億美元打造P100，但Nvidia只是拿來(lái)畫(huà)了一張餅

雖然被削，參數(shù)依然漂亮

花20億美元打造P100，但Nvidia只是拿來(lái)畫(huà)了一張餅

從這張P100與K40、M40的參數(shù)對(duì)比圖中，可以看出Tesla P100中的GP100其實(shí)是“閹割版”，這一點(diǎn)Nvidia官方也已承認(rèn)：

標(biāo)準(zhǔn)的GP100核心中應(yīng)該內(nèi)建有3840個(gè)CUDA核心、240個(gè)紋理單元以及最高支持32GB的HBM2顯存；
而P100中的GP100核心卻采用了3584個(gè)CUDA核心、224個(gè)紋理單元以及被削減了一半的16GB HBM2顯存。

而這直接帶來(lái)的就是在單精度運(yùn)算上的提升幅度并不明顯——

10.6 Teraflops的運(yùn)算能力與前代的7 Teraflops相比只提升提升了50%。

雖然50%看起來(lái)已經(jīng)挺多了，要知道CPU近年來(lái)的換代性能提升也不過(guò)10％左右。然而，考慮到P100從28nm LP制程到16nm FinFET制程的跨越，以及新架構(gòu)帶來(lái)的優(yōu)化，這個(gè)數(shù)字遠(yuǎn)沒(méi)有達(dá)到此前15Tflops的預(yù)期。

不過(guò)這也可能是出于對(duì)成本的考量，畢竟P100是面向高性能通用計(jì)算領(lǐng)域開(kāi)發(fā)，將大部分晶體管性能放在了雙精度運(yùn)算性能上將更具性?xún)r(jià)比。

相比于GK110的0.2 Teraflops，P100 5.3 Teraflops的性能提升非常的可觀。即使是和2013年的K40相比，也已經(jīng)翻了4倍。

與友商的對(duì)比

AMD

在幾天前的3月31日，友商AMD也發(fā)布了自家新一代旗艦級(jí)計(jì)算卡FirePro S9300 X2。

FirePro S9300 X2中搭載了兩顆AMD Fiji架構(gòu)核心、兩組4096-bit 4GB HBM 顯存，單精度浮點(diǎn)性能在13.9 Teraflops，雙精度浮點(diǎn)性能為0.8 Teraflops。

P100與之相比，在單精度浮點(diǎn)性能顯得稍遜一籌。不過(guò)考慮到AMD采用的是雙核心解決方案，而且此次P100也在單精度浮點(diǎn)上做了閹割，如果是拼單核恐仍難逃被Nvidia吊打的命運(yùn)。

Intel

另一方面，Intel也已于2015年11月對(duì)旗下的對(duì)標(biāo)產(chǎn)品——第二代Xeon Phi做了預(yù)告。

據(jù)稱(chēng)新一代產(chǎn)品代號(hào)為“Knights Landing”，同樣采用14nm工藝。搭載72顆Silvermont架構(gòu)核心，單顆支持四線程，總計(jì)288個(gè)線程。計(jì)算方面，雙精度浮點(diǎn)性能將達(dá)到3 Teraflops，單精度為6 Teraflops。

從數(shù)據(jù)上也能看出，CPU與GPU在通用計(jì)算效率上的劣勢(shì)即使是老大哥Intel也無(wú)能為力。

應(yīng)用場(chǎng)景

NVIDIA DGX-1

在大會(huì)上，老黃還高調(diào)宣布了基于Tesla P100打造的深度學(xué)習(xí)服務(wù)器——NVIDIA DGX-1。

據(jù)介紹，DGX-1可以提供170 Teraflops的深度學(xué)習(xí)計(jì)算性能，比自家一年前提出的NVIDIA Maxwell架構(gòu)四路解決方案快12倍，以前需要25個(gè)小時(shí)完成的訓(xùn)練任務(wù)現(xiàn)在2個(gè)小時(shí)就可以完成。

雖然性能十分可觀，但是售價(jià)也是十分嚇人的——一臺(tái)的售價(jià)為129,000美元（約合835,000元人民幣）。

NVIDIA Drive PX 2

雖然GTC大會(huì)上，基于GP100頂級(jí)核心的Tesla P100被多家媒體稱(chēng)為“首款Pascal架構(gòu)的產(chǎn)品”。但其實(shí)今年1月，基于Pascal架構(gòu)的Drive PX 2自動(dòng)駕駛平臺(tái)就已經(jīng)發(fā)布，只是當(dāng)時(shí)并沒(méi)有正式公布而已。

花20億美元打造P100，但Nvidia只是拿來(lái)畫(huà)了一張餅

此次，老黃公布了Drive PX 2的具體參數(shù)：

CPU：8核A57+4核 Denver 架構(gòu)核心
GPU：2顆Pascal架構(gòu)獨(dú)立顯卡
內(nèi)存：8GB LPDDR4
功耗：250W
其他特性：水冷

其中每顆顯卡核心為GP106核心，主頻為1.25GHz，搭配80GB/s帶寬、128bit位寬的4GB GDDR5顯存。單精度浮點(diǎn)運(yùn)算性能為8TFLOPS。

花20億美元打造P100，但Nvidia只是拿來(lái)畫(huà)了一張餅

在現(xiàn)場(chǎng)，Nvidia還展示了基于這款自動(dòng)駕駛平臺(tái)打造的無(wú)人駕駛賽車(chē)——“Deep Green”。它將代表參加2016-2017賽季無(wú)人駕駛賽車(chē)競(jìng)技大賽“ROBORACE”。

后記

雖然每次Nvidia發(fā)布新產(chǎn)品都能給人以眼前一亮的感覺(jué)，但是我們?nèi)绻潇o下來(lái)分析不難看出Nvidia此次發(fā)布新品并沒(méi)有此前那么有底氣。

P100作為第一款應(yīng)用16nm工藝的產(chǎn)品，初期的良品率應(yīng)該不會(huì)如28nm那般成熟，而再加上現(xiàn)場(chǎng)看到的散熱模塊仍然是經(jīng)典的單風(fēng)扇散熱，以及300W的TDP，不難想象這又將是Nvidia新一代“高性能核彈”。

雖然老黃在現(xiàn)場(chǎng)講了許多使用場(chǎng)景，但是卻絲毫沒(méi)有提跑分成績(jī)。這不禁讓人想起在年初的CES 2016上，首次發(fā)布GP100核心之時(shí)卻使用GM200核心充數(shù)拿上臺(tái)被人無(wú)情拆穿的情景。

相比于AMD在年初的發(fā)布會(huì)上現(xiàn)場(chǎng)上機(jī)跑分，或許，不敢如此做的Nvidia只是因?yàn)槔宵S拿著的是套了散熱器（為了讓人看不出來(lái)里面的核心）的PCB板子而已吧。

在GM200上Nvidia還選擇大幅削減雙精度計(jì)算，從而減少發(fā)熱量和成本，而此次剛剛步入16nm工藝就如此大跨步的追求性能極致，恐怕進(jìn)入量產(chǎn)和實(shí)際應(yīng)用之后問(wèn)題就將會(huì)凸顯。而首當(dāng)其沖的就是HBM2顯存量產(chǎn)問(wèn)題，畢竟目前連AMD率先推出的HBM一代都沒(méi)做到量產(chǎn)，直接跨到HBM2，AMD對(duì)此也只能呵呵了吧。

畢竟，步子邁太大，容易扯到蛋。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

0人收藏

相關(guān)文章