6
本文作者: 訾竣喆 | 2016-04-07 12:29 |
昨日,Nvidia在GTC 2016大會上正式發(fā)布了新一代的Pascal架構(gòu)顯卡,作為該家族中第一張亮相的顯卡,搭載新核心GP100的Tesla P100正式亮相。
據(jù)Nvidia介紹,NVIDIA Tesla P100將由臺積電代工,并使用與華為麒麟950同等工藝的16nm FinFET打造,將擁有高達153億個晶體管和16GB 4096 bit HBM2堆疊內(nèi)存。
在計算能力上,Tesla P100可提供5.3 Teraflops的雙精度性能、10.6 Teraflops單精度性能以及適用于深度學(xué)習(xí)的21.2 Teraflops半精度性能。
從這張P100與K40、M40的參數(shù)對比圖中,可以看出Tesla P100中的GP100其實是“閹割版”,這一點Nvidia官方也已承認:
標(biāo)準的GP100核心中應(yīng)該內(nèi)建有3840個CUDA核心、240個紋理單元以及最高支持32GB的HBM2顯存;
而P100中的GP100核心卻采用了3584個CUDA核心、224個紋理單元以及被削減了一半的16GB HBM2顯存。
而這直接帶來的就是在單精度運算上的提升幅度并不明顯——
10.6 Teraflops的運算能力與前代的7 Teraflops相比只提升提升了50%。
雖然50%看起來已經(jīng)挺多了,要知道CPU近年來的換代性能提升也不過10%左右。然而,考慮到P100從28nm LP制程到16nm FinFET制程的跨越,以及新架構(gòu)帶來的優(yōu)化,這個數(shù)字遠沒有達到此前15Tflops的預(yù)期。
不過這也可能是出于對成本的考量,畢竟P100是面向高性能通用計算領(lǐng)域開發(fā),將大部分晶體管性能放在了雙精度運算性能上將更具性價比。
相比于GK110的0.2 Teraflops,P100 5.3 Teraflops的性能提升非常的可觀。即使是和2013年的K40相比,也已經(jīng)翻了4倍。
在幾天前的3月31日,友商AMD也發(fā)布了自家新一代旗艦級計算卡FirePro S9300 X2。
FirePro S9300 X2中搭載了兩顆AMD Fiji架構(gòu)核心、兩組4096-bit 4GB HBM 顯存,單精度浮點性能在13.9 Teraflops,雙精度浮點性能為0.8 Teraflops。
P100與之相比,在單精度浮點性能顯得稍遜一籌。不過考慮到AMD采用的是雙核心解決方案,而且此次P100也在單精度浮點上做了閹割,如果是拼單核恐仍難逃被Nvidia吊打的命運。
另一方面,Intel也已于2015年11月對旗下的對標(biāo)產(chǎn)品——第二代Xeon Phi做了預(yù)告。
據(jù)稱新一代產(chǎn)品代號為“Knights Landing”,同樣采用14nm工藝。搭載72顆Silvermont架構(gòu)核心,單顆支持四線程,總計288個線程。計算方面,雙精度浮點性能將達到3 Teraflops,單精度為6 Teraflops。
從數(shù)據(jù)上也能看出,CPU與GPU在通用計算效率上的劣勢即使是老大哥Intel也無能為力。
在大會上,老黃還高調(diào)宣布了基于Tesla P100打造的深度學(xué)習(xí)服務(wù)器——NVIDIA DGX-1。
據(jù)介紹,DGX-1可以提供170 Teraflops的深度學(xué)習(xí)計算性能,比自家一年前提出的NVIDIA Maxwell架構(gòu)四路解決方案快12倍,以前需要25個小時完成的訓(xùn)練任務(wù)現(xiàn)在2個小時就可以完成。
雖然性能十分可觀,但是售價也是十分嚇人的——一臺的售價為129,000美元(約合835,000元人民幣)。
雖然GTC大會上,基于GP100頂級核心的Tesla P100被多家媒體稱為“首款Pascal架構(gòu)的產(chǎn)品”。但其實今年1月,基于Pascal架構(gòu)的Drive PX 2自動駕駛平臺就已經(jīng)發(fā)布,只是當(dāng)時并沒有正式公布而已。
此次,老黃公布了Drive PX 2的具體參數(shù):
CPU:8核A57+4核 Denver 架構(gòu)核心
GPU:2顆Pascal架構(gòu)獨立顯卡
內(nèi)存:8GB LPDDR4
功耗:250W
其他特性:水冷
其中每顆顯卡核心為GP106核心,主頻為1.25GHz,搭配80GB/s帶寬、128bit位寬的4GB GDDR5顯存。單精度浮點運算性能為8TFLOPS。
在現(xiàn)場,Nvidia還展示了基于這款自動駕駛平臺打造的無人駕駛賽車——“Deep Green”。它將代表參加2016-2017賽季無人駕駛賽車競技大賽“ROBORACE”。
雖然每次Nvidia發(fā)布新產(chǎn)品都能給人以眼前一亮的感覺,但是我們?nèi)绻潇o下來分析不難看出Nvidia此次發(fā)布新品并沒有此前那么有底氣。
P100作為第一款應(yīng)用16nm工藝的產(chǎn)品,初期的良品率應(yīng)該不會如28nm那般成熟,而再加上現(xiàn)場看到的散熱模塊仍然是經(jīng)典的單風(fēng)扇散熱,以及300W的TDP,不難想象這又將是Nvidia新一代“高性能核彈”。
雖然老黃在現(xiàn)場講了許多使用場景,但是卻絲毫沒有提跑分成績。這不禁讓人想起在年初的CES 2016上,首次發(fā)布GP100核心之時卻使用GM200核心充數(shù)拿上臺被人無情拆穿的情景。
相比于AMD在年初的發(fā)布會上現(xiàn)場上機跑分,或許,不敢如此做的Nvidia只是因為老黃拿著的是套了散熱器(為了讓人看不出來里面的核心)的PCB板子而已吧。
在GM200上Nvidia還選擇大幅削減雙精度計算,從而減少發(fā)熱量和成本,而此次剛剛步入16nm工藝就如此大跨步的追求性能極致,恐怕進入量產(chǎn)和實際應(yīng)用之后問題就將會凸顯。而首當(dāng)其沖的就是HBM2顯存量產(chǎn)問題,畢竟目前連AMD率先推出的HBM一代都沒做到量產(chǎn),直接跨到HBM2,AMD對此也只能呵呵了吧。
畢竟,步子邁太大,容易扯到蛋。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。