0
本文作者: 吳優(yōu) | 2021-07-01 01:05 |
本周四,MLCommons發(fā)布了最新MLPerf Inference v1.0基準(zhǔn)測試(Benchmark)結(jié)果,英偉達(dá)GPU一如既往地表現(xiàn)不俗,但值得英偉達(dá)注意的是,其超大規(guī)模數(shù)據(jù)中心的競爭對手,Graphcore公司專為機(jī)器智能設(shè)計的 IPU也參加了此次基準(zhǔn)測試。
MLPerf基準(zhǔn)測試發(fā)布至今已有三年之久,此前英偉達(dá)、谷歌、阿里巴巴等大公司一直通過MLPerf跑分成績強(qiáng)調(diào)其產(chǎn)品實(shí)力,能夠挑戰(zhàn)英偉達(dá)GPU的IPU為何今年才加入MLPerf基準(zhǔn)測試?首次參加MLPerf測試的IPU,究竟表現(xiàn)如何?
首次提交兩個模型,性價比收益勝過英偉達(dá)
在今年提交的MLPerf訓(xùn)練1.0版本任務(wù)中,Graphcore提交了兩個模型:計算機(jī)視覺模型ResNet-50和自然語言處理模型BERT。
新一輪MLPerf基準(zhǔn)測試結(jié)果(部分)
Graphcore高級副總裁兼中國區(qū)總經(jīng)理盧濤稱,之所以提交這兩個模型,是因?yàn)檫@兩個模型在相應(yīng)領(lǐng)域里頗具代表意義且被廣泛使用。
“許多骨干網(wǎng)絡(luò)還是基于ResNet,BERT雖然有很多變種版本。但標(biāo)準(zhǔn)的BERT就還是大家比較認(rèn)可的Benchmark基準(zhǔn)?!?/p>
基于IPU-M2000,Graphcore用了兩種配置的硬件進(jìn)行基準(zhǔn)測試,由4個1U IPU-M2000和1個雙路服務(wù)器組成的IPU-POD16,可以提供4 PetaFLOPS的AI算力,由16個IPU-M2000和4臺雙路服務(wù)器組成的IPU-POD64 ,可提供16 PetaFLOPS的AI算力。
測試結(jié)果顯示,在BERT模型訓(xùn)練中,IPU-POD16在開放分區(qū)(Open Division)的訓(xùn)練時間在半小時以內(nèi),約為27分鐘,封閉分區(qū)(Closed Division)的訓(xùn)練時間為34分鐘。兩個分區(qū)的區(qū)別在于,在封閉分區(qū)中,需要完全按照規(guī)定的網(wǎng)絡(luò)架構(gòu)優(yōu)化方式和硬件配置完成提交,而在開放分區(qū)擁有更多的自主靈活性。
同樣的模型訓(xùn)練在IPU-POD64上,訓(xùn)練時間縮短3.5倍,且在開放分區(qū)的訓(xùn)練時間10分鐘以內(nèi),這意味著相關(guān)科研工作者在模型訓(xùn)練過程中能夠更快地得到研究結(jié)果。
在ResNet-50模型訓(xùn)練中,IPU-POD16的封閉分區(qū)訓(xùn)練時間為37分鐘,IPU-POD64能在這一基礎(chǔ)上能將時間縮短3倍。
一直以來將英偉達(dá)視為競爭對手的Graphcore這次也同英偉達(dá)基于DGX A100 640G提交的訓(xùn)練結(jié)果進(jìn)行比較?;贒GX A100,其ResNet-50的MLPerf訓(xùn)練時間28分鐘,BERT的MLPerf訓(xùn)練時間為21分鐘,均高于IPU-POD16。
不過IPU訓(xùn)練時間更久并不意味著其AI能力就落后于GPU。
盧濤表示,一方面,ResNet、BERT等應(yīng)用都是在過往基于GPU架構(gòu)選擇出來并深度優(yōu)化的應(yīng)用,對IPU可能并不是很友好,另一方面,對于最終用戶非常關(guān)注“每花費(fèi)一美金所能獲得的訓(xùn)練收益”,如果將訓(xùn)練收益和目錄折算成性價比,ResNet訓(xùn)練任務(wù)下,IPU-POD16相對DGX A100 640G版本的性價比收益有1.6倍,BERT訓(xùn)練任務(wù)下,IPU-POD16相對DGX A100 640G版本的性價比收益有1.3倍。
也就是說,如果單純從性價比收益來看,IPU可能是更好的選擇。
參加MLPerf基準(zhǔn)測試,源于Graphcore 資源更加充足
事實(shí)上,Graphcore IPU與英偉達(dá)GPU跑分對比并不是第一次,不過當(dāng)時并未選擇在業(yè)內(nèi)認(rèn)可度和接受度更高的MLPerf。
去年8月,Graphcore通過參加谷歌發(fā)布的EfficicentNet模型、ResearchNEt模型以及NLP模型等基準(zhǔn)測試且與英偉達(dá)A100 GPU對比。測試數(shù)據(jù)表明,多維度比較后,IPU的推理性能與訓(xùn)練性能均優(yōu)于GPU。
為何當(dāng)時未提交MLPerf的結(jié)果?“因?yàn)楫?dāng)時資源有限,更多地聚焦在對SDK的打磨、優(yōu)化、功能開發(fā),和頭部客戶及合作伙伴聯(lián)合探索應(yīng)用場景落地?!北R濤如此回答。
盧濤解釋到,參加MLPerf Benchmark需要較大的投入,Graphcore十幾個團(tuán)隊成員分別間接或直接參加了這一項(xiàng)目,且至少耗費(fèi)半年以上的時間?!敖裉霨raphcore整體軟硬件,尤其是軟件和生態(tài),更加成熟完善,公司整體實(shí)力和之前相比更加雄厚。在幾個因素疊加的影響下,我們參加了MLPerf訓(xùn)練1.0的Benchmark,后續(xù)也有持續(xù)投入的計劃?!?/p>
選擇在資源充足后參加MLPerf基準(zhǔn)測試,同時也表明Graphcore對這一基準(zhǔn)測試的認(rèn)可。
“AI芯片產(chǎn)業(yè)的整體出發(fā)點(diǎn)是DSA(Domain Specific Architecture),與不論是在整體架構(gòu)上還是計算機(jī)體系結(jié)構(gòu)上相對比較類似的CPU相比,各個AI處理器的架構(gòu)之間會有較大的差異。對于最終用戶來說,就很難體現(xiàn)所選擇的架構(gòu)對于業(yè)務(wù)受益產(chǎn)生的影響。”
“我并不能說MLPerf代表了整個AI產(chǎn)業(yè)所有的任務(wù),但是它代表了今天工業(yè)界比較主流部署的應(yīng)用場景。我認(rèn)為MLPerf是有一定指導(dǎo)意義的?!北R濤說道。
雖然基于GPU架構(gòu)選擇出來的應(yīng)用模型對IPU而言并不友好,但Graphcore認(rèn)為,需要積極參與產(chǎn)業(yè)標(biāo)準(zhǔn)的探討,逐漸成為產(chǎn)業(yè)中有力的聲音,才能影響產(chǎn)業(yè)標(biāo)準(zhǔn)的走向。
“之后我們會積極參與MLPerf的提交,提供一些不同的任務(wù),讓MLPerf的工作負(fù)載更具代表性?!北R濤說道。
文中圖片源自Graphcore
雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)
相關(guān)文章:
超越全球最大7nm芯片A100!Graphcore第二代IPU晶體管數(shù)量高達(dá)594億個
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。