0
本文作者: 包永剛 | 2020-12-17 14:17 |
在利潤豐厚的云端AI芯片市場,英特爾和英偉達憑借CPU和GPU分別占領(lǐng)著云端AI推理和訓(xùn)練市場超九成的份額。即便如此,想要進入云端芯片市場的挑戰(zhàn)者不少,但取得重大突破的挑戰(zhàn)者寥寥無幾,以色列公司Habana Labs算是其中一個。
近期舉行的AWS re:Invent 2020(亞馬遜 re:Invent 2020)大會上,AWS宣布采用最多8個Habana Gaudi加速器的EC2實例,性價比相較目前基于GPU的EC2實例提升高達40%,計劃2021年上半年提供使用。
Habana Labs在英偉達牢固的云端AI訓(xùn)練市場取得的突破能否進一步擴大?AI云端芯片市場真的只會是英特爾的英偉達占絕對主導(dǎo)嗎?
用40%性價比提升突破英偉達的GPU訓(xùn)練城墻
之所以說Habana Labs在英偉達AI訓(xùn)練芯片的牢固城墻上打開了一道口有兩個原因,一是在AI訓(xùn)練芯片市場,英偉達GPU占有絕對的主導(dǎo)地位,像亞馬遜這樣的科技巨頭除了自研芯片,很少采用其它訓(xùn)練芯片,這是一個標志性的突破。
另外,Gaudi加速器此次是在TensorFlow上訓(xùn)練ResNet-50模型展現(xiàn)出了更高的性價比,是單點突破,而非全面的優(yōu)勢。
根據(jù)AWS內(nèi)部的測試,Habana Labs的EC2實例比目前GPU在機器學(xué)習(xí)性價比上提升了40%。8卡的Gaudi解決方案可以在TensorFlow上每秒處理12000張圖像訓(xùn)練ResNet-50模型。
雷鋒網(wǎng)了解到,當(dāng)下眾多數(shù)據(jù)中心使用的Tesla V100 GPU,8卡訓(xùn)練TensorFlow ResNet-50的速度是7600張/秒。今年5月發(fā)布的最新英偉達A100 GPU 8卡則可以達到1.7萬張/秒的速度。
可以看到,相比上一代V100 GPU,Gaudi有顯著優(yōu)勢,但比最新A100 GPU性能還是有一定差距。功耗方面,根據(jù)英偉達官方的數(shù)據(jù),NVLink接口的A100 GPU最大功耗為400W,PCIe接口的A100最大功耗為250W。
Habana Labs中國區(qū)總經(jīng)理于明揚告訴雷鋒網(wǎng),16納米制程的Gaudi功耗在260W-300W之間,功耗比A100 GPU略有一點優(yōu)勢。Habana Labs在現(xiàn)有制程和功耗上的表現(xiàn),說明整個架構(gòu)相對A100 GPU沒有任何劣勢,應(yīng)該還有一定的優(yōu)勢。
在工藝制程提升越來越難的當(dāng)下,通過架構(gòu)創(chuàng)新實現(xiàn)性能的提升更顯重要,特別是在模型參數(shù)越來越大的云端訓(xùn)練領(lǐng)域。于明揚說:“我們芯片架構(gòu)設(shè)計有兩個重要的考量點,一個是考慮芯片本身利用數(shù)據(jù)方面的需求,再一個是通過并行化解決數(shù)據(jù)需求?!?/p>
他進一步表示,單一芯片架構(gòu)變化不會那么快,通過并行化對整個訓(xùn)練系統(tǒng)性能的提升會更加高效、實用。業(yè)界也認識到片間互聯(lián)以及系統(tǒng)間互聯(lián)對整個訓(xùn)練系統(tǒng)性能的影響,因此在互聯(lián)上花費更多精力去設(shè)計更加高效的訓(xùn)練系統(tǒng)應(yīng)對未來更大規(guī)模的模型。
Habana Gaudi的做法是每個處理器集成32GB的HBM2內(nèi)存,并集成用于服務(wù)器內(nèi)部處理器互聯(lián)的RoCE功能,可以使用多個基于Gaudi的系統(tǒng)實現(xiàn)高效和可擴展的分布式訓(xùn)練。
但想要打動已經(jīng)使用英偉達GPU訓(xùn)練AI的公司,性價比只是一方面。
“現(xiàn)在客戶接受新產(chǎn)品會同時考慮性價比和軟件生態(tài)。性價比要達到主流平臺的兩倍以上,客戶才有動力去嘗試一個新平臺。”于明揚說:“軟件方面需要客戶可以很方便和快捷的將現(xiàn)有模型移植到新的平臺,并且只有很少的性能和精度損失?!?/strong>
這就需要有一個比較好的軟件生態(tài),既提供完整的工具鏈,軟件也有很高的靈活度,最好能幫助客戶實現(xiàn)無縫遷移。于明揚表示,“AWS選擇Habana也是這兩個考慮,一個是Habana目前在訓(xùn)練上性價比是唯一能挑戰(zhàn)英偉達的產(chǎn)品,另一個是軟件的易用性也被AWS接受。”
據(jù)悉,與Gaudi匹配的Habana SynapseAI軟件套件與TensorFlow和Pythorch等流行的深度學(xué)習(xí)框架集成,并對Gaudi進行了優(yōu)化。開發(fā)人員將可以獲取開放的Gaudi軟件、參考模型和文檔。
接下來,Habana Labs能否進一步打開云端訓(xùn)練市場,英特爾非常關(guān)鍵。
英特爾在AI訓(xùn)練市場雙重出擊
2020年1月,英特爾宣布以20億美元的價格收購Habana。
談及為何選擇英特爾,于明揚解釋,“考慮到保持企業(yè)的屬性不變持續(xù)提供產(chǎn)品和服務(wù),減少客戶的擔(dān)憂,我們更傾向于選擇一個中立的公司。英特爾對Habana而言是最理想的,一個是因為英特爾有足夠的客戶群,可以給我們很多支持。另一個是能夠給我們帶來更加穩(wěn)定的技術(shù)資源和資金支持,增加客戶對我們的信任。”
Habana被英特爾收購之后獨立運營,團隊規(guī)模擴大了3倍,向Data Platform Group(數(shù)據(jù)中心事業(yè)部)匯報,在銷售和市場方面與英特爾有非常緊密的合作。
雷鋒網(wǎng)了解到,AWS在明年一月份開放Gaudi資源申請之后,大概需要經(jīng)過半年的時間才會給出明確的結(jié)論,之后才能看到Gaudi是否可以有比較大的量的突破。另外,Habana在國內(nèi)已經(jīng)與頭部和二線互聯(lián)網(wǎng)公司建立了廣泛的合作,它們基本已經(jīng)開始試用Habana產(chǎn)品,有的客戶已經(jīng)開始批量采購。
Habana能否進一步打開云端訓(xùn)練市場,產(chǎn)品的持續(xù)迭代,以及與英特爾的融合都是關(guān)鍵因素。
根據(jù)Habana的說法,其下一代云端訓(xùn)練AI芯片Gaudi2將基于臺積電7nm工藝,在Gaudi效能的基礎(chǔ)上進一步提升。同樣明確的是,Habana會把訓(xùn)練和推理的產(chǎn)品分開。
“推理對性價比的關(guān)注度更高,數(shù)據(jù)可以一次性加載到芯片的片內(nèi)內(nèi)存中效率更高。但訓(xùn)練需要反復(fù)加載數(shù)據(jù),需要更大的片內(nèi)和片外內(nèi)存,還要提供高帶寬和低延遲,要將兩種特性結(jié)合是比較大的挑戰(zhàn)。我們會針對不同的場景提供更適合的產(chǎn)品,給客戶更好體驗?!庇诿鲹P解釋。
這些產(chǎn)品都會融入英特爾的體系,于明揚透露:Gaudi計劃在明年加入oneAPI體系。
oneAPI是為了應(yīng)對異構(gòu)硬件帶來的軟件編程復(fù)雜性挑戰(zhàn),英特爾提出的統(tǒng)一軟件平臺,不僅將其CPU、GPU、FPGA、ASIC納入到這一體系,還希望通過DCP++支持第三方芯片。
基于統(tǒng)一的軟件平臺,英特爾還能使用最新的Xe架構(gòu)GPU角逐云端訓(xùn)練芯片市場。Xe架構(gòu)的GPU是英特爾22年后再次推出高性能獨立GPU,分為Xe LP(低功耗)、Xe HP(高性能)、Xe HPC微架構(gòu),面向不同市場。
今年11月,英特爾發(fā)布了首款數(shù)據(jù)中心GPU,基于Xe-LP架構(gòu),專為高密度、低時延的安卓云游戲和流媒體服務(wù)而設(shè)計。
英特爾GPU加Habana AI加速器能夠拿下多少云端訓(xùn)練市場的份額還有待觀察,但這同時也引出了一個新的問題,云端AI芯片市場還有機會嗎?
云端AI芯片市場還有機會嗎?
“無論是AI的訓(xùn)練還是推理,CPU都扮演著重要角色,因為很多預(yù)處理AI加速卡和GPU不能處理,需要CPU與GPU/AI加速器的協(xié)同。比如推薦系統(tǒng)里,數(shù)據(jù)查表和分類CPU就非常擅長。”于明揚說。
“整個AI中,CPU、GPU以及像Habana這樣的ASIC扮演著不同的角色,英特爾的優(yōu)勢在于無論任何環(huán)節(jié),英特爾都有合適的產(chǎn)品和解決方案。”
看到XPU(CPU、GPU、FPGA、ASIC)價值的顯然不止英特爾。
今年9月,英偉達宣布將以400 億美元收購 Arm,Arm是創(chuàng)立于英國的IP公司,其Cortex CPU IP被廣泛應(yīng)用,如今正積極進軍高性能計算市場,在TOP500榜單中已收獲不錯的成績。如果收購成功,Arm的CPU組合英偉達的GPU將幫助英偉達進一步提升在高性能和AI市場的競爭力。
如此看來,英特爾和英偉達不僅有性能強勁的硬件產(chǎn)品,還有強大的軟件和生態(tài)。除了科技巨頭自研的云端AI芯片,其他想要進入云端AI芯片市場的公司還有機會嗎?對于這個問題我們有理由保持積極的態(tài)度。
英特爾亞洲人工智能銷售技術(shù)總監(jiān)伊紅衛(wèi)說:“2019年英特爾全球人工智能收入已經(jīng)達到38億美元了,AI是一個跨部門、跨產(chǎn)品的生意。在我看來,AI仍處于早期階段,還有很長的路可以走,現(xiàn)在還是大浪淘沙的時候,我深信英特爾會成為弄潮兒?!?/strong>
英特爾和英偉達在云端AI芯片市場將如何競爭?AMD收購賽靈思會帶來怎樣的變數(shù)?
相關(guān)文章:
成立僅三年就被收購!英特爾20億美元收購AI芯片公司Habana Labs
黃仁勛說收購Arm是一生僅有一次的機會,Arm聯(lián)合創(chuàng)始人:阻止英偉達!
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。