0
本文作者: 包永剛 | 2019-03-18 13:14 |
近幾年再次興起的AI熱潮,不僅引發(fā)了芯片巨頭們的AI芯片戰(zhàn),更讓科技巨頭們紛紛開始了AI芯片的研發(fā)。在AI芯片的爭奪中,算力首先成為了焦點。不過,算力提升之后,算力與內(nèi)存的不匹配又成為了阻礙AI向前發(fā)展的關(guān)鍵。此時,一家成立于2017年的初創(chuàng)公司提出的存儲優(yōu)先架構(gòu)(SFA)表示很好地解決了內(nèi)存墻的問題,事實是否如此?
【 圖片來源:supernovainvest 】
AI芯片的真正問題是內(nèi)存墻
算力、算法、數(shù)據(jù)被認為是AI向前發(fā)展的三個關(guān)鍵因素,更高的算力自然必不可少,這也直接驅(qū)動了AI芯片公司們推出更高算力的AI芯片。不過,目前對于AI芯片的定義并沒有一個嚴格和公認的標準,一個非常寬泛的看法是,面向人工智能應(yīng)用的芯片都可以稱為AI芯片。
需要指出,這一輪的AI熱潮很大程度是機器學習尤其是深度學習受到了追捧。由于目前常見的芯片類型CPU、GPU、FPGA、ASIC都可以運行深度學習算法,因此這些芯片都可以稱為AI芯片。
CPU、GPU、FPGA、ASIC的特點【 圖片來源:hackernoon 】
這就意味著,如今AI芯片重要的意義在于滿足機器學習的算法的需求。但即便是經(jīng)驗豐富的Arm,認識到AI芯片關(guān)鍵的問題也走了一些彎路。Arm機器學習部門商業(yè)與市場副總裁Dennis Laudick此前接受雷鋒網(wǎng)采訪時就表示:“我們第一次看到機器學習時,首先想到的是從已有的處理器類型中的一種開始,因此我們開始用了GPU的方法,但最終發(fā)現(xiàn)機器學習處理器面臨的不是處理問題而是數(shù)據(jù)問題,最終取消了GPU的方法,創(chuàng)建了一個全新的處理器專注于數(shù)據(jù)以及機器學習中的數(shù)據(jù)類型,可以執(zhí)行并行指令?!?/p>
說的更直白一些,深度學習算法具有高并發(fā)、高耦合的特點,不僅有大量的數(shù)據(jù)參與到整個算法運行的過程中,這些數(shù)據(jù)之間的耦合性也非常緊密,因此對存儲帶寬提出了非常高的要求,大規(guī)模的數(shù)據(jù)交換,尤其是芯片與外部DDR(Double Data Rate SDRAM,雙倍速率同步動態(tài)隨機存儲器,常簡稱為DDR)存儲之間的數(shù)據(jù)交換,這將大幅增加了功耗。
越來越多的AI芯片的IP提供方和AI芯片的設(shè)計公司都意識到,AI芯片的本質(zhì)不是要解決計算問題,而是要解決數(shù)據(jù)問題。與數(shù)據(jù)和存儲相關(guān)的帶寬瓶頸、功耗瓶頸問題,被稱為存儲墻問題。
深度學習算法的“三高”特點
內(nèi)存墻問題的4種常見解決方法
上面提到的芯片都基于傳統(tǒng)馮·諾伊曼體系結(jié)構(gòu),這個體系結(jié)構(gòu)是數(shù)據(jù)從處理單元外的存儲器提取,處理完之后在寫回存儲器。因此,用馮諾依曼體系結(jié)構(gòu)的處理器處理深度學習算法時,提供算力相對簡單易行,但當運算部件達到一定的能力,存儲器無法跟上運算部件消耗的數(shù)據(jù),再增加運算部件也沒有用,這無疑阻礙了AI芯片的向前發(fā)展。
【 圖片來源:nextplatform 】
為了解決內(nèi)存墻問題,業(yè)界目前有4種常見的解決方法。第一種是加大存儲帶寬,采用高帶寬的外部存儲,如HBM2,降低對DDR的訪問。這種方法雖然看似最簡單直接,但問題在于緩存的調(diào)度對深度學習的有效性就是一個難點。
第二種方法是直接在芯片里放入大量存儲,采用分布式片上存儲,拋棄DDR,比如集成幾十兆字節(jié)到上百兆的SRAM。這種方法看上去也比較簡單直接,但成本高昂也是顯著的劣勢。
第三種方法則是從算法入手,通過設(shè)計一些低比特權(quán)重的神經(jīng)網(wǎng)絡(luò),比如二值網(wǎng)絡(luò),簡化數(shù)據(jù)和需求和管理。顯然,這種方法是以算法精度、應(yīng)用范疇為代價,難以被大范圍應(yīng)用。
第四種方法是在存儲單元內(nèi)部設(shè)計計算單元的新型存儲器,進行存算一體化(In Memory Computing),這也是目前業(yè)內(nèi)一個比較受關(guān)注的方向,具備低成本和低功耗的特點。不過這種方法的可行性以及是否能最終被業(yè)界廣泛應(yīng)用仍是未知,因此對于這種方法我們將繼續(xù)保持關(guān)注。
顯然,目前常見的解決AI芯片內(nèi)存墻的方法都還未成功解決這一問題,其中很重要的原因在于,絕大部分的AI芯片,可以認為其為基于類CPU架構(gòu),專注于計算整合,通過提升并行度的方法進行龐大計算力的結(jié)構(gòu)調(diào)整,對存儲資源的使用和調(diào)度,依然依賴于編譯器或傳統(tǒng)的緩存管理算法,無法解決內(nèi)存墻問題。
SFA架構(gòu)如何突破內(nèi)存墻瓶頸?
想要真正解決內(nèi)存墻問題,舍棄馮諾依曼架構(gòu)無疑是更好的方式,但難度也可想而知。不過,成立于2017年的北京探境科技在成立之初就重新思考了存儲和計算的關(guān)系,以存儲驅(qū)動計算,設(shè)計了與類CPU架構(gòu)完全不同的計算架構(gòu)——存儲構(gòu)SFA(Storage First Architecture)。
探境科技CEO魯勇
2017年業(yè)界對AI芯片的關(guān)注點更多是算力的提升,意識到要解決內(nèi)存墻問題的公司還不多,為什么探境科技能更早看到內(nèi)存對AI芯片的重要性并研發(fā)出存儲優(yōu)先架構(gòu)?探境科技CEO魯勇接受雷鋒網(wǎng)專訪時表示:“主要有兩方面的原因,一方面是我們的芯片設(shè)計團隊成員平均擁有15年以上芯片行業(yè)設(shè)計經(jīng)驗,有足夠的芯片設(shè)計能力,同時,團隊成員還有深挖問題核心本質(zhì)的思路和能力。所以從能力上和做事的方法上都有這樣的條件,我們就堅定的去解決難題?!?/p>
探境科技SFA架構(gòu)
不同于常見的解決內(nèi)存瓶頸的方法,SFA是以存儲調(diào)度為核心的計算架構(gòu),數(shù)據(jù)在存儲之間的搬移過程之中就完成了計算,計算對于數(shù)據(jù)來說只是一種演變。
“更具體的說,SFA架構(gòu),存儲是我們優(yōu)先的出發(fā)點,去考慮數(shù)據(jù)在搬移過程中做計算,也就是由數(shù)據(jù)帶動計算而非由算子帶動數(shù)據(jù)。與通常計算的先有計算指令然后提供數(shù)據(jù)相反,SFA架構(gòu)是先有數(shù)據(jù),然后再把算子交給它?!濒斢逻M一步解釋。
當然,完全舍棄馮諾依曼架構(gòu),實現(xiàn)全新的架構(gòu)方式SFA架構(gòu)面臨不少挑戰(zhàn)。魯勇表示這其中涉及很多硬件的核心點、數(shù)據(jù)管理、算子節(jié)點如何靈活的連接起來都是非常難的問題。不過,他也透露稱,SFA架構(gòu)以圖計算為基礎(chǔ),設(shè)計了非常精巧且有針對性的架構(gòu)解決這些難題。這一點與AI大神Lecun所宣稱的所有的神經(jīng)網(wǎng)絡(luò)都是圖計算問題不謀而合。
難題突破之后,SFA架構(gòu)具備了哪些優(yōu)勢?魯勇介紹,首先就是芯片的PPA取得了巨大的突破,實驗數(shù)據(jù)表明,比較類CPU架構(gòu)采用的基于總線和指令集的映射方法,在同等條件下,數(shù)據(jù)訪問可降低10~100倍。28nm工藝條件下,系統(tǒng)能效比達到4T OPS/W,計算資源利用率超過80%,DDR帶寬占用率降低5倍。
其次,SFA架構(gòu)可以支持任意神經(jīng)網(wǎng)絡(luò)。也就是說,SFA架構(gòu)可以支持不同大小的網(wǎng)絡(luò)模型、不同的數(shù)據(jù)類型,包括定點型和浮點型,甚至一個神經(jīng)網(wǎng)絡(luò)里不同層使用不同的精度也可以支持。我們的AI芯片可以稱得上通用型AI芯片,只要在神經(jīng)網(wǎng)絡(luò)深度學習框架下,GPU能支持的我們都能支持。
還有,SFA架構(gòu)非常靈活,基于它既可以推出本地或云端的推理芯片,也可以用于云端訓練的芯片,終端的推理加訓練芯片也能用,完全取決于最終產(chǎn)品的定位。
除了內(nèi)存方面的突破,在算力提升方面SFA架構(gòu)也有相應(yīng)的優(yōu)化。SFA架構(gòu)的AI芯片不僅可以滿足多精度計算,還能做到自適應(yīng)的稀疏化處理,不需要在離線階段做剪枝或者壓縮處理。
據(jù)悉,探境的計算架構(gòu)也采用了比較獨特的無MAC設(shè)計方式。
落地優(yōu)勢如何?
既然SFA架構(gòu)具有多個優(yōu)勢,那么在探境科技看好的安防監(jiān)控、工業(yè)制造、自動駕駛和語音人機交互市場,落地優(yōu)勢依舊明顯嗎?魯勇指出,這幾個領(lǐng)域看上去好像差別挺大,但對我們而言背后有一個貫穿一致的邏輯。也就是核心都是SFA架構(gòu),根據(jù)不同的市場應(yīng)用,套上不同的框架,最終變成不同的產(chǎn)品形態(tài)。
他強調(diào),不同市場的差別并沒有想象那么大。算法層面,現(xiàn)在的語音和圖像算法已經(jīng)開始融合,都是基于深度學習的卷積神經(jīng)網(wǎng)絡(luò)(CNN),并不是原來想的那么涇渭分明。芯片角度,核心都是SFA架構(gòu),根據(jù)產(chǎn)品的定義不同,外面的接口也相對不同,這并不困難。
去年5月探境宣布完成數(shù)千萬美元融資時,就已經(jīng)制訂了三年的產(chǎn)品規(guī)劃,會以行業(yè)劃分的形式,有節(jié)奏的推出產(chǎn)品及整體解決方案。雷鋒網(wǎng)了解到,目前探境已經(jīng)推出了包括語音喚醒、命令詞識別、語音理解、通用型降噪的AI語音芯片。值得一提的是,這幾款芯片都可以在不聯(lián)網(wǎng)的情況下實現(xiàn)功能,這是算力和功耗優(yōu)勢的一個體現(xiàn)。
至于為何率先推出AI語音芯片,魯勇認為物聯(lián)網(wǎng)時代,語音成為了一種新的交互方式,也是一個入門的交互方式,這個入口非常重要。
看好AI語音市場的不止探境科技,傳統(tǒng)的芯片公司杭州國芯、瑞芯微等,以及擅長語音算法的思必馳、出門問問等都推出了AI語音芯片。那么,探境在市場上的競爭力如何?
魯勇表示,算法公司對芯片的理解程度非常有限,我認為AI時代的競爭力已經(jīng)單純看PPA轉(zhuǎn)移到了軟硬結(jié)合的能力,只有非常深度的軟硬結(jié)合才能具備非常核心的競爭力。在實際的落地過程中,SFA架構(gòu)對客戶非常友好。因為SFA架構(gòu)不僅不需我們在工具鏈上不用投入過多的精力,在客戶實際使用的時,我們會提供一個非常好用的工具鏈,通過工具鏈的轉(zhuǎn)換,可以讓客戶的算法甚至不用重新訓練就可以部署。
而最讓魯勇感到驕傲的是探境AI語音芯片最終體現(xiàn)出的競爭力。他表示,AI芯片的競爭力的直接體現(xiàn)就是成本,探境的AI語音芯片的成本優(yōu)勢還是基于SFA架構(gòu),在同樣的芯片面積下能提供更高的算力,也就是PPA顯著提升。在與客戶接觸之后,我們的芯片獲得了客戶的追捧。
雷鋒網(wǎng)小結(jié)
探境科技作為一家成立于2017年的初創(chuàng)公司,能夠在成立之初就看到AI芯片本質(zhì)的問題是數(shù)據(jù)難題就領(lǐng)先了不少的AI芯片公司。并且,從探境公布的數(shù)據(jù)以及給出的信息來看SFA架構(gòu)確實是突破內(nèi)存墻的好方法,實現(xiàn)了許多AI芯片公司希望達成的AI通用芯片的愿望,兼具低功耗、低成本的特點。
只是,魯勇并未透露探境量產(chǎn)的AI芯片具體的合作伙伴。另外,探境AI芯片的商用也處于相對早期的階段,能否最終大獲成功攪動AI芯片市場我們需要保持關(guān)注。相信具有真正獨特技術(shù)和有實際產(chǎn)品的公司會大概率取得成功。
不可否認的是,魯勇此前在芯片巨頭Marvell十年的工作經(jīng)歷對于其能夠把握AI的發(fā)展趨勢以及聚集人才研發(fā)出獨特的AI芯片有不小的幫助。還需強調(diào)的是,在AI時代,只有軟硬更好的結(jié)合,才能最終體現(xiàn)出更大的競爭力。
相關(guān)文章:
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。