0
本文作者: 包永剛 | 2019-12-24 15:12 |
新的方法、新的思維、新的目標(biāo)一直引領(lǐng)著新的浪潮。2017年的兩位圖靈獎得主John L. Hennessy 和 David A. Patterson在年初的一篇報告中展望,未來的十年將是計算機體系架構(gòu)領(lǐng)域的“新的黃金十年”。
AI的發(fā)展更加期待新架構(gòu)的出現(xiàn),因為,經(jīng)典的馮諾依曼架構(gòu)處理器應(yīng)用于深度學(xué)習(xí)計算時面臨著內(nèi)存墻挑戰(zhàn)(訪問存儲器的速度無法跟上運算器消耗數(shù)據(jù)的速度)。粗粒度可重構(gòu)架構(gòu)(CGRA,Coarse Grain Reconfigurable Architecture)是AI芯片受關(guān)注的一個方向,目前已經(jīng)有5款采用該技術(shù)的芯片推出。
可重構(gòu)是否是解決AI計算挑戰(zhàn)的一個好方向?已經(jīng)推出的可重構(gòu)AI芯片有何不同?
什么是可重構(gòu)?
可重構(gòu)的概念最早在20世紀(jì)60年代被提出。到了80、90年代,可重構(gòu)芯片技術(shù)源頭的高層次綜合理論和方法誕生。進(jìn)入新的世紀(jì),2015年國際半導(dǎo)體技術(shù)發(fā)展路線圖(ITRS)認(rèn)為,粗顆粒度可重構(gòu)架構(gòu)(CGRA)是未來最有發(fā)展前途的新興計算架構(gòu)之一。
2018年,美國DARPA正式啟動旨在支撐美國2025-2030年電子技術(shù)能力的“電子復(fù)興計劃”(ERI),提到研發(fā)具有軟件和硬件雙編程能力,并獲得接近專用電路性能的技術(shù)。在這里領(lǐng)域,魏少軍教授牽頭的清華大學(xué)可重構(gòu)芯片課題組在這個計劃提出的十年前就開始了研究,課題組現(xiàn)在的成果比ERI設(shè)定關(guān)鍵性能的指標(biāo)更高。
從60年前可重構(gòu)概念的提出,到2019年有可重構(gòu)AI芯片量產(chǎn),可重構(gòu)并不是一個新概念,卻是一個挑戰(zhàn)眾多的技術(shù)。這種挑戰(zhàn)很大程度來源于,動態(tài)可重構(gòu)芯片既要有CPU和GPU級別的軟件可編程性,也要有FPGA級別的硬件可編程性。
魏少軍教授總結(jié)認(rèn)為動態(tài)可重構(gòu)芯片預(yù)期的特點和潛在能力區(qū)別于傳統(tǒng)芯片有7點:
(1)軟硬件可編程;
(2)硬件架構(gòu)的動態(tài)可變性及高效的架構(gòu)變換能力;
(3)兼具高計算效率和高能量效率;
(4)本征安全性;
(5)應(yīng)用簡便性,不需要芯片設(shè)計的知識和能力;
(6)軟件定義芯片;
(7)實現(xiàn)智能的能力。
可重構(gòu)芯片的技術(shù)的源頭高層次綜合(High-LevelSynthesis)理論和方法,是一種從行為描述到電路的優(yōu)化設(shè)計方法。也就是先找到數(shù)據(jù)依賴關(guān)系,然后通過運行時間的分割,對運算進(jìn)行調(diào)度來實現(xiàn)計算資源的復(fù)用。
高層次綜合生成的專用集成電路架構(gòu)
用高層次綜合系統(tǒng)的實現(xiàn)過程進(jìn)行更具體的解釋,系統(tǒng)輸入用硬件描述語言(HDL)寫成的系統(tǒng)行為描述(如VHDL或Verilog),然后根據(jù)這些行為描述,通過高層次綜合的編譯器,生成包含數(shù)據(jù)和互連網(wǎng)絡(luò)配置信息的微控制碼以及與系統(tǒng)功能相關(guān)的有限狀態(tài)機。
不過,這里所說的“編譯器”與傳統(tǒng)的計算機的編譯器并沒有任何關(guān)系,只是借用編譯器的概念,其核心是一整套高層次綜合方法學(xué)的內(nèi)容。
高層次綜合系統(tǒng)使設(shè)計過程變得非常有序,也被認(rèn)為是20世紀(jì)80、90年代集成電路設(shè)計方法學(xué)中最好的選擇。
可重構(gòu)芯片的基本架構(gòu)
不過,半導(dǎo)體制程技術(shù)的演進(jìn)也帶來了高成本的問題。如果研發(fā)一款14nm制程的芯片,綜合成本高達(dá)1.5-2億美元,通常要銷售3000萬顆以上才能把研發(fā)成本合理地攤銷到每顆芯片上。如果采用目前最先進(jìn)的7nm制程的芯片,綜合成本可能高達(dá)3億甚至更多。芯片的設(shè)計和制造成本在增加,但AI對算力的需求也在按月增加。
這時候,復(fù)用芯片是個不錯的選擇。設(shè)想一下,相同的芯片,功能可通過軟件改變,不同的軟件寫入就變成了“專用”芯片。這將是非常理想的情況,如果這個想法實現(xiàn),可以認(rèn)為軟件定義芯片就成為了現(xiàn)實。
但挑戰(zhàn)在于,軟件可以無限復(fù)雜,執(zhí)行時間可以無窮長,硬件不管多大都有邊界。可重構(gòu)芯片業(yè)面臨眾多挑戰(zhàn),其中有三個主要的挑戰(zhàn):
計算模式:如何提高陣列利用率?
陣列結(jié)構(gòu):如何提高計算能效?
算法映射:如何優(yōu)化映射效率?
可重構(gòu)技術(shù)的優(yōu)勢和挑戰(zhàn)都同樣顯著,采用這個技術(shù),清微智能、耐能、云天勵飛、燧原科技、WaveComputing相繼推出了AI芯片,他們有何不同?
5款可重構(gòu)AI芯片面世
清微智能
清微智的核心成員來自清華大學(xué)可重構(gòu)計算研究團(tuán)隊,2019年量產(chǎn)的首顆芯片是TX210,這款語音SoC芯片可以應(yīng)用于智能手機、可穿戴智能設(shè)備、小家電、大家電、玩具、車載等場景。清微的可重構(gòu)芯片主要分為三個維度,從MAC層面支持不同的位寬重構(gòu),到執(zhí)行單元層面支持不同算子重構(gòu),再到陣列層面支持不同功能重構(gòu)。
用一個更容易理解的類比來解釋清微可重構(gòu)芯片的可重構(gòu)程度,清微的可重構(gòu)芯片既可以是“樂高”層級的可重構(gòu),也可以是“面粉”層級的可重構(gòu)。
清微智能CTO歐陽鵬此前接受雷鋒網(wǎng)采訪時透露,在可重構(gòu)計算更低能耗和更強靈活性的基礎(chǔ)上,他們在具體的芯片設(shè)計上又做了兩方面深化。
清微的AI芯片支持從1bit-16bit的混合精度計算,同時,不同的神經(jīng)網(wǎng)絡(luò)層可以采用不同的精度表示,可實現(xiàn)實時切換精度。在具體實現(xiàn)過程中,可重構(gòu)模式動態(tài)重組計算資源和帶寬,根據(jù)精度表示,讓計算資源和帶寬接近滿負(fù)荷進(jìn)行計算,從而將混合精度網(wǎng)絡(luò)下的計算資源和帶寬的利用率逼近極限,高效支持多種混合精度的神經(jīng)網(wǎng)絡(luò)。
另外,清微的AI芯片針對神經(jīng)網(wǎng)絡(luò)部分和非神經(jīng)網(wǎng)絡(luò)均進(jìn)行了計算效率考慮。針對非神經(jīng)網(wǎng)絡(luò)處理邏輯,從算法數(shù)據(jù)流圖進(jìn)行空間映射,以接近ASIC效率計算。同時,通過配置形成不同的電路結(jié)構(gòu)來動態(tài)處理不同非神經(jīng)網(wǎng)絡(luò)計算邏輯,在保證靈活性前提下,計算效率有極大提升。
需要指出,可重構(gòu)芯片代表的是采用的是數(shù)據(jù)驅(qū)動下的空域執(zhí)行模式,區(qū)別于CPU、GPU、NPU諾依曼架構(gòu)的時域計算模式,數(shù)據(jù)流驅(qū)動的芯片從架構(gòu)上就可以避免了馮諾依曼架構(gòu)的限制。
目前,清微智能除了可重構(gòu)架構(gòu)的語音芯片,還發(fā)布了面向智能家居、智能安防和新零售領(lǐng)域的低功耗圖像識別芯片。
云天勵飛
云天勵飛沒有具體解釋其芯片中的可重構(gòu)架構(gòu),云天勵飛副總裁 芯片產(chǎn)品線負(fù)責(zé)人李愛軍在接受雷鋒網(wǎng)采訪時表示,云天的實現(xiàn)方式是從PE的維度進(jìn)行可重構(gòu),可以理解為運算單元的可重構(gòu),通過工具鏈實現(xiàn)芯片的靈活性。因此,采用的方式和維度會有所不同(與清微相比),但最終的效果應(yīng)該是異曲同工。
在其今年11月發(fā)布的專注邊緣和端側(cè)視覺新產(chǎn)品DeepEye1000介紹中提到,采用存算融合體系架構(gòu)和可重構(gòu)計算陣列,可以靈活、高效的執(zhí)行各種深度學(xué)習(xí)算法模型的推理計算,峰值算力達(dá)2.0Tops。
神經(jīng)網(wǎng)絡(luò)處理器采用可重構(gòu)計算陣列,支持靈活可編程計算流,計算效率超過99%,同時采用存算融合體系架構(gòu),使得DDR存儲訪問帶寬下降77%,功耗下降60%。
更多的技術(shù)細(xì)節(jié),需要云天勵飛進(jìn)一步披露。
耐能
耐能今年5月在國內(nèi)發(fā)布物聯(lián)網(wǎng)專用AI SoC——KL520時表示這款新品使用了可重組架構(gòu),雖然不是可重構(gòu)技術(shù),但兩者之間同樣存在關(guān)聯(lián)。還是用上面的類比來解釋,耐能的架構(gòu)是積木層級的可重組,清微智能的可重構(gòu)則是面粉層級的可重組,更加底層。
耐能CEO劉峻誠解釋,可重組架構(gòu)可以理解為這款芯片提供的是一堆樂高積木,需要支持語音AI的模型時就通過指令集進(jìn)行組合,需要支持圖像AI模型時,再重新組合,可以很好地支持多種神經(jīng)網(wǎng)絡(luò)模型,并且保持架構(gòu)的精簡性。
由此能夠帶來性能和功耗的優(yōu)勢,如果選用更加成熟的工藝制程,降低成本,最終能實現(xiàn)高性能、低成本、低功耗、高兼容性的優(yōu)勢。
至于如何解決AI芯片存儲挑戰(zhàn)的問題,劉峻誠透露,他們的巧思是實現(xiàn)了動態(tài)存儲DMA(Dynamic Memory Assessment),當(dāng)處理器對存儲沒有很高的需求時,就預(yù)先準(zhǔn)備好,當(dāng)需要使用的時候就直接讀取,實現(xiàn)效率的提升。
另外,可重組架構(gòu)還能動態(tài)支持同一個神經(jīng)網(wǎng)絡(luò)的不同數(shù)據(jù)精度需求。最終產(chǎn)品可以根據(jù)客戶的需求,支持Int8、FP16或更高的精度。壓縮率也能夠控制在0.5%以內(nèi)則是來源于耐能獨特的開放平臺,通過這個開放平臺能夠?qū)嚎s率提升40甚至50倍,壓縮率損失則小于0.5%,這是軟件或者說軟硬一體優(yōu)勢的體現(xiàn)。
據(jù)悉,耐能的可重組架構(gòu)研究已經(jīng)在國際知名的半導(dǎo)體期刊上發(fā)布,并且在美國、臺灣都拿到了專利。
燧原科技
除了將可重構(gòu)的理念和技術(shù)應(yīng)用于邊緣端,同樣是國內(nèi)初創(chuàng)公司的燧原科技在其云端訓(xùn)練AI芯片中也用到了可重構(gòu)。
燧原科技的首款芯片邃思DTU基于可重構(gòu)芯片的設(shè)計理念,其計算核心包含32個通用可擴(kuò)展神經(jīng)元處理器(SIP),每8個SIP組合成1個可擴(kuò)展智能計算群(SIC)。SIC之間通過HBM實現(xiàn)高速互聯(lián),通過片上調(diào)度算法,數(shù)據(jù)在搬遷中完成計算,實現(xiàn)SIP利用率最大化。
如何理解DTU中的可重構(gòu)芯片設(shè)計理念?燧原科技創(chuàng)始人兼 COO 張亞林告訴雷鋒網(wǎng),“端上的可重構(gòu)更多是低功耗以及可以輕易移植應(yīng)用。云端的可重構(gòu)主要的是把整個數(shù)學(xué)計算變成一種可編程的指令集和可控的流水線,讓數(shù)學(xué)計算的模型可以重構(gòu),這樣可以保證芯片的通用性,也能夠適應(yīng)快速迭代的AI算法?!?/p>
更進(jìn)一步的細(xì)節(jié)目前也暫不清楚。
Wave Computing
國內(nèi)采用可重構(gòu)技術(shù)的AI芯片不少,國外初創(chuàng)公司W(wǎng)ave Computing的AI芯片也采用該技術(shù)。其基于數(shù)據(jù)流驅(qū)動DataFlow技術(shù)的DPU采用非馮諾依曼架構(gòu)的軟件可動態(tài)重構(gòu)處理器CGRA技術(shù),能在最合理分配和使用算力的同時,成倍節(jié)約了數(shù)據(jù)存儲和傳輸帶寬。官方表示,這一方案基本上能將芯片算力資源的利用效率保證在75%-80%以上。
具體而言,DPU對一個完整的神經(jīng)網(wǎng)絡(luò)計算流程,每個計算節(jié)點,可以先分配好合理的資源,使得整個計算流程達(dá)到資源有效地使用。處理完第一個任務(wù)節(jié)點,它會將數(shù)據(jù)直接傳輸?shù)降诙€任務(wù)節(jié)點的輸入端,第二個任務(wù)處理完數(shù)據(jù)后,又會將任務(wù)送到第三個任務(wù)節(jié)點的輸入端,就像流水線,最大程度減少數(shù)據(jù)存儲和傳輸。
同時, DataFlow技術(shù)架構(gòu)的整體解決方案會有一個獨立的通用CPU模組來提供控制、管理和數(shù)據(jù)預(yù)處理功能,但無需實時干預(yù)DPU。
目前,Wave Computing商用的DPU采用16nm制程工藝,每個DPU有16384個處理元件(PE),面積為300多平方毫米,并以6 GHz以上的速度運行。其DPU與國內(nèi)外多家云服務(wù)商和AI公司均有緊密合作,合適汽車電子、智慧醫(yī)療等各種復(fù)雜、算力要求高的各類AI應(yīng)用。
無論是國外還是國內(nèi),無論是云端還是終端,都有采用可重構(gòu)技術(shù)的AI芯片已經(jīng)推出,這表明可重構(gòu)技術(shù)無疑是業(yè)界關(guān)注的一個新技術(shù)。但各家對技術(shù)的理解和應(yīng)用也有差別,從目前的信息看,清微智能對該技術(shù)做了更深入的解讀,Wave Computing也發(fā)布文章解釋其DTU,云天勵飛、耐能、燧原科技還沒更進(jìn)一步的技術(shù)解讀。
理想的可重構(gòu)不僅能夠滿足不斷迭代的AI算法以及各種應(yīng)用的需求,軟件定義芯片的方式也能盡可能延長芯片的使用時間,但實現(xiàn)理想的可重構(gòu)芯片仍然還有許多挑戰(zhàn)。
相關(guān)文章:
Live回顧|清微智能科技CTO:可重構(gòu)計算芯片的技術(shù)原理及實現(xiàn)難點
首發(fā) | 全新類別AI芯片量產(chǎn),清微的可重構(gòu)芯片將成市場主流?
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。