1
本文作者: 精選轉(zhuǎn)載 | 編輯:汪金紅 | 2017-12-20 20:18 |
雷鋒網(wǎng)注:本文是線性資本黃松延對終端智能芯片前沿技術(shù)和市場動態(tài)的分析,松延是浙江大學(xué)機器學(xué)習(xí)博士,前華為數(shù)據(jù)科學(xué)家,對機器學(xué)習(xí)及其應(yīng)用有深入的研究,閱后若有所感,歡迎通過微信號Nikola_629與他交流。本文轉(zhuǎn)載自公眾號“線性資本”,雷鋒網(wǎng)已獲取授權(quán)。
基礎(chǔ)層、算法層與應(yīng)用層是人工智能產(chǎn)業(yè)鏈的三個組成部分。人工智能(AI)正在作為基礎(chǔ)技術(shù),改變不同的行業(yè),并具有極其廣闊的應(yīng)用市場??紤]到深度學(xué)習(xí)等AI算法開源的發(fā)展趨勢,基礎(chǔ)層的數(shù)據(jù)與芯片將在未來競爭中占據(jù)越來越重要的地位。作為人工智能發(fā)展支柱的AI芯片(特指專門針對AI算法做了特定設(shè)計的芯片)更是人工智能行業(yè)的核心競爭力。
基于深度神經(jīng)網(wǎng)絡(luò)(DNN)在各個應(yīng)用中表現(xiàn)出的巨大優(yōu)勢,本文的AI僅限于深度學(xué)習(xí)。下文將從AI計算與AI芯片出發(fā),分析不同種類AI芯片間的區(qū)別,探索應(yīng)用于終端推斷(Edge Inference,EI)的AI芯片,即AI-EI芯片,并給出AI-EI芯片硬件架構(gòu)特性,討論多家AI-EI芯片公司,最后給出AI-EI芯片發(fā)展趨勢及投資邏輯。
近幾年,深度神經(jīng)網(wǎng)絡(luò)(DNN)在圖像識別、自然語言處理等方向上取得了前所未有的成功,并推動相關(guān)行業(yè)的快速發(fā)展。但是,這些應(yīng)用中使用的深度神經(jīng)網(wǎng)絡(luò)的參數(shù)量巨大,模型訓(xùn)練(training)與推斷(inference)都需要大量的計算,傳統(tǒng)計算芯片的算力無法滿足DNN計算需求。具有高算力的AI芯片能夠滿足AI行業(yè)計算需求并得到了快速發(fā)展。
2016年AI芯片全球市場規(guī)模為23.88億美元,有機構(gòu)預(yù)計到2020年AI芯片全球市場規(guī)模將達到146.16億美元(終端AI芯片的市場規(guī)模),發(fā)展空間巨大。另外,各國紛紛把AI芯片定為自己的戰(zhàn)略發(fā)展方向。
與傳統(tǒng)CPU不同的是,AI芯片具有大量的計算單元,能夠適合大規(guī)模并行計算的需求。基于通用性與計算性能的不同,可以把AI芯片分為GPU、FPGA、ASIC三大類。深度神經(jīng)網(wǎng)絡(luò)的基本運算單元是“乘-加”(MAC)操作。每次MAC中存儲器讀寫操作如圖1所示。
圖1:每個MAC的讀寫操作
在AI應(yīng)用中,CPU與AI芯片的計算能力是由芯片所具備的MAC能力及如何發(fā)揮芯片的MAC能力兩個因素決定。
CPU是通用芯片,CPU的大部分面積都被控制單元與緩存單元所占,只有少量的計算單元。另外,CPU的指令執(zhí)行過程包括取指令、指令譯碼與指令執(zhí)行三部分。只有在指令執(zhí)行的時候,計算單元才能發(fā)揮作用。因而,CPU在發(fā)揮芯片的MAC能力方面亦比較一般。為了提高指令執(zhí)行效率,CPU采用指令流水處理方式。
GPU有大量的計算單元,適合大規(guī)模并行計算。但是,GPU也是通用芯片,其指令執(zhí)行過程也由取指令、指令譯碼與指令執(zhí)行三部分組成。該特征是制約GPU計算能力的主要原因之一。
FPGA,即,現(xiàn)場可編程邏輯門陣列,是一種更接近I/O的高性能、低功耗芯片。FPGA是算法即電路,軟硬合一的芯片?;谟布枋稣Z言,可以把算法邏輯直接編譯為晶體管電路組合。由于FPGA的硬件電路是由算法定制的,其不需要取指令與指令譯碼過程,因而,F(xiàn)PGA能夠充分發(fā)揮芯片的計算能力。另外,F(xiàn)PGA可以重復(fù)編程,因而具備一定的靈活性。
ASIC,即,專用集成電路。類似于FPGA,ASIC采用的也是算法即電路的邏輯,亦不需要取指令與指令執(zhí)行過程。另外,ASIC是為了特定的需求而專門定制的芯片,因而,能夠最大程度發(fā)揮芯片的計算能力。但是,不同于FPGA的可重復(fù)編程,ASIC的設(shè)計制造一旦完成,就無法再改變,其靈活性較差。
在評價一個芯片架構(gòu)性好壞時,有多種指標(biāo)可供參考。其中,能耗與峰值計算能力(芯片結(jié)構(gòu)中每秒計算操作數(shù)的總和,用OPS表示)是兩個重要的衡量指標(biāo)。不同指標(biāo)間會相互制衡,一個指標(biāo)的增高可能是以犧牲其它指標(biāo)為代價而獲取的。因而,常采用歸一化的指標(biāo)單位能耗算力(OPS/W),即,能效,來衡量芯片計算性能。實質(zhì)上看,上述的四種芯片是通用性與能效trade-off的結(jié)果。能效方面,ASIC>FPGA>GPU>CPU。通用性則反之。
對于AI芯片,從市場格局來看,NVIDIA是GPU行業(yè)的絕對龍頭。對于FPGA,XILINX、ALTERA(現(xiàn)并入INTEL)、LATTICE、MICROSEMI四家占據(jù)全球99%的市場份額。其中,XILINX、ALTERA兩家占據(jù)全球90%的市場份額。另外,F(xiàn)PGA四大巨頭擁有6000多項行業(yè)專利,形成該行業(yè)極高的技術(shù)壁壘。對于ASIC芯片,目前還未形成巨頭壟斷的市場格局,但是對于不同垂直領(lǐng)域,其情況不同,我們將在下文中給出詳細分析。
圖2:AI芯片象限圖
深度學(xué)習(xí)分為兩個階段:模型訓(xùn)練與智能推斷,如圖2所示。模型訓(xùn)練需要大量的訓(xùn)練樣本,基于梯度下降法,模型優(yōu)化收斂到局部最優(yōu)點。深度學(xué)習(xí)的模型訓(xùn)練需要幾小時到多天的迭代優(yōu)化,因而,現(xiàn)階段,模型訓(xùn)練都在云端完成(我們認為具備持續(xù)學(xué)習(xí)能力是智能終端未來發(fā)展的方向,因而這里并不認為訓(xùn)練一定只在云端完成)。模型訓(xùn)練好之后,則能夠基于該模型與輸入數(shù)據(jù),計算得到輸出,完成智能推斷。相比于模型訓(xùn)練,推斷的計算量要小很多,可以在云端與終端完成。
現(xiàn)階段,由于終端設(shè)備的計算力普遍有限,模型訓(xùn)練與推斷大都在云端服務(wù)器上完成。在云端模型訓(xùn)練中,NVIDIA的GPU占主導(dǎo)地位,多GPU并行架構(gòu)是云端訓(xùn)練常用的基礎(chǔ)架構(gòu)方案。在云端識別中,基于功耗與運算速度的考量,單獨基于GPU的方式并非最優(yōu)方案,利用CPU、GPU、FPGA、ASIC各自的優(yōu)勢,采用異構(gòu)計算(CPU+GPU+FPGA/ASIC)是目前主流方案。
在計算機視覺、語音識別等應(yīng)用中,終端采集數(shù)據(jù)(特別是圖像數(shù)據(jù)),然后上傳到云端處理的云計算對網(wǎng)絡(luò)帶寬與數(shù)據(jù)中心存儲都帶來越來越大的挑戰(zhàn)。另外,無人駕駛等應(yīng)用對實時性與安全性要求極高。網(wǎng)絡(luò)的時延與穩(wěn)定性所帶來的安全隱患是無人駕駛等應(yīng)用所無法忍受的。在終端采集數(shù)據(jù),并完成數(shù)據(jù)處理,提供智能終端推斷的邊緣計算(Edge computing),因其能夠滿足實時性、安全性的需求,且能節(jié)約帶寬與存儲,得到越來越多的關(guān)注。我們判斷inference將越來越多的在終端設(shè)備上完成,即,智能將會下沉到終端設(shè)備,智能邊緣計算將會崛起。
圖3:2017-2020全球AI終端芯片市場規(guī)模預(yù)測
實時性是選擇在終端完成推斷最主要的原因之一。但是,由于深度神經(jīng)網(wǎng)絡(luò)參數(shù)量巨大,推斷過程需要完成大量的計算,其對終端硬件的計算力提出了很高的要求。另外,電池供電的終端設(shè)備對功耗也有極高的要求,且大多數(shù)的終端產(chǎn)品價格敏感。即,執(zhí)行DNN推斷的終端芯片對算力、功耗、價格都有嚴(yán)格的限制。研究用于DNN推斷的AI-EI芯片是目前AI芯片行業(yè)最熱的方向?,F(xiàn)階段,已有大量的初創(chuàng)公司,針對不同領(lǐng)域及應(yīng)用,提出多種AI-EI芯片硬件設(shè)計架構(gòu),下文將詳細給出AI-EI芯片的架構(gòu)思路及發(fā)展現(xiàn)狀。
基于深度神經(jīng)網(wǎng)絡(luò)的廣泛應(yīng)用,科技巨頭及初創(chuàng)公司都根據(jù)DNN的特性進行有針對性的硬件處理器研發(fā)。其中包括Google的TPU、寒武紀(jì)的DianNao系列、Eyeriss的NPU等AI芯片。本節(jié)將總結(jié)并給出這些AI-EI芯片如何在不降低準(zhǔn)確率的前提下實現(xiàn)運算吞吐量提升,并降低能耗。
由前文可知,深度神經(jīng)網(wǎng)絡(luò)的基本運算為MAC操作,且MAC操作很容易被并行化。在DNN硬件設(shè)計中,常使用時間架構(gòu)(temporal architecture)與空間架構(gòu)(spatial architecture)兩種高度并行化的計算架構(gòu),來獲取高計算性能。
時間架構(gòu)(Temporalarchitecture)
通用芯片CPU與GPU常采用時間架構(gòu),并使用單指令多數(shù)據(jù)流(SIMD)或者單指令多線程(SIMT)來提高并行化處理性能。時間架構(gòu)基于中央控制器統(tǒng)一控制所有的ALU。這些ALU只能從層次存儲器中取數(shù)據(jù),而不能相互通信。
時間架構(gòu)中,通常使用各種計算變換,特別是對卷積操作的計算變換,來減小計算復(fù)雜度,從而提升吞吐量,常用的方法包括:
Toeplitz矩陣方法:把卷積操作轉(zhuǎn)換為矩陣乘操作
FFT方法:經(jīng)過FFT變換,把卷積運算變成矩陣乘操作
Winograd方法:比較適合較小的濾波器的情況
空間架構(gòu)(spatial architecture)
基于ASIC或者FPGA的AI-EI芯片常使用空間架構(gòu)。相對于通用芯片,專用芯片應(yīng)用在特定場景,其功能有限。簡單且規(guī)則的硬件架構(gòu)是降低設(shè)計成本的基礎(chǔ),亦是實現(xiàn)低成本專用芯片的先決條件。足夠低的芯片成本才能對沖專用芯片功能的局限性。
空間架構(gòu)采用數(shù)據(jù)流(Dataflow)處理方式。在空間架構(gòu)中,ALU形成一條數(shù)據(jù)處理鏈,從而能夠在ALU間直接地傳送數(shù)據(jù)。該空間架構(gòu)中,每個ALU都有自己的控制邏輯與本地存儲(寄存器堆)。其中,有本地存儲的ALU被定義為PE。
對于空間架構(gòu),硬件設(shè)計基于層次存儲器中的低能耗內(nèi)存,并增加數(shù)據(jù)重利用率(實質(zhì)上,卷積是空間重用,這種重用可以獲取空間的不變性),來減小能耗。另外,數(shù)據(jù)流(Dataflow)控制數(shù)據(jù)讀、寫及處理??傮w上,空間架構(gòu)基于層次存儲器與數(shù)據(jù)流平衡I/O與運算問題,從而降低能耗并提升運算吞吐量。下文將在分析層次存儲器與數(shù)據(jù)流的基礎(chǔ)上,討論不同的技術(shù)路線的AI-EI芯片。
訪問內(nèi)存所需時間要遠遠大于計算所需時間。由深度神經(jīng)網(wǎng)絡(luò)的推斷部分運算可知,每個MAC都需要三次內(nèi)存讀與一次內(nèi)存寫操作。其中三次內(nèi)存讀操作分別為讀取輸入數(shù)據(jù)、權(quán)值數(shù)據(jù)與部分和數(shù)據(jù)(partial sum),一次內(nèi)存寫操作為更新部分和數(shù)據(jù)。層次存儲器基于內(nèi)部寄存器等存儲單元來減小對外掛內(nèi)存訪問次數(shù),降低I/O需求。層次存儲器如圖4所示,該層次存儲器包括PE內(nèi)部的寄存器(RF)、用于ALU間直接傳輸數(shù)據(jù)時存儲數(shù)據(jù)的內(nèi)存單元NoC及連接DRAM的全局緩存器Buffer。由圖4可以看到,層次存儲器中,不同類別的存儲器讀寫操作所消耗的能量不同,這也是我們能夠利用層次存儲器及數(shù)據(jù)復(fù)用來降低能耗的原因。
圖4:層次存儲器及各存儲器中數(shù)據(jù)遷移的能耗
Dataflow是一種沒有復(fù)雜程序指令控制且由操作數(shù),即,數(shù)據(jù)或者中間結(jié)果,激活子計算單元,來實現(xiàn)并行計算的一種計算方式。圖5總結(jié)出了Dataflow的架構(gòu)邏輯。
圖5:數(shù)據(jù)流架構(gòu)——來源Shaaban教授的課程
在深度學(xué)習(xí)的推斷中,有大量的計算需求。但是,這些計算是分層順序執(zhí)行的。因而,控制流程相對簡單、清晰??梢钥闯?,Dataflow處理方式與基于深度神經(jīng)網(wǎng)絡(luò)推斷部分的計算需求非常吻合。
數(shù)據(jù)流能夠決定哪些數(shù)據(jù)讀入到哪層存儲器以及這些數(shù)據(jù)什么時候被處理。另外,在DNN推斷中,沒有隨機性。因而,可以從最優(yōu)能耗的角度,設(shè)計一個基于Dataflow的固定架構(gòu)的AI-EI芯片。目前,大多數(shù)用于深度學(xué)習(xí)推斷的AI-EI芯片都采用Dataflow。
層次存儲器中,存儲量大的存儲器讀寫操作所消耗的能量要比小存儲的存儲器大很多。因而,一旦一塊數(shù)據(jù)從大存儲器搬移到小存儲器后,要盡可能最大程度復(fù)用(reuse)該數(shù)據(jù)塊來最小化能耗。但是低功耗存儲器的存儲空間有限。如何最大化復(fù)用率是設(shè)計基于Dataflow加速器時最關(guān)注的先前條件。即,通過最大化數(shù)據(jù)復(fù)用率來降低I/O要求,減小數(shù)據(jù)處理能耗,從而提升吞吐量并降低總體能耗。常見的DNN數(shù)據(jù)流類型包括:權(quán)值固定數(shù)據(jù)流、輸出固定數(shù)據(jù)流、No local reuse(NLR)及行固定數(shù)據(jù)流。
權(quán)值固定數(shù)據(jù)流: 從DRAM中讀出權(quán)值數(shù)據(jù),放在PE的RF中并保持不變,之后把輸入數(shù)據(jù)廣播(broadcast)到每個PE,最后求取PE陣列的部分和(partialsum)。該處理方式通過最大化從PE的RF中讀取權(quán)值數(shù)據(jù)次數(shù),并最小化直接從DRAM中讀取權(quán)值次數(shù),實現(xiàn)最大化卷積與濾波器對權(quán)值的復(fù)用率,來減小能耗。NeuFlow即為基于該種數(shù)據(jù)處理方式的AI-EI芯片。
輸出固定(OS)數(shù)據(jù)流: 通過在PE陣列中stream輸入數(shù)據(jù),然后把權(quán)值數(shù)據(jù)廣播到PE陣列,保持 RF中的部分和的累加不變,從而最小化讀寫部分和的能耗。寒武紀(jì)的ShiDianNao是基于輸出固定的AI-EI芯片。另外,根據(jù)處理目標(biāo)的不同,可以把該種數(shù)據(jù)流分為以卷積層為處理目標(biāo)的OS_A與以全連接層為處理目標(biāo)的OS_C,OS_B是介于OS_A與OS_C間的一種OS數(shù)據(jù)流。
NLR數(shù)據(jù)流: PE陣列的RF中并不存儲任何固定數(shù)據(jù),相反,該情況下,所有數(shù)據(jù)的讀寫操作都是在全局buffer中完成。寒武紀(jì)的DianNao與DaNiaoNao是基于該數(shù)據(jù)處理方式的AI-EI芯片。
行固定數(shù)據(jù)流: 最大化所有數(shù)據(jù)復(fù)用率并盡可能的使得所有數(shù)據(jù)的讀寫操作都在RF中完成,減小對全局buffer的讀寫操作,來減小功耗。每個PE能夠完成1D的卷積運算,多個PE能夠完成2D的卷積運算。在二維的PE陣列中,水平軸上的PE單元上,每一行的權(quán)值數(shù)據(jù)被復(fù)用,對角線上的PE單元上,每一行的輸入數(shù)據(jù)被復(fù)用,垂直軸上的多個PE單元上,每一行的部分和數(shù)據(jù)被復(fù)用,即,行固定的數(shù)據(jù)流能夠最大化所有數(shù)據(jù)的復(fù)用率,從而能夠全局最優(yōu)化功耗。Eyeriss的NPU是基于行固定的AI-EI芯片。
本節(jié)首先總結(jié)三家極具代表性的研發(fā)DNN加速器(Google、Wave computing、Graphcore是平臺化的計算平臺,因而,這里沒把他們叫做AI-EI芯片廠家)的公司,后文中結(jié)合應(yīng)用場景總結(jié)AI-EI芯片創(chuàng)業(yè)公司,其中部分公司的芯片也可以做訓(xùn)練,且不一定應(yīng)用在終端場景,這里基于行為考慮,把他們稱為AI-EI芯片公司。
Google TPU
在2015年就開始部署ASIC張量處理器TPU。TPU采用脈動陣列(systolic array)技術(shù),通過矩陣單元的使用,減小統(tǒng)一緩沖區(qū)的讀寫來降低能耗,即脈動運行。脈動陣列不是嚴(yán)格意義的Dataflow,但也是數(shù)據(jù)流驅(qū)動的設(shè)計方式。該技術(shù)早在1982年就被提出,但是受限于當(dāng)時的工藝水平及應(yīng)用,該技術(shù)在當(dāng)時并沒有引起太多關(guān)注。脈動陣列在TPU上的應(yīng)用,讓該技術(shù)回歸大眾視野,并得到了極大的關(guān)注。
Google在TPU上使用該技術(shù)的邏輯在于脈動陣列簡單、規(guī)則且能夠平衡運算與I/O通信。TPU中基本計算單元是功能單一的處理單元PE,每個PE需要先從存儲中讀取數(shù)據(jù),進行處理,然后把處理后的結(jié)果再寫入到存儲中。TPU脈動陣列中的PE與前文中其他DNN加速器的PE基本一樣,能夠?qū)崿F(xiàn)MAC操作,有存儲能力有限的RF。由前文可知,對數(shù)據(jù)讀寫的速度要遠遠小于數(shù)據(jù)處理的速度。因而,訪問內(nèi)存的速度決定了處理器的處理能力。TPU的脈動陣列采用數(shù)據(jù)復(fù)用及數(shù)據(jù)在陣列中的脈動運行的策略來減小訪問存儲器次數(shù),從而提高TPU的吞吐量。
TPU在實現(xiàn)卷積等運算時,要先調(diào)整好數(shù)據(jù)的形式(即對原始矩陣做好調(diào)整),之后才能完成相應(yīng)的計算。因而,TPU的靈活性一般,只能處理特定的運算,這也是其它基于PE陣列Dataflow DNN加速器共有的問題。但是脈動陣列特別適合卷積運算,TPU有多種實現(xiàn)卷積運算的方式,其中包括:
權(quán)值存儲在PE中保持不變,廣播輸入數(shù)據(jù)到各個PE,部分和的結(jié)果在PE陣列中脈動運行
部分和的結(jié)果存儲在PE中保持不變,廣播輸入數(shù)據(jù)到各個PE,權(quán)值在PE陣列中脈動運行
部分和的結(jié)果存儲在PE中保持不變,輸入數(shù)據(jù)與權(quán)值在PE陣列中按相反方向脈動運行
部分和的結(jié)果存儲在PE中保持不變,輸入數(shù)據(jù)與權(quán)值在PE陣列中按相同方向但不同速度脈動運行
權(quán)值存儲在PE中保持不變,輸入數(shù)據(jù)與部分和的結(jié)果在PE陣列中按相反方向脈動運行
權(quán)值存儲在PE中保持不變,輸入數(shù)據(jù)與部分和的結(jié)果在PE陣列中按相同方向但不同速度脈動運行
Wave computing
基于Coarse GrainReconfigurable Array (CGRA) 陣列,實現(xiàn)數(shù)據(jù)流計算。另外,Wave的DNN加速器是clockless,其基于握手信號來實現(xiàn)模塊間的同步。因而,不需要時鐘樹,從而能夠減小芯片面積并降低功耗。
Graphcore
打造專門針對graph計算的智能處理器IPU。Graphcore在芯片設(shè)計上做出了很大的改變。相比于CPU以scalar為基礎(chǔ)表示,GPU以矢量為基礎(chǔ)表示,Graphcore的IPU是為了high-dimensional graph workload而設(shè)計的。這種表示既適用于神經(jīng)網(wǎng)絡(luò),也適用于貝葉斯網(wǎng)絡(luò)和馬爾科夫場,包括未來可能出現(xiàn)的新的模型和算法。該IPU采用同構(gòu)多核架構(gòu),有k級的獨立處理器。另外,該芯片使用大量片上SRAM,不直接連接DRAM。該芯片能夠直接做卷積運算,而不需要把轉(zhuǎn)換成矩陣乘法之后使用MAC操作完成。該IPU不僅能夠支持推斷,也能支持訓(xùn)練。
商業(yè)應(yīng)用是AI的關(guān)鍵因素之一,AI只有解決了實際的問題才具有價值,下文,我們從終端不同的應(yīng)用,探討AI-EI芯片。不同的加速器在各個子行業(yè)都有應(yīng)用布局,我們從主要應(yīng)用領(lǐng)域出發(fā),給出公司產(chǎn)品、最新產(chǎn)品性能及融資情況的終結(jié)。
AI-EI芯片+自動駕駛
在汽車行業(yè),安全性是最重要的問題。高速駕駛情況下,實時性是保證安全性的首要前提。由于網(wǎng)絡(luò)終端機延時的問題,云端計算無法保證實時性。車載終端計算平臺是自動駕駛計算發(fā)展的未來。另外,隨著電動化的發(fā)展趨勢,對于汽車行業(yè),低功耗變的越來越重要。天然能夠滿足實時性與低功耗的ASIC芯片將是車載計算平臺未來發(fā)展趨勢。目前地平線機器人與Mobileye是OEM與Tier1的主要合作者。
AI-EI芯片+安防、無人機
對于如何解決“虐童”問題,我們認為能夠“看得懂”的AI安防視頻監(jiān)控是可行方案之一。相比于傳統(tǒng)視頻監(jiān)控,AI+視頻監(jiān)控,最主要的變化是把被動監(jiān)控變?yōu)橹鲃臃治雠c預(yù)警,因而,解決了需要人工處理海量監(jiān)控數(shù)據(jù)的問題(也繞開了硬盤關(guān)鍵時刻掉鏈子問題)。安防、無人機等終端設(shè)備對算力及成本有很高的要求。隨著圖像識別與硬件技術(shù)的發(fā)展,在終端完成智能安防的條件日益成熟。安防行業(yè)龍頭海康威視、無人機龍頭大疆已經(jīng)在智能攝像頭上使用了Movidious的Myriad系列芯片。
AI-EI芯片+消費電子
搭載麒麟970芯片的華為mate10手機與同樣嵌入AI芯片的iPhoneX帶領(lǐng)手機進入智能時代。另外,亞馬遜的Echo引爆了智能家居市場。對于包括手機、家居電子產(chǎn)品在內(nèi)的消費電子行業(yè),實現(xiàn)智能的前提要解決功耗、安全隱私等問題。據(jù)市場調(diào)研表明,搭載ASIC芯片的智能家電、智能手機、AR/VR設(shè)備等智能消費電子已經(jīng)處在爆發(fā)的前夜。
其他
隨著AI應(yīng)用的推廣,越來越多的公司加入AI-EI芯片行業(yè),其中,既包括Bitmain這樣的比特幣芯片廠商,也包括從GoogleTPU團隊出來的創(chuàng)業(yè)公司Groq,還有技術(shù)路線極具前瞻性的Vathys。由于這些Startups都還處于非常早期階段,具體應(yīng)用方向還未公布,因而放在“其他”中。另外,我們判斷終端AI芯片的參與者還會增加,整個終端智能硬件行業(yè)還處在快速上升期。
上文介紹的AI-EI芯片是在優(yōu)化硬件架構(gòu)基礎(chǔ)上,實現(xiàn)低功耗、高吞吐量。現(xiàn)有研究中有采用Processing in Memory(PIM)的方式,把處理直接放在存儲單元的位置,降低整個系統(tǒng)的復(fù)雜度,減少不必要的數(shù)據(jù)搬移,從而優(yōu)化功耗和硬件成本。同時,這也需要在電路(模擬信號)的層面重新設(shè)計存儲器。初創(chuàng)公司Mythic即采用PIM技術(shù)來設(shè)計AI芯片。另外,通過研究具備高帶寬和低功耗特性的存儲器來解決I/O與運算不平衡的問題也是當(dāng)前的研究熱點。
類腦芯片是處理Spiking neural network (SNN)而設(shè)計的一種AI芯片。IBM的TrueNorth、高通的Zeroth及國內(nèi)的Westwell是類腦芯片的代表公司。類腦芯片能夠?qū)崿F(xiàn)極低的功耗。但是在圖像處理方面,SNN并沒有表現(xiàn)的比CNN好,且類腦芯片現(xiàn)在處在研究階段,離商業(yè)應(yīng)用還有較遠的距離。
2017年芯片行業(yè)的融資額是2015年的3倍。巨頭公司與資本都在積極布局AI芯片,特別是在智能邊緣計算有技術(shù)積累的公司。我們無法預(yù)測未來哪家公司能夠最終勝出。
但是,一家AI芯片公司要想持續(xù)發(fā)展并壯大,需要具備包括硬件及軟件生態(tài)的全AI服務(wù)流程能力。從現(xiàn)階段的投資動向可以看出,創(chuàng)業(yè)公司要想獲取資本青睞,需要在硬件設(shè)計架構(gòu)上有足夠吸引人的變動。另外,性能指標(biāo)與技術(shù)路線可以靠講,只要合理既有可能,但是在未來1到2年的時間內(nèi)再拿不出產(chǎn)品是很難繼續(xù)講下去的。
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。