AI加速發(fā)展和摩爾定律放緩如何影響7nm eFPGA的設(shè)計(jì)？

本文作者：包永剛

2018-11-29 17:40

導(dǎo)語(yǔ)：eFPGA這種嵌入式的FPGA技術(shù)將如何推動(dòng)AI的發(fā)展？7nm eFPGA設(shè)計(jì)又將如何被AI的發(fā)展影響？

AI正在迅速發(fā)展，對(duì)芯片算力和內(nèi)存的要求也越來(lái)越高，但摩爾定律的放緩甚至失效讓芯片靠先進(jìn)半導(dǎo)體工藝來(lái)提高芯片的性能和能效難度越來(lái)越大。此時(shí)，無(wú)論是在芯片市場(chǎng)耕耘多年的芯片霸主還是科技巨頭都紛紛研發(fā)AI芯片，新的芯片類型和技術(shù)也開始涌現(xiàn)。那么，eFPGA這種嵌入式的FPGA技術(shù)將如何推動(dòng)AI的發(fā)展？7nm eFPGA的設(shè)計(jì)又將如何被AI的發(fā)展影響？

AI加速發(fā)展與摩爾定律放緩

AI的快速發(fā)展讓智能語(yǔ)音助理幾乎成了手機(jī)的標(biāo)配，也讓智能音箱的出貨量連年上漲。于此同時(shí)，越來(lái)越多的手機(jī)正在使用AI技術(shù)優(yōu)化拍照的效果以及對(duì)相冊(cè)的照片進(jìn)行分類。不過(guò)這些只是AI技術(shù)現(xiàn)階段一些常見的應(yīng)用，AI算法的不斷演變正在讓AI與更多的行業(yè)和應(yīng)用結(jié)合，新的AI算法無(wú)論對(duì)芯片的算力還是內(nèi)存等都提出了更高的要求，所有的AI芯片公司都在追求性能更高、功耗更低、面積更小的芯片。

回看芯片性能提升的歷程，在1986年到2003年之間，芯片性能和功耗持續(xù)降低，到了2003年之后，憑借著多核的設(shè)計(jì)以及半導(dǎo)體工藝的進(jìn)步芯片的性能依舊在提升，但摩爾定律顯然已經(jīng)放緩。2015年之后，芯片的提升越來(lái)越難，關(guān)于摩爾定律失效的討論越來(lái)越多。

AI加速發(fā)展和摩爾定律放緩如何影響7nm eFPGA的設(shè)計(jì)？

摩爾定律減緩

因此，CPU、GPU、FPGA、ASIC性能的提升和功耗降低都面臨越來(lái)越大的挑戰(zhàn)，另外，從16nm到7nm節(jié)點(diǎn)，芯片制造成本也在大幅提升。對(duì)于運(yùn)算速度、數(shù)據(jù)傳輸、內(nèi)存帶寬都有較高要求的AI芯片，如何才能實(shí)現(xiàn)每瓦更高的性能以及更低的成本？

AI如何改變eFPGA的架構(gòu)設(shè)計(jì)？

對(duì)于AI芯片，越來(lái)越多的芯片設(shè)計(jì)公司正在使用多核異構(gòu)的架構(gòu)來(lái)提升芯片的效率，滿足深度學(xué)習(xí)算法的需求。除了多核異構(gòu)的架構(gòu)，具體的核的架構(gòu)也都在不斷針對(duì)AI優(yōu)化，F(xiàn)PGA也不例外。值得注意的是，成立于2004年總部位于美國(guó)的Achronix提供的是嵌入式FPGA技術(shù)。Achronix的Speedcore IP是可以集成到ASIC和SoC之中的嵌入式FPGA（eFPGA），作為可配置的協(xié)處理器和硬件加速器來(lái)支持各種各樣的任務(wù)，其比特位導(dǎo)向（bit-oriented）FPGA架構(gòu)，比字段導(dǎo)向（word-oriented）的CPU架構(gòu)更為高效，適用于SQL卸載、在線I/O處理、加密、搜索引擎算法性加速和增強(qiáng)多媒體處理等功能。

據(jù)雷鋒網(wǎng)了解，Achronix是唯一一家交付的eFPGA技術(shù)已經(jīng)嵌入到ASIC中實(shí)現(xiàn)量產(chǎn)的公司，Speedcore IP適用的工藝節(jié)點(diǎn)包括TSMC 16nm FF+和英特爾的14nm FinFET，并已宣布將于2019年上半年開始提供適用于臺(tái)積電7nm工藝的第四代Speedcore eFPGA IP。

AI加速發(fā)展和摩爾定律放緩如何影響7nm eFPGA的設(shè)計(jì)？

Achronix市場(chǎng)營(yíng)銷副總裁Steve Mensor

除了支持最先進(jìn)的制造工藝，7nm的eFPGA也進(jìn)行了架構(gòu)上的優(yōu)化，其中非常關(guān)鍵的就是將機(jī)器學(xué)習(xí)處理器（MLP）增加到Speedcore可提供的資源邏輯庫(kù)單元模塊中。Achronix市場(chǎng)營(yíng)銷副總裁Steve Mensor表示：“MLP模塊是一種高度靈活的計(jì)算引擎，它與存儲(chǔ)器緊密耦合，利用了人工智能及機(jī)器學(xué)習(xí)處理的特定屬性，將這些應(yīng)用的性能提高了300%。可以同時(shí)提高每個(gè)時(shí)鐘周期的性能和操作次數(shù)，一個(gè)MLP在1個(gè)時(shí)鐘周期可以完成1個(gè)16×16的運(yùn)算，8個(gè)8×8的運(yùn)算，12個(gè)6×6的運(yùn)算，16個(gè)4×4的運(yùn)算?！?/p>

數(shù)據(jù)類型的支持對(duì)機(jī)器學(xué)習(xí)也非常重要，據(jù)悉MLP支持各種定點(diǎn)和浮點(diǎn)格式，包括Bfloat16、16位、半精度、24位和單元塊浮點(diǎn)，也就是說(shuō)可以根據(jù)應(yīng)用選擇最佳精度來(lái)實(shí)現(xiàn)精度和性能的均衡。至于在支持的數(shù)據(jù)類型的支持上是否會(huì)有所偏重的問(wèn)題，Steve告訴雷鋒網(wǎng)他們的eFPGA支持所有的數(shù)據(jù)類型，這也是FPGA可編程行的好處。

雖然能夠支持所有的數(shù)據(jù)類型，但數(shù)據(jù)的存取耗能比計(jì)算耗能更多是所有AI芯片都不得不面對(duì)的問(wèn)題。對(duì)此，Steve表示：“每個(gè)MLP包括一個(gè)循環(huán)寄存器文件（Cyclical Register File），用來(lái)存儲(chǔ)重用的權(quán)重或數(shù)據(jù)，無(wú)需經(jīng)過(guò)LUT，提升處理性能的同時(shí)還能降低功耗。”

另外，對(duì)于對(duì)機(jī)器學(xué)習(xí)計(jì)算密度比較高的應(yīng)用，如果MLP還不能夠滿足希求，Speedcore Gen4查找表（LUT）可作為補(bǔ)充，可實(shí)現(xiàn)比獨(dú)立FPGA高兩倍的乘法器。

不僅僅是機(jī)器學(xué)習(xí)性能，Steve還表示：“我們的7nm eFPGA的邏輯單元、走線、路由架構(gòu)、內(nèi)存都進(jìn)行了改進(jìn)?！本唧w來(lái)說(shuō)，查找表進(jìn)行了全面的增強(qiáng)，更改包括將ALU的大小加倍、將每個(gè)LUT的寄存器數(shù)量加倍、支持7位函數(shù)和一些8位函數(shù)、以及為移位寄存器提供的專用高速連接，縮減面積和功耗并提高性能。另外，路由架構(gòu)借由一種獨(dú)立的專用總線路由結(jié)構(gòu)得到了增強(qiáng)，該路由結(jié)構(gòu)中有專用的總線多路復(fù)用器，可有效地創(chuàng)建分布式的、運(yùn)行時(shí)可配置的交換網(wǎng)絡(luò)，并且在業(yè)界首次實(shí)現(xiàn)了將網(wǎng)絡(luò)優(yōu)化應(yīng)用于FPGA互連。

經(jīng)過(guò)芯片架構(gòu)的優(yōu)化設(shè)計(jì)以及在7nm工藝的加持下，Speedcore Gen4性能提高了60％、機(jī)器學(xué)習(xí)性能提升300%、功耗降低50％、芯片面積減少65％。

AI加速發(fā)展和摩爾定律放緩如何影響7nm eFPGA的設(shè)計(jì)？

Speedcore Gen4 FPGA提升

同時(shí)推7nm eFPGA IP和獨(dú)立FPGA只為AI應(yīng)用

AI對(duì)eFPGA不止于架構(gòu)方面的改變，Steve表示采用臺(tái)積電7nm工藝節(jié)點(diǎn)的Speedcore Gen4將于2019年上半年投入量產(chǎn)，并將在2019年下半年提供用于臺(tái)積電16nm和12nm工藝節(jié)點(diǎn)的Speedcore Gen4 eFPGA IP。

雷鋒網(wǎng)注意到，在7nm節(jié)點(diǎn)Achronix不僅提供eFPGA IP，還提供FPGA裸片可與SoC進(jìn)行封裝，并且還會(huì)推出獨(dú)立的FPGA器件。至于提供IP為主的Achronix為什么要在7nm節(jié)點(diǎn)推出獨(dú)立FPGA，Steve表示：“這更多的是基于用戶需求的考慮。在AI的應(yīng)用中，數(shù)據(jù)中心的加速、5G、自動(dòng)駕駛都有不同的需求。獨(dú)立的FPGA更夠讓他們能夠更快的應(yīng)用在數(shù)據(jù)中心，實(shí)現(xiàn)加速，也能更好地滿足對(duì)7nm FPGA芯片用量更小的公司的需求。那些對(duì)芯片成本和面積更加敏感，或者想設(shè)計(jì)出性能更高的AI芯片的公司，則可以選擇IP。當(dāng)然SoC公司也可以選擇合適的封裝技術(shù)將我們的裸片與他們的SoC進(jìn)行封裝，實(shí)現(xiàn)更高的性能。”

AI加速發(fā)展和摩爾定律放緩如何影響7nm eFPGA的設(shè)計(jì)？

Achronix 亞太區(qū)總經(jīng)理羅煒亮

當(dāng)然，硬件是根本，軟件也將在AI中發(fā)揮著越來(lái)越重要的作用，許多芯片設(shè)計(jì)公司在AI時(shí)代也開始更多地與軟件公司進(jìn)行合作，但在發(fā)布會(huì)上除了Achronix的ACE設(shè)計(jì)工具，并沒(méi)有其他針對(duì)AI的軟件。Steve對(duì)此表示：“我們作為一家正在快速發(fā)展但規(guī)模還不夠大的公司，目前我們主要是在硬件層面提供穩(wěn)定且性價(jià)比高的不同的芯片，我們最高會(huì)做到Libiary層，軟件方面則更多地與合作伙伴協(xié)作。”

AI加速發(fā)展和摩爾定律放緩如何影響7nm eFPGA的設(shè)計(jì)？

高成本下誰(shuí)需要7nm eFPGA？

至此，我們已經(jīng)了解到，無(wú)論從架構(gòu)設(shè)計(jì)還是需求角度，eFPGA都進(jìn)行了優(yōu)化，但還有一個(gè)非常關(guān)鍵的問(wèn)題就是16nm到7nm制程帶來(lái)的性能、功耗的提升在成本面前似乎吸引力不足。雖然Steve表示芯片設(shè)計(jì)公司購(gòu)買7nm eFPGA IP的價(jià)格與16nm eFPGA IP的價(jià)格相比沒(méi)有上漲，但是制造成本的陡增還是會(huì)讓許多芯片設(shè)計(jì)公司望而卻步。

Steve表示，7nm eFPGA主要的市場(chǎng)包括對(duì)計(jì)算性能和價(jià)格有要求的數(shù)據(jù)中心加速、對(duì)低功耗計(jì)算有要求的邊緣計(jì)算、有低功耗和低成本要求的存儲(chǔ)器、低功耗高性能并且需要有可編程性的5G基礎(chǔ)設(shè)施、網(wǎng)絡(luò)加速/智能網(wǎng)卡、自動(dòng)駕駛。

AI加速發(fā)展和摩爾定律放緩如何影響7nm eFPGA的設(shè)計(jì)？

7nm eFPGA市場(chǎng)

不過(guò)，其中一些應(yīng)用是潛在市場(chǎng)，另外一些則是驅(qū)動(dòng)Achronix推出7nm eFPGA的關(guān)鍵。Steve指出：“目前我們公司營(yíng)收最重要的兩個(gè)應(yīng)用是5G基礎(chǔ)設(shè)施和智能卡（SmartIC），5G對(duì)芯片有高性能和低功耗的要求，因此很多以前用FPGA的公司現(xiàn)在轉(zhuǎn)到了ASIC，但還需要一些靈活性以應(yīng)對(duì)協(xié)議的改變。智能卡則是在數(shù)據(jù)傳輸前就進(jìn)行一些數(shù)據(jù)的處理，我們知道數(shù)據(jù)量以及數(shù)據(jù)的復(fù)雜程度都在增加，因此這兩個(gè)場(chǎng)景對(duì)7nm eFGPA都有很大的需求。數(shù)據(jù)中心以及自動(dòng)駕駛、存儲(chǔ)都需求明確，至于邊緣計(jì)算最合適的場(chǎng)景則需要看市場(chǎng)的發(fā)展。”

還值得一提的是，為了能夠加速數(shù)據(jù)中心和汽車等應(yīng)用中機(jī)器學(xué)習(xí)工作負(fù)載，Achronix將其eFPGA與Micron的GDDR6存儲(chǔ)器相結(jié)合，第四代eFPGA中有8個(gè)增強(qiáng)的GDDR6存儲(chǔ)器接口，通過(guò)這種聯(lián)合解決方案，可以應(yīng)對(duì)深度神經(jīng)網(wǎng)絡(luò)中包括存儲(chǔ)大數(shù)據(jù)集、重權(quán)重參數(shù)和存儲(chǔ)器激活；底層硬件需要在處理器和存儲(chǔ)器之間存儲(chǔ)、處理和快速移動(dòng)數(shù)據(jù)等挑戰(zhàn)。

雷鋒網(wǎng)小結(jié)

AI算法還在不斷的迭代和發(fā)展，因此通用性更強(qiáng)的CPU、GPU雖然能夠完成相應(yīng)的算法，但是效率越來(lái)越低，成本也越來(lái)越高，這推動(dòng)了芯片架構(gòu)的革新。我們看到越來(lái)越多的AI芯片采用多核異構(gòu)，通過(guò)不同的核心組合提升性能和效率，更好地滿足AI的需求。

從Achronix eFPGA的改進(jìn)中我們也看到了其在邏輯單元、走線、路由架構(gòu)方面都進(jìn)行了改進(jìn)，并且增加了MLP，為減少數(shù)據(jù)搬運(yùn)的耗能，還搭載了片上存儲(chǔ)，同時(shí)為了解決深度學(xué)習(xí)的固有問(wèn)題，率先在FPGA中支持GDDR6。

AI應(yīng)用與AI芯片就是在這樣的相互影響下推動(dòng)AI向前發(fā)展。

收購(gòu) Altera 近三年，Intel 終于把 FPGA 賣給了數(shù)據(jù)中心 OEM 廠商

Intel推出基于Movidius和Arria FPGA的視覺(jué)加速產(chǎn)品，簡(jiǎn)化邊緣計(jì)算設(shè)備

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

0人收藏

相關(guān)文章

包永剛

編輯

發(fā)私信

當(dāng)月熱門文章

AI加速發(fā)展和摩爾定律放緩如何影響7nm eFPGA的設(shè)計(jì)？

AI加速發(fā)展和摩爾定律放緩如何影響7nm eFPGA的設(shè)計(jì)？