丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
芯片 正文
發(fā)私信給吳京鴻
發(fā)送

0

Live回顧:值得你去了解的“存算一體AI芯片技術(shù)”

本文作者: 吳京鴻 2019-06-14 20:11
導(dǎo)語(yǔ):存算一體技術(shù)確實(shí)是非常復(fù)雜的,目前業(yè)內(nèi)包括大部分的半導(dǎo)體公司以及AI公司都已認(rèn)可這種技術(shù)方向。

Live回顧:值得你去了解的“存算一體AI芯片技術(shù)”

【大咖Live】 人工智能與芯片專場(chǎng)第一期,我們邀請(qǐng)了知存科技CEO王紹迪,帶來(lái)了關(guān)于“存算一體AI芯片的架構(gòu)創(chuàng)新”的主題分享。目前,本期分享音頻及全文實(shí)錄已上線,「AI投研邦」會(huì)員可進(jìn)「AI投研邦」頁(yè)面免費(fèi)查看。


本文對(duì)本次分享進(jìn)行部分要點(diǎn)總結(jié)及PPT整理,以幫助大家提前清晰地了解本場(chǎng)分享重點(diǎn)。


分享提綱:

  1. AI運(yùn)算和其瓶頸;

  2. AI存算一體化;

  3. 存算一體化的芯片架構(gòu)介紹;

  4. 存算一體化芯片的發(fā)展和挑戰(zhàn);

  5. 知存科技簡(jiǎn)介。


以下為知存科技CEO王紹迪的部分直播分享實(shí)錄,【AI投研邦】在不改變?cè)獾幕A(chǔ)上做了整理和精編。完整分享內(nèi)容請(qǐng)關(guān)注【AI投研邦】會(huì)員內(nèi)容


大家晚上好,我是知存科技CEO王紹迪,今天我來(lái)講一下《存算一體AI芯片的架構(gòu)創(chuàng)新》。非常感謝大家能夠來(lái)雷鋒網(wǎng)來(lái)參加我的直播課程活動(dòng),謝謝大家! 

Live回顧:值得你去了解的“存算一體AI芯片技術(shù)”


人工智能芯片是分兩個(gè)市場(chǎng),一個(gè)是邊緣市場(chǎng),一個(gè)是云端市場(chǎng),云端芯片主要針對(duì)是服務(wù)器類的人工智能芯片,一般來(lái)說它的要求是算力大,然后對(duì)成本和功耗是不太在乎的。另外一部分市場(chǎng)就是邊緣市場(chǎng)。比如說像我們手機(jī)、可穿戴智能家居,這些市場(chǎng)中用的芯片都是邊緣人工智能計(jì)算的芯片,這類的邊緣芯片它們有多種要求,一個(gè)是首先要求芯片的成本必須要足夠低,在邊緣這個(gè)場(chǎng)景下,要求功耗要低,另外還是要滿足人工智能運(yùn)算所需求的算例。


訓(xùn)練芯片一般都是在云端芯片,如果我們看2017年訓(xùn)練芯片的市場(chǎng)幾乎都是在云端,而在2023年預(yù)計(jì)有一部分的端側(cè)會(huì)有一些訓(xùn)練的芯片的市場(chǎng),我認(rèn)為在端測(cè)或者邊緣側(cè),它并不是真正意義訓(xùn)練,應(yīng)該只是做一些增強(qiáng)性的訓(xùn)練應(yīng)用,而我們看邊緣芯片在2017年也是幾乎大部分都是云端市場(chǎng),但是到了2023年在邊緣側(cè)芯片的推理側(cè)增加的市場(chǎng)是非常大,接近一半了,而且預(yù)計(jì)在2025年邊緣側(cè)的芯片會(huì)超過云端的芯片。在推理市場(chǎng)中,預(yù)計(jì)在2025年邊緣側(cè)的人工智能芯片的份額將達(dá)到200億到300億美元,這是一個(gè)非常大的市場(chǎng)。其實(shí)在半導(dǎo)體集成電路市場(chǎng)中,這也是一個(gè)非常大的一個(gè)市場(chǎng)。

        Live回顧:值得你去了解的“存算一體AI芯片技術(shù)”       

       Live回顧:值得你去了解的“存算一體AI芯片技術(shù)”      

接下來(lái)講一下人工智能運(yùn)算分類,一個(gè)是訓(xùn)練的運(yùn)算,一個(gè)是推理的運(yùn)算,從功能上來(lái)看,訓(xùn)練的運(yùn)算就是我們給大量的數(shù)據(jù),這個(gè)數(shù)據(jù)都已經(jīng)標(biāo)記好了,比如說我標(biāo)記這張圖他就是一個(gè)狗,然后我們經(jīng)過我們讓我們神經(jīng)網(wǎng)絡(luò)進(jìn)行正向的一個(gè)推理運(yùn)算,然后看神經(jīng)網(wǎng)絡(luò)的輸出結(jié)果跟我們標(biāo)記的數(shù)據(jù)是不是一致,如果不一致,它還會(huì)將進(jìn)行神經(jīng)網(wǎng)絡(luò)的反向運(yùn)算來(lái)去修復(fù)神經(jīng)網(wǎng)絡(luò)中的權(quán)重,使得推理運(yùn)算的結(jié)果跟我們標(biāo)記的一致。比如說訓(xùn)練的運(yùn)算,它其實(shí)包含兩部分,一部分是正向運(yùn)算,一步是反向運(yùn)算,它所包含的計(jì)算量是非常大的。


而這種非常大計(jì)算量的訓(xùn)練運(yùn)算,它就需要芯片首先有很大的算利,它的功耗包括它的體積都很難被控制得住,因此大部分的訓(xùn)練的芯片都是應(yīng)用在云端市場(chǎng)。而推理運(yùn)算就是完成訓(xùn)練工作之后,我們已經(jīng)有一個(gè)訓(xùn)練好的一個(gè)神經(jīng)網(wǎng)絡(luò)之后,我們就可以用神經(jīng)網(wǎng)絡(luò)去進(jìn)行推理運(yùn)算,我們可以用它去判斷我們輸入的一張圖片是不是我們是到底是什么東西,比如說我們給一個(gè)狗的圖片,我們經(jīng)過訓(xùn)練的過的神經(jīng)網(wǎng)絡(luò)推理運(yùn)算神經(jīng)網(wǎng)絡(luò)就可以去判斷這個(gè)到底是不是一條狗。

 

推理運(yùn)算相比于訓(xùn)練運(yùn)算,它所做的計(jì)算量是相對(duì)少很多的,因?yàn)樗蛔稣虻倪\(yùn)算,也不需要去反向修復(fù)神經(jīng)網(wǎng)絡(luò)的權(quán)重,因此推理運(yùn)算有很多的可以放在邊緣側(cè),用一些小型的低成本的低功耗的芯片去完成。這樣的話針對(duì)整個(gè)云端一體的這樣的一個(gè)市場(chǎng)中,這種邊緣推理的這種一個(gè)做法會(huì)降低整體成本,同時(shí)提升效率。我們就以安防的應(yīng)用來(lái)看邊緣計(jì)算和云端計(jì)算在不同場(chǎng)景下對(duì)功耗和算力的需求。安防場(chǎng)景下首先最最前邊最右邊就是一個(gè)攝像頭,里邊一般會(huì)有一個(gè)邊緣的人工智能推理芯片,功耗一般會(huì)要求是在五瓦以下,算力是在1到20Tops之內(nèi)。


邊緣側(cè)的芯片,它需要做的一些事情就是去提取一些他感興趣的行為,做一些簡(jiǎn)單的人臉檢測(cè),然后或包括做一些行為識(shí)別、車輛檢測(cè),這些運(yùn)算一般不會(huì)太復(fù)雜,所以它的算力一般也控制在一個(gè)15Tops和20Tops以內(nèi)。而且在攝像頭里這種邊緣側(cè)的人工智能芯片,他所接受的信息,就只有大陸的。這一個(gè)攝像頭它輸入過來(lái)的一路信息,對(duì)它的要求就是首先功耗低,攝像頭里不能放很大的功耗,同時(shí)它算力要滿足運(yùn)算的需求,以及滿足實(shí)時(shí)性,我要他要做到實(shí)時(shí)的檢測(cè),去抓拍一些他感興趣的信息。


而從攝像頭提出來(lái)有效信息或者感興趣信息之后,他會(huì)送到更高一級(jí)有更大算力的這樣的一個(gè)機(jī)器上。一般像現(xiàn)在的情況下,有時(shí)候會(huì)加一個(gè)叫邊緣服務(wù)器,它會(huì)收集攝像頭過來(lái)的一些信息,邊緣服務(wù)器中會(huì)有人工智能的加速卡,一般它的功耗要小于200瓦,然后他做也是做人工智能的一些檢測(cè)運(yùn)算,它的算力一般最大有可能會(huì)達(dá)到200Tops,常見的是100tops以內(nèi),這樣的邊緣服務(wù)器的一個(gè)應(yīng)用。


從邊緣服務(wù)器采集到的敏感信息,有的時(shí)候會(huì)送到云端上去做,云端上一般會(huì)做一些很復(fù)雜的一個(gè)運(yùn)算的,包括對(duì)一些非常敏感的信息做一些檢測(cè)比對(duì),然后在云端上面對(duì)芯片的要求他算力要大,然后它相當(dāng)于另外這個(gè)單位算力的成本要低,它的功耗要低,因?yàn)槲覀冎涝谠贫诉@個(gè)數(shù)據(jù)中心中,一半的錢其實(shí)是花在降溫上面,實(shí)際上如果芯片的功耗非常大的話,其實(shí)需要給它降溫冷卻的成本是非常高的。

       Live回顧:值得你去了解的“存算一體AI芯片技術(shù)”接下來(lái)講講人工智能的運(yùn)算和它的一個(gè)瓶頸。我們看深度學(xué)習(xí)是現(xiàn)在人工智能中最流行的一種算法,也是目前商業(yè)化落地非常多的一種算法,就是深度學(xué)習(xí)。深度學(xué)習(xí)中其中的一種網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò)就叫全連接的神經(jīng)網(wǎng)絡(luò),或者是有一些神經(jīng)網(wǎng)絡(luò)中它有一些全連接層,它實(shí)際上這種結(jié)構(gòu)是比較簡(jiǎn)單,比如說我紅框畫出這個(gè)范圍內(nèi),全連接層比如說我左邊這邊有M個(gè)節(jié)點(diǎn)右面N個(gè)節(jié)點(diǎn),我左邊這一列的節(jié)點(diǎn)和右邊這一列節(jié)點(diǎn),任意兩個(gè)節(jié)點(diǎn)之間都有這個(gè)連線,所以總共有M乘N的連線。


然后他做的運(yùn)算實(shí)際上也是相當(dāng)于做M乘N的這樣一個(gè)矩陣,M乘1這樣一個(gè)向量的矩陣乘法運(yùn)算。M乘N的矩陣?yán)锩嬗蠱乘N的權(quán)重,比如說M是1000,N是1000的話,這里邊就有100萬(wàn)個(gè)這樣的權(quán)重,這100萬(wàn)個(gè)權(quán)重就是神經(jīng)網(wǎng)絡(luò),我們訓(xùn)練得到的結(jié)果它是一個(gè)固定的值,就在我們完成訓(xùn)練之后,這個(gè)權(quán)重都是已知的。然后輸入,X就是M乘一的這樣一個(gè)向量,它里邊這個(gè)值是一些待處理數(shù)據(jù),一般是比如說我們輸入的一些語(yǔ)音圖像信息,或者經(jīng)過神經(jīng)網(wǎng)絡(luò)一層輸出之后的這樣的一些臨時(shí)數(shù)據(jù),這個(gè)是一個(gè)變量。比如說是經(jīng)過神經(jīng)網(wǎng)絡(luò)訓(xùn)練之后,我們?cè)谧鐾评磉\(yùn)算的時(shí)候,M乘N矩陣?yán)锏臋?quán)重都是已知的,然后我們后邊這個(gè)向量X個(gè)向量是一個(gè)變量,就是相當(dāng)于用一個(gè)已知的數(shù)去乘一個(gè)變量的數(shù)。


在之后我們用一個(gè)M乘N的矩陣乘一個(gè)M乘1的向量,得到的就是一個(gè)N乘1的這樣的一個(gè)向量,就是這一層神經(jīng)網(wǎng)絡(luò)的輸出結(jié)果,這層神經(jīng)網(wǎng)絡(luò)輸出結(jié)果他會(huì)繼續(xù)放到下一層,繼續(xù)做下一層的一個(gè)神經(jīng)網(wǎng)絡(luò)的一個(gè)運(yùn)算。所以簡(jiǎn)單來(lái)看神經(jīng)網(wǎng)絡(luò)對(duì)于全連接層的運(yùn)算就是一個(gè)矩陣乘法運(yùn)算,矩陣就是有非常多神經(jīng)網(wǎng)絡(luò)權(quán)重,需要存儲(chǔ)器去存儲(chǔ)下來(lái),同時(shí)它輸出運(yùn)算的結(jié)果一般不大,這是一個(gè)向量,比如說我們每層一千個(gè)節(jié)點(diǎn),它就是1000×1這樣一個(gè)數(shù),它權(quán)重的需要的數(shù)量是非常大的,或者運(yùn)算量也很大,比如說我M和N都是一千的話,我們矩陣有100萬(wàn)個(gè)權(quán)重,它需要完成100萬(wàn)個(gè)乘法和100萬(wàn)個(gè)加法才能去把一層的運(yùn)算完成。

     Live回顧:值得你去了解的“存算一體AI芯片技術(shù)”除去全連接神經(jīng)網(wǎng)絡(luò),神經(jīng)深度學(xué)習(xí)中最流行的還有卷積神經(jīng)網(wǎng)絡(luò),這一頁(yè)的PPT實(shí)際上它本是一個(gè)動(dòng)畫效果,畫了一個(gè)如何進(jìn)行三維卷積的這樣的一個(gè)運(yùn)算。我們這里一個(gè)比較簡(jiǎn)單的一個(gè)輸入數(shù)據(jù),比如說我們正常輸入一個(gè)圖像數(shù)據(jù),紅黃藍(lán)三原色就是RGB值。然后卷積我們這里假如有一個(gè)4×3×3這樣的一個(gè)卷積和,這就是一個(gè)三維的一個(gè)卷積和里邊總共有4×3×36個(gè)這樣的一個(gè)權(quán)重值,他就會(huì)在我們紅黃藍(lán)的三成中,在平面上去做平移,然后每當(dāng)它移動(dòng)到一個(gè)位置,它跟4×3×3卷積和所重合的這些點(diǎn)就是做乘加法運(yùn)算,它會(huì)輸出一個(gè)值,然后卷積和就是會(huì)在整個(gè)的這樣一個(gè)區(qū)域進(jìn)行掃描,然后他們每掃描一個(gè)點(diǎn),他做乘加法運(yùn)算之后就會(huì)輸出一個(gè)值,掃描完之后就會(huì)輸出一層的一個(gè)圖像。然后一般不會(huì)只有一個(gè)卷積和,一般的話我們會(huì)有32個(gè)64個(gè),然后128、256,甚至有時(shí)候達(dá)到1024個(gè),就是每個(gè)卷積和它會(huì)輸出一層的一個(gè)圖像,假如我們這個(gè)圖像的像素是360×200,它輸出的就是一個(gè)300×200這樣一層數(shù)據(jù)針對(duì)每一個(gè)卷結(jié)合,如果我們有1024個(gè)卷積格,就要輸出1024個(gè)這么多的一個(gè)數(shù)據(jù)。因此這個(gè)數(shù)據(jù)量其實(shí)是一個(gè)非常龐大的一個(gè)數(shù)。


同時(shí)我們比如說1024個(gè)卷積和,里邊所包含的和里邊這個(gè)值,其實(shí)他也是神經(jīng)網(wǎng)絡(luò)權(quán)重,這個(gè)值也是一個(gè)不小的值,這些都會(huì)占用非常多的一個(gè)存儲(chǔ)空間。這一頁(yè)就畫了這個(gè)當(dāng)前的一些主流的神經(jīng)網(wǎng)絡(luò)中它的所需要的一個(gè)存儲(chǔ)權(quán)重的一個(gè)數(shù)量,一般權(quán)重的數(shù)量會(huì)從1兆到200兆占用這么大的一個(gè)空間,這是針對(duì)一個(gè)計(jì)算,尤其是段元電測(cè)計(jì)算,這是一個(gè)非常大的一個(gè)數(shù)了。同時(shí)除了權(quán)重的存儲(chǔ)需要很大的空間,我們?cè)谧鼍矸e運(yùn)算的時(shí)候,每層的一個(gè)輸出它是一個(gè)臨時(shí)數(shù)據(jù),這個(gè)臨時(shí)數(shù)據(jù)所需要占用的空間更大,有的時(shí)候會(huì)需會(huì)達(dá)到甚至上G這么多的一個(gè)臨時(shí)數(shù)據(jù),也都需要存儲(chǔ)器去把它存儲(chǔ)下來(lái),很多時(shí)候芯片片上是很難把這些數(shù)據(jù)存儲(chǔ)起來(lái),就需要芯片片外去放內(nèi)存dram去把這些臨時(shí)數(shù)據(jù)給緩存下來(lái)。


而從剛才我們卷積運(yùn)算和全聯(lián)接運(yùn)算,其實(shí)可以看到這兩種運(yùn)算都涉及到非常大的一個(gè)存儲(chǔ)空間的使用,像全聯(lián)接的運(yùn)算中神經(jīng)網(wǎng)絡(luò)權(quán)重值非常多,我們每讀一個(gè)權(quán)重值過來(lái)就只做了一次乘加法運(yùn)算,但是讀一個(gè)權(quán)重值所消耗的資源是非常多的,像卷積神經(jīng)網(wǎng)絡(luò),他每完成一層運(yùn)算,它所需要緩存的臨時(shí)數(shù)據(jù)是非常大的,同時(shí)大家做下調(diào)預(yù)算,還需要把這些緩存的數(shù)據(jù)在一個(gè)個(gè)讀出來(lái),再去做下一層的運(yùn)算,這個(gè)也需要做非常多的存儲(chǔ)調(diào)用。 這其實(shí)是涉及到人工智能運(yùn)算中最大的一個(gè)瓶頸,就是存儲(chǔ)和運(yùn)算之間的瓶頸。

       Live回顧:值得你去了解的“存算一體AI芯片技術(shù)”      Live回顧:值得你去了解的“存算一體AI芯片技術(shù)”Live回顧:值得你去了解的“存算一體AI芯片技術(shù)”Live回顧:值得你去了解的“存算一體AI芯片技術(shù)”      

部分雷鋒網(wǎng)「AI投研邦」會(huì)員問答:

Q: 知存科技的存算一體技術(shù)目前是否取得了業(yè)內(nèi)普遍認(rèn)可?存算一體技術(shù)非常復(fù)雜,如何保證產(chǎn)品的良率?


A: 首先知存科技得存算一體技術(shù)目前并沒有得到業(yè)內(nèi)的普遍認(rèn)可,其他所有的存算一體公司到目前沒有得到業(yè)內(nèi)的普遍認(rèn)可,因?yàn)槟壳皝?lái)看存算一體芯片還沒有進(jìn)行大規(guī)模的量產(chǎn),但是對(duì)于存算一體技術(shù)方向以及技術(shù)實(shí)施方案,目前業(yè)內(nèi)包括大部分的半導(dǎo)體公司以及AI公司都已經(jīng)認(rèn)可這種技術(shù)方向了。 


包括像美國(guó)的英特爾、arm、軟銀、微軟、亞馬遜、博世、摩托羅拉等都參與到存算一體技術(shù)方向的投資。存算一體技術(shù)確實(shí)是非常復(fù)雜的,這也是為什么大部分半導(dǎo)體公司AI公司都選擇去投資創(chuàng)業(yè)公司去完成這件事情,而不是自己從頭去開發(fā),包括我們公司在存算一體技術(shù)上的積累已經(jīng)也是超過六年才完成,流片已經(jīng)超過十次,技術(shù)本身非常復(fù)雜,目前來(lái)看良率其實(shí)并不是一個(gè)問題,因?yàn)樗旧硎且粋€(gè)成熟的工藝,在工藝方面并沒有做調(diào)整,所以良率都是可以保證的。


但在芯片不斷的流片設(shè)計(jì)當(dāng)中會(huì)發(fā)現(xiàn)很多新的問題需要去解決,包括一些新的技術(shù)優(yōu)化方式去提高運(yùn)算效率,在發(fā)現(xiàn)這些新的點(diǎn)之后,我們會(huì)去改變,優(yōu)化設(shè)計(jì),嘗試提出新的架構(gòu),然后去不斷的優(yōu)化芯片,去把芯片從工作到量產(chǎn)當(dāng)中這樣去不斷的推進(jìn)。


 Q2: 如果做dram的AI,需要對(duì)顆粒做什么改造,或是對(duì)控制器做什么改造?


A:DRAM做AI我們感覺挑戰(zhàn)難度相對(duì)來(lái)說是較大一些,DRAM有它的優(yōu)勢(shì),就是數(shù)據(jù)量存儲(chǔ)比較多,但劣勢(shì)是因?yàn)樗秒娙荽鎯?chǔ)數(shù)據(jù),而且這個(gè)電容本身特點(diǎn)一個(gè)是存儲(chǔ)的電荷逐漸的減少,它需要經(jīng)常刷新,然后另外讀出來(lái)的數(shù),需要把它區(qū)分成一和零,再放到運(yùn)算單元做相關(guān)的運(yùn)算,所以它首先很難去把存儲(chǔ)和計(jì)算結(jié)合起來(lái)。如果在控制器層角度上去做DRAM的AI運(yùn)算,大部分控制器也是在DRAM的外邊,所以數(shù)據(jù)搬運(yùn)也沒有解決,所以他提升的效率有限。


另外DRAM它如果是做在片內(nèi)加上乘加法運(yùn)算單元,再做AI的運(yùn)算中應(yīng)該也會(huì)有一些效率提升,但是它其實(shí)面臨的問題,需要一個(gè)比較好的契機(jī),因?yàn)樵谛酒珼RAM內(nèi)部去加運(yùn)算單元,首先他會(huì)把金屬層處提高,把整個(gè)的工藝改變,導(dǎo)致芯片的成本提高,另外需要去仔細(xì)評(píng)估一下這樣的運(yùn)算方式能夠提高多少倍效率,同時(shí)還要再找到一家比較好的一個(gè)DRAM廠商去合作,好的DRAM廠商在全球也是少見的。


但是DRAM如果想做比較好的存算一體,其實(shí)從單元角度上來(lái)說,它可以增大存儲(chǔ)單元,把電容增大,使里邊電量可以保持較長(zhǎng)的時(shí)間,同時(shí)可以嘗試讓電容保持不同level不同級(jí)的電壓,做到一個(gè)單元存儲(chǔ)多個(gè)電極,然后再去做一些其它類型的運(yùn)算,不過這個(gè)是非常規(guī)的一個(gè)做法需要做的一個(gè)挑戰(zhàn),也是一個(gè)比較大的挑戰(zhàn),這是我自己隨便想想的一種一個(gè)解決方法。


 完整內(nèi)容和PPT查看可進(jìn)入雷鋒網(wǎng)「AI投研邦」查看

Live回顧:值得你去了解的“存算一體AI芯片技術(shù)”

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

分享:
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說