清華高濱：基于憶阻器的存算一體單芯片算力可能高達(dá)1POPs | CCF-GAIR 2020

本文作者：包永剛

2020-08-12 14:27

專(zhuān)題：CCF-GAIR 2020 全球人工智能與機(jī)器人峰會(huì)

導(dǎo)語(yǔ)：憶阻器存算一體芯片用130nm的工藝制造出計(jì)算精度與28nm樹(shù)莓派CPU相當(dāng)?shù)臏?zhǔn)確度，速度快20倍，能效也比GPU高3個(gè)數(shù)量級(jí)。

雷鋒網(wǎng)按：2020年8月7日-8月9日，2020第五屆全球人工智能與機(jī)器人峰會(huì)（CCF-GAIR 2020）于深圳正式召開(kāi)。峰會(huì)由中國(guó)計(jì)算機(jī)學(xué)會(huì)（CCF）主辦，香港中文大學(xué)（深圳）、雷鋒網(wǎng)聯(lián)合承辦，鵬城實(shí)驗(yàn)室、深圳市人工智能與機(jī)器人研究院協(xié)辦，得到了深圳市政府的大力指導(dǎo)，旨在打造國(guó)內(nèi)人工智能領(lǐng)域極具實(shí)力的跨界交流合作平臺(tái)，是國(guó)內(nèi)人工智能和機(jī)器人領(lǐng)域規(guī)模最大、規(guī)格最高、跨界最廣的學(xué)術(shù)、工業(yè)和投資領(lǐng)域盛會(huì)。

CCF-GAIR 2020的AI芯片專(zhuān)場(chǎng)，來(lái)自學(xué)術(shù)界、產(chǎn)業(yè)界和投資界的6位大咖從AI芯片技術(shù)前沿、AI芯片的應(yīng)用及落地、RISC-V芯片推動(dòng)AI發(fā)展、新基建帶來(lái)的投資機(jī)遇共同探討新基建帶來(lái)的機(jī)遇。

清華大學(xué)副教授高濱從AI芯片技術(shù)前沿的角度，帶來(lái)了《基于憶阻器的存算一體芯片技術(shù)》的主題分享。

清華高濱：基于憶阻器的存算一體單芯片算力可能高達(dá)1POPs | CCF-GAIR 2020 清華大學(xué)副教授高濱

高教授首先帶我們回顧了現(xiàn)代計(jì)算的演變，從圖靈機(jī)到現(xiàn)代計(jì)算系統(tǒng)中的三大基石：晶體管、布爾邏輯計(jì)算、馮諾依曼架構(gòu)。高教授表示：“近幾年AI對(duì)算力的需求是爆炸式的增長(zhǎng)。芯片算力的提升與需求增長(zhǎng)之間有一個(gè)很尖銳的矛盾?！?/p>

這個(gè)尖銳的矛盾主要有兩個(gè)原因：摩爾定律放緩以及馮諾依曼架構(gòu)帶來(lái)的存算分離局限。這讓芯片面臨著算力和能效兩大挑戰(zhàn)。

要解決矛盾和挑戰(zhàn)，需要三大基石都革新的存算一體計(jì)算機(jī)。高濱表示：“器件層面，憶阻器可以把馮諾伊曼架構(gòu)里的處理、內(nèi)存、外存都融合在一起，構(gòu)建存算一體陣列，這也是存算一體最基本的要素。計(jì)算的范式層面，存算一體也從布爾邏輯計(jì)算變成了基于物理定律的模擬計(jì)算，架構(gòu)變成存算一體架構(gòu)?！?/p>

但新的計(jì)算系統(tǒng)因?yàn)閼涀杵鞯姆€(wěn)定性、計(jì)算誤差累積等問(wèn)題，2018年以前完整的存算一體芯片和系統(tǒng)并沒(méi)有突破。直到高濱所在的清華大學(xué)錢(qián)鶴、吳華強(qiáng)團(tuán)隊(duì)通過(guò)憶阻器件、電路、架構(gòu)、算法等層面的創(chuàng)新，設(shè)計(jì)出全球首款全系集成的憶阻器存算一體芯片，用130nm的工藝制造出計(jì)算精度與28nm樹(shù)莓派CPU相當(dāng)?shù)臏?zhǔn)確度，速度快20倍，能效也比GPU高3個(gè)數(shù)量級(jí)。

展望未來(lái)，高濱教授希望通存算一體技術(shù)，可以使計(jì)算的能效有百倍到千倍的提升，使單芯片的算力達(dá)到500TOPs甚至1POPs。

高濱的團(tuán)隊(duì)實(shí)現(xiàn)了哪些突破？他們的目標(biāo)能否實(shí)現(xiàn)？高濱教授的演講中有更多信息。

以下是高濱教授在 CCF-GAIR 2020上的演講內(nèi)容，雷鋒網(wǎng)對(duì)其進(jìn)行了不改變?cè)獾木庉嬚恚?/strong>

現(xiàn)代計(jì)算系統(tǒng)的演變

現(xiàn)在的計(jì)算系統(tǒng)多種多樣，小到手機(jī)、平板電腦，大到服務(wù)器、超級(jí)計(jì)算機(jī)。這些設(shè)備有一個(gè)共同點(diǎn)——本質(zhì)上都是圖靈機(jī)。

圖靈機(jī)是在1936年由圖靈提出，主要目的是解決機(jī)器的可計(jì)算性。他提到了圖靈機(jī)的幾個(gè)關(guān)鍵要素，包括一條無(wú)限長(zhǎng)的紙帶、一個(gè)讀寫(xiě)頭、一套控制規(guī)則，還有一個(gè)狀態(tài)寄存器。有了這些東西，就可以實(shí)現(xiàn)通用的計(jì)算機(jī)。它相當(dāng)于計(jì)算系統(tǒng)架構(gòu)的雛形。

從現(xiàn)在的觀點(diǎn)看，這些要素對(duì)應(yīng)了現(xiàn)在計(jì)算設(shè)備里面的CPU、存儲(chǔ)器、I/O等各個(gè)模塊，所以圖靈機(jī)有非常重大的理論意義。

在這個(gè)基礎(chǔ)上，現(xiàn)在的計(jì)算設(shè)備形成了一套體系，我們稱(chēng)它為經(jīng)典計(jì)算機(jī)，因?yàn)楝F(xiàn)在的計(jì)算系統(tǒng)基本都是這樣的框架。這也與后面要介紹的新型計(jì)算機(jī)有對(duì)應(yīng)。

傳統(tǒng)的計(jì)算機(jī)有三大基石，這三大基石也是構(gòu)成現(xiàn)代計(jì)算機(jī)最基本的要素。第一個(gè)基石是晶體管，它是構(gòu)成芯片的最基本的半導(dǎo)體器件。第二個(gè)基石是布爾邏輯計(jì)算，它給出了一套計(jì)算規(guī)定。第三個(gè)基石是馮諾依曼架構(gòu)，在上面形成了處理器芯片、存儲(chǔ)芯片，構(gòu)成了計(jì)算機(jī)的硬件系統(tǒng)。當(dāng)然它本質(zhì)上都是圖靈計(jì)算機(jī)。硬件之上，經(jīng)典計(jì)算機(jī)還有軟件，包括匯編語(yǔ)言、編譯器、編程語(yǔ)言，以及與用戶(hù)直接交互的應(yīng)用軟件。

接下來(lái)了解下三大基石的演變過(guò)程。說(shuō)到布爾邏輯運(yùn)算，就不得不提到世界第一臺(tái)計(jì)算機(jī)阿塔納索夫-貝瑞計(jì)算機(jī)ABC。ABC基于真空管制造，用于美國(guó)的大學(xué)的教學(xué)。ABC重要的意義在于首次引入數(shù)字計(jì)算二進(jìn)制的思想，通過(guò)二進(jìn)制電子開(kāi)關(guān)做加法和減法的運(yùn)算。現(xiàn)在看來(lái)這個(gè)算力非?？蓱z，每秒只能做大概30次加減法，但其實(shí)已經(jīng)比人要快很多。

幾年以后，二戰(zhàn)爆發(fā)，美國(guó)發(fā)現(xiàn)如果讓人計(jì)算彈道，雇用200多名受過(guò)專(zhuān)業(yè)訓(xùn)練的計(jì)算員至少2個(gè)月才能完成一張射表。因此，美國(guó)組織了很多科學(xué)家在1946年建造了非常著名的第一臺(tái)通用電子計(jì)算機(jī)——ENICA。這臺(tái)計(jì)算機(jī)的算力是每秒5000次加法或400次乘法。

ENICA建造完成以后，團(tuán)隊(duì)里一個(gè)很重要的工程師馮諾依曼開(kāi)始反思，之后寫(xiě)了一個(gè)報(bào)告，報(bào)告里明確提到，未來(lái)的計(jì)算機(jī)應(yīng)該包括控制器、存儲(chǔ)器、運(yùn)算器這樣幾個(gè)部分，也就是現(xiàn)在所說(shuō)馮諾依曼的體系結(jié)構(gòu)。馮諾依曼架構(gòu)的意義非常重大，這種存儲(chǔ)與運(yùn)算分離的設(shè)計(jì)，大大簡(jiǎn)化了計(jì)算機(jī)的設(shè)計(jì)，也讓編程、各種控制都變得很簡(jiǎn)單。

一年后，三位物理學(xué)家巴丁、肖克利、布賴(lài)坦發(fā)明了晶體管。有了晶體管之后，三大基石完整了，集成電路就開(kāi)始蓬勃發(fā)展。

20多年以后，英特爾的創(chuàng)始人戈登摩爾，通過(guò)觀察集成電路的發(fā)展趨勢(shì)，總結(jié)出了摩爾定律。

在摩爾定律的驅(qū)動(dòng)下，芯片算力不斷發(fā)展，從早期的CPU到現(xiàn)在的各種高端芯片，都有了長(zhǎng)足的進(jìn)步。

人工智能發(fā)展對(duì)硬件的挑戰(zhàn)

但AI對(duì)算力的需求越來(lái)越高，硬件的挑戰(zhàn)也越來(lái)越大。

算力是AI的三大要素之一，AI技術(shù)出現(xiàn)以來(lái)，算力和人工智能一直是一個(gè)相互促進(jìn)的發(fā)展。最近幾年，之所以AI有長(zhǎng)足的進(jìn)步，一個(gè)很重要的事件就是GPU的出現(xiàn)。GPU相當(dāng)于開(kāi)啟了深度學(xué)習(xí)的黃金時(shí)代，通過(guò)并行的加速，讓深度神經(jīng)網(wǎng)絡(luò)有了很強(qiáng)的硬件的支撐。

不過(guò)，近幾年AI對(duì)算力的需求是爆炸式的增長(zhǎng)。所以芯片算力的提升與需求增長(zhǎng)之間有一個(gè)很尖銳的矛盾。下圖顯示了單芯片算力的變化，2010年以前，CPU算力是一條非常漂亮的指數(shù)增長(zhǎng)，沿摩爾定律發(fā)展。

2010年以后，芯片的算力很難再提升。當(dāng)然，最近10年GPU的發(fā)展很快，它明顯比CPU的算力有數(shù)量級(jí)的提高。但即便這樣，GPU算力提高的速度也在逐漸飽和。

AI算法對(duì)算力的需求卻正好是一個(gè)反過(guò)來(lái)的趨勢(shì)，2010年以前的幾十年，雖然AI對(duì)算力的需求越來(lái)越高，但總體而言可以滿(mǎn)足需求。過(guò)去的這幾年突然出現(xiàn)了拐點(diǎn)，呈現(xiàn)出爆炸式的趨勢(shì)增長(zhǎng)，它不但是指數(shù)，而且每年都是幾個(gè)數(shù)量級(jí)的翻番。

仔細(xì)看就會(huì)發(fā)現(xiàn)，AI算法對(duì)算力的需求每3-4個(gè)月就會(huì)翻一番，這非?？植?傳統(tǒng)芯片很難跟上算力需求增長(zhǎng)的步伐。

要想解決這個(gè)問(wèn)題，要從根源上找原因。芯片算力增長(zhǎng)越來(lái)越緩主要有兩個(gè)原因，一個(gè)是摩爾定律變緩。現(xiàn)在高端芯片基本都是7納米、5納米，一個(gè)原子大概也就是1納米的尺寸。晶體管微縮越來(lái)越難，面臨各種物理極限挑戰(zhàn)。過(guò)去幾十年芯片的性能提升伴隨摩爾定律的發(fā)展，但是這條路以后想往下走會(huì)越來(lái)越難。

第二個(gè)原因是馮諾依曼架構(gòu)帶來(lái)的存算分離局限。馮諾依曼的架構(gòu)簡(jiǎn)化了設(shè)計(jì)，讓開(kāi)發(fā)變得簡(jiǎn)單，但馮諾依曼這個(gè)架構(gòu)存儲(chǔ)和計(jì)算物理上是分離的，所計(jì)算的過(guò)程中需要不斷的通過(guò)總線交換數(shù)據(jù)，把數(shù)據(jù)從內(nèi)存讀到CPU里，計(jì)算完后再寫(xiě)回存儲(chǔ)。

在這個(gè)過(guò)程中，我們希望存儲(chǔ)和CPU的速度差不多，但實(shí)際上存儲(chǔ)速度遠(yuǎn)低于計(jì)算速度。中間這個(gè)圖是一個(gè)典型的存儲(chǔ)器的體系結(jié)構(gòu)，實(shí)際上主存DRAM芯片的速度遠(yuǎn)低于CPU的緩存和計(jì)算的速度，DRAM讀每個(gè)比特的功耗也比CPU高很多。

另外就是總線傳輸，根據(jù)臺(tái)積電的數(shù)據(jù)，10納米的工藝下，數(shù)據(jù)的傳輸和緩存已經(jīng)占比超過(guò)60%，達(dá)到了69%。所以大部分的功耗和延遲不是用在計(jì)算上，而是用在數(shù)據(jù)在總線上的傳輸。

更可怕的是，這個(gè)統(tǒng)計(jì)只是普通的科學(xué)計(jì)算，這些計(jì)算的數(shù)據(jù)緩存量并不是很高，大部分的AI算法都是數(shù)據(jù)密集型計(jì)算，數(shù)據(jù)量更大。對(duì)AI的算法，這樣一個(gè)傳輸?shù)墓暮脱舆t的占比可能都超過(guò)99%。這一現(xiàn)象通常被稱(chēng)為存儲(chǔ)墻的問(wèn)題。

這讓芯片面臨兩個(gè)巨大的問(wèn)題，一個(gè)是算力不足，還有一個(gè)是能效過(guò)低。所以我們就需要從集成電路的三大基石來(lái)考慮，通過(guò)引入新架構(gòu)和新器件來(lái)解決芯片的算力和能效的不足。

具體怎么做呢？看看歷史的發(fā)展，從最早期的傳統(tǒng)計(jì)算機(jī)到最近這幾年通過(guò)多核并行加速的技術(shù)。有了AI以后，學(xué)術(shù)界、產(chǎn)業(yè)界開(kāi)始考慮用近存計(jì)算，馮諾依曼架構(gòu)的存算分離是一個(gè)很重要的瓶頸，把存儲(chǔ)和計(jì)算盡可能的做得近，像谷歌很著名的TPU就是采用了這樣一個(gè)近存計(jì)算的思想，還有GPU也采用這個(gè)思想。

比如，把片上做很大容量的SRAM，或集成3D DRAM，像HBM，堆到計(jì)算芯片上面，從一定程度上緩解了存儲(chǔ)墻的問(wèn)題，但是并沒(méi)有本質(zhì)解決。要想從本質(zhì)解決這個(gè)問(wèn)題，就需要進(jìn)一步把存儲(chǔ)和計(jì)算融合在一起，這就出現(xiàn)了存算一體的技術(shù)。存算一體技術(shù)用一種新的半導(dǎo)體器件，這種器件既能夠做計(jì)算又能夠做存儲(chǔ)，實(shí)現(xiàn)了最底層的融合。

對(duì)于存算一體，國(guó)內(nèi)外都在關(guān)注，比如IBM就公布了他們的三步曲，第一步是想采用近似計(jì)算的數(shù)字AI芯片，第二步是基于模擬計(jì)算的AI芯片，第三步是采用優(yōu)化材料體系的模擬計(jì)算芯片，用這種新材料、新器件來(lái)做。

在國(guó)內(nèi)，去年華為任正非就專(zhuān)門(mén)提到邊緣計(jì)算不是把CPU做到存儲(chǔ)器里面，就是把存儲(chǔ)做到CPU里，這改變了馮諾依曼結(jié)構(gòu)，存儲(chǔ)和計(jì)算合二為一，速度更快。

今年，阿里達(dá)摩院在未來(lái)十大科技趨勢(shì)的第二條就提到，馮諾依曼架構(gòu)的存儲(chǔ)和計(jì)算分離，已經(jīng)不適合數(shù)據(jù)驅(qū)動(dòng)的人工智能的應(yīng)用，要把它們合在一起突破AI算力瓶頸。

存算一體技術(shù)的研究進(jìn)展

什么是存算一體的技術(shù)？存算一體技術(shù)現(xiàn)在發(fā)展到什么樣的程度了？剛才我就提到，想做存算一體，首先得有一種新的器件，能夠融合計(jì)算和存儲(chǔ)。什么器件能做到這一點(diǎn)呢？這就要先講憶阻器的概念。

憶阻器其實(shí)也是一個(gè)很古老的概念，是由蔡少棠這位伯克利大學(xué)的華裔教授提出，他在1971年的時(shí)候預(yù)測(cè)了有這樣一種新的器件，當(dāng)時(shí)完全是從物理理論來(lái)分析，把電路里最基本的三種無(wú)源器件：電阻、電容、電感擺起來(lái)，發(fā)現(xiàn)從對(duì)稱(chēng)性的角度來(lái)說(shuō)少了一塊。

蔡少棠教授通過(guò)理論推導(dǎo)，最后發(fā)現(xiàn)如果有他稱(chēng)為憶阻器的新器件，把憶阻器加進(jìn)這個(gè)圖里，整個(gè)對(duì)稱(chēng)性就非常完美了。但幾十年來(lái)一直沒(méi)有人能做出來(lái)，一直到2000年以后，很多公司和學(xué)校逐漸把憶阻器做出來(lái)了。

憶阻器本身是一個(gè)兩端型的器件，上下兩個(gè)電極，中間一個(gè)介質(zhì)層，介質(zhì)層的電阻可以發(fā)生變化。而且，這種變化是非易失的，也就是掉電以后，電阻的狀態(tài)仍能保持。

憶阻器剛做出來(lái)，很多企業(yè)都說(shuō)用它做存儲(chǔ)很好，比現(xiàn)在的技術(shù)要快很多，近期大家發(fā)現(xiàn)它還可以做計(jì)算，因?yàn)樗暮芏嗵匦愿锏纳窠?jīng)突觸很像，所以有些人又把它稱(chēng)為電子突觸。

基于憶阻器，就可以把原來(lái)馮諾依曼架構(gòu)里面的處理器、內(nèi)存、外存都合在一起，用一個(gè)憶阻器的陣列來(lái)做，稱(chēng)它為存算一體陣列。

其中，最基本的要素就是我要把憶阻器的性能做好，要讓這一個(gè)器件能夠存儲(chǔ)多比特的數(shù)據(jù)，而且還要速度快、功耗低。另外一方面，這種新的計(jì)算范式不再是傳統(tǒng)的布爾邏輯計(jì)算，而是基于物理定律來(lái)計(jì)算。

舉一個(gè)很經(jīng)典的例子，用憶阻器陣列來(lái)算矩陣的乘法。向量矩陣乘法在神經(jīng)網(wǎng)絡(luò)里面是一個(gè)非?；镜乃阕?，這過(guò)程要用數(shù)字電路來(lái)算，要多比特的加法器和乘法器，還需要多個(gè)SRAM。

但用憶阻器陣列，直接把要乘的矩陣元素全都映射成憶阻器的電導(dǎo)值，寫(xiě)到憶阻器的交叉陣列。加了電壓到電阻會(huì)得到一個(gè)電流，這是歐姆定律告訴我們的結(jié)果，這條位線是多個(gè)器件并列的關(guān)系，基爾霍夫定律又告訴我們，器件之間的電流又會(huì)相加，它自然在陣列里就把乘法和加法的運(yùn)算完成了。

所以，從存儲(chǔ)器的角度看，它就是一步讀操作，加了電壓讀電流，這一步操作就把整個(gè)量的乘法完成，效率很高，也不需要任何權(quán)重的數(shù)據(jù)搬運(yùn)。

再回過(guò)頭來(lái)看計(jì)算機(jī)的幾大基石，如果要做一種存算一體型的計(jì)算機(jī)，它的三大基石都變了，器件從晶體管變成了憶阻器，計(jì)算的范式從布爾邏輯的數(shù)字計(jì)算變成了基于物理定律的模擬計(jì)算，架構(gòu)變成了存算一體架構(gòu)。不過(guò)，圖靈機(jī)的框架沒(méi)有變，只是它的幾個(gè)構(gòu)成的基石變了。

我們希望用戶(hù)感受不到下面的變化，所以應(yīng)用軟件和編程語(yǔ)言跟以前是一樣的，中間的對(duì)接就要在編譯器、指令集這一塊下工夫，做專(zhuān)門(mén)的存算一體的編譯器、指令集，形成新的計(jì)算機(jī)系統(tǒng)。

關(guān)于憶阻器的存算一體技術(shù)，國(guó)際上也做了很多，大致可以把過(guò)去的研究分成兩個(gè)階段。第一個(gè)階段是2008—2013年，這時(shí)候憶阻器剛剛出現(xiàn)，惠普實(shí)驗(yàn)室首先發(fā)現(xiàn)了憶阻器開(kāi)始，大家都在做器件的研究，開(kāi)發(fā)可以存儲(chǔ)多比特?cái)?shù)據(jù)的器件。

第二個(gè)階段從2015年到2018年，大家器件開(kāi)發(fā)好，就開(kāi)始研究計(jì)算范式，在憶阻器陣列上完成各式各樣的計(jì)算。這時(shí)候很多大學(xué)、公司都開(kāi)始做這件事，包括清華大學(xué)。

2018年以前，業(yè)界做了很多事，尤其在器件開(kāi)發(fā)和存算一體的計(jì)算范式這兩個(gè)方面都有很重要的進(jìn)展。但完整的存算一體芯片和系統(tǒng)，在2018年以前并沒(méi)有突破。

這面臨著一個(gè)很重要的問(wèn)題，存算一體的范式它本質(zhì)上是模擬計(jì)算，計(jì)算精度的影響機(jī)制很復(fù)雜，計(jì)算精度很難調(diào)控。有人做了一個(gè)分析，在此之前已有的憶阻器做一個(gè)很簡(jiǎn)單的數(shù)據(jù)集的識(shí)別，數(shù)字計(jì)算的精度可以到97%以上，但是憶阻器的系統(tǒng)都是60%以下，所以極大地限制了系統(tǒng)和芯片的開(kāi)發(fā)。

我們發(fā)現(xiàn)了兩個(gè)關(guān)鍵的問(wèn)題，一個(gè)是雖然大家做了很多器件，但器件的性能并不穩(wěn)定。這是因?yàn)閼涀杵鞅举|(zhì)上是靠?jī)?nèi)部的氧離子遷移來(lái)改變器件的電阻值，這跟晶體管靠電子和空穴的工作機(jī)制很不一樣，電子和空穴的數(shù)量很大，它把一切的離散性都平均掉了，但憶阻器靠離子，離子的數(shù)量比較少，所以導(dǎo)致這個(gè)器件存在比較大的離散性和不穩(wěn)定性，就會(huì)對(duì)計(jì)算精度產(chǎn)生影響。

所以我們團(tuán)隊(duì)設(shè)計(jì)了一種新的器件結(jié)構(gòu)，上面設(shè)計(jì)了一個(gè)熱交換層，調(diào)控器件內(nèi)部的溫度，還做了一個(gè)阻變層，一個(gè)疊層結(jié)構(gòu)。基于這樣兩個(gè)設(shè)計(jì)，就可以讓器件的狀態(tài)變得很穩(wěn)定，可以實(shí)現(xiàn)穩(wěn)定得多比特的調(diào)控。下面的圖顯示，我們團(tuán)隊(duì)在一個(gè)器件上做的電導(dǎo)調(diào)控的精度已經(jīng)非常高了。

另一個(gè)問(wèn)題就是計(jì)算的誤差累積。也是做了一個(gè)很簡(jiǎn)單的分析，對(duì)ResNet里每一層引入1%的誤差，最后它的誤差非常大。對(duì)憶阻器陣列，誤差是不可避免的，任何一個(gè)器件做得再準(zhǔn)確，它都有一定的離散性，這個(gè)離散性做陣列的電流累加時(shí)，離散就會(huì)被放大，得到更大的波動(dòng)。這還僅僅是一個(gè)陣列的波動(dòng)，有很多層累加以后，最后這個(gè)誤差就會(huì)越來(lái)越大。

所以針對(duì)這個(gè)問(wèn)題，我們團(tuán)隊(duì)也做了一系列的創(chuàng)新，首先我們?cè)陔娐飞献隽艘恍┰O(shè)計(jì)，比如說(shuō)在電路里，導(dǎo)線和憶阻器是串聯(lián)關(guān)系，導(dǎo)線的電阻不可回避。我們?cè)O(shè)計(jì)了一種新型的融合型陣列結(jié)構(gòu)，用正負(fù)兩種電流做抵消，直接讓源線上的電流降低一個(gè)數(shù)量級(jí)，導(dǎo)線的壓降就小很多。

基于這些設(shè)計(jì)，我們團(tuán)隊(duì)去年設(shè)計(jì)出了一款完整的全系統(tǒng)集成的憶阻器芯片，在今年2月份集成電路頂級(jí)會(huì)議ISSCC上發(fā)表，這是全球首款全系統(tǒng)集成的憶阻器存算一體芯片，可以運(yùn)行雙層全連接神經(jīng)網(wǎng)絡(luò)。

這款憶阻器存算一體芯片用的是130nm工藝，拿它與28納米的樹(shù)莓派的CPU做對(duì)比，它們的計(jì)算準(zhǔn)確度相當(dāng)，但我們的芯片推理速度已經(jīng)比它快20倍。更重要的是，這款芯片能效達(dá)到78.4TOPs/W，比GPU已經(jīng)高3個(gè)數(shù)量級(jí)。

有了硬件，也要開(kāi)始考慮在算法和架構(gòu)層面做創(chuàng)新。我們團(tuán)隊(duì)提出來(lái)一種混合訓(xùn)練的框架，直接把器件和電路的各種非理想因素在訓(xùn)練過(guò)程中都考慮到，通過(guò)建模，把這些因素都放到訓(xùn)練的過(guò)程中，這樣它就可以容忍各種各樣非理想的特性。

我們又進(jìn)一步又提出自適應(yīng)的訓(xùn)練，權(quán)重部署之后，可能還有一定的離散性。我們?cè)谛酒献鲆恍┰桓?，?duì)權(quán)重做一些微調(diào)，從而使整個(gè)芯片的準(zhǔn)確率得到進(jìn)一步的恢復(fù)。

我們把器件、電路、架構(gòu)、算法等等所有的創(chuàng)新納入到一個(gè)框架下，做了一個(gè)協(xié)同仿真的工具，通過(guò)這個(gè)工具我們就設(shè)計(jì)完成了一款完整的存算一體的計(jì)算系統(tǒng)，這就是今年1月份我們?cè)凇禢ature》上發(fā)表的，這個(gè)系統(tǒng)包括了所有的憶阻器陣列，各種外圍控制電路。完成了一個(gè)多層的卷積神經(jīng)網(wǎng)絡(luò)，通過(guò)這個(gè)系統(tǒng)，不但證明了存算一體的架構(gòu)、模擬計(jì)算的范式的可行性，也證明了它在算力和能效的優(yōu)勢(shì)。

上個(gè)月的人工智能大會(huì)上，我們?cè)凇禢ature》發(fā)表的文章獲得了最高獎(jiǎng)SAIL獎(jiǎng)，這是會(huì)議上唯一一篇論文獲獎(jiǎng)。

再跟分享一下我們最近的一個(gè)工作。我們發(fā)現(xiàn)現(xiàn)在的人工神經(jīng)網(wǎng)絡(luò)其實(shí)跟生物并不太一樣，并做了大大的簡(jiǎn)化。實(shí)際生物里除了突觸和神經(jīng)元外，中間還有樹(shù)突，但現(xiàn)在的神經(jīng)網(wǎng)絡(luò)一般只考慮了突觸和神經(jīng)元，并沒(méi)有考慮樹(shù)突的存在。

過(guò)去，大家以為樹(shù)突就是傳遞信號(hào)，所以設(shè)計(jì)芯片的時(shí)候一般就是把樹(shù)突簡(jiǎn)化成一個(gè)連接線。最近兩年的生物學(xué)研究告訴我們，樹(shù)突有信號(hào)處理功能，能做很多主動(dòng)的計(jì)算。

所以，通過(guò)對(duì)生物的調(diào)研，總結(jié)出來(lái)了生物神經(jīng)網(wǎng)絡(luò)各個(gè)部分的功能，突觸主要是權(quán)重和可塑性，神經(jīng)元胞體功能是積分和發(fā)放。對(duì)樹(shù)突來(lái)說(shuō)，它有積分和過(guò)濾兩個(gè)功能，一方面它可以做一些時(shí)間域和空間域的初步積分，另一方面它會(huì)把未達(dá)到閾值的信號(hào)過(guò)濾掉，不再傳到神經(jīng)元胞體。

我們把這三部分用三種憶阻器來(lái)做，建立了一個(gè)更完整的神經(jīng)網(wǎng)絡(luò)，這個(gè)系統(tǒng)做復(fù)雜的計(jì)算任務(wù)很有優(yōu)勢(shì)，比如對(duì)于嘈雜背景下的識(shí)別任務(wù)，樹(shù)突能把很多無(wú)用的信號(hào)過(guò)濾掉，使能效和準(zhǔn)確率得到更好的提升。

未來(lái)展望

我們希望做新型的存算一體計(jì)算機(jī)，這個(gè)計(jì)算機(jī)從最底層的器件到編譯器都會(huì)有一個(gè)變革性的改變，但不改變最上面的編程語(yǔ)言。通過(guò)這樣一種技術(shù)，可以使計(jì)算的能效有百倍到千倍的提升，而且使單芯片的算力達(dá)到500TOPs甚至1POPs（1POPs=1000TOPs）。

當(dāng)然，未來(lái)還有很多挑戰(zhàn)，比如基礎(chǔ)理論、材料器件、電路系統(tǒng)、軟件工具鏈、算法應(yīng)用。

最后總結(jié)，摩爾定律的變緩，但大數(shù)據(jù)、人工智能對(duì)數(shù)據(jù)量需求的不斷提升，需要開(kāi)發(fā)新的技術(shù)。通過(guò)基于憶阻器的存算一體技術(shù)可以實(shí)現(xiàn)算力的提升和能效的提高。而且，存算一體有一個(gè)很重要的優(yōu)勢(shì)，就是對(duì)工藝的要求并沒(méi)有那么高，可以在非先進(jìn)的工藝下實(shí)現(xiàn)更高的算力，所以基于憶阻器的存算一體技術(shù)在AI、區(qū)塊鏈、通信，以及各種科學(xué)計(jì)算等方面都可能會(huì)有很大的應(yīng)用前景。

注：文中配圖雷鋒網(wǎng)獲演講者授權(quán)使用

福利：關(guān)注『芯基建』公眾號(hào)，回復(fù)『清華大學(xué)高濱』獲取演講PPT。

相關(guān)文章：

新基建浪潮下AI芯片的絕佳機(jī)遇 | CCF-GAIR 2020

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

2人收藏

分享：

相關(guān)文章

CCF-GAIR 2020 清華大學(xué)高濱憶阻器芯片存算一體芯片

突發(fā)！微軟亞研CV大牛王井東離職，或?qū)⒓尤氚俣?/a>

改變中國(guó)「醫(yī)學(xué)影像AI」的12大頂級(jí)實(shí)驗(yàn)室

2020 年度十大 AI 安防話(huà)題人物 | 年終盤(pán)點(diǎn)

2020，半導(dǎo)體行業(yè)的8大關(guān)鍵詞

專(zhuān)題

CCF-GAIR 2020 全球人工智能與機(jī)器人峰會(huì)

本專(zhuān)題其他文章

馮霽：下一代分布式AI協(xié)同合作范式 | CCF-GAIR 2020

邏輯匯創(chuàng)始人叢明舒：聯(lián)邦學(xué)習(xí)中的經(jīng)濟(jì)激勵(lì) | CCF-GAIR 2020

暗物智能CEO林倞：五層認(rèn)知架構(gòu)，重塑多模態(tài)人機(jī)互動(dòng)產(chǎn)業(yè)化｜CCF-GAIR 2020

中央美術(shù)學(xué)院王成良：記憶設(shè)計(jì)——在人工智能領(lǐng)域下的誘導(dǎo)加接口設(shè)計(jì) | CCF-GAIR 2020

藝術(shù)評(píng)論家張海濤：人機(jī)合一的藝術(shù)媒介 | CCF-GAIR 2020

中國(guó)科學(xué)技術(shù)大學(xué)副教授凌震華：基于表征解耦的非平行語(yǔ)料話(huà)者轉(zhuǎn)換 | CCF-GAIR 2020

more

包永剛

編輯

發(fā)私信

當(dāng)月熱門(mén)文章

安謀科技的第六代NPU IP，為什么是通用NPU IP？

獨(dú)家｜昆侖芯完成股改，有望在2026年上半年港股上市

最新文章

獨(dú)家｜昆侖芯完成股改，有望在2026年上半年港股上市

上市AI芯片公司落地?cái)?shù)個(gè)千卡集群；國(guó)內(nèi)有萬(wàn)卡經(jīng)驗(yàn)的公司不超過(guò)3個(gè)；拆機(jī)DDR4半公開(kāi)售賣(mài)；智算中心建設(shè)遇到「死結(jié)」

從Token經(jīng)濟(jì)到Agent路由：英偉達(dá)用Nemotron重構(gòu)企業(yè)級(jí)AI底座

誰(shuí)將定義中國(guó)智算未來(lái)？從系統(tǒng)可用的算力基建，到產(chǎn)業(yè)認(rèn)可的價(jià)值閉環(huán) ｜ GAIR 2025

AI算力新十年：技術(shù)革新、生態(tài)協(xié)同與商業(yè)閉環(huán)，共探“下一個(gè)寒武紀(jì)”之路 | GAIR 2025

海光CPU創(chuàng)始人唐志敏：軟件才是國(guó)產(chǎn)芯片公司的“命根子” | GAIR 2025

熱門(mén)搜索

深度學(xué)習(xí) 華為區(qū)塊鏈 nvidiA Uber 日?qǐng)?bào) 電動(dòng)車(chē) 中興移動(dòng)游戲雷穿戴軟硬結(jié)合