0
美國硅谷的車庫,是一個神奇的地方,惠普、蘋果、亞馬遜、谷歌等影響世界的科技公司都誕生于車庫。
中國的沙縣小吃也是一個神奇的地方,國內(nèi)首款大算力存算一體AI芯片的誕生與沙縣小吃的關(guān)系頗為密切。
“就是在沙縣小吃,我和幾個小伙伴們一邊吃著熱氣騰騰的餛飩,一邊滔滔不絕思緒如飛討論著干什么?!焙竽χ悄軇?chuàng)始人兼CEO 吳強(qiáng)回憶,有人暢想無人駕駛汽車,有人憧憬機(jī)器人,他自己向往有陪伴母親的機(jī)器人,核心都是實現(xiàn)萬物智能,做更好的AI芯片。
那頓沙縣小吃之后,有了后摩智能,吳強(qiáng)和他的團(tuán)隊基于創(chuàng)新的存算一體架構(gòu),耗時兩年,在本周正式發(fā)布了國內(nèi)首款大算力存算一體智駕芯片鴻途H30,最高物理算力 256TOPS,典型功耗 35W。
后摩智能創(chuàng)始人兼CEO 吳強(qiáng)
雷峰網(wǎng)了解到,基于鴻途H30打造的智能駕駛解決方案已經(jīng)在合作伙伴的無人小車上完成部署。鴻途H30將于6月份開始給 Alpha 客戶送測。
國內(nèi)首款大算力存算一體AI芯片
存算一體,從字面簡單理解,就是存儲和計算融為一體。
“存算一體架構(gòu)將存儲和計算功能融合,是比傳統(tǒng)架構(gòu)更接近人腦的計算方式,具備遠(yuǎn)高于傳統(tǒng)方式的計算效率。”吳強(qiáng)介紹,“我們堅定地選擇以存算一體的底層架構(gòu)創(chuàng)新,來實現(xiàn) AI 計算效率的極致突破?!?/p>
存算一體架構(gòu)在學(xué)界已經(jīng)研究多年,是解決AI存儲墻問題的好選擇。不過,存算一體根據(jù)存儲介質(zhì)的不同,也有所差別。
后摩智能聯(lián)合創(chuàng)始人兼研發(fā)副總裁陳亮介紹,鴻途H30 基于 SRAM 存儲介質(zhì),采用數(shù)字存算一體架構(gòu),擁有極低的訪存功耗和超高的計算密度,在Int8數(shù)據(jù)精度條件下,其 AI 核心IPU 能效比高達(dá)15Tops/W,是傳統(tǒng)架構(gòu)芯片的7倍以上。
后摩智能聯(lián)合創(chuàng)始人兼研發(fā)副總裁陳亮
能效比7倍的提升在摩爾定律放緩的背景下更加突顯了優(yōu)勢。
后摩智能聯(lián)合創(chuàng)始人兼產(chǎn)品副總裁信曉旭介紹,鴻途H30基于12nm工藝制程,在Int8數(shù)據(jù)精度下實現(xiàn)高達(dá)256TOPS的物理算力,所需功耗不超過 35W,整個SoC能效比達(dá)到 7.3Tops/W,具有高計算效率、低計算延時、低工藝依賴等特點。
根據(jù)后摩智能給出的數(shù)據(jù),在實際性能測試中,鴻途H30 基于Resnet 50 模型的 Benchmark,在 Batch Size 等于1 和 8 的條件下分別達(dá)到了 8700 幀/秒和 10300 幀/秒的性能。
雷峰網(wǎng)(公眾號:雷峰網(wǎng))了解到,之所以定義一顆AI算力超過100T的大算力AI芯片,原因是這款芯片的定位是既能支持L2+級自動駕駛,也支持L4級。并且會根據(jù)不同場景,推出幾個系列的產(chǎn)品。
也就是說,鴻途H30是面向汽車市場的芯片。
陳亮強(qiáng)調(diào),鴻途H30 以存算一體創(chuàng)新架構(gòu)實現(xiàn)了六大技術(shù)突破,即大算力、全精度、低功耗、車規(guī)級、可量產(chǎn)、通用性。
為何先攻汽車市場?
在進(jìn)一步了解后摩的大算力存算一體芯片之前,先要弄清楚一個關(guān)鍵問題,為什么選擇汽車市場?
“有個朋友問我,你為什么首選智能駕駛這個賽道,這個賽道那么卷?!眳菑?qiáng)說,“我當(dāng)時開玩笑說因為別的賽道更卷,但真實的原因是智能駕駛其實空間很大,萬物智能的時代,不可能沒有無人駕駛?!?/p>
中國電動汽車百人會副理事長兼秘書長張永偉在后摩智能的發(fā)布會上說,智能駕駛市場規(guī)模龐大,仍處于加速滲透的階段,為新技術(shù)和新企業(yè)提供了創(chuàng)新發(fā)展的巨大機(jī)遇。存算一體作為一種創(chuàng)新技術(shù),對工藝制程依賴度低,具有極高的競爭力,為智能駕駛芯片提供了更具前瞻性的技術(shù)路徑選擇。
“更重要的原因是,存算一體帶來的技術(shù)和產(chǎn)品的優(yōu)勢,和智能駕駛的關(guān)鍵需求天然吻合。從終局的角度,智能駕駛芯片一定要無限接近人大腦的行駛和效率?!眳菑?qiáng)進(jìn)一步表示。
明確了面向汽車市場,定義起芯片就更加容易。
后摩智能面向智能駕駛場景打造了專用 IPU(處理器架構(gòu))——天樞架構(gòu),采用多核、多硬件線程的方式擴(kuò)展算力,實現(xiàn)了計算效率與算力靈活擴(kuò)展的完美均衡,AI 計算可以在核內(nèi)完成端到端處理,保證通用性。
陳亮說,“天樞架構(gòu)的設(shè)計理念源自于庭院式的中國傳統(tǒng)住宅,以大布局設(shè)計保障計算資源利用效率的同時,再進(jìn)一步結(jié)合現(xiàn)代住宅多層/高層的設(shè)計優(yōu)勢,以多核/多硬件線程的方式靈活擴(kuò)展算力。得益于靈活、高效的硬件
架構(gòu)設(shè)計,鴻途H30實現(xiàn)了性能2倍提升的同時,還降低了50%功耗。”
基于鴻途H30,后摩智能推出了智能駕駛硬件平臺——力馭,力馭平臺 CPU 算力可達(dá)200 Kdmips,AI 算力高 256Tops,支持多傳感器輸入,功耗為85W。
存算一體架構(gòu)的優(yōu)勢要發(fā)揮出來需要軟硬件的協(xié)同設(shè)計,有易于使用的工具鏈,包括對自動駕駛模型的優(yōu)化。
“為了讓客戶擁有更好的產(chǎn)品使用體驗,我們自主研發(fā)了一款軟件開發(fā)工具鏈——后摩大道。” 信曉旭介紹,后摩大道支持 PyTorch、TensorFlow 、ONNX 等主流開源框架,編程兼容 CUDA 前端語法,同時支持SIMD和SIMT兩種編程模型,能兼顧運(yùn)行效率和開發(fā)效率,以無侵入式的底層架構(gòu)創(chuàng)新保障了通用性。
后摩智能聯(lián)合創(chuàng)始人兼產(chǎn)品副總裁信曉旭
通用性之外,易用性也十分關(guān)鍵。易用性的一個體現(xiàn)是針對AI模型進(jìn)行優(yōu)化。目前,鴻途H30已成功運(yùn)行常用的經(jīng)典CV網(wǎng)絡(luò)和多種自動駕駛先進(jìn)網(wǎng)絡(luò),包括業(yè)內(nèi)最受關(guān)注的 BEV網(wǎng)絡(luò)模型以及廣泛應(yīng)用于高階輔助駕駛領(lǐng)域的Pointpillar網(wǎng)絡(luò)模型。
下一步是大模型和通用人工智能
存算一體的大算力汽車芯片只是后摩智能的第一步,其已經(jīng)規(guī)劃到了第三代架構(gòu)。
陳亮透露,后摩智能的第二代天璇架構(gòu)已經(jīng)在研發(fā)中,將采用Mesh 互聯(lián)結(jié)構(gòu),可根據(jù)應(yīng)用場景的不同配置計算單元的數(shù)量,整體性能、效率和靈活性將進(jìn)一步躍升,支持多場景應(yīng)用,例如成本和功耗敏感的智能終端、大模型等場景。
第三代天璣架構(gòu)已經(jīng)開始規(guī)劃,將為萬物智能打造。
另外,鴻途H50 已經(jīng)在全力研發(fā)中,將于2024年推出,支持客戶 2025年的量產(chǎn)車型。
有人認(rèn)為,存算一體架構(gòu)芯片是顛覆式創(chuàng)新,但同時也有人對存算一體芯片的未來持懷疑態(tài)度。無論如何,市場是最好的檢驗場。
吳強(qiáng)和他的團(tuán)隊會堅定不移地專注于底層技術(shù)創(chuàng)新,打造極致效率的計算芯片,與生態(tài)鏈上的合作伙伴密切合作,共同推進(jìn)萬物智能的實現(xiàn)。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。