1
本文作者: 章敏 | 2016-09-28 17:31 |
導(dǎo)讀:CEVA 今天發(fā)布第五代圖像和計(jì)算機(jī)視覺(jué) DSP 產(chǎn)品 CEVA-XM6,具有更優(yōu)的性能、更強(qiáng)大的計(jì)算能力,以及更低的耗能。深度學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)、圖像/視覺(jué)處理已經(jīng)是計(jì)算機(jī)科學(xué)中很大的一些領(lǐng)域,然而它們依賴(lài)的許多工具仍處于初步階段。機(jī)器學(xué)習(xí)需要的實(shí)時(shí)、精確處理數(shù)據(jù)的能力也往往耗費(fèi)很大。
注:本文首發(fā)于 ANAND TECH,作者 Ian Cutress,由雷鋒網(wǎng)編譯,未經(jīng)許可不得轉(zhuǎn)載。
深度學(xué)習(xí),神經(jīng)網(wǎng)絡(luò)和圖像/視覺(jué)處理已經(jīng)成為一個(gè)很大的領(lǐng)域,然而,許多依賴(lài)它的應(yīng)用程序仍然處于初步階段。汽車(chē)是應(yīng)用這些領(lǐng)域最典型的例子,而解決汽車(chē)面臨的問(wèn)題,需要同時(shí)深度理解和發(fā)展硬件與軟件,實(shí)時(shí)高精度處理數(shù)據(jù)的能力,為其他機(jī)器學(xué)習(xí)編碼打通了一系列道路,接踵而至的問(wèn)題則是成本和功耗。CEVA-XM4 DSP 想成為第一個(gè)支持深度學(xué)習(xí)的可編程 DSP,且就在今天,有著軟件生態(tài)系統(tǒng)的新型 XM6 IP 也被推出,其效率更高,計(jì)算能力更強(qiáng),還有新的節(jié)能專(zhuān)利。
當(dāng) CEVA 宣布 XM4 DSP 推斷定點(diǎn)算法中預(yù)訓(xùn)練的精度與全算法基本一樣,誤差不到 1 %時(shí),它贏得了該領(lǐng)域許多的分析師獎(jiǎng)項(xiàng),CEVA 稱(chēng)高性能和功率效率讓其從競(jìng)爭(zhēng),及軟件框架的初步進(jìn)展中脫穎而出。IP 公告發(fā)布于 Q1 2015 季度,第二年獲得了許可證,第一批使用 IP 生產(chǎn)的硅鋼將于今年下線。此后,CEVA 發(fā)布了其 CDNN2 平臺(tái),它是一款一鍵編譯工具,訓(xùn)練網(wǎng)絡(luò),并將其轉(zhuǎn)換成適合 CEVA XM IPS 的代碼。新一代 XM6 整合了歷代 XM4 的特點(diǎn),改進(jìn)了配置,可以訪問(wèn)硬件加速器,還擁有新型的硬件加速器,而且,它還保留著 CDNN2 平臺(tái)的兼容性,這樣的編碼可兼容 XM4,也可以在 XM6 上高性能運(yùn)行。
CEVA 屬于 IP 業(yè)務(wù),如 ARM,并與半導(dǎo)體公司合作,然后賣(mài)給 OEMs 。這通常需要很長(zhǎng)的時(shí)間,來(lái)將新產(chǎn)品從構(gòu)思實(shí)際推入市場(chǎng),尤其是在安全和汽車(chē)等行業(yè)正快速發(fā)展時(shí)。CEVA 將 XM6 改成了一種可擴(kuò)展的、可編程的 DSP,它可以用單一的代碼庫(kù)橫跨市場(chǎng),同時(shí)利用額外的功能來(lái)改善功率、性能,并降低成本。
今天的公告中,包括新型 XM6 DSP,CEVA 新系列的圖像和視覺(jué)軟件庫(kù),一套新的硬件加速器,并將其融入 CDNN2 生態(tài)系統(tǒng)。CDNN2 是一款一鍵編譯工具,檢測(cè)卷積,并應(yīng)用優(yōu)于邏輯塊和加速器的最佳方法傳輸數(shù)據(jù)。
XM6 將支持 OpenCL 和 C++ 開(kāi)發(fā)工具,以及軟件元素包括 CEVA 的計(jì)算機(jī)視覺(jué)、神經(jīng)網(wǎng)絡(luò)和有著第三方工具的視覺(jué)處理庫(kù)。硬件為標(biāo)準(zhǔn) XM6 核心的處理部分實(shí)現(xiàn) 了AXI 連接,從而與加速器和內(nèi)存交互。XM6 IP 里面有卷積的硬件加速器 CDNN 助手,它允許低功率固定功能硬件,處理神經(jīng)網(wǎng)絡(luò)系統(tǒng)的疑難部分,如 GoogleNet,校正魚(yú)眼上的圖像或扭曲鏡頭,圖像的失真已知,變換的函數(shù)是固定功能友好型的,以及其他的第三方硬件加速器。
XM6 的兩大新硬件功能,將幫助大多數(shù)圖像處理和機(jī)器學(xué)習(xí)算法。第一個(gè)是分散-聚集,或者說(shuō)是閱讀一個(gè)周期中,L1 緩存到向量寄存器中的 32 地址值的能力。CDNN2 編譯工具識(shí)別串行代碼加載,并實(shí)現(xiàn)矢量化來(lái)允許這一功能,當(dāng)所需的數(shù)據(jù)通過(guò)記憶結(jié)構(gòu)分布時(shí),分散-聚集提高了數(shù)據(jù)加載時(shí)間。由于 XM6 是可配置的 IP,L1 數(shù)據(jù)儲(chǔ)存的大小/相關(guān)性在硅設(shè)計(jì)水平是可調(diào)節(jié)的,CEVA 表示,這項(xiàng)功能對(duì)于任意尺寸的 L1 都有效。此級(jí)用于處理的向量寄存器是寬度為 8 的 VLIW 實(shí)現(xiàn)器, 這樣的配置才能滿(mǎn)足要求。
第二功能稱(chēng)為“滑動(dòng)-窗口”數(shù)據(jù)處理,這項(xiàng)視覺(jué)處理的特定技術(shù)已被 CEVA 申請(qǐng)專(zhuān)利。有許多方法可以處理過(guò)程或智能中的圖像,通常算法將立刻使用平臺(tái)所需一塊或大片像素。對(duì)于智能部分,這些塊的數(shù)量將重疊,導(dǎo)致不同區(qū)域的圖像被不同的計(jì)算區(qū)域重用。CEVA 的方法是保留這些數(shù)據(jù),從而使下一步分析所需信息量更少。聽(tīng)起來(lái)是否很簡(jiǎn)單,在 2009 年,我做了類(lèi)似的三維微分方程分析,確實(shí)是這樣,我很驚訝,它之前并沒(méi)有實(shí)現(xiàn)視覺(jué)/圖像處理。如果你有地方存儲(chǔ)的話,重復(fù)使用原始數(shù)據(jù),就可以節(jié)省時(shí)間,節(jié)省能源。
CEVA 稱(chēng) XM6 在重矢量工作量中的性能增益是 XM4 的 3 倍,同比移植內(nèi)核平均提升了 2 倍。XM6 在編碼方面也比 XM4 更容易配置,提供“ 50% 額外的控制”。
結(jié)合具體的 CDNN 硬件加速器(HWA),CEVA 指出,生態(tài)系統(tǒng)中的卷積層,如 GoogleNet 消耗了周期中的大部分時(shí)間。CDNN HWA 采用了此編碼,并用 512MACs 為它實(shí)現(xiàn)了固定的硬件, 使用 16 位支持實(shí)現(xiàn)了 8 倍的性能增益,且利用率為 95%。CEVA 提到使用 12 位的方法將節(jié)省芯片面積和成本,同時(shí)最小化精度損耗,但也有一些開(kāi)發(fā)商要求用完整的 16 位方法,以支持未來(lái)的項(xiàng)目,因此,結(jié)果是選擇了 16 位。
在該領(lǐng)域的汽車(chē)圖像/視頻處理方面,CEVA 有兩大競(jìng)爭(zhēng)對(duì)手,分別是 MobilEye 和 NVIDIA ,后者推出了 TX1 以促進(jìn)神經(jīng)網(wǎng)絡(luò)的訓(xùn)練和推理?;?690 MHz 情況下,TX1 在 TSMC 20nm 的平面處理技術(shù),CEVA 說(shuō),他們內(nèi)部模擬給出的單體 XM6 在平臺(tái)方面效率提升了 25 倍,而且,比 AlexNet 和 GoogleNet 速度快四倍。當(dāng)然,盡管 XM6 也可以在 16nm 或 28nm 的 FinFET 運(yùn)行,但這些都是其在 20nm 情況下運(yùn)行的結(jié)果。這意味著,根據(jù)單批 TX1 公布的數(shù)據(jù),XM6 在 FP16 使用 Alexnet ,相比 67幀/秒,它可以執(zhí)行每秒運(yùn)行 268 幀圖像,相比于 5.1 w,它只要 800 mW。在 16FF 中,功率的數(shù)值可能更低,CEVA 告訴我們,他們內(nèi)部度量最初是在 28 nm / 16FF 情況下完成的,但他們?cè)?20 nm 情況下,使用了 TX1 對(duì)其各個(gè)方面重新進(jìn)行了度量。應(yīng)該指出的是,TX1 多批次的數(shù)值表明,其效率比單批次更好,然而,它沒(méi)能提供其他更多的對(duì)比值。CEVA 還用 DVFS 方案實(shí)現(xiàn)了功率門(mén)控,當(dāng) DSP 的各個(gè)部分或加速器空閑時(shí),可降低功率。
很明顯,NVIDIA 的優(yōu)勢(shì)是其解決方案的可用性,和 CUDA/OpenCL 軟件開(kāi)發(fā),這兩方面 CEVA 都想通過(guò)一鍵軟件平臺(tái)來(lái)實(shí)現(xiàn),如 CDNN2 ,并改善硬件,如 XM6 ??纯茨男┌雽?dǎo)體合作伙伴和未來(lái)的實(shí)現(xiàn)工具,能將這種圖像處理與機(jī)器學(xué)習(xí)結(jié)合起來(lái)。CEVA 指出,智能手機(jī)、汽車(chē)、安全和商業(yè)應(yīng)用,如無(wú)人機(jī)、自動(dòng)化將是主要目標(biāo)。
Via:ANAND TECH
推薦閱讀:
微軟 CEO 納德拉:我們的 AI 之路將會(huì)與眾不同
未來(lái)無(wú)人駕駛首秀,竟不是自動(dòng)駕駛轎車(chē)?
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。