0
本文作者: 付靜 | 2020-03-06 18:49 |
利用人工神經(jīng)網(wǎng)絡(luò)在納秒級(jí)時(shí)間內(nèi)完成圖像分類,已經(jīng)成為現(xiàn)實(shí)。
近日,奧地利維也納工業(yè)大學(xué)光子學(xué)研究所 Lukas Mennel 博士等人研發(fā)的一種超高速機(jī)器視覺(jué)設(shè)備——自帶神經(jīng)網(wǎng)絡(luò)的圖像傳感器,將圖像處理速度提升了幾十萬(wàn)倍。
當(dāng)?shù)貢r(shí)間 2020 年 3 月 4 日,上述團(tuán)隊(duì)的一篇名為 Ultrafast machine vision with 2D material neural network image sensors(基于二維材料神經(jīng)網(wǎng)絡(luò)圖像傳感器的超快機(jī)器視覺(jué))的研究論文發(fā)表在《自然》雜志(Nature)上。
雷鋒網(wǎng)了解到,該團(tuán)隊(duì)設(shè)計(jì)的視覺(jué)設(shè)備如同大腦一樣處理信息,40 納秒即可分辨出兩張不同的圖像。
視覺(jué)是人類認(rèn)識(shí)世界最重要的一個(gè)途徑,受此啟發(fā)的「機(jī)器視覺(jué)」近年來(lái)方興未艾。
所謂機(jī)器視覺(jué),就是用機(jī)器代替人眼來(lái)做測(cè)量和判斷。但機(jī)器視覺(jué)并非只是人眼的簡(jiǎn)單延伸,它還有人腦的一部分功能一一從圖像中提取、處理、理解信息,從而用于實(shí)際的測(cè)量和控制。
就機(jī)器視覺(jué)技術(shù)本身而言,其主要流程是——相機(jī)逐行掃描像素,然后將視頻幀轉(zhuǎn)換為數(shù)字信號(hào),再將其傳輸?shù)接?jì)算機(jī)中進(jìn)行分析。
不過(guò)其中存在的問(wèn)題是,由于傳感器與處理單元之間大量數(shù)據(jù)的移動(dòng),信息往往無(wú)法得到快速的處理、決策,這也就是機(jī)器視覺(jué)經(jīng)常面臨的延遲。
考慮到上述因素,研究團(tuán)隊(duì)在圖像傳感器中引入了可同時(shí)獲取并分析圖像的人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,ANN )。
說(shuō)到人工神經(jīng)網(wǎng)絡(luò),實(shí)際上它是一種運(yùn)算模型,由大量的節(jié)點(diǎn)(也稱神經(jīng)元)相互連接構(gòu)成。其中,作為核心的神經(jīng)元接收并處理數(shù)據(jù),在圖像識(shí)別、智能機(jī)器人、自動(dòng)控制、預(yù)測(cè)估計(jì)等領(lǐng)域發(fā)揮著重要作用。
具體來(lái)講,人工神經(jīng)網(wǎng)絡(luò)可以反復(fù)調(diào)整神經(jīng)元之間的連接強(qiáng)度或“突觸”,并觀察當(dāng)前的行為模式是否能更好地解決問(wèn)題,從而發(fā)現(xiàn)哪些模式最擅長(zhǎng)計(jì)算解決方案。接著,人工神經(jīng)網(wǎng)絡(luò)會(huì)將這些模式設(shè)為默認(rèn)值,模仿人腦學(xué)習(xí)過(guò)程。
實(shí)際上,當(dāng)天《自然》雜志的 News and Views 專欄還發(fā)表了香港理工大學(xué)博士 Yang Chai 的評(píng)論文章 In-sensor computing for machine vision(機(jī)器視覺(jué)的傳感器內(nèi)計(jì)算)。
在其文章中,Yang Chai 博士通過(guò)下面這幅圖清晰地展現(xiàn)出了兩種視覺(jué)處理方式的區(qū)別:
傳統(tǒng)及其視覺(jué)處理過(guò)程(下圖 a 部分):傳感器收集信號(hào),通過(guò)模數(shù)轉(zhuǎn)換器(ADC)將模擬信號(hào)轉(zhuǎn)換為數(shù)字信號(hào),放大后輸入到外部人工神經(jīng)網(wǎng)絡(luò),經(jīng)參數(shù)調(diào)優(yōu)訓(xùn)練神經(jīng)網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)輸入層接收編碼簡(jiǎn)單物理元素的信號(hào)(點(diǎn)、線),隨后這些信號(hào)優(yōu)化為中級(jí)特征(簡(jiǎn)單形狀),最終在輸出層上形成圖像(3D 形狀);
Lukas Mennel 團(tuán)隊(duì)圖像傳感器處理過(guò)程(下圖 b 部分):芯片上的互連傳感器(圖中的正方形)收集信號(hào),并用作人工神經(jīng)網(wǎng)絡(luò)識(shí)別簡(jiǎn)單特征,減少傳感器和外部電路之間的冗余數(shù)據(jù)移動(dòng)。
回到研究成果本身,上述傳感器實(shí)質(zhì)上是一個(gè)光電二極管神經(jīng)網(wǎng)絡(luò),即 9 個(gè)像素的正方形陣列,每個(gè)像素有 3 個(gè)二極管。另外其光敏材料是 2D 半導(dǎo)體二硒化鎢(WSe2),這種材料對(duì)光具有調(diào)節(jié)響應(yīng)能力。
同時(shí),二極管的靈敏度相當(dāng)于神經(jīng)網(wǎng)絡(luò)中的權(quán)重,而且其權(quán)重直接集成在圖像傳感器上。
其具體工作流程如下圖:當(dāng)圖像被投影到芯片上時(shí),將會(huì)產(chǎn)生、組合、讀取各種二極管電流。陣列提供了一種模擬計(jì)算——每個(gè)光電二極管產(chǎn)生與入射光強(qiáng)度成比例的輸出電流,并且根據(jù)基爾霍夫定律(電路中電流的基本規(guī)則)沿著行或列對(duì)得到的電流求和。隨后陣列便開(kāi)始進(jìn)行訓(xùn)練。
據(jù)悉,由陣列產(chǎn)生的電流與預(yù)測(cè)電流(雷鋒網(wǎng)注:對(duì)于給定的任務(wù),如果陣列正確地響應(yīng)圖像,則將產(chǎn)生所謂的預(yù)測(cè)電流)之間的差異同時(shí)也會(huì)得到分析,并將用于調(diào)整下一訓(xùn)練周期的突觸權(quán)重。
此外,該研究團(tuán)隊(duì)根據(jù)不同的神經(jīng)網(wǎng)絡(luò)算法演示了兩種神經(jīng)形態(tài)功能。
一是「分類」。3×3 像素陣列可以將圖像分類為三個(gè)字母 n、v、z,經(jīng)過(guò)訓(xùn)練的圖像傳感器可以在以納秒為單位的時(shí)間內(nèi)根據(jù)“測(cè)量對(duì)應(yīng)電路的電流是否為 0”的標(biāo)準(zhǔn)識(shí)別字母(下圖 d)。據(jù)悉,若按比例增加陣列規(guī)模,還可以識(shí)別更復(fù)雜的圖像。
二是「自動(dòng)編碼」。即便存在信號(hào)噪聲,通過(guò)學(xué)習(xí)圖像的關(guān)鍵特征,神經(jīng)網(wǎng)絡(luò)也能生成處理后圖像的簡(jiǎn)化表示。
不過(guò)雷鋒網(wǎng)還了解到,該系統(tǒng)有很多局限性,比如:
很難在昏暗的環(huán)境下成像;
其設(shè)計(jì)需要高電壓、消耗大量功率;
其所需半導(dǎo)體大面積生產(chǎn)、加工較難;
最大只能處理 3×3 圖像。
不過(guò)論文作者之一 Lukas Mennel 博士表示:
我們的圖像傳感器在工作時(shí)不會(huì)消耗任何電能,被檢測(cè)的光子本身就可以作為電流供能。傳統(tǒng)的機(jī)器視覺(jué)技術(shù)通常能夠每秒處理 100 幀圖像,而一些更快的系統(tǒng)則可以每秒處理 1000 幀圖像,但我們的系統(tǒng)每秒可以處理 2000 萬(wàn)幀圖像。
可見(jiàn),雖然新技術(shù)落地都有或多或少的限制,但這一系統(tǒng)在能耗和速度方面確實(shí)有著不錯(cuò)的表現(xiàn),Yang Chai 博士在其文章中也對(duì)這一技術(shù)給予了肯定:
這一技術(shù)并不局限于視覺(jué)系統(tǒng),它可以用于聽(tīng)覺(jué)、觸覺(jué)或嗅覺(jué)感測(cè)。這種智能系統(tǒng)的發(fā)展,以及 5G 高速無(wú)線網(wǎng)絡(luò)的到來(lái),將來(lái)會(huì)讓實(shí)時(shí)(低延遲)邊緣計(jì)算成為可能。
參考資料:
https://www.nature.com/articles/s41586-020-2038-x#Fig15
https://www.nature.com/articles/d41586-020-00592-6
https://spectrum.ieee.org/tech-talk/computing/hardware/image-neural
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。