作者 | 青 暮
編輯 | 叢 末
6月22日,北京智源大會(huì)舉行了認(rèn)知神經(jīng)基礎(chǔ)專題論壇,來自北京師范大學(xué)認(rèn)知神經(jīng)科學(xué)與學(xué)習(xí)國家重點(diǎn)實(shí)驗(yàn)室的畢彥超教授、北京大學(xué)心理與認(rèn)知學(xué)院的方方教授、北京師范大學(xué)心理學(xué)部的劉嘉教授、北京大學(xué)計(jì)算機(jī)系的吳思教授、中國科學(xué)院自動(dòng)化研究所的余山教授分別做了報(bào)告,共同探究認(rèn)知神經(jīng)科學(xué)能為AI帶來什么啟發(fā)。
第四位報(bào)告者是北京大學(xué)計(jì)算機(jī)系的吳思教授,演講題目為《生物視覺和計(jì)算機(jī)視覺之間的對(duì)話》。在報(bào)告中,吳思教授指出,生物的視覺識(shí)別機(jī)制和深度神經(jīng)網(wǎng)絡(luò)的圖像識(shí)別機(jī)制有非常大的區(qū)別,生物的視覺識(shí)別涉及自上而下通路和自下而上通路的交互,而深度神經(jīng)網(wǎng)絡(luò)只模擬了第二種通路。自上而下的視覺通路涉及生物視覺感知的全局性、拓?fù)湫?、多解性等特點(diǎn),尤其是理解圖像時(shí)會(huì)面臨數(shù)學(xué)上的無窮解問題,而這些特點(diǎn)或許就是深度神經(jīng)網(wǎng)絡(luò)下一步的改進(jìn)方向。
以下是演講全文,AI科技評(píng)論做了不改變?cè)獾恼怼?/span>我的報(bào)告內(nèi)容是生物視覺和計(jì)算機(jī)視覺研究的彼此影響,以此說明神經(jīng)科學(xué)和人工智能研究的互動(dòng)關(guān)系。這兩個(gè)領(lǐng)域本質(zhì)上都是在解開智能的黑箱,所以兩者之間相互啟發(fā)是非常自然的事情。
深度神經(jīng)網(wǎng)絡(luò)只模擬了部分生物視覺
深度神經(jīng)網(wǎng)絡(luò)是近年來人工智能興起的引擎,已經(jīng)非常成功,在一些大型數(shù)據(jù)集對(duì)物體的識(shí)別率甚至超過人類。但是,深度神經(jīng)網(wǎng)絡(luò)還面臨很多問題。第一,深度神經(jīng)網(wǎng)絡(luò)更多是模擬了大腦視皮層中的前饋、層級(jí)結(jié)構(gòu)信息處理的方式。但是大腦的視覺系統(tǒng)比這復(fù)雜得多,所以在很多行為上人腦和深度神經(jīng)網(wǎng)絡(luò)有非常大的不同。在很多任務(wù)上,人的表現(xiàn)更加高明。
舉個(gè)簡(jiǎn)單的例子。如下圖所示,左邊是一頭熊,熊的局部信息被去除了,只剩下輪廓,而我們?nèi)祟愐谎劬湍苷J(rèn)出這是一頭熊。而右邊的圖則是把熊分成小塊然后打亂,只保留局部的信息,全局信息則沒有了。我們可以發(fā)現(xiàn)這些小塊包含熊的眼睛、嘴巴、身體,但是很難認(rèn)可右邊的圖是一頭熊,深度神經(jīng)網(wǎng)絡(luò)卻一眼認(rèn)出右邊的圖是一頭熊。通過對(duì)比可以發(fā)現(xiàn),深度學(xué)習(xí)網(wǎng)絡(luò)的物體識(shí)別機(jī)制和人類有很大不同。人類能夠獲取物體的全局信息進(jìn)行識(shí)別,而目前深度神經(jīng)網(wǎng)絡(luò)只能利用局部信息進(jìn)行識(shí)別。
無法獲取全局信息是深度學(xué)習(xí)特別是前饋神經(jīng)網(wǎng)絡(luò)面臨的一個(gè)基本問題,這個(gè)基本問題其實(shí)很早就被意識(shí)到了。人工智能的先驅(qū)Marvin Minsky在1969年就指出,前饋神經(jīng)網(wǎng)絡(luò)很難做拓?fù)湫再|(zhì)的識(shí)別。拓?fù)鋵W(xué)是研究幾何圖形或空間在連續(xù)改變形狀后還能保持不變的一些性質(zhì)的學(xué)科。它只考慮物體間的位置關(guān)系而不考慮它們的形狀和大小。在拓?fù)鋵W(xué)里,重要的拓?fù)湫再|(zhì)包括連通性與緊致性。全局信息很難用前饋網(wǎng)絡(luò)獲取,即使要獲取其計(jì)算復(fù)雜度也呈指數(shù)增長(zhǎng)。拓?fù)湫畔⒑腿中畔⒌墨@取是深度學(xué)習(xí)網(wǎng)絡(luò)面臨的基本問題。
所以,我們有必要理解生物視覺系統(tǒng)如何獲取全局信息。神經(jīng)科學(xué)領(lǐng)域一直有一個(gè)廣泛爭(zhēng)論,就是人類識(shí)別物體到底是根據(jù)全局信息還是局部信息。這兩種觀點(diǎn)對(duì)應(yīng)的典型例子是兩種畫派,如下圖所示,左邊的畫屬于印象主義,如果只看局部的話是看不清眼睛或鼻子的,但是只要從整體進(jìn)行識(shí)別就能知道這是個(gè)男人,這是從全局信息進(jìn)行物體識(shí)別的例子。右邊的畫屬于立體主義,這幅畫把每個(gè)局部信息特別放大,畢加索說畫中是一位美麗少女,但是很多人都認(rèn)為看不出來,因?yàn)椴荒苡镁植啃畔⑵闯烧w信息,這是從局部信息進(jìn)行物體識(shí)別的例子。
深度學(xué)習(xí)網(wǎng)絡(luò)是通過聚合局部信息逐步構(gòu)建復(fù)雜信息來識(shí)別物體的,相反,在認(rèn)知神經(jīng)科學(xué)領(lǐng)域有一個(gè)理論叫“逆向?qū)哟握摗?,這個(gè)理論指出,人類對(duì)物體的識(shí)別是從簡(jiǎn)單到復(fù)雜、從整體到局部。“逆向?qū)哟握摗焙臀覀兊纳罱?jīng)驗(yàn)相一致,如果一個(gè)人在我們視野中一晃而過,你馬上會(huì)反應(yīng)到這是個(gè)人,然后再識(shí)別對(duì)方的身份,這就是一種從整體到細(xì)節(jié)的識(shí)別過程。
我們從神經(jīng)科學(xué)的角度來看人類視覺認(rèn)知與機(jī)器學(xué)習(xí)的一個(gè)重大不同點(diǎn)。下圖展示了一個(gè)實(shí)驗(yàn),被試是盲視。盲視是指,意識(shí)層面“看不見”物體但卻能“感知”到物體的存在。
大量實(shí)驗(yàn)表明,人類要看到或意識(shí)到物體,需要物體信息至少在視覺皮層V1中被接受到。假設(shè)V1受到損傷,就可能會(huì)產(chǎn)生盲視現(xiàn)象。這時(shí)還能感知到物體是因?yàn)槠酉峦愤€存在,皮層下通路是從視網(wǎng)膜直達(dá)上丘然后再到高級(jí)皮層的一條短路徑。
科學(xué)家利用動(dòng)物實(shí)驗(yàn)更好的證明了這一點(diǎn)。他們把老鼠放在籠子里,天花板上會(huì)呈現(xiàn)一個(gè)動(dòng)態(tài)刺激,即一個(gè)小的光斑很快變大,這模仿了在自然環(huán)境中老鷹向老鼠俯沖下來時(shí),老鼠視網(wǎng)膜接受到的光信號(hào)。這時(shí)候,老鼠本能的第一反應(yīng)是裝死??茖W(xué)家發(fā)現(xiàn),在上丘處通過操縱神經(jīng)元反應(yīng)可以讓老鼠看到運(yùn)動(dòng)光斑后不再裝死,或者即使沒有運(yùn)動(dòng)光斑的出現(xiàn)老鼠都主動(dòng)裝死。這個(gè)實(shí)驗(yàn)表明本能的快速反應(yīng)走皮層下通路,而沒有走深度神經(jīng)網(wǎng)絡(luò)模擬的皮層上通路。在上述老鼠將運(yùn)動(dòng)光斑當(dāng)成老鷹的實(shí)驗(yàn)中,老鼠根本沒有刻意去識(shí)別刺激是光斑還是老鷹,立刻裝死。這是動(dòng)物的本能反應(yīng),即老鼠沒有做細(xì)節(jié)的特征提取也能識(shí)別運(yùn)動(dòng)模式。我們參考這個(gè)例子,提出了一種新算法,在識(shí)別運(yùn)動(dòng)模式時(shí)不做特征提取。我們建立了一個(gè)模型,這個(gè)模型包含兩個(gè)部分,下圖左下方是外界輸入,黑色圓圈中的網(wǎng)絡(luò)表示“視網(wǎng)膜”。這里“視網(wǎng)膜”的計(jì)算很簡(jiǎn)單,它把運(yùn)動(dòng)模式投射到高維空間,使運(yùn)動(dòng)模式變成線性可分的,然后再輸入到抉擇網(wǎng)絡(luò)?!耙暰W(wǎng)膜”的神經(jīng)元特別多,相當(dāng)于一個(gè)庫網(wǎng)絡(luò)。我們不需要訓(xùn)練庫網(wǎng)絡(luò)和抉擇網(wǎng)絡(luò),只需要訓(xùn)練庫網(wǎng)絡(luò)和抉擇網(wǎng)絡(luò)之間的連接。
關(guān)于抉擇網(wǎng)絡(luò),我用兩個(gè)神經(jīng)元來舉例解釋一下,如下圖所示,每個(gè)抉擇神經(jīng)元代表要識(shí)別的一類運(yùn)動(dòng)模式。這些神經(jīng)元的動(dòng)力學(xué)特別的慢,因?yàn)橐R(shí)別運(yùn)動(dòng)模式,關(guān)鍵是要抓住輸入的時(shí)間結(jié)構(gòu),不僅僅是空間結(jié)構(gòu)。這些抉擇神經(jīng)元之間存在相互抑制,每個(gè)神經(jīng)元通過庫網(wǎng)絡(luò)輸入收集證據(jù),如果證據(jù)支持自己編碼的運(yùn)動(dòng)模式,這個(gè)神經(jīng)元的反應(yīng)就會(huì)抑制其它神經(jīng)元的活動(dòng)而最終勝出。
這個(gè)模型的計(jì)算本質(zhì)是時(shí)空模式的識(shí)別,所以我們可以把這個(gè)模型推廣,用來做步態(tài)識(shí)別。在這個(gè)任務(wù)中,人在屏幕前走1-2回,然后把步態(tài)輸入到模型中,進(jìn)行識(shí)別。這個(gè)模型的優(yōu)點(diǎn)是可以小樣本訓(xùn)練,只需要1-2回的數(shù)據(jù)就能馬上學(xué)會(huì)一個(gè)人的步態(tài)特點(diǎn)。
生物視覺是一個(gè)動(dòng)態(tài)交互的過程
我們介紹一個(gè)心理物理實(shí)驗(yàn)來展示由整體到局部的識(shí)別實(shí)際上是不可避免的。請(qǐng)大家看下圖中呈現(xiàn)的圖像,猜一猜是什么。
如果你過去沒有見過這張圖的話是肯定猜不出來的,所以我把圖像的輪廓畫出來。
現(xiàn)在你就能看出來圖中是一頭牛。如果把牛的輪廓去掉,你還是覺得圖中是一頭牛,因?yàn)檫@時(shí)你大腦中已經(jīng)有了自上而下的牛的先驗(yàn)知識(shí)。但這只是其中一個(gè)答案。我也可以畫一只手的輪廓,然后輪廓去掉,這時(shí)候你又會(huì)覺得圖中是一只手,因?yàn)槟阌辛俗陨隙碌氖值南闰?yàn)知識(shí)。
我還可以在圖中畫一條魚,我相信這時(shí)候你又會(huì)覺得圖中是一條魚。
這個(gè)實(shí)驗(yàn)表明人類識(shí)別物體時(shí),大腦皮層的自上而下的信號(hào)非常重要。這個(gè)簡(jiǎn)單實(shí)驗(yàn)揭示了圖像理解的一個(gè)深刻數(shù)學(xué)問題,即給定一副圖像,它的解釋理論上有無窮多個(gè)。注意圖像理解跟物體識(shí)別不一樣,圖像理解涉及兩個(gè)基本操作,一個(gè)是圖像分割,一個(gè)是物體識(shí)別。
但兩者的順序是一個(gè)雞生蛋或蛋生雞的難悖論:給你一幅圖像,沒有合適的分割,如何做好識(shí)別;但另一方面,如果沒有預(yù)先識(shí)別物體,又如何做合適的分割呢?從數(shù)學(xué)上來說,一幅圖像有無窮多的分割和識(shí)別的方式,所以在數(shù)學(xué)上這是一個(gè)不適定的問題。無論是人類還是AI,圖像理解時(shí)都面臨這樣的難題。大腦解決這個(gè)問題的思路是一個(gè)“猜測(cè)與印證”的過程。當(dāng)我們識(shí)別物體時(shí),物體的圖像信息快速傳遞到高級(jí)皮層,即通過所謂的快速通路,在高級(jí)皮層做出猜測(cè)。猜測(cè)結(jié)果再通過反饋連接,和新的輸入交叉印證,如此反復(fù)進(jìn)行后,才能識(shí)別物體。我們?cè)谌粘I钪泻茈y意識(shí)到這個(gè)過程,因?yàn)樵谌粘I钪?,很多時(shí)候只需要一兩個(gè)回合就能成功識(shí)別。但的確有的時(shí)候一個(gè)圖像看得不太清楚,我們會(huì)盯著它左看右看,大腦內(nèi)部可能就進(jìn)行了信息的上傳、下傳的交替,不斷地進(jìn)行“猜測(cè)-印證-猜測(cè)-印證”,只要印證結(jié)果是否定的,這個(gè)過程就會(huì)一直進(jìn)行下去,直到得到肯定的結(jié)果。神經(jīng)生物學(xué)充分證明人類大腦的識(shí)別機(jī)制確實(shí)如此。從解剖上來說,從高級(jí)視皮層到初級(jí)視皮層的反饋連接比前饋連接還要多,相比之下深度學(xué)習(xí)網(wǎng)絡(luò)主要考慮的是前饋連接。電生理實(shí)驗(yàn)證據(jù)也表明,大腦對(duì)物體的識(shí)別先發(fā)生在高級(jí)視皮層,然后才發(fā)生在低級(jí)視皮層。總的說來,生物視覺識(shí)別至少有兩條通路,快速的通路對(duì)物體整體進(jìn)行識(shí)別,其結(jié)果幫助慢速通路對(duì)物體局部信息的識(shí)別。下面以我們最近的一個(gè)工作來介紹整體識(shí)別可能如何通過反饋提高局部識(shí)別。我們考慮對(duì)物體進(jìn)行識(shí)別時(shí),先對(duì)物體大類識(shí)別,然后根據(jù)大類信息幫助進(jìn)行小類識(shí)別。比如我們看到一個(gè)圖片,先識(shí)別這是動(dòng)物,再識(shí)別這是貓,還可以進(jìn)一步識(shí)別這是什么品種的貓。我們發(fā)現(xiàn)大類信息可以通過先正后負(fù)的反饋信息幫助小類信息識(shí)別。第一步是正反饋(Push feedback),其作用是壓制類間的噪音。假設(shè)高級(jí)腦區(qū)識(shí)別出物體是一只貓,就告訴低級(jí)腦區(qū)不要再處理狗的信息了。這是正反饋,增強(qiáng)貓的信息,壓制狗的信息。第二步是負(fù)反饋(Pull feedback),其作用是壓制類內(nèi)的噪音,即在貓的信息中把貓共性平均值減去,把不同貓之間的細(xì)微差別放大。
總的說來,生物視覺的識(shí)別機(jī)制和深度神經(jīng)網(wǎng)絡(luò)的圖像識(shí)別機(jī)制有非常大的區(qū)別,生物的視覺識(shí)別涉及自上而下通路和自下而上通路的交互,而深度神經(jīng)網(wǎng)絡(luò)只模擬了第二種通路。自上而下的視覺通路涉及生物視覺感知的全局性、拓?fù)湫院投嘟庑缘忍攸c(diǎn),而這或許就是深度神經(jīng)網(wǎng)絡(luò)下一步的改進(jìn)方向。認(rèn)知神經(jīng)科學(xué)和人工智能應(yīng)該多互相對(duì)話、互相借鑒,按照過去的經(jīng)驗(yàn),這樣做經(jīng)常能帶來驚喜。
雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。