0
本文作者: 木子 | 2022-01-19 15:00 |
近日,創(chuàng)新奇智關(guān)于雙注意力機(jī)制少樣本學(xué)習(xí)的研究論文《Dual Attention Networks for Few-Shot Fine-Grained Recognition》被全球人工智能頂會(huì)AAAI 2022接收為Main Track論文。
AAAI(The National Conference on Artificial Intelligence)是人工智能領(lǐng)域的主要學(xué)術(shù)組織之一國(guó)際先進(jìn)人工智能協(xié)會(huì)(American Association for Artificial Intelligence),主辦的A類(lèi)人工智能學(xué)術(shù)會(huì)議。今年會(huì)議共收到9251篇投稿,最終經(jīng)過(guò)大量的篩選,錄取率僅為15.0%,創(chuàng)下歷史新低。創(chuàng)新奇智投稿的論文脫穎而出,得益于一直以來(lái)在計(jì)算機(jī)視覺(jué)領(lǐng)域深厚的創(chuàng)新力。
創(chuàng)新奇智此次論文中提出的雙注意力機(jī)制少樣本學(xué)習(xí)主要針對(duì)少樣本細(xì)粒度圖像識(shí)別任務(wù)。
此方法可用于制造業(yè)等領(lǐng)域標(biāo)注樣本極少的情況下區(qū)分屬于不同子類(lèi)的圖像,如不同車(chē)型的汽車(chē)、不同類(lèi)型的零件、零件上不同種類(lèi)的缺陷等,減少實(shí)際應(yīng)用場(chǎng)景中對(duì)數(shù)據(jù)量的依賴(lài),并提高識(shí)別正確率。
由于細(xì)粒度屬性,該識(shí)別任務(wù)的難度在于需要獲取有限訓(xùn)練數(shù)據(jù)中細(xì)小但具有辨識(shí)性的部件級(jí)別模式,這使得此問(wèn)題較為挑戰(zhàn)。
創(chuàng)新奇智提出的由硬/軟雙注意力流構(gòu)成的雙注意力網(wǎng)絡(luò)(DUAL ATT-NET),在三個(gè)常用的細(xì)粒度基準(zhǔn)數(shù)據(jù)集上的結(jié)果明顯優(yōu)于其他的現(xiàn)有先進(jìn)方法。
概述:
細(xì)粒度圖像識(shí)別是計(jì)算機(jī)視覺(jué)和模式識(shí)別領(lǐng)域的基礎(chǔ)研究課題,但是大量?jī)?yōu)質(zhì)細(xì)粒度圖像數(shù)據(jù)的獲取和標(biāo)注需要耗費(fèi)大量的人力和財(cái)力,這為細(xì)粒度圖像識(shí)別的推廣和使用帶來(lái)了巨大的障礙。
少樣本學(xué)習(xí)是目前研究的熱門(mén)方向之一,能夠極大地減少細(xì)粒度圖像識(shí)別對(duì)于標(biāo)注樣本的依賴(lài),故少樣本的設(shè)定下進(jìn)行細(xì)粒度圖像識(shí)別的相關(guān)研究,內(nèi)容和成果均符合實(shí)際應(yīng)用的需求。
本文通過(guò)卷積神經(jīng)網(wǎng)絡(luò)與注意力機(jī)制提取圖像中的部件與全局特征,通過(guò)基于圖的多示例學(xué)習(xí)對(duì)局部特征進(jìn)行建模,豐富了細(xì)粒度部分的內(nèi)在結(jié)構(gòu)相關(guān)性,通過(guò)注意力機(jī)制發(fā)掘?qū)?xì)粒度圖像識(shí)別有用的微妙全局信息,從而得到更高的少樣本細(xì)粒度圖像識(shí)別的準(zhǔn)確率。
主要貢獻(xiàn)
1、提出了一種由雙注意力流構(gòu)成的元學(xué)習(xí)方式的新型少樣本細(xì)粒度框架,以獲取細(xì)粒度定制圖像嵌入表示。
2、開(kāi)發(fā)了包含硬/軟注意力機(jī)制的雙注意力網(wǎng)絡(luò),不僅實(shí)現(xiàn)細(xì)粒度物體部分間重要關(guān)聯(lián)的顯式構(gòu)建,而且能夠隱式獲取細(xì)微但有辨識(shí)性的細(xì)節(jié)。
3、基于三個(gè)常用的細(xì)粒度基準(zhǔn)數(shù)據(jù)集進(jìn)行了綜合的實(shí)驗(yàn),本文提出的模型在識(shí)別準(zhǔn)確性上明顯優(yōu)于其他解決方案。
這是一種基于雙注意力流的少樣本細(xì)粒度圖像識(shí)別方法,包括以下步驟:
步驟1:提取樣本的特征圖(feature map),生成特征圖的空間注意力圖(spatial attention map)引導(dǎo),利用注意力引導(dǎo)機(jī)制,生成用于軟注意力流的加權(quán)特征圖,同時(shí)篩選出用于硬注意力流的深度描述符(deep descriptor)。
步驟2:加權(quán)特征圖使用全局聚合操作得到全局嵌入特征;將一個(gè)樣本篩選出的所有深度描述符建模為一個(gè)多示例學(xué)習(xí)(multi-instance learning)的包(bag), 使用基于圖的多示例學(xué)習(xí)方法挖掘樣本部件之間的關(guān)系,得到部件嵌入特征。
步驟3:將兩個(gè)注意力流得到的全局嵌入特征和部件嵌入特征拼接得到樣本最終的嵌入表示,基于原型表示和最近鄰方法進(jìn)行類(lèi)別預(yù)測(cè)和模型訓(xùn)練。
本方法與現(xiàn)有技術(shù)相比,其顯著優(yōu)點(diǎn)為:
(1)本方法使用了兩個(gè)注意力流分別得到了部件級(jí)別的關(guān)鍵信息和全局聚合信息,不僅對(duì)細(xì)粒度圖像識(shí)別提供了區(qū)分新的部件級(jí)信息,也補(bǔ)充了對(duì)細(xì)粒度圖像識(shí)別有用的微妙全局信息。
(2)對(duì)于硬注意力流,使用多示例方法將篩選出的有用深度描述符建模為包,并基于圖的方法對(duì)包進(jìn)行編碼一體化得到對(duì)應(yīng)細(xì)粒度部件的深度描述符的整體表示,豐富了細(xì)粒度部分的內(nèi)在結(jié)構(gòu)相關(guān)性。
(3)與基于雙線(xiàn)性池的方法相比,我們的方法復(fù)雜度更低更加易于訓(xùn)練且有更高的識(shí)別效率。
在三個(gè)常用的少樣本細(xì)粒度圖像識(shí)別數(shù)據(jù)集 (CUB Birds,Stanford Dogs和Stanford Cars) 上進(jìn)行了實(shí)驗(yàn),上圖實(shí)驗(yàn)結(jié)果表明,論文提出的方法幾乎在所有數(shù)據(jù)集上均明顯優(yōu)于其他基準(zhǔn)方法。
上圖結(jié)果顯示出我們的模型對(duì)語(yǔ)義簇?cái)?shù)的魯棒性,并且當(dāng)簇?cái)?shù)為3時(shí)識(shí)別的準(zhǔn)確率最高。
我們提出的基于MIL的聚合方法與原始MIL池化方法的效果,上表結(jié)果顯示無(wú)論是否與全局特征進(jìn)行連接,我們的方法均表現(xiàn)出較好的效果。
從上表結(jié)果可見(jiàn),引入本文中考慮細(xì)粒度部件間關(guān)系的方法會(huì)顯著提高少樣本低粒度識(shí)別的準(zhǔn)確性。
最后,我們將實(shí)驗(yàn)中一些硬/軟注意力樣例進(jìn)行可視化,上圖中第一排為輸入圖像;第二排為硬注意力選取的深度描述符的位置,可見(jiàn)均對(duì)應(yīng)物體的細(xì)粒度部分,如頭、耳、尾、輪胎等;第三排展示軟注意力,更多的細(xì)節(jié)細(xì)粒度模式能夠被軟注意力關(guān)注到。
雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。