0
本文作者: 不靈叔 | 2017-12-29 18:26 |
雷鋒網(wǎng) AI 科技評(píng)論按:本文為上海交通大學(xué)林天威為雷鋒網(wǎng) AI 科技評(píng)論撰寫的獨(dú)家稿件,未經(jīng)許可不得轉(zhuǎn)載。
在視頻行為識(shí)別(action recognition)方向,目前最常見的網(wǎng)絡(luò)框架有兩類,一類是直接將視頻作為輸入的3D卷積網(wǎng)絡(luò),另一類即是將圖像以及光流(optical flow)分別作為輸入的two-stream網(wǎng)絡(luò)。目前two-stream類的方法在效果上還是明顯要優(yōu)于3D卷積類的方法,本文主要討論two-stream類方法中光流的應(yīng)用。
雖然光流在two-stream類的方法里被廣泛應(yīng)用并且具有很好的效果,但這里存在一個(gè)問題,就是光流在行為識(shí)別模型中到底起到了什么作用,它本身的語(yǔ)義信息到底是什么?通常我們認(rèn)為光流代表了視頻的motion信息,然后直接就將其當(dāng)作一個(gè)黑盒子作為了網(wǎng)絡(luò)的輸入。近期,arXiv上放出的 “On the Integration of Optical Flow and Action Recognition” 一文對(duì)光流在行為識(shí)別中的作用進(jìn)行了深入的研究,探討了為什么光流在行為識(shí)別中是有效的,在行為識(shí)別中怎么樣的光流才是好的以及我們應(yīng)該如何改進(jìn)光流。這篇文章的結(jié)論可以說是有點(diǎn)反直覺的,此處先放出這篇文章的幾個(gè)結(jié)論,再分別進(jìn)行介紹(以第一部分為主)。
光流在行為識(shí)別模型中很有效,并不是因?yàn)樗軌虿蹲竭\(yùn)動(dòng)信息,而主要是因?yàn)楣饬鲗?duì)圖像外觀(appearance)的不變性。
光流算法通常使用終點(diǎn)誤差(end-point-error, EPE)來衡量,但EPE的大小與行為識(shí)別效果的好壞并沒有很強(qiáng)的相關(guān)性
光流算法在邊緣以及小位移部分的準(zhǔn)確度對(duì)動(dòng)作識(shí)別的效果的相關(guān)性比較大。
用行為識(shí)別分類誤差來訓(xùn)練(fine tune)光流比起用EPE誤差來能獲得更好的行為識(shí)別效果。
使用行為識(shí)別分類誤差來訓(xùn)練得到的光流,與普通的光流的差異主要集中在人體的內(nèi)部與邊緣區(qū)域。
通常認(rèn)為光流代表著視頻的運(yùn)動(dòng)或時(shí)序信息。在行為識(shí)別的數(shù)據(jù)集(如UCF101) 中,雖然有很多動(dòng)作盡使用單幀圖像就可以判別,還是有一些動(dòng)作是依賴于時(shí)序信息的。理論上視頻圖像幀直接包含這些時(shí)序信息,那么3D卷積網(wǎng)絡(luò)也應(yīng)該能夠同等得學(xué)到光流中所包含的這些時(shí)序信息。但目前結(jié)合光流的方法總是有更好的效果,在一些數(shù)據(jù)集上,使用光流的網(wǎng)絡(luò)甚至能夠獲得比使用圖像更好的效果,即便直觀來說圖像包含更多物體以及場(chǎng)景相關(guān)的信息。
那么問題就是,為何光流在行為識(shí)別中這么有用呢?本文作者在UCF101上,使用two-stream中比較常用的TSN網(wǎng)絡(luò)進(jìn)行了實(shí)驗(yàn)探索。結(jié)果如下表:
借助這些實(shí)驗(yàn)結(jié)果,本文對(duì)一些通常觀念中直觀的看法進(jìn)行了討論
(1)光流中包含的運(yùn)動(dòng)軌跡信息是其對(duì)行為識(shí)別有效的原因?
通常都是使用5幀或10幀光流作為網(wǎng)絡(luò)輸入,這些連續(xù)的光流幀實(shí)際代表了圖像中密集的軌跡信息,作者此處將輸入的光流場(chǎng)打亂順序- Flow(shuffled flow fields),發(fā)現(xiàn)效果只下降了8%左右。這表明軌跡信息并不是關(guān)鍵因素。
(2)光流中包含的幀間motion信息是其對(duì)行為識(shí)別有效的原因?
上一步中光流還是逐幀算的,進(jìn)一步去除時(shí)序信息,在計(jì)算光流前先打亂圖像順序- Flow (shuffled image),這樣得到的光流與物理上的motion已經(jīng)不符合了,但仍然會(huì)包含物體的形狀。雖然效果有所下降,但依舊有不錯(cuò)的準(zhǔn)確率。這表明motion信息也并非是關(guān)鍵因素。
基于以上的實(shí)驗(yàn)結(jié)果,作者提出了他們的觀點(diǎn):光流在行為識(shí)別模型中效果好的原因在于其對(duì)于圖像表觀的不變性,這使得行為識(shí)別模型在低variance的情況下可以更容易得學(xué)習(xí)。這個(gè)觀點(diǎn)可以通過實(shí)驗(yàn)以及一些相關(guān)工作來佐證:
(1)通過變動(dòng)圖像表觀信息,分別觀察以flow以及rgb圖像作為輸入的行為模型的性能
這個(gè)實(shí)驗(yàn)中訓(xùn)練照常,但測(cè)試時(shí)修改圖像的顏色,如下圖所示意:
其中,左邊為原圖,中間為altered colormap即更改了圖像的顏色空間(如修改為HSV或BRG的形式),右側(cè)為對(duì)RGB各個(gè)通道的數(shù)值進(jìn)行縮放。通過上面表格的信息可以看出,在變動(dòng)顏色后,基于RGB的方法效果降低非常明顯,而基于Flow的方法效果變化不大。這說明了光流對(duì)于顏色這種表觀信息具有很好的不變性。
(2)2stream模型在大型視頻數(shù)據(jù)集中的表現(xiàn)
參考今年Deepmind 在[2]中的討論,當(dāng)視頻數(shù)據(jù)集的大小非常大時(shí),僅使用圖像的網(wǎng)絡(luò)會(huì)比僅使用光流的網(wǎng)絡(luò)獲得更好的效果。這里作者的觀點(diǎn)是認(rèn)為,當(dāng)數(shù)據(jù)集夠大時(shí),其本身能夠涵蓋復(fù)雜的光照、紋理、背景等信息,使得模型能夠獲得更好的泛化能力,也使得光流的表觀不變性沒有那么重要了。
這一部分我認(rèn)為是這篇文章最重要的一部分,得出了與通常想法相悖的結(jié)論,即光流在行為識(shí)別模型中發(fā)揮作用的主要原因是其對(duì)于表觀的不變性,而非其包含的motion或軌跡信息。
接下來作者討論了光流的測(cè)評(píng)指標(biāo)對(duì)于行為識(shí)別模型的有效性。目前有大量的光流算法,包括傳統(tǒng)的方法以及這幾年基于CNN的方法。通常光流使用終點(diǎn)誤差(end-point-error, EPE)來衡量準(zhǔn)確性。那么此處的問題就是,一個(gè)準(zhǔn)確性高的光流算法,是否能夠帶來高的行為識(shí)別準(zhǔn)確性。實(shí)驗(yàn)的結(jié)果如下圖所示。
可以看出,兩者并沒有很強(qiáng)的關(guān)聯(lián)性。并非EPE誤差低的光流方法就能獲得更好的行為識(shí)別精度。進(jìn)一步,作者探索了光流中的局部區(qū)域EPE與動(dòng)作識(shí)別準(zhǔn)確率之間的關(guān)系,結(jié)果如下圖所示。
圖片含義就不詳細(xì)介紹了,具體可見原文。通過對(duì)此圖的分析,可以得到兩個(gè)結(jié)論:
光流算法在邊緣部分的準(zhǔn)確度對(duì)動(dòng)作識(shí)別的效果的相關(guān)性比較大。
光流算法在小位移的準(zhǔn)確度對(duì)動(dòng)作識(shí)別的效果的相關(guān)性比較大,不過由于光流算法本身對(duì)于小位移表現(xiàn)較好而對(duì)大位移表現(xiàn)較差,所以這個(gè)結(jié)果也可能是由于光流本身的特性造成的。
所以,這一部分作者的結(jié)論為,光流整體的準(zhǔn)確率與動(dòng)作識(shí)別的準(zhǔn)確率聯(lián)系不大,而物體邊緣附近的光流以及小位移光流的準(zhǔn)確性對(duì)動(dòng)作識(shí)別準(zhǔn)確率的影響比較大。
在經(jīng)過上述的分析后,作者認(rèn)為需要尋求一個(gè)比普通光流更好的運(yùn)動(dòng)表示。此處,作者選擇使用行為分類的損失函數(shù)來fine tune光流網(wǎng)絡(luò),從而獲得提升。并沒有探索光流之外的表示方式。
其實(shí)驗(yàn)結(jié)果如以下兩表所示。
以上的實(shí)驗(yàn)主要可以得到以下兩個(gè)結(jié)論
使用action loss來fine tune光流,最終能獲得更好的行為識(shí)別精度
使用action loss來fine tune光流,光流本身的精度基本不會(huì)下降
作者進(jìn)一步對(duì)action loss 來fine tune的光流進(jìn)行了可視化。
左右分別為不同的flow算法,左右的第四列為普通flow和action loss 來fine tune 過的flow的差值??梢钥闯觯町愔饕性谌梭w的內(nèi)部與邊緣區(qū)域。
這篇工作對(duì)光流在行為識(shí)別中的作用進(jìn)行了細(xì)致的討論,我覺得是有很大的意義,對(duì)后續(xù)的工作也很有啟發(fā):
作者在文中主要是想用action loss來改進(jìn)光流,但既然光流發(fā)揮作用的主要原因在于其表觀不變性,那么更換另外一種專門針對(duì)表觀不變性設(shè)計(jì)的表示作為行為識(shí)別模型的輸入會(huì)不會(huì)更好?比如使用分割的結(jié)果替代光流。
若舍棄光流,同時(shí)針對(duì)表觀的色彩/紋理/光照做數(shù)據(jù)增強(qiáng),那么只用RGB圖像可能也能獲得不錯(cuò)的效果。
可以通過提高網(wǎng)絡(luò)本身對(duì)表觀變化的學(xué)習(xí)能力,來替代光流表觀不變性的作用。
若不采用光流,是否還能構(gòu)建另外一種針對(duì)運(yùn)動(dòng)/軌跡信息的low-level特征,來更好地提供視頻中的時(shí)序信息。
雖然在UCF101等比較早期的數(shù)據(jù)集中,用雙流網(wǎng)絡(luò)已經(jīng)能夠獲得很好的效果,但今年幾個(gè)新的視頻數(shù)據(jù)集給行為識(shí)別帶來了更多的挑戰(zhàn)。比如在Moments-in-Time數(shù)據(jù)集中,其行為類別與場(chǎng)景以及物體的關(guān)聯(lián)性就比較弱了,也有很多依賴于時(shí)序的動(dòng)作(如 開 與 關(guān) 是時(shí)序上對(duì)稱的動(dòng)作),這使得對(duì)于時(shí)序信息的建模愈發(fā)重要。
總的來說,作者得出了光流的核心作用是表觀不變性的結(jié)論,并認(rèn)為應(yīng)該改進(jìn)光流。但我覺得這篇文章可能會(huì)啟發(fā)更多人設(shè)計(jì)不使用光流的行為識(shí)別算法(畢竟光流的效率還是很被人詬病的..)。今年越來越多的人開始研究視頻相關(guān)的領(lǐng)域,在17年末也期待明年能看到更多有趣的工作吧~
[1] Laura Sevilla-Lara et al. On the Integration of Optical Flow and Action Recognition. abs/1712.08416, 2017.
[2] J. Carreira and A. Zisserman. Quo vadis, action recog- nition? A new model and the kinetics dataset. CoRR, abs/1705.07750, 2017.
雷峰網(wǎng)特約稿件,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。