丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能開發(fā)者 正文
發(fā)私信給AI研習(xí)社
發(fā)送

0

計(jì)算機(jī)視覺中,有哪些比較好的目標(biāo)跟蹤算法?(上)

本文作者: AI研習(xí)社 2017-11-27 16:02
導(dǎo)語:介紹下我所認(rèn)識(shí)的目標(biāo)跟蹤...

雷鋒網(wǎng)按:本文作者YaqiLYU,本文由雷鋒網(wǎng)整理自作者在知乎《計(jì)算機(jī)視覺中,目前有哪些經(jīng)典的目標(biāo)跟蹤算法?》問題下的回答。雷鋒網(wǎng)已獲得轉(zhuǎn)載授權(quán)。

相信很多來這里的人和我第一次到這里一樣,都是想找一種比較好的目標(biāo)跟蹤算法,或者想對目標(biāo)跟蹤這個(gè)領(lǐng)域有比較深入的了解,雖然這個(gè)問題是經(jīng)典目標(biāo)跟蹤算法,但事實(shí)上,可能我們并不需要那些曾經(jīng)輝煌但已被拍在沙灘上的tracker(目標(biāo)跟蹤算法),而是那些即將成為經(jīng)典的,或者就目前來說最好用、速度和性能都看的過去tracker。我比較關(guān)注目標(biāo)跟蹤中的相關(guān)濾波方向,接下來我?guī)湍榻B下我所認(rèn)識(shí)的目標(biāo)跟蹤,尤其是相關(guān)濾波類方法,分享一些我認(rèn)為比較好的算法,順便談?wù)勎业目捶ā?/p>

第一部分:目標(biāo)跟蹤速覽

先跟幾個(gè)SOTA的tracker混個(gè)臉熟,大概了解一下目標(biāo)跟蹤這個(gè)方向都有些什么。一切要從2013年的那個(gè)數(shù)據(jù)庫說起。。如果你問別人近幾年有什么比較niubility的跟蹤算法,大部分人都會(huì)扔給你吳毅老師的論文,OTB50和OTB100(OTB50這里指OTB-2013,OTB100這里指OTB-2015,50和100分別代表視頻數(shù)量,方便記憶):

Wu Y, Lim J, Yang M H. Online object tracking: A benchmark [C]// CVPR, 2013.

Wu Y, Lim J, Yang M H. Object tracking benchmark [J]. TPAMI, 2015.

頂會(huì)轉(zhuǎn)頂刊的頂級待遇,在加上引用量1480+320多,影響力不言而喻,已經(jīng)是做tracking必須跑的數(shù)據(jù)庫了,測試代碼和序列都可以下載: Visual Tracker Benchmark,OTB50包括50個(gè)序列,都經(jīng)過人工標(biāo)注:

計(jì)算機(jī)視覺中,有哪些比較好的目標(biāo)跟蹤算法?(上)


兩篇論文在數(shù)據(jù)庫上對比了包括2012年及之前的29個(gè)頂尖的tracker,有大家比較熟悉的OAB, IVT, MIL, CT, TLD, Struck等,大都是頂會(huì)轉(zhuǎn)頂刊的神作,由于之前沒有比較公認(rèn)的數(shù)據(jù)庫,論文都是自賣自夸,大家也不知道到底哪個(gè)好用,所以這個(gè)database的意義非常重大,直接促進(jìn)了跟蹤算法的發(fā)展,后來又?jǐn)U展為OTB100發(fā)到TPAMI,有100個(gè)序列,難度更大更加權(quán)威,我們這里參考OTB100的結(jié)果,首先是29個(gè)tracker的速度和發(fā)表時(shí)間(標(biāo)出了一些性能速度都比較好的算法):

計(jì)算機(jī)視覺中,有哪些比較好的目標(biāo)跟蹤算法?(上)


接下來再看結(jié)果(更加詳細(xì)的情況建議您去看論文比較清晰):

計(jì)算機(jī)視覺中,有哪些比較好的目標(biāo)跟蹤算法?(上)


直接上結(jié)論:平均來看Struck, SCM, ASLA的性能比較高,排在前三不多提,著重強(qiáng)調(diào)CSK,第一次向世人展示了相關(guān)濾波的潛力,排第四還362FPS簡直逆天了。速度排第二的是經(jīng)典算法CT(64fps)(與SCM, ASLA等都是那個(gè)年代最熱的稀疏表示)。如果對更早期的算法感興趣,推薦另一篇經(jīng)典的survey(反正我是沒興趣也沒看過):

Yilmaz A, Javed O, Shah M. Object tracking: A survey [J]. CSUR, 2006.

2012年以前的算法基本就是這樣,自從2012年AlexNet問世以后,CV各個(gè)領(lǐng)域都有了巨大變化,所以我猜你肯定還想知道2013到2017年發(fā)生了什么,抱歉我也不知道(容我賣個(gè)關(guān)子),不過我們可以肯定的是,2013年以后的論文一定都會(huì)引用OTB50這篇論文,借助谷歌學(xué)術(shù)中的被引用次數(shù)功能,得到如下結(jié)果:

計(jì)算機(jī)視覺中,有哪些比較好的目標(biāo)跟蹤算法?(上)


這里僅列舉幾個(gè)引用量靠前的,依次是Struck轉(zhuǎn)TPAMI, 三大相關(guān)濾波方法KCF, CN, DSST, 和VOT競賽,這里僅作示范,有興趣可以親自去試試。(這么做的理論依據(jù)是:一篇論文,在它之前的工作可以看它的引用文獻(xiàn),之后的工作可以看誰引用了它;雖然引用量并不能說明什么,但好的方法大家基本都會(huì)引用的(表示尊重和認(rèn)可);之后還可以通過限定時(shí)間來查看某段時(shí)間的相關(guān)論文,如2016-2017就能找到最新的論文了,至于論文質(zhì)量需要仔細(xì)甄別;其他方向的重要論文也可以這么用,順藤摸瓜,然后你就知道大牛是哪幾位,接著關(guān)注跟蹤一下他們的工作 ) 這樣我們就大致知道目標(biāo)跟蹤領(lǐng)域的最新進(jìn)展應(yīng)該就是相關(guān)濾波無疑了,再往后還能看到相關(guān)濾波類算法有SAMF, LCT, HCF, SRDCF等等。當(dāng)然,引用量也與時(shí)間有關(guān),建議分每年來看。此外,最新版本OPENCV3.2除了TLD,也包括了幾個(gè)很新的跟蹤算法 OpenCV: Tracking API

計(jì)算機(jī)視覺中,有哪些比較好的目標(biāo)跟蹤算法?(上)

TrackerKCF接口實(shí)現(xiàn)了KCFCN,影響力可見一斑,還有個(gè)GOTURN是基于深度學(xué)習(xí)的方法,速度雖快但精度略差,值得去看看。tracking方向的最新論文,可以跟進(jìn)三大會(huì)議(CVPR/ICCV/ECCV) 和arXiv。

第二部分:背景介紹

接下來總體介紹下目標(biāo)跟蹤。這里說的目標(biāo)跟蹤,是通用單目標(biāo)跟蹤,第一幀給個(gè)矩形框,這個(gè)框在數(shù)據(jù)庫里面是人工標(biāo)注的,在實(shí)際情況下大多是檢測算法的結(jié)果,然后需要跟蹤算法在后續(xù)幀緊跟住這個(gè)框,以下是VOT對跟蹤算法的要求:

計(jì)算機(jī)視覺中,有哪些比較好的目標(biāo)跟蹤算法?(上)

通常目標(biāo)跟蹤面臨幾大難點(diǎn)(吳毅在VALSE的slides):外觀變形,光照變化,快速運(yùn)動(dòng)和運(yùn)動(dòng)模糊,背景相似干擾:

計(jì)算機(jī)視覺中,有哪些比較好的目標(biāo)跟蹤算法?(上)

平面外旋轉(zhuǎn),平面內(nèi)旋轉(zhuǎn),尺度變化,遮擋和出視野等情況:

計(jì)算機(jī)視覺中,有哪些比較好的目標(biāo)跟蹤算法?(上)

正因?yàn)檫@些情況才讓tracking變得很難,目前比較常用的數(shù)據(jù)庫除了OTB,還有前面找到的VOT競賽數(shù)據(jù)庫(類比ImageNet),已經(jīng)舉辦了四年,VOT2015和VOT2016都包括60個(gè)序列,所有序列也是免費(fèi)下載 VOT Challenge | Challenges

Kristan M, Pflugfelder R, Leonardis A, et al. The visual object tracking vot2013 challenge results [C]// ICCV, 2013.

Kristan M, Pflugfelder R, Leonardis A, et al. The Visual Object Tracking VOT2014 Challenge Results [C]// ECCV, 2014.

Kristan M, Matas J, Leonardis A, et al. The visual object tracking vot2015 challenge results [C]// ICCV, 2015.

Kristan M, Ales L, Jiri M, et al. The Visual Object Tracking VOT2016 Challenge Results [C]// ECCV, 2016.

OTB和VOT區(qū)別OTB包括25%的灰度序列,但VOT都是彩色序列,這也是造成很多顏色特征算法性能差異的原因;兩個(gè)庫的評價(jià)指標(biāo)不一樣,具體請參考論文;VOT庫的序列分辨率普遍較高,這一點(diǎn)后面分析會(huì)提到。對于一個(gè)tracker,如果論文在兩個(gè)庫(最好是OTB100和VOT2016)上都結(jié)果上佳,那肯定是非常優(yōu)秀的(兩個(gè)庫調(diào)參你能調(diào)好,我服,認(rèn)了~~),如果只跑了一個(gè),個(gè)人更偏向于VOT2016,因?yàn)樾蛄卸际蔷?xì)標(biāo)注,且評價(jià)指標(biāo)更好(人家畢竟是競賽,評價(jià)指標(biāo)發(fā)過TPAMI的),差別最大的地方,OTB有隨機(jī)幀開始,或矩形框加隨機(jī)干擾初始化去跑,作者說這樣更加符合檢測算法給的框框;而VOT是第一幀初始化去跑,每次跟蹤失敗(預(yù)測框和標(biāo)注框不重疊)時(shí),5幀之后重新初始化,VOT以short-term為主,且認(rèn)為跟蹤檢測應(yīng)該在一起不分離,detecter會(huì)多次初始化tracker。

補(bǔ)充:OTB在2013年公開了,對于2013以后的算法是透明的,論文都會(huì)去調(diào)參,尤其是那些只跑OTB的論文,如果關(guān)鍵參數(shù)直接給出還精確到小數(shù)點(diǎn)后兩位,建議您先實(shí)測(人心不古啊~被坑的多了)。VOT競賽的數(shù)據(jù)庫是每年更新,還動(dòng)不動(dòng)就重新標(biāo)注,動(dòng)不動(dòng)就改變評價(jià)指標(biāo),對當(dāng)年算法是難度比較大,所以結(jié)果相對更可靠。(相信很多人和我一樣,看每篇論文都會(huì)覺得這個(gè)工作太好太重要了,如果沒有這篇論文,必定地球爆炸,宇宙重啟~~所以就像大家都通過歷年ILSVRC競賽結(jié)果為主線了解深度學(xué)習(xí)的發(fā)展一樣,第三方的結(jié)果更具說服力,所以我也以競賽排名+是否公開源碼+實(shí)測性能為標(biāo)準(zhǔn),優(yōu)選幾個(gè)算法分析)

目標(biāo)視覺跟蹤(Visual Object Tracking),大家比較公認(rèn)分為兩大類:生成(generative)模型方法和判別(discriminative)模型方法,目前比較流行的是判別類方法,也叫檢測跟蹤tracking-by-detection,為保持回答的完整性,以下簡單介紹。

生成類方法,在當(dāng)前幀對目標(biāo)區(qū)域建模,下一幀尋找與模型最相似的區(qū)域就是預(yù)測位置,比較著名的有卡爾曼濾波,粒子濾波,mean-shift等。舉個(gè)例子,從當(dāng)前幀知道了目標(biāo)區(qū)域80%是紅色,20%是綠色,然后在下一幀,搜索算法就像無頭蒼蠅,到處去找最符合這個(gè)顏色比例的區(qū)域,推薦算法ASMS vojirt/asms

  • Vojir T, Noskova J, Matas J. Robust scale-adaptive mean-shift for tracking [J]. Pattern Recognition Letters, 2014.

ASMSDAT并稱“顏色雙雄”(版權(quán)所有翻版必究),都是僅顏色特征的算法而且速度很快,依次是VOT2015的第20名和14名,在VOT2016分別是32名和31名(中等水平)。ASMS是VOT2015官方推薦的實(shí)時(shí)算法,平均幀率125FPS,在經(jīng)典mean-shift框架下加入了尺度估計(jì),經(jīng)典顏色直方圖特征,加入了兩個(gè)先驗(yàn)(尺度不劇變+可能偏最大)作為正則項(xiàng),和反向尺度一致性檢查。作者給了C++代碼,在相關(guān)濾波和深度學(xué)習(xí)盛行的年代,還能看到mean-shift打榜還有如此高的性價(jià)比實(shí)在不容易,實(shí)測性能還不錯(cuò),如果您對生成類方法情有獨(dú)鐘,這個(gè)非常推薦您去試試。

判別類方法,OTB50里面的大部分方法都是這一類,CV中的經(jīng)典套路圖像特征+機(jī)器學(xué)習(xí), 當(dāng)前幀以目標(biāo)區(qū)域?yàn)檎龢颖?,背景區(qū)域?yàn)樨?fù)樣本,機(jī)器學(xué)習(xí)方法訓(xùn)練分類器,下一幀用訓(xùn)練好的分類器找最優(yōu)區(qū)域:

計(jì)算機(jī)視覺中,有哪些比較好的目標(biāo)跟蹤算法?(上)

與生成類方法最大的區(qū)別是,分類器采用機(jī)器學(xué)習(xí),訓(xùn)練中用到了背景信息,這樣分類器就能專注區(qū)分前景和背景,所以判別類方法普遍都比生成類好。舉個(gè)例子,在訓(xùn)練時(shí)告訴tracker目標(biāo)80%是紅色,20%是綠色,還告訴它背景中有橘紅色,要格外注意別搞錯(cuò)了,這樣的分類器知道更多信息,效果也相對更好。tracking-by-detection檢測算法非常相似,如經(jīng)典行人檢測用HOG+SVM,Struck用到了haar+structured output SVM,跟蹤中為了尺度自適應(yīng)也需要多尺度遍歷搜索,區(qū)別僅在于跟蹤算法對特征和在線機(jī)器學(xué)習(xí)的速度要求更高,檢測范圍和尺度更小而已。這點(diǎn)其實(shí)并不意外,大多數(shù)情況檢測識(shí)別算法復(fù)雜度比較高不可能每幀都做,這時(shí)候用復(fù)雜度更低的跟蹤算法就很合適了,只需要在跟蹤失敗(drift)或一定間隔以后再次檢測去初始化tracker就可以了。其實(shí)我就想說,FPS才TMD是最重要的指標(biāo),慢的要死的算法可以去死了(同學(xué)別這么偏激,速度是可以優(yōu)化的)。經(jīng)典判別類方法推薦StruckTLD,都能實(shí)時(shí)性能還行,Struck是2012年之前最好的方法,TLD是經(jīng)典long-term的代表,思想非常值得借鑒:

Hare S, Golodetz S, Saffari A, et al. Struck: Structured output tracking with kernels [J]. IEEE TPAMI, 2016.

Kalal Z, Mikolajczyk K, Matas J. Tracking-learning-detection [J]. IEEE TPAMI, 2012.

長江后浪推前浪,前面的已被排在沙灘上,這個(gè)后浪就是相關(guān)濾波和深度學(xué)習(xí)。相關(guān)濾波類方法correlation filter簡稱CF,也叫做discriminative correlation filter簡稱DCF,注意和后面的DCF算法區(qū)別,包括前面提到的那幾個(gè),也是后面要著重介紹的。深度學(xué)習(xí)(Deep ConvNet based)類方法,因?yàn)樯疃葘W(xué)習(xí)類目前不適合落地就不瞎推薦了,可以參考Winsty的幾篇 Naiyan Wang - Home,還有VOT2015的冠軍MDNet Learning Multi-Domain Convolutional Neural Networks for Visual Tracking,以及VOT2016的冠軍TCNN ,速度方面比較突出的如80FPS的SiamFC SiameseFC tracker和100FPS的GOTURN davheld/GOTURN,注意都是在GPU上?;赗esNet的SiamFC-R(ResNet)在VOT2016表現(xiàn)不錯(cuò),很看好后續(xù)發(fā)展,有興趣也可以去VALSE聽作者自己講解 VALSE-20160930-LucaBertinetto-Oxford-JackValmadre-Oxford-pu,至于GOTURN,效果比較差,但優(yōu)勢是跑的很快100FPS,如果以后效果也能上來就好了。做科研的同學(xué)深度學(xué)習(xí)類是關(guān)鍵,能兼顧速度就更好了。

  • Nam H, Han B. Learning multi-domain convolutional neural networks for visual tracking [C]// CVPR, 2016.

  • Nam H, Baek M, Han B. Modeling and propagating cnns in a tree structure for visual tracking. arXiv preprint arXiv:1608.07242, 2016.

  • Bertinetto L, Valmadre J, Henriques J F, et al. Fully-convolutional siamese networks for object tracking [C]// ECCV, 2016.

  • Held D, Thrun S, Savarese S. Learning to track at 100 fps with deep regression networks [C]// ECCV, 2016.

最后,深度學(xué)習(xí)END2END的強(qiáng)大威力在目標(biāo)跟蹤方向還遠(yuǎn)沒有發(fā)揮出來,還沒有和相關(guān)濾波類方法拉開多大差距(速度慢是天生的我不怪你,但效果總該很好吧,不然你存在的意義是什么呢。。革命尚未成功,同志仍須努力)。另一個(gè)需要注意的問題是目標(biāo)跟蹤的數(shù)據(jù)庫都沒有嚴(yán)格的訓(xùn)練集和測試集,需要離線訓(xùn)練的深度學(xué)習(xí)方法就要非常注意它的訓(xùn)練集有沒有相似序列,而且一直到VOT2017官方才指明要限制訓(xùn)練集,不能用相似序列訓(xùn)練模型。

最后強(qiáng)力推薦兩個(gè)資源。王強(qiáng)維護(hù)的benchmark_results :大量頂級方法在OTB庫上的性能對比,各種論文代碼應(yīng)有盡有,大神自己C++實(shí)現(xiàn)并開源的CSK, KCF和DAT,還有他自己的DCFNet論文加源碼,找不著路的同學(xué)請跟緊。

@H Hakase維護(hù)的相關(guān)濾波類資源,詳細(xì)分類和論文代碼資源,走過路過別錯(cuò)過,相關(guān)濾波類算法非常全面,非常之用心!

計(jì)算機(jī)視覺中,有哪些比較好的目標(biāo)跟蹤算法?(上)

第三部分:相關(guān)濾波

介紹最經(jīng)典的高速相關(guān)濾波類跟蹤算法CSK, KCF/DCF, CN。很多人最早了解CF,應(yīng)該和我一樣,都是被下面這張圖吸引了:

計(jì)算機(jī)視覺中,有哪些比較好的目標(biāo)跟蹤算法?(上)

這是KCF/DCF算法在OTB50上(2014年4月就掛arVix了, 那時(shí)候OTB100還沒有發(fā)表)的實(shí)驗(yàn)結(jié)果,Precision和FPS碾壓了OTB50上最好的Struck,看慣了勉強(qiáng)實(shí)時(shí)的Struck和TLD,飆到高速的KCF/DCF突然有點(diǎn)讓人不敢相信,其實(shí)KCF/DCF就是在OTB上大放異彩的CSK的多通道特征改進(jìn)版本。注意到那個(gè)超高速615FPS的MOSSE(嚴(yán)重超速這是您的罰單),這是目標(biāo)跟蹤領(lǐng)域的第一篇相關(guān)濾波類方法,這其實(shí)是真正第一次顯示了相關(guān)濾波的潛力。和KCF同一時(shí)期的還有個(gè)CN,在2014'CVPR上引起劇烈反響的顏色特征方法,其實(shí)也是CSK的多通道顏色特征改進(jìn)算法。從MOSSE(615)到 CSK(362) 再到 KCF(172FPS), DCF(292FPS), CN(152FPS), CN2(202FPS),速度雖然是越來越慢,但效果越來越好,而且始終保持在高速水平:

  • Bolme D S, Beveridge J R, Draper B A, et al. Visual object tracking using adaptive correlation filters [C]// CVPR, 2010.

  • Henriques J F, Caseiro R, Martins P, et al. Exploiting the circulant structure of tracking-by- detection with kernels [C]// ECCV, 2012.

  • Henriques J F, Rui C, Martins P, et al. High-Speed Tracking with Kernelized Correlation Filters [J]. IEEE TPAMI, 2015.

  • Danelljan M, Shahbaz Khan F, Felsberg M, et al. Adaptive color attributes for real-time visual tracking [C]// CVPR, 2014.

計(jì)算機(jī)視覺中,有哪些比較好的目標(biāo)跟蹤算法?(上)

CSK和KCF都是Henriques J F(牛津大學(xué))Jo?o F. Henriques 大神先后兩篇論文,影響后來很多工作,核心部分的嶺回歸,循環(huán)移位的近似密集采樣,還給出了整個(gè)相關(guān)濾波算法的詳細(xì)推導(dǎo)。還有嶺回歸加kernel-trick的封閉解,多通道HOG特征。

Martin Danelljan大牛(林雪平大學(xué))用多通道顏色特征Color Names(CN)去擴(kuò)展CSK得到了不錯(cuò)的效果,算法也簡稱CN

MOSSE是單通道灰度特征的相關(guān)濾波,CSK在MOSSE的基礎(chǔ)上擴(kuò)展了密集采樣(加padding)和kernel-trick,KCF在CSK的基礎(chǔ)上擴(kuò)展了多通道梯度的HOG特征,CN在CSK的基礎(chǔ)上擴(kuò)展了多通道顏色的Color Names。HOG是梯度特征,而CN是顏色特征,兩者可以互補(bǔ),所以HOG+CN在近兩年的跟蹤算法中成為了hand-craft特征標(biāo)配。最后,根據(jù)KCF/DCF的實(shí)驗(yàn)結(jié)果,討論兩個(gè)問題:

1. 為什么只用單通道灰度特征的KCF和用了多通道HOG特征的KCF速度差異很???

第一,作者用了HOG的快速算法fHOG,來自Piotr's Computer Vision Matlab Toolbox,C代碼而且做了SSE優(yōu)化。如對fHOG有疑問,請參考論文Object Detection with Discriminatively Trained Part Based Models第12頁。
第二,HOG特征常用cell size是4,這就意味著,100*100的圖像,HOG特征圖的維度只有25*25,而Raw pixels是灰度圖歸一化,維度依然是100*100,我們簡單算一下:27通道HOG特征的復(fù)雜度是27*625*log(625)=47180,單通道灰度特征的復(fù)雜度是10000*log(10000)=40000,理論上也差不多,符合表格。

看代碼會(huì)發(fā)現(xiàn),作者在擴(kuò)展后目標(biāo)區(qū)域面積較大時(shí),會(huì)先對提取到的圖像塊做因子2的下采樣到50*50,這樣復(fù)雜度就變成了2500*log(2500)=8495,下降了非常多。那你可能會(huì)想,如果下采樣再多一點(diǎn),復(fù)雜度就更低了,但這是以犧牲跟蹤精度為代價(jià)的,再舉個(gè)例子,如果圖像塊面積為200*200,先下采樣到100*100,再提取HOG特征,分辨率降到了25*25,這就意味著響應(yīng)圖的分辨率也是25*25,也就是說,響應(yīng)圖每位移1個(gè)像素,原始圖像中跟蹤框要移動(dòng)8個(gè)像素,這樣就降低了跟蹤精度。在精度要求不高時(shí),完全可以稍微犧牲下精度提高幀率(但看起來真的不能再下采樣了)。

2. HOG特征的KCF和DCF哪個(gè)更好?

大部分人都會(huì)認(rèn)為KCF效果超過DCF,而且各屬性的準(zhǔn)確度都在DCF之上,然而,如果換個(gè)角度來看,以DCF為基準(zhǔn),再來看加了kernel-trick的KCF,mean precision僅提高了0.4%,而FPS下降了41%,這么看是不是挺驚訝的呢?除了圖像塊像素總數(shù),KCF的復(fù)雜度還主要和kernel-trick相關(guān)。所以,下文中的CF方法如果沒有kernel-trick,就簡稱基于DCF,如果加了kernel-trick,就簡稱基于KCF(劇透基本各占一半)。當(dāng)然這里的CN也有kernel-trick,但請注意,這是Martin Danelljan大神第一次使用kernel-trick,也是最后一次。。。

這就會(huì)引發(fā)一個(gè)疑問,kernel-trick這么強(qiáng)大的東西,怎么才提高這么點(diǎn)?這里就不得不提到Winsty的另一篇大作:

  • Wang N, Shi J, Yeung D Y, et al. Understanding and diagnosing visual tracking systems[C]// ICCV, 2015.

一句話總結(jié),別看那些五花八門的機(jī)器學(xué)習(xí)方法,那都是虛的,目標(biāo)跟蹤算法中特征才是最重要的(就是因?yàn)檫@篇文章我粉了WIN叔哈哈),以上就是最經(jīng)典的三個(gè)高速算法,CSK, KCF/DCF和CN,推薦。

第四部分:14年的尺度自適應(yīng)

VOT與OTB一樣最早都是2013年出現(xiàn)的,但VOT2013序列太少,第一名的PLT代碼也找不到,沒有參考價(jià)值就直接跳過了。直接到了VOT2014競賽 (http://t.cn/RYh2FSL)。這一年有25個(gè)精挑細(xì)選的序列,38個(gè)算法,那時(shí)候深度學(xué)習(xí)的戰(zhàn)火還沒有燒到tracking,所以主角也只能是剛剛展露頭角就獨(dú)霸一方的CF,下面是前幾名的詳細(xì)情況:

計(jì)算機(jī)視覺中,有哪些比較好的目標(biāo)跟蹤算法?(上)

前三名都是相關(guān)濾波CF類方法,第三名的KCF已經(jīng)很熟悉了,這里稍微有點(diǎn)區(qū)別就是加了多尺度檢測和子像素峰值估計(jì),再加上VOT序列的分辨率比較高(檢測更新圖像塊的分辨率比較高),導(dǎo)致競賽中的KCF的速度只有24.23(EFO換算66.6FPS)。這里speed是EFO(Equivalent Filter Operations),在VOT2015和VOT2016里面也用這個(gè)參數(shù)衡量算法速度,這里一次性列出來供參考(MATLAB實(shí)現(xiàn)的tracker實(shí)際速度要更高一些):

計(jì)算機(jī)視覺中,有哪些比較好的目標(biāo)跟蹤算法?(上)

其實(shí)前三名除了特征略有差異,核心都是KCF為基礎(chǔ)擴(kuò)展了多尺度檢測,概要如下:

計(jì)算機(jī)視覺中,有哪些比較好的目標(biāo)跟蹤算法?(上)

尺度變化是跟蹤中比較基礎(chǔ)和常見的問題,前面介紹的KCF/DCF和CN都沒有尺度更新,如果目標(biāo)縮小,濾波器就會(huì)學(xué)習(xí)到大量背景信息,如果目標(biāo)擴(kuò)大,濾波器就跟著目標(biāo)局部紋理走了,這兩種情況都很可能出現(xiàn)非預(yù)期的結(jié)果,導(dǎo)致漂移和失敗。

SAMF,浙大Yang Li的工作,基于KCF,特征是HOG+CN,多尺度方法是平移濾波器在多尺度縮放的圖像塊上進(jìn)行目標(biāo)檢測,取響應(yīng)最大的那個(gè)平移位置及所在尺度:

  • Li Y, Zhu J. A scale adaptive kernel correlation filter tracker with feature integration [C]// ECCV, 2014.

Martin Danelljan的DSST,只用了HOG特征,DCF用于平移位置檢測,又專門訓(xùn)練類似MOSSE的相關(guān)濾波器檢測尺度變化,開創(chuàng)了平移濾波+尺度濾波,之后轉(zhuǎn)TPAMI做了一系列加速的版本fDSST,非常+非常+非常推薦:

  • Danelljan M, H?ger G, Khan F, et al. Accurate scale estimation for robust visual tracking [C]// BMVC, 2014.

  • Danelljan M, Hager G, Khan F S, et al. Discriminative Scale Space Tracking [J]. IEEE TPAMI, 2017.

計(jì)算機(jī)視覺中,有哪些比較好的目標(biāo)跟蹤算法?(上)

簡單對比下這兩種尺度自適應(yīng)的方法:

DSST和SAMF所采用的尺度檢測方法哪個(gè)更好?

首先給大家講個(gè)笑話:Martin Danelljan大神提出DSST之后,他的后續(xù)論文就再?zèng)]有用過(直到最新CVPR的ECO-HC中為了加速用了fDSST)。

  1. 雖然SAMF和DSST都可以跟上普通的目標(biāo)尺度變化,但SAMF只有7個(gè)尺度比較粗,而DSST有33個(gè)尺度比較精細(xì)準(zhǔn)確;

  2. DSST先檢測最佳平移再檢測最佳尺度,是分步最優(yōu),而SAMF是平移尺度一起檢測,是平移和尺度同時(shí)最優(yōu),而往往局部最優(yōu)和全局最優(yōu)是不一樣的;

  3. DSST將跟蹤劃分為平移跟蹤和尺度跟蹤兩個(gè)問題,可以采用不同的方法和特征,更加靈活,但需要額外訓(xùn)練一個(gè)濾波器,每幀尺度檢測需要采樣33個(gè)圖像塊,之后分別計(jì)算特征、加窗、FFT等,尺度濾波器比平移濾波器慢很多;SAMF只需要一個(gè)濾波器,不需要額外訓(xùn)練和存儲(chǔ),每個(gè)尺度檢測就一次提特征和FFT,但在圖像塊較大時(shí)計(jì)算量比DSST高。

所以尺度檢測DSST并不總是比SAMF好,其實(shí)在VOT2015和VOT2016上SAMF都是超過DSST的,當(dāng)然這主要是因?yàn)樘卣鞲?,但至少說明尺度方法不差??偟膩碚f,DSST做法非常新穎,速度更快,SAMF同樣優(yōu)秀也更加準(zhǔn)確。

DSST一定要33個(gè)尺度嗎?

DSST標(biāo)配33個(gè)尺度非常非常敏感,輕易降低尺度數(shù)量,即使你增加相應(yīng)步長,尺度濾波器也會(huì)完全跟不上尺度變化。關(guān)于這一點(diǎn)可能解釋是,訓(xùn)練尺度濾波器用的是一維樣本,而且沒有循環(huán)移位,這就意味著一次訓(xùn)練更新只有33個(gè)樣本,如果降低樣本數(shù)量,會(huì)造成訓(xùn)練不足,分類器判別力嚴(yán)重下降,不像平移濾波器有非常多的移位樣本(個(gè)人看法歡迎交流)。總之,請不要輕易嘗試大幅降低尺度數(shù)量,如果非要用尺度濾波器33和1.02就很好。

以上就是兩種推薦的尺度檢測方法,以后簡稱為類似DSST的多尺度和類似SAMF的多尺度。如果更看重速度,加速版的fDSST,和僅3個(gè)尺度的SAMF(如VOT2014中的KCF)就是比較好的選擇;如果更看重精確,33個(gè)尺度的DSST,及7個(gè)尺度的SAMF就比較合適。

(未完待續(xù))


【計(jì)算機(jī)視覺基礎(chǔ)入門課程(從算法到實(shí)戰(zhàn)應(yīng)用】

上海交通大學(xué)博士講師團(tuán)隊(duì),BAT實(shí)習(xí)背景;手把手項(xiàng)目演示,全程提供代碼;從算法到實(shí)戰(zhàn)應(yīng)用,涵蓋CV領(lǐng)域主要知識(shí)點(diǎn);深度剖析CV研究體系,輕松實(shí)戰(zhàn)深度學(xué)習(xí)應(yīng)用領(lǐng)域!

課程地址:http://m.ozgbdpf.cn/special/mooc/05.html

加入AI慕課學(xué)院人工智能學(xué)習(xí)交流QQ群:624413030,與AI同行一起交流成長



相關(guān)文章:

算法到實(shí)戰(zhàn),如何零基礎(chǔ)入門計(jì)算機(jī)視覺領(lǐng)域

計(jì)算機(jī)視覺中,有哪些比較好的目標(biāo)跟蹤算法?(下)

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

計(jì)算機(jī)視覺中,有哪些比較好的目標(biāo)跟蹤算法?(上)

分享:
相關(guān)文章

編輯

聚焦數(shù)據(jù)科學(xué),連接 AI 開發(fā)者。更多精彩內(nèi)容,請?jiān)L問:yanxishe.com
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡介
為了您的賬戶安全,請驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說