奪冠Google AI地標(biāo)識別大賽，極鏈科技Video++將受邀出席2018CVPR

本文作者：木子

2018-06-01 19:07

導(dǎo)語：由Google主辦的2018 Google地標(biāo)識別挑戰(zhàn)賽于近日揭曉，來自Video++AI團(tuán)隊的參賽者以大比分優(yōu)勢獲得第1名。

經(jīng)過近3個月的激烈角逐，由Google主辦的2018 Google地標(biāo)識別挑戰(zhàn)賽于近日揭曉，來自Video++AI團(tuán)隊的參賽者以大比分優(yōu)勢獲得第1名。這是中國AI團(tuán)隊在此類國際大賽中第一次奪冠。

作為本次挑戰(zhàn)賽的獲勝者，Video++將受邀在美國舉辦的CVPR會議上發(fā)表技術(shù)研討，該會議是全球計算機視覺領(lǐng)域的頂級會議，在會議業(yè)界和學(xué)界都享負(fù)盛名。

今年3月，Google推出了目前世界上最大的人造和自然地標(biāo)識別數(shù)據(jù)Google-Landmarks。數(shù)據(jù)集中包含了200萬張圖片，囊括了全球30000處的獨特地標(biāo)，量級是普通的數(shù)據(jù)集的30倍，數(shù)據(jù)達(dá)到前所未有的龐大體量。

奪冠Google AI地標(biāo)識別大賽，極鏈科技Video++將受邀出席2018CVPR

Google-Landmarks地標(biāo)的地理分布

Google以此為契機推出了2018Google地標(biāo)識別挑戰(zhàn)賽，用于號召全球范圍內(nèi)計算機視覺領(lǐng)域的科學(xué)精英共同參與，以突破該數(shù)據(jù)目前缺乏大型標(biāo)注數(shù)據(jù)集的難題。

地標(biāo)識別挑戰(zhàn)賽全程在Google旗下Kaggle平臺進(jìn)行報名與提交，該平臺目前在全球范圍內(nèi)擁有近100萬的數(shù)據(jù)科學(xué)家用戶，是全球最具權(quán)威的數(shù)據(jù)科學(xué)競賽平臺。

參賽機制需要參賽者在給定查詢圖像后，在數(shù)據(jù)庫中識別出包含查詢地標(biāo)的所有圖像，這對于上百萬級的數(shù)據(jù)體量與無關(guān)信息過多的圖像內(nèi)容而言，挑戰(zhàn)難度難以想象。

除此之外，由于檢測對象是地標(biāo)的原因，它的識別相對其他對象的同類操作之間也存在顯著差異。例如，就算在大型帶標(biāo)注的數(shù)據(jù)集里，那些不太熱門的地標(biāo)，一般情況下是不存在訓(xùn)練數(shù)據(jù)的；另外，地標(biāo)通常是不可移動的剛性對象，此時圖像的捕獲條件，如遮擋、角度、天氣、光線等，都會對識別結(jié)果產(chǎn)生影響。

盡管如此，地標(biāo)識別挑戰(zhàn)賽仍舊吸引了來自全球的483支團(tuán)隊、653名選手參賽，賽程先后歷時近3個月，參賽者都是世界各地計算機視覺領(lǐng)域具有豐富經(jīng)驗的優(yōu)質(zhì)個人與團(tuán)隊。Video++的AI團(tuán)隊最終以總比分0.304位列榜單第1名，超越了很多知名AI團(tuán)隊；第二名和第三名的得分分別為0.290和0.289。

奪冠Google AI地標(biāo)識別大賽，極鏈科技Video++將受邀出席2018CVPR

Google地標(biāo)識別挑戰(zhàn)賽榜單排名

作為本次Google地標(biāo)識別挑戰(zhàn)賽的冠軍，Video++的參賽AI團(tuán)隊也分享了他們的獲勝方案：

本次比賽訓(xùn)練數(shù)據(jù)集接近120萬張，近1.5萬個類別，但是每個類別的圖片數(shù)目差距較大，大多數(shù)分類的圖片數(shù)目很少，甚至超過2000類圖片數(shù)目少于5張。對數(shù)據(jù)集進(jìn)行分析，總結(jié)數(shù)據(jù)集分類有以下幾個難點：

（1）類別圖片數(shù)量不均，數(shù)量最多的可達(dá)到5萬多張，數(shù)量最少的只有1張；

（2）由于數(shù)據(jù)集未經(jīng)過人工清洗，訓(xùn)練集中存在較多的干擾圖像；

（3）對不同類別聚類可發(fā)現(xiàn)，同一個landmark可能會出現(xiàn)在多個分類，不同的landmark可能非常相似；

（4）訓(xùn)練集中有較多非建筑物類別，如河流、山等，這樣屬于同一種場景的不同類別難以分辨。

奪冠Google AI地標(biāo)識別大賽，極鏈科技Video++將受邀出席2018CVPR

本次識別比賽奪冠采用的方法大致如下：

針對訓(xùn)練集中的干擾圖像，使用Babenko等人構(gòu)建的landmark數(shù)據(jù)集訓(xùn)練ResNet+RMac，得到用于retrieval的基礎(chǔ)特征描述模型，并用該模型的全局特征描述子做類內(nèi)相似度，清理掉與該分類無關(guān)的圖像；針對數(shù)量不均，對每個類中的圖像構(gòu)造相似度連接圖，設(shè)定相似度閾值0.65，構(gòu)造多個類內(nèi)關(guān)聯(lián)簇，用于訓(xùn)練和微調(diào)；對圖片數(shù)目較少的圖像做復(fù)制、裁剪、翻轉(zhuǎn)、選裝等操作增加樣本數(shù)量。

分類網(wǎng)絡(luò)的訓(xùn)練，直接訓(xùn)練15k類，基礎(chǔ)網(wǎng)絡(luò)選用VGG、ResNet50、ResNet101、ResNext、Inception-V3、Inception-Resnet-V2，驗證集準(zhǔn)確率為96-99%。

對于圖片數(shù)量較少的分類，通過retrieval基礎(chǔ)特征描述模型提取全局描述，并做聚類，聚類成250類，將250類與原有圖片數(shù)目高于20的類組成6558類新訓(xùn)練集訓(xùn)練分類；對小于20的分類在15k類分類器后修改全連接，微調(diào)網(wǎng)絡(luò)，只訓(xùn)練小于20張圖片的8648類。

Retrieval對分類也有很大作用，在Babenko等人構(gòu)建的landmark數(shù)據(jù)集訓(xùn)練了R-MAC、DIR、GeM，基礎(chǔ)網(wǎng)絡(luò)為VGG、ResNet50。并用我們清理過的訓(xùn)練集微調(diào)，整合各模型輸出的描述特征，以及DIR PCA前特征，根據(jù)各模型檢索效果設(shè)置權(quán)重拼接特征，并做L2+PCA，降低維度至4096。

Retriveal輸出特征比較方式我們有兩種，一種是直接將test圖像在清理后的數(shù)據(jù)集中檢索到相似度最高的那張圖片所在分類記為最后的類別，一種是記錄top-k（k=100/200），并對k張圖像做每個分類做數(shù)量統(tǒng)計和相似度均值，數(shù)量多且平均相似度高的類別記為最后的類別。

Retrieval的特征描述同樣也可用于分類，我們直接在4096維特征后增加分類器，分類14951、6558、8648，得到多個預(yù)測結(jié)果并同以上結(jié)果進(jìn)行不同方式的投票或weighted average融合。

最后，由于此次比賽使用的evaluation方式為GAP@1而不是單純的Top-1 accuracy，訓(xùn)練時不論在驗證集上取得多高的accuracy（曾經(jīng)到過0.99+）都不能確保最后在leaderboard上的分?jǐn)?shù)得到質(zhì)的飛越。舉個例子，如果你對5張圖片進(jìn)行預(yù)測，結(jié)果為第1,2,3,5正確第4錯誤，那么傳統(tǒng)意義上你得了0.8分：4張正確的得4分除以總數(shù)5張，但用GAP@1來計算的話你對第5張的正確預(yù)測只獲得0.8分，這個0.8來自于你前5張對了4張，所以最后的得分為（1+1+1+0+0.8）除以5結(jié)果為0.76。換句話說，排序越靠前的預(yù)測對最后得分的占比權(quán)重越高。對此我們在最后一個月內(nèi)所有的提交都采取了以下的recursive stack方式。我們將先前幾次分?jǐn)?shù)最高的提交進(jìn)行了融合：只保留可信度大于0.95且所有模型都預(yù)測一致的圖片，而這個大約只有200張圖的提交居然得分就超過了0.11，也就是說測試集內(nèi)真正用來算分的圖片總數(shù)應(yīng)該小于2000張（實際情況可能更少）。至此，我們接下去所有微調(diào)的模型都不對這200張圖進(jìn)行預(yù)測并且對訓(xùn)練集中對于它們的label進(jìn)行一定比例的減少。在比賽最后兩周我們的safe list里大約有500張圖，public leaderboard的分?jǐn)?shù)大概0.29左右。這時我們再次運用檢索比賽中效果最好的模型對這500張圖在測試集中進(jìn)行檢索，取可信度大于0.95的match并給它們標(biāo)上相同的label。

另外，Video++的參賽AI團(tuán)隊還表示他們在此次挑戰(zhàn)賽中運用到的算法將用于Video++的產(chǎn)品中。

此次參與到Google挑戰(zhàn)賽，與全球科學(xué)技術(shù)大咖同場競技，是Video++深耕AI技術(shù)的一次成果展示。經(jīng)過多年的經(jīng)驗累積與技術(shù)沉淀，Video++在場景識別與檢索上已取得豐碩成果，并成功實現(xiàn)AI+文娛的商業(yè)化規(guī)模應(yīng)用，成為國內(nèi)這一領(lǐng)域的領(lǐng)導(dǎo)者。而此次在Google挑戰(zhàn)賽中勇奪桂冠，彰顯了Video++在計算機視覺領(lǐng)域的領(lǐng)先實力。未來，Video++還將加速技術(shù)創(chuàng)新，擁抱科技力量，持續(xù)把AI技術(shù)滲透到大文娛產(chǎn)業(yè)的各個場景，力爭成為享譽海內(nèi)外的AI+文娛的產(chǎn)業(yè)風(fēng)向標(biāo)。

雷鋒網(wǎng)

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

3人收藏

相關(guān)文章

木子

編輯

掃描關(guān)注作者微信

發(fā)私信

當(dāng)月熱門文章

奪冠Google AI地標(biāo)識別大賽，極鏈科技Video++將受邀出席2018CVPR

奪冠Google AI地標(biāo)識別大賽，極鏈科技Video++將受邀出席2018CVPR