丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
人工智能開發(fā)者 正文
發(fā)私信給skura
發(fā)送

0

ICCV 2019 Tiger Pose Detection 冠軍團隊技術分享

本文作者: skura 2019-11-06 16:43 專題:ICCV 2019
導語:詳細解決方案

近日,在 ICCV 2019 Workshop 舉辦的 CVWC2019 公布了最終結果,來自深蘭科技北京 AI 研發(fā)中心的 DeepBlueAI 團隊斬獲了 Tiger Pose Detection 賽道冠軍。

本文作者深蘭科技北京 AI 研發(fā)中心羅志鵬。我們可以通過這篇文章來了解一下 DeepBlueAI 團隊的解決方案。

1.CVWC 2019

1.1CVWC 介紹

CVWC 是頂會 ICCV 會議下的一個 Workshop, 旨在探索如何使用 CV 技術保護瀕臨滅絕的野生動植物,特別是針對阿穆爾虎,也稱為西伯利亞虎或東北虎。阿穆爾虎種群主要集中在遠東地區(qū),特別是俄羅斯遠東地區(qū)和中國東北地區(qū)。估計剩余的野生種群為 600 只,因此保護至關重要。

與往年一樣,CVWC2019 分為四個賽道:Tiger Detection、Tiger Pose Detection、Tiger Re-ID with Human Alignment (Plain Re-ID)、Tiger Re-ID in the Wild,而我們隊伍「DeepBlueAI」在 Tiger Pose Detection 賽道中取得了冠軍的成績。

1.2 賽題介紹

CVWC 2019 關注瀕危野生動物保護問題。保護野生生物對于維持健康和平衡的生態(tài)系統(tǒng)以及確保我們世界的持續(xù)生物多樣性至關重要。瀕危物種尤其是生物多樣性和環(huán)境健康的重要指標。世界各國政府以及諸如 WWF(世界野生動物基金會)之類的環(huán)境組織已經投入了許多資源和項目來保護瀕臨滅絕的物種。對野生動植物保護至關重要的是,監(jiān)測野生動植物地理空間分布的趨勢并跟蹤種群。

計算機視覺技術能夠從攝像機陷阱甚至無人機收集大量圖像數據,并使用此圖像構建從邊緣到云的系統(tǒng)以保護野生生物;并可以應用于智能成像傳感器,以捕獲與野生動植物相關的圖像/視頻并監(jiān)視野生動植物。

主辦方在比賽中提供了來自中國 10 個動物園采集的 8,000 多只 92 頭個體的東北虎視頻片段,并對視頻幀創(chuàng)建邊界框,基于關鍵點的姿勢和身份注釋,并制定 ATRW(野外阿穆爾虎重新識別)數據集的格式。比賽選手需要對老虎的姿態(tài)關鍵點進行預測。

1.3 評測指標

每天,提交的姿態(tài)關鍵點結果將會和真實姿態(tài)關鍵點標注比較,并根據 mAP 和 OKS(Object Keypoint Similarity)評分:

ICCV 2019 Tiger Pose Detection 冠軍團隊技術分享

ICCV 2019 Tiger Pose Detection 冠軍團隊技術分享表示 groundtruth 中每個老虎與預測的每個老虎的關鍵點的歐式距離;ICCV 2019 Tiger Pose Detection 冠軍團隊技術分享為尺度因子;ICCV 2019 Tiger Pose Detection 冠軍團隊技術分享為歸一化因子;ICCV 2019 Tiger Pose Detection 冠軍團隊技術分享代表第ICCV 2019 Tiger Pose Detection 冠軍團隊技術分享個人是否可見;

1.4 團隊成績

ICCV 2019 Tiger Pose Detection 冠軍團隊技術分享

1.5 題目特點以及常用方法

人體姿態(tài)檢測問題現有研究比較多,但是對于老虎姿態(tài)檢測比較新,與人體姿態(tài)檢測不同的是,老虎的姿態(tài)關鍵點上半身與下半身、對陣點的設置與人體姿態(tài)檢測不同?,F有的高精度姿態(tài)檢測模型有 CPN(Cascaded Pyramid Network)網絡、MSPN 網絡以及 HRNet。CPN 是采用 Top-down 自上而下的檢測策略,GolbalNet 負責網絡所有關鍵點的檢測(容易檢測的點),RefineNet 指的是對 GolbalNet 預測的結果進行修正的網絡(困難的點誤差大)。MSPN 采用多階段的特征聚合策略以及粗到細的監(jiān)督來提升精度。HRNet 通過保持搞分辨率,以及不同分辨率之間的信息流動來提升精度。

1.6 比賽數據與數據分析

本題提供主要老虎的 15 個關鍵點信息:

a) 關鍵點名稱:

["left_ear","right_ear","nose","front_right_elbow","front_right_wrist","front_left_elbow","front_left_wrist","back_right_hip","back_right_knee","back_right_ankle","back_left_hip","back_left_knee","back_left_ankle","tail","neck"]

b) 關鍵點對:

[[1,3],[2,3],[3,15],[15,4],[15,6],[4,5],[6,7],[15,14],[14,8],[14,11],[8,9],[9,10],[11,12],[12,13]]

ICCV 2019 Tiger Pose Detection 冠軍團隊技術分享

首先,我們觀察了老虎關鍵點的特點,與人題關鍵點類比,將這個 15 個關鍵點分別設置權重 [1., 1., 1., 1.2, 1.2, 1.2, 1.2,1.5, 1, 1.2, 1.5, 1, 1.2, 1.5, 1.5]。

1.7.BaseLine

由于數據集較小且數據且是對野生動物的姿態(tài)估計,如果采用過于復雜的模型容易造成過擬合,或者在 OHEM 的過程中導致模型無法收斂。

對比于 MSPN 我們采用結構更加簡單,更加高效的模型——HRnet 作為我們的 BaseLine,結構如下圖所示:

ICCV 2019 Tiger Pose Detection 冠軍團隊技術分享

HRnet 是并行連接高分辨率到低分辨率的子網,而不是像大多數現有解決方案那樣串行連接。因此,這種方法能夠保持高分辨率,而不是通過一個低到高的過程恢復分辨率,因此預測的熱圖可能在空間上更精確。

大多數現有的融合方案都將低層和高層的表示集合起來。相反,我們使用重復的多尺度融合,利用相同深度和相似級別的低分辨率表示來提高高分辨率表示,反之亦然,從而使得高分辨率表示對于姿態(tài)的估計也很充分。因此,HRnet 預測的熱圖可能更準確。

1.8 改進的 Unet Plus 網絡

我們發(fā)現關鍵點檢測在 Pipeline 上與語義分割有類似的部分,MSPN 和 CPN 均有 Top-Down 這種結構來聚合特征,減少信息丟失。因此,我們選用 Unet 作為基礎結構;同時借鑒 HRNet 這種逐層保持對應分辨率,不同分辨率之間存在信息交換的結構,融合多尺度的信息, 將 Unet 原來的 Skip Connection 結構更換成部分深層信息向上流動的結構。同時對每個層次的輸出,經過上采樣到同一大小后進行 Concat 操作,這是借鑒 Hyper Column 模型的思想,最終的改動模型如下圖所示。

ICCV 2019 Tiger Pose Detection 冠軍團隊技術分享

1.9 實驗模型

我們主要實驗了 4 種模型,CPN, MSPN 與 HRNet、改進 UnetPlus 模型。
對于 HRNet 我們分別使用了一些注意力機制,第一個是 Spatial Group-wise Enhance Module:

ICCV 2019 Tiger Pose Detection 冠軍團隊技術分享

SGE 通過在在每個 group 里生成 attention factor,這樣就能得到每個 sub feature 的重要性,每個 group 也可以有針對性的學習和抑制噪聲。這個 attention factor 僅由各個 group 內全局和局部特征之間的相似性來決定,SGE 顯著改善了組內不同語義子特征的空間分布,并產生較大的統(tǒng)計方差,增強了語義區(qū)域的特征學習,壓縮了噪聲和干擾, 此外,SGE 非常輕量級。第二個是空間注意力機制(Spatial Attention)模塊:

ICCV 2019 Tiger Pose Detection 冠軍團隊技術分享

與通道注意力相似,給定一個 H×W×C 的特征 F,先分別進行一個通道維度的平均池化和最大池化得到兩個 H×W×1 的通道描述,并將這兩個描述按照通道拼接在一起。然后,經過一個 7×7 的卷積層,激活函數為 Sigmoid,得到權重系數 Ms。最后,拿權重系數和特征 F 相乘即可得到縮放后的新特征。

 其次,我們嘗試使用空洞卷積,去保留更多的空間信息,空洞卷積結構如下圖所示:

ICCV 2019 Tiger Pose Detection 冠軍團隊技術分享

a) 圖對應 3x3 的 1-dilated conv,和普通的卷積操作一樣,

(b) 圖對應 3x3 的 2-dilated conv,實際的卷積 kernel size 還是 3x3,但是空洞為 1,也就是對于一個 7x7 的圖像 patch,只有 9 個紅色的點和 3x3 的 kernel 發(fā)生卷積操作,其余的點略過。也可以理解為 kernel 的 size 為 7x7,但是只有圖中的 9 個點的權重不為 0,其余都為 0??梢钥吹诫m然 kernel size 只有 3x3,但是這個卷積的感受野已經增大到了 7x7(如果考慮到這個 2-dilated conv 的前一層是一個 1-dilated conv 的話,那么每個紅點就是 1-dilated 的卷積輸出,所以感受野為 3x3,所以 1-dilated 和 2-dilated 合起來就能達到 7x7 的 conv),

(c) 圖是 4-dilated conv 操作,同理跟在兩個 1-dilated 和 2-dilated conv 的后面,能達到 15x15 的感受野。對比傳統(tǒng)的 conv 操作,3 層 3x3 的卷積加起來,stride 為 1 的話,只能達到 (kernel-1)*layer+1=7 的感受野,也就是和層數 layer 成線性關系,而 dilated conv 的感受野是指數級的增長。
dilated 的好處是不做 pooling 損失信息的情況下,加大了感受野,讓每個卷積輸出都包含較大范圍的信息。這個模塊其實還有很多的使用技巧,例如最后一層不進行下采樣,或者在適當的 layer 加入此模塊,這里由于時間限制并沒有做過多的實驗,感興趣的同學可以進一步研究。

以下為最終實驗結果:

ICCV 2019 Tiger Pose Detection 冠軍團隊技術分享

1.10 模型融合

模型融合是算法大賽中常用的提高模型精度方法,有些比賽在競爭激烈的后期用了幾十甚至上百模型。我們最終選擇了單模型 mAP 比較高的 HRNetW48+SGE、HRNetW48+SA、改進 Unet Plus+ResNet152 這三個模型,并在線上的結果為 0.904。

對于 Unet Plus,之所以沒用更強的模型是因為 GPU 資源有限,我們在 2080ti 的 GPU 上,只能將 batch_size 參數設置為 1(batch_size_per_gpu), 如果使用更大的 batch_size 結果有望進一步提升

總結

在前期嘗試過程中發(fā)現他和語義分割任務有部分相似的地方,所以就嘗試將語義分割任務里有效的結構移植過來,做一些嘗試,經過試驗發(fā)現,一些空間信息增強模塊以及深淺層信息融合模塊在該任務中是能夠有效提分的。

由于數據集分布的原因,之前許多在 COCO 數據集上行之有效的方法,不能在這個數據集上取得很好的效果,所以我們需要通過控制變量法,來一個一個進行實驗驗證。且在較輕量的數據集上,不宜使用過于復雜的算法結構,否則會引起反效果

參考文獻

[1]Sun K , Xiao B , Liu D , et al. Deep High-Resolution Representation Learning for Human Pose Estimation[J]. 2019.

[2]Ronneberger O , Fischer P , Brox T . U-Net: Convolutional Networks for Biomedical Image Segmentation[J]. 2015.

[3]Li W , Wang Z , Yin B , et al. Rethinking on Multi-Stage Networks for Human Pose Estimation[J]. 2019.

[4]Chen Y , Wang Z , Peng Y , et al. Cascaded Pyramid Network for Multi-Person Pose Estimation[J]. 2017.

[5]Yu F , Koltun V . Multi-Scale Context Aggregation by Dilated Convolutions[J]. 2015.

[6]Laskar Z , Kannala J . Context Aware Query Image Representation for Particular Object Retrieval[J]. 2017.

ICCV 2019 Tiger Pose Detection 冠軍團隊技術分享

雷鋒網

雷峰網版權文章,未經授權禁止轉載。詳情見轉載須知。

ICCV 2019 Tiger Pose Detection 冠軍團隊技術分享

分享:
相關文章
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說