AI科技評(píng)論報(bào)道
本文是計(jì)算機(jī)視覺(jué)領(lǐng)域頂級(jí)會(huì)議ICCV2021入選論文《An Empirical Study of the Collapsing Problem in Semi-Supervised 2D Human Pose Estimation(半監(jiān)督二維人體姿態(tài)估計(jì)中的模型坍塌問(wèn)題研究)》的解讀。 該論文由北京大學(xué)王亦洲課題組與微軟亞洲研究院合作完成,研究了一致性學(xué)習(xí)算法在二維人體姿態(tài)估計(jì)中的模型坍塌問(wèn)題,并提出了構(gòu)建預(yù)測(cè)難度存在差異的樣本對(duì)來(lái)解決該問(wèn)題。本文提出的算法可以有效地利用無(wú)標(biāo)記數(shù)據(jù)中的信息,顯著提高了姿態(tài)估計(jì)模型的泛化能力。
論文地址:https://arxiv.org/abs/2011.12498
代碼鏈接:https://github.com/xierc/Semi_Human_Pose 二維人體姿態(tài)估計(jì)在公開(kāi)數(shù)據(jù)集上的精度不斷獲得提升,但因?yàn)椴渴饒?chǎng)景和訓(xùn)練數(shù)據(jù)的差異,絕大多數(shù)模型在實(shí)際使用時(shí)都會(huì)面臨泛化性能降低這一挑戰(zhàn)。半監(jiān)督學(xué)習(xí)為解決這一問(wèn)題提供了可能,它利用少量標(biāo)注數(shù)據(jù)和大量無(wú)標(biāo)注數(shù)據(jù)(比如來(lái)自實(shí)際部署場(chǎng)景)進(jìn)行共同訓(xùn)練,期望提升模型在目標(biāo)場(chǎng)景下的泛化能力。
目前半監(jiān)督學(xué)習(xí)的方法中,結(jié)果最好的方法大多基于一致性訓(xùn)練(Consistency-based)[1][2]。也就是要求模型在一張圖像的不同擾動(dòng)(Perturbation)上產(chǎn)生一致的輸出,從而去探索無(wú)標(biāo)簽圖像中存在的特征。一致性損失如公式所示, 代表模型輸出, 表示擾動(dòng)參數(shù)。但是,目前絕大多數(shù)工作都只在分類(lèi)任務(wù)上進(jìn)行了算法有效性的驗(yàn)證。
但當(dāng)我們把這些方法應(yīng)用到二維人體姿態(tài)估計(jì)時(shí),我們發(fā)現(xiàn)大部分的一致性訓(xùn)練方法都遇到了模型坍塌的問(wèn)題(Model Collapsing)—— 模型在有標(biāo)注的圖像上能夠預(yù)測(cè)出正確的heatmap,但在無(wú)標(biāo)注的圖像上對(duì)每個(gè)像素的預(yù)測(cè)都是0。 注意在這種情況下,雖然一致性損失是最小的,但模型在無(wú)標(biāo)簽數(shù)據(jù)上卻沒(méi)有學(xué)到任何有意義的信息。
圖1. 經(jīng)典的一致性訓(xùn)練方法在二維人體姿態(tài)估計(jì)任務(wù)上的表現(xiàn)。(a) 預(yù)測(cè) Heatmap 響應(yīng)的變化。(b) 平均精確率的變化。
具體情況如圖1 (a) 所示,隨著訓(xùn)練次數(shù)的增加,模型在無(wú)標(biāo)注數(shù)據(jù)上產(chǎn)生退化的輸出(整張圖像被預(yù)測(cè)成背景)。有意思的是模型在標(biāo)注數(shù)據(jù)上依然能夠產(chǎn)生正確的輸出,這個(gè)觀察意味著網(wǎng)絡(luò)能夠區(qū)分訓(xùn)練圖像來(lái)自于無(wú)標(biāo)注/有標(biāo)注數(shù)據(jù)集。在圖1 (b) 中,模型在驗(yàn)證數(shù)據(jù)集上的精度逐漸接近于0,可確認(rèn)此時(shí)發(fā)生了退化。
? ? ? ? ? ? ? ? ? ? ? ? 在文章里,我們通過(guò)實(shí)驗(yàn)對(duì)這個(gè)現(xiàn)象進(jìn)行了深入分析,發(fā)現(xiàn)可能是類(lèi)別不均衡問(wèn)題導(dǎo)致的。在人體姿態(tài)估計(jì)任務(wù)中,一張圖像中絕大部分像素屬于背景,只有一小部分屬于前景(對(duì)應(yīng)關(guān)節(jié)點(diǎn)附近的高斯區(qū)域)。因此該任務(wù)中存在非常嚴(yán)重的類(lèi)別不均衡問(wèn)題。
當(dāng)模型針對(duì)兩個(gè) 對(duì)應(yīng) 的像素(來(lái)自于兩個(gè) Perturbations)產(chǎn)生不一致的預(yù)測(cè)時(shí) ,比如一個(gè)預(yù)測(cè)為1(前 景),一個(gè)預(yù)測(cè)為0(背景)。 經(jīng)典的一致性訓(xùn)練方法中,試圖 同時(shí)更新兩個(gè)預(yù)測(cè)值 ,從而移動(dòng)決策邊界,使得兩者位于邊界的同一側(cè)。 而因?yàn)轭?lèi)別不均衡問(wèn)題的存在,決策邊界傾向于移動(dòng)到全局來(lái)看樣本數(shù)目更稀疏的少數(shù)類(lèi)別區(qū)域(也就是前景)。 因此,隨著訓(xùn)練的進(jìn)行,我們發(fā)現(xiàn)越來(lái)越多的像素被預(yù)測(cè)成背景。 圖示分析可見(jiàn)圖2。
圖2. (A) 進(jìn)行無(wú)監(jiān)督訓(xùn)練前的決策邊界。(B) 經(jīng)典的一致性訓(xùn)練方法試圖讓同一圖像在不同擾動(dòng)下的預(yù)測(cè)保持一致,因此該損失函數(shù)傾向于驅(qū)動(dòng)決策平面移動(dòng)到樣本數(shù)量較少的前景區(qū)域,從而導(dǎo)致越來(lái)越多的像素被預(yù)測(cè)成背景。(C) 本文提出的方法,具體介紹見(jiàn)下文。? ? ? ? ? ? ? ? ? ? ? ?
上 面的分析促使我們?cè)谟?jì)算一致性損失的時(shí)候,應(yīng)該考慮兩個(gè)輸出的準(zhǔn)確性,從而用 相對(duì)準(zhǔn)確的預(yù)測(cè)去監(jiān)督另外一個(gè)預(yù)測(cè) 。 我們?cè)诮y(tǒng)計(jì)中發(fā)現(xiàn),對(duì)圖像進(jìn)行簡(jiǎn)單的圖像增強(qiáng)后得到的結(jié)果要比進(jìn)行困難的圖像增強(qiáng)更準(zhǔn)確。 基于此,我們提出了一個(gè)非常簡(jiǎn)單的訓(xùn)練方式。 圖3. 本文提出的 Easy-Hard 數(shù)據(jù)增強(qiáng)方法 如上圖所示,針對(duì)一張無(wú)標(biāo)簽圖像,我們分別進(jìn)行一次“Easy”和“Hard”的圖像增強(qiáng),并將其分別輸入姿態(tài)估計(jì)模型預(yù)測(cè) Heatmap。當(dāng)網(wǎng)絡(luò)接收來(lái)自于簡(jiǎn)單增強(qiáng)的圖像時(shí),得到的預(yù)測(cè)值被當(dāng)作 Teacher,用于監(jiān)督對(duì)應(yīng)的接收困難增強(qiáng)的圖像的預(yù)測(cè)。 值得注意的是,這里的梯度傳播是單向的 ,也就是說(shuō)困難增強(qiáng)的圖像的結(jié)果并不會(huì)去指導(dǎo)對(duì)應(yīng)的簡(jiǎn)單增強(qiáng)的圖像,從而盡可能降低因?yàn)殄e(cuò)誤的監(jiān)督而導(dǎo)致模型退化的可能性。這種方法可以成功避免退化的問(wèn)題,其訓(xùn)練過(guò)程和結(jié)果可參考圖4。 圖4. 本文方法成功解決了模型退化的問(wèn)題 在 Easy-Hard 增強(qiáng)方法解決了模型退化問(wèn)題的基礎(chǔ)上,本文中進(jìn)一步提出了雙重網(wǎng)絡(luò)的訓(xùn)練方式。雙重網(wǎng)絡(luò)通過(guò)增加 Teacher 和 Student 預(yù)測(cè)間的差異,來(lái)避免一致性訓(xùn)練過(guò)早收斂,從而提高了半監(jiān)督學(xué)習(xí)的效果。 如圖5所示,該方法同時(shí)訓(xùn)練兩個(gè)參數(shù)獨(dú)立且初始化不同的網(wǎng)絡(luò),并且在它們之間通過(guò)無(wú)標(biāo)記樣本來(lái)交換信息。該方法同樣使用了 Easy-Hard 增強(qiáng)方法來(lái)避免模型退化。具體來(lái)說(shuō),模型一在簡(jiǎn)單樣本下得到的預(yù)測(cè),將用于監(jiān)督模型二在困難樣本下的預(yù)測(cè)。反之亦然,模型二的預(yù)測(cè)值也同樣用于指導(dǎo)模型一的訓(xùn)練,兩者互為教師和學(xué)生模型。 圖5. 本文提出的雙重網(wǎng)絡(luò)模型 我們?cè)诙鄠€(gè)數(shù)據(jù)集和多個(gè)基線方法上進(jìn)行了大量的實(shí)驗(yàn),驗(yàn)證了本文提出的訓(xùn)練方式可以取得非常好的效果。 表1. COCO 數(shù)據(jù)集中半監(jiān)督學(xué)習(xí)設(shè)置下的結(jié)果 表2. COCO 數(shù)據(jù)集中使用全量標(biāo)記樣本,在驗(yàn)證集的結(jié)果 表3. COCO 數(shù)據(jù)集中使用全量標(biāo)記樣本,在測(cè)試集的結(jié)果 在 COCO 數(shù)據(jù)集上,當(dāng)只使用少量標(biāo)簽數(shù)據(jù)時(shí)(表1),本文的方法大約能提升8%-13%的平均精確率。如表2、表3所示,在使用訓(xùn)練集的全量數(shù)據(jù)時(shí),本文方法仍然能夠增加2%-3%的平均精確率。這些結(jié)果都驗(yàn)證了本文方法的有效性和實(shí)用性。此外,論文中還匯報(bào)了本文方法在領(lǐng)域自適應(yīng),模型預(yù)訓(xùn)練等任務(wù)中的應(yīng)用結(jié)果,也取得了較顯著的改善。 參考文獻(xiàn)
[1] Kihyuk Sohn, David Berthelot, Chun-Liang Li, Zizhao Zhang, Nicholas Carlini, Ekin D Cubuk, Alex Kurakin, Han Zhang, and Colin Raffel. Fixmatch: Simplifying semisupervised learning with consistency and confidence. In Advances in Neural Information Processing Systems, 2020.
[2] David Berthelot, Nicholas Carlini, Ian Goodfellow, Nicolas Papernot, Avital Oliver, and Colin A Raffel. Mixmatch: A holistic approach to semi-supervised learning. In Advances in Neural Information Processing Systems, pages 5049–5059, 2019.
雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知 。