丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能學(xué)術(shù) 正文
發(fā)私信給我在思考中
發(fā)送

0

浙大蔡登團(tuán)隊(duì):基于序列對(duì)比學(xué)習(xí)的長(zhǎng)視頻逐幀動(dòng)作表征

本文作者: 我在思考中 2022-05-17 09:56
導(dǎo)語(yǔ):結(jié)合Transformer和對(duì)比學(xué)習(xí),自監(jiān)督長(zhǎng)視頻逐幀動(dòng)作表征最新進(jìn)展!

浙大蔡登團(tuán)隊(duì):基于序列對(duì)比學(xué)習(xí)的長(zhǎng)視頻逐幀動(dòng)作表征

浙大蔡登團(tuán)隊(duì)攜手微軟亞洲研究院,提出了一個(gè)新的對(duì)比動(dòng)作表征學(xué)習(xí)(CARL)框架,以自監(jiān)督的方式學(xué)習(xí)逐幀動(dòng)作表征,尤其是針對(duì)長(zhǎng)視頻;它考慮了時(shí)空上下文來(lái)提取逐幀表征,是一種基于Transformer的簡(jiǎn)單而高效的視頻編碼器。

他們提出了一種新的序列對(duì)比損失(SCL),應(yīng)用于通過(guò)一系列時(shí)空數(shù)據(jù)增強(qiáng)獲得的兩個(gè)相關(guān)的視圖。在FineGym、PennAction和Pouring數(shù)據(jù)集上的實(shí)驗(yàn)表明,該方法在下游細(xì)粒度動(dòng)作分類(lèi)方面大大優(yōu)于已有的最新技術(shù)。值得一提的是,雖然沒(méi)有用成對(duì)視頻進(jìn)行訓(xùn)練,但該方法在視頻對(duì)齊和細(xì)粒度幀檢索任務(wù)方面也有著出色的表現(xiàn)。

編譯 | 龔倩

編輯 | 陳彩嫻



1

引言
浙大蔡登團(tuán)隊(duì):基于序列對(duì)比學(xué)習(xí)的長(zhǎng)視頻逐幀動(dòng)作表征

論文鏈接:https://arxiv.org/pdf/2203.14957.pdf

在過(guò)去幾年中,基于深度學(xué)習(xí)的視頻理解在視頻分類(lèi)任務(wù)上取得了巨大成功。I3D和SlowFast等網(wǎng)絡(luò)通常將短視頻片段(32幀或64幀)作為輸入,提取全局表征來(lái)預(yù)測(cè)動(dòng)作類(lèi)別。不過(guò),許多實(shí)際應(yīng)用,例如手語(yǔ)翻譯、機(jī)器人模仿學(xué)習(xí)、動(dòng)作對(duì)齊和相位分類(lèi)都要求算法能夠?qū)哂袛?shù)百幀的長(zhǎng)視頻進(jìn)行建模,并提取逐幀表征,而不是全局特征。

浙大蔡登團(tuán)隊(duì):基于序列對(duì)比學(xué)習(xí)的長(zhǎng)視頻逐幀動(dòng)作表征

(a) 在FineGym 數(shù)據(jù)集上的細(xì)粒度幀檢索

浙大蔡登團(tuán)隊(duì):基于序列對(duì)比學(xué)習(xí)的長(zhǎng)視頻逐幀動(dòng)作表征

(b) 在Pouring 數(shù)據(jù)集上的相位邊界檢測(cè)

浙大蔡登團(tuán)隊(duì):基于序列對(duì)比學(xué)習(xí)的長(zhǎng)視頻逐幀動(dòng)作表征

(c)在PennAction 數(shù)據(jù)集上的時(shí)間視頻對(duì)齊

以前的方法嘗試通過(guò)監(jiān)督學(xué)習(xí)來(lái)學(xué)習(xí)逐幀表征,其中子動(dòng)作或相位邊界被注釋。然而,在大規(guī)模數(shù)據(jù)集上手動(dòng)標(biāo)記每個(gè)幀和精確的動(dòng)作邊界非常耗時(shí),甚至不切實(shí)際,從而妨礙了基于全監(jiān)督學(xué)習(xí)訓(xùn)練的模型在現(xiàn)實(shí)場(chǎng)景中的推廣。為了減少對(duì)標(biāo)記數(shù)據(jù)的依賴性,TCC、LAV和GTA等方法通過(guò)使用循環(huán)一致性損失或軟動(dòng)態(tài)時(shí)間扭曲來(lái)進(jìn)行弱監(jiān)督學(xué)習(xí)。所有這些方法都依賴于視頻水平的注釋,并且是用表現(xiàn)相同動(dòng)作的成對(duì)視頻進(jìn)行訓(xùn)練的。該前提使得在沒(méi)有可用標(biāo)簽的更一般的視頻數(shù)據(jù)集中無(wú)法應(yīng)用這些方法。

本研究的目的是以自監(jiān)督方式學(xué)習(xí)長(zhǎng)視頻中具有時(shí)空上下文信息的逐幀表征。受對(duì)比表征學(xué)習(xí)最新進(jìn)展的啟發(fā),我們提出了一個(gè)新框架——對(duì)比動(dòng)作表征學(xué)習(xí)(CARL)。我們假設(shè)在訓(xùn)練期間沒(méi)有可用的標(biāo)簽,并且訓(xùn)練和測(cè)試集中的視頻都很長(zhǎng)(數(shù)百幀)。此外,我們不依賴具有相同動(dòng)作的成對(duì)視頻進(jìn)行訓(xùn)練,從而能夠以更低的成本擴(kuò)大訓(xùn)練集規(guī)模。

為數(shù)百幀的長(zhǎng)視頻建模是一項(xiàng)挑戰(zhàn)。直接使用為短視頻片段分類(lèi)而設(shè)計(jì)的現(xiàn)成骨架也不太現(xiàn)實(shí),因?yàn)槲覀兊娜蝿?wù)是提取長(zhǎng)視頻的逐幀表征。在本研究中,我們提出了一種簡(jiǎn)單而高效的視頻編碼器,它由一個(gè)對(duì)每幀的空間信息進(jìn)行編碼的2D網(wǎng)絡(luò)和一個(gè)對(duì)時(shí)間交互進(jìn)行建模的Transformer編碼器組成。然后使用逐幀特征進(jìn)行表征學(xué)習(xí)。

最近,SimCLR使用實(shí)例鑒別作為網(wǎng)絡(luò)前置任務(wù),并引入了一個(gè)名為NT-Xent的對(duì)比損失,該對(duì)比損失最大化相同數(shù)據(jù)的兩個(gè)增強(qiáng)視圖之間的一致性。在他們的實(shí)現(xiàn)中,除正面參照樣本外的所有實(shí)例都被判定為負(fù)樣本。與圖像數(shù)據(jù)不同的是,視頻提供了更豐富的實(shí)例(每一幀都被視為一個(gè)實(shí)例),相鄰幀具有很高的語(yǔ)義相似性。直接將這些幀視為負(fù)樣本可能會(huì)損害學(xué)習(xí)過(guò)程。為了避免這個(gè)問(wèn)題,我們提出了一種新的序列對(duì)比損失框架(SCL),它通過(guò)最小化兩個(gè)增強(qiáng)視頻視圖的序列相似性與先驗(yàn)高斯分布之間的KL散度來(lái)優(yōu)化嵌入空間。

綜上,本文的主要貢獻(xiàn)總結(jié)如下:

  • 我們提出了一個(gè)名為對(duì)比動(dòng)作表征學(xué)習(xí)(CARL)的新架構(gòu),以自監(jiān)督方式學(xué)習(xí)長(zhǎng)視頻中具有時(shí)空上下文信息的逐幀動(dòng)作表征。我們的方法不依賴于任何數(shù)據(jù)注釋,也不對(duì)數(shù)據(jù)集進(jìn)行假設(shè)。

  • 我們引入了一種基于Transformer的網(wǎng)絡(luò)來(lái)對(duì)長(zhǎng)視頻進(jìn)行高效編碼,和一種新的序列對(duì)比損耗(SCL)用于表征學(xué)習(xí)。同時(shí),我們?cè)O(shè)計(jì)了一系列時(shí)空數(shù)據(jù)增強(qiáng),以增加訓(xùn)練數(shù)據(jù)的多樣性。

  • 我們的框架在不同數(shù)據(jù)集的多個(gè)任務(wù)上大大優(yōu)于目前為止最先進(jìn)的方法。例如,在FineGym數(shù)據(jù)集上的線性評(píng)估協(xié)議下,我們的框架實(shí)現(xiàn)了41.75%的準(zhǔn)確率,比現(xiàn)有的最佳方法GTA高出+13.94%。在Penn Action和Kendall's Tau數(shù)據(jù)集上,我們的方法分別實(shí)現(xiàn)了91.67%和99.1%的細(xì)粒度分類(lèi),以及前五個(gè)細(xì)粒度幀檢索精度的90.58%,這些結(jié)果都優(yōu)于現(xiàn)有的最佳方法。



    2

    方法

    2.1. 概述

    圖2中我們對(duì)CARL架構(gòu)進(jìn)行了概述。首先通過(guò)一系列時(shí)空數(shù)據(jù)增強(qiáng)為輸入視頻構(gòu)建兩個(gè)增強(qiáng)視圖。此步驟稱為數(shù)據(jù)預(yù)處理。然后,我們將兩個(gè)增強(qiáng)視圖輸入到幀級(jí)視頻編碼器(FVE)中,以提取密集表征。遵循SimCLR,F(xiàn)VE附加了一個(gè)小型投影網(wǎng)絡(luò),它是一個(gè)兩層的MLP,用于獲得潛在嵌入。由于時(shí)間上相鄰的幀高度相關(guān),我們假設(shè)兩個(gè)視圖之間的相似性分布遵循先驗(yàn)高斯分布?;诖?,我們提出了一種新的序列對(duì)比損失(SCL)來(lái)優(yōu)化嵌入空間中的逐幀表征。

    浙大蔡登團(tuán)隊(duì):基于序列對(duì)比學(xué)習(xí)的長(zhǎng)視頻逐幀動(dòng)作表征

    圖2  架構(gòu)概述(CARL)。通過(guò)一系列時(shí)空數(shù)據(jù)增強(qiáng),從訓(xùn)練視頻構(gòu)建兩個(gè)增強(qiáng)視圖。幀級(jí)視頻編碼器(FVE)和投影頭通過(guò)最小化兩個(gè)視圖之間的序列對(duì)比損失(SCL)進(jìn)行優(yōu)化。

    2.2. 視圖構(gòu)建

    首先介紹本方法的視圖構(gòu)建步驟,如圖2中的"數(shù)據(jù)預(yù)處理"部分所示。在自監(jiān)督學(xué)習(xí)中,數(shù)據(jù)增強(qiáng)對(duì)于避免平凡解至關(guān)重要。以前針對(duì)圖像數(shù)據(jù)的方法只需要空間增強(qiáng),與此不同,我們引入了一系列時(shí)空數(shù)據(jù)增強(qiáng),以進(jìn)一步增加視頻的多樣性。

    具體而言,對(duì)于一個(gè)具有S幀的訓(xùn)練視頻V,我們的目標(biāo)是通過(guò)一系列時(shí)空數(shù)據(jù)增強(qiáng),獨(dú)立地構(gòu)造兩個(gè)T幀的增強(qiáng)視頻。對(duì)于時(shí)間數(shù)據(jù)增強(qiáng),我們首先對(duì)V執(zhí)行隨機(jī)時(shí)間裁剪,以生成兩個(gè)長(zhǎng)度為[T,αT]幀的隨機(jī)裁剪片段,其中α是控制最大裁剪長(zhǎng)度的超參數(shù)。在此過(guò)程中,我們保證兩個(gè)剪輯片段之間至少存在β%的重疊幀。然后對(duì)每個(gè)視頻序列隨機(jī)采樣T幀,獲得視頻序列V1和V2,默認(rèn)設(shè)置T=240。對(duì)于小于T幀的視頻,在裁減之前會(huì)對(duì)空幀進(jìn)行填充。最后,分別在V1和V2上應(yīng)用幾種時(shí)間一致的空間數(shù)據(jù)增強(qiáng),包括隨機(jī)調(diào)整大小和裁剪、水平翻轉(zhuǎn)、隨機(jī)顏色失真和隨機(jī)高斯模糊。

    浙大蔡登團(tuán)隊(duì):基于序列對(duì)比學(xué)習(xí)的長(zhǎng)視頻逐幀動(dòng)作表征

    圖3  幀級(jí)視頻編碼器(FVE)的結(jié)構(gòu)。輸入T幀長(zhǎng)視頻,輸出逐幀表征。ResNet-50在ImageNet上進(jìn)行了預(yù)訓(xùn)練。我們凍結(jié)了ResNet-50的前四個(gè)殘差塊,只微調(diào)最后一個(gè)塊。

    2.3. 幀級(jí)視頻編碼器

    直接應(yīng)用視頻分類(lèi)架構(gòu)對(duì)數(shù)百幀的長(zhǎng)視頻序列進(jìn)行建模,因其計(jì)算量巨大而無(wú)法實(shí)現(xiàn)。TCC提出了一種視頻編碼器,它將2D ResNet和3D卷積相結(jié)合,以生成逐幀特征。然而疊加太多3D卷積層會(huì)導(dǎo)致計(jì)算成本過(guò)高。這導(dǎo)致這種類(lèi)型的設(shè)計(jì)可能只有有限的感受野來(lái)捕捉時(shí)間上下文。最近,Transformers在計(jì)算機(jī)視覺(jué)方面取得了巨大的進(jìn)步。Transformers利用注意機(jī)制解決序列到序列任務(wù),同時(shí)輕松處理遠(yuǎn)距離依賴關(guān)系。在本網(wǎng)絡(luò)實(shí)現(xiàn)中,我們采用了Transformer編碼器來(lái)建模時(shí)間上下文。

    圖3展示了我們的幀級(jí)視頻編碼器(FVE)。為了在表征性能和推理速度之間達(dá)到平衡,我們首先使用一個(gè)2D網(wǎng)絡(luò)(例如ResNet-50)沿時(shí)間維度提取長(zhǎng)度為T(mén)×224×224×3的RGB視頻序列的空間特征。然后用一個(gè)轉(zhuǎn)換塊(該轉(zhuǎn)換塊由兩個(gè)具有批量歸一化ReLU的全連接層組成),將空間特征投影到大小為T(mén)×256的中間嵌入。遵循常規(guī)做法,我們?cè)谥虚g嵌入的頂部添加了正弦-余弦位置編碼,以編碼順序信息。接下來(lái),將編碼后的嵌入輸入到3層Transformer編碼器中,以對(duì)時(shí)間上下文進(jìn)行建模。最后,采用一個(gè)線性層來(lái)獲取最終的逐幀表征H。

    浙大蔡登團(tuán)隊(duì):基于序列對(duì)比學(xué)習(xí)的長(zhǎng)視頻逐幀動(dòng)作表征

    圖4  序列對(duì)比損失圖解。以V1中的一個(gè)視頻幀損失計(jì)算過(guò)程為例。我們首先計(jì)算時(shí)間戳距離的先驗(yàn)高斯分布。然后計(jì)算該幀的嵌入與V2中所有視頻幀的嵌入之間的嵌入相似性分布,最后將嵌入空間中兩個(gè)分布的KL散度最小化。

    2D 的ResNet-50網(wǎng)絡(luò)在ImageNet上進(jìn)行了預(yù)訓(xùn)練。考慮到計(jì)算預(yù)算有限,我們凍結(jié)了前四個(gè)殘差塊,因?yàn)樗鼈円呀?jīng)通過(guò)預(yù)訓(xùn)練學(xué)習(xí)了良好的低級(jí)視覺(jué)表征。這種簡(jiǎn)單的設(shè)計(jì)確保本網(wǎng)絡(luò)可以在超過(guò)500幀的視頻上進(jìn)行訓(xùn)練和測(cè)試。VTN采用了一種類(lèi)似的基于Transformer的混合網(wǎng)絡(luò)來(lái)執(zhí)行視頻分類(lèi)任務(wù)。他們使用[CLS]令牌來(lái)生成全局特征,而我們的網(wǎng)絡(luò)是通過(guò)考慮時(shí)空上下文來(lái)提取幀表征。此外,我們的網(wǎng)絡(luò)嘗試了對(duì)更長(zhǎng)的視頻序列進(jìn)行建模。

    2.4. 序列對(duì)比損失

    SimCLR通過(guò)最大化同一實(shí)例的增強(qiáng)視圖之間的一致性,引入了一個(gè)叫做NTXent的對(duì)比損失。

    與圖像的自監(jiān)督學(xué)習(xí)不同,視頻提供了豐富的序列信息,這是一個(gè)重要的監(jiān)督信號(hào)。對(duì)于典型的實(shí)例判別,除了正面參考樣本之外的所有實(shí)例都被判定為負(fù)樣本。然而,參考幀附近的幀高度相關(guān)。直接將這些幀視為負(fù)樣本可能會(huì)損害學(xué)習(xí)過(guò)程,因此我們應(yīng)該盡量避免這個(gè)問(wèn)題。為了優(yōu)化逐幀表征,我們提出了一種新的序列對(duì)比損失(SCL),它通過(guò)最小化兩個(gè)增強(qiáng)視圖的嵌入相似性和先驗(yàn)高斯分布之間的KL散度來(lái)實(shí)現(xiàn),如圖4所示。

    具體來(lái)說(shuō),與SimCLR類(lèi)似,我們使用一個(gè)由兩層MLP組成的小型投影網(wǎng)絡(luò)g,由FVE編碼的幀表征H由該投影網(wǎng)絡(luò)投影到潛在嵌入Z??紤]到兩個(gè)視頻序列V1和V2對(duì)應(yīng)的嵌入向量Z1和Z2中每個(gè)潛在嵌入,在時(shí)間上相鄰的幀比相距更遠(yuǎn)的幀相關(guān)性更高,我們假設(shè)每個(gè)視頻幀的潛在嵌入和另一個(gè)視頻序列的潛在向量之間的嵌入相似性遵循時(shí)間戳距離的先驗(yàn)高斯分布?;谶@個(gè)假設(shè),我們使用KL散度優(yōu)化嵌入空間。具體來(lái)說(shuō),對(duì)于V1,我們首先計(jì)算 V1中每個(gè)幀的損失,然后計(jì)算V1所有幀損失的平均值即為V1的總損失,V2同理,序列對(duì)比損失為兩個(gè)視頻序列V1和V2總損失的和。值得注意的是,本方法中的損失并不依賴于V1和V2之間的幀到幀的對(duì)應(yīng)關(guān)系,這增加了時(shí)空數(shù)據(jù)增強(qiáng)的多樣性。



    3

    實(shí)驗(yàn)結(jié)果

    我們使用三個(gè)視頻數(shù)據(jù)集,即PennAction、FineGym和Pouring來(lái)評(píng)估本方法的性能。我們?cè)谌齻€(gè)數(shù)據(jù)集上將本方法與迄今為止最先進(jìn)的技術(shù)進(jìn)行了比較。

    PennAction數(shù)據(jù)集上的結(jié)果

    如表2所示,我們報(bào)告的結(jié)果低于平均精度@K指標(biāo)(Average Precision@K metric),該指標(biāo)衡量細(xì)粒度幀檢索的性能。出乎意料的是,盡管我們的模型沒(méi)有經(jīng)過(guò)成對(duì)數(shù)據(jù)的訓(xùn)練,但它仍然可以從其他視頻中成功地找到具有相似語(yǔ)義的幀。對(duì)于所有的AP@K,我們的方法優(yōu)于以前的方法至少11%。

    浙大蔡登團(tuán)隊(duì):基于序列對(duì)比學(xué)習(xí)的長(zhǎng)視頻逐幀動(dòng)作表征

    表2 在PennAction數(shù)據(jù)集上的細(xì)粒度幀檢索結(jié)果。

    FineGym數(shù)據(jù)集上的結(jié)果

    表3總結(jié)了FineGym99和FineGym288上細(xì)粒度動(dòng)作分類(lèi)的實(shí)驗(yàn)結(jié)果。結(jié)果顯示我們的方法優(yōu)于其他自監(jiān)督和弱監(jiān)督方法。我們的方法在FineGym99和FineGym288上的性能比之前最先進(jìn)的方法GTA分別高出+13.94%和+11.07%。如TCC、TW和GTA等弱監(jiān)督方法假設(shè)訓(xùn)練集中的兩個(gè)視頻之間存在最佳對(duì)齊。然而,對(duì)于FineGym數(shù)據(jù)集,即使在描述同一動(dòng)作的兩個(gè)視頻中,子動(dòng)作的設(shè)置和順序也可能不同。因此,這些方法找到的對(duì)齊可能不正確,因而會(huì)阻礙學(xué)習(xí)。我們的方法在兩個(gè)指標(biāo)上有很大的提高,從而驗(yàn)證了我們框架的有效性。

    浙大蔡登團(tuán)隊(duì):基于序列對(duì)比學(xué)習(xí)的長(zhǎng)視頻逐幀動(dòng)作表征

    表3  以細(xì)粒度動(dòng)作分類(lèi)為評(píng)估指標(biāo), 在FineGym上我們的方法與最先進(jìn)的方法進(jìn)行比較。

    Pouring數(shù)據(jù)集上的結(jié)果

    如表4所示,我們的方法在一個(gè)相對(duì)較小的數(shù)據(jù)集Pouring上性能也是最好的。這些結(jié)果進(jìn)一步證明了我們的方法具有很強(qiáng)的泛化能力。

    浙大蔡登團(tuán)隊(duì):基于序列對(duì)比學(xué)習(xí)的長(zhǎng)視頻逐幀動(dòng)作表征

    表4 在Pouring數(shù)據(jù)集上與最先進(jìn)方法的比較



    4

    結(jié)論

    在本文中,我們提出了一個(gè)對(duì)比動(dòng)作表征學(xué)習(xí)(CARL)的新框架,以自監(jiān)督的方式學(xué)習(xí)逐幀動(dòng)作表征,尤其是長(zhǎng)視頻。為了對(duì)數(shù)百幀的長(zhǎng)視頻進(jìn)行建模,我們引入了一個(gè)簡(jiǎn)單而高效的網(wǎng)絡(luò),稱為幀級(jí)視頻編碼器(FVE),該網(wǎng)絡(luò)在訓(xùn)練過(guò)程中參考了時(shí)空上下文。

    此外,我們還提出了一種新的用于逐幀表征學(xué)習(xí)的序列對(duì)比損失(SCL)。SCL通過(guò)最小化兩個(gè)增強(qiáng)視圖的序列相似性與先驗(yàn)高斯分布之間的KL散度來(lái)優(yōu)化嵌入空間。我們?cè)诟鞣N數(shù)據(jù)集和任務(wù)上的實(shí)驗(yàn)結(jié)果證明了該方法的有效性和通用性。

    浙大蔡登團(tuán)隊(duì):基于序列對(duì)比學(xué)習(xí)的長(zhǎng)視頻逐幀動(dòng)作表征

    雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))

    雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

    浙大蔡登團(tuán)隊(duì):基于序列對(duì)比學(xué)習(xí)的長(zhǎng)視頻逐幀動(dòng)作表征

    分享:
    相關(guān)文章

    運(yùn)營(yíng)

    當(dāng)月熱門(mén)文章
    最新文章
    請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
    姓名
    電話
    郵箱
    微信號(hào)
    作品鏈接
    個(gè)人簡(jiǎn)介
    為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
    您的郵箱還未驗(yàn)證,完成可獲20積分喲!
    請(qǐng)驗(yàn)證您的郵箱
    立即驗(yàn)證
    完善賬號(hào)信息
    您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
    立即設(shè)置 以后再說(shuō)