0
本文作者: AI研習(xí)社 | 2019-06-25 17:45 | 專題:CVPR 2019 |
本文轉(zhuǎn)載至公眾號(hào):騰訊技術(shù)工程
已獲得授權(quán)
計(jì)算機(jī)視覺(jué)頂級(jí)會(huì)議 CVPR 2019 將于 6 月 15 日– 6 月 21 日在加利福尼亞州長(zhǎng)灘舉辦,今年騰訊公司共有 58 篇論文入選,其中騰訊 AI Lab 33 篇(含 8 篇oral),騰訊優(yōu)圖實(shí)驗(yàn)室 25 篇。騰訊 AI Lab 入選論文涉及視頻理解、人臉識(shí)別、對(duì)抗攻擊、視覺(jué)-語(yǔ)言描述、模型壓縮和多任務(wù)學(xué)習(xí)等幾大重點(diǎn)研究方向,下面將分組介紹論文。往年參會(huì)入選論文可見(jiàn)公眾號(hào)歷史文章。
注:本文分組方式并不嚴(yán)格,部分論文同時(shí)分屬多個(gè)主題。
對(duì)抗攻擊
Against Attack
深度神經(jīng)網(wǎng)絡(luò)在很多應(yīng)用領(lǐng)域都取得了驚人的效果,比如圖像分類和人臉識(shí)別。但與此同時(shí),深度神經(jīng)網(wǎng)絡(luò)也是十分脆弱的。最典型的例子就是對(duì)抗攻擊,具體而言,在輸入樣本(比如圖像)上加入人類難以察覺(jué)的微小噪聲,可以讓深度神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)出現(xiàn)嚴(yán)重偏差。對(duì)抗攻擊的研究,對(duì)于加強(qiáng)深度神經(jīng)網(wǎng)絡(luò)的安全性以及可解釋性,具有很重要的意義。以往大多數(shù)研究工作集中在白盒對(duì)抗攻擊和非結(jié)構(gòu)化輸出模型的攻擊,而我們CVPR 2019的入選論文重點(diǎn)研究了更具挑戰(zhàn)的黑盒對(duì)抗攻擊,和對(duì)結(jié)構(gòu)化輸出模型的攻擊。
1.針對(duì)人臉識(shí)別的基于決策的高效黑盒對(duì)抗攻擊方法
Efficient Decision-based Black-box Adversarial Attacks on Face Recognition
本文由騰訊AI Lab主導(dǎo),與清華大學(xué)合作完成,是在黑盒對(duì)抗攻擊領(lǐng)域的一項(xiàng)重要探索。近年來(lái),基于深度卷積神經(jīng)網(wǎng)絡(luò)的人臉識(shí)別取得了顯著的成就。但是,深度卷積神經(jīng)網(wǎng)絡(luò)很容易受到對(duì)抗樣本的攻擊。因此,人臉識(shí)別系統(tǒng)的安全性也可能受到很大的威脅。
為了驗(yàn)證當(dāng)前最先進(jìn)人臉識(shí)別模型的安全性能,我們研究了基于決策的黑盒攻擊,即無(wú)法獲知人臉識(shí)別模型的參數(shù)或結(jié)構(gòu),只能通過(guò)詢問(wèn)來(lái)獲取模型的結(jié)果。這種設(shè)定完全符合現(xiàn)實(shí)情況下的攻擊情形。我們提出了一種基于進(jìn)化算法的高效攻擊方法,其充分利用了搜索空間的局部幾何特性,并通過(guò)對(duì)搜索空間進(jìn)行降維來(lái)提高攻擊效率。實(shí)驗(yàn)表明我們的攻擊方法比已有的黑盒攻擊方法更高效。同時(shí),我們還對(duì)第三方人臉識(shí)別系統(tǒng)進(jìn)行了攻擊驗(yàn)證,也充分展示了我們方法的優(yōu)越性能。
2.基于帶有隱變量的結(jié)構(gòu)化輸出學(xué)習(xí)的圖像描述精準(zhǔn)對(duì)抗攻擊
Exact Adversarial Attack to Image Captioning via Structured Output Learning with Latent Variables
本文由騰訊AI Lab 主導(dǎo),與電子科技大學(xué)合作完成,探索了對(duì)圖像描述模型實(shí)現(xiàn)精準(zhǔn)對(duì)抗攻擊的方法。對(duì)抗攻擊對(duì)深度學(xué)習(xí)模型存在嚴(yán)重威脅,揭示了深度神經(jīng)網(wǎng)絡(luò)的脆弱性。研究對(duì)抗攻擊有助于理解深度學(xué)習(xí)模型的內(nèi)部機(jī)制,也能幫助提升模型的安全性,具有非常高的研究和實(shí)用價(jià)值。已有對(duì)抗攻擊方法主要以帶有獨(dú)立輸出的模型為攻擊對(duì)象,但很多問(wèn)題的輸出結(jié)果往往是結(jié)構(gòu)化的,比如在基于 CNN+RNN 的圖像描述問(wèn)題中,輸出是一個(gè)序列。
我們以基于 CNN+RNN 的圖像描述模型為具體對(duì)象,在業(yè)內(nèi)第一次定義了“精準(zhǔn)結(jié)構(gòu)化攻擊”,即通過(guò)優(yōu)化對(duì)抗樣本,迫使模型在特定位置輸出特定的詞。由于輸出序列內(nèi)部的關(guān)聯(lián)性,現(xiàn)有的針對(duì)獨(dú)立輸出的攻擊方法無(wú)法在序列輸出問(wèn)題中實(shí)現(xiàn)精準(zhǔn)攻擊。
我們的具體做法是將精準(zhǔn)結(jié)構(gòu)化攻擊問(wèn)題建模成帶有隱變量的結(jié)構(gòu)化輸出學(xué)習(xí)模型;此外我們還展示了兩種優(yōu)化算法。我們對(duì)當(dāng)前最流行的圖像描述模型進(jìn)行了精準(zhǔn)攻擊實(shí)驗(yàn),結(jié)果展現(xiàn)了非常高的攻擊成功率和非常低的對(duì)抗噪聲。
另外,我們還將精準(zhǔn)結(jié)構(gòu)化攻擊算法作為探測(cè)結(jié)構(gòu)化輸出空間的工具,揭示出當(dāng)前圖像描述模型還沒(méi)有很好地掌握人類的語(yǔ)法規(guī)則,比如被動(dòng)語(yǔ)態(tài)和定語(yǔ)從句。這為進(jìn)一步縮小圖像描述模型與人類描述的差距指明了方向。同時(shí),本文所提出的模型和算法與具體圖像描述模型無(wú)關(guān),可輕松地用于攻擊其它結(jié)構(gòu)化模型。
視頻深度理解
Deep Understanding of Videos
機(jī)器要理解世界,就必需要處理和分析周圍動(dòng)態(tài)環(huán)境能力。視頻的分析與處理在移動(dòng)機(jī)器人、自動(dòng)駕駛、監(jiān)控視頻分析等許多應(yīng)用中都是至關(guān)重要的技術(shù),甚至關(guān)乎使用者的生命安全。同時(shí),近些年基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的方法已經(jīng)在靜態(tài)圖像分析方面取得了重大的進(jìn)展和突破,所以計(jì)算機(jī)視覺(jué)領(lǐng)域的研究重心也正向動(dòng)態(tài)的視頻領(lǐng)域傾斜。
與靜態(tài)的圖像處理相比,視頻分析面臨著一些特有的難題,比如識(shí)別、跟蹤與重新判定視頻中目標(biāo)的身份,預(yù)測(cè)目標(biāo)的運(yùn)動(dòng)軌跡,多目標(biāo)跟蹤,分析視頻內(nèi)容并提取相關(guān)片段等。
騰訊 AI Lab 入選的 33 篇論文中有 9 篇與視頻直接相關(guān),涉及到光流學(xué)習(xí)、視頻對(duì)象分割、目標(biāo)跟蹤和視頻定位等多個(gè)研究方向
1.一種自監(jiān)督的光流學(xué)習(xí)方法
SelfFLow: Self-Supervised Learning of Optical Flow
本文由騰訊AI Lab 主導(dǎo),與香港中文大學(xué)合作完成,是CVPR oral 展示論文之一。光流是計(jì)算機(jī)視覺(jué)的一個(gè)基本任務(wù),它描述了運(yùn)動(dòng)的信息,也有很多應(yīng)用場(chǎng)景,比如物體跟蹤、視頻分析、三維重建、自動(dòng)駕駛等。我們探索了使用卷積神經(jīng)網(wǎng)絡(luò)估計(jì)光流的一個(gè)關(guān)鍵挑戰(zhàn):預(yù)測(cè)被遮擋像素的光流。
首先,我們提出了一種從沒(méi)有標(biāo)注的數(shù)據(jù)中學(xué)習(xí)光流的自監(jiān)督框架。這個(gè)方法會(huì)人為創(chuàng)造一些遮擋,然后利用已經(jīng)學(xué)習(xí)到的比較準(zhǔn)確的沒(méi)有被遮擋像素的光流去指導(dǎo)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)被遮擋像素的光流。
其次,為了更好地學(xué)習(xí)光流,我們?cè)O(shè)計(jì)了一個(gè)可以利用多幀圖像時(shí)序連續(xù)性的網(wǎng)絡(luò)結(jié)構(gòu)?;谶@兩個(gè)原則,我們的方法在MPI Sintel、KITTI 2012和KITTI 2015等數(shù)據(jù)集上取得了最好的無(wú)監(jiān)督效果。更重要的是,我們的無(wú)監(jiān)督方法得到的模型能為有監(jiān)督的微調(diào)提供一個(gè)很好的初始化。經(jīng)過(guò)有監(jiān)督微調(diào),我們的模型在以上三個(gè)數(shù)據(jù)集上取得了目前最優(yōu)的性能。在寫(xiě)這篇文章的時(shí)候,我們的模型在Sintel數(shù)據(jù)集上取得EPE=4.26 的成績(jī),超過(guò)所有已經(jīng)提交的方法。
框架概況:左側(cè)是每一層級(jí)的網(wǎng)絡(luò)架構(gòu),右側(cè)是我們的自監(jiān)督訓(xùn)練策略
2.MHP-VOS: 基于多假設(shè)傳播的視頻對(duì)象分割
MHP-VOS: Multiple Hypotheses Propagation for Video Object Segmentation
本文由騰訊AI Lab與華中科技大學(xué)合作完成,是CVPR oral 展示論文之一。本文首先闡述了半監(jiān)督視頻對(duì)象分割(VOS)問(wèn)題,其中感興趣的對(duì)象的掩碼在輸入視頻的第一幀中給出。要處理對(duì)象被遮擋或丟失的高難度案例,以前的工作依賴于貪婪的數(shù)據(jù)關(guān)聯(lián)策略為每幀單獨(dú)制定決策。在本文中,我們提出了一種對(duì)于每個(gè)幀中的目標(biāo)對(duì)象推遲決策的新方法,直到全局地考慮了整個(gè)視頻后才進(jìn)行決策。
我們的方法與多假設(shè)跟蹤(MHT)方法一脈相承,但也進(jìn)行了幾項(xiàng)關(guān)鍵的修改以適用于VOS問(wèn)題。我們使用的是掩模假設(shè)而不是方框假設(shè),這能讓我們?cè)O(shè)計(jì)出更專門定制的VOS算法。具體來(lái)說(shuō),從第一幀中的初始對(duì)象掩碼開(kāi)始,通過(guò)將前一幀的掩模傳播到后一幀門控區(qū)域里檢測(cè)到的方框建議來(lái)生成多個(gè)假設(shè)。該門控區(qū)域是通過(guò)一種門控方案來(lái)確定的,該方案考慮了更全面的運(yùn)動(dòng)模型,而不是傳統(tǒng)MHT中的簡(jiǎn)單卡爾曼濾波模型。我們?cè)O(shè)計(jì)了一個(gè)全新的掩模傳播分?jǐn)?shù),而不是MTH中的外觀相似度分?jǐn)?shù),因?yàn)橥庥^相似度分?jǐn)?shù)在物體變形較大時(shí)不夠魯棒。該掩模傳播分?jǐn)?shù)與運(yùn)動(dòng)分?jǐn)?shù)一起,共同確定了多個(gè)假設(shè)之間的親近關(guān)系,這個(gè)親近關(guān)系可以用于后續(xù)的假設(shè)樹(shù)的剪枝算法。
此外,我們還提出了一種新穎的掩模合并策略,用以處理多個(gè)被跟蹤物體之間的掩模沖突。實(shí)驗(yàn)表明,該方法能有效處理具有挑戰(zhàn)性的數(shù)據(jù)集,特別是在對(duì)象丟失的情況下。
3.PA3D:基于3D 姿態(tài)-動(dòng)作的視頻識(shí)別
PA3D: Pose-Action 3D Machine for Video Recognition
本文由騰訊AI Lab與中國(guó)科學(xué)院深圳先進(jìn)技術(shù)研究院合作完成。目前大多數(shù)動(dòng)作識(shí)別方法都采用3D CNN提取特征,但這些方法都是基于RGB和光流,并未完全利用動(dòng)作的動(dòng)態(tài)變化規(guī)律。本文提出的精確Pose-Action 3D Machine方法能夠在統(tǒng)一的 3D 框架下有效地編碼多種姿態(tài)以及學(xué)習(xí)時(shí)空域姿態(tài)表征,進(jìn)而實(shí)現(xiàn)更好的動(dòng)作識(shí)別。我們?cè)谌齻€(gè)公開(kāi)數(shù)據(jù)集上進(jìn)行了測(cè)試,結(jié)果表明本文提出的方法優(yōu)于已有的基于姿態(tài)的動(dòng)作識(shí)別方法。
4.具有目標(biāo)感知能力的追蹤框架
Target-Aware Deep Tracking
本文由哈爾濱工業(yè)大學(xué)、騰訊AI Lab、上海交通大學(xué)與加州大學(xué)默塞德分校合作完成,提出了一種具有目標(biāo)感知能力的追蹤框架。當(dāng)前基于深度學(xué)習(xí)的追蹤方法常使用的深度特征提取都是在分類任務(wù)上預(yù)訓(xùn)練好的。盡管這樣的做法在多個(gè)視頻領(lǐng)域取得了很大的成功,但是在追蹤領(lǐng)域中,其有效性還未得到深入挖掘。
關(guān)鍵原因是在追蹤任務(wù)中,目標(biāo)物體類別和形式是未知的和不確定的,只有在追蹤開(kāi)始時(shí)才確定。直接使用在類別固定的分類任務(wù)上訓(xùn)練的深度特征,難以對(duì)追蹤中的目標(biāo)進(jìn)行有效地建模。為此,我們提出了一個(gè)基于梯度值的機(jī)制去學(xué)習(xí)能夠感知目標(biāo)的特征。鑒于此,我們構(gòu)建了一個(gè)回歸損失和一個(gè)排序損失來(lái)分別指導(dǎo)模型,生成能夠有效表征目標(biāo)的特征和對(duì)于目標(biāo)大小變化敏感的特征。
具體來(lái)講,我們首先利用反向傳播算法計(jì)算每個(gè)損失對(duì)于各個(gè)濾波器的梯度,然后根據(jù)梯度值的大小來(lái)確定每個(gè)濾波器的重要性,以此來(lái)生成適用于追蹤的特征。我們將具有目標(biāo)感知性的特征用于孿生網(wǎng)絡(luò)框架來(lái)實(shí)現(xiàn)追蹤。大量的實(shí)驗(yàn)結(jié)果表明,相較于當(dāng)前的主流方法,我們提出的方法不論是在準(zhǔn)確率方面還是在運(yùn)行速度方面都能取得不錯(cuò)的效果。
5.深度無(wú)監(jiān)督式目標(biāo)跟蹤
Unsupervised Deep Tracking
本文由騰訊AI Lab主導(dǎo),與中科大和上海交通大學(xué)合作完成,提出了一種基于無(wú)監(jiān)督學(xué)習(xí)的目標(biāo)跟蹤方法。不同于之前的利用大量標(biāo)注數(shù)據(jù)的監(jiān)督學(xué)習(xí)方法,我們是利用未標(biāo)注的視頻數(shù)據(jù)來(lái)訓(xùn)練深度卷積網(wǎng)絡(luò)。我們的啟示是一個(gè)魯棒的跟蹤 器應(yīng)當(dāng)在前向和后向的跟蹤過(guò)程中均有效,即跟蹤 器能夠前向跟蹤目標(biāo)物體并逐幀回溯到第一幀的初始狀態(tài)。我們利用孿生網(wǎng)絡(luò)實(shí)現(xiàn)了新提出的方法,該網(wǎng)絡(luò)完全由沒(méi)有標(biāo)注的視頻數(shù)據(jù)訓(xùn)練而成。
與此同時(shí),我們提出了一個(gè)利用多軌跡優(yōu)化和損失敏感的衡量函數(shù)來(lái)進(jìn)一步提升跟蹤性能。單純利用無(wú)監(jiān)督學(xué)習(xí)方法,我們的跟蹤 器就能達(dá)到需要精確和完整訓(xùn)練數(shù)據(jù)的全監(jiān)督學(xué)習(xí)的基本水平。更值得關(guān)注的是,我們提出的無(wú)監(jiān)督學(xué)習(xí)框架能夠更深入地利用未標(biāo)注或者部分標(biāo)注的數(shù)據(jù)來(lái)進(jìn)一步提升跟蹤性能。
6.基于WarpLSTM的時(shí)空視頻再定位
Spatio-Temporal Video Re-localization by Warp LSTM
本文由騰訊AI Lab主導(dǎo),與羅切斯特大學(xué)合作完成。隨著網(wǎng)絡(luò)上視頻井噴式的增長(zhǎng),高效地找到用戶想要的視頻的需求也隨之增長(zhǎng)?,F(xiàn)有的基于關(guān)鍵詞的檢索方法只能獲知某些視頻內(nèi)容存在與否,并不能獲知視頻內(nèi)容出現(xiàn)的時(shí)間和位置。本文提出了定位視頻內(nèi)容出現(xiàn)的時(shí)間和位置的時(shí)空視頻再定位任務(wù)。給出一個(gè)查詢視頻和一個(gè)備選視頻,時(shí)空視頻再定位任務(wù)的目標(biāo)是在備選視頻當(dāng)中找到一個(gè)和查詢視頻相關(guān)的時(shí)空片段。
為了準(zhǔn)確地定位,我們提出了一個(gè)新的WarpLSTM網(wǎng)絡(luò),這種網(wǎng)絡(luò)的優(yōu)勢(shì)是它可以提取視頻當(dāng)中的長(zhǎng)時(shí)間的時(shí)空信息。為了解決時(shí)空視頻再定位問(wèn)題遇到的另外一個(gè)困難,即缺少標(biāo)注數(shù)據(jù),我們重新組織了AVA數(shù)據(jù)集當(dāng)中的視頻,得到了一個(gè)用于時(shí)空再定位研究的新數(shù)據(jù)集。實(shí)驗(yàn)表明我們提出的模型能取得優(yōu)于基線方法的定位結(jié)果。
7.不是所有幀都相同:基于上下文相似度和視覺(jué)聚類損失的弱監(jiān)督視頻定位
Not All Frames Are Equal: Weakly Supervised Video Grounding with Contextual Similarity and Visual Clustering Losses
本文由騰訊AI Lab與羅徹斯特大學(xué)合作完成。我們研究的問(wèn)題是僅提供視頻層面的句子描述的弱監(jiān)督視頻定位,即在沒(méi)有物體位置標(biāo)注的情形下將語(yǔ)言的關(guān)鍵詞定位到視頻中的空間中。這是一個(gè)有挑戰(zhàn)性的任務(wù);首先,視頻中有許多幀,會(huì)出現(xiàn)幀和語(yǔ)言描述不一定匹配的不一致問(wèn)題;其次,盡管網(wǎng)絡(luò)中有大量的視頻,但是標(biāo)注物體位置具有高昂的成本。并且。之前的基于多示例學(xué)習(xí)(MIL)的圖像定位方法難以有效用于視頻定位。最近的工作試圖將視頻層級(jí)的MIL分解為幀級(jí)別的MIL,通過(guò)將句子與幀之間的相似度作為權(quán)重作用到每一幀上,但是這樣做并不魯棒并且無(wú)法利用豐富的時(shí)序信息。
在本文中,我們利用假陽(yáng)性幀包(frame-bag)限制來(lái)擴(kuò)展幀級(jí)別的MIL,并且建模了視頻時(shí)序特征一致性。特別地,我們?cè)O(shè)計(jì)了形義和視覺(jué)特征的上下文相似度,從而克服物體在幀與幀之間的稀疏問(wèn)題。更進(jìn)一步,我們通過(guò)強(qiáng)化視覺(jué)空間中相似的特征來(lái)利用時(shí)序上的連貫性。我們?cè)赮ouCookII和RoboWatch數(shù)據(jù)集上全面評(píng)估了這個(gè)模型,結(jié)果表明我們的方法較之間方法能夠大幅度提升性能。
8.基于多粒度分析的時(shí)序動(dòng)作提名生成器
Multi-granularity Generator for Temporal Action Proposal
本文由騰訊AI Lab主導(dǎo),與東南大學(xué)、哥倫比亞大學(xué)合作完成。時(shí)序動(dòng)作提名是一項(xiàng)重要任務(wù),其目的在于定位未修剪視頻中含有人類動(dòng)作的視頻片段。我們提出了使用多粒度生成器來(lái)完成時(shí)序動(dòng)作提名,其能從不同的粒度分析視頻并嵌入位置信息。
首先,我們使用雙線性匹配模塊來(lái)探索視頻序列中豐富的局部信息,隨后我們提出的片段動(dòng)作生產(chǎn)器和幀動(dòng)作生成器兩個(gè)模塊能從不同的粒度分析視頻。片段動(dòng)作生產(chǎn)器以粗粒度的方式,通過(guò)特征金字塔的形式感知整個(gè)視頻并產(chǎn)生長(zhǎng)度各異的動(dòng)作提名;幀動(dòng)作生成器則對(duì)每一個(gè)視頻幀采取細(xì)粒度的分析。雖然多粒度生成器涉及多個(gè)模塊,在訓(xùn)練過(guò)程中卻能以端到端的形式進(jìn)行?;趲瑒?dòng)作生成器細(xì)粒度的分析,片段動(dòng)作生產(chǎn)器產(chǎn)生的動(dòng)作提名可以被進(jìn)一步位置微調(diào),從而實(shí)現(xiàn)更精準(zhǔn)的定位。
因此,相比于目前最優(yōu)的模型,多粒度生成器在兩個(gè)公開(kāi)的數(shù)據(jù)集ActivityNet1.3和Thumos14上都獲得了更好的效果。另一方面,在多粒度生成器產(chǎn)生的動(dòng)作提名基礎(chǔ)上采用現(xiàn)有的分類器進(jìn)行分類,相比于目前性能較優(yōu)的視頻檢測(cè)方法,多粒度生成器都獲得了明顯的提升。
9.基于預(yù)測(cè)運(yùn)動(dòng)和外觀統(tǒng)計(jì)量的自監(jiān)督視頻時(shí)空表征學(xué)習(xí)
Self-supervised Spatio-temporal Representation Learning for Videos by Predicting Motion and Appearance Statistics
本文由騰訊AI Lab與香港中文大學(xué)、華南理工大學(xué)合作完成。本文首先闡述了在無(wú)人工標(biāo)注標(biāo)簽時(shí)的視頻表征學(xué)習(xí)問(wèn)題。雖然之前也有工作通過(guò)設(shè)計(jì)新穎的自監(jiān)督任務(wù)來(lái)進(jìn)行視頻的表征學(xué)習(xí),但學(xué)習(xí)的表征一般都基于單幀圖像,而無(wú)法用于需要多幀時(shí)空特征的主流視頻理解任務(wù)。我們?cè)诒疚闹刑岢隽艘环N新穎的自監(jiān)督方法,可學(xué)習(xí)視頻的多幀時(shí)空表征。
受到視頻分類任務(wù)中的two-stream類方法的啟發(fā),我們提出通過(guò)回歸時(shí)空兩個(gè)維度的運(yùn)動(dòng)和外觀的統(tǒng)計(jì)量來(lái)進(jìn)行視覺(jué)特征學(xué)習(xí)。
具體來(lái)說(shuō),我們?cè)诙鄠€(gè)視頻幀的時(shí)空兩個(gè)維度上提取一些統(tǒng)計(jì)概念(例如快速運(yùn)動(dòng)區(qū)域及其相應(yīng)的主要運(yùn)動(dòng)方向、時(shí)空上的色彩多樣性、主導(dǎo)顏色等)。不同于之前的一些預(yù)測(cè)稠密像素值的方法,我們提出的方法與人類固有的視覺(jué)習(xí)慣一致,并且易于學(xué)習(xí)。我們用C3D作為基干網(wǎng)絡(luò)進(jìn)行了大量實(shí)驗(yàn),結(jié)果表明該方法可以顯著提高C3D用于視頻分類等任務(wù)時(shí)的性能。
人臉
Human Face
人臉?lè)治雠c識(shí)別已經(jīng)在一些娛樂(lè)、安檢和身份校驗(yàn)等應(yīng)用中得到了實(shí)際應(yīng)用,但該領(lǐng)域仍存在一些有待解決的問(wèn)題,比如如何適應(yīng)視角變化、如何在不同的環(huán)境(比如弱光環(huán)境)中有效工作、如何鑒別被識(shí)別的臉是否真實(shí)、如何判別相似的人臉(比如臉部一樣的雙胞胎)、如何識(shí)別特殊的人臉(比如受傷或有偽裝的人臉)以及分析人臉隨時(shí)間的變化。另外,人臉的重建也是很重要的研究方向,在游戲和虛擬助手等方面有很有價(jià)值的應(yīng)用前景。
騰訊 AI Lab 今年有多篇與人臉相關(guān)的研究論文入選 CVPR,涉及到跨年齡人臉識(shí)別、人臉活體檢測(cè)和、多視角 3D 人臉重建、人臉面部動(dòng)作單位強(qiáng)度估計(jì)、人臉識(shí)別系統(tǒng)的對(duì)抗攻擊研究等方向。其中,在人臉活體檢測(cè)方面的研究與我們支持的云智慧眼業(yè)務(wù)密切相關(guān),這是我們?cè)诠緝?nèi)首推而且在 H5 場(chǎng)景下屬于業(yè)界首創(chuàng)的靜默活體檢測(cè)技術(shù)(靜默活體檢測(cè)指的是不需要用戶交互配合即可完成人臉活體檢測(cè),非常易用。
1.人臉活體檢測(cè):模型很重要,數(shù)據(jù)也是
Face Anti-Spoofing: Model Matters, So Does Data
本文由騰訊AI Lab主導(dǎo),與上海交通大學(xué)合作完成,為人臉活體檢測(cè)提出了一種新模型和新的數(shù)據(jù)收集方法?;铙w檢測(cè)在全棧的人臉應(yīng)用中扮演著重要的必不可少的角色,它的目的是為了檢測(cè)攝像頭前的人臉是真人樣本還是偽造的攻擊樣本(比如翻拍的人臉照片或者預(yù)先錄制的人臉視頻等)。
以往方法的模型通?;谝恍┎荒芎芎媚M真實(shí)場(chǎng)景的數(shù)據(jù)庫(kù),這會(huì)影響到模型的泛化性能。本文提出了一種數(shù)據(jù)收集的解決方案,可以很好地模擬真實(shí)的活體攻擊,從而能以很低的成本快速獲取大量訓(xùn)練數(shù)據(jù)。
我們還開(kāi)發(fā)了一個(gè)利用時(shí)空信息的活體檢測(cè)模型,將當(dāng)前公開(kāi)數(shù)據(jù)庫(kù)上面的性能推進(jìn)了一大步。我們的模型可以自動(dòng)關(guān)注有助于區(qū)分活體和非活體的局部區(qū)域,這也能幫助我們分析網(wǎng)絡(luò)的行為。實(shí)驗(yàn)結(jié)果也表明我們的模型可以關(guān)注到摩爾紋、屏幕邊緣等一些區(qū)域,進(jìn)而實(shí)現(xiàn)更好的活體檢測(cè)。
2.針對(duì)跨年齡人臉識(shí)別的去相關(guān)對(duì)抗學(xué)習(xí)
Decorrelated Adversarial Learning for Age-Invariant Face Recognition
本文由騰訊AI Lab獨(dú)立完成??缒挲g人臉識(shí)別問(wèn)題受到了非常廣泛的研究關(guān)注。然而,識(shí)別年齡間隔較大的人臉圖像仍然非常具有挑戰(zhàn)性,這主要是因?yàn)槟挲g變化會(huì)引起人臉圖像呈現(xiàn)出較大的差異。
為了減少年齡變化所造成的差異,本文提出一個(gè)全新的算法,目的在于去除混合了身份和年齡信息的人臉特征中的年齡成分。具體而言,我們將混合的人臉特征分解成為兩個(gè)不相關(guān)的組成成分:身份成分和年齡成分,其中的身份成分包含了對(duì)人臉識(shí)別有用的信息。
為了實(shí)現(xiàn)這個(gè)想法,我們提出去相關(guān)的對(duì)抗學(xué)習(xí)算法,其中引入了一個(gè)典型映射模塊,用于得到生成的成分特征之間的最大相關(guān)性,與此同時(shí)主干網(wǎng)絡(luò)和特征分解模塊則用于生成特征以最小化這個(gè)相關(guān)性。這樣,主干網(wǎng)絡(luò)能夠?qū)W習(xí)得到身份特征和年齡特征并使得其相關(guān)性顯著降低。與此同時(shí),身份特征和年齡特征通過(guò)身份保持和年齡保持的監(jiān)督信號(hào)進(jìn)行學(xué)習(xí),以確保它們的信息正確。我們?cè)诠_(kāi)的跨年齡人臉識(shí)別數(shù)據(jù)集(FG-NET、MORPH Album 2 和 CACD-VS)進(jìn)行了實(shí)驗(yàn),結(jié)果表明了這個(gè)方法的有效性。
3.MVF-Net: 多視角3D人臉可變形模型的參數(shù)回歸
MVF-Net: Multi-View 3D Face Morphable Model Regression
本文由騰訊AI Lab主導(dǎo),與香港中文大學(xué)合作完成。本文闡述的問(wèn)題是用多視角人臉圖片作為輸入重建3D人臉模型。雖然最新的基于3D人臉可變形模型(3DMM)的方法取得了不少進(jìn)步,但大部分工作仍局限于單張照片的輸入。
單張照片3D人臉重建有一個(gè)內(nèi)在的缺點(diǎn):缺乏3D約束會(huì)導(dǎo)致無(wú)法解決的幾何結(jié)構(gòu)混淆。我們?cè)诒疚闹刑剿髁私o定多視角人臉照片輸入的設(shè)定下進(jìn)行基于3DMM的3D人臉重建問(wèn)題。我們提出了一種全新的使用端到端卷積神經(jīng)網(wǎng)絡(luò)來(lái)回歸3DMM參數(shù)的方法。在這個(gè)方法中,通過(guò)使用一種新型的自監(jiān)督視角對(duì)齊損失函數(shù),模型能建立不同視角之間的稠密像素對(duì)應(yīng)關(guān)系,從而引入多視角幾何約束。
該新型損失函數(shù)使用可導(dǎo)的光流估計(jì)模塊將投影合成的目標(biāo)視角圖像與原始輸入圖像之間的對(duì)齊誤差反向傳播回3DMM參數(shù)的回歸中。這樣就能在最小化損失函數(shù)的過(guò)程中恢復(fù)對(duì)齊誤差較小的3D形狀。實(shí)驗(yàn)驗(yàn)證了多視角照片輸入相對(duì)于單張照片輸入的優(yōu)勢(shì)。
4.基于聯(lián)合表征和估計(jì)器學(xué)習(xí)的人臉面部動(dòng)作單元強(qiáng)度估計(jì)
Joint Representation and Estimator Learning for Facial Action Unit Intensity Estimation
本文由騰訊AI Lab主導(dǎo),與中科院自動(dòng)化研究所和美國(guó)倫斯勒理工學(xué)院合作完成,提出了一種用于人臉面部動(dòng)作單元強(qiáng)度估計(jì)的新方法。人臉面部動(dòng)作單元描述的是人臉上局部的肌肉運(yùn)動(dòng),對(duì)其強(qiáng)度的估計(jì)面臨著兩個(gè)難題:其表觀變化難以捕捉;含有面部動(dòng)作單元標(biāo)注的數(shù)據(jù)集較少。
我們針對(duì)這些難題提出了一個(gè)樣本特征和回歸模型聯(lián)合學(xué)習(xí)框架。該框架可以靈活地嵌入各種形式的先驗(yàn)知識(shí),且僅需少量標(biāo)注數(shù)據(jù)集即可進(jìn)行模型學(xué)習(xí)。實(shí)驗(yàn)結(jié)果表明,該方法在標(biāo)注數(shù)據(jù)較少時(shí)能得到比現(xiàn)有算法更好的結(jié)果。深度學(xué)習(xí)模型可視為聯(lián)合學(xué)習(xí)特征和回歸的模型,但訓(xùn)練數(shù)據(jù)不足時(shí)會(huì)發(fā)生嚴(yán)重的過(guò)擬合;而我們提出的方法即使僅有 2% 的標(biāo)注數(shù)據(jù),也依然可以達(dá)到較好的效果。
視覺(jué)-語(yǔ)言技術(shù)
Visual - Language Technology
視覺(jué)和語(yǔ)言是人類了解世界以及與世界交流的兩種主要方式,深度學(xué)習(xí)技術(shù)的發(fā)展為這兩個(gè)原本相對(duì)獨(dú)立的學(xué)科搭建了橋梁,使這個(gè)交叉領(lǐng)域成為了計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理的重要研究方向。這個(gè)研究方向的基本問(wèn)題是用語(yǔ)言描述圖像或視頻中的內(nèi)容,在此基礎(chǔ)上,我們可以查詢圖像或視頻中與語(yǔ)言描述相關(guān)的部分,甚至根據(jù)語(yǔ)言描述的內(nèi)容生成對(duì)應(yīng)的視覺(jué)內(nèi)容。視覺(jué)-語(yǔ)言技術(shù)在視頻網(wǎng)站、視頻處理、游戲以及與人溝通的機(jī)器人等許多領(lǐng)域都會(huì)有重要的應(yīng)用。
騰訊 AI Lab 有多篇 CVPR 入選論文探索了這一技術(shù)領(lǐng)域的新方法,除了下面的兩篇,上文“視頻”部分也介紹了基于語(yǔ)言查詢定位視頻片段的研究。
1.基于詞性的快速準(zhǔn)確且多樣化的圖像生成自然語(yǔ)言描述方法
Fast, Diverse and Accurate Image Captioning Guided By Part-of-Speech
本文由美國(guó)伊利諾伊大學(xué)香檳分校(UIUC)與騰訊AI Lab 合作完成,是CVPR oral 展示論文之一,提出了一種新的基于輸入圖像生成自然語(yǔ)言描述的方法。針對(duì)輸入的圖像,我們首先生成有語(yǔ)義的圖像總結(jié),然后利用這種圖像總結(jié)來(lái)產(chǎn)生自然語(yǔ)言描述。我們利用詞性標(biāo)簽序列來(lái)表達(dá)這種總結(jié)內(nèi)容,再利用這種表達(dá)來(lái)驅(qū)動(dòng)圖像描述的生成。
我們的方法實(shí)現(xiàn)了
(1)更高的準(zhǔn)確率;
(2)比傳統(tǒng)波束搜索等更快的多樣化句子生成速度;
(3)更加多樣化的語(yǔ)言描述。
2.無(wú)監(jiān)督圖像描述生成
Unsupervised Image Captioning
本文由騰訊 AI Lab 主導(dǎo),與羅切斯特大學(xué)合作完成,提出了一種無(wú)監(jiān)督圖像描述生成模型。深度神經(jīng)網(wǎng)絡(luò)模型在圖像描述任務(wù)上取得了巨大的成功。但是大多數(shù)現(xiàn)有的圖像描述模型都依賴圖像-句子對(duì),而這種圖像-句子對(duì)的收集過(guò)程又成本高昂。本文首次嘗試用無(wú)監(jiān)督的方式來(lái)訓(xùn)練圖像描述模型。
我們提出的方法僅需要一個(gè)圖片集、一個(gè)句子集和一個(gè)已有的檢測(cè)模型。我們用句子集來(lái)讓圖像描述模型學(xué)習(xí)如何生成通順的句子,同時(shí)我們把檢測(cè)模型的知識(shí)蒸餾到圖像描述模型當(dāng)中,從而使得后者可以識(shí)別圖像內(nèi)容。為了讓圖像和生成的描述更加相關(guān),我們把圖像和描述語(yǔ)句投影到了同一個(gè)語(yǔ)義空間。因?yàn)橐延械木渥蛹饕菫檎Z(yǔ)言研究設(shè)計(jì)的,它們涉及的圖像內(nèi)容不多,并不適合用于無(wú)監(jiān)督圖像描述研究。所以我們從網(wǎng)上下載了二百萬(wàn)個(gè)圖像描述用于此項(xiàng)研究。實(shí)驗(yàn)表明我們提出的模型可以在沒(méi)有使用任何標(biāo)注句子的情況下,生成合理的圖片描述。
圖像分割
Image Segmentation
圖像分割是指將圖像細(xì)分為多個(gè)圖像子區(qū)域(像素的集合)的過(guò)程,可簡(jiǎn)化或改變圖像的表示形式,使得圖像更容易理解和分析。圖像分割可用于定位圖像中的物體和邊界,這在移動(dòng)機(jī)器人和自動(dòng)駕駛等需要對(duì)目標(biāo)的范圍有精確判定的應(yīng)用中具有非常重要的價(jià)值。圖像分割方面的難題包括如何設(shè)定不同的分割層次、分析不常見(jiàn)目標(biāo)的形狀、不同視角與深度的場(chǎng)景、對(duì)遮擋情況的處理以及邊緣的精確認(rèn)定等等。
騰訊AI Lab 有多篇 CVPR 入選論文在圖像和視頻分割上做出了有價(jià)值的貢獻(xiàn)。除了前文用于視頻對(duì)象分割的 MHP-VOS,我們還提出了一種不依賴于物體檢測(cè)的人體實(shí)例分割方法,并為之創(chuàng)造了一個(gè)新的數(shù)據(jù)集。另外,我們還探索了室內(nèi)場(chǎng)景形義分割與人群計(jì)數(shù)問(wèn)題。
1.Pose2Seg:不依賴于物體檢測(cè)的人體實(shí)例分割
Pose2Seg: Detection Free Human Instance Segmentation
本文由騰訊AI Lab、清華大學(xué)和卡迪夫大學(xué)合作完成,提出了一種不依賴于物體檢測(cè)的人體實(shí)例分割方法和一個(gè)新的數(shù)據(jù)集。目前主流的圖像實(shí)例分割方法大多需要首先從圖像中檢測(cè)物體的包圍框,然后從包圍框中分割目標(biāo)對(duì)象。Mask R-CNN 等最新的一些工作將這兩個(gè)步驟合二為一。
但是很少有研究考慮到“人”這一類別的特殊性——“人”不僅可以通過(guò)包圍框定位實(shí)例,還可以通過(guò)骨骼姿態(tài)檢測(cè)來(lái)定位。同時(shí),在一些嚴(yán)重遮擋的情況下,相比于包圍框,人體骨骼姿態(tài)可以更有效地區(qū)分不同的實(shí)例。
本文提出了一種全新的基于姿態(tài)的人體實(shí)例分割框架,可通過(guò)人體姿態(tài)檢測(cè)來(lái)分離實(shí)例。我們通過(guò)大量實(shí)驗(yàn)證明了基于姿態(tài)的實(shí)例分割框架可以比最先進(jìn)的基于包圍框的實(shí)例分割方法獲得更好的準(zhǔn)確性,同時(shí)還可以更好地處理遮擋情況。
此外,由于目前很少有公開(kāi)數(shù)據(jù)集包含大量的豐富標(biāo)注的嚴(yán)重遮擋實(shí)例,使得遮擋問(wèn)題很少被研究者注意到。在本文中我們還公開(kāi)了一個(gè)新的數(shù)據(jù)集“Occluded Human (OCHuman)”。這個(gè)數(shù)據(jù)集包含4731張圖像,有8110個(gè)詳細(xì)標(biāo)注的人體實(shí)例。標(biāo)注信息包括包圍框、實(shí)例分割掩碼以及人體姿態(tài)關(guān)鍵點(diǎn)。全部人體實(shí)例都存在嚴(yán)重的互相遮擋,因此這個(gè)數(shù)據(jù)集是目前最有挑戰(zhàn)的數(shù)據(jù)集。通過(guò)這個(gè)數(shù)據(jù)集,我們希望強(qiáng)調(diào)遮擋問(wèn)題的挑戰(zhàn)性,并推動(dòng)在檢測(cè)以及分割中對(duì)遮擋問(wèn)題的研究。
2.基于幾何感知知識(shí)蒸餾方法的室內(nèi)場(chǎng)景形義分割
Geometry-Aware Distillation for Indoor Semantic Segmentation
本文由騰訊AI Lab與伊利諾伊大學(xué)香檳分校、香港城市大學(xué)合作完成,提出了一種新的室內(nèi)場(chǎng)景語(yǔ)義分割方法。已有研究表明,聯(lián)合推理來(lái)自RGB-D域的2D外觀和3D信息有利于室內(nèi)場(chǎng)景語(yǔ)義分割。然而,大多數(shù)現(xiàn)有方法需要精確的深度圖作為輸入來(lái)分割場(chǎng)景,這嚴(yán)重限制了它們的應(yīng)用。
在本文中,我們提出通過(guò)提取幾何感知嵌入特征來(lái)聯(lián)合推斷語(yǔ)義和深度信息,以消除這種強(qiáng)約束,同時(shí)仍然利用有用的深度域信息。
此外,我們還提出了幾何感知傳播框架和多級(jí)跳過(guò)特征融合模塊,可使用這種學(xué)習(xí)嵌入來(lái)提高語(yǔ)義分割的質(zhì)量。通過(guò)將單個(gè)任務(wù)預(yù)測(cè)網(wǎng)絡(luò)解耦為語(yǔ)義分割和幾何嵌入學(xué)習(xí)這兩個(gè)聯(lián)合任務(wù),加上我們提出的信息傳播和特征融合架構(gòu),我們?cè)谌舾晒_(kāi)的具有挑戰(zhàn)性的室內(nèi)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),結(jié)果表明我們的方法可以超過(guò)目前最先進(jìn)的語(yǔ)義分割方法。
應(yīng)用價(jià)值:
3.基于殘差回歸和形義先驗(yàn)的人群計(jì)數(shù)
Residual Regression with Semantic Prior for Crowd Counting
本文由騰訊AI Lab主導(dǎo),與香港城市大學(xué)合作完成。人群計(jì)數(shù)是一個(gè)很有挑戰(zhàn)性的問(wèn)題。最近基于深度學(xué)習(xí)的方法雖然取得了一些進(jìn)展,但是樣本之間的相關(guān)性帶來(lái)的知識(shí)還沒(méi)被全面挖掘。本文提出了利用殘差回歸來(lái)學(xué)習(xí)樣本之間的相關(guān)性。通過(guò)融入相關(guān)性,我們實(shí)現(xiàn)了人群計(jì)數(shù)性能的提升。我們也展示了怎樣如何有效地利用形義先驗(yàn)來(lái)提升模型性能。另外我們還觀察到對(duì)抗損失可以用來(lái)提升預(yù)測(cè)的密度圖質(zhì)量,繼而提升結(jié)果。實(shí)驗(yàn)結(jié)果證明了我們方法的有效性和泛化能力。
機(jī)器學(xué)習(xí)和優(yōu)化方法
Machine Learning and Optimization Methods
基于卷積神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)確實(shí)已經(jīng)推動(dòng)計(jì)算機(jī)視覺(jué)領(lǐng)域?qū)崿F(xiàn)了巨大的進(jìn)步,但這個(gè)方法還遠(yuǎn)非完美,在少樣本學(xué)習(xí)、學(xué)習(xí)效率和泛化能力等問(wèn)題上還有很多改進(jìn)的空間。同時(shí),人工智能研究界也在不斷探索新的機(jī)器學(xué)習(xí)方法以及為各種機(jī)器學(xué)習(xí)技術(shù)提供理論驗(yàn)證和支持。
今年的 CVPR 上,我們?nèi)脒x的論文涵蓋單樣本學(xué)習(xí)、開(kāi)放域?qū)W習(xí)、模型壓縮、多任務(wù)與自適應(yīng)學(xué)習(xí)等多個(gè)研究方向,也在訓(xùn)練方法等方面做出了一些理論研究貢獻(xiàn)——我們首次提出了一種全新的用于保證 Adam/RMSProp 的全局收斂性的充分條件,還提出了一種用于稀疏廣義特征值問(wèn)題的分解算法。
1.為視覺(jué)環(huán)境構(gòu)建動(dòng)態(tài)樹(shù)結(jié)構(gòu)的學(xué)習(xí)方法
Learning to Compose Dynamic Tree Structures for Visual Contexts
本文由騰訊AI Lab與新加坡南洋理工大學(xué)合作完成,是CVPR oral 展示論文之一。我們提出了一種動(dòng)態(tài)樹(shù)構(gòu)建方法,可將圖像中的物體放置到一個(gè)完整的視覺(jué)環(huán)境中。該方法有助于解決場(chǎng)景圖生成、視覺(jué)問(wèn)答等視覺(jué)推理問(wèn)題。
相比于現(xiàn)有的結(jié)構(gòu)化物體表示方法,我們提出的視覺(jué)環(huán)境樹(shù)模型VCTree具有兩大優(yōu)點(diǎn):1)二叉樹(shù)非常高效且具有很強(qiáng)的表示能力,可以學(xué)習(xí)物體之間內(nèi)在的并行或?qū)哟侮P(guān)系(例如,“衣服”和“褲子”往往同時(shí)出現(xiàn),且它們都屬于人的一部分);2)不同圖像和任務(wù)的動(dòng)態(tài)結(jié)構(gòu)往往各有不同,我們的模型能捕獲這種變化,從而在物體之間傳遞依賴于具體圖像內(nèi)容和任務(wù)的信息。
在構(gòu)建VCTree時(shí),我們?cè)O(shè)計(jì)了一種評(píng)分函數(shù)來(lái)計(jì)算每一對(duì)物體和給定任務(wù)的有效性,從而得到物體之間的評(píng)分矩陣。然后我們?cè)谠撛u(píng)分矩陣上構(gòu)建最大生成樹(shù),并進(jìn)行二值化。隨后,我們采用雙向樹(shù)LSTM模型對(duì)VCTree進(jìn)行編碼,并利用任務(wù)相關(guān)的模型進(jìn)行解碼。我們開(kāi)發(fā)了一種混合學(xué)習(xí)流程,將監(jiān)督學(xué)習(xí)和樹(shù)結(jié)構(gòu)強(qiáng)化學(xué)習(xí)結(jié)合到了一起。我們?cè)趫?chǎng)景圖生成和視覺(jué)問(wèn)答這兩個(gè)視覺(jué)推理任務(wù)上進(jìn)行了充分的實(shí)驗(yàn),結(jié)果表明VCTree不僅在這兩個(gè)任務(wù)上優(yōu)于當(dāng)前最佳方法,同時(shí)還能挖掘出可解釋的視覺(jué)環(huán)境。
2.基于五胞胎損失的步態(tài)聯(lián)合學(xué)習(xí)
Learning Joint Gait Representation via Quintuplet Loss Minimization
本文由騰訊AI Lab主導(dǎo),與澳洲國(guó)立大學(xué)合作完成,是CVPR oral 展示論文之一。步態(tài)識(shí)別是指通過(guò)走路的模態(tài)來(lái)遠(yuǎn)距離地識(shí)別一個(gè)人,這是視頻監(jiān)控領(lǐng)域一個(gè)重要問(wèn)題。現(xiàn)有的方法要么是通過(guò)單張步態(tài)圖來(lái)學(xué)習(xí)獨(dú)一的步態(tài)特征,要么是通過(guò)一對(duì)步態(tài)圖來(lái)學(xué)習(xí)不同的步態(tài)特征。有證據(jù)表明這兩種方法是互補(bǔ)的。
在本文中,我們提出了一種步態(tài)聯(lián)合學(xué)習(xí)的網(wǎng)絡(luò),其融合了這兩種方法的優(yōu)勢(shì)。另外,我們還提出了一種“五胞胎損失”,通過(guò)該損失可以同時(shí)最小化類內(nèi)差和最大化類間差。實(shí)驗(yàn)結(jié)果表明我們提出的方法取得了當(dāng)前的最佳性能,超過(guò)了現(xiàn)有的方法。
3.基于圖像變形元網(wǎng)絡(luò)模型的單樣本學(xué)習(xí)
Image Deformation Meta-Networks for One-Shot Learning
本文由騰訊AI Lab、復(fù)旦大學(xué)、卡耐基梅隆大學(xué)合作完成,是CVPR oral 展示論文之一。人類可以精確地識(shí)別和學(xué)習(xí)圖像,即使圖像缺少了一塊或與另一幅圖像相重疊。結(jié)合這種能力來(lái)合成包含新概念的變形實(shí)例可以幫助視覺(jué)識(shí)別系統(tǒng)完成更好的單樣本學(xué)習(xí),即從一個(gè)或少數(shù)幾個(gè)示例中學(xué)習(xí)相應(yīng)的視覺(jué)概念。
我們的主要觀點(diǎn)是:雖然變形的圖像可能在視覺(jué)上不真實(shí),但它們?nèi)匀槐S嘘P(guān)鍵的形義信息,并且對(duì)相應(yīng)的分類器決策邊界有很大貢獻(xiàn)。受到最近元學(xué)習(xí)進(jìn)展的啟發(fā),我們將元學(xué)習(xí)者與圖像變形子網(wǎng)絡(luò)結(jié)合起來(lái),進(jìn)而產(chǎn)生額外的訓(xùn)練樣例,并以端到端的方式同時(shí)優(yōu)化兩個(gè)模型。變形子網(wǎng)絡(luò)通過(guò)融合一對(duì)圖像來(lái)得到相應(yīng)的變形圖像。在業(yè)界公認(rèn)的單樣本學(xué)習(xí)的基準(zhǔn)數(shù)據(jù)集上(即miniImageNet和ImageNet 1K Challenge),我們所提出的方法明顯優(yōu)于現(xiàn)有技術(shù)。
4.Adam 和 RMSProp 收斂的充分條件
A Sufficient Condition for Convergences of Adam and RMSProp
本文由騰訊AI Lab主導(dǎo),與石溪大學(xué)合作完成,是CVPR oral 展示論文之一。Adam/RMSProp作為用于訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)的兩種最有影響力的自適應(yīng)隨機(jī)算法,已經(jīng)從理論上被證明是發(fā)散的。針對(duì)這一問(wèn)題,目前的作法是通過(guò)對(duì) Adam/RMSProp 的算法結(jié)構(gòu)進(jìn)行修改來(lái)促進(jìn)Adam/RMSProp 及其變體收斂。常用的策略包括:降低自適應(yīng)學(xué)習(xí)速率、采用大的batch-size、減少學(xué)習(xí)率與梯度的相關(guān)性。
在本文中,我們首次提出了一種全新的充分條件來(lái)保證 Adam/RMSProp的全局收斂性。該充分條件僅取決于基本學(xué)習(xí)速率參數(shù)和歷史二階矩的線性組合參數(shù), 并且無(wú)需對(duì) Adam/RMSProp 算法結(jié)構(gòu)做任何修改。根據(jù)文中提出的充分條件,我們的結(jié)論直接暗含 Adam 的幾個(gè)變體(AdamNC、AdaEMA等)的收斂性。
另外,我們嚴(yán)格說(shuō)明 Adam 可以等價(jià)地表述為具有指數(shù)移動(dòng)平均動(dòng)量的 Weighted AdaGrad,從而為理解 Adam/RMSProp 提供了新的視角。結(jié)合這種觀察結(jié)果與文中提出的充分條件,我們更深入地解釋了Adam/RMSProp 發(fā)散的本質(zhì)原因。最后,我們實(shí)驗(yàn)了應(yīng)用 Adam/RMSProp 來(lái)解決反例和訓(xùn)練深度神經(jīng)網(wǎng)絡(luò),從而對(duì)本文提出的充分條件進(jìn)行了驗(yàn)證。結(jié)果表明,數(shù)值結(jié)果與理論分析完全一致。
雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)
Ps:想要了解更多頂會(huì)動(dòng)態(tài)?那就點(diǎn)擊鏈接加入CVPR頂會(huì)交流小組吧
https://ai.yanxishe.com/page/meeting/44%EF%BC%9F=leifeng
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。
本專題其他文章