37 篇！ Facebook 今年被 CVPR 收錄的論文都說了啥？

本文作者： xyhncepu

編輯：幸麗娟

2019-07-03 10:28

導(dǎo)語：戰(zhàn)績輝煌！

雷鋒網(wǎng)AI 科技評論按：CVPR 2019 已于 6 月 16 日至 20 日在美國加利福利亞州長灘市盛大舉辦，吸引了超過萬人參加，雷鋒網(wǎng) AI 科技評論的記者也前往現(xiàn)場為大家?guī)砹?a href="http://m.ozgbdpf.cn/news/201906/Mhn4ECCaFDyYFr24.html" target="_self">精彩的大會報道。作為工業(yè)界的學(xué)術(shù)實力干將之一，F(xiàn)acebook AI 研究院在本次大會上的成果也備受矚目。而 Facebook AI 研究院也對自己今年的戰(zhàn)績進(jìn)行了統(tǒng)計：共有 37 篇論文被收錄，其中包括 15 篇 Oral 論文。下面就讓我們一起來看看這些成果吧。

Oral 論文一覽

《2.5D 視覺聲音》

2.5D Visual Sound

作者：Ruohan Gao，Kristen Grauman

雙聲道音頻為聽者提供了 3D 的聽覺感受，讓人對場景有豐富的感知體驗。然而，雙聲道錄音幾乎是不可實現(xiàn)的，即使能實現(xiàn)也需要相當(dāng)水平的專業(yè)知識和設(shè)備。我們建議利用視頻將普通的單聲道音頻轉(zhuǎn)換成雙聲道音頻，其關(guān)鍵思想是，視覺幀揭示了重要的空間線索：盡管單聲道音頻在完成過程中明顯缺乏這些空間線索，但它們與空間線索緊密相連。我們的多模態(tài)方法可以從未經(jīng)標(biāo)注的視頻中還原空間線索與單聲道音頻的這一聯(lián)系。我們設(shè)計了一個深卷積神經(jīng)網(wǎng)絡(luò)，通過注入有關(guān)目標(biāo)和場景配置的視覺信息，將單聲道（單通道）原聲解碼成對應(yīng)的雙聲道。我們將輸出結(jié)果稱之為 2.5D 視覺聲音——視覺流幫助平面的單通道音頻「提升」到空間化的聲音。除了生成聲音，我們的神經(jīng)網(wǎng)絡(luò)自監(jiān)督表征學(xué)習(xí)也顯示出對聲源分離的作用。

相關(guān)視頻演示鏈接：http://vision.cs.utexas.edu/projects/2.5D_visual_sound/
論文地址：https://research.fb.com/publications/2-5d-visual-sound/

《多語句視頻描述的對抗性推理》

Adversarial Inference for Multi-Sentence Video Description

作者：Jae Sung Park，Marcus Rohrbach，Trevor Darrell，and Anna Rohrbach

盡管圖像標(biāo)注工作取得了顯著進(jìn)展，但由于視頻數(shù)據(jù)的復(fù)雜性，視頻描述仍處于起步階段，而為長視頻生成多語句描述則更具挑戰(zhàn)性。其中主要的挑戰(zhàn)包括生成視頻描述的流暢性和連貫性，以及它們與視頻的相關(guān)性。近年來，為了改進(jìn)圖像標(biāo)注模型，研究者們探索了基于強化和對抗學(xué)習(xí)的方法，但這兩種方法都存在著許多問題，例如 RL 存在的可讀性差、冗余度高問題，以及GANs 存在的穩(wěn)定性問題。在本文中，我們建議在推理過程中應(yīng)用對抗性技術(shù)，設(shè)計一種有助于更好地生成多語句視頻描述的鑒別器。此外，我們發(fā)現(xiàn)多鑒別器采用的「混合」設(shè)計（即每個鑒別器針對視頻描述的某一方面）能夠?qū)崿F(xiàn)更好的效果。具體而言，我們通過解耦鑒別器從三個標(biāo)準(zhǔn)方面進(jìn)行評估：（1）視頻的視覺相關(guān)性；（2）語言的多樣性和流暢性（3）語句之間的連貫性。我們的方法在通常使用的 ActivityNet Captions 數(shù)據(jù)集進(jìn)行自動和人工評估的結(jié)果都顯示，可以得到更準(zhǔn)確、更多樣、更連貫的多語句視頻描述。

論文地址：https://research.fb.com/publications/adversarial-inference-for-multi-sentence-video-description/

《魯棒可視問答的循環(huán)一致性》

Cycle-Consistency for Robust Visual Question Answering

作者：Meet Shah，Xinlei Chen，Marcus Rohrbach，and Devi Parikh

盡管多年來，可視化回答取得了顯著的進(jìn)展，但今天的 VQA 模型的魯棒性仍有許多不足之處。我們引入了一種新的評估協(xié)議和相關(guān)數(shù)據(jù)集（VQARephrasings），并證明了最先進(jìn)的 VQA 模型對問題中存在的語言變化是相當(dāng)脆弱的。VQA- rephrasings 包含三個人為提供的 rephrasings（改述），用于解決來自 VQA v2.0 驗證數(shù)據(jù)集的 4 萬個圖像中的 4 萬個問題。為了提高 VQA 模型的魯棒性，我們提出了一個使用循環(huán)一致性的與模型無關(guān)的框架。具體來說，我們訓(xùn)練一個模型，不僅用來回答問題，而且還用來生成以特定答案為前提條件的問題，這樣的話，針對生成問題預(yù)測的答案與原始問題的真實答案相同。在不使用額外標(biāo)注的情況下評估 VQA-Rephrasings 數(shù)據(jù)集，我們的方法在問題的表述變化方面比最先進(jìn)的 VQA 模型具有更顯著的魯棒性。此外，在標(biāo)準(zhǔn) VQA 和在挑戰(zhàn) VQA v2.0 數(shù)據(jù)集的可視化問題生成任務(wù)上，我們的方法比其他當(dāng)前最先進(jìn)的方法的表現(xiàn)都要更好。

論文地址：https://research.fb.com/publications/cycle-consistency-for-robust-visual-question-answering/

《DeepSDF：學(xué)習(xí)用于形狀表征的連續(xù)符號距離函數(shù)》

DeepSDF: Learning Continuous Signed Distance Functions for Shape Representation

作者：Jeong Joon Park，Peter Florence，Julian Straub，Richard Newcombe，and Steven Lovegrove

計算機圖形學(xué)、3D 計算機視覺和機器人領(lǐng)域的研究者已經(jīng)提出了多種方法來表示用于 3D 幾何的渲染和重建。這些方法在保真度、有效性和壓縮能力方面進(jìn)行權(quán)衡。本論文引入了 DeepSDF，即一個用于形狀類別表征的學(xué)到的連續(xù)符號距離函數(shù)（SDF），它能夠基于局部和帶噪聲的 3D 輸入數(shù)據(jù)實現(xiàn)高質(zhì)量形狀表征、插值和補充。比如 DeepSDF 的分類作用，就是通過連續(xù)體積場來表示形狀的表面：場中點的大小表示到表面邊界的距離，同時標(biāo)記（-）和（+）分別表示該區(qū)域是在形狀區(qū)域內(nèi)還是在形狀區(qū)域外，因此我們的表征隱式地將形狀邊界編碼為學(xué)習(xí)到的函數(shù)的零水平集（zero-level-set），同時顯式地將空間分類表示為形狀內(nèi)部/外部區(qū)域。雖然經(jīng)典的 SDF 能夠以解析或離散體素的形式表示單個形狀的表面，但 DeepSDF 可以表示形狀的完整類別。此外，該方法在學(xué)習(xí) 3D 形狀表征和補充方面展示出了最先進(jìn)的性能，和之前的研究相比，模型尺寸減小了一個數(shù)量級。

論文地址：https://arxiv.org/pdf/1901.05103.pdf

《使用網(wǎng)絡(luò)規(guī)模近鄰搜索的對抗性圖像的防御》

Defense Against Adversarial Images Using Web-Scale Nearest-Neighbor Search

作者：Abhimanyu Dubey，Laurens van der Maaten，Zeki Yalniz，Yixuan Li，and Dhruv Mahajan

大量最近的研究表明，卷積網(wǎng)絡(luò)對敵方圖像不具有魯棒性：通過擾動數(shù)據(jù)分布中的樣本而產(chǎn)生的圖像，以最大限度地減少擾動示例的損失。在這篇論文中，我們假設(shè)對抗性干擾將圖像從圖像流形中移開，因為沒有物理過程可以產(chǎn)生對抗性圖像。這一假設(shè)表明，一個能夠成功防御對抗性圖像的機制應(yīng)讓圖像設(shè)計回歸到圖像流形上。我們研究了這種防御機制，通過對包含數(shù)百億圖像的網(wǎng)絡(luò)級圖像數(shù)據(jù)庫進(jìn)行近鄰搜索來模擬未知圖像流形設(shè)計。對 ImageNet 防御策略的經(jīng)驗評估表明在攻擊環(huán)境中該策略非常有效，即敵對方無法訪問圖像數(shù)據(jù)庫。我們還提出了兩種新的攻擊方法來破壞近鄰防御，并給出了近鄰防御失效的條件。我們進(jìn)行了一系列的消融實驗，這表明在防御系統(tǒng)的魯棒性和精確性之間存在著權(quán)衡，大型圖像數(shù)據(jù)庫（包含數(shù)億圖像）對于獲得良好的性能至關(guān)重要，仔細(xì)構(gòu)建圖像數(shù)據(jù)庫對于抵御為規(guī)避防御而定制的攻擊非常重要。

論文地址：https://arxiv.org/pdf/1903.01612.pdf

《具有點云感知的逼真環(huán)境中的具身問答》

Embodied Question Answering in Photorealistic Environments with Point Cloud Perception

作者：Erik Wijmans，Samyak Datta，Oleksandr Maksymets，Abhishek Das，Georgia Gkioxari，Stefan Lee，Irfan Essa，Devi Parikh，Dhruv Batra

為了幫助彌合互聯(lián)網(wǎng)視覺風(fēng)格問題與具身感知的視覺目標(biāo)之間的差距，我們以一個大規(guī)模的導(dǎo)航任務(wù)為例——在逼真環(huán)境（MatterPort3D）中具身問答[1]。我們深入研究使用 3D 點云、RGB 圖像或其組合的導(dǎo)航策略。我們對這些模型的分析揭示了幾個關(guān)鍵的發(fā)現(xiàn)。我們發(fā)現(xiàn)，兩個看似簡單的導(dǎo)航基線（僅向前導(dǎo)航和隨機導(dǎo)航）都是強大的導(dǎo)航者，并且由于具身問答所采用的評估設(shè)置的特定選擇，它們也很難被超越。我們發(fā)現(xiàn)了一種新的損失加權(quán)方法，我們稱之為拐點加權(quán)法，在用行為克隆訓(xùn)練循環(huán)導(dǎo)航模型時非常重要，并且能夠用這種技術(shù)完成基線。我們發(fā)現(xiàn)點云為學(xué)習(xí)障礙規(guī)避提供了比 RGB 圖像更豐富的信號，這有助于推動研究者使用（并繼續(xù)研究）3D 深度學(xué)習(xí)模型進(jìn)行實體導(dǎo)航。

論文地址：https://research.fb.com/publications/embodied-question-answering-in-photorealistic-environments-with-point-cloud-perception/

《基于場景補全的 RGB-D 掃描的極端相對姿態(tài)估計》

Extreme Relative Pose Estimation for RGB-D Scans via Scene Completion

作者：Zhenpei Yang，Jeffrey Z. Pan，Linjie Luo，Xiaowei Zhou，Kristen Grauman，and Qixing Huang

在相同的底層環(huán)境下，評估兩次 RGB-D 掃描之間的相對剛性姿態(tài)是計算機視覺、機器人學(xué)和計算機圖形學(xué)中的一個基本問題。大多數(shù)現(xiàn)有的方法只允許有限的相對姿態(tài)變化，因為它們在輸入掃描之間有相當(dāng)大的重疊。我們引入了一種新的方法，在輸入掃描之間很少甚至沒有重疊的情況下，將范圍擴展到極端相對姿態(tài)。關(guān)鍵思想是推斷出關(guān)于底層環(huán)境更完整的場景信息，并與完成的掃描相匹配。特別地，我們的方法不是只對每個單獨的掃描執(zhí)行場景補全，而是在相對姿態(tài)估計和場景補全之間進(jìn)行切換。這使得我們可以在后期迭代中利用來自兩個輸入掃描的信息來執(zhí)行場景補全，從而為場景補全和相對姿態(tài)估計帶來更好的結(jié)果。在基準(zhǔn)數(shù)據(jù)集上的實驗結(jié)果表明，相對于最先進(jìn)的相對姿態(tài)估計方法，我們的方法有較大的改進(jìn)。特別是，我們的方法在相對姿態(tài)估計甚至在非重疊掃描之間實現(xiàn)了令人興奮的結(jié)果。

論文地址：https://arxiv.org/pdf/1901.00063.pdf

《FBNET：基于可微神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索的硬件感知的有效卷積網(wǎng)絡(luò)設(shè)計》

FBNet: Hardware-Aware Efficient ConvNet Design via Differentiable Neural Architecture Search

作者：Bichen Wu，Xiaoliang Dai，Peizhao Zhang，Yanghan Wang，F(xiàn)ei Sun，Yiming Wu，Yuandong Tian，Peter Vajda，Yangqing Jia，and Kurt Keutzer

給移動設(shè)備設(shè)計又準(zhǔn)又快的卷積網(wǎng)絡(luò)是非常具有挑戰(zhàn)的，因為設(shè)計空間太大了。因此，之前的神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索（NAS）方法計算量太大。卷積架構(gòu)優(yōu)化依賴的因素有分辨率和目標(biāo)設(shè)備等。然而，用現(xiàn)有的方法一個一個去重新設(shè)計代價太高。并且，之前的方法主要集中在減少 FLOPs，但是 FLOP 計數(shù)并不總是能反映實際延時?；谶@些情況，我們提出了一種可微神經(jīng)架構(gòu)搜索（DNAS）框架，使用基于梯度的方法去優(yōu)化卷積網(wǎng)絡(luò)結(jié)構(gòu)，避免像之前的方法那樣去窮舉和單獨訓(xùn)練結(jié)構(gòu)。FBNets（Facebook-伯克利-網(wǎng)），是 DNAS 的一種分支模型，超越了人工設(shè)計的和自動生成的當(dāng)前最先進(jìn)模型。FBNet-B 在 ImageNet 數(shù)據(jù)集上達(dá)到了 74.1% 的 top-1 準(zhǔn)確率，在三星 S8 手機上實現(xiàn)了 295M 的 FLOPs 以及 23.1ms 的延時，也就說與 MobileNetV2-1.3 相比，F(xiàn)BNet-B 在準(zhǔn)確率差不多的情況下將 FLOPs 減少了 2.4 倍，將響應(yīng)速度提高了 1.5 倍。盡管 FBNet-B 比 MnasNet[20] 具有更高的準(zhǔn)確性和更低的延遲，但我們還評估出 FBNet-B 的搜索成本比 MnasNet 低 420 倍，僅為 216 GPUhours。針對不同分辨率和通道大小的搜索，F(xiàn)BNets 比 MobileNetV2 的準(zhǔn)確率高了 1.5% 至 6.4%。最小的 FBNet 網(wǎng)絡(luò)在一臺三星 S8 上達(dá)到了 50.2% 的準(zhǔn)確率和 2.9ms 的延時（每秒 345 幀）。通過使用在三星上優(yōu)化的 FBNet，iPhone-X-優(yōu)化模型在 iPhone X 上搜索速度提高了 1.4 倍。

FBNet 模型源代碼：https://github.com/facebookresearch/mobile-vision
論文地址：https://research.fb.com/publications/fbnet-hardware-aware-efficient-convnet-design-via-differentiable-neural-architecture-search

《實現(xiàn)貼切的視頻描述》

Grounded Video Description

作者：Luowei Zhou，Yannis Kalantidis，Xinlei Chen，Jason J. Corso，Marcus Rohrbach

視頻描述是視覺和語言理解中最具挑戰(zhàn)性的問題之一，因為視頻和語言都具有很大的可變性。因此，模型通常會簡化識別的難度，生成基于先驗但不一定基于視頻的可信語句。本次研究中，我們通過使用視頻的某個幀中對應(yīng)的邊框來標(biāo)注語句中的每個名詞短語，從而明確讓生成的語句與視頻中的顯示畫面掛鉤。我們的數(shù)據(jù)集 ActivityNet- Entities 增強了這一具有挑戰(zhàn)性的 ActivityNet Captions 數(shù)據(jù)集，其包含 15.8 萬個邊框標(biāo)注，其中每個標(biāo)注都以名詞短語為基礎(chǔ)。這樣的話，就能使用這些數(shù)據(jù)訓(xùn)練視頻描述模型，并且非常重要的是，這些數(shù)據(jù)可以評估該模型對所描述的視頻的合理性或「真實性」。為了生成合理的說明，我們提出了一種能夠利用這些邊框標(biāo)注的新的視頻描述模型。我們證明了該模型在前述數(shù)據(jù)集上的有效性，同時也顯示出該模型能用于基于 Flickr30k Entities 數(shù)據(jù)集的視頻描述。本次研究在視頻描述、視頻片段描述和圖像描述方面實現(xiàn)了最先進(jìn)的性能，并展示了我們的模型生成的語句，與視頻中顯示的畫面匹配得更貼切。

代碼鏈接：https://github.com/facebookresearch/grounded-videodescription
數(shù)據(jù)集鏈接：https://github.com/facebookresearch/activityNet-Entities
論文地址：https://research.fb.com/publications/grounded-video-description/

《接縫材料和照明估計的反向路徑跟蹤》

Inverse Path Tracing for Joint Material and Lighting Estimation

作者：Dejan Azinovic，Tzu-Mao Li，Anton Kaplanyan，Matthias Niessner

現(xiàn)代計算機視覺算法給三維幾何重建帶來了顯著的進(jìn)步。然而，照明和材料重建的研究仍然較少，目前材料和照明模型的方法假設(shè)非常簡單。本文介紹了一種利用可逆的光傳輸模擬來聯(lián)合估計室內(nèi)場景中物體和光源材料性質(zhì)的新方法——反向路徑跟蹤。我們假設(shè)一個粗略的幾何掃描，以及相應(yīng)的圖像和相機姿態(tài)。本次工作的關(guān)鍵貢獻(xiàn)是，讓模型能夠精確并同步檢索光源和基于物理的材料屬性（如漫反射、鏡面反射、粗糙度等），以便在新的條件下編輯和重新渲染場景。為此，我們引入了一種新的優(yōu)化方法，使用可微蒙特卡羅渲染器來計算關(guān)于未知照明和材料屬性估計的導(dǎo)數(shù)。該方法使用定制的隨機梯度下降對物理正確的光傳輸和材料模型進(jìn)行了聯(lián)合優(yōu)化。

論文地址：https://research.fb.com/publications/inverse-path-tracing-for-joint-material-and-lighting-estimation/

《用于詳細(xì)視頻理解的長期特征庫》

Long-Term Feature Banks for Detailed Video Understanding

作者：Chao-Yuan Wu，Christoph Feichtenhofer，Haoqi Fan，Kaiming He，Philipp Kr?henbühl，Ross Girshick

為了理解世界，我們?nèi)祟愋枰粩嗟貙F(xiàn)在與過去聯(lián)系起來，并將事件置于語境中。在本文中，我們使現(xiàn)有的視頻模型也能做到這一點。我們提出了長期特征庫（Long-Term Feature Bank）的方法，即在整個視頻范圍內(nèi)提取支持性的信息，用以增強最先進(jìn)的視頻模型——這些模型此前只能查看 2-5 秒的短片段。我們的實驗表明，使用長期特征庫擴充 3D 卷積網(wǎng)絡(luò)可以在三個具有挑戰(zhàn)性的視頻數(shù)據(jù)集上產(chǎn)生最先進(jìn)的結(jié)果：AVA，EPIC-Kitchens 和 Charades。目前，相關(guān)代碼可在網(wǎng)上獲取。

論文地址：https://arxiv.org/pdf/1812.05038.pdf

《全景 FPN 網(wǎng)絡(luò)》

Panoptic Feature Pyramid Networks

作者：Alexander Kirillov，Ross Girshick，Kaiming He，Piotr Dollar

最近引入的全景分割任務(wù)使該領(lǐng)域的研究者對統(tǒng)一實例分割任務(wù)（對象類）和語義分段任務(wù)（材料類）產(chǎn)生了興趣。然而，當(dāng)前用于該聯(lián)合任務(wù)的最先進(jìn)方法使用單獨的和不相似的網(wǎng)絡(luò)，來進(jìn)行實例分割和語義分割，而無法讓兩個任務(wù)之間共享計算。在這項工作中，我們的目標(biāo)是在架構(gòu)層面統(tǒng)一這些方法，為這兩個任務(wù)設(shè)計單一網(wǎng)絡(luò)。我們的方法是使用共享的特征金字塔網(wǎng)絡(luò)（FPN）主框架來支持 Mask R-CNN（一種熱門的實例分割方法）。令人驚訝的是，該簡單基線不僅在實例分割方面仍然有效，而且還產(chǎn)生了一種輕量級、表現(xiàn)最佳的語義分割方法。在本次工作中，我們對具有 FPN 的 Mask R-CNN 的最小擴展版本進(jìn)行了詳細(xì)研究，我們將其稱為 Panopific FPN，并證明對于這兩個任務(wù)而言，它是穩(wěn)健且準(zhǔn)確的基線。鑒于其有效性和概念簡單性，我們希望我們的方法可以作為一個強大的基線，并有助于未來的全景分割研究。

論文地址：https://ai.facebook.com/blog/improving-scene-understanding-through-panoptic-segmentation/

《用于單目性能跟蹤的高保真人臉模型的自監(jiān)督適應(yīng)》

Self-Supervised Adaptation of High-Fidelity Face Models for Monocular Performance Tracking

作者：Jae Shin Yoon，Takaaki Shiratori，Shoou-I Yu，and Hyun Soo Park

數(shù)據(jù)捕獲和人臉建模技術(shù)的改進(jìn)使我們能夠創(chuàng)建高保真的真實人臉模型。但是，驅(qū)動這些真實的人臉模型需要特殊的輸入數(shù)據(jù)，例如 3D 網(wǎng)格和未展開的紋理。此外，這些人臉模型需要在受控實驗室環(huán)境下獲得干凈的輸入數(shù)據(jù)，這與野外采集的數(shù)據(jù)顯著不同。所有這些限制使得在日用相機跟蹤中使用高保真模型很困難（所有這些限制使得日用相機在使用高保真模型進(jìn)行追蹤變得具有挑戰(zhàn)性）。在本文中，我們提出了一種自監(jiān)督的域適應(yīng)方法，能夠讓日用相機拍攝到的高逼真人臉模型變成動畫格式。我們的這一方法首先通過訓(xùn)練一個可以直接從單個二維圖像驅(qū)動人臉模型的新網(wǎng)絡(luò)來規(guī)避對特殊輸入數(shù)據(jù)的需求；然后，在假設(shè)人臉在連續(xù)幀上的外觀是一致的前提下，基于「連續(xù)幀紋理一致性」進(jìn)行自監(jiān)督域適應(yīng)，我們克服了實驗室與非控制環(huán)境之間的領(lǐng)域不匹配問題，避免了對照明或背景等新環(huán)境建模的必要性，例如調(diào)整照明或背景。實驗表明，在不需要任何來自新領(lǐng)域的標(biāo)記數(shù)據(jù)的情況下，我們能夠讓手機攝像頭中的高保真人臉模型執(zhí)行復(fù)雜的面部運動。

論文地址：http://openaccess.thecvf.com/content_CVPR_2019/papers/Yoon_Self-Supervised_Adaptation_of_High-Fidelity_Face_Models_for_Monocular_Performance_Tracking_CVPR_2019_paper.pdf

《微密集 DensePose：從稀少的標(biāo)注和運動線索中進(jìn)行精細(xì)學(xué)習(xí)》

Slim DensePose: Thrifty Learning from Sparse Annotations and Motion Cues

作者：Natalia Neverova，James Thewlis，Riza Alp Güler，Iasonas Kokkinos，Andrea Vedaldi

DensePose 通過將圖像像素密集地映射到人體表面坐標(biāo)，取代了傳統(tǒng)的地標(biāo)探測器。然而，這種強大的功能帶來了極大的標(biāo)注成本，因為管理模型需要為每個人體姿態(tài)實例手工標(biāo)注數(shù)百個點。因此，在這項工作中，我們尋找方法來顯著減少 DensePose 標(biāo)注，從而提出更有效的數(shù)據(jù)收集策略。特別地，我們證明了如果在視頻幀中收集標(biāo)注，通過使用動作線索可以使它們的效果成倍增加。為了探索這個想法，我們引入了 DensePose-Track，這是一組視頻數(shù)據(jù)集，其中所選的幀是以傳統(tǒng)的 DensePose 方式進(jìn)行標(biāo)注。然后，基于 DensePose 映射的幾何特性，利用視頻動態(tài)及時傳送真實有效的標(biāo)注，并從 Siamese 方差約束中學(xué)習(xí)。在對各種數(shù)據(jù)注釋和學(xué)習(xí)策略進(jìn)行了詳盡的經(jīng)驗評估之后，我們證明這樣做可以在強基線上顯著提高姿態(tài)估計結(jié)果。然而，盡管最近的一些研究工作提出了這樣的建議，但我們發(fā)現(xiàn)，僅通過對孤立幀應(yīng)用幾何變換來合成運動模式的效果要差得多，而從視頻中提取運動線索的效果更好。

論文地址：https://research.fb.com/publications/slim-densepose-thrifty-learning-from-sparse-annotations-and-motion-cues/

《精確到每一縷頭發(fā)的多視圖頭發(fā)捕捉》

Strand-Accurate Multi-View Hair Capture

作者：Giljoo Nam，Chenglei Wu，Min H. Kim，Yaser Sheikh

頭發(fā)由于其微小的尺度結(jié)構(gòu)和大量的重合遮擋，是最具挑戰(zhàn)的重建對象之一。在本文中，我們提出了第一種方法，以精確到每一縷頭發(fā)的方法來捕獲高保真度的頭發(fā)幾何結(jié)構(gòu)。我們的方法分三個階段來實現(xiàn)。第一階段，我們提出了一種新的采用立體傾斜支撐線的多視圖方法來解決不同視角之間的頭發(fā)對應(yīng)問題。詳細(xì)來說，我們提出了一個新的成本函數(shù)，它由顏色一致性項和幾何項組成，將每個頭發(fā)像素重建為一個三維線，其通過合并所有深度圖，可以得到一個點云以及每個點的局部線方向。第二階段，我們提出了一種新的基于均值漂移的發(fā)絲重構(gòu)方法，將噪聲點數(shù)據(jù)轉(zhuǎn)換為一組發(fā)絲。最后，我們使用多視圖幾何約束來精細(xì)到?jīng)]一縷發(fā)絲，從而拉長短頭發(fā)并恢復(fù)缺失的頭發(fā)，從而顯著地提高重建完整性。我們在合成數(shù)據(jù)和實際采集數(shù)據(jù)上對這一方法進(jìn)行了評估，結(jié)果表明我們的方法可以在亞毫米精度下重建每一縷發(fā)絲。

論文地址：http://openaccess.thecvf.com/content_CVPR_2019/papers/Nam_Strand-Accurate_Multi-View_Hair_Capture_CVPR_2019_paper.pdf

Poster 論文一覽

3D Human Pose Estimation in Video with Temporal Convolutions and Semisupervised Training

作者：Dario Pavllo，Christoph Feichtenhofer，David Grangier，Michael Auli
代碼鏈接：https://github.com/facebookresearch/VideoPose3D
論文地址：https://research.fb.com/publications/3d-human-pose-estimation-in-video-with-temporal-convolutions-and-semi-supervised-training/

Activity Driven Weakly Supervised Object Detection

作者：Zhenheng Yang，Dhruv Mahajan，Deepti Ghadiyaram，Ram Nevatia，Vignesh Ramanathan
代碼鏈接：https://github.com/facebookresearch/astmt

Attentive Single-Tasking of Multiple Tasks

作者：Kevis-Kokitsi Maninis，Ilija Radosavovic，and Iasonas Kokkinos
代碼及模型鏈接：https://github.com/facebookresearch/astmt

ChamNet: Towards Efficient Network Design Through Platform-Aware Model Adaptation

作者：Xiaoliang Dai，Peizhao Zhang，Bichen Wu，Hongxu Yin，F(xiàn)ei Sun，Yanghan Wang，Marat Dukhan，Yunqing Hu，Yiming Wu，Yangqing Jia，Peter Vajda，Matt Uyttendaele，Niraj K. Jha
論文地址：https://research.fb.com/publications/chamnet-towards-efficient-network-design-through-platform-aware-model-adaptation/

DMC-Net: Generating Discriminative Motion Cues for Fast Compressed Video Action Recognition

作者：Zheng Shou，Xudong Lin，Yannis Kalantidis，Laura Sevilla-Lara，Marcus Rohrbach，Shih-Fu Chang，Zhicheng Yan
論文地址：https://research.fb.com/publications/dmc-net-generating-discriminative-motion-cues-for-fast-compressed-video-action-recognition/

Engaging Image Captioning via Personality

作者：Kurt Shuster，Samuel Humeau，Hexiang Hu，Antoine Bordes，Jason Weston
論文地址：https://research.fb.com/publications/engaging-image-captioning-via-personality/

Feature Denoising for Improving Adversarial Robustness

作者：Cihang Xie，Yuxin Wu，Laurens van der Maaten，Alan Yuille，Kaiming He
代碼鏈接：https://github.com/facebookresearch/ImageNet-Adversarial-Training
論文地址：https://research.fb.com/publications/feature-denoising-for-improving-adversarial-robustness

Graph-Based Global Reasoning Networks

作者：Yunpeng Chen，Marcus Rohrbach，Zhicheng Yan，Shuicheng Yan，Jiashi Feng，Yannis Kalantidis
論文地址：https://research.fb.com/publications/graph-based-global-reasoning-networks/

Improved Road Connectivity by Joint Learning of Orientation and Segmentation

作者：Anil Batra，Suriya Singh，Guan Pang，Saikat Basu，C.V. Jawahar，Manohar Paluri
論文地址：http://openaccess.thecvf.com/content_CVPR_2019/papers/Batra_Improved_Road_Connectivity_by_Joint_Learning_of_Orientation_and_Segmentation_CVPR_2019_paper.pdf

Inverse Cooking: Recipe Generation from Food Images

作者：Amaia Salvador，Michal Drozdzal，Xavier Giro-i-Nieto，Adriana Romero
代碼及模型：https://github.com/facebookresearch/inversecooking.
論文地址：https://research.fb.com/publications/inverse-cooking-recipe-generation-from-food-images

Kernel Transformer Networks for Compact Spherical Convolution

作者：Yu-Chuan Su，Kristen Grauman
論文地址：https://research.fb.com/publications/kernel-transformer-networks-for-compact-spherical-convolution/

Large-Scale Weakly Supervised Pretraining for Video Action Recognition

作者：Deepti Ghadiyaram，Matt Feiszli，Du Tran，Xueting Yan，Heng Wang，Dhruv Mahajan
論文地址：https://research.fb.com/publications/large-scale-weakly-supervised-pre-training-for-video-action-recognition/

LBS Autoencoder: Self-Supervised Fitting of Articulated Meshes to Point Clouds

作者：Chun-Liang Li，Tomas Simon，Jason Saragih，Barnabás Póczos，Yaser Sheikh
論文地址：https://arxiv.org/abs/1904.10037

Less Is More: Learning Highlight Detection fromVideo Duration

作者：Bo Xiong，Yannis Kalantidis，Deepti Ghadiyaram，Kristen Grauman
論文地址：https://arxiv.org/abs/1903.00859

LVIS: A Data Set for Large Vocabulary Instance Segmentation

作者：Agrim Gupta，Piotr Dollár，Ross Girshick
LVIS 鏈接：http://www.lvisdata set.org

Multi-Target Embodied Question Answering

作者：Licheng Yu，Xinlei Chen，Georgia Gkioxari，Mohit Bansal，Tamara Berg，Dhruv Batra
論文地址：https://arxiv.org/pdf/1904.04686.pdf

Non-Adversarial Image Synthesis with Generative Latent Nearest Neighbors

作者：Yedid Hoshen，Jitendra Malik
論文地址：https://arxiv.org/pdf/1812.08985v1.pdf

Panoptic Segmentation

作者：Alexander Kirillov，Kaiming He，Ross Girshick，Carsten Rother，Piotr Dollár
論文地址：https://research.fb.com/publications/panoptic-segmentation/

Reducing Uncertainty in Undersampled MRI Reconstruction with Active Acquisition

作者：Zizhao Zhang，Adriana Romero，Matthew J. Muckley，Pascal Vincent，Lin Yang，Michal Drozdzal
論文地址：https://research.fb.com/publications/reducing-uncertainty-in-undersampled-mri-reconstruction-with-active-acquisition/

StereoDRNet: Dilated Residual StereoNet

作者：Rohan Chabra，Julian Straub，Chris Sweeney，Richard Newcombe，Henry Fuchs
論文地址：http://openaccess.thecvf.com/content_CVPR_2019/papers/Chabra_StereoDRNet_Dilated_Residual_StereoNet_CVPR_2019_paper.pdf

Thinking Outside the Pool: Active Training Image Creation for Relative Attributes

作者：Aron Yu，Kristen Grauman
論文地址：http://openaccess.thecvf.com/content_CVPR_2019/papers/Yu_Thinking_Outside_the_Pool_Active_Training_Image_Creation_for_Relative_CVPR_2019_paper.pdf

Towards VQA Models That Can Read

作者：Amanpreet Singh，Vivek Natarajan，Meet Shah，Yu Jiang，Xinlei Chen，Dhruv Batra，Devi Parikh，Marcus Rohrbach
代碼鏈接：https://github.com/facebookresearch/pythia
論文地址：https://research.fb.com/publications/towards-vqa-models-that-can-read/

via https://ai.facebook.com/blog/facebook-research-at-cvpr-2019/ 雷鋒網(wǎng)

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

1人收藏

相關(guān)文章

xyhncepu

知情人士

發(fā)私信

當(dāng)月熱門文章

37 篇！ Facebook 今年被 CVPR 收錄的論文都說了啥？

Oral 論文一覽

Poster 論文一覽

37 篇！ Facebook 今年被 CVPR 收錄的論文都說了啥？