CVPR 2018 最酷的十篇論文

本文作者： AI研習(xí)社-譯站

2019-02-14 10:31

導(dǎo)語：2018年計算機視覺和模式識別會議（CVPR）是計算機視覺領(lǐng)域的世界頂級會議。

CVPR 2018 最酷的十篇論文

本文為 AI 研習(xí)社編譯的技術(shù)博客，原標(biāo)題：
The 10 coolest papers from CVPR 2018
作者 | George Seif
翻譯 | Vincents 校對 | 鄧普斯?杰弗
審核 | 永恒如新的日常整理 | Pita
原文鏈接：
https://towardsdatascience.com/the-10-coolest-papers-from-cvpr-2018-11cb48585a49

2018年計算機視覺和模式識別會議（CVPR）上周在美國鹽湖城舉行。該會議是計算機視覺領(lǐng)域的世界頂級會議。今年，CVPR 收到3300篇主要會議論文并且最終被接收的論文多達 979 篇。超過6,500人參加了會議，這可以說是史詩級的大規(guī)模！ 6500人在下圖的會議廳參會：

CVPR 2018 最酷的十篇論文

CVPR2018大會會場

每年，CVPR都會帶來優(yōu)秀的人才以及他們很棒的研究; 并且總能看到和學(xué)習(xí)到一些新的東西。當(dāng)然，每年都有一些論文發(fā)表新的突破性成果，并為該領(lǐng)域帶來一些很有用的新知識。這些論文經(jīng)常在計算機視覺的許多子領(lǐng)域帶來最先進的前沿技術(shù)。

最近，喜聞樂見的是那些開箱即用的創(chuàng)意論文！隨著深度學(xué)習(xí)在計算機視覺領(lǐng)域的不斷應(yīng)用，我們?nèi)匀辉谔剿鞲鞣N可能性。許多論文將展示深度網(wǎng)絡(luò)在計算機視覺中的全新應(yīng)用。它們可能不是根本上的突破性作品，但它們很有趣，并且可以為該領(lǐng)域提供創(chuàng)造性和啟發(fā)性的視角，從它們呈現(xiàn)的新角度經(jīng)?？梢砸l(fā)新的想法。總而言之，它們非常酷！

在這里，我將向您展示我認(rèn)為在2018年CVPR上的10篇最酷論文。我們將看到最近才使用的深度網(wǎng)絡(luò)實現(xiàn)的新應(yīng)用，以及其他的一些提供了新的使用方法和技巧的應(yīng)用。您可能會在此過程中從中獲得一些新想法；）。話不多說，讓我們開始吧！

使用合成數(shù)據(jù)訓(xùn)練深度網(wǎng)絡(luò)：通過域隨機化彌合現(xiàn)實差距
本文來自Nvidia，充分利用合成數(shù)據(jù)來訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)（CNN）。他們?yōu)樘摶靡?創(chuàng)建了一個插件，該插件將生成綜合訓(xùn)練數(shù)據(jù)。真正的關(guān)鍵是他們隨機化了許多訓(xùn)練數(shù)據(jù)中可以包含的變量，包括：

對象的數(shù)量和類型
干擾物的數(shù)量，類型，顏色和尺度
感興趣的對象和背景照片的紋理
虛擬相機相對于場景的位置
相機相對于場景的角度
點光源的數(shù)量和位置

他們展示了一些非常有前景的結(jié)果，證明了合成數(shù)據(jù)預(yù)訓(xùn)練的有效性; 達到了前所未有的結(jié)果。這也為沒有重要數(shù)據(jù)來源時提供了一種思路：生成并使用合成數(shù)據(jù)。

CVPR 2018 最酷的十篇論文

圖片來自論文：使用合成數(shù)據(jù)訓(xùn)練深度網(wǎng)絡(luò)：通過域隨機化彌合現(xiàn)實差距

WESPE：用于數(shù)碼相機的弱監(jiān)督照片增強器

這篇非常精妙！研究人員訓(xùn)練了一個生成對抗網(wǎng)絡(luò)（GAN），能夠自動美化圖片。最酷的部分是，它是弱監(jiān)督的，你不需要有輸入和輸出的圖像對！想要訓(xùn)練網(wǎng)絡(luò)，你只需要擁有一套“好看”的圖片（用于輸出的正確標(biāo)注）和一套想進一步調(diào)整的“粗糙”的圖片（用于輸入圖像）。生成對抗網(wǎng)絡(luò)被訓(xùn)練成輸出輸入圖像更符合審美的版本，通常是改進色彩和圖片的對比度。

這一模型非常簡單并且能快速上手，因為你不需要精確的圖像對，并且最終會得到一個“通用的"圖片增強器。我還喜歡這篇論文的一點是它是弱監(jiān)督的方法，非監(jiān)督學(xué)習(xí)看起來很遙遠。但是對計算機視覺領(lǐng)域的許多子類來說，弱監(jiān)督似乎是一個更可靠更有希望的方向。

CVPR 2018 最酷的十篇論文

圖片來自論文：WESPE：用于數(shù)碼相機的弱監(jiān)督照片增強器

用Polygon-RNN ++實現(xiàn)分段數(shù)據(jù)集的高效交互式標(biāo)注

深度網(wǎng)絡(luò)能夠良好運行的一個主要原因是有大型的經(jīng)過標(biāo)注的可用的數(shù)據(jù)集。然而對很多機器視覺任務(wù)來說，想獲得這樣的數(shù)據(jù)會很耗費時間并且成本高昂。特別是分割的數(shù)據(jù)需要對圖片中的每個像素進行分類標(biāo)注。所以對大型數(shù)據(jù)集來說，你可以想象......標(biāo)注任務(wù)永遠不可能標(biāo)完！

Polygon-RNN++能夠讓你在圖中每個目標(biāo)物體的周圍大致圈出多邊形形狀，然后網(wǎng)絡(luò)會自動生成分割的標(biāo)注！論文中表明，這一方法的表現(xiàn)非常不錯，并且能在分割任務(wù)中快速生成簡單標(biāo)注！

CVPR 2018 最酷的十篇論文

圖片來自論文：用Polygon-RNN ++實現(xiàn)分段數(shù)據(jù)集的高效交互式標(biāo)注

從時尚圖片創(chuàng)造膠囊衣柜

“嗯......今天我該穿什么？” 如果某人或某個東西能夠每天早上為你回答這個問題，那么你不必再去問這個問題，會不會很好？這樣的話你就不用了嗎？那么我們就跟膠囊衣柜（Capsule Wardrobes）打個招呼吧！

在這篇論文中，作者設(shè)計了一個模型，給出候選服裝和配件的清單，可以對單品進行組合，提供最大可能的混合搭配方案。它基本上使用目標(biāo)函數(shù)進行訓(xùn)練，這些目標(biāo)函數(shù)旨在捕獲視覺兼容性，多功能性和用戶特定偏好的關(guān)鍵要素。有了膠囊衣柜，您可以輕松地從衣柜中獲得最適合您的服裝搭配！

CVPR 2018 最酷的十篇論文

圖片來源論文：從時尚圖片中創(chuàng)造膠囊衣柜

Super SloMo：視頻插值中多個中間幀的高質(zhì)量估計

你曾經(jīng)是否想過以超慢的動作拍攝超級酷炫的東西呢？Nvdia 的這項研究 Super SloMo 就能幫你實現(xiàn)！研究中他們使用 CNN 估計視頻的中間幀，并能將標(biāo)準(zhǔn)的 30fps 視頻轉(zhuǎn)換為 240fps 的慢動作！該模型估計視頻中間幀之間的光流信息，并在這些信息中間插入視頻幀，使慢動作的視頻看起來也能清晰銳利。

CVPR 2018 最酷的十篇論文

一顆子彈穿過一個雞蛋，Super SloMo！

是誰放狗出去？用視覺數(shù)據(jù)構(gòu)建狗的行為模型

這可能是有史以來最酷的研究論文！這項研究的想法是試圖模擬狗的思想和行為。研究人員將許多傳感器連接到狗的四肢以收集其運動和行為數(shù)據(jù)。此外，他們還在狗的頭部安裝一個攝像頭，以便看到和從狗的第一人稱視角所看到的世界相同。然后，將一組 CNN 特征提取器用于從視頻幀獲取圖像特征，并將其與傳感器數(shù)據(jù)一起傳遞給一組 LSTM 模型，以便學(xué)習(xí)并預(yù)測狗的動作和行為。這是一項非常新穎而富有創(chuàng)造性的應(yīng)用研究，其整體的任務(wù)框架及獨特的執(zhí)行方式都是本文的亮點！希望這項研究能夠為我們未來收集數(shù)據(jù)和應(yīng)用深度學(xué)習(xí)技術(shù)的方式帶來更多的創(chuàng)造力。

CVPR 2018 最酷的十篇論文

圖片來自論文：用視覺數(shù)據(jù)構(gòu)建狗的行為模型

學(xué)習(xí)分割一切

在過去的幾年里，何凱明團隊 (以前在微軟研究院，現(xiàn)就職于 Facebook AI Research) 提出了許多重大的計算機視覺研究成果。他們的研究最棒之處在于將創(chuàng)造力和簡單性相結(jié)合，諸如將 ResNets和 Mask R-CNN 相結(jié)合的研究，這些都不是最瘋狂或最復(fù)雜的研究思路，但是它們簡單易行，并在實踐中非常有效。這一次也不例外。

該團隊最新的研究 Learning to Segment Every Thing 是 MaskR-CNN 研究的擴展，它使模型準(zhǔn)確地分割訓(xùn)練期間未出現(xiàn)的類別目標(biāo)！這對于獲取快速且廉價的分割數(shù)據(jù)標(biāo)注是非常有用的。事實上，該研究能夠獲得一些未知目標(biāo)的基準(zhǔn)分割效果，這對于在自然條件中部署這樣的分割模型來說是至關(guān)重要的，因為在這樣的環(huán)境下可能存在許多未知的目標(biāo)。總的來說，這絕對是我們思考如何充分利用深層神經(jīng)網(wǎng)絡(luò)模型的正確方向。

CVPR 2018 最酷的十篇論文

圖片來自論文：學(xué)習(xí)分割一切

桌上足球

本文的研究是在 FIFA 世界杯開幕時正式發(fā)表的，理應(yīng)獲得最佳時機獎！這的確是 CVPR 上在計算機視覺領(lǐng)域的“更酷”應(yīng)用之一。簡而言之，作者訓(xùn)練了一個模型，在給定足球比賽視頻的情況下，該模型能夠輸出相應(yīng)視頻的動態(tài) 3D 重建，這意味著你可以利用增強現(xiàn)實技術(shù)在任何地方查看它！

本文最大的亮點是結(jié)合使用許多不同類型的信息。使用視頻比賽數(shù)據(jù)訓(xùn)練網(wǎng)絡(luò)，從而相當(dāng)容易地提取 3D 網(wǎng)格信息。在測試時，提取運動員的邊界框，姿勢及跨越多個幀的運動軌跡以便分割運動員。接著你可以輕松地將這些 3D 片段投射到任何平面上。在這種情況下，你可以通過制作虛擬的足球場，以便在 AR 條件下觀看的足球比賽！在我看來，這是一種使用合成數(shù)據(jù)進行訓(xùn)練的聰明方法。無論如何它都是一個有趣的應(yīng)用程序！

CVPR 2018 最酷的十篇論文

圖片來自論文：桌上足球

LayoutNet：從單個 RGB 圖像重建 3D 房間布局

這是一個計算機視覺的應(yīng)用程序，我們可能曾經(jīng)想過：使用相機拍攝某些東西，然后用數(shù)字 3D 技術(shù)重建它。這也正是本文研究的目的，特別是重建3D 房間布局。研究人員使用全景圖像作為網(wǎng)絡(luò)的輸入，以獲得房間的完整視圖。網(wǎng)絡(luò)的輸出是 3D 重建后的房間布局，具有相當(dāng)高的準(zhǔn)確性！該模型足夠強大，可以推廣到不同形狀、包含許多不同家具的房間。這是一個有趣而好玩、又不需要投入太多研究人員就能實現(xiàn)的應(yīng)用。

CVPR 2018 最酷的十篇論文

圖片來自論文：LayoutNet：從單個 RGB 圖像重建 3D 房間布局

學(xué)習(xí)可遷移的結(jié)構(gòu)用于可擴展的圖像識別任務(wù)

最后要介紹的是一項許多人都認(rèn)為是深度學(xué)習(xí)未來的研究：神經(jīng)架構(gòu)搜索 (NAS)。NAS 背后的基本思想是我們可以使用另一個網(wǎng)絡(luò)來“搜索”最佳的模型結(jié)構(gòu)，而不需要手動地設(shè)計網(wǎng)絡(luò)結(jié)構(gòu)。這個搜索過程是基于獎勵函數(shù)進行的，通過獎勵模型以使其在驗證數(shù)據(jù)集上有良好的表現(xiàn)。此外，作者在論文中表明，這種模型結(jié)構(gòu)比起手動設(shè)計的模型能夠獲得更高的精度。這將是未來巨大的研究方向，特別是對于設(shè)計特定的應(yīng)用程序而言。因為我們真正關(guān)注的是設(shè)計好的 NAS 算法，而不是為我們特定的應(yīng)用設(shè)計特定的網(wǎng)絡(luò)。精心設(shè)計的 NAS 算法將足夠靈活，并能夠為任何特定任務(wù)找到良好的網(wǎng)絡(luò)結(jié)構(gòu)。

CVPR 2018 最酷的十篇論文