0
本文作者: AI研習(xí)社-譯站 | 2019-02-14 10:31 |
本文為 AI 研習(xí)社編譯的技術(shù)博客,原標(biāo)題 :
The 10 coolest papers from CVPR 2018
作者 | George Seif
翻譯 | Vincents 校對 | 鄧普斯?杰弗
審核 | 永恒如新的日常 整理 | Pita
原文鏈接:
https://towardsdatascience.com/the-10-coolest-papers-from-cvpr-2018-11cb48585a49
2018年計算機(jī)視覺和模式識別會議(CVPR)上周在美國鹽湖城舉行。該會議是計算機(jī)視覺領(lǐng)域的世界頂級會議。今年,CVPR 收到3300篇主要會議論文并且最終被接收的論文多達(dá) 979 篇。超過6,500人參加了會議,這可以說是史詩級的大規(guī)模! 6500人在下圖的會議廳參會:
CVPR2018大會會場
每年,CVPR都會帶來優(yōu)秀的人才以及他們很棒的研究; 并且總能看到和學(xué)習(xí)到一些新的東西。當(dāng)然,每年都有一些論文發(fā)表新的突破性成果,并為該領(lǐng)域帶來一些很有用的新知識。 這些論文經(jīng)常在計算機(jī)視覺的許多子領(lǐng)域帶來最先進(jìn)的前沿技術(shù)。
最近,喜聞樂見的是那些開箱即用的創(chuàng)意論文!隨著深度學(xué)習(xí)在計算機(jī)視覺領(lǐng)域的不斷應(yīng)用,我們?nèi)匀辉谔剿鞲鞣N可能性。許多論文將展示深度網(wǎng)絡(luò)在計算機(jī)視覺中的全新應(yīng)用。 它們可能不是根本上的突破性作品,但它們很有趣,并且可以為該領(lǐng)域提供創(chuàng)造性和啟發(fā)性的視角,從它們呈現(xiàn)的新角度經(jīng)??梢砸l(fā)新的想法??偠灾鼈兎浅?幔?/span>
在這里,我將向您展示我認(rèn)為在2018年CVPR上的10篇最酷論文。我們將看到最近才使用的深度網(wǎng)絡(luò)實(shí)現(xiàn)的新應(yīng)用,以及其他的一些提供了新的使用方法和技巧的應(yīng)用。您可能會在此過程中從中獲得一些新想法;)。話不多說,讓我們開始吧!
使用合成數(shù)據(jù)訓(xùn)練深度網(wǎng)絡(luò):通過域隨機(jī)化彌合現(xiàn)實(shí)差距
本文來自Nvidia,充分利用合成數(shù)據(jù)來訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)(CNN)。 他們?yōu)樘摶靡?創(chuàng)建了一個插件,該插件將生成綜合訓(xùn)練數(shù)據(jù)。 真正的關(guān)鍵是他們隨機(jī)化了許多訓(xùn)練數(shù)據(jù)中可以包含的變量,包括:
對象的數(shù)量和類型
干擾物的數(shù)量,類型,顏色和尺度
感興趣的對象和背景照片的紋理
虛擬相機(jī)相對于場景的位置
相機(jī)相對于場景的角度
點(diǎn)光源的數(shù)量和位置
他們展示了一些非常有前景的結(jié)果,證明了合成數(shù)據(jù)預(yù)訓(xùn)練的有效性; 達(dá)到了前所未有的結(jié)果。 這也為沒有重要數(shù)據(jù)來源時提供了一種思路:生成并使用合成數(shù)據(jù)。
圖片來自論文:使用合成數(shù)據(jù)訓(xùn)練深度網(wǎng)絡(luò):通過域隨機(jī)化彌合現(xiàn)實(shí)差距
WESPE:用于數(shù)碼相機(jī)的弱監(jiān)督照片增強(qiáng)器
這篇非常精妙!研究人員訓(xùn)練了一個生成對抗網(wǎng)絡(luò)(GAN),能夠自動美化圖片。最酷的部分是,它是弱監(jiān)督的,你不需要有輸入和輸出的圖像對!想要訓(xùn)練網(wǎng)絡(luò),你只需要擁有一套“好看”的圖片(用于輸出的正確標(biāo)注)和一套想進(jìn)一步調(diào)整的“粗糙”的圖片(用于輸入圖像)。生成對抗網(wǎng)絡(luò)被訓(xùn)練成輸出輸入圖像更符合審美的版本,通常是改進(jìn)色彩和圖片的對比度。
這一模型非常簡單并且能快速上手,因?yàn)槟悴恍枰_的圖像對,并且最終會得到一個“通用的"圖片增強(qiáng)器。我還喜歡這篇論文的一點(diǎn)是它是弱監(jiān)督的方法,非監(jiān)督學(xué)習(xí)看起來很遙遠(yuǎn)。但是對計算機(jī)視覺領(lǐng)域的許多子類來說,弱監(jiān)督似乎是一個更可靠更有希望的方向。
圖片來自論文:WESPE:用于數(shù)碼相機(jī)的弱監(jiān)督照片增強(qiáng)器
用Polygon-RNN ++實(shí)現(xiàn)分段數(shù)據(jù)集的高效交互式標(biāo)注
深度網(wǎng)絡(luò)能夠良好運(yùn)行的一個主要原因是有大型的經(jīng)過標(biāo)注的可用的數(shù)據(jù)集。然而對很多機(jī)器視覺任務(wù)來說,想獲得這樣的數(shù)據(jù)會很耗費(fèi)時間并且成本高昂。特別是分割的數(shù)據(jù)需要對圖片中的每個像素進(jìn)行分類標(biāo)注。所以對大型數(shù)據(jù)集來說,你可以想象......標(biāo)注任務(wù)永遠(yuǎn)不可能標(biāo)完!
Polygon-RNN++能夠讓你在圖中每個目標(biāo)物體的周圍大致圈出多邊形形狀,然后網(wǎng)絡(luò)會自動生成分割的標(biāo)注!論文中表明,這一方法的表現(xiàn)非常不錯,并且能在分割任務(wù)中快速生成簡單標(biāo)注!
圖片來自論文:用Polygon-RNN ++實(shí)現(xiàn)分段數(shù)據(jù)集的高效交互式標(biāo)注
從時尚圖片創(chuàng)造膠囊衣柜
“嗯......今天我該穿什么?” 如果某人或某個東西能夠每天早上為你回答這個問題,那么你不必再去問這個問題,會不會很好?這樣的話你就不用了嗎?那么我們就跟膠囊衣柜(Capsule Wardrobes)打個招呼吧!
在這篇論文中,作者設(shè)計了一個模型,給出候選服裝和配件的清單,可以對單品進(jìn)行組合,提供最大可能的混合搭配方案。它基本上使用目標(biāo)函數(shù)進(jìn)行訓(xùn)練,這些目標(biāo)函數(shù)旨在捕獲視覺兼容性,多功能性和用戶特定偏好的關(guān)鍵要素。 有了膠囊衣柜,您可以輕松地從衣柜中獲得最適合您的服裝搭配!
圖片來源論文:從時尚圖片中創(chuàng)造膠囊衣柜
Super SloMo:視頻插值中多個中間幀的高質(zhì)量估計
你曾經(jīng)是否想過以超慢的動作拍攝超級酷炫的東西呢?Nvdia 的這項(xiàng)研究 Super SloMo 就能幫你實(shí)現(xiàn)!研究中他們使用 CNN 估計視頻的中間幀,并能將標(biāo)準(zhǔn)的 30fps 視頻轉(zhuǎn)換為 240fps 的慢動作!該模型估計視頻中間幀之間的光流信息,并在這些信息中間插入視頻幀,使慢動作的視頻看起來也能清晰銳利。
一顆子彈穿過一個雞蛋,Super SloMo!
是誰放狗出去?用視覺數(shù)據(jù)構(gòu)建狗的行為模型
這可能是有史以來最酷的研究論文!這項(xiàng)研究的想法是試圖模擬狗的思想和行為。研究人員將許多傳感器連接到狗的四肢以收集其運(yùn)動和行為數(shù)據(jù)。此外,他們還在狗的頭部安裝一個攝像頭,以便看到和從狗的第一人稱視角所看到的世界相同。然后,將一組 CNN 特征提取器用于從視頻幀獲取圖像特征,并將其與傳感器數(shù)據(jù)一起傳遞給一組 LSTM 模型,以便學(xué)習(xí)并預(yù)測狗的動作和行為。這是一項(xiàng)非常新穎而富有創(chuàng)造性的應(yīng)用研究,其整體的任務(wù)框架及獨(dú)特的執(zhí)行方式都是本文的亮點(diǎn)!希望這項(xiàng)研究能夠?yàn)槲覀兾磥硎占瘮?shù)據(jù)和應(yīng)用深度學(xué)習(xí)技術(shù)的方式帶來更多的創(chuàng)造力。
圖片來自論文:用視覺數(shù)據(jù)構(gòu)建狗的行為模型
學(xué)習(xí)分割一切
在過去的幾年里,何凱明團(tuán)隊(duì) (以前在微軟研究院,現(xiàn)就職于 Facebook AI Research) 提出了許多重大的計算機(jī)視覺研究成果。他們的研究最棒之處在于將創(chuàng)造力和簡單性相結(jié)合,諸如將 ResNets和 Mask R-CNN 相結(jié)合的研究,這些都不是最瘋狂或最復(fù)雜的研究思路,但是它們簡單易行,并在實(shí)踐中非常有效。 這一次也不例外。
該團(tuán)隊(duì)最新的研究 Learning to Segment Every Thing 是 MaskR-CNN 研究的擴(kuò)展,它使模型準(zhǔn)確地分割訓(xùn)練期間未出現(xiàn)的類別目標(biāo)!這對于獲取快速且廉價的分割數(shù)據(jù)標(biāo)注是非常有用的。事實(shí)上,該研究能夠獲得一些未知目標(biāo)的基準(zhǔn)分割效果,這對于在自然條件中部署這樣的分割模型來說是至關(guān)重要的,因?yàn)樵谶@樣的環(huán)境下可能存在許多未知的目標(biāo)??偟膩碚f,這絕對是我們思考如何充分利用深層神經(jīng)網(wǎng)絡(luò)模型的正確方向。
圖片來自論文: 學(xué)習(xí)分割一切
桌上足球
本文的研究是在 FIFA 世界杯開幕時正式發(fā)表的,理應(yīng)獲得最佳時機(jī)獎!這的確是 CVPR 上在計算機(jī)視覺領(lǐng)域的“更酷”應(yīng)用之一。簡而言之,作者訓(xùn)練了一個模型,在給定足球比賽視頻的情況下,該模型能夠輸出相應(yīng)視頻的動態(tài) 3D 重建,這意味著你可以利用增強(qiáng)現(xiàn)實(shí)技術(shù)在任何地方查看它!
本文最大的亮點(diǎn)是結(jié)合使用許多不同類型的信息。使用視頻比賽數(shù)據(jù)訓(xùn)練網(wǎng)絡(luò),從而相當(dāng)容易地提取 3D 網(wǎng)格信息。在測試時,提取運(yùn)動員的邊界框,姿勢及跨越多個幀的運(yùn)動軌跡以便分割運(yùn)動員。接著你可以輕松地將這些 3D 片段投射到任何平面上。在這種情況下,你可以通過制作虛擬的足球場,以便在 AR 條件下觀看的足球比賽!在我看來,這是一種使用合成數(shù)據(jù)進(jìn)行訓(xùn)練的聰明方法。無論如何它都是一個有趣的應(yīng)用程序!
圖片來自論文:桌上足球
LayoutNet:從單個 RGB 圖像重建 3D 房間布局
這是一個計算機(jī)視覺的應(yīng)用程序,我們可能曾經(jīng)想過:使用相機(jī)拍攝某些東西,然后用數(shù)字 3D 技術(shù)重建它。這也正是本文研究的目的,特別是重建3D 房間布局。研究人員使用全景圖像作為網(wǎng)絡(luò)的輸入,以獲得房間的完整視圖。網(wǎng)絡(luò)的輸出是 3D 重建后的房間布局,具有相當(dāng)高的準(zhǔn)確性!該模型足夠強(qiáng)大,可以推廣到不同形狀、包含許多不同家具的房間。這是一個有趣而好玩、又不需要投入太多研究人員就能實(shí)現(xiàn)的應(yīng)用。
圖片來自論文:LayoutNet:從單個 RGB 圖像重建 3D 房間布局
學(xué)習(xí)可遷移的結(jié)構(gòu)用于可擴(kuò)展的圖像識別任務(wù)
最后要介紹的是一項(xiàng)許多人都認(rèn)為是深度學(xué)習(xí)未來的研究:神經(jīng)架構(gòu)搜索 (NAS)。NAS 背后的基本思想是我們可以使用另一個網(wǎng)絡(luò)來“搜索”最佳的模型結(jié)構(gòu),而不需要手動地設(shè)計網(wǎng)絡(luò)結(jié)構(gòu)。這個搜索過程是基于獎勵函數(shù)進(jìn)行的,通過獎勵模型以使其在驗(yàn)證數(shù)據(jù)集上有良好的表現(xiàn)。此外,作者在論文中表明,這種模型結(jié)構(gòu)比起手動設(shè)計的模型能夠獲得更高的精度。這將是未來巨大的研究方向,特別是對于設(shè)計特定的應(yīng)用程序而言。因?yàn)槲覀冋嬲P(guān)注的是設(shè)計好的 NAS 算法,而不是為我們特定的應(yīng)用設(shè)計特定的網(wǎng)絡(luò)。精心設(shè)計的 NAS 算法將足夠靈活,并能夠?yàn)槿魏翁囟ㄈ蝿?wù)找到良好的網(wǎng)絡(luò)結(jié)構(gòu)。
圖片來自論文:學(xué)習(xí)可遷移的結(jié)構(gòu)用于可擴(kuò)展的圖像識別任務(wù)
結(jié)語
感謝您的閱讀! 希望您學(xué)到了一些新的有用的東西,甚至可能為你自己的工作找到了一些新的想法!如果您覺得不錯,請分享給更多人可以看到這篇文章,并與我們一起跳上學(xué)習(xí)的列車!
想要繼續(xù)查看該篇文章相關(guān)鏈接和參考文獻(xiàn)?
長按鏈接點(diǎn)擊打開或點(diǎn)擊【CVPR 2018 最酷的十篇論文】:
https://ai.yanxishe.com/page/TextTranslation/1306
AI研習(xí)社每日更新精彩內(nèi)容,觀看更多精彩內(nèi)容:雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)
等你來譯:
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。