0
本文作者: AI科技評(píng)論 | 編輯:郭奕欣 | 2018-05-30 10:01 | 專題:CVPR 2018 |
雷鋒網(wǎng) AI 科技評(píng)論按:CVPR 2018 將在美國鹽湖城舉行。騰訊優(yōu)圖實(shí)驗(yàn)室繼在 ICCV 有 12 篇論文被收錄(含 3 篇口頭報(bào)告)后,在今年的 CVPR 2018 上有多篇論文被錄用,也憑借這一點(diǎn)在雷鋒網(wǎng)學(xué)術(shù)頻道 AI 科技評(píng)論旗下數(shù)據(jù)庫項(xiàng)目「AI 影響因子」中有相應(yīng)展示。
騰訊優(yōu)圖團(tuán)隊(duì)將對(duì)其中兩篇論文做詳細(xì)介紹,并簡(jiǎn)要介紹其它論文。
在慢速曝光或快速運(yùn)動(dòng)拍攝照片時(shí),圖像模糊常常困擾著照片拍攝者。優(yōu)圖實(shí)驗(yàn)室的研究人員開發(fā)了可以恢復(fù)模糊圖像的有效新算法。
在此之前,圖像去模糊一直是圖像處理中困擾業(yè)界的難題。圖像模糊產(chǎn)生的原因可能非常復(fù)雜。比如,相機(jī)晃動(dòng),失焦,拍攝物體高速運(yùn)動(dòng)等等?,F(xiàn)有的圖片編輯軟件中的工具通常不盡如人意,例如,Photoshop CC 中的「相機(jī)抖動(dòng)還原」工具,只能處理簡(jiǎn)單的相機(jī)平移抖動(dòng)模糊。這種類型的模糊在計(jì)算機(jī)視覺業(yè)內(nèi)被稱為「均勻模糊」。而大部分模糊圖片并不是「均勻模糊」的,因而現(xiàn)有圖片編輯軟件的應(yīng)用十分有限。
騰訊優(yōu)圖實(shí)驗(yàn)室的新算法,可以處理非特定場(chǎng)景中的圖片模糊。算法基于一種被稱為「動(dòng)態(tài)模糊」的模糊模型假設(shè)。它為每個(gè)像素的運(yùn)動(dòng)單獨(dú)建模,因而可以處理幾乎所有類型的運(yùn)動(dòng)模糊。比如,上圖中,由于相機(jī)抖動(dòng)而產(chǎn)生的平移和旋轉(zhuǎn),每個(gè)人物的運(yùn)動(dòng)軌跡都不相同。經(jīng)過騰訊優(yōu)圖實(shí)驗(yàn)室的新算法處理后,圖片已經(jīng)恢復(fù)到幾乎完全清晰,甚至背景中的書籍上的字也清晰可辨。
據(jù)騰訊優(yōu)圖實(shí)驗(yàn)室的研究員介紹,騰訊優(yōu)圖采用的方法采用的基本技術(shù)是深度神經(jīng)網(wǎng)絡(luò)。在經(jīng)歷了對(duì)數(shù)千對(duì)模糊/清晰的圖像組的處理訓(xùn)練后,強(qiáng)大的神經(jīng)網(wǎng)絡(luò)自動(dòng)學(xué)習(xí)了如何將模糊的圖像結(jié)構(gòu)清晰化。
盡管使用神經(jīng)網(wǎng)絡(luò)進(jìn)行圖片去模糊并不是一個(gè)新想法,但騰訊優(yōu)圖實(shí)驗(yàn)室別出心裁的將物理直覺結(jié)合進(jìn)來以促進(jìn)模型訓(xùn)練。在騰訊優(yōu)圖實(shí)驗(yàn)室新算法的論文中,其網(wǎng)絡(luò)模仿了一種被稱為「由粗到精」的成熟的圖像恢復(fù)策略。該策略首先將模糊圖像縮小成多種尺寸,然后從比較容易恢復(fù)的較小而偏清晰的圖像出發(fā),逐步處理更大尺寸的圖片。每一步中產(chǎn)生的清晰圖像則可以進(jìn)一步引導(dǎo)更大的圖像的恢復(fù),降低了網(wǎng)絡(luò)訓(xùn)練的難度。
修改人像照片中的臉部屬性(不僅是美化)非常困難。藝術(shù)家通常需要對(duì)人像做很多層面上的處理才能使得修改后的圖像自然美觀。AI 可以接管這些復(fù)雜的操作嗎?
來自賈佳亞教授領(lǐng)導(dǎo)的騰訊優(yōu)圖實(shí)驗(yàn)室的研究人員提出了「自動(dòng)人像操縱」的最新模型。借助此模型,用戶只需簡(jiǎn)單地提供所需效果的高級(jí)描述,模型就會(huì)根據(jù)命令自動(dòng)呈現(xiàn)照片,例如,使他變年輕/變老等。
完成這項(xiàng)任務(wù),面臨的主要挑戰(zhàn)是,無法收集到「輸入-輸出」的樣本用于訓(xùn)練。因此,無監(jiān)督學(xué)習(xí)中流行的「生成對(duì)抗」網(wǎng)絡(luò)通常用于此任務(wù)。然而,優(yōu)圖團(tuán)隊(duì)提出的這種方法并不依賴于生成對(duì)抗網(wǎng)絡(luò)。它通過生成帶噪聲的目標(biāo)來訓(xùn)練神經(jīng)網(wǎng)絡(luò)。由于深度卷積網(wǎng)絡(luò)的去噪效果,其網(wǎng)絡(luò)的輸出甚至優(yōu)于所學(xué)習(xí)的目標(biāo)。
「生成對(duì)抗網(wǎng)絡(luò)是一個(gè)強(qiáng)大的工具,但它很難優(yōu)化,我們希望找到更簡(jiǎn)單的方法來解決這個(gè)問題,我們希望這項(xiàng)工作不僅能減輕藝術(shù)家的負(fù)擔(dān),還能減輕訓(xùn)練模型的工程師的負(fù)擔(dān)?!跪v訊的研究人員說。
據(jù)介紹,該模型的另一個(gè)吸引人的特點(diǎn)是它支持局部模型更新,也就是說,當(dāng)切換不同的操作任務(wù)時(shí),只需要替換模型的一小部分。這對(duì)系統(tǒng)開發(fā)人員十分友好。而且,從應(yīng)用層面,也使得應(yīng)用可以「增量更新」。
即使相片中的人臉沒有裁剪并且很好地對(duì)齊,該模型也可以隱式地參加正確的面部區(qū)域。在很多情況下,用戶僅僅將原始照片輸入給模型就足以產(chǎn)生高質(zhì)量的結(jié)果。甚至將視頻一幀一幀地輸入模型中,也可以處理整段視頻中人臉的屬性。
除以上兩篇,騰訊優(yōu)圖實(shí)驗(yàn)室其余入選 CVPR2018 的文章簡(jiǎn)介:
1、Referring Image Segmentation via Recurrent Refinement Networks
根據(jù)自然語言的描述來分割圖片的指定區(qū)域是一個(gè)充滿挑戰(zhàn)的問題。此前的基于神經(jīng)網(wǎng)絡(luò)的方法通過融合圖像和語言的特征進(jìn)行分割,但是忽略了多尺度的信息,這導(dǎo)致分割結(jié)果質(zhì)量不高。對(duì)此,我們提出了一種基于循環(huán)卷積神經(jīng)網(wǎng)絡(luò)的模型,在每一次迭代過程中加入底層卷積神經(jīng)網(wǎng)絡(luò)的特征來使得網(wǎng)絡(luò)可以逐漸捕獲圖片不同尺度下的信息。我們可視化了模型的中間結(jié)果并且在所有的相關(guān)公開數(shù)據(jù)集中都達(dá)到了最佳水平。
2、Weakly Supervised Human Body Part Parsing via Pose-Guided Knowledge Transfer
通過由姿態(tài)引導(dǎo)的知識(shí)遷移進(jìn)行弱監(jiān)督及半監(jiān)督的人體部位分割
人體部位解析,或稱人類語義部位分割,是許多計(jì)算機(jī)視覺任務(wù)的基礎(chǔ)。在傳統(tǒng)的語義分割方法中,我們需要提供手工標(biāo)注的標(biāo)簽,以便使用全卷積網(wǎng)絡(luò)(FCN)進(jìn)行端到端的訓(xùn)練。雖然過去的方法能達(dá)到不錯(cuò)的效果,但它們的性能高度依賴于訓(xùn)練數(shù)據(jù)的數(shù)量和質(zhì)量。在本文中,我們提出了一種獲得訓(xùn)練數(shù)據(jù)的新方法,它可以使用容易獲得的人體關(guān)鍵點(diǎn)的數(shù)據(jù)來生成人體部位解析數(shù)據(jù)。我們的主要想法是利用人類之間的形態(tài)相似性,將一個(gè)人的部位解析結(jié)果傳遞給具有相似姿勢(shì)的另一個(gè)人。使用我們生成的結(jié)果作為額外的訓(xùn)練數(shù)據(jù),我們的半監(jiān)督模型在 PASCAL-Person-Part 數(shù)據(jù)集上優(yōu)于強(qiáng)監(jiān)督的方法 6 個(gè) mIOU,并且達(dá)到了最好的人類部位解析結(jié)果。我們的方法具有很好的通用性。它可以容易地?cái)U(kuò)展到其他物體或動(dòng)物的部位解析任務(wù)中,只要它們的形態(tài)相似性可以由關(guān)鍵點(diǎn)表示。我們的模型和源代碼將在之后公開。
3、Learning Dual Convolutional Neural Networks for Low-Level Vision
基于雙層卷積神經(jīng)網(wǎng)絡(luò)處理低層視覺的方法
本文提出了一個(gè)雙層卷積神經(jīng)網(wǎng)絡(luò)來處理一些低層視覺問題,比如圖像超分辨率、保邊緣的圖像濾波、圖像去雨、圖像去霧等。這些低層視覺問題通常涉及到目標(biāo)結(jié)果的結(jié)構(gòu)和細(xì)節(jié)部分的估計(jì)。受此啟發(fā),本文提出的雙層卷積神經(jīng)網(wǎng)絡(luò)包含兩個(gè)分支,其中這兩個(gè)分支可端到端的估計(jì)目標(biāo)結(jié)果的結(jié)構(gòu)和細(xì)節(jié)信息?;诠烙?jì)的結(jié)構(gòu)和細(xì)節(jié)信息,目標(biāo)結(jié)果可分別通過特定問題的成像模型來得到。本文所提出的雙層卷積神經(jīng)網(wǎng)絡(luò)是一個(gè)一般性的框架,它可以利用現(xiàn)有的卷積神經(jīng)網(wǎng)絡(luò)來處理相關(guān)低層視覺問題。大量的實(shí)驗(yàn)結(jié)果表明,本文所提出的雙層卷積神經(jīng)網(wǎng)絡(luò)可以應(yīng)用于大多數(shù)低層視覺問題,并取得了較好的結(jié)果。
4、GeoNet: Geometric Neural Network for Joint Depth and Surface Normal Estimation
GeoNet:通過幾何神經(jīng)網(wǎng)絡(luò)進(jìn)行聯(lián)合的深度和平面法向量估計(jì)
在這篇論文中,我們提出了幾何神經(jīng)網(wǎng)絡(luò),用于同時(shí)預(yù)測(cè)圖片場(chǎng)景的深度和平面法向量。我們的模型基于兩個(gè)不同卷積神經(jīng)網(wǎng)絡(luò),通過對(duì)幾何關(guān)系的建模來循環(huán)迭代更新深度信息和平面法向量信息,這使得最后的預(yù)測(cè)結(jié)果有著極高的一致性和準(zhǔn)確率。我們?cè)?NYU 數(shù)據(jù)集上驗(yàn)證了我們提出的幾何神經(jīng)網(wǎng)絡(luò),實(shí)驗(yàn)結(jié)果表明我們的模型可以精確預(yù)測(cè)出幾何關(guān)系一致的深度和平面法向量。
5、Path Aggregation Network for Instance Segmentation
通過路徑聚合網(wǎng)絡(luò)進(jìn)行實(shí)例分割
在神經(jīng)網(wǎng)絡(luò)中,信息傳遞的質(zhì)量是非常重要的。在本文中,我們提出了路徑聚合神經(jīng)網(wǎng)絡(luò),旨在提升基于區(qū)域的實(shí)例分割框架中信息傳遞的質(zhì)量。具體來講,我們構(gòu)建了自下而上的通路來傳遞儲(chǔ)存在低層神經(jīng)網(wǎng)絡(luò)層中精確的定位信息,縮短了底層網(wǎng)絡(luò)和高層網(wǎng)絡(luò)之間的信息傳輸距離,增強(qiáng)了整個(gè)特征層級(jí)的質(zhì)量。我們展示了適應(yīng)性特征池化,它連接了區(qū)域特征與所有的特征層級(jí),進(jìn)而使得所有有用的信息都能夠直接傳遞到后面的區(qū)域子網(wǎng)絡(luò)。我們?cè)黾恿艘粋€(gè)互補(bǔ)的分支去捕捉每個(gè)區(qū)域不同的特性,最終提升了掩膜的預(yù)測(cè)質(zhì)量。
這些改進(jìn)十分易于實(shí)現(xiàn),而且增加了較少的額外計(jì)算量。這些改進(jìn)幫助我們?cè)?2017 COCO 實(shí)例分割競(jìng)賽中取得第一名,在物體檢測(cè)競(jìng)賽中取得第二名。而且我們的方法也在 MVD 和 Cityscapes 數(shù)據(jù)集中取得最好成績(jī)。
6、FSRNet: End-to-End Learning Face Super-Resolution with Facial Priors
FSRNet:基于先驗(yàn)信息的端到端訓(xùn)練的人臉超分辨率網(wǎng)絡(luò)
本文由騰訊優(yōu)圖實(shí)驗(yàn)室與南京理工大學(xué)主導(dǎo)完成,并入選 Spotlight 文章。人臉超分辨率是一個(gè)特定領(lǐng)域的超分辨率問題,其獨(dú)特的人臉先驗(yàn)信息可以用來更好超分辨率人臉圖像。本文提出一種新的端到端訓(xùn)練的人臉超分辨率網(wǎng)絡(luò),通過更好的利用人臉特征點(diǎn)熱度圖和分割圖等幾何信息,在無需人臉對(duì)齊的情況下提升非常低分辨率人臉圖像的質(zhì)量。具體來說,本文首先構(gòu)造一個(gè)粗粒度超分網(wǎng)絡(luò)恢復(fù)一個(gè)粗精度的高分辨率圖像。其次把該圖像分別送入一個(gè)細(xì)粒度超分編碼器和一個(gè)先驗(yàn)信息估計(jì)網(wǎng)絡(luò)兩條分支。細(xì)粒度超分編碼器抽取圖像特征,而先驗(yàn)網(wǎng)絡(luò)估計(jì)人臉的特征點(diǎn)和分割信息。最后兩條分支的結(jié)果匯合送入一個(gè)細(xì)粒度超分解碼器重構(gòu)出最終的高分辨率圖像。為了進(jìn)一步生成更真實(shí)的人臉,本文提出人臉超分辨率生成對(duì)抗網(wǎng)絡(luò),將對(duì)抗思想融入超分網(wǎng)絡(luò)中。另外,我們引入人臉對(duì)齊和人臉分割兩種相關(guān)任務(wù),作為人臉超分的新的評(píng)估準(zhǔn)則。這兩種準(zhǔn)則克服了傳統(tǒng)準(zhǔn)則(比如 PSNR/SSIM)在數(shù)值和視覺質(zhì)量不一致的問題。大量實(shí)驗(yàn)顯示,本文提出的方法在處理非常低分辨率人臉圖像時(shí),在數(shù)值和視覺質(zhì)量?jī)煞矫娑硷@著優(yōu)于以往超分方法。
7、Generative Adversarial Learning Towards Fast Weakly Supervised Detection
基于生成對(duì)抗學(xué)習(xí)的快速弱監(jiān)督目標(biāo)檢測(cè)
該論文提出一種面向快速弱監(jiān)督目標(biāo)檢測(cè)的生成對(duì)抗學(xué)習(xí)算法。近年來弱監(jiān)督目標(biāo)檢測(cè)領(lǐng)域有著大量的工作。在沒有人工標(biāo)注包圍盒的情況下,現(xiàn)有的方法大多是多階段流程,其中包括了候選區(qū)域提取階段。這使得在線測(cè)試的速度比快速有監(jiān)督目標(biāo)檢測(cè)(如 SSD、YOLO 等)慢一個(gè)數(shù)量級(jí)。該論文通過一種新穎的生成對(duì)抗學(xué)習(xí)算法來加速。在這過程中,生成器是一個(gè)單階段的目標(biāo)檢測(cè)器,引入了一個(gè)代理器來挖掘高質(zhì)量的包圍盒,同時(shí)用判別器來判斷包圍盒的來源。最后算法結(jié)合了結(jié)構(gòu)相似損失和對(duì)抗損失來訓(xùn)練模型。實(shí)驗(yàn)結(jié)果表明該算法取得了明顯的性能提升。
8、GroupCap: Group-based Image Captioning with Structured Relevance and Diversity Constraints
基于組群的帶結(jié)構(gòu)化相關(guān)性和差異性約束的圖像自動(dòng)描述
該論文提出了一種基于組群圖像結(jié)構(gòu)化語義關(guān)聯(lián)性分析的圖像自動(dòng)描述方法(GroupCap),對(duì)圖像間的語義相關(guān)性和差異性進(jìn)行建模。具體而言,該論文首先利用深度卷積神經(jīng)網(wǎng)絡(luò)提取圖像的語義特征并利用提出的視覺解析模型構(gòu)建語義關(guān)聯(lián)結(jié)構(gòu)樹,然后在結(jié)構(gòu)樹基礎(chǔ)上采用三聯(lián)損失和分類損失對(duì)圖像間語義關(guān)聯(lián)性(相關(guān)性和差異性)進(jìn)行建模,最后將關(guān)聯(lián)性作為約束來引導(dǎo)深度循環(huán)神經(jīng)網(wǎng)絡(luò)生成文本。該方法新穎且有效,很好解決了當(dāng)前圖像自動(dòng)描述方法對(duì)于生成結(jié)果精確度不高且判別性不強(qiáng)的缺陷,并在圖像自動(dòng)描述的多項(xiàng)指標(biāo)上取得較高的性能。
歡迎關(guān)注雷鋒網(wǎng)AI科技評(píng)論,了解雷鋒網(wǎng)學(xué)術(shù)頻道的更多報(bào)道。
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。
本專題其他文章