丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給奕欣
發(fā)送

0

CVPR 2018論文:「隨心所欲」換裝換姿態(tài)

本文作者: 奕欣 2018-07-31 14:23
導(dǎo)語(yǔ):雷鋒網(wǎng) AI 科技評(píng)論按:本文作者 Liqian Ma,他為 AI 科技評(píng)論撰寫(xiě)了他作為第一作者被 CVPR 2018 錄用的 Spotlight 論文解讀稿件

雷鋒網(wǎng) AI 科技評(píng)論按:本文作者 Liqian Ma,他為 AI 科技評(píng)論撰寫(xiě)了他作為第一作者被 CVPR 2018 錄用的 Spotlight 論文解讀稿件。

下面要介紹的論文發(fā)表于 CVPR 2018,題為??「Disentangled Person Image Generation」。

我們的目標(biāo)是在無(wú)監(jiān)督數(shù)據(jù)的情況下生成自然人體圖像。為此,我們提出了一種基于自監(jiān)督的解耦表達(dá)人體前景、背景、姿態(tài)特征的生成式模型。其中,重建過(guò)程是基于對(duì)人體圖像的三個(gè)弱相關(guān)成分, 即前景人體(foreground),背景(background)和人體姿態(tài)點(diǎn)(pose)的分解,壓縮和解碼重建原圖像提取對(duì)應(yīng)的三類(lèi)特征。之后分別以這三類(lèi)特征作為目標(biāo),訓(xùn)練對(duì)抗性生成網(wǎng)絡(luò)實(shí)現(xiàn)從高斯噪聲生成新的對(duì)應(yīng)特征,同時(shí)利用前一步訓(xùn)練得到的圖像解碼器對(duì)新特征解碼得到新的人體圖像。該模型可以用于多種應(yīng)用:人體圖片修改與采樣,樣本插值,行人重識(shí)別,姿態(tài)指導(dǎo)的人體圖像生成。

一、為什么要做解耦表達(dá)的人體生成模型?有什么優(yōu)點(diǎn)?

在之前的圖像轉(zhuǎn)換工作中(圖 1),CVPR17 的 pix2pix [1] 通過(guò)使用帶監(jiān)督信息的訓(xùn)練數(shù)據(jù)來(lái)學(xué)習(xí)一個(gè)可以進(jìn)行外觀轉(zhuǎn)換的 image-to-image 模型。之后,ICCV17 的 cycleGAN [2] 提出使用 cycle-consistency 的約束使得無(wú)監(jiān)督學(xué)習(xí) image-to-image 模型成為可能。以上兩個(gè)主流的模型主要針對(duì)圖像的外觀信息進(jìn)行遷移,而沒(méi)有進(jìn)行結(jié)構(gòu)信息的遷移。我們 NIPS17 的工作 PG2 [3] 則可以通過(guò)將人體姿態(tài)關(guān)節(jié)點(diǎn)和圖像一起作為網(wǎng)絡(luò)輸入,然后利用有監(jiān)督學(xué)習(xí)對(duì)人體圖像進(jìn)行結(jié)構(gòu)信息的遷移。為了同時(shí)進(jìn)行外觀和結(jié)構(gòu)信息的遷移,我們將人體圖片分解為前景、背景、姿態(tài)三個(gè)弱相關(guān)因素,從而可以單獨(dú)控制各個(gè)因素。此外,我們還提出一種「高斯噪聲-> 特征 ->圖像」的映射方式,使得模型可以分別從高斯空間采樣得到對(duì)應(yīng)的前景、背景、姿態(tài)。該論文采用自監(jiān)督的方式來(lái)訓(xùn)練模型,因此不需要帶監(jiān)督信息的訓(xùn)練數(shù)據(jù)??偨Y(jié)來(lái)講,模型有如下優(yōu)點(diǎn):

  • 1)單獨(dú)控制前景、背景、姿態(tài);

  • 2)可以從高斯空間采樣;

  • 3)不需要帶監(jiān)督信息的訓(xùn)練數(shù)據(jù)。

CVPR 2018論文:「隨心所欲」換裝換姿態(tài)

圖 1. 圖像轉(zhuǎn)換相關(guān)工作對(duì)比。

二、如何解耦表達(dá)人體前景、背景、姿態(tài)特征?如何采樣新的人體圖像?

該論文提出了一種分階段學(xué)習(xí)方法。在第一階段,通過(guò)包含編碼器、解碼器的重構(gòu)網(wǎng)絡(luò)來(lái)學(xué)習(xí)三種弱相關(guān)人體圖像特征,即前景、背景和姿態(tài)。在第二階段,則將之前訓(xùn)練好的編碼器、解碼器固定,通過(guò)對(duì)抗式學(xué)習(xí)來(lái)分別訓(xùn)練三個(gè)映射函數(shù),來(lái)將高斯空間分別映射到三個(gè)特征空間。在測(cè)試階段采樣時(shí),我們可以先通過(guò)第二階段學(xué)習(xí)到的映射函數(shù)來(lái)將高斯噪聲映射到特征空間,然后利用第一階段學(xué)習(xí)到的解碼器將特征解碼成圖像。相比于直接將高斯空間映射到圖像空間,這種兩階段映射降低了映射難度:相比于圖像空間,特征空間的分布更加接近于圖像數(shù)據(jù),因此可以更容易通過(guò)對(duì)抗學(xué)習(xí)得到映射函數(shù)。此外,第二階段的映射函數(shù)可以在第一階段訓(xùn)練完成后進(jìn)行,并不需要對(duì)第一階段的特征空間加任何假設(shè),因此可以應(yīng)用于任何高斯空間到圖像特征空間的映射。

我們已經(jīng)驗(yàn)證:當(dāng)使用類(lèi)似 VAE[4] 和 AAE[5] 的方式直接在第一階段的 bottleneck 層(即特征空間)加約束,會(huì)導(dǎo)致訓(xùn)練不穩(wěn)定或者學(xué)到的特征空間存在模型坍塌的問(wèn)題。因此,我們提出將第一階段特征空間的高斯約束轉(zhuǎn)換成學(xué)習(xí)一個(gè)從高斯噪聲到特征空間的映射函數(shù)。

CVPR 2018論文:「隨心所欲」換裝換姿態(tài)

圖 2. 整體框圖,包含階段一和階段二。

階段一是一個(gè)重構(gòu)網(wǎng)絡(luò)的結(jié)構(gòu),包含編碼器和解碼器兩部分。

1)在編碼器部分,我們將圖像分為前景,背景,姿態(tài)三種因素,并用三個(gè)分支網(wǎng)絡(luò)進(jìn)行分別編碼。這一過(guò)程由自動(dòng)檢測(cè)得到的人體姿態(tài)關(guān)節(jié)點(diǎn)來(lái)引導(dǎo):通過(guò)對(duì)人體姿態(tài)關(guān)節(jié)點(diǎn)進(jìn)行連接及一些圖像形態(tài)學(xué)操作(如腐蝕和膨脹)來(lái)得到一個(gè)粗糙的 mask(紅色虛線框),來(lái)顯式地分割前景與背景信息。需要注意的是我們?cè)?feature map 層而不是 image 層進(jìn)行前景、背景分割,主要因?yàn)槲覀兊?mask 并不精確,直接在 image 層分割累計(jì)的誤差會(huì)影響生成效果。而在 feature map 層分割,則可以通過(guò)重建網(wǎng)絡(luò)的引導(dǎo)使得輸出 feature map 的卷積層自行學(xué)習(xí)糾正這些誤差,改善生成效果。進(jìn)一步,在前景分支上,我們利用人體 7 個(gè) Body ROI [6] 來(lái)進(jìn)行局部編碼后再將 7 個(gè)部分的特征向量合并成一個(gè)。此過(guò)程中的 7 個(gè)局部編碼器之間共享權(quán)重。

2)在解碼器部分,我們將前景特征和背景特征進(jìn)行拼接并在空間域上平鋪成和圖像分辨率一致的外觀特征立方體,最后將外觀特征立方體與人體姿態(tài)關(guān)節(jié)點(diǎn)拼接再輸入具有 U-net 結(jié)構(gòu)的解碼器(藍(lán)色虛線框)。這種外觀和結(jié)構(gòu)信息的融合方式可以幫助解碼器學(xué)習(xí)如何根據(jù)人體關(guān)節(jié)點(diǎn)信息引導(dǎo)來(lái)選擇「填充」合理的外觀信息 [3]。

CVPR 2018論文:「隨心所欲」換裝換姿態(tài)

圖 3. 階段一詳細(xì)結(jié)構(gòu)。

三、解耦表達(dá)的人體生成模型可以應(yīng)用在哪些任務(wù)?

1)人體圖片修改與采樣

如圖 4 所示,該模型在 128x64 分辨率的行人重識(shí)別數(shù)據(jù)庫(kù) Market-1501 和 256x256 分辨率的時(shí)尚數(shù)據(jù)庫(kù) DeepFashion 上進(jìn)行了測(cè)試。我們可以看到在 Market-1501 上,該模型可以通過(guò)固定兩個(gè)因素(如,背景和姿態(tài))對(duì)應(yīng)的高斯噪聲輸入來(lái)單獨(dú)修改剩余的一種(如,前景),或者同時(shí)采樣三種因素的噪聲生成三種因素截然不同的圖像。在 DeepFashion 上,該模型則可用于從高斯空間采樣出新的衣服樣式(前景)。

CVPR 2018論文:「隨心所欲」換裝換姿態(tài)

圖 4. 人體圖片修改與采樣結(jié)果。

2)樣本插值

如圖 5 所示,我們可以使用簡(jiǎn)單的梯度下降方法找到真實(shí)圖片 x1,x2 在高斯空間中對(duì)應(yīng)的編碼,然后進(jìn)行線性插值,并將插值得到的編碼解碼成圖像。我們可以看到,插值得到的中間結(jié)果可以在一定程度上反應(yīng)兩幀之間的變化。

CVPR 2018論文:「隨心所欲」換裝換姿態(tài)CVPR 2018論文:「隨心所欲」換裝換姿態(tài)   CVPR 2018論文:「隨心所欲」換裝換姿態(tài)  CVPR 2018論文:「隨心所欲」換裝換姿態(tài)

圖 5. 人體圖片樣本插值(x1 和 x2 是真實(shí)圖片)

3)行人重識(shí)別

如圖 6 所示,為了驗(yàn)證我們的生成數(shù)據(jù)對(duì)行人重識(shí)別的幫助,我們?cè)?Market-1501 數(shù)據(jù)庫(kù)上通過(guò)固定前景,采樣背景和姿態(tài),來(lái)得到一個(gè)人工生成的 ID(前景)對(duì)應(yīng)的不同圖片。我們構(gòu)建了一個(gè)包含 500 個(gè) ID,每個(gè) ID 有 24 張圖片的 Virtual Market 數(shù)據(jù)庫(kù)。使用該虛擬數(shù)據(jù)庫(kù)來(lái)訓(xùn)練行人重識(shí)別的模型,之后在實(shí)際測(cè)試數(shù)據(jù)上我們的虛擬數(shù)據(jù)庫(kù)訓(xùn)練的模型可以達(dá)到 state-of-the-art 的非監(jiān)督 re-id 模型的識(shí)別率(見(jiàn)表 1 第四排第五排),甚至超過(guò)有些在標(biāo)記數(shù)據(jù)庫(kù)上進(jìn)行預(yù)訓(xùn)練的模型(見(jiàn)表 1 第一排第二排)。

CVPR 2018論文:「隨心所欲」換裝換姿態(tài)

圖 6. 生成的 Virtual Market 數(shù)據(jù)庫(kù)。每一列對(duì)應(yīng)一個(gè) ID 的一對(duì)不同圖片。

CVPR 2018論文:「隨心所欲」換裝換姿態(tài)

表 1. 行人重識(shí)別結(jié)果對(duì)比。Rank-1 和 mAP 都是越高越好。

4)姿態(tài)指導(dǎo)的人體圖像生成

如圖 7 所示,我們的模型同樣可以根據(jù)輸入的目標(biāo)姿態(tài)來(lái)改變輸入人體圖片的姿態(tài)。相比于使用帶監(jiān)督信息數(shù)據(jù)進(jìn)行學(xué)習(xí)的 PG2 [3] 模型,我們提出的自監(jiān)督學(xué)習(xí)模型同樣達(dá)到可媲美的效果,而我們的優(yōu)勢(shì)在于我們的模型不需要任何帶監(jiān)督信息的訓(xùn)練數(shù)據(jù)。從表 2 的量化結(jié)果來(lái)看,PG2 因?yàn)椴捎?U-net 結(jié)構(gòu),編碼器和解碼器之間有 skip-connection,可以更好地保留原圖像的細(xì)節(jié),生成的圖像和真值圖片的相似度(SSIM score)更高。而我們提出的模型用編碼器將圖像空間映射到特征空間,并沒(méi)有使用 skip-connection 將原圖的細(xì)節(jié)傳給解碼器,故出現(xiàn)了一些外觀不一致的細(xì)節(jié),但生成的圖像更加逼真,有更高的 inception score。因此,如果要用我們的模型來(lái)做「姿態(tài)指導(dǎo)的人體圖像生成」,還需要使用類(lèi)似 skip-connection 的方式來(lái)將原圖的細(xì)節(jié)更好地傳達(dá)給生成結(jié)果。

如圖 8 所示,給定目標(biāo)姿態(tài)的序列,我們也可以將一幅圖像轉(zhuǎn)換成一個(gè)視頻序列(未使用時(shí)域信息)。這里我們展示的是交叉姿態(tài)驅(qū)動(dòng)的結(jié)果,即使用 B 的姿態(tài)序列來(lái)驅(qū)動(dòng) A 的外觀,反之亦然。

CVPR 2018論文:「隨心所欲」換裝換姿態(tài)

圖 7. 姿態(tài)指導(dǎo)的人體圖像生成可視化結(jié)果對(duì)比。

CVPR 2018論文:「隨心所欲」換裝換姿態(tài)

表 2. 姿態(tài)指導(dǎo)的人體圖像生成量化結(jié)果對(duì)比。(Mask-)SSIM 和 IS 都是越高越好。

CVPR 2018論文:「隨心所欲」換裝換姿態(tài)

圖 8. 基于骨架驅(qū)動(dòng)的人體視頻生成。

另外,在我們的最新工作「Exemplar Guided Unsupervised Image-to-Image Translation」中,我們提出了針對(duì)兩個(gè)內(nèi)容相關(guān) domain 圖像的基于樣例的無(wú)監(jiān)督轉(zhuǎn)換方法,可以根據(jù)樣例來(lái)將原始圖像轉(zhuǎn)換到目標(biāo) domain 的特定風(fēng)格,并同時(shí)保持圖像語(yǔ)義結(jié)構(gòu)的一致性(天還是天,路還是路),實(shí)現(xiàn)了多對(duì)多的映射。歡迎大家圍觀 https://arxiv.org/abs/1805.11145

參考文獻(xiàn):

[1] P. Isola, J.-Y. Zhu, T. Zhou, and A. A. Efros. Image-to-image translation with conditional adversarial networks. In CVPR, 2017. 

[2] J.-Y. Zhu, T. Park, P. Isola, and A. A. Efros. Unpaired image-to-image translation using cycle-consistent adversarial networks. In ICCV, 2017.

[3] L. Ma, J. Xu, Q. Sun, B. Schiele, T. Tuytelaars, and L. Van Gool. Pose guided person image generation. In NIPS, 2017.

[4] D. P. Kingma and M. Welling. Auto-encoding variational bayes. In ICLR, 2014.

[5] A. Makhzani, J. Shlens, N. Jaitly, I. Goodfellow, and B. Frey. Adversarial autoencoders. In arXiv, 2015.

[6] H. Zhao, M. Tian, S. Sun, J. Shao, J. Yan, S. Yi, X. Wang, and X. Tang. Spindle net: Person re-identification with human body region guided feature decomposition and fusion. In CVPR, 2017.

[7] H. Fan, L. Zheng, and Y. Yang. Unsupervised person re-identification: Clustering and fine-tuning. In arXiv, 2017.

論文地址:https://homes.esat.kuleuven.be/~liqianma/pdf/CVPR18_Ma_Disentangled_Person_Image_Generation.pdf

項(xiàng)目地址:https://homes.esat.kuleuven.be/~liqianma/CVPR18_DPIG/

知乎:https://zhuanlan.zhihu.com/p/35626735 

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

CVPR 2018論文:「隨心所欲」換裝換姿態(tài)

分享:
相關(guān)文章
當(dāng)月熱門(mén)文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)