丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
人工智能 正文
發(fā)私信給AI研習社-譯站
發(fā)送

0

CVPR 2018摘要:第五部分

本文作者: AI研習社-譯站 2018-11-26 11:07
導語:我說她沒有面孔; 但那意味著她有一千個面孔......

CVPR 2018摘要:第五部分

本文為 AI 研習社編譯的技術(shù)博客,原標題 :

What’s In a Face (CVPR in Review V)

作者 | Sergey Nikolenko、Anastasia Gaydashenko

翻譯 | 老趙    校對 | 醬番梨

整理 | 菠蘿妹

原文鏈接:

https://medium.com/neuromation-io-blog/whats-in-a-face-cvpr-in-review-v-3086f60e1f1c


人臉有什么(CVPR 摘要第五部分)

我說她沒有面孔; 但那意味著她有一千個面孔......

- C.S. Lewis,直到我們面對面

今天我們向你介紹另一部分,我們將深入了解CVPR 2018(計算機視覺和模式識別)會議的一些論文的細節(jié)。 我們已經(jīng)有四個:關(guān)于計算機視覺的GAN,關(guān)于人類的姿勢估計和跟蹤,關(guān)于合成數(shù)據(jù),以及最后關(guān)于域適應。 特別在第四部分中,我們提出了三篇關(guān)于同一主題的論文,這些論文實際具有數(shù)字可比性。

今天,我們轉(zhuǎn)向一個不同的問題,也需要進行詳細的比較。 我們將討論面部生成,即從頭開始或通過改變真實照片的某些特征來合成人臉的真實圖像。 實際上,我們剛剛在關(guān)于GAN的第一篇文章中已經(jīng)觸及了這個問題。 但從那時起,生成對抗網(wǎng)絡(luò)(GAN)一直是機器學習中最熱門的話題之一,難怪今天有新的進步等待著我們。 再次,我很高興介紹Anastasia Gaydashenko,我們與他們共同撰寫了這篇文章。


  合成面部的GAN和損失函數(shù)的重要性

我們已經(jīng)多次談到模型架構(gòu)和良好的數(shù)據(jù)集對深度學習的重要性。 在這篇文章中,一個反復出現(xiàn)的主題將是損失函數(shù)的意義和重要性,即神經(jīng)網(wǎng)絡(luò)實際代表的函數(shù)。 有人可能會說損失函數(shù)是架構(gòu)的一部分,但在實踐中我們通常會分開考慮它們; 例如,相同的基本架構(gòu)可以提供各種各樣的損失函數(shù),只需要很小的改動,這就是我們今天將要看到的。

我們之所以選擇這些特別的論文,不僅是因為我們最喜歡它們,還因為它們都使用GAN,并且都在使用它們來修改面部圖片,同時保留了人的身份。 這是GAN的成熟應用; 像ADD這樣的經(jīng)典論文用它來預測一個人如果隨著年齡的變化而變化,或者如果他們擁有不同的性別,他們會是怎樣的面部。 我們今天考慮的論文使這一系列研究更進了一步,以一種可能受到操縱的方式將一個人的外表(例如,化妝或情緒)的某些部分分開。

因此在某種程度上,今天的所有論文也解決了同樣的問題,并且可能相互比較。 但問題是,對模型結(jié)果的真實評估基本上只能由人來完成:你需要判斷新圖片的真實程度。 在我們的例子中,具體任務和數(shù)據(jù)集也有所不同,因此我們不會直接比較結(jié)果,而是提取和比較新的有趣想法。

一起看論文吧。


  面向開集身份保持人臉合成

第一篇論文的作者,來自中國科學技術(shù)大學和微軟研究院研究人員的共同工作(完整pdf),旨在從單個面部圖像中解開身份和屬性。 這個想法是將一個面部的表示分解為“身份”和“屬性”,使身份對應人,屬性基本上對應于在保留身份的同時可以修改的所有內(nèi)容。 然后,使用提取的身份標識,我們可以添加從不同面部提取的屬性。 

像這樣:

CVPR 2018摘要:第五部分

很有意思吧? 我們來研究他們是如何做到的。 本文中有許多有趣的小技巧,但這項工作的主要貢獻是一個新的基于GAN的架構(gòu):

CVPR 2018摘要:第五部分

在這里,網(wǎng)絡(luò)將兩張圖片作為輸入:身份圖片,和作為除了人的身份之外的所有事物的來源:姿勢,情感,照明,甚至背景的屬性圖片。

該架構(gòu)的主要組成部分包括:

  • 身份編碼器 I 產(chǎn)生身份輸入 x? 的潛在表示(嵌入);

  • 屬性編碼器 A 對輸入 x? 的屬性執(zhí)行相同的操作;

  • 混合圖像生成器 G 將嵌入(連接)作為輸入并產(chǎn)生圖像 x',該圖像應該混合 x? 的身份和 x? 的屬性;

  • 身份分類器 C 檢查生成的圖片 x' 中的人是否確實與 x? 中的人相同;

  • 鑒別器 D 試圖區(qū)分真實和生成的例子,以通常的GAN方式提高生成器性能。

這是用于訓練的模型結(jié)構(gòu); 當所有成分都經(jīng)過訓練時,為了生成本身,只需使用虛線內(nèi)的部分就足夠了,因此網(wǎng)絡(luò) C 和 D 僅包含在訓練階段。

主要問題是如何從屬性中分離出身份。 我們怎樣才能告訴網(wǎng)絡(luò)應該在 x? 應該采取什么措施以及 x?  ? 上面概述的體系結(jié)構(gòu)本身并沒有回答這個問題,這里的主要工作是通過仔細選擇損失函數(shù)來完成的。 它們中有不少; 讓我們逐一篩選。 NeuroNugget 格式不允許太多公式,因此我們將嘗試捕獲損失函數(shù)的每個部分的含義:

  • 最直接的部分是 softmax 分類損失 L? ,它訓練身份編碼器 I 識別照片上顯示的人的身份; 基本上,我們訓練 I 作為人物分類器,然后使用該網(wǎng)絡(luò)的最后一層作為特征 f?(xs);

  • 重建損失 L? 更有趣; 我們希望結(jié)果 x' 無論如何重建原始圖像 x? 但這里有兩個不同的情況:

  • 如果圖像 x? 上的人與身份圖像 xs 上的人相同,毫無疑問我們應該做什么:我們應該盡可能精確地重建 x? ;

  • 如果 x? 和 x? 顯示兩個不同的人(我們知道監(jiān)督訓練階段的所有身份),我們也想重建 xa ,但對“錯誤”的懲罰較低(在作者的實驗中低10倍); 我們實際上并不想現(xiàn)在完全重建 x? 但仍希望 x' 與 x? 相似;

  • KL分歧損失 Lkl 旨在幫助屬性編碼器 A 注意屬性并盡可能“丟失”身份; 它作為一個正則化器,使屬性向量分布類似于預定義的先驗假設(shè)(標準高斯);

  • 鑒別器損失 L? 是標準的GAN:它顯示了 D能夠區(qū)分真實和假圖像; 然而,這里也有一個轉(zhuǎn)折:不僅僅包括鑒別器損失 L? ,網(wǎng)絡(luò)開始使用L??,一個特征匹配損失,用于衡量 D 在 x' 和 xa 的某個中間層上提取的特征有多相似; 這是因為我們不能指望立即愚弄D,在訓練開始時鑒別器總是接近完美,我們必須首先解決較弱的損失函數(shù)(有關(guān)詳細信息,請參閱CVAE-GAN論文);

  • 并且,同樣的技巧適用于身份分類器 C ; 我們使用基本分類損失 L? ,但也用 C 的某個中間層上 x' 和 x? 的特征表示之間的距離 L?? 來增加它。

聲明:我為略微弄亂圖片中的符號而道歉但是Medium實際上不支持子/上標,所以我不得不使用現(xiàn)有的Unicode符號。)

這是相當多的東西,不是嗎?這就是現(xiàn)代基于GAN的架構(gòu)通常的工作方式:它們的最終損失函數(shù)通常是許多不同術(shù)語的總和,每個術(shù)語都有自己的動機和意義。 但是由此產(chǎn)生的結(jié)構(gòu)非常好; 我們現(xiàn)在可以用幾種不同的方式訓練它:

  • 首先,網(wǎng)絡(luò) I 和 C 基本上做同樣的事情,識別人; 因此,他們可以共享架構(gòu)和權(quán)重(這簡化了訓練),我們甚至可以使用標準的預訓練人員識別網(wǎng)絡(luò)作為 I 和 C 的非常好的初始化;

  • 接下來,我們將整個事物訓練成具有已知身份的人的圖像數(shù)據(jù)集; 正如我們已經(jīng)提到的,我們可以成對選擇 x? 和 x? 作為同一個人的不同圖像,并讓網(wǎng)絡(luò)嘗試精確地重建 xa,或者用不同的人選擇 x? 和 x? 并以較低的重建損失進行訓練;

  • 但即便如此也不是全部; 公開提供的人員標簽數(shù)據(jù)集不夠多樣化,無法對端到端的整個架構(gòu)進行訓練,但幸運的是,它甚至允許無人監(jiān)督的訓練; 如果我們不知道我們不能訓練 I 和 C 的身份,那么我們必須忽略他們的損失功能,但我們?nèi)匀豢梢杂柧毷O碌摹N覀円呀?jīng)看到 I 和 C 是最容易訓練的,所以我們可以假設(shè)他們在受監(jiān)督的部分訓練得很好。 因此,我們可以簡單地從Web抓取一些隨機面,并在不知道身份的情況下將它們添加到訓練集中。

由于有意識和精確地選擇了架構(gòu),損失函數(shù)和訓練過程,結(jié)果非常棒。以下是論文中的兩個選項。 在第一個中,我們看到從訓練集中隨機選擇的面部變換,其中包含屬性的隨機面部:

CVPR 2018摘要:第五部分

而在第二,身份從未出現(xiàn)在訓練集中。 這些是網(wǎng)絡(luò)完全不為人知的人(“零標識身份”,正如論文所稱)......它仍然可以正常工作:

CVPR 2018摘要:第五部分


  成對循環(huán)GAN:用于應用和刪除化妝的非對稱風格轉(zhuǎn)移

來自普林斯頓,伯克利和Adobe的研究人員(完整的pdf)的合作與前一篇論文的工作方式相同,但解決了更為精確的問題:我們可以在照片上添加/修改化妝而不是同時修改所有屬性,而保持臉部盡可能可識別。 這里的一個主要問題是,在機器學習中經(jīng)常發(fā)生的數(shù)據(jù):如果我們有一個大型數(shù)據(jù)集對齊有和沒有化妝的面部照片,那么相對直接的方法是很有可能的...但當然我們沒有。 那么我們?nèi)绾谓鉀Q這個問題呢?

網(wǎng)絡(luò)仍然獲得兩個圖像作為輸入:我們從中獲取面部的源圖像和我們采用化妝風格的參考圖像。 然后模型產(chǎn)生相應的輸出; 這里有一些示例結(jié)果,它們非常令人印象深刻:

CVPR 2018摘要:第五部分

這種無監(jiān)督的學習框架依賴于循環(huán)一致的生成對抗網(wǎng)絡(luò)的新模型; 它由兩個非對稱函數(shù)組成:前向函數(shù)對基于示例的風格轉(zhuǎn)換進行編碼,而后向函數(shù)則刪除風格。 下面是它的工作原理:

CVPR 2018摘要:第五部分

圖為兩個耦合網(wǎng)絡(luò),旨在實現(xiàn)這些功能:一個傳遞化妝風格(G),另一個可以消除化妝(F); 我們的想法是使其連續(xù)應用程序的輸出與輸入照片匹配。

讓我們再次討論損失,因為他們定義了方法并捕捉了這項工作中的主要新想法。 我們需要的唯一符號是 X 是“無化妝”域,Y 是化妝圖像的域。 現(xiàn)在:

  • 鑒別器 DY 試圖區(qū)分來自域 Y(帶化妝)的實際樣本和生成的樣本,并且生成器 G 旨在欺騙它; 所以在這里我們使用對抗性損失將 G 的結(jié)果限制為類似于域 Y 的化妝面部;

  • 由于同樣的原因,F(xiàn) 使用相同的損失函數(shù):鼓勵它生成與從域 X 采樣的無化妝面部無法區(qū)分的圖像;

  • 但這些損失函數(shù)還不夠; 他們只是簡單地讓發(fā)生器重現(xiàn)與參考相同的圖像,而不受源的任何限制; 為了防止這種情況,我們使用 G 和 F 組合的同一性損失:如果我們從 X 對面部 x 施加化妝然后立即將其移除,我們應該準確地取回輸入圖像 x ;

  • 現(xiàn)在我們已經(jīng)使 G 的輸出屬于 Y(面部化妝)并保留了身份,但我們?nèi)匀粵]有以任何方式使用參考化妝風格; 轉(zhuǎn)移風格,我們使用兩種不同的風格損失:

  • 風格重建損失 Ls 表示如果我們用 G(x,y)將化妝從臉部 y 轉(zhuǎn)移到臉部 x,然后用 F(y)從y移除化妝,然后從 G(x,y)應用樣式到F(y),我們應該回到 y,即 G(F(y),G(x,y))應該與 y 相似;

  • 然后在這一切之上,我們添加另一個鑒別器 DS,它決定一對給定的面部具有相同的構(gòu)成; 它的風格鑒別器損失 LP 是目標函數(shù)的最終元素。

論文不僅僅是損失函數(shù)。 例如,另一個問題是如何獲取訓練集的照片數(shù)據(jù)集。 作者找到了一個有趣的解決方案:使用來自YouTube的美女博主。 他們從化妝教程視頻中收集了一個數(shù)據(jù)集(在亞馬遜機械土耳其人手動驗證),從而確保它包含高分辨率的各種化妝風格。

結(jié)果再次令人印象深刻:

CVPR 2018摘要:第五部分

如果你與藝術(shù)模特化妝轉(zhuǎn)移之前的狀態(tài)對它們進行比較:結(jié)果會特別令人印象深刻:

CVPR 2018摘要:第五部分

我們有一種感覺,下一個Prisma很可能潛伏在附近的某個地方......


  去表達殘留學習的面部表情識別

隨著今天的最后一篇論文(完整pdf),我們從化妝轉(zhuǎn)向另一種非常特殊的面部特征:情緒。 我們怎樣才能解開身份和情感?

在這項工作中,提出的架構(gòu)包含兩個學習過程:第一個是學習通過條件GAN(cGAN)生成標準中性面部,第二個是從生成的生成器的中間層學習。 為了訓練 cGAN,我們使用顯示一些表情(輸入)的面部圖像對和相同主題的中性面部圖像(輸出):

CVPR 2018摘要:第五部分

像往常一樣學習 cGAN:生成器基于輸入圖像重建輸出,然后將元組(輸入,目標,是)和(輸入,輸出,否)給予鑒別器。 鑒別器試圖區(qū)分生成的樣本和背景實況,而生成器不僅試圖混淆鑒別器而且還生成盡可能接近目標圖像的圖像(復合損失函數(shù)再次,但這次相對簡單)。

本文將此過程稱為去表達(從臉部去除表達),并且其思想是在去表達期間,與實際情緒相關(guān)的信息仍被記錄為發(fā)生器的中間層中的表達組件。 因此,對于第二學習過程,我們固定生成器的參數(shù),并且中間層的輸出被組合并用作進行面部表情分類的深度模型的輸入。 整體架構(gòu)如下所示:

CVPR 2018摘要:第五部分

在生成中性面部之后,可以通過在像素級別或特征級別比較中性面部和查詢表達面部來分析表達信息。然而,由于圖像之間的變化(即,旋轉(zhuǎn),平移或照明),像素級差異是不可靠的。即使表達式?jīng)]有任何變化,這也會導致較大的像素級差異。特征級差異也是不穩(wěn)定的,因為表達信息可能根據(jù)身份信息而變化。由于查詢圖像和中性圖像之間的差異被記錄在中間層中,因此作者直接利用來自中間層的表達成分。

下圖說明了去表達殘基的一些樣本,它們分別是憤怒,厭惡,恐懼,快樂,悲傷和驚訝的表達成分;圖片顯示了每個表達組件的相應直方圖。我們可以看到,表達組件和相應的直方圖都是可以區(qū)分的:

CVPR 2018摘要:第五部分

以下是不同數(shù)據(jù)集的一些示例結(jié)果。 在所有圖片中,第一列是輸入圖像,第三列是同一面部的背景真實中性面部圖像,中間是生成模型的輸出:

CVPR 2018摘要:第五部分

結(jié)果,作者都獲得了用于去表達的良好網(wǎng)絡(luò),即,從臉部移除情緒,并且通過在由去表達網(wǎng)絡(luò)捕獲的豐富特征上訓練情緒分類器來改善用于情感識別的現(xiàn)有技術(shù)結(jié)果。


  結(jié)語

謝謝你的閱讀。 有了這個,我們終于完成了2018年的CVPR。很難對這么大的會議做出正確的判斷; 當然,有數(shù)百篇非常有趣的論文是我們無法涵蓋的。 但是,我們?nèi)匀幌M且粋€有趣和有用的選擇。 我們很快會在下一個NeuroNugget分期介紹中再次見到你。好運。雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)

Sergey Nikolenko
Chief Research Officer, Neuromation

Anastasia Gaydashenko
former Research Intern at Neuromation, currently Machine Learning Intern at Cisco


想要繼續(xù)查看該篇文章相關(guān)鏈接和參考文獻?

長按鏈接點擊打開或點擊【CVPR 2018摘要:第五部分】:

http://ai.yanxishe.com/page/TextTranslation/1241


CVPR系列的其他文章(點擊可直接跳轉(zhuǎn)):

CVPR 2018摘要:第一部分

CVPR 2018摘要:第二部分

CVPR 2018摘要:第三部分

CVPR 2018摘要:第四部分


等你來譯:

2018.11十大機器學習熱門網(wǎng)文

五個很厲害的 CNN 架構(gòu) 

這5種計算機視覺技術(shù),刷新你的世界觀 

遷移學習:如何將預訓練CNN當成特征提取器 

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

CVPR 2018摘要:第五部分

分享:
相關(guān)文章

知情人士

AI研習社(yanxishe.com)譯站頻道,傳播前沿人工智能知識,讓語言不再成為學習知識的門檻。(原雷鋒字幕組)
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說