DeepFake 新高度：一階運動模型讓“萬物皆可動”

本文作者：蔣寶尚

2020-04-26 18:17

導語：萬物皆可動

作者 | 蔣寶尚

編輯 | 叢末

DeepFake一方面被罵作“AI毒瘤”，另一方面在B站上大行其道。最近，這項技術又用在了在線視頻會議身上。

一鍵換臉，身臨其境與馬斯克開會，商討火箭上天大計的項目，也登上Github熱榜。

DeepFake 新高度：一階運動模型讓“萬物皆可動”

據(jù)稱，這是一位來自俄羅斯的程序員開發(fā)的開源“視頻會議阿凡達”軟件Avatarify，背后所用的技術基于名為First Order Motion的核心模型，這個模型可以對視頻中的對象進行動畫處理，并生成視頻序列。First Order Motion模型來自 NeurIPS 2019 論文《First Order Motion Model for Image Animation》，最初的目的是讓“靜態(tài)圖片”動起來。如下圖所示：“你動，它也動”。

DeepFake 新高度：一階運動模型讓“萬物皆可動”

根據(jù)作者介紹，這個模型可以輕易地讓“權游”中的人物模仿特朗普進行講話，還可以讓靜態(tài)的馬跑起來，另外還可以完成模特的“一鍵換裝”。

DeepFake 新高度：一階運動模型讓“萬物皆可動”

論文解讀：一階動畫模型的來源與主要想法

DeepFake 新高度：一階運動模型讓“萬物皆可動”

論文多數(shù)作者是來自意大利的特倫托大學，還有一位是 snap 公司的員工，論文已經(jīng)發(fā)表在NeurIPS 2019 上。

DeepFake 新高度：一階運動模型讓“萬物皆可動”

First Order Motion模型運作流程

整個模型分為運動估計模塊和圖像生成模塊兩個主要組成部分。在運動估計模塊中，該模型通過自監(jiān)督學習將目標物體的外觀和運動信息進行分離，并進行特征表示。而在圖像生成模塊中，模型會對目標運動期間出現(xiàn)的遮擋進行建模，然后從給定的名人圖片中提取外觀信息，結(jié)合先前獲得的特征表示，進行視頻合成。該模型對硬件要求比較高，想實現(xiàn)33幀/秒的視頻效果，需要一張1080ti顯卡，也即需要英偉達10系顯卡中的卡皇加持。

模型細節(jié)與方法

一階動畫模型的思想是用一組自學習的關鍵點和局部仿射變換來建立復雜運動模型，目的是為了解決大目標姿勢動態(tài)變化的情況下，傳統(tǒng)模型生成質(zhì)量較差的問題。

另外，作者引入了「遮擋感知生成器」，可以指示源圖像中不可見的物體部分，從而利用上下文推斷這部分內(nèi)容。再者為了改進局部仿射變換的估計，作者擴展了常用于關鍵點檢測器訓練的等差損耗。最后作者還發(fā)布了一個新的高分辨率數(shù)據(jù)集Thai-Chi-HD，用于評估圖像動畫和視頻生成框架的參考基準。作者根據(jù)汽車駕駛視頻中類似物體的運動情況，對源圖像中描繪的物體進行“動畫化”。

沒有直接監(jiān)督，而是采用了一種自監(jiān)督策略，該策略的靈感來源于Monkey-Net。

注：Monkey-Net是通過深度運動遷移使任意物體動畫化。

對于訓練，作者使用包含相同對象類別的大量視頻序列集合。模型被訓練來通過組合單幀和學習的視頻中運動的潛在表示來重建訓練視頻。觀察從同一視頻中提取的幀對，模型學習將運動編碼為特定的關鍵點位移和局部仿射變換的組合。

在測試時，將模型應用于源圖像和驅(qū)動視頻的每一幀的幀對，并對源對象進行圖像“動畫”。運動估計模塊的作用是估計一個密集的運動場（dense motion field），該密集運動場隨后被用來調(diào)整計算特征圖與物體姿勢。

另外，作者采用的是后向光流，因為它可以有效地實現(xiàn)雙線采樣。運動估計模塊沒有直接進行預測，而是分兩步進行，在第一步中，從稀疏軌跡集近似兩個變換，其中兩個變換是通過使用自監(jiān)督方式學習關鍵點獲得的。視頻和圖像中的關鍵點由編碼器-解碼器網(wǎng)絡分別預測。

另外，稀疏運動表示非常適合于動畫，因為在測試時，可以使用驅(qū)動視頻中的關鍵點軌跡來移動源圖像的關鍵點。使用局部仿射變換的好處是能夠?qū)γ總€關鍵點附近的運動進行建模，與僅使用關鍵點置換相比，局部仿射變換能夠?qū)Ω蟮淖儞Q族（ larger family of transformations）進行建模。

在第二步中，密集運動網(wǎng)絡結(jié)合局部近似以獲得密集運動場，除了密集的運動場之外，該網(wǎng)絡還輸出遮擋遮罩，該遮擋遮罩指示視頻中的哪些圖像部分可以通過源圖像的扭曲來重建，以及哪些部分應該內(nèi)嵌(即從上下文推斷)。

實驗

作者在四個數(shù)據(jù)集上進行了訓練和測試，結(jié)果顯示與所有實驗相比，一階動畫模型能夠渲染分辨率非常高的視頻。 VoxCeleb 數(shù)據(jù)集、UvA-Nemo 數(shù)據(jù)集、The BAIR robot pushing dataset、作者自己收集的數(shù)據(jù)集。

其中，VoxCeleb 是從YouTube的視頻中提取到的包含1251人共超過10萬條語音的數(shù)據(jù)集。數(shù)據(jù)集是性別平衡的，其中男性為55%.。說話人涵蓋不同的種族，口音，職業(yè)和年齡。UvA-Nemo 是一個由1240個視頻組成的人臉分析數(shù)據(jù)集。作者使用1116個視頻進行訓練，124個視頻進行評估。

伯克利的這個，包含了由Sawyer機器人手臂在桌子上推著不同物體的視頻收集的視頻。它包括42880個訓練視頻和128個測試視頻。每個視頻都有30幀長，分辨率為256×256。作者自己收集的數(shù)據(jù)是YouTube上的285個關于太極功夫的視頻，其中252個用于訓練，28個用于測試。在訓練之前對視頻進行了預處理，分割之后訓練集為3049個訓練視頻，285個測試視頻。

DeepFake 新高度：一階運動模型讓“萬物皆可動”