騰訊AI Lab現(xiàn)場揭秘：實時視頻風(fēng)格轉(zhuǎn)換是如何生成的｜SIGGRAPH Asia 2016 （附PPT）

本文作者：宗仁

2016-12-07 20:20

導(dǎo)語：根據(jù)你提供的圖片內(nèi)容和想要的風(fēng)格重新“生成”一張新的圖片，是今年很多濾鏡粉玩過的一個爆火游戲，但如何把這個“游戲”遷移到視頻上？

根據(jù)你提供的圖片內(nèi)容和想要的風(fēng)格重新“生成”一張新的圖片，是今年很多濾鏡粉玩過的一個爆火游戲，但如何把這個“游戲”遷移到視頻上，并實現(xiàn)高質(zhì)量的視頻風(fēng)格“生成”對于很多人來說并不熟悉，因為市面上這個功能大規(guī)模推向濾鏡粉的廠商還并不多，粉絲們對這個技術(shù)背后的算法也不甚了解。不過在今年Siggraph Asia 2016上的參展商演講中，騰訊AI Lab聯(lián)合清華大學(xué)實驗室的團(tuán)隊，就為我們現(xiàn)場講解了關(guān)于視頻風(fēng)格變換的相關(guān)內(nèi)容。

演講者，黃浩智，騰訊AI Lab。

演講提綱

迭代圖像風(fēng)格轉(zhuǎn)換
前向圖像風(fēng)格轉(zhuǎn)換
迭代視頻風(fēng)格轉(zhuǎn)換
前向視頻風(fēng)格轉(zhuǎn)換
小結(jié)

騰訊AI Lab現(xiàn)場揭秘：實時視頻風(fēng)格轉(zhuǎn)換是如何生成的｜SIGGRAPH Asia 2016 （附PPT）

在這之前，圖片風(fēng)格轉(zhuǎn)換的問題，傳統(tǒng)的方法：是基于手工提取特征來生成一張新的圖片。而目前比較流行的使用深度學(xué)習(xí)的方法：是基于深度網(wǎng)絡(luò)學(xué)習(xí)的特征來生成一張新的圖片。

騰訊AI Lab現(xiàn)場揭秘：實時視頻風(fēng)格轉(zhuǎn)換是如何生成的｜SIGGRAPH Asia 2016 （附PPT）

一. 關(guān)于迭代的圖像風(fēng)格轉(zhuǎn)換

今年的CVPR有一篇 oral文章 “Image Style Transfer Using Convolutional Neural Networks”，當(dāng)時引起了學(xué)術(shù)界的廣泛關(guān)注，講的就是關(guān)于迭代的圖像風(fēng)格變換問題。

然后我們具體去做的時候，一般是這樣的：

先輸入一張隨機(jī)（噪聲）圖，經(jīng)過VGG—19網(wǎng)絡(luò)，可以提取出我們預(yù)先定義好的content和style特征。
我們將content特征跟用戶提供的輸入圖像（content image）去比對，將style特征跟另外一張預(yù)先設(shè)定好的風(fēng)格圖像（譬如某位大師的一幅油畫）去比對，有了內(nèi)容的差異和風(fēng)格的差異后。
我們一步步通過一個叫back propagation（反向傳播）的過程，從網(wǎng)絡(luò)的高層往回傳, 一直傳到我們輸入的那張隨機(jī)噪聲圖，我們就可以去修改這張隨機(jī)噪聲圖，使得它跟我們指定的content特征和style特征越來越像。
所以它最后在content 特征上接近于用戶輸入的那張，在style特征上接近于另一張預(yù)先設(shè)定好的油畫作品等。

如下圖所示，先用一個VGG—19圖形識別和卷積網(wǎng)絡(luò)提取輸入圖片的content和style特征。(這些提取的特征主要用于后面重構(gòu)隨機(jī)輸入得到的結(jié)果)

騰訊AI Lab現(xiàn)場揭秘：實時視頻風(fēng)格轉(zhuǎn)換是如何生成的｜SIGGRAPH Asia 2016 （附PPT）

當(dāng)然，實際執(zhí)行圖片風(fēng)格轉(zhuǎn)換的時候，還要考慮產(chǎn)生內(nèi)容損失和風(fēng)格損失

關(guān)于內(nèi)容表示（CNN特征圖像）: 深度神經(jīng)網(wǎng)絡(luò)已經(jīng)可以抽取高層次（抽象）的信息表征了。

騰訊AI Lab現(xiàn)場揭秘：實時視頻風(fēng)格轉(zhuǎn)換是如何生成的｜SIGGRAPH Asia 2016 （附PPT）

下面是內(nèi)容損失函數(shù)

騰訊AI Lab現(xiàn)場揭秘：實時視頻風(fēng)格轉(zhuǎn)換是如何生成的｜SIGGRAPH Asia 2016 （附PPT）

關(guān)于風(fēng)格表示

騰訊AI Lab現(xiàn)場揭秘：實時視頻風(fēng)格轉(zhuǎn)換是如何生成的｜SIGGRAPH Asia 2016 （附PPT）

下面是風(fēng)格損失函數(shù)

騰訊AI Lab現(xiàn)場揭秘：實時視頻風(fēng)格轉(zhuǎn)換是如何生成的｜SIGGRAPH Asia 2016 （附PPT）

下圖是流程的展示。

——一開始輸入的隨機(jī)噪聲圖，經(jīng)過中間的（VGG 19）網(wǎng)絡(luò)，在不同的層次分別提取的內(nèi)容和風(fēng)格特征，跟用戶輸入原圖的內(nèi)容進(jìn)行比較，跟預(yù)先設(shè)定的另一張圖（比如大師的某張油畫圖）的風(fēng)格進(jìn)行比較，然后計算出損失函數(shù)Ltotal。

騰訊AI Lab現(xiàn)場揭秘：實時視頻風(fēng)格轉(zhuǎn)換是如何生成的｜SIGGRAPH Asia 2016 （附PPT）

具體的風(fēng)格變換算法中產(chǎn)生的總的損失＝α*內(nèi)容損失＋ β＊風(fēng)格損失。

騰訊AI Lab現(xiàn)場揭秘：實時視頻風(fēng)格轉(zhuǎn)換是如何生成的｜SIGGRAPH Asia 2016 （附PPT）

但迭代圖像風(fēng)格變換自有它的缺陷之處。

沒有訓(xùn)練和自學(xué)習(xí)的過程；
對每一張新的輸入圖都要重復(fù)它迭代更新的過程；
速度慢。

騰訊AI Lab現(xiàn)場揭秘：實時視頻風(fēng)格轉(zhuǎn)換是如何生成的｜SIGGRAPH Asia 2016 （附PPT）

二. 關(guān)于前向圖片風(fēng)格轉(zhuǎn)換

斯坦福大學(xué)的 Justin Johnson曾經(jīng)提出一種使用前向網(wǎng)絡(luò)完成圖像風(fēng)格變換的方法，發(fā)表于ECCV 2016。

騰訊AI Lab現(xiàn)場揭秘：實時視頻風(fēng)格轉(zhuǎn)換是如何生成的｜SIGGRAPH Asia 2016 （附PPT）

在其實踐時，采用的圖片轉(zhuǎn)換網(wǎng)絡(luò)層具體見下：

2個卷積網(wǎng)絡(luò)層進(jìn)行下采樣；
中間5個殘差網(wǎng)絡(luò)層；
2個反卷積網(wǎng)絡(luò)層進(jìn)行上采樣。

騰訊AI Lab現(xiàn)場揭秘：實時視頻風(fēng)格轉(zhuǎn)換是如何生成的｜SIGGRAPH Asia 2016 （附PPT）

損失函數(shù)包下面三部分

騰訊AI Lab現(xiàn)場揭秘：實時視頻風(fēng)格轉(zhuǎn)換是如何生成的｜SIGGRAPH Asia 2016 （附PPT）

最后的實踐結(jié)果如下，質(zhì)量非常不錯。

騰訊AI Lab現(xiàn)場揭秘：實時視頻風(fēng)格轉(zhuǎn)換是如何生成的｜SIGGRAPH Asia 2016 （附PPT）

總的來說，使用前向圖片風(fēng)格轉(zhuǎn)換

不僅可以保證實時性；
還可以使得（前向式）生成和迭代式在視覺上近似的結(jié)果。

騰訊AI Lab現(xiàn)場揭秘：實時視頻風(fēng)格轉(zhuǎn)換是如何生成的｜SIGGRAPH Asia 2016 （附PPT）

三. 關(guān)于迭代視頻風(fēng)格轉(zhuǎn)換

將風(fēng)格變換技術(shù)由圖像向視頻拓展最為直接的方式就是使用圖像風(fēng)格變換的技術(shù)逐幀完成視頻的變換，但是這樣很難保證視頻幀間風(fēng)格的一致性。為此 Ruder 等人提出了一種迭代式的做法 [Ruder, Manuel, Alexey Dosovitskiy, and Thomas Brox. "Artistic style transfer for videos." arXiv preprint arXiv:1604.08610 (2016)]，通過兩幀像素之間的對應(yīng)關(guān)系信息來約束視頻的風(fēng)格變換。

不過，迭代式（Ruder et al.）的方法來處理視頻的風(fēng)格變換考慮了時間域的一致性，但是處理速度非常慢，處理一幀視頻大約需要 3 分鐘。

騰訊AI Lab現(xiàn)場揭秘：實時視頻風(fēng)格轉(zhuǎn)換是如何生成的｜SIGGRAPH Asia 2016 （附PPT）