中科大研三學(xué)子巧改 EDVR 方案，摘下優(yōu)酷視頻增強(qiáng)和超分挑戰(zhàn)賽桂冠！冠軍方案全解讀

本文作者：楊鯉萍

2019-10-09 14:51

導(dǎo)語(yǔ)： EDVR 方案增強(qiáng)版

雷鋒網(wǎng) AI 開發(fā)者：近日，持續(xù) 3 個(gè)多月的阿里 2019 優(yōu)酷視頻增強(qiáng)和超分辨率挑戰(zhàn)賽終于落下了帷幕，最終，來(lái)自中國(guó)科學(xué)技術(shù)大學(xué)智能媒體計(jì)算實(shí)驗(yàn)室的研三學(xué)生陳嘉樂、單超煒，通過對(duì)當(dāng)下最先進(jìn) EDVR 方案的視頻感知能力、時(shí)序信息及特征表達(dá)三大內(nèi)容進(jìn)行優(yōu)化與改進(jìn)，一舉奪得桂冠；并向我們公開了詳細(xì)的冠軍方案解讀，雷鋒網(wǎng) AI 開發(fā)者將其整理編輯如下。

大賽背景簡(jiǎn)介

視頻增強(qiáng)和超分是計(jì)算機(jī)視覺領(lǐng)域的核心算法之一，目的是恢復(fù)降質(zhì)視頻本身的內(nèi)容，提高視頻的清晰度。該技術(shù)在工業(yè)界有著重要的實(shí)用意義，并對(duì)于早期膠片視頻的質(zhì)量和清晰度的提升有著重大的意義。

本次大賽「阿里巴巴優(yōu)酷視頻增強(qiáng)和超分辨率挑戰(zhàn)賽」由優(yōu)酷主辦，面向全社會(huì)開放，參賽隊(duì)伍包括：個(gè)人、高等院校、科研單位、企業(yè)、創(chuàng)客團(tuán)隊(duì)等共計(jì) 1514 支，賽程分為初賽、復(fù)賽、決賽三個(gè)階段，設(shè)置獎(jiǎng)金池為 230000 元。

大賽提供了業(yè)界最大、最具廣泛性的數(shù)據(jù)集，包括不同內(nèi)容品類，不同噪聲模型、不同難度等，參賽選手需要通過訓(xùn)練樣本對(duì)視頻增強(qiáng)和超分模型進(jìn)行建模，對(duì)測(cè)試集中的低分辨率視頻樣本預(yù)測(cè)高分辨率視頻，提交結(jié)果評(píng)分將進(jìn)行實(shí)時(shí)更新。

中科大研三學(xué)子巧改 EDVR 方案，摘下優(yōu)酷視頻增強(qiáng)和超分挑戰(zhàn)賽桂冠！冠軍方案全解讀

冠軍團(tuán)隊(duì)資料

本次獲得大賽冠軍的團(tuán)隊(duì)來(lái)自中國(guó)科學(xué)技術(shù)大學(xué)智能媒體計(jì)算實(shí)驗(yàn)室（Intelligent Media Computing Lab, IMCL）。

團(tuán)隊(duì)成員包括：陳嘉樂，中國(guó)科學(xué)技術(shù)大學(xué)研三學(xué)生，主要的研究方向是強(qiáng)化學(xué)習(xí)和視覺計(jì)算，在本次比賽中主導(dǎo)算法設(shè)計(jì)、模型訓(xùn)練調(diào)試的工作；單超煒，中國(guó)科學(xué)技術(shù)大學(xué)研三學(xué)生，主要研究方向是圖像處理和增強(qiáng)，負(fù)責(zé)算法設(shè)計(jì)和模型訓(xùn)練。
團(tuán)隊(duì)指導(dǎo)老師包括：中國(guó)科學(xué)技術(shù)大學(xué)教授陳志波、中國(guó)科學(xué)技術(shù)大學(xué)博士劉森以及微軟亞研院高級(jí)研究員譚旭。

中科大研三學(xué)子巧改 EDVR 方案，摘下優(yōu)酷視頻增強(qiáng)和超分挑戰(zhàn)賽桂冠！冠軍方案全解讀

圖像、視頻超分辨研究現(xiàn)狀

根據(jù)數(shù)據(jù)類型分類，目前的超分辨工作分為圖像超分和視頻超分。

圖像超分

圖像超分領(lǐng)域隨著卷積神經(jīng)網(wǎng)絡(luò)的應(yīng)用，不斷有新的網(wǎng)絡(luò)結(jié)構(gòu)取得更優(yōu)的性能，以下 6 種結(jié)構(gòu)是目前圖像超分領(lǐng)域所使用的方法：

殘差結(jié)構(gòu) 目前超分領(lǐng)域普遍認(rèn)為更深的網(wǎng)絡(luò)能夠帶來(lái)更優(yōu)性能，但更深的網(wǎng)絡(luò)也帶來(lái)訓(xùn)練困難的問題，殘差結(jié)構(gòu)能夠緩解該問題，例如：EDSR；
多分支結(jié)構(gòu) 從增加網(wǎng)絡(luò)的寬度來(lái)提升性能，也是一種增強(qiáng)特征表達(dá)的方式，例如：REDNet；
（以上兩種結(jié)構(gòu)都會(huì)帶來(lái)巨大的參數(shù)量）
循環(huán)結(jié)構(gòu) 利用共享網(wǎng)絡(luò)參數(shù)、循環(huán)遞歸的方式，在減少網(wǎng)絡(luò)參數(shù)的情況下提升性能，例如：DRCN；
漸進(jìn)式結(jié)構(gòu) 把超分辯設(shè)計(jì)成多個(gè)階段的網(wǎng)絡(luò)結(jié)構(gòu)，利用逐步增加分辨率的方式，提高超分性能，例如：SCN；
注意力機(jī)制 提高特征的表達(dá)能力，從而提高性能，例如：RCAN、DRLN；
對(duì)抗模型 利用 GAN 的思想生成更符合人眼視覺評(píng)價(jià)的高分辨率圖片，例如：SRGAN、EnhanceNet、ESRGAN.

視頻超分

視頻超分與圖像超分的區(qū)別主要有兩點(diǎn)，包括：

視頻幀對(duì)齊 因?yàn)橐曨l中存在各種運(yùn)動(dòng)信息，所以存在參考幀和目標(biāo)幀的偏差，但超分辯一般需要利用鄰幀跟參考幀做對(duì)齊;
視頻幀融合 視頻中存在運(yùn)動(dòng)模糊和場(chǎng)景切換的問題，如何有效融合視頻幀，去除干擾信息，對(duì)最終的結(jié)果也有影響。

而在這兩方面，視頻超分的主要結(jié)構(gòu)有以下幾個(gè)類型：

三維卷積 直接利用 3D 卷積捕捉時(shí)域特征的功能，直接做幀間融合；
循環(huán)結(jié)構(gòu) 可用于提取幀間關(guān)系，融合目標(biāo)幀和參考幀的信息，例如： LSTM 的結(jié)構(gòu)來(lái)做幀間融合；
濾波器預(yù)測(cè) 利用融合后的幀間信息預(yù)測(cè)濾波器參數(shù)，再通過濾波的方式做超分辯，獲得自適應(yīng)的濾波效果；

根據(jù)對(duì)圖像、視頻超分辨相關(guān)特性的分析，本次網(wǎng)絡(luò)結(jié)構(gòu)中，我們選擇了將商湯的 EDVR 方案作為建?；A(chǔ)。該方案提出將對(duì)齊和融合兩個(gè)操作分開處理，可增加模型的可解釋性。最終，整個(gè)視頻處理流程分為對(duì)齊，融合，重建三個(gè)部分。

中科大研三學(xué)子巧改 EDVR 方案，摘下優(yōu)酷視頻增強(qiáng)和超分挑戰(zhàn)賽桂冠！冠軍方案全解讀

EDVR 視頻超分辨核心

詳細(xì)方案分析

目前，EDVR 主要存在三點(diǎn)問題，即感知能力不夠強(qiáng)，時(shí)序特征不充分，特征表達(dá)不高效。針對(duì)這幾個(gè)問題，我們分別作了對(duì)應(yīng)的優(yōu)化如下。

增強(qiáng)感知能力

EDVR 在做幀間對(duì)齊這個(gè)任務(wù)上提出一個(gè)高效的模塊——多尺度的可變卷積模塊。

可變卷積能夠自適應(yīng)學(xué)習(xí) feature map 中最相關(guān)的特征點(diǎn)，即學(xué)習(xí)一個(gè) offset，然后通過 offset 來(lái)利用相關(guān)點(diǎn)做卷積操作；利用多尺度的結(jié)構(gòu)提升了可變卷積的對(duì)齊能力，多尺度的網(wǎng)絡(luò)結(jié)構(gòu)在各個(gè)尺度下完成視頻幀對(duì)齊，然后利用不同尺度下的對(duì)齊信息來(lái)提高對(duì)齊操作的感受野；這個(gè)模塊的性能提升大概在 0.3db 左右。

中科大研三學(xué)子巧改 EDVR 方案，摘下優(yōu)酷視頻增強(qiáng)和超分挑戰(zhàn)賽桂冠！冠軍方案全解讀

增強(qiáng)感知能力——多尺度的可變卷積模塊

第二個(gè)優(yōu)化是利用何愷明提出的 Non local neural network。

這個(gè)結(jié)構(gòu)借鑒了 NLP 領(lǐng)域的 self-attention 機(jī)制。例如：輸入是 TCHW 這樣一個(gè)維度，然后通過矩陣相乘得到一個(gè)全局關(guān)系矩陣 THWxTHW，得到 feature map 中每個(gè)點(diǎn)和其他點(diǎn)的相關(guān)性，從而讓網(wǎng)絡(luò)結(jié)構(gòu)近乎有全局感受野。

中科大研三學(xué)子巧改 EDVR 方案，摘下優(yōu)酷視頻增強(qiáng)和超分挑戰(zhàn)賽桂冠！冠軍方案全解讀

增強(qiáng)感知能力——3D Non local

但該結(jié)構(gòu)有一個(gè)缺點(diǎn)，特別是在視頻特征上，全局關(guān)系矩陣的維度很高，維度大小為（THW）^2。從而導(dǎo)致參數(shù)量劇增，使得這個(gè)結(jié)構(gòu)無(wú)法承受所有的 3D non local 參數(shù)量。

因此，我們利用了一種 separate non local 的形式來(lái)解決這個(gè)問題，分別在空間維度、通道維度、時(shí)間維度做了 self-attention，減少所需參數(shù)量，并增大感受野。在實(shí)驗(yàn)過程中，這個(gè)模塊帶來(lái)了將近 0.3db 的性能增益。

中科大研三學(xué)子巧改 EDVR 方案，摘下優(yōu)酷視頻增強(qiáng)和超分挑戰(zhàn)賽桂冠！冠軍方案全解讀

增強(qiáng)感知能力——separate non local

時(shí)序特征不充分優(yōu)化

在 EDVR 做視頻幀融合的時(shí)候，提出了一種叫 Temporal and Spatial Attention，具體做法是所有幀跟中間幀去優(yōu)化一個(gè) attention map，但這忽略了鄰幀之間的信息。

雖然在前面已經(jīng)做過對(duì)齊，但這個(gè)過程很難做到完全準(zhǔn)確，所以幀之間仍然具有一定的時(shí)域信息。

因此我們?cè)谶@部分利用一個(gè) 3D 卷積來(lái)捕獲幀間信息，這個(gè)部分取得了 0.1db 的增益。

中科大研三學(xué)子巧改 EDVR 方案，摘下優(yōu)酷視頻增強(qiáng)和超分挑戰(zhàn)賽桂冠！冠軍方案全解讀

時(shí)序特征不充分優(yōu)化——融合模塊

提高特征表達(dá)效率

EDVR 的重建模塊由 40 層的 resblock 堆疊而成，盡管深層網(wǎng)絡(luò)結(jié)構(gòu)增加了跳接結(jié)構(gòu)，但依然難以保證訓(xùn)練的高效性，所以我們利用了一種 channel attention 的機(jī)制來(lái)處理這個(gè)問題。

channel attention 為 feature map 的每一個(gè)通道分配一個(gè)權(quán)重，從而讓網(wǎng)絡(luò)去關(guān)注特征中對(duì)超分更有信息量的部分。具體做法是利用 average pooling 和全連接結(jié)構(gòu)來(lái)學(xué)習(xí)這個(gè)通道權(quán)重，再乘回原來(lái)的 feature map。這一優(yōu)化使得該方法的性能提高了 0.23db。

中科大研三學(xué)子巧改 EDVR 方案，摘下優(yōu)酷視頻增強(qiáng)和超分挑戰(zhàn)賽桂冠！冠軍方案全解讀

提高特征表達(dá)效率——channel attention

實(shí)驗(yàn)結(jié)果

我們?cè)谇?800 個(gè)視頻上訓(xùn)練，在 800-849 這些視頻上抽幀測(cè)試，結(jié)果如下圖所示。其中 base 是指該網(wǎng)絡(luò)使用了 20 層的重建模塊，large 是使用了 40 層的重建模塊。

中科大研三學(xué)子巧改 EDVR 方案，摘下優(yōu)酷視頻增強(qiáng)和超分挑戰(zhàn)賽桂冠！冠軍方案全解讀

Base 模型下各個(gè)模塊的性能增益分析

結(jié)果顯示，separate non local 模塊在參數(shù)量和 flops 增加不大的情況下，性能提升了近 0.3db；3D 卷積模塊帶來(lái)了 0.1db 的性能增益，channel attention 模塊帶來(lái)了 0.23db 的性能增益，所有模塊合計(jì)共獲得 0.4db 的性能增益。

中科大研三學(xué)子巧改 EDVR 方案，摘下優(yōu)酷視頻增強(qiáng)和超分挑戰(zhàn)賽桂冠！冠軍方案全解讀

Large 模型下各個(gè)模塊的性能增益分析

上圖則顯示了 large 模型下的實(shí)驗(yàn)結(jié)果?？梢钥吹剑琫dvr large model 性能是 35.75db，而當(dāng)我們使用一個(gè) 20 層的 base model 就能夠超過該 large model 的性能，并且參數(shù)量和 flops 都消耗更少。

如果把模型再加到大模型，最終模型可得到 35.97db 的 PSNR，這與原始 EDVR base model 比較，提高了 0.1db 的性能增益，但同時(shí)模型的參數(shù)量和 flops 將會(huì)大幅度增加。這部分的增益性價(jià)比不高，也表明了我們的結(jié)構(gòu)更有利于在有限參數(shù)下獲得更好的性能。

而在可視化上，我們的結(jié)構(gòu)和 EDVR 的對(duì)比，該網(wǎng)絡(luò)在一些文字的細(xì)節(jié)恢復(fù)上效果更好。

中科大研三學(xué)子巧改 EDVR 方案，摘下優(yōu)酷視頻增強(qiáng)和超分挑戰(zhàn)賽桂冠！冠軍方案全解讀

可視化實(shí)驗(yàn)結(jié)果對(duì)比

方案總結(jié)

我們的方法主要有三個(gè)創(chuàng)新點(diǎn)：

利用 separate non local 提高了網(wǎng)絡(luò)感受野，增強(qiáng)了感知能力，最終實(shí)現(xiàn)利用小模型獲得大模型的性能，提高性能的同時(shí)也降低了訓(xùn)練難度；
利用 3D 卷積的方式捕獲幀間信息，提高了特征時(shí)序信息的完整度；
利用 channel attention 提高了特征的表達(dá)能力效率的同時(shí)，增大了模型的性能增益；

目前，該方法的優(yōu)點(diǎn)是在相同性能下，模型使用的網(wǎng)絡(luò)參數(shù)更少，訓(xùn)練更簡(jiǎn)單；缺點(diǎn)則是由于模型未能去掉 EDVR 中的可變卷積，這一結(jié)構(gòu)存在訓(xùn)練不穩(wěn)定性的問題，這也是我們未來(lái)進(jìn)一步優(yōu)化的方向。另外，目前這一模型依然會(huì)存在泛化能力問題，如何在退化模型未知的情況下獲得更好的超分效果，這可能是未來(lái)超分領(lǐng)域一個(gè)值得深入研究的問題。

中科大研三學(xué)子巧改 EDVR 方案，摘下優(yōu)酷視頻增強(qiáng)和超分挑戰(zhàn)賽桂冠！冠軍方案全解讀