0
本文作者: 楊鯉萍 | 2019-10-09 14:51 |
雷鋒網(wǎng) AI 開(kāi)發(fā)者:近日,持續(xù) 3 個(gè)多月的阿里 2019 優(yōu)酷視頻增強(qiáng)和超分辨率挑戰(zhàn)賽終于落下了帷幕,最終,來(lái)自中國(guó)科學(xué)技術(shù)大學(xué)智能媒體計(jì)算實(shí)驗(yàn)室的研三學(xué)生陳嘉樂(lè)、單超煒,通過(guò)對(duì)當(dāng)下最先進(jìn) EDVR 方案的視頻感知能力、時(shí)序信息及特征表達(dá)三大內(nèi)容進(jìn)行優(yōu)化與改進(jìn),一舉奪得桂冠;并向我們公開(kāi)了詳細(xì)的冠軍方案解讀,雷鋒網(wǎng) AI 開(kāi)發(fā)者將其整理編輯如下。
視頻增強(qiáng)和超分是計(jì)算機(jī)視覺(jué)領(lǐng)域的核心算法之一,目的是恢復(fù)降質(zhì)視頻本身的內(nèi)容,提高視頻的清晰度。該技術(shù)在工業(yè)界有著重要的實(shí)用意義,并對(duì)于早期膠片視頻的質(zhì)量和清晰度的提升有著重大的意義。
本次大賽「阿里巴巴優(yōu)酷視頻增強(qiáng)和超分辨率挑戰(zhàn)賽」由優(yōu)酷主辦,面向全社會(huì)開(kāi)放,參賽隊(duì)伍包括:個(gè)人、高等院校、科研單位、企業(yè)、創(chuàng)客團(tuán)隊(duì)等共計(jì) 1514 支,賽程分為初賽、復(fù)賽、決賽三個(gè)階段,設(shè)置獎(jiǎng)金池為 230000 元。
大賽提供了業(yè)界最大、最具廣泛性的數(shù)據(jù)集,包括不同內(nèi)容品類,不同噪聲模型、不同難度等,參賽選手需要通過(guò)訓(xùn)練樣本對(duì)視頻增強(qiáng)和超分模型進(jìn)行建模,對(duì)測(cè)試集中的低分辨率視頻樣本預(yù)測(cè)高分辨率視頻,提交結(jié)果評(píng)分將進(jìn)行實(shí)時(shí)更新。
本次獲得大賽冠軍的團(tuán)隊(duì)來(lái)自中國(guó)科學(xué)技術(shù)大學(xué)智能媒體計(jì)算實(shí)驗(yàn)室(Intelligent Media Computing Lab, IMCL)。
團(tuán)隊(duì)成員包括:陳嘉樂(lè),中國(guó)科學(xué)技術(shù)大學(xué)研三學(xué)生,主要的研究方向是強(qiáng)化學(xué)習(xí)和視覺(jué)計(jì)算,在本次比賽中主導(dǎo)算法設(shè)計(jì)、模型訓(xùn)練調(diào)試的工作;單超煒,中國(guó)科學(xué)技術(shù)大學(xué)研三學(xué)生,主要研究方向是圖像處理和增強(qiáng),負(fù)責(zé)算法設(shè)計(jì)和模型訓(xùn)練。
團(tuán)隊(duì)指導(dǎo)老師包括:中國(guó)科學(xué)技術(shù)大學(xué)教授陳志波、中國(guó)科學(xué)技術(shù)大學(xué)博士劉森以及微軟亞研院高級(jí)研究員譚旭。
根據(jù)數(shù)據(jù)類型分類,目前的超分辨工作分為圖像超分和視頻超分。
圖像超分
圖像超分領(lǐng)域隨著卷積神經(jīng)網(wǎng)絡(luò)的應(yīng)用,不斷有新的網(wǎng)絡(luò)結(jié)構(gòu)取得更優(yōu)的性能,以下 6 種結(jié)構(gòu)是目前圖像超分領(lǐng)域所使用的方法:
殘差結(jié)構(gòu) 目前超分領(lǐng)域普遍認(rèn)為更深的網(wǎng)絡(luò)能夠帶來(lái)更優(yōu)性能,但更深的網(wǎng)絡(luò)也帶來(lái)訓(xùn)練困難的問(wèn)題,殘差結(jié)構(gòu)能夠緩解該問(wèn)題,例如:EDSR;
多分支結(jié)構(gòu) 從增加網(wǎng)絡(luò)的寬度來(lái)提升性能,也是一種增強(qiáng)特征表達(dá)的方式,例如:REDNet;
(以上兩種結(jié)構(gòu)都會(huì)帶來(lái)巨大的參數(shù)量)
循環(huán)結(jié)構(gòu) 利用共享網(wǎng)絡(luò)參數(shù)、循環(huán)遞歸的方式,在減少網(wǎng)絡(luò)參數(shù)的情況下提升性能,例如:DRCN;
漸進(jìn)式結(jié)構(gòu) 把超分辯設(shè)計(jì)成多個(gè)階段的網(wǎng)絡(luò)結(jié)構(gòu),利用逐步增加分辨率的方式,提高超分性能,例如:SCN;
注意力機(jī)制 提高特征的表達(dá)能力,從而提高性能,例如:RCAN、DRLN;
對(duì)抗模型 利用 GAN 的思想生成更符合人眼視覺(jué)評(píng)價(jià)的高分辨率圖片,例如:SRGAN、EnhanceNet、ESRGAN.
視頻超分
視頻超分與圖像超分的區(qū)別主要有兩點(diǎn),包括:
視頻幀對(duì)齊 因?yàn)橐曨l中存在各種運(yùn)動(dòng)信息,所以存在參考幀和目標(biāo)幀的偏差,但超分辯一般需要利用鄰幀跟參考幀做對(duì)齊;
視頻幀融合 視頻中存在運(yùn)動(dòng)模糊和場(chǎng)景切換的問(wèn)題,如何有效融合視頻幀,去除干擾信息,對(duì)最終的結(jié)果也有影響。
而在這兩方面,視頻超分的主要結(jié)構(gòu)有以下幾個(gè)類型:
三維卷積 直接利用 3D 卷積捕捉時(shí)域特征的功能,直接做幀間融合;
循環(huán)結(jié)構(gòu) 可用于提取幀間關(guān)系,融合目標(biāo)幀和參考幀的信息,例如: LSTM 的結(jié)構(gòu)來(lái)做幀間融合;
濾波器預(yù)測(cè) 利用融合后的幀間信息預(yù)測(cè)濾波器參數(shù),再通過(guò)濾波的方式做超分辯,獲得自適應(yīng)的濾波效果;
根據(jù)對(duì)圖像、視頻超分辨相關(guān)特性的分析,本次網(wǎng)絡(luò)結(jié)構(gòu)中,我們選擇了將商湯的 EDVR 方案作為建?;A(chǔ)。該方案提出將對(duì)齊和融合兩個(gè)操作分開(kāi)處理,可增加模型的可解釋性。最終,整個(gè)視頻處理流程分為對(duì)齊,融合,重建三個(gè)部分。
EDVR 視頻超分辨核心
目前,EDVR 主要存在三點(diǎn)問(wèn)題,即感知能力不夠強(qiáng),時(shí)序特征不充分,特征表達(dá)不高效。針對(duì)這幾個(gè)問(wèn)題,我們分別作了對(duì)應(yīng)的優(yōu)化如下。
增強(qiáng)感知能力
EDVR 在做幀間對(duì)齊這個(gè)任務(wù)上提出一個(gè)高效的模塊——多尺度的可變卷積模塊。
可變卷積能夠自適應(yīng)學(xué)習(xí) feature map 中最相關(guān)的特征點(diǎn),即學(xué)習(xí)一個(gè) offset,然后通過(guò) offset 來(lái)利用相關(guān)點(diǎn)做卷積操作;利用多尺度的結(jié)構(gòu)提升了可變卷積的對(duì)齊能力,多尺度的網(wǎng)絡(luò)結(jié)構(gòu)在各個(gè)尺度下完成視頻幀對(duì)齊,然后利用不同尺度下的對(duì)齊信息來(lái)提高對(duì)齊操作的感受野;這個(gè)模塊的性能提升大概在 0.3db 左右。
增強(qiáng)感知能力——多尺度的可變卷積模塊
第二個(gè)優(yōu)化是利用何愷明提出的 Non local neural network。
這個(gè)結(jié)構(gòu)借鑒了 NLP 領(lǐng)域的 self-attention 機(jī)制。例如:輸入是 TCHW 這樣一個(gè)維度,然后通過(guò)矩陣相乘得到一個(gè)全局關(guān)系矩陣 THWxTHW,得到 feature map 中每個(gè)點(diǎn)和其他點(diǎn)的相關(guān)性,從而讓網(wǎng)絡(luò)結(jié)構(gòu)近乎有全局感受野。
增強(qiáng)感知能力——3D Non local
但該結(jié)構(gòu)有一個(gè)缺點(diǎn),特別是在視頻特征上,全局關(guān)系矩陣的維度很高,維度大小為(THW)^2。從而導(dǎo)致參數(shù)量劇增,使得這個(gè)結(jié)構(gòu)無(wú)法承受所有的 3D non local 參數(shù)量。
因此,我們利用了一種 separate non local 的形式來(lái)解決這個(gè)問(wèn)題,分別在空間維度、通道維度、時(shí)間維度做了 self-attention,減少所需參數(shù)量,并增大感受野。在實(shí)驗(yàn)過(guò)程中,這個(gè)模塊帶來(lái)了將近 0.3db 的性能增益。
增強(qiáng)感知能力——separate non local
時(shí)序特征不充分優(yōu)化
在 EDVR 做視頻幀融合的時(shí)候,提出了一種叫 Temporal and Spatial Attention,具體做法是所有幀跟中間幀去優(yōu)化一個(gè) attention map,但這忽略了鄰幀之間的信息。
雖然在前面已經(jīng)做過(guò)對(duì)齊,但這個(gè)過(guò)程很難做到完全準(zhǔn)確,所以幀之間仍然具有一定的時(shí)域信息。
因此我們?cè)谶@部分利用一個(gè) 3D 卷積來(lái)捕獲幀間信息,這個(gè)部分取得了 0.1db 的增益。
時(shí)序特征不充分優(yōu)化——融合模塊
提高特征表達(dá)效率
EDVR 的重建模塊由 40 層的 resblock 堆疊而成,盡管深層網(wǎng)絡(luò)結(jié)構(gòu)增加了跳接結(jié)構(gòu),但依然難以保證訓(xùn)練的高效性,所以我們利用了一種 channel attention 的機(jī)制來(lái)處理這個(gè)問(wèn)題。
channel attention 為 feature map 的每一個(gè)通道分配一個(gè)權(quán)重,從而讓網(wǎng)絡(luò)去關(guān)注特征中對(duì)超分更有信息量的部分。具體做法是利用 average pooling 和全連接結(jié)構(gòu)來(lái)學(xué)習(xí)這個(gè)通道權(quán)重,再乘回原來(lái)的 feature map。這一優(yōu)化使得該方法的性能提高了 0.23db。
提高特征表達(dá)效率——channel attention
我們?cè)谇?800 個(gè)視頻上訓(xùn)練,在 800-849 這些視頻上抽幀測(cè)試,結(jié)果如下圖所示。其中 base 是指該網(wǎng)絡(luò)使用了 20 層的重建模塊,large 是使用了 40 層的重建模塊。
Base 模型下各個(gè)模塊的性能增益分析
結(jié)果顯示,separate non local 模塊在參數(shù)量和 flops 增加不大的情況下,性能提升了近 0.3db;3D 卷積模塊帶來(lái)了 0.1db 的性能增益,channel attention 模塊帶來(lái)了 0.23db 的性能增益,所有模塊合計(jì)共獲得 0.4db 的性能增益。
Large 模型下各個(gè)模塊的性能增益分析
上圖則顯示了 large 模型下的實(shí)驗(yàn)結(jié)果??梢钥吹剑琫dvr large model 性能是 35.75db,而當(dāng)我們使用一個(gè) 20 層的 base model 就能夠超過(guò)該 large model 的性能,并且參數(shù)量和 flops 都消耗更少。
如果把模型再加到大模型,最終模型可得到 35.97db 的 PSNR,這與原始 EDVR base model 比較,提高了 0.1db 的性能增益,但同時(shí)模型的參數(shù)量和 flops 將會(huì)大幅度增加。這部分的增益性價(jià)比不高,也表明了我們的結(jié)構(gòu)更有利于在有限參數(shù)下獲得更好的性能。
而在可視化上,我們的結(jié)構(gòu)和 EDVR 的對(duì)比,該網(wǎng)絡(luò)在一些文字的細(xì)節(jié)恢復(fù)上效果更好。
可視化實(shí)驗(yàn)結(jié)果對(duì)比
我們的方法主要有三個(gè)創(chuàng)新點(diǎn):
利用 separate non local 提高了網(wǎng)絡(luò)感受野,增強(qiáng)了感知能力,最終實(shí)現(xiàn)利用小模型獲得大模型的性能,提高性能的同時(shí)也降低了訓(xùn)練難度;
利用 3D 卷積的方式捕獲幀間信息,提高了特征時(shí)序信息的完整度;
利用 channel attention 提高了特征的表達(dá)能力效率的同時(shí),增大了模型的性能增益;
目前,該方法的優(yōu)點(diǎn)是在相同性能下,模型使用的網(wǎng)絡(luò)參數(shù)更少,訓(xùn)練更簡(jiǎn)單;缺點(diǎn)則是由于模型未能去掉 EDVR 中的可變卷積,這一結(jié)構(gòu)存在訓(xùn)練不穩(wěn)定性的問(wèn)題,這也是我們未來(lái)進(jìn)一步優(yōu)化的方向。另外,目前這一模型依然會(huì)存在泛化能力問(wèn)題,如何在退化模型未知的情況下獲得更好的超分效果,這可能是未來(lái)超分領(lǐng)域一個(gè)值得深入研究的問(wèn)題。
雷鋒網(wǎng) AI 開(kāi)發(fā)者
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。