1
今天一大早就被網(wǎng)友們安利了一個熱門AI項(xiàng)目。
聽說,它可以帶你周游世界,還能讓AngelaBaby多拍幾部電視劇。
這是啥情況??
仔細(xì)一了解,原來是一款A(yù)I視頻摳圖神器,一大早就沖上了GitHub熱榜。
官方介紹說,這個AI神器可以讓視頻處理變得非常簡單且專業(yè),不用「綠幕」,也能達(dá)到逼真、毫無違和感的合成效果。
果然,打工人的“周游世界”只有AI能實(shí)現(xiàn)了[淚目]。
其實(shí),視頻摳圖AI已經(jīng)出現(xiàn)過不少,但這一款確實(shí)讓人覺得很驚艷。先來看下它演示Demo。
你能看出公路背景和大海背景的視頻,哪一個是AI合成的嗎?
連撩起的頭發(fā)都看不出一點(diǎn)破綻。
而且就算瘋狂跳舞也沒有影響合成效果。
再來看下它背后的摳圖細(xì)節(jié),不僅精確到了頭發(fā),甚至還包括浮起的碎發(fā)......
動態(tài)效果也是如此,瘋狂甩頭也能實(shí)時捕捉細(xì)節(jié)。
這項(xiàng)超強(qiáng)AI摳圖神器來自香港城市大學(xué)和商湯科技聯(lián)合研究團(tuán)隊(duì),論文一作還是一位在讀博士生張漢科。
接下來,我們來看下它背后的技術(shù)原理。
關(guān)鍵在于,這個AI采用了一種輕量級的目標(biāo)分解網(wǎng)絡(luò)MODNet( Matting Objective Decomposition Network),它可以從不同背景的單個輸入圖像中平滑地處理動態(tài)人像。
簡單的說,其功能就是視頻人像摳圖。
我們知道,一些影視作品尤其是古裝劇,必須要對人物的背景進(jìn)行后期處理。為了達(dá)到逼真的合成效果,拍攝時一般都會采用「綠幕」做背景。因?yàn)榫G色屏幕可以使高質(zhì)量的Alpha 蒙版實(shí)時提取圖像或視頻中的人物。
另外,如果沒有綠屏的話,通常采用的技術(shù)手段是光照處理法,即使預(yù)定義的Trimap作為自然光照算法輸入。這種方法會粗略地生成三位圖:確定的(不透明)前景,確定的(透明)背景以及介于兩者之間的未知(不透明)區(qū)域。
如果使用人工注釋三位圖不僅昂貴,而且深度相機(jī)可能會導(dǎo)致精度下降。因此,針對以上不足,研究人員提出了目標(biāo)分解網(wǎng)絡(luò)MODNet。
如圖所示,MODNet由三個相互依賴的分支S、D和F構(gòu)成。它們分別通過一個低分辨率分支來預(yù)測人類語義(SP)、一個高分辨率分支來聚焦縱向的邊界細(xì)節(jié)(DP),最后一個融合分支來預(yù)測Alpha Matte (αp)。
具體如下:
語義估計(jì)(Semantic Estimation):采用MobileNetV2[35]架構(gòu),通過編碼器(即MODNet的低分辨率分支)來提取高層語義。
細(xì)節(jié)預(yù)測(Detail Prediction):處理前景肖像周圍的過渡區(qū)域,以I,S(I)和S的低層特征作為輸入。同時對它的卷積層數(shù)、信道數(shù)、輸入分辨率三個方面進(jìn)行了優(yōu)化。
語義細(xì)節(jié)融合(Semantic-Detail Fusion):一個融合了語義和細(xì)節(jié)的CNN模塊,它向上采樣S(I)以使其形狀與D(I,S(I))相之相匹配,再將S(I)和D(I,S(I))連接起來預(yù)測最終αp。
另外,基于以上底層框架,該研究還提出了一種自監(jiān)督策略SOC(Sub-Objectives Consistency)和幀延遲處理方法OFD(One-Frame Delay )。
其中,SOC策略可以保證MODNet架構(gòu)在處理未標(biāo)注數(shù)據(jù)時,讓輸出的子目標(biāo)之間具有一致性;OFD方法在執(zhí)行人像摳像視頻任務(wù)時,可以在平滑視頻序列中預(yù)測Alpha遮罩。如下圖:
在開展實(shí)驗(yàn)評估之前,研究人員創(chuàng)建了一個攝影人像基準(zhǔn)數(shù)據(jù)集PPM-100(Photographic Portrait Matting)。
它包含了100幅不同背景的已精細(xì)注釋的肖像圖像。為了保證樣本的多樣性,PPM-100還被定義了幾個分類規(guī)則來平衡樣本類型,比如是否包括整個人體;圖像背景是否模糊;是否持有其他物體。如圖:
PPM-100中的樣圖具有豐富的背景和人物姿勢。因此可以被看做一個較為全面的基準(zhǔn)。
那么我們來看下實(shí)驗(yàn)結(jié)果:
圖中顯示,MODNet在MSE(均方誤差)和MAD(平均值)上都優(yōu)于其他無Trimap的方法。雖然它的性能不如采用Trimap的DIM,但如果將MODNet修改為基于Trimap的方法—即以Trimap作為輸入,它的性能會優(yōu)于基于Trimap的DIM,這也再次表明顯示MODNet的結(jié)構(gòu)體系具有優(yōu)越性。
此外,研究人員還進(jìn)一步證明了MODNet在模型大小和執(zhí)行效率方面的優(yōu)勢。
其中,模型大小通過參數(shù)總數(shù)來衡量,執(zhí)行效率通過NVIDIA GTX1080 Ti GPU上超過PPM-100的平均參考時間來反映(輸入圖像被裁剪為512×512)。結(jié)果如圖:
上圖顯示,MODNet的推理時間為15.8ms(63fps),是FDMPA(31fps)的兩倍。雖然MODNet的參數(shù)量比FDMPA稍多,但性能明顯更好。
需要注意的是,較少的參數(shù)并不意味著更快的推理速度,因?yàn)槟P涂赡苡休^大的特征映射或耗時機(jī)制,比如,注意力機(jī)制(Attention Mechanisms)。
總之,MODNet提出了一個簡單、快速且有效實(shí)時人像摳圖處理方法。該方法僅以RGB圖像為輸入,實(shí)現(xiàn)了場景變化下Alpha 蒙版預(yù)測。此外,由于所提出的SOC和OFD,MODNet在實(shí)際應(yīng)用中受到的域轉(zhuǎn)移問題影響也較小。
不過遺憾的是,該方法不能處理復(fù)雜的服裝和模糊的運(yùn)動視頻,因?yàn)檫@些內(nèi)容不涵蓋在訓(xùn)練數(shù)據(jù)集內(nèi)。下一階段,研究人員會嘗試通過附加子目標(biāo)(例如光流估計(jì))的方法來解決運(yùn)動模糊下的視頻摳圖問題。
更多論文內(nèi)容可參見:https://arxiv.org/pdf/2011.11961.pdf
引用鏈接:
https://www.youtube.com/watch?v=PqJ3BRHX3Lc&feature=youtu.be
https://github.com/ZHKKKe/MODNet
https://www.reddit.com/r/MachineLearning/comments/k1sttd/r_do_we_really_need_green_screens_for_highquality/
雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。