0
本文作者: 汪思穎 | 2019-06-09 17:34 |
雷鋒網(wǎng) AI 科技評(píng)論按,日前,美圖影像實(shí)驗(yàn)室(MTlab, Meitu Imaging & Vision Lab)推出「10000 點(diǎn) 3D 人臉關(guān)鍵點(diǎn)技術(shù)」——利用深度學(xué)習(xí)技術(shù)實(shí)現(xiàn) 10000 點(diǎn)的人臉五官精細(xì)定位,該項(xiàng)技術(shù)可以在 VR 游戲中構(gòu)建玩家人臉的 3D 游戲角色并且驅(qū)動(dòng),也可以應(yīng)用于虛擬試妝試戴和醫(yī)療美容領(lǐng)域等。本文為美圖影像實(shí)驗(yàn)室 MTlab 基于該技術(shù)為雷鋒網(wǎng) AI 科技評(píng)論提供的獨(dú)家解讀。正文如下:
簡(jiǎn)介
在計(jì)算機(jī)視覺(jué)領(lǐng)域,人臉關(guān)鍵點(diǎn)定位在視覺(jué)和圖形中具有廣泛的應(yīng)用,包括面部跟蹤、情感識(shí)別以及與多媒體相關(guān)的交互式圖像視頻編輯任務(wù)。目前行業(yè)內(nèi)常用的是 2D 人臉關(guān)鍵點(diǎn)技術(shù),然而,2D 人臉點(diǎn)定位技術(shù)由于無(wú)法獲取深度信息,不能分析用戶的立體特征,比如蘋果肌,法令紋等更加細(xì)致的用戶信息,也無(wú)法分析出用戶當(dāng)前的姿態(tài)和表情。為了能夠給用戶的自拍添加動(dòng)畫效果,如面具、眼鏡、3D 帽子等物品,并且提供更加智能的 AI 美顏美型效果,需要一套特殊的感知技術(shù),實(shí)時(shí)跟蹤每個(gè)用戶的微笑、眨眼等表面幾何特征。因此,美圖影像實(shí)驗(yàn)室 MTlab 研發(fā)人員研發(fā)了 10000 點(diǎn)人臉關(guān)鍵點(diǎn)技術(shù),將面部圖像提升到三維立體空間,將用戶的姿態(tài)、臉型以及表情分解開(kāi)來(lái),實(shí)時(shí)跟蹤用戶當(dāng)前的姿態(tài)、表情、五官特征改變后的面部形態(tài),調(diào)整后的圖像更加自然美觀。
基于 3DMM 的人臉關(guān)鍵點(diǎn)定位方法
1. 三維形變模型 (3DMM)
1999 年,瑞士巴塞爾大學(xué)的科學(xué)家 Blanz 和 Vetter 提出了一種十分具有創(chuàng)新性的方法——三維形變模型 (3DMM)。三維形變模型建立在三維人臉數(shù)據(jù)庫(kù)的基礎(chǔ)上,以人臉形狀和人臉紋理統(tǒng)計(jì)為約束,同時(shí)考慮了人臉的姿態(tài)和光照因素的影響,生成的人臉三維模型精度較高。
3DMM
如上圖所示 3DMM 的主要思想是:一張人臉模型可以由已有的臉部模型進(jìn)行線性組合。也就是說(shuō),可以通過(guò)改變系數(shù),在已有人臉基礎(chǔ)上生成不同人臉。假設(shè)建立 3D 變形的人臉模型由 m 個(gè)人臉模型組成,其中每一個(gè)人臉模型都包含相應(yīng)的臉型和紋理兩種向量,這樣在表示新的 3D 人臉模型時(shí),就可以采用以下方式:
其中表示平均臉部形狀模型,
表示 shape 的 PCA 部分,
表示對(duì)應(yīng)臉型系數(shù)。
Blanz 和 Vetter 提出的 3DMM 雖然解決了人臉變形模型的表達(dá)問(wèn)題,但其在人臉表情表達(dá)上依然存在明顯不足。2014 年時(shí),F(xiàn)acewareHouse 這篇論文提出并公開(kāi)了一個(gè)人臉表情數(shù)據(jù)庫(kù),使得 3DMM 有了更強(qiáng)的表現(xiàn)力,人臉模型的線性表示可以擴(kuò)充為:
在原來(lái)的臉型數(shù)據(jù)基礎(chǔ)上,增加了表情,
表示對(duì)應(yīng)的表情系數(shù),系數(shù)讓實(shí)時(shí)表情 Tracking 成為了可能。
2. 美圖 MT3DMM 模型
為了能夠更加精細(xì)地刻畫不同人臉的 3D 形狀,并且適用于更廣泛的人種,MTlab 的研發(fā)團(tuán)隊(duì)采用先進(jìn)的 3D 掃描設(shè)備采集了 1200 個(gè)不同人物、每人 18 種表情的 3D 人臉數(shù)據(jù),其中男女各半,多為中國(guó)人,年齡分布在 12~60 歲,模型總數(shù)超過(guò) 20000 個(gè),基于這些數(shù)據(jù),建立了基于深度神經(jīng)網(wǎng)絡(luò)的 MT3DMM 模型。相比于目前主流的 3DMM 模型,MT3DMM 具有表情豐富,模型精度高,并且符合亞洲人臉?lè)植嫉奶攸c(diǎn),是目前業(yè)界精度最高的 3D 人臉模型之一。
3DMM 模型,代表了一個(gè)平均臉,也同時(shí)包含了與該平均臉的偏差信息。例如,一個(gè)胖臉在一個(gè)瘦臉模型基礎(chǔ)上,通過(guò)調(diào)整五官比例可以得到胖臉模型。利用這種相關(guān)性,計(jì)算機(jī)只需要利用用戶的臉與平均人臉的偏差信息,就能夠生成專屬于用戶的 3D 模型。不僅如此,這些偏差還包括大致的年齡、性別和臉部長(zhǎng)度等參數(shù)。但是,這樣也存在一個(gè)問(wèn)題,世界上的人臉千變?nèi)f化,要將所有人臉與平均人臉的偏差都存儲(chǔ)下來(lái),3DMM 模型需要集成大量面部的信息,然而目前的開(kāi)源模型在模仿不同年齡和種族人臉?lè)矫娴哪芰κ钟邢蕖?/p>
如下圖 BFM 的人臉數(shù)據(jù)基本都是外國(guó)人臉,跟亞洲人臉的數(shù)據(jù)分布存在差異;Facewarehouse 的數(shù)據(jù)主要是亞洲人臉,但是用 Kinect 掃描的模型則存在精度較低的問(wèn)題;SFM 開(kāi)源的數(shù)據(jù)只包含了 6 種表情,并且模型的精度較低,無(wú)法滿足我們的需求;LSFM 數(shù)據(jù)包含了較多的人臉數(shù)據(jù),但是不包含表情,無(wú)法用于用戶表情跟蹤。
BFM 和 SFM 數(shù)據(jù)中的部分?jǐn)?shù)據(jù)
掃描出來(lái)的模型雖然是高精度的模型,但是不包含具體的語(yǔ)義信息。因此,MTlab 的 3D 研發(fā)團(tuán)隊(duì)專門為此開(kāi)發(fā)了一套自動(dòng)注冊(cè)算法,無(wú)需人工進(jìn)行標(biāo)定就可以對(duì)掃描模型進(jìn)行精細(xì)化注冊(cè),如下圖所示:
注冊(cè)流程
模型生成結(jié)果
最終,MTlab 將所有注冊(cè)好的 3D 模型組合成 MT3DMM 數(shù)據(jù)庫(kù),用于 10000 點(diǎn)面部關(guān)鍵點(diǎn)定位。高精度的掃描模型也為開(kāi)發(fā)其它功能提供了更多的可能。
3. 數(shù)據(jù)制作
為了能夠發(fā)揮深度學(xué)習(xí)的大數(shù)據(jù)優(yōu)勢(shì),需要給神經(jīng)網(wǎng)絡(luò)提供大量的數(shù)據(jù),MTlab 研發(fā)人員設(shè)計(jì)了一套高復(fù)雜度的數(shù)據(jù)制作算法,同時(shí)配合高精度的 MT3DMM 模型制作出大量的訓(xùn)練數(shù)據(jù)。相比目前主流的訓(xùn)練數(shù)據(jù)制作方法,MTlab 的訓(xùn)練數(shù)據(jù)可以有效的解耦臉型,表情以及姿態(tài)信息,在進(jìn)行精確的稠密點(diǎn)人臉定位的同時(shí),進(jìn)行 AR 特效以及精準(zhǔn)的人臉表情驅(qū)動(dòng)。
從上面的公式可以將人臉重建的問(wèn)題轉(zhuǎn)化成求,
系數(shù)的問(wèn)題,將我們參數(shù)化的 3D 人臉模型
跟 2D 特征點(diǎn)
進(jìn)行映射后,便可以用下面的公式對(duì)臉部進(jìn)行擬合,具體求解過(guò)程如下:
這里是三維模型投影到二維平面的點(diǎn),P 為正交投影矩陣,R 為旋轉(zhuǎn)矩陣,
為位移矩陣,這樣我們就可以將三維求解問(wèn)題轉(zhuǎn)化成求解下面的能量方程:
這里加了正則化部分,其中是 PCA 系數(shù)(包括形狀系數(shù)
以及表情系數(shù)
),
表示對(duì)應(yīng)的主成分偏差。
目前的 3D 重建算法大多都是將姿態(tài),臉型以及表情參數(shù)一起優(yōu)化,并不能將這三者獨(dú)立開(kāi)來(lái),為了能夠解耦姿態(tài),表情,以及臉型之間的關(guān)系,MTlab 的數(shù)據(jù)包含了一個(gè)人同一姿態(tài)下的不同表情,以及同一表情下不同姿態(tài)的數(shù)據(jù)集,采用 Joint Optimization 策略來(lái)計(jì)算每個(gè)人的臉型,姿態(tài)以及表情參數(shù),得到解耦后的參數(shù)數(shù)據(jù)可以真實(shí)反應(yīng)出當(dāng)前人臉的姿態(tài)信息,臉型信息以及表情信息,極大的豐富了應(yīng)用場(chǎng)景。
4. 神經(jīng)網(wǎng)絡(luò)訓(xùn)練
傳統(tǒng)的 3D 人臉重建算法,不管是單圖重建、多圖重建還是視頻序列幀重建,都需要通過(guò)凸優(yōu)化算法優(yōu)化出所需要的參數(shù),為了能夠讓算法在移動(dòng)端實(shí)時(shí)運(yùn)行,MTlab 研發(fā)人員采用深度神經(jīng)網(wǎng)絡(luò)進(jìn)行 End-to-End 學(xué)習(xí),通過(guò)神經(jīng)網(wǎng)絡(luò)強(qiáng)大的學(xué)習(xí)能力替代了凸優(yōu)化過(guò)程的大量計(jì)算。通過(guò)研究分析目前移動(dòng)端較快的網(wǎng)絡(luò)(SqueezeNet、Shufflenet V2、PeleeNet、MobilenetV2、IGCV3)的特性,MTlab 研發(fā)人員提出了一種適合移動(dòng)端網(wǎng)絡(luò),并且具備低功耗特性的 ThunderNet,配合 MTlab 研發(fā)的 AI 前向引擎和模型量化技術(shù),在美圖 T9 上運(yùn)行幀率達(dá)到 500fps。MT3DMM 神經(jīng)網(wǎng)絡(luò)訓(xùn)練的要點(diǎn)如下:
MT3DMM 整體流程
數(shù)據(jù)增益:為了適應(yīng) In-the-wild 圖像,需要讓算法對(duì)低分辨率、噪聲、遮擋或包含運(yùn)動(dòng)和不同的光照?qǐng)鼍跋戮哂袕?qiáng)魯棒性,MTlab 采用了海量的數(shù)據(jù),并用算法擾動(dòng)模擬了各種真實(shí)環(huán)境下的數(shù)據(jù)進(jìn)行訓(xùn)練。
網(wǎng)絡(luò)結(jié)構(gòu):使用了 MTlab 自研的 ThunderNet 網(wǎng)絡(luò)結(jié)構(gòu),在速度和精度上都超過(guò)了同規(guī)模的快速網(wǎng)絡(luò),包括 SqueezeNet、Shufflenet V2、PeleeNet、MobilenetV2、IGCV3,并具有低功耗的特點(diǎn)。
損失函數(shù):Loss 主要采用了參數(shù) Loss、KeyPoints Loss、3D Vertexes Loss 以及 Texture Loss,并且用相應(yīng)的權(quán)重去串聯(lián)它們,從而使網(wǎng)絡(luò)收斂達(dá)到最佳效果。實(shí)驗(yàn)發(fā)現(xiàn),參數(shù) Loss 可以獲取更加準(zhǔn)確的參數(shù)語(yǔ)意信息,KeyPoints Loss 可以使最終的稠密人臉點(diǎn)貼合人臉五官信息,3D Vertexes Loss 能更好地保留用戶臉部 3D 幾何信息,Texture Loss 則可以幫助網(wǎng)絡(luò)實(shí)現(xiàn)更好的收斂效果。
最終,在得到網(wǎng)絡(luò)輸出的參數(shù)后,MTlab 用 MT3DMM 模型解碼出相應(yīng)的人臉 3D 模型,根據(jù)姿態(tài)以及投影矩陣就可以得到面部稠密人臉點(diǎn)。模型都是經(jīng)過(guò)參數(shù)化后,每一個(gè)點(diǎn)都有其相對(duì)應(yīng)的語(yǔ)義信息,可以通過(guò)修改 3D 模型對(duì)圖像進(jìn)行相應(yīng)的編輯。美圖手機(jī)上光效相機(jī)、個(gè)性化美顏檔案、3D 修容記憶、美顏立體提升、3D 姿態(tài)調(diào)整、App 萌拍動(dòng)效、美妝相機(jī)萬(wàn)圣節(jié)妝容、彩妝、Avatar 驅(qū)動(dòng)等功能都采用了該項(xiàng)技術(shù)。
參考文獻(xiàn)
V. Blanz and T. Vetter. A morphable model for the synthesis of 3D faces. In Proceedings of the 26th annual conference on Computer graphics and interactive techniques, pages 187– 194, 1999.
Cao C, Weng Y, Zhou S, et al. Facewarehouse: A 3d facial expression database for visual computing[J]. IEEE Transactions on Visualization and Computer Graphics, 2014, 20(3): 413-425
Huber P, Hu G, Tena R, et al. A multiresolution 3d morphable face model and fitting framework[C]//Proceedings of the 11th International Joint Conference on Computer Vision, Imaging and Computer Graphics Theory and Applications. 2016.
Booth J, Roussos A, Zafeiriou S, et al. A 3d morphable model learnt from 10,000 faces[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2016: 5543-5552.
Iandola F N, Han S, Moskewicz M W, et al. SqueezeNet: AlexNet-level accuracy with 50x fewer parameters and< 0.5 MB model size[J]. arXiv preprint arXiv:1602.07360, 2016.
Ma N, Zhang X, Zheng H T, et al. Shufflenet v2: Practical guidelines for efficient cnn architecture design[C]//Proceedings of the European Conference on Computer Vision (ECCV). 2018: 116-131.
Wang R J, Li X, Ling C X. Pelee: A real-time object detection system on mobile devices[C]//Advances in Neural Information Processing Systems. 2018: 1963-1972.
Sandler M, Howard A, Zhu M, et al. Mobilenetv2: Inverted residuals and linear bottlenecks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018: 4510-4520.
Sun K, Li M, Liu D, et al. Igcv3: Interleaved low-rank group convolutions for efficient deep neural networks[J]. arXiv preprint arXiv:1806.00178, 2018.
雷峰網(wǎng)特約稿件,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。