2
雷鋒網(wǎng) AI 科技評(píng)論按,快手 APP 是一款面向普通人記錄和分享生活的短視頻社交平臺(tái),據(jù)了解,在 2018 年,快手的日活一直在穩(wěn)步增長(zhǎng)。截至 2018 年 12 月,快手擁有超過(guò) 1.6 億日活用戶,3 億月活用戶,每日上傳短視頻超過(guò) 1500 萬(wàn)條。
擁有如此龐大的用戶數(shù),快手上每天都會(huì)產(chǎn)生很多有意思的內(nèi)容??焓值牧髁坎⒉粫?huì)傾向于紅人,不進(jìn)行流量?jī)A斜,每個(gè)視頻都有曝光的機(jī)會(huì),因此,很多用戶都比較「接地氣」。為了降低拍攝視頻的門(mén)檻,輔助這些「接地氣」的用戶更好地進(jìn)行內(nèi)容生產(chǎn),快手 APP 上使用了大量的 AI 技術(shù)。
目前,快手上的特效有美妝裝飾特效、跳舞機(jī)游戲、控雨特效、AR 特效、染發(fā)特效、背景替換和魔法表情等。這些特效用到了人臉關(guān)鍵點(diǎn)、人體關(guān)鍵點(diǎn)識(shí)別、手勢(shì)識(shí)別、視覺(jué)慣性里程計(jì)、頭發(fā)分割、背景分割等人工智能技術(shù)。
在這些特效里面,「萌面 Kmoji」魔法表情是一個(gè)非常有意思的玩法,它于去年 12 月底上線。通過(guò)該功能,用戶能夠用相機(jī)拍攝生成自己的專(zhuān)屬臉部 AR 虛擬形象,同時(shí)可以捕捉用戶表情,眨眼、張嘴、抬眉毛、吐舌頭等細(xì)微動(dòng)作都能精準(zhǔn)還原。這是短視頻平臺(tái)首次實(shí)現(xiàn)用戶自定義 AR 虛擬形象進(jìn)行拍攝的玩法。
那么,「萌面 Kmoji」魔法表情背后用到了哪些 AI 技術(shù)?快手團(tuán)隊(duì)與我們分享了他們的技術(shù)方案。
萌面 Kmoji 背后的人工智能技術(shù)方案詳解
基于 3D 分析和 2D 信息融合的人臉屬性和表情識(shí)別
個(gè)性化萌面系統(tǒng)的實(shí)現(xiàn)基礎(chǔ)是人臉屬性和表情識(shí)別,這需要 3D 分析以及與 2D 信息的融合。
對(duì)于圖像信息,快手技術(shù)團(tuán)隊(duì)會(huì)利用 3D 重建技術(shù)恢復(fù)出 3D 結(jié)構(gòu),同時(shí)和 2D 信息做有機(jī)的融合,并基于這些重建、分析和融合,做人臉屬性的分析,從各個(gè)維度分析出人臉特征,生成個(gè)性化的虛擬形象。同時(shí)也會(huì)實(shí)時(shí)進(jìn)行人臉的表情分析,用于驅(qū)動(dòng)生成的虛擬形象。
在此基礎(chǔ)之上,快手技術(shù)團(tuán)隊(duì)還會(huì)借助人體進(jìn)行相關(guān)分析,比如頭發(fā),肩部等,為和現(xiàn)實(shí)場(chǎng)景融合打下基礎(chǔ),并通過(guò)自研的手機(jī)端真實(shí)感渲染引擎,將活動(dòng)的個(gè)性化萌面實(shí)時(shí)呈現(xiàn)給用戶。
3D 人臉重建
3D 人臉重建是整個(gè)系統(tǒng)中非常重要的一環(huán)??焓旨夹g(shù)團(tuán)隊(duì)采集了上萬(wàn)人臉三維數(shù)據(jù),包含各種年齡段,人種,臉型等,以及每個(gè)個(gè)體對(duì)應(yīng)的人臉各種表情,從而建立了幾乎涵蓋所有人臉空間和表情空間的三維人臉數(shù)據(jù)庫(kù)。通過(guò)該數(shù)據(jù)庫(kù),可以建模出任意人臉的任意表情??焓旨夹g(shù)團(tuán)隊(duì)研發(fā)了人臉關(guān)鍵點(diǎn)技術(shù),通過(guò)百余個(gè)關(guān)鍵點(diǎn)刻畫(huà)人臉的表情變化,從而重建每個(gè)個(gè)體各種表情下的三維人臉。另一方面,通過(guò)高效的神經(jīng)網(wǎng)絡(luò)技術(shù),保證 3D 人臉重建在性能較低的手機(jī)上也能實(shí)時(shí)運(yùn)行。
人臉屬性感知
在人臉屬性感知方面,快手技術(shù)團(tuán)隊(duì)采用神經(jīng)網(wǎng)絡(luò)感知人臉細(xì)粒度屬性,包含了性別,年齡,膚色,臉型,眼睛,嘴巴細(xì)粒度信息,相比同類(lèi)產(chǎn)品,可做到自動(dòng)的人臉定制化,同時(shí)利用海量人臉數(shù)據(jù),多任務(wù)協(xié)同學(xué)習(xí),捕捉人臉細(xì)微特征。細(xì)粒度屬性的區(qū)分是非常困難的,有些問(wèn)題即使是人眼本身都難以區(qū)分,為此快手技術(shù)團(tuán)隊(duì)做了很多精細(xì)的設(shè)計(jì),融合了分類(lèi)/回歸/分割等技術(shù),提高自動(dòng)捏臉的準(zhǔn)確度。
人臉表情識(shí)別
人臉表情是一種復(fù)雜且細(xì)微的信息,人對(duì)表情的感知尤其靈敏。讓機(jī)器識(shí)別細(xì)微/夸張/靈活/穩(wěn)定的人臉表情信號(hào),單靠圖像信息是難以達(dá)到的。
快手技術(shù)團(tuán)隊(duì)通過(guò) 2D 的 RGB 視覺(jué)信息對(duì)問(wèn)題進(jìn)行建模、求解,獲得人臉關(guān)鍵點(diǎn)以及實(shí)時(shí)重建的三維模型,并把 1D、2D 和 3D 三種不同模態(tài)的信息進(jìn)行建模對(duì)齊,求解出人臉的表情,驅(qū)動(dòng)虛擬形象做各種逼真的動(dòng)作。同時(shí),得益于深度神經(jīng)網(wǎng)絡(luò)模型的量化,通過(guò)壓縮和加速解決手機(jī)性能問(wèn)題,該方案可適配任意機(jī)型。
高質(zhì)量渲染
萌面效果的最終呈現(xiàn)離不開(kāi)渲染,為了獲得高質(zhì)量的渲染,快手技術(shù)團(tuán)隊(duì)采用了先進(jìn)的 PBR 技術(shù),在移動(dòng)端實(shí)現(xiàn)了 PC 游戲級(jí)畫(huà)質(zhì);同時(shí),依托深厚的 AI 技術(shù)積累,萌面能夠根據(jù)外部環(huán)境和用戶的形象特征智能化地選擇最適合用戶的材質(zhì),達(dá)到最優(yōu)的渲染效果。
為了獲得更加真實(shí)的體驗(yàn)效果,快手技術(shù)團(tuán)隊(duì)引入了物理引擎實(shí)現(xiàn)頭發(fā)、布料等柔體的運(yùn)動(dòng)效果。為了使用戶獲得最優(yōu)的體驗(yàn),渲染引擎會(huì)根據(jù)不同機(jī)型選擇合適的渲染質(zhì)量。
移動(dòng)端預(yù)測(cè)模型優(yōu)化
為了讓 AI 模型在手機(jī)端能夠流暢地運(yùn)行,快手技術(shù)團(tuán)隊(duì)主要做了三方面的優(yōu)化:
首先,在圖像預(yù)處理環(huán)節(jié),將圖像各種預(yù)處理操作合并起來(lái),并對(duì)預(yù)處理所涉及到的圖像內(nèi)存進(jìn)行統(tǒng)一分配和回收,以減少內(nèi)存資源的消耗,提高分配使用的效率;
其次,充分利用 NEON 加速以及蘋(píng)果自帶的 accelerate 加速,使得整個(gè)運(yùn)行庫(kù)只占用 2M 的空間;
最后,在保證預(yù)測(cè)精度的前提下,對(duì) AI 模型進(jìn)行局部的 INT8 量化,經(jīng)過(guò)優(yōu)化后,運(yùn)行速度可提高 1 倍以上,同時(shí) AI 預(yù)測(cè)模型的占用空間也壓縮到將近原來(lái)的四分之一。
以上就是「萌面 Kmoji」魔法表情使用的 AI 技術(shù)。除了虛擬形象之外,基于萌面所使用的這套系統(tǒng),快手技術(shù)團(tuán)體還進(jìn)行了擴(kuò)展應(yīng)用:「人像 3D 打光」、「世界上另一個(gè)你」。雷鋒網(wǎng)認(rèn)為,「世界上另一個(gè)你」這個(gè)功能特別有創(chuàng)意,通過(guò)分析用戶的臉部數(shù)據(jù),找出快手用戶中哪些人長(zhǎng)相和當(dāng)前用戶非常像。在快手總部,雷鋒網(wǎng)編輯現(xiàn)場(chǎng)體驗(yàn)了一下,找出來(lái)的人在長(zhǎng)相上和本人在五官、發(fā)型和臉型等方面極其相似,甚至就是「世界上另一個(gè)我」。期待快手在 AI 技術(shù)上繼續(xù)發(fā)力,為我們創(chuàng)造出更多好玩的功能。
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。