0
本文作者: 楊曉凡 | 2019-02-02 19:48 |
雷鋒網(wǎng) AI 科技評(píng)論按:我們生活在一個(gè)三維立體的世界,三維信息的感知也就總是一件有趣的事,三維感知也能帶來(lái)比平面感知帶來(lái)更多信息。全民 AR / VR /立體視覺(jué)的熱潮雖然暫時(shí)過(guò)去了,但這個(gè)領(lǐng)域的學(xué)術(shù)研究和學(xué)術(shù)交流還在持續(xù)進(jìn)行著。
1 月 23 日,學(xué)術(shù)交流活動(dòng)「AI 之眼,智見未來(lái)——3D 傳感&人工智能前沿科技論壇」在深圳南山舉行。論壇由奧比中光承辦,中國(guó)自動(dòng)化學(xué)會(huì)模式識(shí)別與機(jī)器智能專委會(huì)、中國(guó)人工智能學(xué)會(huì)模式識(shí)別專委會(huì)主辦,指導(dǎo)單位是深圳市南山區(qū)科技創(chuàng)新局。論壇邀請(qǐng)了清華大學(xué)、浙江大學(xué)、國(guó)防科技大學(xué)、上海交通大學(xué)、廈門大學(xué)、四川大學(xué)、北京航空航天大學(xué)等知名大學(xué)的7位頂尖專家學(xué)者發(fā)表主題演講,分享他們?cè)谌S計(jì)算機(jī)視覺(jué)領(lǐng)域的最新科研成果,也給參會(huì)的各知名 AI 企業(yè)的技術(shù)骨干、科研機(jī)構(gòu)重要研發(fā)人員、相關(guān)專業(yè)的高校學(xué)生等提供了一個(gè)交流討論的機(jī)會(huì)。
論壇承辦方奧比中光是深圳的 3D 感知技術(shù)企業(yè),提供軟件、硬件的全套解決方案。OPPO Find X 手機(jī)上使用的三維人臉識(shí)別模組就來(lái)自?shī)W比中光。借著承辦論壇的機(jī)會(huì),奧比中光的許多研發(fā)技術(shù)人員在座聆聽并參與討論。多位演講嘉賓在論壇間隙參觀了奧比中光的展廳,而后在演講中提到不同企業(yè)的 3D 感知解決方案間的對(duì)比時(shí)也對(duì)奧比中光表示了認(rèn)可。
雷鋒網(wǎng) AI 科技評(píng)論記者現(xiàn)場(chǎng)參與了全天的學(xué)術(shù)交流活動(dòng),我們把七個(gè)論壇報(bào)告的梗概內(nèi)容介紹如下。
從左至右:肖振中,張漢國(guó),賈偉
奧比中光聯(lián)合創(chuàng)始人 & CTO 肖振中,深圳市南山區(qū)科協(xié)常務(wù)副主席張漢國(guó),中國(guó)自動(dòng)化學(xué)會(huì)模式識(shí)別與機(jī)器智能專委會(huì)副秘書長(zhǎng)、合肥工業(yè)大學(xué)計(jì)算機(jī)與信息學(xué)院副研究員賈偉發(fā)表開幕致辭,預(yù)祝論壇成功。
論壇第一個(gè)學(xué)術(shù)報(bào)告來(lái)自清華大學(xué)自動(dòng)化系副教授、博導(dǎo)劉燁斌。他的報(bào)告題目是「人體動(dòng)態(tài)重建技術(shù)前沿」。報(bào)告對(duì)人體動(dòng)態(tài)重建這一研究課題,圍繞便捷性和實(shí)時(shí)性兩大目標(biāo)的學(xué)術(shù)界相關(guān)研究成果回顧了技術(shù)發(fā)展歷程,做了全方位的技術(shù)介紹。
劉燁斌副教授首先介紹了人體動(dòng)態(tài)重建課題中的一些基本概念。在人體動(dòng)態(tài)重建中,需要捕捉的信息有三維的幾何+紋理,還有它們的運(yùn)動(dòng);運(yùn)動(dòng)包括幾何體表面的運(yùn)動(dòng)和內(nèi)部骨架的運(yùn)動(dòng)。
人體動(dòng)態(tài)重建技術(shù)的應(yīng)用包括:全息通信與全息直播,三維虛擬試衣,智能便捷娛樂(lè)(信息采集重建、便攜發(fā)布),自由視角視頻,實(shí)時(shí)三維運(yùn)動(dòng)捕捉,高精度數(shù)字內(nèi)容記錄與制作等。
人體建模需要的核心技術(shù)是實(shí)時(shí)深度數(shù)據(jù)采集以及深度數(shù)據(jù)處理。
根據(jù)輸入數(shù)據(jù)不同,可以分為單視點(diǎn)人體建模和多視點(diǎn)人體建模兩大共性技術(shù),對(duì)應(yīng)六大基礎(chǔ)應(yīng)用。劉燁斌副教授從十幾年前開始做這方面的研究,單視點(diǎn)、多視點(diǎn)技術(shù)都有涉及。
人體動(dòng)態(tài)重建技術(shù)可以分成幾類:
早期的做法是不做先驗(yàn)約束,基于多視角數(shù)據(jù)求取點(diǎn)云;
然后發(fā)展出了基于三維模版的方法,這類方法需要先人工建立骨架模版或非剛性形變模版(作為先驗(yàn)),三維點(diǎn)云的求解可以依托模版,降低了求解的難度、提高了穩(wěn)定性;
基于統(tǒng)計(jì)模版的方法無(wú)需提前由人工建模,系統(tǒng)根據(jù)數(shù)據(jù)學(xué)習(xí)統(tǒng)計(jì)模版然后應(yīng)用。這種方法的問(wèn)題是難以重建復(fù)雜幾何拓?fù)湫螤畹谋砻?,比如裙子等?/p>
最后還有表面動(dòng)態(tài)融合的方法,用深度相機(jī)采集點(diǎn)云并進(jìn)行融合。
劉燁斌副教授介紹了重建技術(shù)中的六大目標(biāo):精準(zhǔn)重建、規(guī)模采集(多人,大采集范圍)、便捷獲取、實(shí)時(shí)計(jì)算、語(yǔ)義建模(以便建模后結(jié)果的遷移)、真實(shí)生成。
精準(zhǔn)重建需要復(fù)雜的相機(jī)陣列+多光照,需要采集大量的高精度數(shù)據(jù)。劉燁斌副教授的早期研究就是在精準(zhǔn)重建方面,他們?cè)O(shè)計(jì)了包含 40 個(gè)相機(jī)、680 個(gè)光源的采集裝置。精準(zhǔn)重建對(duì)采集設(shè)備體系的高要求也限制了它的實(shí)際應(yīng)用。
規(guī)模采集的難點(diǎn)在于處理多視角交疊的區(qū)域,也就是緊密交互的人體動(dòng)作,比如左圖中三人腿部交叉。有更多視角、更高精度的采集系統(tǒng)自然可以更好地處理交疊區(qū)域,但這同時(shí)又限制了系統(tǒng)采集的規(guī)模(人數(shù)以及空間大?。?/p>
多紅外相機(jī)(多視角)的動(dòng)態(tài)三維重建可以進(jìn)行實(shí)時(shí)的點(diǎn)云融合,解決拓?fù)渥兓y題;單深度相機(jī)則無(wú)法支持拓?fù)渥兓c快速運(yùn)動(dòng)。圖中研究動(dòng)態(tài)融合重建的論文《DynamicFusion: Reconstruction and Tracking of Non-rigid Scenes in Real-Time》獲得了 CVPR 2015 的最佳論文獎(jiǎng)。
劉燁斌副教授團(tuán)隊(duì)在此基礎(chǔ)上進(jìn)行了改進(jìn),他們用單深度相機(jī)實(shí)現(xiàn)實(shí)時(shí)動(dòng)態(tài)融合重建,不使用模版,可以支持和物體交互,可以任意視點(diǎn)重建。最新成果可以魯棒地進(jìn)行復(fù)雜人體動(dòng)態(tài)重建,3x3米采集空間,5%到10%測(cè)量精度。
下一個(gè)技術(shù)目標(biāo)是便捷獲取,其中一種是從單個(gè)相機(jī)視角進(jìn)行動(dòng)態(tài)三維重建。這時(shí)需要先掃描獲得靜態(tài)人體模版(具體做法可以是在鏡頭前以指定動(dòng)作原地轉(zhuǎn)一圈),計(jì)算得到人體模型,之后用單個(gè)相機(jī)的視頻輸入就可以追蹤動(dòng)作并進(jìn)行重建。不過(guò)這有較高的計(jì)算復(fù)雜度,精度也有限。
另一種便捷獲取任務(wù)是從單圖像恢復(fù)體態(tài)模型,通過(guò)對(duì)圖像深度的學(xué)習(xí)重建體態(tài)模型以及同步恢復(fù)紋理。劉燁斌副教授團(tuán)隊(duì)的近期工作 DeepHuman 有著不錯(cuò)的效果。
語(yǔ)義建模是對(duì)人體與服裝分離建模,這樣可以進(jìn)行轉(zhuǎn)移(把一個(gè)人的衣服轉(zhuǎn)移到另一個(gè)人身上),但同時(shí)還要保留高度的真實(shí)感。這樣,對(duì)象建模的內(nèi)容就包括了紋理、幾何、材質(zhì)、物理動(dòng)力學(xué)屬性等等。衣物的物理動(dòng)力學(xué)建模始終是一大挑戰(zhàn)。在劉燁斌副教授團(tuán)隊(duì)的研究成果中,他們先采集人體模型,經(jīng)過(guò)計(jì)算后以單視角輸入,服裝可以獨(dú)立解析,然后為服裝加入動(dòng)力學(xué)仿真,服裝背側(cè)使用動(dòng)力學(xué)計(jì)算生成;光影也可以重新重新布置。
最后,劉燁斌副教授介紹了自己對(duì)這項(xiàng)課題的展望。
上午的第二個(gè)學(xué)術(shù)報(bào)告來(lái)自上海交通大學(xué)研究員、博導(dǎo)盧策吾。他演講的主題是三維表征以及行為理解(Behavior Understanding meets 3D Representation),主要介紹了自己團(tuán)隊(duì)在這兩個(gè)方向上的幾項(xiàng)近期工作。
盧策吾的演講內(nèi)容主要分為兩個(gè)部分,介紹了自己團(tuán)隊(duì)對(duì)三維表征以及對(duì)行為感知的一些研究成果。
三維表征部分
首先對(duì)于三維表征,一種基礎(chǔ)的框架是取點(diǎn)的表征,PointNet 就是一種常用的方法,但它無(wú)法編碼不同的點(diǎn)之間的關(guān)系。
對(duì)于臨近的點(diǎn)表征問(wèn)題,PointNet 和 PointCNN 有各自的處理思路,但也有各自的不足。
對(duì)于點(diǎn)的結(jié)構(gòu)的表征,有一些特點(diǎn)是我們希望它具備的,比如尺度不變性,比如空間方向編碼(從而可以在不同方向進(jìn)行卷積)。SIFT 算子的引入就可以保留這些信息。
盧策吾團(tuán)隊(duì)提出的 PointSIFT 就是利用了 SIFT 算子的一種多尺度表征方式,克服了 PointNet++ 只取最近鄰的問(wèn)題。
對(duì)于網(wǎng)絡(luò)架構(gòu)的設(shè)計(jì),他們使用了一個(gè)類似 U-Net 的結(jié)構(gòu),尺度先減小后增加。網(wǎng)絡(luò)有自動(dòng)尺度選擇能力,其中也可以使用不同的模塊設(shè)計(jì)。PointSIFT 在多種測(cè)試中都取得了優(yōu)秀的表現(xiàn)。
下一個(gè)問(wèn)題是點(diǎn)的表示在空間旋轉(zhuǎn)不變性方面的表現(xiàn)。在基于點(diǎn)云的物體部件分割任務(wù)中,PointNet++ 一般能取得不錯(cuò)的效果,但是由于方法的設(shè)計(jì)沒(méi)有考慮空間旋轉(zhuǎn)不變性,對(duì)于旋轉(zhuǎn)/未見過(guò)的角度就效果不好。
PointNet 中的處理思想是尋找點(diǎn)到點(diǎn)之間的對(duì)應(yīng)關(guān)系,但對(duì)應(yīng)關(guān)系并不具有旋轉(zhuǎn)不變性;另一種思路是把點(diǎn)云映射到球面上,這樣具有了旋轉(zhuǎn)不變性,但點(diǎn)與點(diǎn)之間的對(duì)應(yīng)關(guān)系就無(wú)法保留,這是球面 CNN 的做法。
盧策吾團(tuán)隊(duì)提出的 Pointwise Rotation-Invariant Network 就結(jié)合了點(diǎn)對(duì)點(diǎn)方法和球 CNN 的優(yōu)點(diǎn),在有空間旋轉(zhuǎn)的情況下也取得了良好表現(xiàn)。
盧策吾還介紹了基于三維點(diǎn)云的端到端自動(dòng)駕駛學(xué)習(xí)方面的計(jì)劃。他和其他研究人員合作采集了一個(gè)包含視頻、激光雷達(dá)點(diǎn)云、駕駛員行為的駕駛數(shù)據(jù)集 DBNet,對(duì)應(yīng)的論文《LiDAR-Video Driving Dataset: Learning Driving Policies Effectively》也被 CVPR 2018 收錄。在這個(gè)數(shù)據(jù)集上訓(xùn)練端到端自動(dòng)駕駛系統(tǒng),就是把三維點(diǎn)云(或者二維錄像)作為輸入,通過(guò)模型預(yù)測(cè)人類駕駛員會(huì)有怎樣的駕駛行為。
目前這個(gè)數(shù)據(jù)集已經(jīng)被 Facebook、谷歌、NVIDIA 等企業(yè)以及 MIT、斯坦福、CMU 等學(xué)校使用,盧策吾未來(lái)還計(jì)劃依托這個(gè)數(shù)據(jù)集在 ICCV 2019 舉辦大規(guī)模 SLAM 比賽以及在 CVPR 2020 舉辦大規(guī)模駕駛數(shù)據(jù)分割比賽。
行為識(shí)別部分
報(bào)告的第二部分是關(guān)于行為識(shí)別。此前他們的實(shí)時(shí)姿態(tài)估計(jì)系統(tǒng) AlphaPose 兼具高表現(xiàn)和高運(yùn)行速度,在學(xué)術(shù)研究和應(yīng)用實(shí)踐中都非?;馃幔S多工業(yè)界企業(yè)都向他們購(gòu)買了使用許可。不僅如此,AlphaPose 還可以作為許多不同領(lǐng)域、面向多類不同物體的通用型關(guān)鍵點(diǎn)檢測(cè)器。
提出 AlphaPose 之后,盧策吾團(tuán)隊(duì)關(guān)注的下一個(gè)難題是密集姿態(tài)檢測(cè)。相比于稀疏分布的物體的姿態(tài)檢測(cè)(比如 COCO 數(shù)據(jù)集中的圖像),密集人體識(shí)別實(shí)際上已經(jīng)是另一種問(wèn)題,它的難點(diǎn)在于不同目標(biāo)的互相遮擋形成同構(gòu)噪聲,所以人密集時(shí)各種算法的表現(xiàn)都有明顯的下降。
盧策吾團(tuán)隊(duì)提出一個(gè)新的 CrowdPose 數(shù)據(jù)集,其中有大量密集人體場(chǎng)景,帶來(lái)很大的挑戰(zhàn)。傳統(tǒng)物體檢測(cè)方法此時(shí)就誤報(bào)率高,關(guān)節(jié)檢測(cè)容易錯(cuò)誤。
根據(jù)盧策吾介紹,同樣是基于熱力圖辨別人體,傳統(tǒng)方法中對(duì)于主體和障礙物的置信度取值是二值化的,這樣的后果就是臨近主體的障礙物在辨別時(shí)容易取而代之。
他們提出的新方法中不再使用二值化的取值,并且用競(jìng)爭(zhēng)式的框選擇整體優(yōu)化,從而得到更好的表現(xiàn)。
運(yùn)動(dòng)識(shí)別的下一個(gè)問(wèn)題是時(shí)間序列圖像作為輸入的識(shí)別。序列輸入我們很容易想到使用 RNN,但它難以直接用于圖像輸入的檢測(cè)。盧策吾團(tuán)隊(duì)提出的方法是深度 RNN 架構(gòu)的時(shí)序模型:RBM,它可以看作是一種通用型的 LSTM/RNN,根據(jù)一定條件簡(jiǎn)化后就得到了我們熟悉的 LSTM。這種方案可以做到 15 層甚至更深的 RNN 疊加。
他們的改進(jìn)思路是:時(shí)序信息和特征分別學(xué)習(xí);先學(xué)習(xí)空間表征,再讓表征在時(shí)間上流動(dòng)(兩個(gè)方向的流動(dòng)在圖中用兩個(gè)方向的連線表示)。
為了便于網(wǎng)絡(luò)的訓(xùn)練,他們提出了 Temporal Dropout 等訓(xùn)練加速技巧。在實(shí)驗(yàn)中也取得了表現(xiàn)的明顯提升。
物體間的交互關(guān)系也是運(yùn)動(dòng)識(shí)別中需要關(guān)注的重要方面。盧策吾團(tuán)隊(duì)提出的一種思路是把「是否有交互」的二值信息利用起來(lái),輔助判斷交互類型,起到用先驗(yàn)信息提高整體性能的效果。這也是一種通用可遷移到 Inter-Actioness Prior。
總結(jié)
盧策吾認(rèn)為,目前雖然在運(yùn)動(dòng)理解和三維表征方面都各自有不少的研究成果,但它們之間的結(jié)合還很少,還沒(méi)有產(chǎn)生有潛力的成果,這是未來(lái)的一個(gè)可能的方向。
目前的技術(shù)可以做交互判斷,而學(xué)習(xí)到的交互關(guān)系可以發(fā)展推理引擎。在這里盧策吾展示了一個(gè)視頻,一個(gè)機(jī)械臂可以在與三維物體的互動(dòng)(嘗試抓取)中學(xué)習(xí)先驗(yàn)。對(duì)三維世界的理解可以輔助機(jī)器人工作,機(jī)器人與世界的交互也可以增進(jìn)視覺(jué)理解。
對(duì)于整個(gè) AI 范圍的總體看法,盧策吾認(rèn)為目前我們?nèi)〉昧嗣黠@成果的都屬于 Physical AI(視覺(jué)、語(yǔ)音、圖像、機(jī)器人),這些技術(shù)確實(shí)可以解決大多數(shù)問(wèn)題;而未來(lái)更大的挑戰(zhàn)在于對(duì)抽象概念的理解和運(yùn)用。
浙江大學(xué) CAD&CG 國(guó)家重點(diǎn)實(shí)驗(yàn)室教授、博導(dǎo)章國(guó)鋒的報(bào)告主題是「視覺(jué) SLAM 技術(shù)及應(yīng)用」。報(bào)告中綜述介紹了視覺(jué)定位地圖重建跟蹤技術(shù)及應(yīng)用的各方面研究工作。
基礎(chǔ)知識(shí)與技術(shù)
SLAM,同時(shí)定位與地圖構(gòu)架,是機(jī)器人和計(jì)算機(jī)視覺(jué)領(lǐng)域的基本問(wèn)題。
SLAM 技術(shù)的運(yùn)行結(jié)果要計(jì)算設(shè)備自身在空間中的位置和朝向,同時(shí)還要構(gòu)建周圍環(huán)境的地圖。根據(jù)構(gòu)建的環(huán)境地圖包含的信息不同,可以分為稀疏 SLAM 和稠密 SLAM,前者只包含三維點(diǎn)云,后者同時(shí)也要采集重建幾何和紋理。
經(jīng)過(guò)幾十年的發(fā)展,SLAM 系統(tǒng)常用的技術(shù)框架已經(jīng)基本成熟,主要可以分為輸入、前臺(tái)線程、后臺(tái)線程、輸出四個(gè)組成部分。
視覺(jué) SLAM 自然是以視覺(jué)輸入為主,單目、雙目、多目攝像頭方案都有。如今也可以結(jié)合其他的輔助傳感器的信號(hào),進(jìn)一步提高解算精度。
視覺(jué) SLAM 從視覺(jué)信號(hào)輸入,重建場(chǎng)景三維信息的基本原理是多視圖幾何方程求解。不過(guò),高效、穩(wěn)定的求解有一定難度,尤其在動(dòng)態(tài) SLAM 中,場(chǎng)景在變化,有outliner,甚至場(chǎng)景有遮擋。章國(guó)鋒教授介紹了幾個(gè)關(guān)鍵思路。
視覺(jué) SLAM 研究工作
章國(guó)鋒教授設(shè)計(jì)的視覺(jué) SLAM 解決方案是 RDSLAM。這個(gè)系統(tǒng)可以根據(jù)實(shí)時(shí)視頻信號(hào)輸入檢測(cè)、追蹤場(chǎng)景中的動(dòng)態(tài)變化。
相比于更傳統(tǒng)的基于濾波器的 SLAM 方法,基于關(guān)鍵幀的方法有較多優(yōu)點(diǎn),但對(duì)強(qiáng)旋轉(zhuǎn)很敏感。RDSLAM 就是一種基于關(guān)鍵幀的方法。
機(jī)器人領(lǐng)域的應(yīng)用中大量使用視覺(jué)慣性 SLAM,就是結(jié)合機(jī)器人 IMU (慣性測(cè)量單元)采集的數(shù)據(jù)計(jì)算視角運(yùn)動(dòng),在它的幫助下提高魯棒性。那么沒(méi)有搭載 IMU 的設(shè)備能否借鑒這種思路呢?由于絕大多數(shù)情況下攝像頭的移動(dòng)線速度較低(米/秒 級(jí)),影響不大,重點(diǎn)計(jì)算角速度即可,章國(guó)鋒教授認(rèn)為這種思路是可行的。也就是在沒(méi)有真實(shí) IMU 數(shù)據(jù)時(shí),通過(guò)采集的數(shù)據(jù)數(shù)據(jù)模擬計(jì)算 IMU 數(shù)據(jù)。
根據(jù)這個(gè)思路,他們針對(duì)移動(dòng)場(chǎng)景提出 RKSLAM。
而后還衍生出基于 RGB-D 輸入系統(tǒng)的視覺(jué) SLAM 系統(tǒng) RKD-SLAM,除 RGB 視覺(jué)信息之外增加的深度信息可以大幅提高魯棒性,得以實(shí)現(xiàn)非??焖俚脑隽考{(diào)整;基于關(guān)鍵幀的重融合,消除累積誤差;其中還使用了多種降低計(jì)算復(fù)雜度的方法,速度可以快一個(gè)數(shù)量級(jí)。
章國(guó)鋒教授著重介紹了系統(tǒng)中使用的集束調(diào)整方法,把長(zhǎng)序列分成多個(gè)短序列,分段優(yōu)化,收斂快。在演示視頻中,章國(guó)鋒教授在自家小區(qū)中一邊行走,一邊隨意用手機(jī)拍攝視頻,他們的方法就能很好地重建出周圍環(huán)境的三維模型,效果優(yōu)于此前的方法。
視覺(jué) SLAM 技術(shù)應(yīng)用
視覺(jué) SLAM 技術(shù)的應(yīng)用有很多。對(duì)于視頻剪輯,可以移動(dòng)、復(fù)制畫面中的對(duì)象,隱藏或者添加對(duì)象,還可以增加時(shí)間停止特效,進(jìn)行景深變換等。(上圖視頻中,在桌面上復(fù)制了一個(gè)同樣的魔方)。
增強(qiáng)現(xiàn)實(shí)應(yīng)用也是大家喜聞樂(lè)見的應(yīng)用形式。圖中演示的是王者榮耀 AR 人物,可以讓游戲中的英雄在真是桌面上做出各種動(dòng)作;高德地圖有 AR 導(dǎo)航,可以在路面上顯示一個(gè)助手帶著你行走。AR 尺子也已經(jīng)具備了一定的實(shí)用性,基于 RGB-D 慣性 SLAM 的 AR 測(cè)量,平均測(cè)量誤差只有 2.6%?;?TOF (飛行時(shí)間)的技術(shù)還可以具有遮擋處理的能力。
最后,章國(guó)鋒教授展望了視覺(jué) SLAM 的技術(shù)發(fā)展趨勢(shì)。一方面,我們需要更先進(jìn)的方法緩解視覺(jué) SLAM 中的特征依賴,提高穩(wěn)定性;另一方面,稠密 SLAM、TOF 做得還不夠好、應(yīng)用還不多。最后,多傳感器融合也是一大發(fā)展方向。
北京航空航天大學(xué)計(jì)算機(jī)學(xué)院院長(zhǎng)聘副教授、博導(dǎo)黃迪的報(bào)告主題是「基于三維人臉數(shù)據(jù)的身份識(shí)別與表情分類」。報(bào)告從背景、三維人臉識(shí)別、三維表情識(shí)別、三維人臉?lè)治龅男绿魬?zhàn)幾個(gè)方面綜述介紹了這個(gè)領(lǐng)域的主要研究和應(yīng)用脈絡(luò)。
背景
三維人臉?lè)治龅奶幚砹鞒炭梢苑譃閿?shù)據(jù)采集、預(yù)處理(移除尖點(diǎn)、填充孔洞等)、形狀表示、測(cè)量與匹配幾步。如今進(jìn)入深度學(xué)習(xí)時(shí)代,傳統(tǒng)三維分析流程四步中的后兩步可以合二為一。
三維人臉?lè)治龅膽?yīng)用場(chǎng)景不外乎身份驗(yàn)證、4D 表情分析,還可以分析身份和表情之外的額外信息,比如人種、性別、年齡等。一個(gè)典型應(yīng)用是 iPhone FaceID,它采集人臉的三維數(shù)據(jù)進(jìn)行記錄和比對(duì)。FaceID 的出現(xiàn)表明三維人臉已經(jīng)可以在一些定制化的產(chǎn)品上進(jìn)行應(yīng)用,回應(yīng)了一些對(duì)三維技術(shù)質(zhì)疑的聲音。
二維、三維人臉?lè)治黾夹g(shù)的表現(xiàn)有較大不同。二維人臉?lè)治鼋鉀Q不了光照問(wèn)題;二維人臉識(shí)別無(wú)法很好解決姿態(tài)變化的問(wèn)題(對(duì)于不同表情的人臉,做身份識(shí)別之前需要嘗試恢復(fù)到中性的表情,但信息的重加工可能會(huì)破壞身份信息);三維人臉?lè)治鰧?duì)化妝的容忍度更高。以及,對(duì)于照片、視頻、仿真面具三類攻擊的容忍程度上,三維對(duì)前兩種有天然的免疫(采集不到深度信息),而且對(duì)面具的抵抗性也要比二維方法好很多。
三維人臉?lè)治銎鹗加?1989年,2005年是三維人臉?lè)治隹焖侔l(fā)展的一年。領(lǐng)域內(nèi)的大牛 Kevin Bowyer 在 2006 年提出,三維人臉?lè)治黾夹g(shù)的發(fā)展面臨的三大挑戰(zhàn)是:更好的三維傳感器、更好的算法以及更好的實(shí)驗(yàn)方法。
三維人臉?lè)治龅臄?shù)據(jù)集有不少,常用數(shù)據(jù)集 FRGC、BU3DFE、BU-4DFE。不過(guò)所有這些數(shù)據(jù)集的數(shù)據(jù)量都不大,所以深度學(xué)習(xí)模型的表現(xiàn)并不突出。
三維人臉識(shí)別使用場(chǎng)景:純?nèi)S形狀對(duì)比,多模態(tài)人臉對(duì)比,以及二維三維不對(duì)稱識(shí)別
黃迪副教授說(shuō)道,三維人臉識(shí)別的挑戰(zhàn)是,所有的人臉都很像!人臉這個(gè)大類的相似度很高,所有的臉人臉都有相同的結(jié)構(gòu)??紤]不同身份的人構(gòu)成的小類的話,類內(nèi)有一定的變化,來(lái)自表情變化、姿態(tài)(收集時(shí)的不同姿態(tài)可能導(dǎo)致三維點(diǎn)云不完整)、遮蓋、雙胞胎、低質(zhì)量數(shù)據(jù)等。而類內(nèi)的差異無(wú)法保證小于類間(不同的人之間)的差異。如今,表情變化的處理已經(jīng)比較成熟穩(wěn)定,其他的挑戰(zhàn)仍然等待解決。
三維人臉識(shí)別技術(shù)
三維人臉識(shí)別中的關(guān)鍵問(wèn)題:要找到比較好的形狀表示。理想的表示要對(duì)不同的個(gè)體有區(qū)分度,也要能減少其他因素的干擾。形狀表示有基于模版、等高線、剛體、不變區(qū)域等多種方法。后來(lái)公認(rèn)使用 MeshSIFT 類等基于特征的方法。
由于更早之前人臉數(shù)據(jù)集的樣本太?。〝?shù)據(jù)庫(kù)中默認(rèn)每張臉只有一個(gè)樣本),所以基于深度學(xué)習(xí)的研究工作 2018 年才出現(xiàn)。這項(xiàng)工作微小地改動(dòng)了已有的 VGG-Face 模型,而創(chuàng)新點(diǎn)在于數(shù)據(jù)擴(kuò)增,作者們創(chuàng)造了更多的虛擬 ID、更多的姿態(tài),保證有足夠的數(shù)據(jù),然后用二維卷積的方法得到比較好的結(jié)果。
根據(jù)黃迪副教授介紹,三維人臉識(shí)別的難點(diǎn),早期一般在于采集,高精度的采集設(shè)備過(guò)于昂貴,能采集的數(shù)據(jù)規(guī)模?。缓髞?lái)才有低成本的采集設(shè)備,而消費(fèi)級(jí)的采集設(shè)備一般還是有比較多的噪聲。
黃迪副教授利用消費(fèi)級(jí)的 Kinect v2 采集大規(guī)模數(shù)據(jù),提出 Lock3DFace 數(shù)據(jù)集,包含了 500 個(gè)人、每人 20 個(gè)視頻,其中有 200 人的數(shù)據(jù)采集時(shí)間間隔 7 個(gè)月。這個(gè)數(shù)據(jù)集的目的除了為每個(gè)身份提供充足的數(shù)據(jù)之外,也包含了豐富的表情、姿態(tài)、遮擋,尤其時(shí)間間隔造成的變化是任何此前的數(shù)據(jù)集都不包括的。Kinect v2 雖然只能采集到低精度的原始數(shù)據(jù),但可以用多幀數(shù)據(jù)聯(lián)合重建,同樣得到可靠的結(jié)果。
最新研究中,他們提出了一套采集系統(tǒng) Led3DFR,用移動(dòng)級(jí)硬件,利用前端計(jì)算、小模型,達(dá)到高準(zhǔn)確率、高識(shí)別速度。
三維表情識(shí)別技術(shù)
三維方法研究表情有天然優(yōu)勢(shì)。傳統(tǒng)表情方法中的一種是肌肉分割。目前還解決的不好的案例是一些近似表情的分割,強(qiáng)度小,混淆性高。
另一種思路是在流形上做卷積,但對(duì)內(nèi)存大小和計(jì)算復(fù)雜度要求很高。黃迪副教授團(tuán)隊(duì)提出一種快速、輕計(jì)算量的新流形卷積方法,直接在 mesh 上計(jì)算,使用定制化的算法,手工定制的池化步驟,計(jì)算過(guò)程高效,得到的下采樣結(jié)果準(zhǔn)確。
對(duì)于各種基于深度學(xué)習(xí)的方法,黃迪副教授的感受是,受限于訓(xùn)練數(shù)據(jù)集大小,還是需要結(jié)合一些手工優(yōu)化,但深度學(xué)習(xí)的方法仍有優(yōu)勢(shì)。
三維人臉?lè)治龅奶魬?zhàn)
最后總結(jié)了三維人臉?lè)治黾夹g(shù)發(fā)展中遇到的挑戰(zhàn):首先,三維重建、特征計(jì)算都有高計(jì)算量,在移動(dòng)設(shè)備上有計(jì)算時(shí)間的問(wèn)題;點(diǎn)云數(shù)據(jù)是不規(guī)則分布的,空間中不同區(qū)域的點(diǎn)密度有很大區(qū)別,同時(shí)三維人臉數(shù)據(jù)集的數(shù)據(jù)量也不大,深度學(xué)習(xí)的應(yīng)用就受到一定限制。
對(duì)于三維人臉識(shí)別,真實(shí)場(chǎng)景應(yīng)用中也許多變異點(diǎn),比如如何適應(yīng)商業(yè)化的(低精度)深度傳感器、如何在移動(dòng)設(shè)備上運(yùn)行、如何克服噪聲和遮擋等問(wèn)題,以及如何與二維RGB數(shù)據(jù)有更好的融合,高效地發(fā)揮各自的優(yōu)勢(shì)。
對(duì)于三維表情識(shí)別,也有表情的不確定性的問(wèn)題,可以是不同的表情看起來(lái)很類似,也可以是不同的人對(duì)同樣的表情有不同的理解。嘗試其他表達(dá)形式,結(jié)合上下文、肢體語(yǔ)言判斷是一種思路。
四川大學(xué)計(jì)算機(jī)學(xué)院副教授趙啟軍的報(bào)告主題是「三維人臉建模:由圖到形的人臉識(shí)別」。這個(gè)報(bào)告也是關(guān)于三維人臉的,不過(guò)趙啟軍副教授關(guān)注的重點(diǎn)是從二維圖像重建三維人臉,這不僅是二維三維信息之間的橋梁,也拓展了三維人臉技術(shù)的應(yīng)用范圍。
二維圖像可以由三維實(shí)體生成,其中有很多因素影響;二維圖像除了紋理之外也有很多三維信息,尤其是在結(jié)合了物體的常識(shí)模型之后。二維和三維相比之下,全視角的三維面部模型含有更多的信息,也更加魯棒。
三維人臉一直不火熱的原因,趙啟軍副教授認(rèn)為是高成本。專業(yè)的三維采集設(shè)備自然非常昂貴、使用不便,即便現(xiàn)在出現(xiàn)了低價(jià)的消費(fèi)級(jí) RGB-D 傳感器,但測(cè)量精度有限;其他原因還有,受限的應(yīng)用場(chǎng)景(絕大部分三維應(yīng)用在短距離測(cè)量和識(shí)別),帶來(lái)的額外收益受限(二維圖像在多數(shù)場(chǎng)景中都有足夠好的效果,占據(jù)支配地位,不過(guò)實(shí)際上二維圖像方法也需要使用環(huán)境中有一些約束,才能達(dá)到滿意的性能)
趙啟軍副教授的科研路線圍繞的就是三維數(shù)據(jù)的重建和應(yīng)用:在采集新的三維數(shù)據(jù)的同時(shí),也要利用已有的二維數(shù)據(jù)。從二維數(shù)據(jù)重建三維數(shù)據(jù),可以輔助無(wú)限定的二維人臉識(shí)別(角度、光照、姿態(tài)不做嚴(yán)格要求)。這也是本次報(bào)告的主要內(nèi)容。
單張圖像人臉重建
從一張到多張圖像恢復(fù)完整的三維模型。這可以看作一個(gè)回歸問(wèn)題。
解決這個(gè)問(wèn)題的經(jīng)典方法是 3DMM,這是一種統(tǒng)計(jì)方法,做法是收集許多人臉模型,用 PCA (降維)求出統(tǒng)計(jì)模型,然后把統(tǒng)計(jì)模型擬合到待求人臉。如今的深度學(xué)習(xí)方法也是用的同樣的核心思路,只是改變了求參過(guò)程。
對(duì)于這項(xiàng)方法的后續(xù)改進(jìn),研究人員們希望可以避免求解統(tǒng)計(jì)模型,直接在三維空間中求回歸,得到保留個(gè)性化特性的、而且有助于識(shí)別的人臉形狀。簡(jiǎn)單直接的人臉重建有許多思路可以完成,但是我們希望重建結(jié)果能對(duì)人臉識(shí)別起到幫助,也就是保留有辨別性的細(xì)節(jié)。另外還希望這個(gè)過(guò)程可以是實(shí)時(shí)的。
趙啟軍副教授介紹了自己團(tuán)隊(duì)的一項(xiàng)后續(xù)研究工作,從單張圖像重建三維人臉,同時(shí)目標(biāo)讓重建結(jié)果幫助人臉識(shí)別,排除表情之類的對(duì)識(shí)別無(wú)幫助的信息。他們的思路是把每個(gè)面部三維模型看作平均模型+身份信息+表情信息的組合。他們把面部對(duì)齊(獲得更準(zhǔn)確的特征點(diǎn))和面部重建(獲得更準(zhǔn)確的三維模型)作為聯(lián)合任務(wù),交替進(jìn)行,多次迭代;最終輸出的三維重建結(jié)果不包含表情信息,也就是一個(gè)表情中性的人臉。
研究中他們也嘗試了基于深度學(xué)習(xí)的非線性模型,效果并不突出。他們猜測(cè)原因也是測(cè)試數(shù)據(jù)集規(guī)模較小,不足以發(fā)揮出深度學(xué)習(xí)方法的優(yōu)勢(shì)。
經(jīng)過(guò)三維重建得到了正面、表情中性的人臉模型之后,一種應(yīng)用方式是輔助提升二維人臉識(shí)別的效果。重建后的三維模型與原始二維圖像補(bǔ)充成為融合模型后,可以提升較大角度下識(shí)別的性能,減小了姿態(tài)和光照對(duì)純二維方法人臉識(shí)別的影響。
趙啟軍副教授還做了其他思路的進(jìn)一步研究,他們嘗試三維面部形狀特征解耦,聯(lián)合人臉重建任務(wù)和識(shí)別任務(wù),希望可以強(qiáng)化識(shí)別人臉需要的身份信息;根據(jù)他們的想法,這些信息可以在隱空間進(jìn)行分解建模。
經(jīng)過(guò)端到端聯(lián)合訓(xùn)練后實(shí)現(xiàn)了預(yù)想的引導(dǎo)結(jié)果,達(dá)到了身份信息和表情信息的分離,不同人的身份信息有足夠的區(qū)分度。
他們也做了許多驗(yàn)證研究,表明形狀重建的精度也達(dá)到了較好水平;Alabation study 表明,多層感知機(jī)學(xué)習(xí)到的基向量之間也有很高的區(qū)分度(單個(gè)基向量表示的面部特征已經(jīng)不可能在真實(shí)人臉上出現(xiàn)了,見上圖左側(cè)部分),說(shuō)明了學(xué)習(xí)的有效性。
多圖人臉重建
單張圖像的人臉重建問(wèn)題得到較好解決之后,多張圖像帶紋理重建也就是在單圖任務(wù)基礎(chǔ)上的自然延伸。一個(gè)典型的應(yīng)用是,公安系統(tǒng)的罪犯存檔照片包含正面、左、右三種視圖,可以利用這些照片重建帶有紋理的三維人臉模型,與現(xiàn)有的二維圖像采集系統(tǒng)結(jié)合以后可以極大提升目標(biāo)的前 n 位識(shí)別成功率,即便二維圖像采集系統(tǒng)的圖像可以是任意角度的人臉。趙啟軍副教授還介紹了一個(gè)三維人臉重建帶來(lái)目標(biāo)犯罪嫌疑人的識(shí)別排序大幅提升的真實(shí)案例。
多張圖像的人臉重建也有一種令人十分頭疼的應(yīng)用場(chǎng)景,就是長(zhǎng)時(shí)間跨度的多張無(wú)限制圖像重建。如圖,六張不同年齡的萊昂納多,幾乎可以認(rèn)為是好幾個(gè)不同的人了。這時(shí)我們希望重建出的人臉是一個(gè)平均形狀,能夠代表不同時(shí)期的面部特點(diǎn)。
這個(gè)問(wèn)題目前還無(wú)法完美地解決,畢竟類內(nèi)就有很大差異。不過(guò)相比以往的方法,趙啟軍副教授團(tuán)隊(duì)提出的方法,減小了同類、類間區(qū)別的重疊(圖中黃色和藍(lán)色交疊部分)。
總結(jié)
趙啟軍副教授最后做了總結(jié):三維人臉在許多任務(wù)中會(huì)有幫助,他們也提出了多種方法進(jìn)行重建并應(yīng)用重建成果。這個(gè)領(lǐng)域的挑戰(zhàn)是:缺乏大規(guī)模的 benchmark;數(shù)據(jù)采集精度需要更高,重建時(shí)希望可以有更多的紋理細(xì)節(jié)(甚至到可以捕捉皮膚缺陷的程度);另外不同多種來(lái)源的數(shù)據(jù)可以用于多種不同的目的。
郭裕蘭 - 「三維場(chǎng)景智能感知與理解」
國(guó)防科技大學(xué)電子科學(xué)學(xué)院講師郭裕蘭的報(bào)告「三維場(chǎng)景智能感知與理解」介紹了他所在的研究小組在雙目深度估計(jì)、三維目標(biāo)識(shí)別以及三維場(chǎng)景標(biāo)注等方向的研究進(jìn)展。
郭裕蘭首先介紹了三維數(shù)據(jù)獲取與處理的基本知識(shí),介紹了雙目視覺(jué)深度計(jì)算的基本技術(shù),以及這個(gè)任務(wù)中傳統(tǒng)算法的流程。
郭裕蘭所在的研究小組有一些新的嘗試,他們借助深度學(xué)習(xí),用一個(gè)網(wǎng)絡(luò)解決視差估計(jì)中的多個(gè)步驟。
在 CVPR 2018 的 ROB 挑戰(zhàn)賽中,他們的方法在不同的數(shù)據(jù)集中取得了均衡的表現(xiàn),由此獲得了總成績(jī)第一名。
他們也對(duì)視差超分辨率任務(wù)做了一些研究。視差超分辨率是要利用雙目視覺(jué)兩個(gè)輸入之間的微小差異。
郭裕蘭還介紹了多種基于三維數(shù)據(jù)的深度學(xué)習(xí)場(chǎng)景理解(對(duì)象識(shí)別)方法。
論壇的壓軸報(bào)告嘉賓是來(lái)自廈門大學(xué)的“閩江學(xué)者”特聘教授、博導(dǎo)紀(jì)榮嶸。報(bào)告中介紹了課題組圍繞場(chǎng)景信息重構(gòu)的一些研究工作以及技術(shù)應(yīng)用。
報(bào)告一開始,紀(jì)榮嶸教授就感慨道,「雖然現(xiàn)在是深度學(xué)習(xí)時(shí)代,但是只會(huì)深度學(xué)習(xí)是不行的」。報(bào)告的第一項(xiàng)內(nèi)容也就是一種非深度學(xué)習(xí)的方法。
基于搜索的單圖深度估計(jì)
單目視覺(jué)深度估計(jì)本身是一項(xiàng)比較簡(jiǎn)單、如今也被深度學(xué)習(xí)解決得比較好的問(wèn)題,傳統(tǒng)方法先估計(jì)初始深度圖,再用 CRF 優(yōu)化、端到端,以及繼續(xù)加入各種技巧,也可以得到比較好的結(jié)果。
不過(guò)在這項(xiàng)研究中,紀(jì)榮嶸教授指導(dǎo)學(xué)生選擇了一種基于搜索的方法:把深度估計(jì)問(wèn)題作為搜索問(wèn)題,把圖片分為許多 patch(小塊),每個(gè)patch在現(xiàn)有的圖像-深度數(shù)據(jù)庫(kù)中搜索,得到的結(jié)果做上下文平滑。
這種做法的難點(diǎn)在于:1,跨模態(tài)檢索,2,大邊緣結(jié)構(gòu)分析。由于這是一種非深度學(xué)習(xí)方法,它不需要訓(xùn)練,只需要預(yù)先編碼一個(gè)字典即可(用于快速搜索)。這篇論文時(shí)間較早,但也被 ECCV 錄用。
基于序列預(yù)測(cè)的實(shí)時(shí)語(yǔ)義分割
下面就進(jìn)入了深度學(xué)習(xí)時(shí)代,在各種任務(wù)中大家都開始嘗試基于深度學(xué)習(xí)的方法。紀(jì)榮嶸教授介紹的這項(xiàng)研究是針對(duì)視頻語(yǔ)義分割的(也就是時(shí)間序列語(yǔ)義分割)。
一般來(lái)說(shuō)序列分割中都要考慮前后幀之間的聯(lián)系,才能讓分割結(jié)果更穩(wěn)定、魯棒,他們的思路是把編碼器先前的輸出用來(lái)預(yù)測(cè),也嘗試了級(jí)聯(lián)、相加、Attention、Attention+級(jí)聯(lián)等多種融合策略,編碼器也使用了上下文殘差卷積。最后配合一些提速技巧,取得了性能和速度的很好均衡(在 TITAN Xp 上,2048x1024 的圖像分辨率輸入,達(dá)到 18.5 幀/秒的運(yùn)行速度;同時(shí)在精度上甚至優(yōu)于一些不考慮速度的方法)。 這篇論文 CVPR2019 在投。
基于語(yǔ)義信息和生成對(duì)抗的視覺(jué)里程計(jì)
下一項(xiàng)研究是關(guān)于視覺(jué)里程計(jì)的。這是首次把生成式對(duì)抗引入視覺(jué)里程計(jì)的設(shè)計(jì),但取得了不錯(cuò)的效果。
方法的總體流程是,用一個(gè)特征生成模塊 FGN 生成特征,用一個(gè) Discriminator 判別數(shù)據(jù)分布。這個(gè) Discriminator 有三路輸入,分別是圖像、生成器輸出的特征、語(yǔ)義圖,然后把用 SIFT 方法生成的特征點(diǎn)和特征描述作為 Ground Truth。這樣的做法解決了特征點(diǎn)檢測(cè)和描述的問(wèn)題。取特征部分比直接使用 SIFT 和 ORB 快,精度也更高。而且也解決了 SIFT 作為里程計(jì)時(shí)容易中斷的問(wèn)題。
他們的方法在許多場(chǎng)景下都取得了不錯(cuò)的表現(xiàn),甚至最終的精度超過(guò)了作為監(jiān)督信息的 SIFT 的精度。不過(guò),由于方法中沒(méi)有加入閉環(huán)檢測(cè),在高速、長(zhǎng)路段的后期誤差會(huì)升高。
最后,紀(jì)榮嶸教授還簡(jiǎn)單介紹了實(shí)驗(yàn)室在視覺(jué)場(chǎng)景理解方面的多個(gè)項(xiàng)目,包括頭戴式顯示裝備、AR 快速定位、基于神經(jīng)網(wǎng)絡(luò)壓縮的人工智能芯片設(shè)計(jì)、端到端實(shí)時(shí)室內(nèi)物體語(yǔ)義分割等,也是產(chǎn)學(xué)研結(jié)合的范例。
七場(chǎng)學(xué)術(shù)報(bào)告下來(lái),這些在三維數(shù)據(jù)分析、場(chǎng)景感知、人工智能技術(shù)方面有諸多經(jīng)驗(yàn)的專家學(xué)者們之間就一些觀點(diǎn)達(dá)成了共識(shí),為臺(tái)下聽眾講解了重要的發(fā)展脈絡(luò)、關(guān)鍵技術(shù)體系和最新進(jìn)展;借著聽眾提問(wèn)的機(jī)會(huì),嘉賓們也在一些問(wèn)題上更具體深入地表達(dá)了自己的觀點(diǎn)。
三維數(shù)據(jù)的采集和表示、三維數(shù)據(jù)的分析和理解還有許多難點(diǎn)遺留,不過(guò)這同時(shí)也是巨大的空間,等待技術(shù)不斷發(fā)展去填補(bǔ)。奧比中光在三維數(shù)據(jù)采集設(shè)備的普及化、小型化方面做出的探索得到了專家們的關(guān)注和認(rèn)可,也將成為這個(gè)領(lǐng)域的學(xué)術(shù)研究和應(yīng)用普及的一股推動(dòng)力量。
未來(lái)更豐富的三維信息、對(duì)三維信息的更充分利用,也會(huì)像現(xiàn)階段的人工智能技術(shù)一樣帶來(lái)更多機(jī)會(huì)和生活便利。雷鋒網(wǎng) AI 科技評(píng)論也會(huì)持續(xù)關(guān)注相關(guān)學(xué)術(shù)研究和技術(shù)普及應(yīng)用,期待下一次的專家學(xué)者聚首以及最新學(xué)術(shù)成果討論。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。