0
本文作者: 叢末 | 2019-10-27 08:59 | 專題:CNCC 2019 |
雷鋒網(wǎng) AI 科技評(píng)論按:10 月 17 日至 19 日,由 CCF 主辦、蘇州工業(yè)園區(qū)管委會(huì)、蘇州大學(xué)承辦的 CNCC 2019 在秋意正濃的蘇州如約而至。今年大會(huì)以「智能+引領(lǐng)社會(huì)發(fā)展」為主題,選址蘇州金雞湖國(guó)際會(huì)議中心召開(kāi)。雷鋒網(wǎng) AI 科技評(píng)論將會(huì)作為戰(zhàn)略合作媒體進(jìn)行全程跟蹤報(bào)道。
在《CNCC爆款技術(shù)論壇,申省梅、陳熙霖主持,西湖李子青、阿里王剛多視角講解CV賦能智慧城市》一文中,雷鋒網(wǎng) AI 科技評(píng)論提到,「計(jì)算機(jī)視覺(jué)技術(shù)賦能智慧城市」技術(shù)論壇盡管在大會(huì)第三天舉辦,仍然人滿為患,成為今年 CNCC 的爆款技術(shù)論壇之一。
西湖大學(xué)講席教授、IEEE Fellow 李子青作為該技術(shù)論壇的開(kāi)場(chǎng)演講嘉賓,帶來(lái)了主題為《人臉識(shí)別挑戰(zhàn)問(wèn)題和解決技術(shù)》的演講,他主要從人臉識(shí)別當(dāng)前所存在的巨量類別的模式識(shí)別問(wèn)題、人臉?lè)纻螁?wèn)題以及復(fù)雜光照問(wèn)題三個(gè)未來(lái)需要重點(diǎn)關(guān)注的挑戰(zhàn)出發(fā),闡述了應(yīng)對(duì)這三個(gè)問(wèn)題的解決方案。
個(gè)人簡(jiǎn)介:李子青(Stan Z. Li),IEEE Fellow,曾任微軟亞洲研究院Research Lead,中科院自動(dòng)化所模式識(shí)別國(guó)家重點(diǎn)實(shí)驗(yàn)室資深研究員。2019年加盟西湖大學(xué)工學(xué)院,開(kāi)展人工智能創(chuàng)新研究,研究方向包括:機(jī)器學(xué)習(xí)/深度學(xué)習(xí)、數(shù)據(jù)科學(xué)、AI+交叉學(xué)科(如計(jì)算機(jī)視覺(jué)、生物醫(yī)學(xué)、材料科學(xué)、環(huán)境科學(xué)、傳感器技術(shù),等等)。
以下為李子青演講全文,AI 科技評(píng)論進(jìn)行了不改變?cè)獾木庉?,感謝李子青教授的修改和確認(rèn)。
計(jì)算機(jī)視覺(jué)是人工智能技術(shù)中應(yīng)用最成功的一個(gè)方向,其中人臉識(shí)別和視頻分析在落地上又是最成功的。我首次參加的人臉識(shí)別會(huì)議是 1997 年的第二屆 FG(IEEE International Conference on Automatic Face and Gesture Recognition),這個(gè)會(huì)議由 Thomas Huang(黃煦濤)發(fā)起,一直存在至今。當(dāng)時(shí)我在新加坡南洋理工,是我的學(xué)生把我?guī)狭巳四樧R(shí)別的研究之路,而現(xiàn)在我的學(xué)生不做了,而我一做,就是 20 多年。
過(guò)去人臉識(shí)別采用非深度學(xué)習(xí)的傳統(tǒng)方法。昨天在 CNCC 的晚宴上,有一個(gè)來(lái)自 Oulu 大學(xué)的博士畢業(yè)生說(shuō)起 LBP,當(dāng)時(shí)我審了這篇投稿,并大力推薦到了 CVPR。另外我也審到那個(gè)著名的 AdaBoost 人臉檢測(cè)的投稿并做了推薦,它是第一個(gè)能把人臉檢測(cè)在 PC 上做到實(shí)時(shí)的算法。我覺(jué)得這種方法非常好,并基于這個(gè)算法在 MSRA 開(kāi)發(fā)了世界上第一個(gè)實(shí)時(shí)的人臉識(shí)別系統(tǒng)。那個(gè)系統(tǒng)采用的是傳統(tǒng)的人臉識(shí)別算法。
2013、2014 年開(kāi)始,深度學(xué)習(xí)開(kāi)始在人臉識(shí)別得到應(yīng)用,受人工智能技術(shù)的產(chǎn)業(yè)驅(qū)動(dòng),人臉識(shí)別技術(shù)也取得了突飛猛進(jìn)的發(fā)展?,F(xiàn)在的人臉識(shí)別技術(shù)指標(biāo)比當(dāng)年提高了好幾個(gè)數(shù)量級(jí),在中國(guó)已經(jīng)廣泛應(yīng)用。雖然如此,現(xiàn)在人臉識(shí)別仍然存在一些技術(shù)挑戰(zhàn)問(wèn)題,這也是我今天要分享的主題。本次分享,我可能無(wú)法將所有的挑戰(zhàn)和問(wèn)題都涵蓋到,而主要講三個(gè)無(wú)論從算法層面還是應(yīng)用層面都需要進(jìn)一步解決的挑戰(zhàn)問(wèn)題:
第一,巨量類別的模式識(shí)別問(wèn)題。人臉識(shí)別、辨別現(xiàn)在的應(yīng)用可能達(dá)到成百萬(wàn)、千萬(wàn)級(jí)別了,涉及到對(duì)這么多數(shù)量的類別的模式識(shí)別,必然存在一些問(wèn)題。例如中國(guó)一個(gè)省或者一個(gè)中等城市,人口就幾百萬(wàn)甚至幾千萬(wàn),其中就涉及到多數(shù)量的類別的模式識(shí)別問(wèn)題,那這該如何解決呢?
第二,人臉?lè)纻螁?wèn)題。現(xiàn)在在人臉識(shí)別如刷臉支付等場(chǎng)景中常面臨照片攻擊問(wèn)題,包括支付寶等應(yīng)用當(dāng)年也曾被破解過(guò),因而他們也對(duì)此做了很多的努力。
第三,復(fù)雜光照問(wèn)題。2005 年前后我一直在尋求光照問(wèn)題解決方案,這是由于當(dāng)年基于可見(jiàn)光圖像的識(shí)別算法水平比較低,基本上無(wú)法達(dá)到應(yīng)用要求。我嘗試使用前端近紅外成像光電硬件+算法軟件一體化的方法,比較好地實(shí)現(xiàn)了配合和半配合(比如刷臉認(rèn)證、閘機(jī)通道的身份識(shí)別)條件下的人臉識(shí)別技術(shù)要求并實(shí)現(xiàn)了產(chǎn)品化。
常用的歐式距離分類,可以用一個(gè)魔方的小方格塊來(lái)描述,把每個(gè)人臉特征裝進(jìn)魔方中的一個(gè)小塊中,這樣的分布下,歐式距離基本上無(wú)法對(duì)這些類別進(jìn)行有效的分類,更不用說(shuō)密密麻麻地排列幾萬(wàn)甚至幾十萬(wàn)個(gè)類別。而從數(shù)據(jù)分析的角度來(lái)看,高維空間的數(shù)據(jù)分布跟這種魔方中小方塊的分布是不一樣的。在高維空間的均勻隨機(jī)分布,大部分?jǐn)?shù)據(jù)樣本都在魔方的角上,也就是說(shuō)不同類別的數(shù)據(jù)之間是正交的關(guān)系,并且可以證明隨機(jī)樣本間相對(duì)歐式距離趨于零。所以在高維空間,在類別數(shù)量非常多的情況下,如果采用歐式距離度量方法,識(shí)別性能必然得不到保障。
在高維空間采用樣本間的夾角作為距離度量能夠取得比較好的結(jié)果,所以現(xiàn)在用的方法大都基于 Angular Similarity。
我們把樣本映射到一個(gè)高維球面的分布,不同類的樣本是角度可分而距離不可分的。幾十萬(wàn)個(gè)類,每個(gè)都在在球面上占據(jù)一小塊,利用夾角進(jìn)行分類。在深度學(xué)習(xí)以前就已經(jīng)有研究者研究和應(yīng)用 Angular Similarity,而在 2016 年、2017 年,尤其是 2018 年和今年,這種按角度進(jìn)行分類的人臉識(shí)別研究論文發(fā)表比較多,例如今年 CVPR 2019 大概就有六七篇論文就是研究這個(gè)問(wèn)題的。
該方法主要有三個(gè)特點(diǎn):
第一個(gè)特點(diǎn)是 Angular Loss,即在訓(xùn)練神經(jīng)網(wǎng)絡(luò)的時(shí)候,采用按角度劃分類的方法。
第二個(gè)特點(diǎn)是在夾角損失函數(shù)中引入了 Margin,即相鄰兩類的分界面并不是一個(gè)簡(jiǎn)單的夾角分界面,而是兩個(gè)夾角分界面,其間留有一定的裕量,這樣在測(cè)試或使用階段才能更好地分類。
第三個(gè)特點(diǎn)是 Imbalanced Data,比如說(shuō)在下圖中,一個(gè)人最多有幾千張圖,最少的只有三、五張圖,并且大部分的類別數(shù)量都非常少,針對(duì)這樣的長(zhǎng)尾分布問(wèn)題,我的學(xué)生提出了一個(gè)方法——AdaM-Softmax,即邊際隨著每類的樣本數(shù)量進(jìn)行自適應(yīng)變化,相關(guān)的論文《AdaptiveFace: Adaptive Margin and Sampling for Face Recognition》也在今年 CVPR2019 上發(fā)表。
下面這個(gè)圖比較幾種方法的 Angular Loss 方案:Softmax 方法 中的第一類和第二類之間就是一根直線;SphereFace 按角度來(lái)分類;CosFace 是球面的,并且各類之間有一個(gè)cosine 裕量;ArcFace 則留有夾角裕量,該方法的應(yīng)用效果在論文上看似乎是最好的,比前面幾個(gè)好一丁點(diǎn)。ArcFace 開(kāi)源了代碼,現(xiàn)在很多公司和院校都在使用。
AdaM-Softmax 與前述引入 Margin 裕量方式不同,AdaM-Softmax 中每類都有不同的邊界值,而非采用固定值。實(shí)現(xiàn)的方法是引入了一個(gè) Margin 相關(guān)的 Loss,乘以權(quán)重 Symbol 后加入到總體 Loss。這樣訓(xùn)練出來(lái)的網(wǎng)絡(luò),在處理數(shù)據(jù)不平衡條件下,表現(xiàn)更好。
在上圖(右側(cè))中,縱軸表示類別分別有 20、40、60、80 以及 100 個(gè)樣本,橫軸表示相應(yīng)的 Margin。我們可以看出,每類的樣本數(shù)量越 多,它的邊際值就越小,我認(rèn)為這個(gè)趨勢(shì)是合理的,實(shí)際上達(dá)到了預(yù)期的效果。
人臉?lè)纻蔚男枨笾饕嬖谟谏矸菡J(rèn)證等場(chǎng)景,舉兩個(gè)實(shí)際發(fā)生的例子,第一個(gè)案例:幾年前有一名中國(guó)福建籍的男子化妝成一位老人通過(guò)了加拿大的海關(guān),但是之后有人發(fā)現(xiàn)他臉上皺紋巴巴的,而手卻細(xì)皮嫩的,后來(lái)被查出。第二個(gè)案例:今年 6 月份的時(shí)候,下圖右側(cè)這個(gè)人被曝出身份造假,并且與美國(guó)政府高官勾搭上了,最后被查出來(lái)這張臉是生成的。但是我們用肉眼來(lái)看,她的臉?lè)浅1普妗Ec機(jī)器人臉識(shí)別相關(guān)的采用偽造人臉攻擊成功的案例當(dāng)屬當(dāng)年支付寶被人用照片打印和手機(jī)屏幕顯示攻擊破解,其后支付寶做了很多技術(shù)防范措施,現(xiàn)在攻擊比較難了,但目前仍然未能達(dá)到預(yù)期的技術(shù)防范強(qiáng)度。
人臉?lè)纻沃饕写蛴 ⑵聊伙@示/視頻重放以及人臉面具三個(gè)類別,防偽的方法則是對(duì)不同類型提取不同的特征。而傳統(tǒng)方法主要對(duì)紋理、三維形狀等提取特征從而區(qū)分真人和假體,其中硅膠是最難 以辨別出來(lái)的類別。這是因?yàn)楸举|(zhì)上,我們需要判別的是「人臉」的皮膚是肉體還是假體,然而硅膠材質(zhì)從成像上來(lái)看與人臉的皮膚很相近,因此在一般情況下很難區(qū)分出來(lái)。
現(xiàn)在基本上采用深度學(xué)習(xí)算法模型解決人臉?lè)纻巍?014 年,我們將深度學(xué)習(xí)引入到了人臉?lè)纻沃?,采用一個(gè)簡(jiǎn)單粗暴的方法——采用正樣本 和負(fù)樣本訓(xùn)練真假人臉?lè)诸惼?。還有一種方法是利用人機(jī)應(yīng)答的方式,看看「人臉」是否能做眨眼、搖頭等動(dòng)作。此外還有利用三維結(jié)構(gòu)來(lái)判斷人臉圖像是平面還是立體。我們?cè)?2011 年提出了多光譜(可見(jiàn)光、近紅外)成像和鑒別的防偽方案,這也是當(dāng)前最普遍采用的方案。
下圖是我們?cè)?CVPR 2019 的人臉?lè)纻胃?jìng)賽上給出的一個(gè) Baseline 方案,將 RGB 、NIR和3D深度圖像信息進(jìn)行了融合:
CVPR 2019 人臉?lè)纻胃?jìng)賽相關(guān)內(nèi)容可參考:http://openaccess.thecvf.com/content_CVPRW_2019/html/CFS/Liu_Multi-Modal_Face_Anti-Spoofing_Attack_Detection_Challenge_at_CVPR2019_CVPRW_2019_paper.html
另外,多年前我在一個(gè)會(huì)議上也看到了一個(gè)非常有意思的工作,這項(xiàng)工作用到了一位 MIT 的碩士提出來(lái)的方法:用可見(jiàn)光對(duì)著人臉拍攝,會(huì)檢測(cè)到人臉皮下的毛細(xì)血管按照心率節(jié)奏在跳動(dòng)。
我當(dāng)時(shí)就想到這個(gè)方法可以用到人臉?lè)纻紊?,但是我嘗試后發(fā)現(xiàn)實(shí)際是不可行的——就算你對(duì)著一張白紙拍攝,也能檢測(cè)到心率節(jié)奏的跳動(dòng),這是因?yàn)樵摲椒ú捎玫氖歉盗⑷~變換,總能檢測(cè)到周期性的,比如燈光下的 50Hz,總會(huì)有一些微小的東西將幅度最大的頻率分量提取出來(lái)。后來(lái)看到有一些相關(guān)的論文發(fā)表,我估計(jì)實(shí)驗(yàn)結(jié)果應(yīng)該離實(shí)用還有段距離,但我覺(jué)得這個(gè)思路不錯(cuò),如果要把它做成實(shí)用,只從算法上解決是不夠的,必須在前端光電硬件上有所創(chuàng)新,才能解決其中的關(guān)鍵問(wèn)題。
現(xiàn)在的人臉識(shí)別算法在受控良好光線環(huán)境中的識(shí)別效果已經(jīng)很好了,但在工地、地鐵入口等光線不受控的場(chǎng)景中仍然無(wú)法正常使用,包括計(jì)算機(jī)視覺(jué)領(lǐng)域的獨(dú)角獸公司提出的算法都還無(wú)法解決這個(gè)問(wèn)題,這是因?yàn)椴杉膱D像就已經(jīng)難以恢復(fù)成正常光照被正常識(shí)別了。在這種情況下,還需要從前端的光電硬件上想辦法,從圖像獲取階段去解決這個(gè)挑戰(zhàn)問(wèn)題。而采用近紅外主動(dòng)光源照射成像,是一個(gè)解決方案。
采用近紅外成像的方案,就需要解決異質(zhì)圖像人臉識(shí)別問(wèn)題。該方案能夠比較好地解決光照問(wèn)題,2005年開(kāi)始就在深圳羅湖海關(guān)得到實(shí)際使用了。不過(guò),當(dāng)時(shí)相關(guān)單位也給我提出了一個(gè)問(wèn)題:雖然效果不錯(cuò),但是存在限制,就是必須要使用近紅外人臉圖像進(jìn)行注冊(cè),那如果只有身份證照片注冊(cè)呢,該怎么解決這個(gè)問(wèn)題?為此我提出了異質(zhì)人臉識(shí)別的方法。有兩個(gè)方案:
第一個(gè)思路是將近紅外的圖像轉(zhuǎn)化為可見(jiàn)光的圖像,然后用可見(jiàn)光人臉?biāo)惴ㄗ銎ヅ洌?/p>
另一個(gè)思路是,從近紅外和可見(jiàn)光兩種不同的圖像中學(xué)習(xí)共同特征。例如在2007年,我們的團(tuán)隊(duì)也提出了一種采用 CCA 提取共同特征的的方法。
參考:Dong Yi,Rong Liu,RuFeng Chu,Zhen Lei,Stan Z. Li, "Face Matching Between Near Infrared and Visible Light Images" ICB-2007
論文地址:https://link.springer.com/content/pdf/10.1007%2F978-3-540-74549-5_55.pdf
除此之外,提取不同圖像共同特征的方法還有:對(duì)兩類圖像的各個(gè)局部特征進(jìn)行處理、濾波,從而提取出一些共同特征;用傳統(tǒng)的方法提取特征后,再用深度網(wǎng)絡(luò)進(jìn)行不同圖像的特征變化(如下圖)。這種方法很容易實(shí)現(xiàn)端到端的訓(xùn)練。
現(xiàn)在最新的方法是采用深度學(xué)習(xí)技術(shù),通過(guò)深度網(wǎng)絡(luò)的非線性映射,提取出可見(jiàn)光、近紅外圖像的人臉隱空間表示,以隱變量的均值來(lái)表示每一個(gè)人臉的內(nèi)在 ID ,以分布方差表示外部影響如光照、姿態(tài)等。近紅外、可見(jiàn)光人臉的兩個(gè)隱空間中隱變量分布之間的差異,可以通過(guò)概率和拓?fù)溆成涞姆椒▉?lái)彌補(bǔ),最終實(shí)現(xiàn)全光照條件下可靠的人臉識(shí)別。
雷鋒網(wǎng) AI 科技評(píng)論報(bào)道。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。
本專題其他文章