0
本文作者: 周蕾 | 2019-08-14 21:22 | 專題:CCF-GAIR 2019 |
雷鋒網(wǎng)按:2019第四屆全球人工智能與機(jī)器人峰會(huì)(CCF-GAIR 2019)于深圳正式召開。峰會(huì)由中國計(jì)算機(jī)學(xué)會(huì)(CCF)主辦,雷鋒網(wǎng)、香港中文大學(xué)(深圳)承辦,深圳市人工智能與機(jī)器人研究院協(xié)辦,得到了深圳市政府的大力指導(dǎo),是國內(nèi)人工智能和機(jī)器人學(xué)術(shù)界、工業(yè)界及投資界三大領(lǐng)域的頂級(jí)交流博覽盛會(huì),旨在打造國內(nèi)人工智能領(lǐng)域極具實(shí)力的跨界交流合作平臺(tái)。
IEEE Fellow、前美國Fiserv東亞及東南亞總裁王強(qiáng)博士帶來了題為《3D人臉識(shí)別與開放金融平臺(tái)》的主題演講。
以下為王強(qiáng)博士演講全文,雷鋒網(wǎng)做了不改變原意的編輯如下:
我今天跟大家分享的是,將會(huì)對(duì)金融支付產(chǎn)生重要影響的三維視覺及開放銀行框架。
大家知道金融領(lǐng)域,最關(guān)鍵的問題之一是身份識(shí)別KYC(know your customers),KYC最難的地方在于怎么識(shí)別你的客戶,這在金融場景獲客、反欺詐、風(fēng)控和貸后環(huán)節(jié)非常關(guān)鍵,我的一個(gè)觀點(diǎn)是:金融場景都是偽場景,只有獲得便捷高頻支付的金融場景才是真正可靠的金融場景。
大家知道現(xiàn)在iPhone X可以做人臉支付,人臉支付也存在了好多年,表面看起來應(yīng)用也較為成熟,但其實(shí)它不斷面臨的難題和新挑戰(zhàn)一直困擾著全球?qū)W術(shù)和產(chǎn)業(yè)界。行業(yè)有這么一個(gè)現(xiàn)象,每一項(xiàng)新技術(shù)的突破,背后也將不斷涌現(xiàn)出新的安全破解方法。
其實(shí)蘋果三維人臉識(shí)別的部分專利,也是由我的團(tuán)隊(duì)所研究。而我今天在這里面將會(huì)給大家,分享什么樣的三維人臉識(shí)別算法,可以在工業(yè)界達(dá)到頂尖的安全標(biāo)準(zhǔn),抵御風(fēng)險(xiǎn),并能高于指紋、聲維等生物特征支付的安全性,并具備極高的防抵賴和防破解能力。
我們知道,近些年ResNet和GAN的發(fā)展對(duì)AI起到了非常大的幫助?,F(xiàn)在我們把時(shí)間撥回到上個(gè)世紀(jì),計(jì)算機(jī)視覺之父David Marr曾把計(jì)算機(jī)視覺分為三個(gè)階層。
二維基素圖(2-D sketch)
視覺過程的第一個(gè)階段,以人臉圖像來看,是圖像中強(qiáng)度變化劇烈處的位置及其幾何分布和組織結(jié)構(gòu),人臉中用到的包括斑點(diǎn)、端點(diǎn)、邊緣片斷、有效線段、線段組、曲線組織、邊界等基元,這些稱為人臉基素圖,都是在檢測零交叉的基礎(chǔ)上產(chǎn)生。目前人臉識(shí)別大都是二維圖像,這也是處理第一步進(jìn)行零交叉檢測生產(chǎn)人臉基元。
Marr認(rèn)為所有圖像的變化,都是從視覺和感覺兩個(gè)方向看待的。人臉一旦有明暗或者有一個(gè)完全突變的過程,他認(rèn)為這就是一個(gè)元素。這一階段的目的在于把原始人臉二維圖像中的重要信息更清楚地表示出來。
2.5維要素圖
這是視覺過程的第二階段,拿人臉來說,通過RGB等處理,將線條、點(diǎn)和斑點(diǎn)以不同的方式組織起來而獲得2.5維人臉圖。以人眼的仿生視覺過程被稱為中期視覺。2.5維人臉圖是在以觀察者為中心的坐標(biāo)系中,可見表面的法線方向、大致的深度以及它們的不連續(xù)輪廓等要素,其中用到的基元包括可見表面上各點(diǎn)的法線方向、和各點(diǎn)離觀察者的距離(Deep)、深度上的不連續(xù)點(diǎn)、表面法線方向上的不連續(xù)點(diǎn)等等。
由于這個(gè)階段中包含了深度的信息,因而比二維人臉圖像要多,但還不是真正的三維表示,所以得名2.5維人臉圖,大家可能看得比較清楚。你用人眼視角看,不能完全看到整個(gè)三維的情況,后面會(huì)有遮擋的情況。按Marr的理論,這個(gè)階段是由一系列相對(duì)獨(dú)立的處理模塊組成的。
這些處理模塊包括:體現(xiàn)、運(yùn)動(dòng)、由表面明暗恢復(fù)形狀、由表面輪廓線恢復(fù)形狀、由表面紋理恢復(fù)形狀等。它的作用是揭示一個(gè)圖像的表面特征。Marr指出,早期任何視覺加工的目標(biāo)就是要建立一個(gè)2.5維的要素圖,這是把一個(gè)表面解釋為一個(gè)特定的物體或一組物體之前的最后一步。
基于二到二點(diǎn)五到三維重建的技術(shù)的三維模型表征(3-D model representation)
他是以人臉為中心的坐標(biāo)系中,用含有體積基元(即表示形狀所占體積的基元)和面積基元的模塊化分層次表象,描述形狀和形狀的空間組織形式,其表征包括容積、大小、形狀及姿態(tài)變化后體積基元的變化,包括現(xiàn)在成熟一些的云三維重建技術(shù)等,這個(gè)領(lǐng)域全球的科學(xué)家從1980年耕耘到現(xiàn)在將近有40年。進(jìn)度一直受限于很多原因:一是傳感器和算力,二是攝像機(jī)和三維人臉樣本庫及標(biāo)注。
早期三維攝像機(jī)都非常昂貴,動(dòng)輒幾十萬美金,成本一般人確實(shí)無法承受,同時(shí)獲取圖像基素符號(hào)也受到距離和精度的影響。
在這其中,三維世界里最難處理的問題是姿態(tài)的調(diào)整,面對(duì)物體剛性的變化,三維重建比較容易解決;但面對(duì)柔性剛體的對(duì)象,比如人臉這類柔性姿態(tài)形變的時(shí)候,三維技術(shù)就很難處理。
三維重建分為接觸類、非接觸類和透視類三大類。
接觸式三維重建:包括3D打印、3D掃描、三維機(jī)械鑄造等;
透視類三維重建主要在醫(yī)學(xué)領(lǐng)域,包括MR和CT等醫(yī)療影像領(lǐng)域;
非接觸式三維重建包含光學(xué)與非光學(xué)兩類:
非光學(xué)三維重建,比較常見為激光雷達(dá)和聲納等方式,現(xiàn)在激光雷達(dá)的發(fā)展非常迅速,但它的最大問題是效率較低;而聲納的優(yōu)勢在于掃描寬度很大,但精度不夠。激光雷達(dá)和聲吶的三維重建更多用于工業(yè)場景,對(duì)于生活場景和金融場景是做不到的。
光學(xué)重建有分為被動(dòng)光學(xué)和主動(dòng)光學(xué)的重建。三維重建里有三類最為重要光學(xué)重建技術(shù):主動(dòng)光學(xué)的TOF、結(jié)構(gòu)光和被動(dòng)光學(xué)的雙目和奪目立體視覺;結(jié)構(gòu)光有分為編碼結(jié)構(gòu)光和散斑結(jié)構(gòu)光。
TOF
雙目立體視覺(Binocular Stereo Vision)
3D結(jié)構(gòu)光
結(jié)構(gòu)光最常見的應(yīng)用場景就是iPhoneX的刷臉解鎖。其實(shí)蘋果十年前就在布局結(jié)構(gòu)光技術(shù),其中部分專利來自當(dāng)時(shí)我所負(fù)責(zé)的團(tuán)隊(duì)和一家以色列公司合作研發(fā)的。其實(shí)蘋果的3D結(jié)構(gòu)光技術(shù)首先得感謝微軟的一代Kinect,它是這一技術(shù)大規(guī)模應(yīng)用的集大成者。
目前按照移動(dòng)設(shè)備領(lǐng)域,據(jù)報(bào)道,TOF領(lǐng)域全球布局的手機(jī)巨頭只有OPPO一家。應(yīng)用編碼結(jié)構(gòu)光的有小米、VIVO、應(yīng)用散斑結(jié)構(gòu)光只有蘋果一家;雙目立體光主要是華為。
而主動(dòng)光源主要基于RGB 及D(深度信息),研究者從RGB及灰度中提取斑點(diǎn)、端點(diǎn)、邊緣片斷、有效線段、線段組、曲線組織、邊界等紋理變化基素;從D(Deep)提取表面上各點(diǎn)的法線方向、和各點(diǎn)離觀察者的距離(Deep)、深度上的不連續(xù)點(diǎn)、表面法線方向上的不連續(xù)點(diǎn)等曲面特征和紋理特質(zhì)進(jìn)行三維點(diǎn)云重建等來打造工業(yè)場景。預(yù)估蘋果也在被動(dòng)光學(xué)里布局雙目立體。
無論是TOF、結(jié)構(gòu)光還是雙目立體,他們目前在人臉識(shí)別領(lǐng)域還面臨很多問題。
TOF是不可見的面積光,人臉面積最大也就是500-600平方厘米,TOF的一面光打過來大概會(huì)有30多萬個(gè)有效深度信息點(diǎn),30萬點(diǎn)掃描到人臉時(shí),像素的精度差不多到微米級(jí),1/10毫米的精度。它所獲得你的景深、RGB值、灰度值是非常準(zhǔn)確的。同時(shí)它獲得最關(guān)鍵的值是人臉的表面紋理、深度紋理及法線曲度等細(xì)粒度特征信息,其結(jié)果也非常精確。
結(jié)構(gòu)光目前最多現(xiàn)在有10萬個(gè)點(diǎn),iPhone X的散斑結(jié)構(gòu)光方案是3萬個(gè)結(jié)構(gòu)光點(diǎn),所有投射過來通過類毛玻璃慢衍射形成的斑點(diǎn)集合,用統(tǒng)計(jì)學(xué)原理及互相關(guān)函數(shù)等來模擬三維結(jié)構(gòu)化重建過程。
從光學(xué)的角度來說,采集到基素及要素信息之后,如何進(jìn)行快速計(jì)算,然后再用三維場景重建,現(xiàn)在所有的方法都是2維變成2.5維。David Marr提到的方式,也是二維到二點(diǎn)五維到三維。在這個(gè)過程中大家用了很多方法包括幾何方法、統(tǒng)計(jì)學(xué)方法及點(diǎn)云等進(jìn)行三維重建,其實(shí)沒有太多大的進(jìn)展。
三維最高端的應(yīng)用場景就是三維人臉識(shí)別,但它面臨很多的挑戰(zhàn):
姿態(tài)的變化
比如蘋果人臉解鎖,人的雙目需要緊盯著它的屏幕,否則就無法解鎖;此外,如果人的身體有后仰或者張嘴大笑,也無法解鎖,不過如果你經(jīng)常笑,它可以自動(dòng)學(xué)習(xí)進(jìn)行解鎖。
離線學(xué)習(xí)能力
iPhoneX如此大的出貨量,仍舊保持超高體驗(yàn)的三維人臉識(shí)別率,可見其背后的離線學(xué)習(xí)能力之強(qiáng)大。像國內(nèi)業(yè)內(nèi)知名的人臉識(shí)別公司,他們的算法縱使厲害,但在如此大規(guī)模的實(shí)際場景中,它們的三維人臉可以脫離GPU或TPU,實(shí)現(xiàn)多大規(guī)模的高效離線計(jì)算呢?目前他們還沒有這么大的用戶量去考驗(yàn)。
三維人臉識(shí)別最大的障礙是算力不夠,我們沒有像樣的芯片。據(jù)相關(guān)資料分析,目前能提供這樣芯片的大概有5家,國內(nèi)一家、微軟、英特爾、蘋果、Mantis Vision,同時(shí)這些芯片幾乎都是輸出RGB和D值,提供基素信息,但是復(fù)雜的要素檢測、三維重建、標(biāo)注、識(shí)別及姿態(tài)矯正、局部到全局的泛化需要具有嵌入各類模型算法的算力芯片。
從數(shù)據(jù)上看,我們認(rèn)為目前算力最強(qiáng)的,還是蘋果收購的PrimeSense,它可以做離線運(yùn)算出RGBD值及三維重建模型匹配給蘋果A11-A12運(yùn)算器進(jìn)行人臉模型計(jì)算,將復(fù)雜模型計(jì)算進(jìn)行分布式部署,同時(shí)三維人臉模型數(shù)量遠(yuǎn)遠(yuǎn)低于二位人臉模型數(shù)量(以商湯240特征點(diǎn)模型為例來比較),降低芯片算力要求。
這里我需要強(qiáng)調(diào)一點(diǎn),并不是所有算法都可以進(jìn)行離線運(yùn)算,它后臺(tái)要有結(jié)構(gòu)化分布式的算法邏輯模型及少量的模型數(shù)量才能保證降維情況下離線運(yùn)算,要樣本少、維度低才可以做到。
誤解率
蘋果號(hào)稱有百萬分之一的誤解率,國內(nèi)好幾家也達(dá)到這個(gè)級(jí)別。目前沒有足夠的數(shù)據(jù)支撐它達(dá)到這么高,相關(guān)的原理也沒有公開過。
算力
芯片的能力,具備結(jié)構(gòu)化的分布式算法模型計(jì)算能力,要求基素、要素及特征模型分布式協(xié)調(diào)并行計(jì)算能力,既有分布式又有交互計(jì)算的運(yùn)算框架,這個(gè)要求很高,對(duì)芯片的多框架計(jì)算能力設(shè)計(jì)非常嚴(yán)謹(jǐn)和苛刻。
第一次注冊效率
第一次的注冊用時(shí)非常關(guān)鍵,注冊時(shí)需要很強(qiáng)的少樣本帶自標(biāo)注的自學(xué)習(xí)能力。
來看下我們后面的方案:
原來我在CMU時(shí)的前輩團(tuán)隊(duì)用三維相機(jī)做幾何建模,包括立體光幾何的建模,這屬于被動(dòng)的建模。
發(fā)展到現(xiàn)在,我在美國時(shí)團(tuán)隊(duì)的第一次在全球開始使用主動(dòng)光學(xué)的建模:散斑結(jié)構(gòu)光的建模方式,當(dāng)時(shí)結(jié)構(gòu)光只有3千多個(gè),現(xiàn)在蘋果發(fā)展得很快。
三維建模方式另一個(gè)主要關(guān)鍵是三維人臉庫的問題,現(xiàn)在大容量帶標(biāo)注的三維人臉庫非常少,我們團(tuán)隊(duì)最近幾年嘗試使用S+U方法進(jìn)行三維人臉庫重建及圖像自標(biāo)注研究,人臉方面當(dāng)然這些前提是有獲得RGBD等基素,并具備了三維重建模型基礎(chǔ)進(jìn)行的。
S+U是SimGAN S+U模擬融合無監(jiān)督學(xué)習(xí)算法,是模擬+非監(jiān)督學(xué)習(xí)。
這套算法的實(shí)現(xiàn)過程,它做的第一件事,是先解決粗粒度生產(chǎn)圖像問題,而且粗粒度圖不可出現(xiàn)偏差,那需要對(duì)生成圖像剛體進(jìn)行自標(biāo)注;我們用GAN做對(duì)抗學(xué)習(xí),但GAN它存在很多問題,一個(gè)是局部的對(duì)抗損失或者注重的細(xì)節(jié)沒有做到全局。最關(guān)鍵的是怎么做黑盒模擬器,黑盒模擬器集成了GAN加了CNN的算法,我們在里面做了一個(gè)10×10的Resnet放在里面。
這個(gè)過程中,模擬器的做法是,當(dāng)你的手機(jī)拍到正常臉時(shí),它看到的是真實(shí)照片,模擬器幫你模擬出了合成的圖像,合成圖像是低粒度細(xì)節(jié)的,并對(duì)剛體進(jìn)行標(biāo)注例如眼珠。這是第一個(gè)關(guān)鍵問題。
第二,為了保證圖像更逼真,我們做了細(xì)粒度的網(wǎng)絡(luò),把合成的圖像做細(xì)?;?/strong>,細(xì)?;^程要求你要了解所有人面部的所有細(xì)節(jié)特征、曲面、以及所有紋理,這些數(shù)據(jù)要采集回來,做細(xì)粒化,做細(xì)粒化之后讓真臉圖像和細(xì)?;铣赡槇D像互相對(duì)抗,關(guān)鍵是如何保證學(xué)習(xí)過程不會(huì)過擬合,保證有標(biāo)注參照物,同時(shí)使用統(tǒng)計(jì)學(xué)原理保證標(biāo)注參照物不會(huì)改變情況下,那么大概率其學(xué)習(xí)不會(huì)過擬合或者出現(xiàn)問題,那么萬一出問題怎么辦?后面我們會(huì)有個(gè)懲罰方案,是多個(gè)懲罰函數(shù)模型集合。
其次一個(gè)非常重要的東西是辨識(shí)器,直到辨識(shí)器實(shí)在沒有辦法分清楚細(xì)節(jié)合成和真圖像有什么區(qū)別時(shí),這套學(xué)習(xí)就OK了。
大家都應(yīng)該知道,iPhone X的人臉用戶注冊,大概需要5秒時(shí)間,其中需要用戶左右轉(zhuǎn)臉、點(diǎn)頭等動(dòng)作,注冊過程是全息掃描三維圖像給你。全息掃描是1秒輸出60幀的畫面,也就是60張圖片,5秒達(dá)到了300張。
所以它會(huì)對(duì)300張圖像進(jìn)行離線學(xué)習(xí),對(duì)抗演練,用300張采集的圖像,生成300張合成圖像。然后又生成300張細(xì)?;瘓D像,把原來歷史的合成圖像扔掉,但是我們需要一個(gè)網(wǎng)絡(luò)進(jìn)行講學(xué)習(xí)歷史信息補(bǔ)償回來,他不是個(gè)自編碼網(wǎng)絡(luò),而是一個(gè)全連接網(wǎng)絡(luò),保證它萬一學(xué)習(xí)過擬合,用學(xué)習(xí)的歷史來用激勵(lì)機(jī)制補(bǔ)償它。做完這個(gè)學(xué)習(xí)之后,但發(fā)現(xiàn)合成網(wǎng)絡(luò)在學(xué)習(xí)過程中一定會(huì)有問題,他會(huì)遺失掉一些有用的數(shù)據(jù),有時(shí)會(huì)學(xué)到一些細(xì)節(jié),沒有辦法泛化整個(gè)圖像。
這里面三維結(jié)構(gòu)光帶來非常關(guān)鍵的問題,把所有立體像素RGBD做解析幾何及統(tǒng)計(jì)學(xué)的融合三維重建。相當(dāng)于把1毫米的立體點(diǎn)融合成為剛性的三維模型(體積、面積、法線向量、紋理及要素特征)。
這個(gè)框架是不會(huì)放在現(xiàn)在兩個(gè)對(duì)抗學(xué)習(xí)里面去,當(dāng)發(fā)現(xiàn)我有一組懲罰函數(shù)放在里面,一旦學(xué)習(xí)出了問題,會(huì)懲罰第二個(gè)網(wǎng)絡(luò),然后讓它做糾正或者補(bǔ)充,補(bǔ)充過程中就會(huì)把丟失的東西找回來。像自編碼網(wǎng)絡(luò)但不是自編碼網(wǎng)絡(luò)會(huì)用簡單、低成本找回遺失的數(shù)據(jù)信息。
下一個(gè)問題就是,我們懲罰的方案,最好的方式是能夠讓它兩個(gè)在學(xué)習(xí)過程中,使用更好的學(xué)習(xí)走樣(例如過擬合)的解決方式。預(yù)設(shè)當(dāng)我學(xué)習(xí)了三個(gè)內(nèi)容,辨識(shí)器分別不出兩張的真假,再來第三張圖片,他們?nèi)齻€(gè)同時(shí)在學(xué),組成三個(gè)網(wǎng)絡(luò)互相可以學(xué)、對(duì)抗,最后樣本會(huì)變得越來越大。這里面我們用了全的CNN網(wǎng)絡(luò)來操作RGBD等基素、要素,特別是全局法線特征向量趨勢等特征集,然后來預(yù)處理全局,三維視角里面最大的難點(diǎn)是預(yù)處理。這是非線性的結(jié)構(gòu)化的算法過程。
接下來,這里面有幾個(gè)關(guān)鍵的組成,我們會(huì)限制它學(xué)習(xí)的區(qū)域,不讓它做全臉學(xué)習(xí)。全臉學(xué)習(xí)是不可能的,它只會(huì)做區(qū)域限定,區(qū)域限定是根據(jù)測試結(jié)果來不停調(diào)整區(qū)域限制。再一個(gè)是本地遺失函數(shù),一旦發(fā)現(xiàn)學(xué)過擬合的時(shí)候,我們會(huì)把本區(qū)域內(nèi)遺失的數(shù)據(jù)補(bǔ)償回來。這里面還有一些歷史信息來做補(bǔ)償,還有一組懲罰函數(shù),全局法線向量趨勢泛化模型及懲罰泛化模型,這對(duì)算力的要求比較高。通過這些個(gè)方式做到對(duì)抗學(xué)習(xí),學(xué)習(xí)精度會(huì)變得越來越好。
我們進(jìn)行視覺圖靈測試,讓人選擇它所認(rèn)為真實(shí)和合成的圖像,共800張圖片,400張真實(shí)圖片中人認(rèn)為真實(shí)的有356個(gè),400張合成圖片中人認(rèn)為真實(shí)的有342個(gè),比例趨近于1:1;我們對(duì)400張合成圖片進(jìn)行圖靈測試,人認(rèn)為320個(gè)合成圖片是真實(shí)的圖像。從視覺圖靈測試的1:1規(guī)則變化看,合成圖像從圖靈測試角度已經(jīng)通過。
根據(jù)目前我們的合成三維圖像的表現(xiàn),在我所知的算法里是最高的,當(dāng)然還有很多未知算法的表現(xiàn)我是不知道,MPIIGaze測試表現(xiàn)目前比同行平均高出24.9點(diǎn)多。現(xiàn)在平均二維人臉識(shí)別的精度是99.5%,大樣本下99.8%,MPIIGaze高24.9點(diǎn)多,即可達(dá)到99.9%,目前預(yù)計(jì)可就是百萬分之一的誤解率。
三維人臉工業(yè)領(lǐng)域里,在未來很多領(lǐng)域有非常多的應(yīng)用,比如身份識(shí)別,銀行對(duì)身份證識(shí)別要求非常高,開卡的時(shí)候要求人的識(shí)別準(zhǔn)確率一定是99.9%,支付的時(shí)候也必須是99.9%。同時(shí)我們所說的潛在的應(yīng)用場景,會(huì)受到硬件限制。
三維重建及人臉在醫(yī)學(xué)領(lǐng)域應(yīng)用可以用來做醫(yī)學(xué)美容,三維細(xì)粒度圖像重建與合成,細(xì)粒度的特征醫(yī)學(xué)美容會(huì)讓你的鼻子變得越來越像某個(gè)明星,真的好很多?,F(xiàn)在三維技術(shù)不是特別好的時(shí)候肯定會(huì)走樣。娛樂行業(yè),更厲害美顏需要細(xì)節(jié)化,當(dāng)然對(duì)防抵賴是沒有益處。
人臉技術(shù)應(yīng)用于支付
對(duì)AI方面,我們更多的考慮是基于風(fēng)險(xiǎn)的KYC的問題,二是嚴(yán)苛的身份識(shí)別,包括人臉的賬戶開立、支付、反欺詐、反洗錢、支付安全和支付合規(guī),金融在這個(gè)領(lǐng)域要求特別多,三維做第一人稱、第二人稱欺詐的問題一定會(huì)放在這兒。
其實(shí)金融行業(yè)最擔(dān)心的問題是你用GAN生成人臉去騙過二維人臉支付,二是擔(dān)心拿照片騙過他,三是害怕模具,尤其是通過3D打印出來的反求模具會(huì)騙過人臉,這三個(gè)確實(shí)會(huì)騙到。第四個(gè)活體檢測,活體檢測是最難的問題,你們可能也了解,現(xiàn)在所有的做人臉的廠商做活體檢測要錄一段視頻上去,要和你預(yù)存的視頻進(jìn)行做對(duì)比,回去看你這個(gè)人是不是活的,但時(shí)模型很多,很耗GPU,雖然現(xiàn)在又靜默活體,GAN依然能生成靜默活體視頻,去欺騙他。
GAN生成的視頻完全可以欺騙過全球最厲害的二位人臉識(shí)別系統(tǒng),這樣二維人臉就沒有辦法用到金融方面強(qiáng)交易安全的場景,特別是開戶、支付兩個(gè)環(huán)節(jié)。有三維人臉技術(shù)之后,15000的特征點(diǎn),讓假冒幾乎成為不可能。
我們團(tuán)隊(duì)將很快會(huì)出來創(chuàng)業(yè)。我們可以看到金融最難的問題是獲客,大家都談獲客,用智能或者什么手段,其實(shí)都沒有解決最重要的問題。我這幾年一直考慮,怎么甄別你的場景?
其實(shí)真正的金融場景就是高頻和快捷的支付為入口,那么支付局面大家可知;另外怎么看你客戶的旅程,你怎么看金融服務(wù)的旅程,怎么讓金融服務(wù)的旅程和客戶的旅程能夠綁定在一起,這是很重要的,是做自己所有的行為,但是金融的過程是完全不能Match客戶行為里面的內(nèi)容,這里面有很多的維度它做不到。
這里面我們會(huì)提供一個(gè)金融大腦平臺(tái),這個(gè)平臺(tái)第一關(guān)鍵的是KYC的身份識(shí)別(包括我們的二維人臉、三維人臉及交叉驗(yàn)證信息),第二是因?yàn)閳鼍胺經(jīng)]法將他的數(shù)據(jù)特別是支付交易數(shù)據(jù)給金融機(jī)構(gòu),那我們需要金融大腦嵌入到場景方,讓數(shù)據(jù)不出場景控制,而且能通過深度學(xué)習(xí)模型獲得精準(zhǔn)客戶,提升場景方轉(zhuǎn)化率,同時(shí)金融機(jī)構(gòu)會(huì)得到他想要的客戶。
原來我在沃森做的一件事是跟AMA做的商業(yè)決策搜索,剛剛和向江旭總談的情況類似,我弄了幾十萬個(gè)報(bào)告,用了一個(gè)隱馬爾可夫模型的算法來看它的詞,這個(gè)詞匯包括剛才沈劍平總也講了這個(gè)問題,你的語料庫很重要,語料庫是非常龐大的,包括某些著名搜索公司也不會(huì)建立龐大的的物料庫,因?yàn)槌杀咎撸悴贿^來,3×3次方的物料,九次方的詞庫。
OCR應(yīng)用于征信報(bào)告
在這里我們會(huì)基于金融大腦平臺(tái)建立自己的Finacial Supermarket,是比較超級(jí)的金融平臺(tái)。這個(gè)超級(jí)平臺(tái)第一個(gè)問題是先解決線上貸款問題,貸款最關(guān)鍵的是征信報(bào)告,我們自己做OCR進(jìn)行征信報(bào)告識(shí)別,前段時(shí)間我們自己的團(tuán)隊(duì)想用一些著名AI公司OCR,但人家覺得我們給錢太少,沒有動(dòng)力搞定,被迫最后我們自己做,現(xiàn)在我們的識(shí)別率到99.7,還不錯(cuò),喂報(bào)告有40多份差不多就96%多了,喂到一千多份字段級(jí)到99%。我們的算法就是圖像檢測算法,不是光學(xué),然后進(jìn)行標(biāo)注,學(xué)習(xí)。第二步太模糊的時(shí)候,可做些語義分析,最后做HHM切詞,做到三點(diǎn)精度就可以提到比較高。
同時(shí)里面的表格還是用人臉檢測的方法,把單元格全部切片,用FAST視角定位切片出來,像邊線不夠好的地方我們做了補(bǔ)償,差不多做了3個(gè)多月。
我們的超級(jí)平臺(tái),里面有幾個(gè)東西比較有意思,一是金融大腦嵌入場景自學(xué)習(xí)算法模型,二是基于以O(shè)CR征信報(bào)告解析為代表的非結(jié)構(gòu)化輔助數(shù)據(jù)結(jié)構(gòu)化及驗(yàn)證,三是現(xiàn)在大家都做的DMP平臺(tái),這個(gè)DMP平臺(tái)是基于金融大腦及類腦計(jì)算,當(dāng)然關(guān)鍵還是數(shù)據(jù),強(qiáng)關(guān)聯(lián)數(shù)據(jù)和行為數(shù)據(jù),最關(guān)鍵帶場景模擬機(jī)及自學(xué)習(xí)能力;還有就是金融大腦研究,很重要,我們用Lucy的方法做IDDS的東西,我們做四庫,知識(shí)庫、常識(shí)庫,很多人只想做知識(shí)庫不做常識(shí)庫,這是誤區(qū),常識(shí)庫積累非常難,兩塊互補(bǔ)。然后進(jìn)行對(duì)抗。
我們最近研究對(duì)抗比較多,知識(shí)和常識(shí)的轉(zhuǎn)換,什么時(shí)候變成常識(shí),我要搜索外圍所有的定理和常理來看你所有的行為,外面有很雜繞的有很多噪聲的物料庫,這個(gè)庫是我們在里面扔垃圾或者回收垃圾的庫。這里面最關(guān)鍵的是爬蟲,你去爬所有的資料,這都會(huì)扔到垃圾庫里,切掉,互相對(duì)抗學(xué),學(xué)出來最好的放到常識(shí)預(yù)備庫,然后做規(guī)則匹配,讓預(yù)備庫變成正式庫,最后面要看知識(shí)庫的責(zé)任了。和我們設(shè)計(jì)風(fēng)險(xiǎn)模型的方式一樣,先有規(guī)則,然后才有策略,有了策略才能切分人群,按不同X值和Y進(jìn)行對(duì)照組合學(xué)習(xí)等。按照人類腦的方法做,有了常識(shí)、規(guī)則之后才會(huì)有知識(shí)。
在這個(gè)超級(jí)金融平臺(tái)上,我們還會(huì)做開放的金融平臺(tái),做了一鍵接入,包括共享SIT、共享開發(fā)、共享項(xiàng)目管理,包括身份平臺(tái),特別關(guān)鍵的是我們將要共建了一些標(biāo)準(zhǔn),數(shù)據(jù)交換的標(biāo)準(zhǔn),還做了包括系統(tǒng)管理級(jí)的東西,還有場景,比較亮點(diǎn)的是場景沙箱,很多銀行說要場景獲客,其實(shí)看了別人的場景覺得到底能不能用,把產(chǎn)品、服務(wù)流程等東西扔進(jìn)去之后,模擬未來給他帶來收益,基于風(fēng)險(xiǎn)的收益,權(quán)衡收益多少。
重點(diǎn)是,我們做的是一個(gè)平臺(tái),同時(shí)定制化,公共平臺(tái)包括金融大腦、類腦計(jì)算、OCR、Tensor Flow、Hadoop等,還有些定制化,包括場景、開放API、面對(duì)不同產(chǎn)品的場景嵌入模型,我們完全用微服務(wù)架構(gòu)。我們這個(gè)微服務(wù)架構(gòu)不是大家想的那樣,是一個(gè)微服務(wù)可以實(shí)現(xiàn)好幾個(gè)重要功能,但是從業(yè)務(wù)邏輯實(shí)現(xiàn),我們沒有按照現(xiàn)在流行的方法做,我們的水平達(dá)不到流行的方法,我們是按照功能來切分微服務(wù)大小。NLP目前使我們團(tuán)隊(duì)短板,確實(shí)也很難,我們正在積極和一些全球著名團(tuán)隊(duì)合作。
最后,我們考慮建立基于數(shù)據(jù)安全、隱私保護(hù)、雙向鑒權(quán)和共享標(biāo)準(zhǔn)的,數(shù)據(jù)地圖,這個(gè)地圖大家比較清楚,這些都會(huì)在風(fēng)控模型上用到,這些數(shù)據(jù),從風(fēng)控角度來時(shí)第一個(gè)是看重征信報(bào)告的數(shù)據(jù),第二個(gè)是通過多方驗(yàn)證的第三方數(shù)據(jù),第三個(gè)是金融支付(支付模型結(jié)構(gòu))數(shù)據(jù)。
大家知道做零售貸款,所有的行為數(shù)據(jù)都是沒有用的,都是無相關(guān)數(shù)據(jù),最重要的是征信數(shù)據(jù)。其他數(shù)據(jù)我們不太看。第二方面,目前風(fēng)控模型對(duì)所有的策略和權(quán)重都是半監(jiān)督學(xué)習(xí)、我們模式不同,使用深度學(xué)習(xí)方法,包括統(tǒng)計(jì)分析及關(guān)聯(lián)學(xué)習(xí)等,我們不會(huì)Y的值和一群X就粗暴地處理,組合式分出權(quán)重,我們更看重最后的表現(xiàn)。
當(dāng)然這些風(fēng)險(xiǎn)要有足夠大的樣本,我們大概有15萬個(gè)客戶的樣本,額度是在日均25萬,其實(shí)模型還是較健壯的,現(xiàn)在采納了40多家銀行,我們未來目標(biāo)希望和大的金融機(jī)構(gòu)進(jìn)行合作共同建模,用歷史數(shù)據(jù)來優(yōu)化模型,同時(shí)我們開源這些模型和金融大腦平臺(tái),真正做到超級(jí)開放平臺(tái)。
雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。
本專題其他文章