0
本文作者: 蔣寶尚 | 2020-08-14 11:56 |
作者 | 蔣寶尚、周蕾
8月7日-8月9日,2020年全球人工智能和機器人峰會(簡稱“CCF-GAIR 2020”)在深圳如期舉辦!CCF-GAIR由中國計算機學會(CCF)主辦,香港中文大學(深圳)、雷鋒網(wǎng)聯(lián)合承辦,鵬城實驗室、深圳市人工智能與機器人研究院協(xié)辦,以“AI新基建 產(chǎn)業(yè)新機遇”為大會主題,致力打造國內(nèi)人工智能和機器人領域規(guī)模最大、規(guī)格最高、跨界最廣的學術(shù)、工業(yè)和投資領域盛會。
8月9日上午,在「聯(lián)邦學習與大數(shù)據(jù)隱私專場」上,同盾科技人工智能研究院首席專家李宏宇博士做了題為「同盾智邦-知識聯(lián)邦平臺:打造數(shù)據(jù)安全的人工智能生態(tài)系統(tǒng)」的演講。
李宏宇:同盾科技人工智能研究院首席專家,師從國際模式識別學會會士、芬蘭模式識別協(xié)會主席Jussi Parkkinen教授,相繼獲得復旦大學以及東芬蘭大學計算機科學博士學位。曾任同濟大學軟件學院副教授、博導。李宏宇博士在圖像處理和分類、生物特征識別、OCR、機器學習和深度學習等人工智能的多個領域有著深厚造詣和應用成果,在國際權(quán)威學術(shù)期刊和一流的國際會議上發(fā)表了近80篇學術(shù)論文,發(fā)明專利20余項,出版專著1部。
以下是李宏宇在大會的演講實錄,AI科技評論作了不修改原意的整理和編輯:
今天演講主題是《同盾智邦-知識聯(lián)邦平臺:打造數(shù)據(jù)安全的人工智能生態(tài)系統(tǒng)》。那么什么是知識聯(lián)邦?作為一個新的概念,它背后代表著知識共創(chuàng)可共享。具體而言,通過知識的共創(chuàng)和共享,從而實現(xiàn)數(shù)據(jù)的可用不可見。
從知識的形成的過程來看:從數(shù)據(jù)到信息,再到知識,最后到利用知識形成決策,知識聯(lián)邦的目的是希望能夠利用各種知識,包括訓練出來的模型知識以及邏輯規(guī)則等已有的先驗知識。
我下面將從背景、相關(guān)概念和應用的場景分別探討知識聯(lián)邦。
人工智能的發(fā)展離不開數(shù)據(jù)的支撐,但是現(xiàn)在數(shù)據(jù)孤島是普遍存在的現(xiàn)象。例如,機構(gòu)間存在數(shù)據(jù)孤島,企業(yè)內(nèi)部也存在數(shù)據(jù)孤島。更有研究表明,現(xiàn)在有92%的企業(yè)內(nèi)部存在非常嚴重的數(shù)據(jù)孤島的現(xiàn)象。
其實,解決數(shù)據(jù)孤島不僅是簡單地把數(shù)據(jù)匯集起來,還需要考慮數(shù)據(jù)安全問題。從最近兩年的數(shù)據(jù)泄露事件就能看出問題的嚴重性。所以,每一次產(chǎn)生重大社會影響的數(shù)據(jù)泄露事件都意味著數(shù)據(jù)安全和隱私保護的確是需要更嚴格的監(jiān)管。
在此大背景下,我們也看到在國內(nèi)一系列法規(guī)的進展,例如在今年3月份,最新版本的《個人信息安全規(guī)范》,以及央行的個人金融信息的保護技術(shù)規(guī)范,都能看出數(shù)據(jù)安全法規(guī)的進化明顯。
尤其是7月初的時候,《數(shù)據(jù)安全法》草案已經(jīng)開始在征求意見,標志著一系列宏觀的政策在不斷地演變,國內(nèi)對于數(shù)據(jù)的管控將會更加嚴格、更加全面。
“數(shù)據(jù)安全”的大環(huán)境下,數(shù)據(jù)隱私的各種問題催生了聯(lián)邦學習,其實,在過去的這些年來,無論是大數(shù)據(jù)還是人工智能,每個領域都有一些關(guān)于隱私計算的研究,這些研究雖然路線不同、技術(shù)方法不同,但是已經(jīng)逐漸呈現(xiàn)融合統(tǒng)一的趨勢,也就是打造數(shù)據(jù)安全的人工智能。在這里我們叫它知識聯(lián)邦。
如上圖所示,知識聯(lián)邦包含了兩層意思,一層是知識,一層是聯(lián)邦。其中,知識不僅包括模型、也包括邏輯規(guī)則或者模式。同時,知識也不是單純通過訓練學習出來的,它還包括經(jīng)驗知識、先驗知識,這些可能是常識和行業(yè)領域知識,不需要再訓練學習。
如何把分散在不同的行業(yè)或領域里的知識,充分地利用起來?這就是知識聯(lián)邦所要做的事情,簡單而言是通過數(shù)據(jù)安全交換協(xié)議,利用多個參與方的數(shù)據(jù),進行知識的共創(chuàng)、共享和推理。最終的目標是要實現(xiàn)數(shù)據(jù)可用不可見。
注:不同于密碼協(xié)議,數(shù)據(jù)安全交換協(xié)議定義了如何在多個參與方之間進行數(shù)據(jù)交換的過程。
知識聯(lián)邦不是一個單純的技術(shù)方法,它是一套框架體系。這個框架體系可以根據(jù)聯(lián)邦發(fā)生的階段,劃分為四個層次。第一是信息層的聯(lián)邦,在數(shù)據(jù)轉(zhuǎn)換為信息的時候,把這些信息進行計算或者處理,涉及的技術(shù)是安全多方計算。然后通過某些先驗的知識,通過某些規(guī)則直接提取出有價值的信息,最后形成聯(lián)邦。
第二個是模型層的聯(lián)邦。也就是通常提到的聯(lián)邦學習,涉及到模型參數(shù)的更新。
第三個是認知層上的聯(lián)邦。對已有的模型訓練、學習,形成了一些淺層的知識,我們再將這些淺層知識聯(lián)合在一起,進行集成學習,從而得到更優(yōu)、更好、符合特定應用場景的知識。
第四個是知識層上的聯(lián)邦。在不同的行業(yè)、不同的領域之間有很多知識庫,在不同領域、行業(yè)的知識庫上進行知識推理,就是知識層聯(lián)邦。所以知識聯(lián)邦不是單純的某一種應用方法,它統(tǒng)一支持了所有的安全多方應用,包括安全多方計算,安全多方學習,安全多方數(shù)據(jù)共享,以及聯(lián)邦推理、聯(lián)邦預測等一系列的綜合體。
知識聯(lián)邦在很多行業(yè)里有廣泛應用的價值。例如金融領域,做為一個數(shù)據(jù)監(jiān)管非常強的行業(yè),知識聯(lián)邦在此領域的應用更為全面。知識聯(lián)邦的信息層可以用來解決多頭共債的問題,在模型層解決智能風控的問題,反欺詐和企業(yè)征信可以分別在認知層和知識層解決。
先看多頭共債的問題。通常一個用戶可能會與多個平臺發(fā)生一些借貸關(guān)系,這時候就陷入了共債。一旦這個用戶發(fā)生資金的問題,就有可能導致系統(tǒng)性的風險,甚至導致金融行業(yè)的大波動。解決多頭問題,通常的方式是能夠多頭評估個人真實的收入。換句話說,就是得到此人的累計的授信和實際已經(jīng)發(fā)生的借貸。但是這樣有可能會泄露很多查詢隱私。
利用知識聯(lián)邦的查詢方式是:提出需求之后第三方向各方查詢,查詢的時候每家參與機構(gòu)分別計算他已經(jīng)得到的授信或風險,把風險通過密文的方式傳送給第三方,第三方再把所有的密文結(jié)構(gòu)匯總,匯總之后返還給主動查詢方,如此便能保證數(shù)據(jù)隱私的安全。當然,在這個過程中需要進行一些加密或者同態(tài)加密的算法,但是現(xiàn)有很多同態(tài)加密的算法耗時非常大,如果能融合知識聯(lián),就能夠使它的效能大大提高。
再看智能風控的問題。在解決這個問題的時候,知識聯(lián)邦方案中采用的是一種不經(jīng)意傳輸?shù)姆桨?,讓沒有標簽一方的數(shù)據(jù)通過多種標簽組合的方式,然后形成多種結(jié)果,再把中間結(jié)果返還給有標簽的一方,讓它進行篩選,從而挑選有用的信息使用。
如上圖真實場景當中的數(shù)據(jù)示例。假定在數(shù)據(jù)對齊之后有20萬條70維的特征和標簽,以及180維的B方的數(shù)據(jù),這時如果只使用單方的數(shù)據(jù),其KS值相對比較低,如果使用聯(lián)邦學習,哪怕是性能一般的方法,也會有明顯提升的。
下面介紹一個工業(yè)級的應用產(chǎn)品:智邦平臺。隨著人工智能的演進,在過去每隔30年,人工智能都有一個非常大的變化,我們是處于AI2.0的時代,如果說這時的AI已經(jīng)“稍微”有點感知,那么未來知識聯(lián)邦會是AI3.0的必由之路,幫助AI獲得、使用更多的知識。
為了迎合未來的“趨勢”,我們打造出了智邦平臺,做為知識聯(lián)邦的參考實現(xiàn),目的是解決真實應用當中遇到的幾個問題:
首先是提供數(shù)據(jù)安全交換的協(xié)議,這是非常重要的一環(huán),因為想知道聯(lián)邦到底安不安全,一種驗證方式是開源,另外一種方式就是需要非常清楚數(shù)據(jù)交換過程中發(fā)生了什么事情。
第二個是解決了多方參與的數(shù)據(jù)問題,因為每家機構(gòu)的數(shù)據(jù)都是有異構(gòu)存在的,多元異構(gòu)的問題是打通所有參與方,形成數(shù)據(jù)聯(lián)盟的痛點。
第三個是一站式產(chǎn)品閉環(huán)的問題。從特征選擇、特征預處理、數(shù)據(jù)預處理,到算法管理、安全保護,以及最后的模型發(fā)布,這一系列產(chǎn)品流程的閉環(huán)。
總體上來講,智邦除了通用的功能和場景化的應用算法之外,底層包含了FLEX協(xié)議和數(shù)據(jù)沙箱,做為支撐平臺的兩條腿,非常重要。
簡單看一下FLEX協(xié)議。第一個內(nèi)容是特征選擇,在特征選擇的過程當中,都希望不要進行單方的特征選擇,否則對方的特征無法發(fā)揮它的價值。平臺提供了兩種特征選擇的方式,性能明顯是要比只使用單方的數(shù)據(jù)進行特征選擇的效果好很多。
另一個內(nèi)容是樣本的安全對齊。樣本對齊要求保護交集外的數(shù)據(jù),平臺提供的方式能夠做到這一點。而在真正的應用當中,還有更嚴格的要求:參與方都希望保護交集內(nèi)的數(shù)據(jù),所以平臺提出一種方案叫做雙盲對齊。
除了FLEX協(xié)議,平臺的另外一條“腿”是數(shù)據(jù)沙箱。它解決的問題是如何把多元異構(gòu)的數(shù)據(jù)標準化,然后將統(tǒng)一的數(shù)據(jù)進行接入。面對“不同的參與方有不同的結(jié)構(gòu)數(shù)據(jù),甚至字段定義、命名規(guī)則”的問題,可以通過沙箱可以快速實現(xiàn)標準化的處理。另外,沙箱里面也實現(xiàn)了數(shù)據(jù)分類分集,即根據(jù)不同的類型、不同的應用場景的數(shù)據(jù),賦予其不同的脫敏加密方式,然后統(tǒng)一加密脫敏的方式,最后保證輸出的所有參與方數(shù)據(jù)都保持一致。
同時,沙箱是一個獨立的組件,它能夠?qū)Χ鄠€參與方之間的數(shù)據(jù)進行虛擬的融合,從而實現(xiàn)安全的多方數(shù)據(jù)共享。
回過頭來看聯(lián)邦生態(tài)中涉及到的角色,有兩大類。首先是數(shù)據(jù)提供者,其次是數(shù)據(jù)的使用者,包括模型的設計者和模型的使用者。一個真正的聯(lián)邦生態(tài)會兼顧數(shù)據(jù)的提供者和數(shù)據(jù)的使用者兩方,即不會讓數(shù)據(jù)的提供者擔心數(shù)據(jù)的真正使用方是誰,模型的設計者是誰。
聯(lián)邦如何激勵參與方加入生態(tài)呢?其實所有不同的參與方都有自己的需求,例如數(shù)據(jù)提供者的原始動力是通過數(shù)據(jù)進行價值變現(xiàn)、價值最大化。模型的使用者的原動力來自于提升核心競爭力的渴望,同時希望擴大行業(yè)影響力。
同盾科技成立于2013年,總部位于杭州。是一家專注于做智能分析與決策的公司,目前已經(jīng)為金融、保險、互聯(lián)網(wǎng)、政務等行業(yè)服務了上萬家企業(yè)客戶。
同盾科技一直作為獨立第三方的角色,持續(xù)在人工智能、云計算、大數(shù)據(jù)分析等方面做了很多的創(chuàng)新。
在歷年的發(fā)展過程當中,同盾科技也持續(xù)得到了政府、市場以及投資機構(gòu)的認可,在今年的時候,成功入選了國家科技創(chuàng)新2030“新一代人工智能重大項目”。
同盾一直以來把人工智能技術(shù)的創(chuàng)新與應用作為戰(zhàn)略重點,我們在2018年專門成立了AI實驗室,在2019年進一步升格成為人工智能研究院,以人工智能研究院為核心載體,穩(wěn)步推動人工智能戰(zhàn)略的布局和實施。在今年初又在美國硅谷成立了美國的AI實驗室。
團隊的成員非常專注于人工智能底層技術(shù)的研究和應用的探索,有著非常豐富的工作經(jīng)驗。例如,團隊的領軍人物李曉林教授是美國公立常春藤名校佛羅里達大學的終身教授,創(chuàng)立了美國首個國家級深度學習中心,現(xiàn)在專職在同盾工作。
此外,同盾科技背后還有一個非常強大的專家顧問團隊,有浙大的潘云鶴院士,還有復旦的楊珉教授,他是國家973首席科學家,也是同盾移動安全領域的首席科學家。
同盾科技在產(chǎn)學研合作方面已經(jīng)做了非常廣的部署,已經(jīng)跟浙江大學、復旦大學、西北工業(yè)大學建立了長期的合作,也跟很多大學的金融機構(gòu),例如招聯(lián)、建行,成立了聯(lián)合的實驗室,主要聚焦在一些創(chuàng)新性的研究和聯(lián)邦學習的落地應用。
演講結(jié)束后,李宏宇也接受了雷鋒網(wǎng)的采訪,以下為雷鋒網(wǎng)與李宏宇的對話實錄。
問:目前學術(shù)界會有哪些標準去衡量聯(lián)邦學習的效果?
李宏宇:聯(lián)邦學習衡量好壞,其實要分兩個方面。
一方面是說,它的性能在聯(lián)邦之后和之前相比,是否有本質(zhì)上的大幅提升?就像我們在演講中提到的,如果單純用一家參與方的自有數(shù)據(jù)去訓練學習,可能它只能達到ks值0.35;但借用了其他參與方的一些數(shù)據(jù)優(yōu)勢之后,可能會達到0.37甚至更高。
此時從指標上來講是沒有變化,但從性能對比上來講,它一定會是遠遠大于那種使用單方數(shù)據(jù)的情況。當然這里面取決于其他參與方的數(shù)據(jù)質(zhì)量如何,就是所謂的數(shù)據(jù)貢獻,它能達到什么級別。同時,它一定不會超過雙方數(shù)據(jù)合在一起后達到的性能效果。
另一方面是安全問題,這時候需要對數(shù)據(jù)流通過程審計:到底流通了什么數(shù)據(jù)?在整個數(shù)據(jù)流通過程當中是否安全合規(guī)?是否符合個人信息保護規(guī)范和數(shù)據(jù)安全法的要求?
具體來講,不同機構(gòu)可能各自在數(shù)據(jù)流通過程中采用了不同的加密安全策略,所以沒有一個固定的標準。這也是未來兩年我們急需完成的事情,推動行業(yè)標準、國家標準,確定聯(lián)邦過程、安全認證等級等。
問:有研究指出,聯(lián)邦學習方法中梯度信息的泄露可以反推出部分數(shù)據(jù),請問是有這樣的情況存在嗎?有沒有相應的對策?
李宏宇:如果是純粹的聯(lián)邦過程,利用梯度之間的迭代,那是容易被攻擊泄露一些隱私信息,這是可以反推的——但真正的應用當中不會這么簡單,除非對方是一個非常好的黑客,同時懂得網(wǎng)絡安全和底層模型加密所有安全策略,否則很難做到。
在數(shù)據(jù)流通全過程中,有做了幾段數(shù)據(jù)加密過程,在數(shù)據(jù)預處理時就已加密脫敏。訓練過程中又對模型的梯度參數(shù)進一步同態(tài)加密。之后傳給聯(lián)邦域,又要做非對稱加密的網(wǎng)絡通道傳輸——這是一層套一層的保護殼,到最后才保證真正的產(chǎn)品應用。
如果拋開這些東西,只是在理想的實驗環(huán)境下,比如拿一張圖片做所謂的聯(lián)邦訓練,這過程中會有梯度產(chǎn)生的隱私泄露,等于是明文數(shù)據(jù)直接用。但在真實的場景當中,尤其是在金融行業(yè)里面,是不可能直接拿著這些明文數(shù)據(jù)直接用。也就是說理論層面上會有這個情況,但實際應用的層面上不會這樣簡單直接被攻破。
問:現(xiàn)在聯(lián)邦學習發(fā)展很快,可以說它是個成熟的技術(shù)了嗎?
李宏宇:聯(lián)邦學習不僅僅是說聯(lián)合建模這一件事情,其實早期已經(jīng)有聯(lián)合建模的方式了,現(xiàn)在聯(lián)邦學習是用一種更安全的方式、走線上平臺來實施聯(lián)合建模。
技術(shù)是否成熟到可以應用的級別?我們同盾的智邦平臺就是非常成熟的工業(yè)級應用產(chǎn)品,得到了合作伙伴們,尤其是大型金融機構(gòu)的一致認可,產(chǎn)品不需要他們再做任何二次改造。
問:智邦平臺推出以來,合作對象主要是哪一些類型的公司?或者側(cè)重哪些業(yè)務的應用?
李宏宇:金融里最多的一種是消金、小額貸這種公司做風控,客戶群體特征非常鮮明,他們只有少量的自有數(shù)據(jù),維度特征有偏差,屬性維度也不可能很多種,更需要借助第三方的數(shù)據(jù)提供方補充,提升模型整體效果。尤其是在同盾的業(yè)務體系當中,原來很多客戶都是通過聯(lián)合建模的形式來對外提供服務,現(xiàn)在他們都已經(jīng)轉(zhuǎn)向了智邦平臺。
第二種更多的是銀行這種大型金融機構(gòu),他們要么不參與,要么就搭建自己的平臺,完成整個生態(tài)的搭建。
現(xiàn)在很多大型銀行,內(nèi)部數(shù)據(jù)孤島問題很嚴重,子公司之間往往都因為數(shù)據(jù)安全而無法充分集成和共享數(shù)據(jù)。這個時候他們更想要采購一個大的平臺,完成自有生態(tài)里的補充,打通所有數(shù)據(jù)孤島,解決數(shù)據(jù)安全問題。
問:聯(lián)邦學習在同盾科技的戰(zhàn)略布局中是怎樣的地位?
李宏宇:聯(lián)邦學習的確是同盾的生態(tài)體系中一個戰(zhàn)略重點項目,也是我們未來提供智能決策和分析服務的基礎設施,我們也會逐步把原有生態(tài)里相關(guān)業(yè)務通過智邦平臺對外提供數(shù)據(jù)安全的智能服務。
我們的目標是打通所有的生態(tài)體系,在數(shù)據(jù)提供者和數(shù)據(jù)模型使用者之間的建立隔離屏障,讓數(shù)據(jù)提供者不需要關(guān)心誰來使用,數(shù)據(jù)模型使用者不用關(guān)心數(shù)據(jù)到底分布在哪里。
問:今年開始,金融科技開啟新十年,您預測接下來這幾年會有什么新趨勢?或者您會用哪些關(guān)鍵詞來描述?
李宏宇:近年來,我國的金融科技發(fā)展在國際上算是領先,但也面臨著“野蠻生長”的問題,現(xiàn)在已經(jīng)到了要收緊、趨嚴監(jiān)管的狀態(tài)了。這個狀態(tài)下,一些金融公司的自有數(shù)據(jù)明顯不能夠支撐智能化升級,它們就面臨著生存的壓力。
比如貸前審核,如果風控模型做得不夠好,就會產(chǎn)生一系列隱患,它們一定希望開放,但同時安全隱患要消除。最后結(jié)果一定是通過技術(shù)來實現(xiàn)安全和開放的融合。
在研究層面上,模型算法可能并不是最關(guān)鍵的,應用落地、解決問題才是。人工智能也好,創(chuàng)新性的安全算法研究也好,其實都會不斷更新,但我認為這都不會是行業(yè)里的主題,主題應該還是安全、開放和融合。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。