丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
風(fēng)控與安全 正文
發(fā)私信給周蕾
發(fā)送

0

同盾AI研究院深度學(xué)習(xí)首席專家李宏宇:解構(gòu)知識聯(lián)邦,開創(chuàng)數(shù)據(jù)“可用不可見”新局面

導(dǎo)語:做你的知己,同時對你一無所知。

同盾AI研究院深度學(xué)習(xí)首席專家李宏宇:解構(gòu)知識聯(lián)邦,開創(chuàng)數(shù)據(jù)“可用不可見”新局面

近日,同盾科技人工智能研究院深度學(xué)習(xí)首席專家李宏宇做客雷鋒網(wǎng)公開課,以《知識聯(lián)邦:開創(chuàng)數(shù)據(jù)“可用不可見”新局面》為題進(jìn)行分享。

關(guān)注微信公眾號  AI金融評論 ,在公眾號聊天框回復(fù)“聽課”,進(jìn)群可收看本節(jié)課程視頻回放。

此前同盾在數(shù)據(jù)聯(lián)邦、聯(lián)邦學(xué)習(xí)和安全多方計(jì)算的基礎(chǔ)上演化出統(tǒng)一框架體系“知識聯(lián)邦”,并基于知識聯(lián)邦體系發(fā)布了國產(chǎn)原創(chuàng)、自主可控的智邦平臺(iBond)及《知識聯(lián)邦白皮書》。

本次課程中,李宏宇詳細(xì)講述了知識聯(lián)邦的技術(shù)細(xì)節(jié),以及信用分評估、多頭共債風(fēng)險、用戶體驗(yàn)A/B test等多個典型場景的聯(lián)邦學(xué)習(xí)應(yīng)用案例。

以下為李宏宇課程全場和互動問答精選,雷鋒網(wǎng)AI金融評論做了不影響原意的編輯:

天平兩端:數(shù)據(jù)隱私性和便利性

兩年前,我們接觸到區(qū)塊鏈和聯(lián)合建模中數(shù)據(jù)安全需求,就已在探索聯(lián)邦學(xué)習(xí)應(yīng)用。

近年來聯(lián)邦學(xué)習(xí)熱度變高,一個主要原因還是數(shù)據(jù)孤島現(xiàn)象,不僅僅有邏輯上的存在,也有物理上的。不止特征變量是孤島,也可能是更關(guān)鍵的學(xué)習(xí)當(dāng)中的標(biāo)簽,形成了割裂的形象。

在機(jī)構(gòu)間,尤其政府部門,很多數(shù)據(jù)沒有充分共享。又比如醫(yī)療,保險公司希望用醫(yī)院的數(shù)據(jù)做健康險或壽險的風(fēng)險評估。銀行和稅務(wù),也希望通過銀稅合作來獲取客戶的風(fēng)險評估信息。

企業(yè)內(nèi)部也如此:集團(tuán)化的企業(yè)公司越來越大,子公司、分公司,就連部門內(nèi)部的系統(tǒng),都可能是自己分別開發(fā)的,數(shù)據(jù)之間完全孤立。

再微觀一點(diǎn),每個用戶的數(shù)據(jù)都有很大的價值,想要生成一組通用的用戶畫像,要獲取到足夠多的用戶數(shù)據(jù)非常困難。

消除行業(yè)數(shù)據(jù)孤島現(xiàn)象,讓數(shù)據(jù)相互之間協(xié)作起來,必然是未來發(fā)展趨勢。

另一種現(xiàn)象,就是隱私換便利,數(shù)據(jù)不斷地泄露導(dǎo)致詐騙。

為什么會不斷泄露?很大的一個原因,現(xiàn)在免費(fèi)使用一些APP時,使用前都要用戶授權(quán),獲取相關(guān)數(shù)據(jù)。這些其實(shí)都是你的個人隱私,個別內(nèi)部人員可能會拿著你的數(shù)據(jù)對外變現(xiàn),產(chǎn)生詐騙行為。

用戶隱私都赤裸裸暴露在網(wǎng)絡(luò)的服務(wù)提供者面前,個人隱私當(dāng)成商品買賣已經(jīng)是非常普遍的現(xiàn)象。有調(diào)研顯示,70%以上的社會公眾對于當(dāng)前他們的個人信息是沒有安全感的。

近期也有傳聞?wù)f國外黑客論壇在出售中國很多金融機(jī)構(gòu)的信息。不一定真實(shí),但很多人心里也會緊張。

現(xiàn)在國際上和國內(nèi)上的立法慢慢出現(xiàn),這兩年中國在數(shù)據(jù)安全和隱私保護(hù)相關(guān)已經(jīng)做了很大的工作。

2019年有數(shù)據(jù)安全管理辦法,這也可能會是未來數(shù)據(jù)安全法的早期版本;數(shù)據(jù)交易服務(wù)安全要求也做了一些相應(yīng)的新規(guī)定。今年3月份有個人金融信息保護(hù)技術(shù)的規(guī)范。

想要這些數(shù)據(jù)完全閉塞,不共享數(shù)據(jù),這不現(xiàn)實(shí),要把這些有經(jīng)濟(jì)價值的數(shù)據(jù)充分利用起來。這就要在數(shù)據(jù)的隱私性和便利性之間尋求平衡。也正是這樣隱私保護(hù)的需求,未來會出現(xiàn)一系列新的技術(shù)浪潮。

有很多人對數(shù)據(jù)安全沒有非常清晰的認(rèn)識。這里我借用數(shù)據(jù)安全能力成熟度模型的定義來分享。

同盾AI研究院深度學(xué)習(xí)首席專家李宏宇:解構(gòu)知識聯(lián)邦,開創(chuàng)數(shù)據(jù)“可用不可見”新局面

數(shù)據(jù)安全的核心,其實(shí)是以數(shù)據(jù)為中心的安全,它的目的仍然是保護(hù)數(shù)據(jù)的可用性、完整性和機(jī)密性。數(shù)據(jù)在安全的同時,要保證它可用。

合法合規(guī)的情況下,怎樣做數(shù)據(jù)交易?它的定義是,在數(shù)據(jù)供需雙方以數(shù)據(jù)商品作為交易對象。

這里的重點(diǎn)就是:數(shù)據(jù)商品是什么?直接拿原始數(shù)據(jù)買賣,屬于數(shù)據(jù)商品,而對原始數(shù)據(jù)加工處理后的一些數(shù)據(jù)衍生產(chǎn)品也屬于數(shù)據(jù)商品。

另外一個更被大家關(guān)心的,就是隱私保護(hù),在國內(nèi)更多時候會稱之為個人信息

什么是個人信息?所有能夠單獨(dú)或結(jié)合識別特定自然人身份的那些信息,甚至是反映活動情況的信息,都叫個人信息。

什么是共享?如果你是信息的控制者,你將信息共享給對方,就讓對方擁有了控制權(quán),在這之后你可能就沒有撤回或是拒絕的權(quán)利了。

這是共享最大的一個痛點(diǎn),新版的個人信息安全規(guī)范里面會看到很多關(guān)于信息共享的要求。

有用性,這是數(shù)據(jù)的一個非常重要的特點(diǎn),就是數(shù)據(jù)對于應(yīng)用一定要有具體的含義,要不然這個數(shù)據(jù)就沒有價值了。

為打破數(shù)據(jù)割裂和避免隱私泄露,數(shù)據(jù)可用不可見就成為一個重要的目標(biāo)。數(shù)據(jù)可用不可見,即充分利用對各方的數(shù)據(jù),讓數(shù)據(jù)保持對外開放,同時能夠讓數(shù)據(jù)不直接共享,不離開機(jī)構(gòu)或個人

在楊強(qiáng)老師的課程里有提到過,數(shù)據(jù)不動模型動,這是能夠解決數(shù)據(jù)可用不可見的一種方式。但它的核心是要去訓(xùn)練一個模型。而數(shù)據(jù)可用不可見,不一定需要做建模這件事。

還有很多時候可能只是想做計(jì)算,這就不再是訓(xùn)練模型的事情,而是開放和不共享的問題。

開放不共享,就像國家之間在能源材料的合作中,每個國家有一些核心資源如鐵礦石,類似于機(jī)構(gòu)的基本生產(chǎn)數(shù)據(jù)。

很多國家禁止出口這種核心的資源,相當(dāng)于是不能直接共享。但對于鐵礦石加工后的鋼鐵制品,他們卻開放出口的。

也就是說,數(shù)據(jù)經(jīng)過加工之后,形成了一種半成品的形態(tài),它是可以開放出去使用的,而不是用一種直接共享或直接訪問原始數(shù)據(jù)的方式。

這樣看來,我們其實(shí)可以也做到數(shù)據(jù)可用,但又不可見。換句話說就是,“懂你不認(rèn)識你”。

同盾AI研究院深度學(xué)習(xí)首席專家李宏宇:解構(gòu)知識聯(lián)邦,開創(chuàng)數(shù)據(jù)“可用不可見”新局面

懂你不認(rèn)識你”主要針對個人用戶。舉個例子,很多人的瀏覽習(xí)慣或行為會涉及到個人隱私,這些數(shù)據(jù)是不希望直接對外共享的。

但是我們又很希望能夠獲取到很多便利服務(wù),讓手機(jī)更懂自己,在需要的時候能夠提供相應(yīng)的推薦,讓軟件做得很智能、很貼心。這時就可以采用數(shù)據(jù)可用不可見的形式。

為了實(shí)現(xiàn)數(shù)據(jù)可用不可見這個目標(biāo),傳統(tǒng)的中心化計(jì)算模式,也就是大數(shù)據(jù)經(jīng)常會做的中心化聚集,把數(shù)據(jù)存儲聚集再學(xué)習(xí)訓(xùn)練,已經(jīng)不能滿足要求。

中心化不可行,那就讓數(shù)據(jù)分散在各個機(jī)構(gòu)形成,依然保留著所謂的小數(shù)據(jù)模式——相對來講是小數(shù)據(jù),當(dāng)然也有很多機(jī)構(gòu)的數(shù)據(jù)量已經(jīng)很大——采用分布式或去中心化方式計(jì)算或?qū)W習(xí)。

原始數(shù)據(jù)直接共享不可行,我們可以采用兩種方式,一是對數(shù)據(jù)進(jìn)行加密,加密后也不破壞原始數(shù)據(jù)的統(tǒng)計(jì)特性。

第二種方式,可以將數(shù)據(jù)知識化,也就是說將數(shù)據(jù)轉(zhuǎn)化成為一種模型策略的知識,然后再把這些分散的知識聚合在一起,實(shí)現(xiàn)數(shù)據(jù)的可用。這就是知識聯(lián)邦的大致構(gòu)想。

同盾AI研究院深度學(xué)習(xí)首席專家李宏宇:解構(gòu)知識聯(lián)邦,開創(chuàng)數(shù)據(jù)“可用不可見”新局面

知識聯(lián)邦全景圖

知識聯(lián)邦從名字上看,有清晰的兩個主題:知識和聯(lián)邦。

什么是知識?這個概念源自于我們談?wù)摂?shù)據(jù)和信息。

數(shù)據(jù)一般被認(rèn)為是原始素材,客觀描述客觀事物的數(shù)量、屬性、位置等關(guān)系。

信息則是經(jīng)過加工處理之后、具有邏輯關(guān)系的數(shù)據(jù),通常會是對決策有價值。

知識,更多是在信息層上再進(jìn)一步地歸納演繹之后,沉淀下來的有價值的信息。通常情況下,知識被認(rèn)為是與決策有關(guān)的。

智慧是有了知識之后,才能進(jìn)一步預(yù)測和判斷未來,這可能是未來智慧城市或智慧決策的目標(biāo)。

同盾AI研究院深度學(xué)習(xí)首席專家李宏宇:解構(gòu)知識聯(lián)邦,開創(chuàng)數(shù)據(jù)“可用不可見”新局面

數(shù)據(jù)、信息和知識經(jīng)常被混用,三者的界定和使用者有很大關(guān)系。

比如某個經(jīng)過加工的數(shù)據(jù),它可能對某人而言是一種信息,但對另外一個人來說可能只是一個數(shù)據(jù)。

在某種語境下產(chǎn)生的一個知識,在另外的語境里可能就是信息,甚至是根本沒有任何意義的數(shù)據(jù)。

從知識再跳到聯(lián)邦,其實(shí)聯(lián)邦才是我們的重心,其實(shí)想做的事情,最終是希望通過一種安全的方式解決數(shù)據(jù)孤島現(xiàn)象。

在知識聯(lián)邦里,聯(lián)邦本質(zhì)其實(shí)是一種數(shù)據(jù)的安全交換協(xié)議。

之前還有數(shù)據(jù)聯(lián)邦,其實(shí)它跟知識聯(lián)邦差別很大。數(shù)據(jù)聯(lián)邦更多是一種數(shù)據(jù)集成方法,它實(shí)際上就是聯(lián)邦數(shù)據(jù)庫系統(tǒng),將不同來源的數(shù)據(jù)庫集成之后方便查詢。關(guān)鍵是它不涉及到隱私保護(hù)的機(jī)制。

知識聯(lián)邦其實(shí)是一套理論框架體系,目的是將數(shù)據(jù)聯(lián)合起來,轉(zhuǎn)換成為有價值的知識,同時在聯(lián)合的過程當(dāng)中采用一些安全的數(shù)據(jù)交換協(xié)議。目的是有效利用各參與方的數(shù)據(jù)來進(jìn)行知識的共創(chuàng)、共享和推理。

聯(lián)邦學(xué)習(xí)更強(qiáng)調(diào)怎樣訓(xùn)練、學(xué)習(xí)、建模,創(chuàng)造知識。但事實(shí)上還有很多常識、先驗(yàn)知識或領(lǐng)域知識不需要讓機(jī)器學(xué)習(xí)就可以去共享的,比如多源知識推理,這也屬于數(shù)據(jù)可用不可見。

在真正的實(shí)踐中,我們采用一種弱中心化方式。過去強(qiáng)中心化大數(shù)據(jù)集成方式是不可行的,主要是安全存在很大隱患。

但完全的去中心化,也很難兼顧效率。尤其是在進(jìn)行共識計(jì)算的時候,效率非常低。弱中心化方式更多是一種強(qiáng)中心化和去中心化的折衷,在中心節(jié)點(diǎn)只進(jìn)行計(jì)算,不對數(shù)據(jù)集成存儲,可以達(dá)到安全和效率的兼顧。

在知識聯(lián)邦的框架體系里,我們不僅僅可以進(jìn)行聯(lián)邦學(xué)習(xí),同時也可以進(jìn)行安全多方計(jì)算,也可以進(jìn)行安全多方共享和安全多方推理。

事實(shí)上整個知識聯(lián)邦,與很多技術(shù)有一定關(guān)系,比如可執(zhí)行環(huán)境和隱私計(jì)算。前者依托硬件,可以成為知識聯(lián)邦的一種硬件化實(shí)現(xiàn)方式。

隱私計(jì)算更關(guān)注的,是隱私數(shù)據(jù)從產(chǎn)生、收集、保存,甚至到銷毀,所有環(huán)節(jié)中保護(hù)(隱私數(shù)據(jù))的方法。但在使用中,它偏于計(jì)算,而不包含學(xué)習(xí)的一些過程。

同盾AI研究院深度學(xué)習(xí)首席專家李宏宇:解構(gòu)知識聯(lián)邦,開創(chuàng)數(shù)據(jù)“可用不可見”新局面

知識聯(lián)邦可以根據(jù)不同方式進(jìn)行分類。

  • 根據(jù)數(shù)據(jù)的特點(diǎn)分類

分成跨樣本的聯(lián)邦、跨特征的聯(lián)邦,甚至還有同時基于這兩種形式的復(fù)合型聯(lián)邦。

跨樣本的聯(lián)邦更多是同構(gòu)的數(shù)據(jù),數(shù)據(jù)特征一致,但數(shù)據(jù)擁有方式不同??缣卣鞯穆?lián)邦,更多會存在不同的機(jī)構(gòu)間。當(dāng)然這還是要有相同的、有交集的用戶才能進(jìn)行跨特征的聯(lián)邦。

除了這兩種形式之外,更復(fù)雜的是既要跨樣本又要跨特征復(fù)合型聯(lián)邦。

  • 根據(jù)聯(lián)邦應(yīng)用目的分類

可以分為聯(lián)邦計(jì)算、聯(lián)邦學(xué)習(xí)、聯(lián)邦推理等。剛才提到聯(lián)邦學(xué)習(xí)包含的主要是訓(xùn)練和預(yù)測兩個階段。

最早谷歌做聯(lián)邦學(xué)習(xí),更強(qiáng)調(diào)訓(xùn)練。訓(xùn)練結(jié)束后,模型預(yù)測直接發(fā)送到各個客戶端的手機(jī),用戶自行預(yù)測。但在跨特征聯(lián)邦,聯(lián)邦訓(xùn)練和聯(lián)邦預(yù)測都會遇到非常復(fù)雜的問題。

聯(lián)邦計(jì)算,類似于安全多方計(jì)算。

聯(lián)邦推理,更多是知識層上的推理過程。

比如疫情期間,為了調(diào)查患者周圍的可疑人群,會涉及到很多數(shù)據(jù),包括行為軌跡、社交網(wǎng)絡(luò)、住宿交通等等。

但這些放在一起不是單純再訓(xùn)練,是想把已有的知識做更多的知識演繹,推理出來新的知識,最終鎖定嫌疑人群。

  • 根據(jù)對象類型

知識聯(lián)邦也可以分為是個體間、機(jī)構(gòu)內(nèi)和機(jī)構(gòu)間的聯(lián)邦。機(jī)構(gòu)間的聯(lián)邦大家都比較熟悉了,機(jī)構(gòu)內(nèi)部的聯(lián)邦其實(shí)也非常多。

比如大型跨國機(jī)構(gòu)希望把在中國境內(nèi)獲取到的數(shù)據(jù),能夠幫助他們在東南亞、甚至是其他國家能夠有更大的幫助,但會涉及跨境數(shù)據(jù)交換的問題,此時機(jī)構(gòu)內(nèi)的聯(lián)邦就發(fā)生了。

  • 根據(jù)聯(lián)邦階段分類

分為信息層、模型層、認(rèn)知層,和知識層聯(lián)邦。

信息層:主要發(fā)生在聯(lián)邦的數(shù)據(jù)轉(zhuǎn)到第三方的服務(wù)器之前,需要先把所有數(shù)據(jù)加密,或通過某種形式轉(zhuǎn)換成為有價值的信息。

模型層:發(fā)生在模型訓(xùn)練過程中,跟之前提到的聯(lián)邦訓(xùn)練的過程實(shí)際上是一致的。

認(rèn)知層:也發(fā)生在模型訓(xùn)練過程中,但并不把模型參數(shù)聚集在一起聯(lián)動,而是把局部訓(xùn)練之后產(chǎn)生的粗淺認(rèn)知進(jìn)行聯(lián)邦,變得更合理。

知識層:前面形成很多認(rèn)知結(jié)果之后,把它存成知識庫。這種知識庫其實(shí)每一家機(jī)構(gòu)都有,能夠組成一個知識網(wǎng)絡(luò)。如果在知識網(wǎng)絡(luò)上不斷推理和演繹,挖掘出更有價值的知識,能提前預(yù)判事情的發(fā)生,最終形成合理決策。

比如疫情爆發(fā)最終導(dǎo)致全球股票、期貨大跌; 比如黑龍江等地成為二次爆發(fā)疫情的高風(fēng)險區(qū),其實(shí)這些都是知識推理的過程。

同盾AI研究院深度學(xué)習(xí)首席專家李宏宇:解構(gòu)知識聯(lián)邦,開創(chuàng)數(shù)據(jù)“可用不可見”新局面

具體來看,信息層聯(lián)邦在隱私保護(hù)方面,對加密技術(shù)要求更高。加密技術(shù)沒有到位,就無法很好保護(hù)參與方數(shù)據(jù)。所以信息層的聯(lián)邦一般要求數(shù)據(jù)脫敏加密之后,一定是以密文形式在第三方服務(wù)器上計(jì)算。

信息層更多應(yīng)用在聯(lián)邦計(jì)算的過程當(dāng)中,比如金融經(jīng)常出現(xiàn)的多頭共債問題。在大產(chǎn)品的運(yùn)維和升級過程中,經(jīng)常會做的比如A/B test,這些都可以在信息層完成。

信息層也可以做聯(lián)邦學(xué)習(xí)的工作,但它不是在每一個參與方向去做訓(xùn)練學(xué)習(xí),而是把所有的密文數(shù)據(jù)直接放在第三方服務(wù)器上,再在密文上訓(xùn)練學(xué)習(xí)。

除此之外,還可以在信息層上做聯(lián)邦檢索。比如失信人員黑名單的查詢,這也是一個普遍存在的需求。

跨特征聯(lián)邦時,需要做的用戶對齊可以在信息層上完成。

同盾AI研究院深度學(xué)習(xí)首席專家李宏宇:解構(gòu)知識聯(lián)邦,開創(chuàng)數(shù)據(jù)“可用不可見”新局面

模型層,是用本地?cái)?shù)據(jù)訓(xùn)練本地模型,把模型參數(shù)變化加密之后,傳送到第三方進(jìn)行聚合。

同盾AI研究院深度學(xué)習(xí)首席專家李宏宇:解構(gòu)知識聯(lián)邦,開創(chuàng)數(shù)據(jù)“可用不可見”新局面

認(rèn)知層,是在每一個參與方訓(xùn)練本地的數(shù)據(jù),提取本地的模型的特征表達(dá),加密之后上傳到第三方服務(wù)器,實(shí)現(xiàn)集成。

這種應(yīng)用主要出現(xiàn)在多模態(tài)智能信貸、智能身份認(rèn)證。

同盾AI研究院深度學(xué)習(xí)首席專家李宏宇:解構(gòu)知識聯(lián)邦,開創(chuàng)數(shù)據(jù)“可用不可見”新局面

在跨樣本聯(lián)邦中,認(rèn)知層有點(diǎn)類似于機(jī)器學(xué)習(xí)里的集成學(xué)習(xí),不過聯(lián)邦會更關(guān)心數(shù)據(jù)隱私保護(hù)。

關(guān)于知識聯(lián)邦的更多技術(shù)細(xì)節(jié),可以查看我們近期發(fā)布的白皮書。

何為工業(yè)級應(yīng)用產(chǎn)品智邦平臺?

智邦平臺的核心有四大模塊,第一是任務(wù)場景。

現(xiàn)在平臺中的任務(wù)場景還需要定制開發(fā),一個場景需要定制一個模型。一個常見問題是,以前有很多面向不同任務(wù)場景已經(jīng)建成的模型,現(xiàn)在還沒有辦法快速聯(lián)邦化。

第二個模塊是功能服務(wù)。智邦平臺解決的是真實(shí)應(yīng)用中會遇到的問題,比如模型發(fā)布,參與方之間的數(shù)據(jù)貢獻(xiàn)怎么衡量?費(fèi)用怎么統(tǒng)計(jì)?

第三個模塊是開放計(jì)算平臺。平臺會模塊化,并支持開放式、自動化建模,方便快速建模的操作。

第四個模塊是基礎(chǔ)設(shè)施?;A(chǔ)設(shè)施更多是一些通用組件,提供底層服務(wù)。計(jì)算平臺和相關(guān)依賴采用容器化方式,能讓部署更方便快速。

除了四個核心模塊這里有兩個關(guān)鍵的中間件,一是通信設(shè)施,二是數(shù)據(jù)交換沙箱。

跨樣本聯(lián)邦相對來講比較容易落地,但跨特征聯(lián)邦必須要有這么一個多元異構(gòu)數(shù)據(jù)的交換沙箱才能夠完成,尤其是在內(nèi)網(wǎng)外網(wǎng)的通訊。這里涉及到的更多工作就不再展開了。

跨樣本時,有很多深度模型、樹模型都可以直接采用,但跨特征聯(lián)邦很多模型需要定制。

尤其是在金融行業(yè),大家更關(guān)心模型的可解釋性,所以很多時候都不用深度模型,而會選擇樹模型。智邦平臺就提供了包括深度模型、樹模型在內(nèi)的一些聯(lián)邦算法可供用戶選擇

跨樣本聯(lián)邦中還有一個常見問題是,用戶數(shù)據(jù)太少,也就是小樣本的問題。平臺中也提供了基于小樣本進(jìn)行聯(lián)邦(學(xué)習(xí))的方案。

簡單來講,平臺三大亮點(diǎn)是:安全、智能和實(shí)用。平臺通過聯(lián)邦的數(shù)據(jù)交換沙箱和安全交換協(xié)議來解決安全性問題;平臺提供多種智能模型供大家自由選擇;同時從貢獻(xiàn)的評估到計(jì)費(fèi),平臺提供了一系列功能解決實(shí)際應(yīng)用問題。

同盾AI研究院深度學(xué)習(xí)首席專家李宏宇:解構(gòu)知識聯(lián)邦,開創(chuàng)數(shù)據(jù)“可用不可見”新局面

網(wǎng)絡(luò)安全方面,將網(wǎng)絡(luò)安全域劃分成參與方的私有域、交換域和聯(lián)邦域三部分,數(shù)據(jù)交換發(fā)展在交換域,聯(lián)邦集成是在聯(lián)邦域完成。

數(shù)據(jù)安全和隱私保護(hù)方面,從隱私數(shù)據(jù)處理到模型數(shù)據(jù)的傳輸,平臺提供了多種安全加密方式,保證不同機(jī)構(gòu)間交集外所有用戶數(shù)據(jù)的安全性。

同盾AI研究院深度學(xué)習(xí)首席專家李宏宇:解構(gòu)知識聯(lián)邦,開創(chuàng)數(shù)據(jù)“可用不可見”新局面

不過對于聯(lián)邦平臺的安全性和隱私保護(hù)等級,目前為止還沒有一個類似等保的標(biāo)準(zhǔn),能對平臺工具進(jìn)行等級認(rèn)證。

事實(shí)上,對于數(shù)據(jù)安全,應(yīng)該要從數(shù)據(jù)流通的全過程進(jìn)行評估。對每一個涉及到數(shù)據(jù)隱私的地方,都要衡量采用的隱私技術(shù)所能達(dá)到的隱私保護(hù)等級。我們也在聯(lián)合多家單位一起推動相關(guān)等級認(rèn)證標(biāo)準(zhǔn)的確立。

在金融行業(yè)應(yīng)用中,很多時候大家弄不清楚哪些數(shù)據(jù)屬于隱私、敏感程度達(dá)到什么程度。今年3月,央行出臺的個人金融信息保護(hù)技術(shù)規(guī)范,把很多金融信息分成了 C1、C2、C3的等級。根據(jù)敏感等級,可以采用不同的技術(shù)手段進(jìn)行數(shù)據(jù)去標(biāo)識化和脫敏。

同盾AI研究院深度學(xué)習(xí)首席專家李宏宇:解構(gòu)知識聯(lián)邦,開創(chuàng)數(shù)據(jù)“可用不可見”新局面

在聯(lián)邦應(yīng)用中,經(jīng)常會涉及到的主要還是C2級數(shù)據(jù)。C1級敏感數(shù)據(jù),更多是標(biāo)記信息。不過C1、C2、C3的劃分也具有相對性,當(dāng)相同的信息組合在一起,敏感度也會升級。所以考慮數(shù)據(jù)隱私保護(hù),必須要在一開始就要做數(shù)據(jù)分級完整規(guī)劃。

總的來說,智邦平臺是參照知識聯(lián)邦體系打造出來的一站式聯(lián)邦平臺。平臺在算法能力方面,不僅支持聯(lián)邦學(xué)習(xí),還支持安全多方計(jì)算;也提供了非常樸實(shí)有效的一些算法;同時提供了聯(lián)邦特征選擇方法,來保證參與方的數(shù)據(jù)質(zhì)量。

安全機(jī)制方面,平臺提供了多種加密算法,比如在數(shù)據(jù)安全對齊中,平臺可以保證參與方交集外數(shù)據(jù)不會泄露。同時保證,標(biāo)簽信息在訓(xùn)練中不會參與傳輸。

而平臺最核心的聯(lián)邦數(shù)據(jù)安全交換沙箱則可以實(shí)現(xiàn)對數(shù)據(jù)標(biāo)準(zhǔn)化和脫敏處理,同時封裝了一系列數(shù)據(jù)安全交換協(xié)議,供聯(lián)邦使用。

同盾AI研究院深度學(xué)習(xí)首席專家李宏宇:解構(gòu)知識聯(lián)邦,開創(chuàng)數(shù)據(jù)“可用不可見”新局面

實(shí)施應(yīng)用方面,平臺在本地計(jì)算可以采用Spark計(jì)算方式,效率高,也方便和現(xiàn)有的機(jī)構(gòu)大數(shù)據(jù)生態(tài)打通。同時系統(tǒng)采用容器化方式,方便部署實(shí)施。

五大應(yīng)用場景詳解

  • 智能金融風(fēng)控

統(tǒng)建模方式里,運(yùn)營商如果沒有y數(shù)據(jù),無法單獨(dú)建模;雙方又都不可能暴露自己隱私數(shù)據(jù)。

智邦平臺中會先由中間方協(xié)調(diào)者分發(fā)一個模型,然后分別基于本地的數(shù)據(jù)計(jì)算梯度。

盡管運(yùn)營商沒有標(biāo)簽信息,但平臺在這里采用了計(jì)算換安全的方式,也是基于不經(jīng)意傳輸(OT)方法,把所有可能梯度都匯集到有標(biāo)簽的一方,讓它篩選和聚合。這時可以在y標(biāo)簽沒有被傳輸?shù)那闆r下,快速完成模型迭代。

當(dāng)然,這可能會讓計(jì)算成本高一點(diǎn),但聯(lián)邦建模的隱私性肯定是要遠(yuǎn)遠(yuǎn)大于傳統(tǒng)聯(lián)合建模。如果不考慮通信問題,這兩種建模方式的收斂速度基本上一致。準(zhǔn)確性也差不多。

同盾AI研究院深度學(xué)習(xí)首席專家李宏宇:解構(gòu)知識聯(lián)邦,開創(chuàng)數(shù)據(jù)“可用不可見”新局面

  • 小微企業(yè)信貸智能信審

企業(yè)信審相對更復(fù)雜,會有公開數(shù)據(jù)、自有數(shù)據(jù)或是第三方數(shù)據(jù),各方數(shù)據(jù)匯集在一起,形成完整信息模型,這是很大的工作量,于是我們有了這樣一個信審模型。

不過如果能利用調(diào)查、工商、司法等信息,可以進(jìn)一步做聯(lián)邦推理,這時的信審才能算是完整的。

同盾AI研究院深度學(xué)習(xí)首席專家李宏宇:解構(gòu)知識聯(lián)邦,開創(chuàng)數(shù)據(jù)“可用不可見”新局面

  • 用戶行為聯(lián)合建模

這是典型的跨樣本應(yīng)用場景,要做的是無感認(rèn)證。

簡單說,輸入密碼的時候,我們每個人都有一些固定的輸入行為習(xí)慣,這些行為習(xí)慣能通過學(xué)習(xí)方法提取出相應(yīng)特征。

這就可以在密碼保護(hù)的同時,加一層無感認(rèn)證,在輸密碼的時候自動判斷用戶行為,判斷輸密碼的是否為用戶本人。

但是每個用戶端不可能暴露自己的數(shù)據(jù),同時也很難采集到每個用戶很多行為數(shù)據(jù),這就要用到基于小樣本的聯(lián)邦元學(xué)習(xí)。

聯(lián)邦元學(xué)習(xí)的隱私性肯定會要大于非聯(lián)邦方式;準(zhǔn)確率也會比非元學(xué)習(xí)高很多。

同盾AI研究院深度學(xué)習(xí)首席專家李宏宇:解構(gòu)知識聯(lián)邦,開創(chuàng)數(shù)據(jù)“可用不可見”新局面

  • 多頭共債累積風(fēng)險聯(lián)邦計(jì)算

很多機(jī)構(gòu)都借貸評估時都會面臨一個問題:這個用戶有沒有在其他家做過貸款?他的風(fēng)險是不是已經(jīng)透支得差不多了?

這時就希望能得到很多其他機(jī)構(gòu)的數(shù)據(jù),這個過程通常不需要去訓(xùn)練學(xué)習(xí),而是會利用一些簡單的知識進(jìn)行判斷。

累計(jì)借貸風(fēng)險可以通過安全的統(tǒng)計(jì)計(jì)算方式,在保證各家數(shù)據(jù)隱私不會泄露的前提下,匯總計(jì)算出該用戶的累計(jì)借貸風(fēng)險。

  • 用戶體驗(yàn)A/B test

在自動化大運(yùn)維平臺體系做A/B test,我們通常會分流出來一批用戶,然后判斷軟件上的某些改變會否讓他們的瀏覽行為習(xí)慣發(fā)生變化,是否會對他們有偏好上的影響。

我們可以統(tǒng)計(jì)用戶的信息,但不是直接收集用戶操作行為數(shù)據(jù),而是分別在用戶端對他們的行為習(xí)慣進(jìn)行統(tǒng)計(jì)計(jì)算,最終形成整體的統(tǒng)計(jì)特征作為統(tǒng)籌決策的依據(jù)。

現(xiàn)實(shí)應(yīng)用中,我們會面對很多分散的小數(shù)據(jù),知識聯(lián)邦的目標(biāo)是通過安全多方計(jì)算和學(xué)習(xí),做到數(shù)據(jù)可用不可見,同時知識共建可共享。

智邦平臺作為知識聯(lián)邦參照實(shí)現(xiàn)的聯(lián)邦平臺,會逐漸形成一套開放的操作系統(tǒng),用戶可以組建和參與不同的任務(wù)聯(lián)盟,或者從模型商店中選用不同的模型。系統(tǒng)逐步開放開源給大家,讓更多用戶參與其中,這也是我們整個智能開放操作系統(tǒng)的愿景。

智邦平臺對銀行消金非常有價值,可以持續(xù)提升其核心競爭力,并提高其風(fēng)控質(zhì)量,讓其數(shù)據(jù)價值變現(xiàn)。同時,也可以幫助相應(yīng)機(jī)構(gòu)提升行業(yè)影響力,并滿足監(jiān)管對于數(shù)據(jù)安全和隱私保護(hù)的要求。

同盾AI研究院深度學(xué)習(xí)首席專家李宏宇:解構(gòu)知識聯(lián)邦,開創(chuàng)數(shù)據(jù)“可用不可見”新局面

總結(jié)一下,知識聯(lián)邦的落地實(shí)施有三個重點(diǎn):

首先是連接,也就是連接多方,讓多方參與進(jìn)來,才會有聯(lián)邦數(shù)據(jù)安全交換的問題。其次是智能,安全多方應(yīng)用最終目的還是智能化應(yīng)用,從多方數(shù)據(jù)中安全的提取和利用智能知識才是關(guān)鍵。最后是開放,一個體系框架的發(fā)展和落地應(yīng)用需要大家廣泛的參與。

知識聯(lián)邦是一個開放的體系,智邦平臺也是一個開放的平臺,未來會逐漸開放出去,和大家合作共贏。

互動問答精選

問:一個子模型被攻擊,在模型聯(lián)盟過程當(dāng)中會造成怎樣的安全風(fēng)險?是否存在較完善的防御策略?

李宏宇:其實(shí)模型攻防策略,不只是在聯(lián)邦過程產(chǎn)生,現(xiàn)在很多模型訓(xùn)練都會遇到,這些策略都可以在聯(lián)邦中使用。如果子模型只是被幾次攻擊,而整體數(shù)據(jù)量比較大的話,在長時間的訓(xùn)練過程中,攻擊的影響會逐漸退化掉。

另外,如果其他參與方很多且數(shù)據(jù)量非常大的時候,一個參與方的模型被攻擊,相對影響還是會有,但不會那么明顯。

問:怎么分配利益?如何衡量各方的貢獻(xiàn)?

李宏宇:智邦平臺提供了聯(lián)邦特征選擇的方法,來保證用戶數(shù)據(jù)質(zhì)量,遴選那些對于整個模型精度有提升、有幫助的特征。模型精度提升的效果就是衡量貢獻(xiàn)并進(jìn)行利益分配的一個標(biāo)準(zhǔn)。貢獻(xiàn)度評估方法其實(shí)有很多種,但在聯(lián)邦應(yīng)用中落地實(shí)施還需要進(jìn)一步技術(shù)突破。

問:聯(lián)邦學(xué)習(xí)或知識聯(lián)盟是否只是大廠的機(jī)會?

李宏宇:倒不一定。聯(lián)合建模也好,做聯(lián)邦也好,這都是應(yīng)用導(dǎo)向的。但現(xiàn)在最困難的一個問題是,怎樣把這機(jī)構(gòu)間多元異構(gòu)數(shù)據(jù)給標(biāo)準(zhǔn)化和統(tǒng)一化,這才是最大的痛點(diǎn),大廠也不一定能解決這個問題。

現(xiàn)在的關(guān)鍵是誰能把這個問題解決掉,其它建?;蛴?jì)算就都可以在這樣的基礎(chǔ)平臺上去完成,并創(chuàng)造價值。各種企業(yè)都有機(jī)會。

問:準(zhǔn)確性提升算誰的?

李宏宇:在整個聯(lián)邦過程中,模型提升通常有一定的應(yīng)用目的。通常會有一家模型需求方,用自有的數(shù)據(jù)訓(xùn)練出的準(zhǔn)確度不高,但是如果引入其它聯(lián)邦方的數(shù)據(jù)時,精度就會大大提升。這個時候準(zhǔn)確性提升的功勞是誰的?這個問題顯而易見,難的是如何量化這種貢獻(xiàn)。

問:樣本對齊和加密模型訓(xùn)練與對策,區(qū)別在哪里?

李宏宇:樣本對齊是發(fā)生在模型聯(lián)邦訓(xùn)練之前的一個工作,主要是尋找參與方之間的共同用戶(交集)。樣本對齊面臨最多的問題是,參與方都不希望交集外的數(shù)據(jù)還被泄露出去?,F(xiàn)在智邦平臺做到已經(jīng)達(dá)成了這個目標(biāo)。

樣本對齊要想做到充分安全,也就是交集內(nèi)用戶也不對外可見,還是有很大挑戰(zhàn)的,這需要與訓(xùn)練過程結(jié)合在一起才能實(shí)現(xiàn)。

后臺回復(fù)“知識聯(lián)邦” ,即可獲得完整版《知識聯(lián)邦白皮書》。

雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

分享:
相關(guān)文章

編輯

云計(jì)算/To B/金融科技丨微信:LorraineSummer
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說