丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
金融科技巨頭 正文
發(fā)私信給周蕾
發(fā)送

0

螞蟻集團(tuán)「共享智能技術(shù)」戰(zhàn)略全布局丨萬字長(zhǎng)文

本文作者: 周蕾 2020-08-17 19:01
導(dǎo)語:共享智能與聯(lián)邦學(xué)習(xí)有何不同?

隱私性跟可用性難以兼顧,讓人工智能落入了魚與熊掌不可兼得的尷尬境地。

當(dāng)前,業(yè)界解決隱私泄露和數(shù)據(jù)濫用的數(shù)據(jù)共享技術(shù)路線主要有兩條:一條是基于硬件可信執(zhí)行環(huán)境(TEE:Trusted Execution Environment)技術(shù)的可信計(jì)算,另一條是基于密碼學(xué)的多方安全計(jì)算(MPC:Multi-party Computation)。

針對(duì)數(shù)據(jù)共享場(chǎng)景,包括聯(lián)邦學(xué)習(xí)、隱私保護(hù)機(jī)器學(xué)習(xí)(PPML)在內(nèi)的多個(gè)技術(shù)解決方案紛紛出爐。螞蟻金服提出了共享智能(又稱:共享機(jī)器學(xué)習(xí)),結(jié)合TEE與MPC兩條路線,同時(shí)結(jié)合螞蟻?zhàn)陨順I(yè)務(wù)場(chǎng)景特性,聚焦于金融行業(yè)的應(yīng)用。

究竟共享智能與我們熟知的聯(lián)邦學(xué)習(xí)有何不同?在共享智能落地金融等多個(gè)重要領(lǐng)域的過程中,螞蟻金服又遇到過哪些挑戰(zhàn),留下了怎樣的寶貴經(jīng)驗(yàn)?

為此,雷鋒網(wǎng)《AI金融評(píng)論》邀請(qǐng)到了螞蟻集團(tuán)共享智能部總經(jīng)理周俊做客線上講堂,詳解螞蟻金服共享智能的技術(shù)進(jìn)展和落地實(shí)踐。

以下為周俊公開課全文,AI金融評(píng)論做了不改變?cè)獾木庉嫞?/strong>

在業(yè)界做隱私保護(hù)技術(shù)研發(fā)之前,是通過協(xié)同學(xué)習(xí)方法來實(shí)現(xiàn)多方信息融合,聯(lián)邦學(xué)習(xí)就是其中一種。近年來,學(xué)術(shù)圈相應(yīng)的證明發(fā)現(xiàn)此類方法的一些安全性問題,尤其是直接共享梯度,本質(zhì)上存在一些安全性問題。

我們先來看一下去年在一個(gè)學(xué)術(shù)頂會(huì)上比較火的Paper引發(fā)的討論。Paper里面的方法也比較好理解,實(shí)際上就是近幾年大家保護(hù)隱私的方法之一:就是不傳原始的數(shù)據(jù),只傳共享的梯度,把梯度匯聚到一起,然后再匯集到模型。

這種方法在前幾年一直都比較火,無論是聯(lián)邦學(xué)習(xí)還是其他的協(xié)同學(xué)習(xí)方式。

工作里面證明了,如果有惡意者在模型訓(xùn)練過程中拿到真正的梯度之后,就可以反推出數(shù)據(jù)中的特征(x)和標(biāo)簽(y)。

螞蟻集團(tuán)「共享智能技術(shù)」戰(zhàn)略全布局丨萬字長(zhǎng)文

這里舉了兩個(gè)例子,能夠看到,尤其是在圖像領(lǐng)域,通過梯度本身是可以反推出原始輸入的這張圖像和原始的Y。

右邊的例子,是在NIPS網(wǎng)站上摳的一些文字,剛開始是隨機(jī)生成的,迭代到第30輪的時(shí)候,可以看到從梯度里恢復(fù)出來的一個(gè)樣本,跟原始樣本是非常接近的,只有個(gè)別詞有一定差異。

從學(xué)術(shù)上能夠看到,在這種協(xié)同學(xué)習(xí)中,以前大家認(rèn)為安全的共享梯度方式,本身并不是很安全,我們給它取了一個(gè)標(biāo)題叫做非可證安全。

螞蟻集團(tuán)「共享智能技術(shù)」戰(zhàn)略全布局丨萬字長(zhǎng)文

在這之后,DLG方法有了改進(jìn)。這個(gè)方法首先通過推導(dǎo)可以精確拿到Label本身,有了Label再去反推X就更簡(jiǎn)單了。從公式可以看到,它能更容易反推出原始數(shù)據(jù)的X。

從它的三個(gè)數(shù)據(jù)集可以看到,改進(jìn)版DLG相對(duì)于原始的DLG在攻擊的準(zhǔn)確率提升非常大。

阿里巴巴在去年也做過一個(gè)更加貼合實(shí)際情況的例子:假定雙方有兩個(gè)數(shù)據(jù)擁有者,它們的特征空間一樣,樣本空間不一樣,我們稱之為水平切分。

螞蟻集團(tuán)「共享智能技術(shù)」戰(zhàn)略全布局丨萬字長(zhǎng)文

按照聯(lián)邦學(xué)習(xí)的協(xié)作方式,計(jì)算本地的梯度,發(fā)到服務(wù)器,平均之后更新本地的模型,看起來比較安全——實(shí)際上,由于A和B精確知道每一輪梯度,它其實(shí)可以反饋出很多相關(guān)信息。

滿足一定條件的情況下,尤其是邏輯回歸,可以構(gòu)造出這樣的一組方程組,當(dāng)方程組的個(gè)數(shù)大于這個(gè)數(shù)據(jù)的特征維度,方程組是可以解出來的。因此也可以反推出原始的數(shù)據(jù)。

螞蟻集團(tuán)「共享智能技術(shù)」戰(zhàn)略全布局丨萬字長(zhǎng)文

從右下角的結(jié)果中,能夠看到我們攻擊出來的結(jié)果,跟原始特征非常接近。這說明,不論是從學(xué)術(shù)圈里面假定的setting,還是真實(shí)情況中,目前這種共享梯度的協(xié)作方式,也包括聯(lián)邦學(xué)習(xí),本身都有比較大的安全隱患。

做保護(hù)隱私的機(jī)器學(xué)習(xí)方法,本身還是需要結(jié)合其他方法去彌補(bǔ)它的不足,才有可能讓方法本身更安全,真正保護(hù)用戶隱私。

如何“精修”機(jī)器學(xué)習(xí)處理方法各環(huán)節(jié)

數(shù)據(jù)預(yù)處理:

我們自己所做的機(jī)器學(xué)習(xí)處理方法,從數(shù)據(jù)預(yù)處理到模型訓(xùn)練再到模型推斷,都是遵循這樣切實(shí)保護(hù)用戶隱私的思路,將MPC、TEE或其他技術(shù),跟現(xiàn)在技術(shù)相應(yīng)結(jié)合,確保中間每一步的隱私都能得到更好地保護(hù)。

螞蟻集團(tuán)「共享智能技術(shù)」戰(zhàn)略全布局丨萬字長(zhǎng)文

以數(shù)據(jù)預(yù)處理中的降維為例,假定數(shù)據(jù)在水平切分的情況下,大家樣本空間不一樣,兩方希望能夠把數(shù)據(jù)能降低一個(gè)維度,降維之后的結(jié)果能夠送到后面的機(jī)器學(xué)習(xí)模型進(jìn)行相應(yīng)訓(xùn)練,這種方法能較好提升效率。

同時(shí),模型的泛化能力會(huì)有進(jìn)一步提升,結(jié)合MPC里同態(tài)加密和秘密分享的技術(shù),加固PCA(Principal Components Analysis,主成分分析),使得它能真正保護(hù)數(shù)據(jù)安全性。

螞蟻集團(tuán)「共享智能技術(shù)」戰(zhàn)略全布局丨萬字長(zhǎng)文

此處有幾步核心操作:

首先是計(jì)算均值。如果是在同態(tài)加密的情況下,需要密態(tài)空間要進(jìn)行計(jì)算;如果是秘密分享的方法,則需要將原始數(shù)據(jù)拆成多個(gè)秘密分片,再配合起來算出均值。

其次是計(jì)算協(xié)方差矩陣,最后再算出相應(yīng)的特征值、特征向量,就得到了降維后的X′。同態(tài)加密和秘密分享的技術(shù),跟PCA做相應(yīng)結(jié)合,就能比較好的拿到相應(yīng)結(jié)果。

螞蟻集團(tuán)「共享智能技術(shù)」戰(zhàn)略全布局丨萬字長(zhǎng)文

從結(jié)果可以看出,相比于各方單獨(dú)算一個(gè)PCA再拼湊結(jié)果,我們的方法精度提升比較大。同時(shí),它跟原始PCA方法相比,在后面都接相同的機(jī)器學(xué)習(xí)模型的情況下,幾乎沒有精度損失的情況。

除了降維以外,還有很多類似的工作可做,比如共線性檢測(cè),隱私求交(PSI)等。

當(dāng)然,安全的方法計(jì)算時(shí)間會(huì)更長(zhǎng)一些,因?yàn)樘煜聸]有免費(fèi)的午餐,要保護(hù)隱私,肯定有相應(yīng)的計(jì)算和通信成本在里面。

模型訓(xùn)練:

DNN模型是現(xiàn)在大家用的比較多的。這里分別列出來業(yè)界三種典型做法。

螞蟻集團(tuán)「共享智能技術(shù)」戰(zhàn)略全布局丨萬字長(zhǎng)文

左邊是傳統(tǒng)的基于明文的神經(jīng)網(wǎng)絡(luò)訓(xùn)練方法。

中間是完全基于MPC的方法,有很多非線性運(yùn)算,可以做到可證安全,但速度會(huì)慢幾個(gè)數(shù)量級(jí),效率本身也不高。

右邊是MIT提出來的方法,比較快,但它的Label也放在服務(wù)器里計(jì)算,安全性有一定問題;而且它沒有考慮特征之間的相關(guān)性,精度上有一定損失。

發(fā)現(xiàn)這些問題之后,我們提出了一個(gè)創(chuàng)新的體系。

螞蟻集團(tuán)「共享智能技術(shù)」戰(zhàn)略全布局丨萬字長(zhǎng)文

首先,為了考慮特征之間的相關(guān)性,我們?cè)诘讓永肕PC技術(shù)去做跟隱私數(shù)據(jù)相關(guān)的一部分模型計(jì)算。計(jì)算完之后,再把跟隱層相關(guān)的復(fù)雜計(jì)算,放到一個(gè)Semi-honest 服務(wù)器(半誠(chéng)實(shí)服務(wù)器)去完成其他運(yùn)算。 

這服務(wù)器里可以利用現(xiàn)有的各種計(jì)算資源,比如TF、PyTorch,甚至可以利用一些比較靈活的處理框架。

Label的部分還是放到數(shù)據(jù)持有者本身,全程能確保沒有哪一部分隱私會(huì)被泄露。

螞蟻集團(tuán)「共享智能技術(shù)」戰(zhàn)略全布局丨萬字長(zhǎng)文

Semi-honest 服務(wù)器會(huì)拿到中間的隱層結(jié)果,我們可以通過一些對(duì)抗學(xué)習(xí)方式去防止服務(wù)器獲取中間信息。這一方法盡可能做到隱私、準(zhǔn)確率、效率三者之間的平衡。此外,我們還可以使用貝葉斯學(xué)習(xí)的方法(SGLD)去替換傳統(tǒng)的SGD(隨機(jī)梯度下降),從而更好保護(hù)訓(xùn)練過程中的隱私。

螞蟻集團(tuán)「共享智能技術(shù)」戰(zhàn)略全布局丨萬字長(zhǎng)文

SGLD是在貝葉斯神經(jīng)網(wǎng)絡(luò)中應(yīng)用較廣泛的方法,可以看作是加噪版本的SGD。

以前很多方法都在探討它的泛化能力,在這里我們發(fā)現(xiàn)了它另外的好處:因?yàn)橛?xùn)練過程中添加了噪聲,所以可以更好的保護(hù)隱私,尤其是在對(duì)成員攻擊(Membership attack)的情況。比如有時(shí)醫(yī)療領(lǐng)域想知道自己的數(shù)據(jù)有沒有被這個(gè)模型所用。

螞蟻集團(tuán)「共享智能技術(shù)」戰(zhàn)略全布局丨萬字長(zhǎng)文

我們?cè)谠u(píng)估Membership攻擊效果時(shí),定了一個(gè)成員隱私的loss,這個(gè)loss就是為了看SGLD到底能不能保護(hù)成員隱私,我們通過大量的實(shí)驗(yàn)發(fā)現(xiàn)SGLD是能較好阻止Membership attack。

螞蟻集團(tuán)「共享智能技術(shù)」戰(zhàn)略全布局丨萬字長(zhǎng)文

具體來講,我們?cè)趦蓚€(gè)數(shù)據(jù)上面做了相應(yīng)的測(cè)試,無論是在Table1還是在Table2里,尤其是在Attack Metric上,SGLD跟普通的方法相比,能夠大大降低成員攻擊的準(zhǔn)確率。

同時(shí),我們也發(fā)現(xiàn)用它也能很好提升模型的擼棒性, SGLD和變種,比前面單獨(dú)的不加噪版本在Test上面的Metric會(huì)更好一些。

因此,我們?cè)谟?xùn)練時(shí)也把傳統(tǒng)的SGD換成了SGLD,能進(jìn)一步提升安全等級(jí),在兼顧三方面要求后,具有比較高的安全性和高效性。

螞蟻集團(tuán)「共享智能技術(shù)」戰(zhàn)略全布局丨萬字長(zhǎng)文

剛才講到,在服務(wù)器里,可以很好利用現(xiàn)有的TensorFlow或Pytorch,從右邊這個(gè)代碼可以看出來,該方法是非常用戶友好的。

其次,在服務(wù)器里面,對(duì)于網(wǎng)絡(luò)結(jié)構(gòu)這部分,設(shè)計(jì)可以非常靈活,也可以設(shè)置任意的網(wǎng)絡(luò)結(jié)構(gòu),充分發(fā)揮中心服務(wù)器的計(jì)算力。

通過訓(xùn)練過程中引入的SGLD,也就是加噪的SGD,再加上Adversary loss,使得哪怕是服務(wù)器試圖做惡,也無法由此推斷出更多相應(yīng)信息,安全等級(jí)進(jìn)一步提升。

螞蟻集團(tuán)「共享智能技術(shù)」戰(zhàn)略全布局丨萬字長(zhǎng)文

我們跟業(yè)界的幾個(gè)方法也對(duì)比過,比如2017年 MIT的 SplitNN和現(xiàn)在最好的SecureML。

性能上,(我們的方法)比這倆更好一些。從這兩個(gè)數(shù)據(jù)集來看,訓(xùn)練時(shí)間上,由于我們使用了中間服務(wù)器,訓(xùn)練時(shí)間相對(duì)于純MPC的方法(SecureML)大大降低,但相比SplitNN訓(xùn)練時(shí)間還是要長(zhǎng),因?yàn)槲覀儼踩燃?jí)要高。

總體而言,我們的方法能較好地實(shí)現(xiàn)效率、安全性和準(zhǔn)確率的折中。

模型預(yù)測(cè):

在模型訓(xùn)練上,涉及到前向、反向的計(jì)算,非常耗資源,它跟現(xiàn)有的一些隱私計(jì)算技術(shù)結(jié)合之后,對(duì)效率本身還是有比較大的影響。所以有很多工作都在考慮怎么做模型推理。在模型預(yù)測(cè)時(shí),既要保護(hù)云上的模型,也要保護(hù)客戶手里的數(shù)據(jù)。

螞蟻集團(tuán)「共享智能技術(shù)」戰(zhàn)略全布局丨萬字長(zhǎng)文

我們這個(gè)方法跟原來不一樣,之前可能有很多工作局限于支持一部分的激活函數(shù)。比如有時(shí)都無法支持sigmoid或max pooling,有的干脆只保護(hù)客戶端的Input data,但不保護(hù)服務(wù)器上的模型。 

還有極端情況是完全用MPC做計(jì)算,單次模型預(yù)測(cè)用時(shí)會(huì)非常長(zhǎng)。

另外,現(xiàn)在MPC尚不能完全精確計(jì)算一些比較復(fù)雜的函數(shù),只能做一些展開或近似計(jì)算,精度上也有所損失。

我們希望能夠提出一種方式,盡可能在效率、精度、安全性方面能達(dá)到比較好的折中,保護(hù)服務(wù)器和用戶的隱私。

螞蟻集團(tuán)「共享智能技術(shù)」戰(zhàn)略全布局丨萬字長(zhǎng)文

方法采用了兩點(diǎn),一是前面介紹的貝葉斯神經(jīng)網(wǎng)絡(luò),因?yàn)樗锩婵梢砸霗?quán)重的不確定性,這能讓服務(wù)器上的精確模型不被拿到。 

第二,無論是在數(shù)據(jù)保護(hù)還是在客戶端上,用同態(tài)加密的機(jī)制去保護(hù)。

螞蟻集團(tuán)「共享智能技術(shù)」戰(zhàn)略全布局丨萬字長(zhǎng)文

具體是把DNN的計(jì)算拆分成兩級(jí),一是首先通過采樣的方法拿到W,有了W之后,客戶端傳過來的加密Input,通過線下的運(yùn)算出Z,這也是密態(tài)的。密態(tài)下的Z在返回到客戶端解密后,在客戶端上就能拿到最后的a。

這樣的方式,既保護(hù)了服務(wù)器上的模型,也保護(hù)了客戶端上面輸入數(shù)據(jù)的效果,起到了比較好的trade-off。

通過迭代式的同態(tài)加密計(jì)算,既保護(hù)了用戶隱私,也保護(hù)了密態(tài)下的服務(wù)器隱私。

螞蟻集團(tuán)「共享智能技術(shù)」戰(zhàn)略全布局丨萬字長(zhǎng)文

我們的方法,因?yàn)榇罅康膹?fù)雜運(yùn)算很多是返回到客戶端上面,在非密態(tài)的情況下進(jìn)行計(jì)算,所以Latency比較低。它還能支持任意的激活函數(shù),可以比較好地?cái)U(kuò)展到RNN和CNN。

典型應(yīng)用案例:POI上的推薦

螞蟻集團(tuán)「共享智能技術(shù)」戰(zhàn)略全布局丨萬字長(zhǎng)文

原來的做法,不論是非常詳細(xì)的profile數(shù)據(jù),還是一些用戶跟POI的交互數(shù)據(jù),用戶的所有相關(guān)數(shù)據(jù)都要被推薦系統(tǒng)所收集。一些隱私模型,比如用戶偏好也都是被推薦系統(tǒng)所保留。所以推薦系統(tǒng)有很大的機(jī)會(huì)窺探到用戶相關(guān)隱私。

螞蟻集團(tuán)「共享智能技術(shù)」戰(zhàn)略全布局丨萬字長(zhǎng)文

我們的思路是:首先,比較敏感的用戶隱私數(shù)據(jù)和模型,能夠在用戶本地,而不能上傳到服務(wù)器的推薦系統(tǒng)這里。

第二,我們還是會(huì)收集用戶和POI的交互數(shù)據(jù),通過本地化差分隱私的方式注入噪音,這樣傳上去的是一個(gè)帶噪音且能夠保護(hù)隱私的版本。

通過這樣的方式產(chǎn)生動(dòng)態(tài)的POI,再通過去中心化的梯度下降方法學(xué)習(xí)能保護(hù)隱私的FM模型。

通過各式各樣的安全聚合方式使隱私得到保護(hù),這種方法我們稱為PriRec。

螞蟻集團(tuán)「共享智能技術(shù)」戰(zhàn)略全布局丨萬字長(zhǎng)文

我們?cè)趦蓚€(gè)數(shù)據(jù)集上做了比較,在Foursquare數(shù)據(jù)上,因?yàn)橛脩籼卣髦挥袃扇齻€(gè),我們的方法比FM稍弱;但切換到真實(shí)的場(chǎng)景數(shù)據(jù),因?yàn)檫@里面有大量的用戶和POI數(shù)據(jù),能看到我們這個(gè)方法比FM起到更好的效果。

之所以會(huì)更好,原因就是用戶和POI的數(shù)據(jù),往往具有聚焦性,而去中心化的學(xué)習(xí)方法恰恰可以很好的利用這一點(diǎn)。在PriRec中,服務(wù)器上也沒有拿到隱私的數(shù)據(jù)和模型,所以能保護(hù)隱私。

實(shí)際上,推薦搜索廣告方面都有類似應(yīng)用;金融科技領(lǐng)域的風(fēng)控也有類似的方法,就是對(duì)現(xiàn)有的機(jī)器學(xué)習(xí)方法進(jìn)行加固,產(chǎn)生一個(gè)更好的、更具有隱私保護(hù)的版本,達(dá)到AI助力業(yè)務(wù)效果的目的。

目前業(yè)界的四種技術(shù)

包括MPC,可信執(zhí)行環(huán)境,差分隱私和聯(lián)邦學(xué)習(xí)。

螞蟻集團(tuán)「共享智能技術(shù)」戰(zhàn)略全布局丨萬字長(zhǎng)文

在多方安全計(jì)算時(shí),理想情況是有一個(gè)大家都完全相信的可信服務(wù)器,所有人把所有東西都放上去計(jì)算,再把結(jié)果分發(fā)給大家。

現(xiàn)實(shí)是找不到完全的可信服務(wù)器,還是需要很多協(xié)作方,協(xié)同完成函數(shù)f的計(jì)算。

當(dāng)然,大家希望在計(jì)算的過程當(dāng)中既能夠保護(hù)Input privacy,也能夠保護(hù)計(jì)算的privacy,如果同時(shí)能保護(hù)Output privacy最好。

MPC的提出,是希望能夠保護(hù)Input privacy和Compute過程當(dāng)中的privacy。

螞蟻集團(tuán)「共享智能技術(shù)」戰(zhàn)略全布局丨萬字長(zhǎng)文

這里面有幾個(gè)典型技術(shù),一是秘密分享(Secret Sharing),密碼學(xué)里一個(gè)比較老的技術(shù)。早在七八十年代就已經(jīng)有相應(yīng)的論文發(fā)表。

舉個(gè)例子:有兩個(gè)人想?yún)f(xié)同計(jì)算他們求和的結(jié)果,每個(gè)人會(huì)把自己的數(shù)拆成多個(gè)share,share加起來等于他們自己,但任何人拿到其中一個(gè)的share是沒有什么物理含義的。

通過share的交互,雙方最后拿到7和6的結(jié)果(上圖右側(cè)),這其實(shí)已經(jīng)完成加法的求和運(yùn)算,既保護(hù)了Input的隱私,也保護(hù)了中間計(jì)算的隱私。

這幾年在工業(yè)界里,隨著算力的豐盛,以歐美為代表的很多公司都在用這樣的技術(shù),比如著名的開源SPDZ等。

螞蟻集團(tuán)「共享智能技術(shù)」戰(zhàn)略全布局丨萬字長(zhǎng)文

二是姚期智院士在1989年提出來的混淆電路。它主要是通過兩個(gè)大的building block構(gòu)建,一個(gè)是混淆的真值表,一個(gè)是遺忘傳輸,通過這兩種方式完成協(xié)同計(jì)算,解決了著名的百萬富翁問題。

秘密分享因?yàn)樗枰ㄟ^大量交互迭代,通信代價(jià)一般較高。

混淆電路中間是通過大量電路運(yùn)算,電路的門個(gè)數(shù)較高時(shí),效率相對(duì)來說沒有那么高。

螞蟻集團(tuán)「共享智能技術(shù)」戰(zhàn)略全布局丨萬字長(zhǎng)文

其次還有同態(tài)加密方法,過程中是在密態(tài)下計(jì)算完的,之后才解密得到相應(yīng)結(jié)果。

同態(tài)加密和秘密分享在一些比較復(fù)雜的函數(shù)上,是沒有辦法進(jìn)行相應(yīng)計(jì)算的,要通過一些近似計(jì)算的方法才能拿到相應(yīng)的結(jié)果。

由于算力的逐步提升,和一些基礎(chǔ)突破,這兩年工業(yè)界對(duì)MPC也用得越來越多。

三個(gè)技術(shù)有各自的優(yōu)缺點(diǎn),組合使用也能產(chǎn)生一個(gè)相對(duì)理想的結(jié)果。

螞蟻集團(tuán)「共享智能技術(shù)」戰(zhàn)略全布局丨萬字長(zhǎng)文

可信執(zhí)行環(huán)境,相當(dāng)于是一個(gè)硬件級(jí)的密碼箱。把加密數(shù)據(jù)放到密碼箱里之后,OS操作系統(tǒng)都沒有辦法打開密碼箱,只有持有相關(guān)密鑰的人才能在里面進(jìn)行運(yùn)算,就是所說的可信區(qū)域。

這個(gè)方法本身是非常安全,但很依賴于硬件,目前做得比較好的是因特爾的SGX。

前面所介紹的 MPC、TEE,都是可以保護(hù)Input privacy和compute privacy ,但沒能很好地保護(hù)output privacy。

螞蟻集團(tuán)「共享智能技術(shù)」戰(zhàn)略全布局丨萬字長(zhǎng)文

在差分隱私(Differential Privacy)之前有很多別的方法去處理數(shù)據(jù)中的隱私,比如像各種匿名化方法,除了K匿名,還有一些L-diversity等方法保護(hù)隱私。

但隨著大數(shù)據(jù)時(shí)代的到來,通過鏈接一些別的數(shù)據(jù),能夠反推出來單人ID,匿名化基本上沒有什么用。所以差分隱私之前的一些技術(shù),現(xiàn)在來看是不安全的。對(duì)Output或Release的數(shù)據(jù)集,都在慢慢切換到差分隱私的技術(shù)上來。

螞蟻集團(tuán)「共享智能技術(shù)」戰(zhàn)略全布局丨萬字長(zhǎng)文

這個(gè)技術(shù)本身較好地考慮到實(shí)用性和隱私性的折中,隱私肯定有代價(jià),要么犧牲一定的實(shí)用性,要么有計(jì)算代價(jià)。

差分隱私是在數(shù)據(jù)中加噪聲,對(duì)實(shí)用性有所影響,尤其是在數(shù)據(jù)本身也不大的情況下,對(duì)結(jié)果的影響較大。

差分隱私提供了一種量化的方法,能測(cè)量到底加多少噪聲,能夠取得比較好的trade-off。

螞蟻集團(tuán)「共享智能技術(shù)」戰(zhàn)略全布局丨萬字長(zhǎng)文

差分隱私從從概率學(xué)和信息論得到一個(gè)隱私保護(hù)的bound,實(shí)操不是很復(fù)雜,就是在數(shù)據(jù)中添加相應(yīng)的噪聲,并且通過參數(shù)控制噪音的大小。

當(dāng)然,它本身怎么使用、怎么設(shè)置privacy budget,有著非常復(fù)雜的考量機(jī)制,但原理本身不算特別復(fù)雜。

這個(gè)技術(shù)在提出來之后,因?yàn)樗斜容^好的理論保障,所以在學(xué)術(shù)界、工業(yè)界很多人也都在用,能比較好地保護(hù)Output privacy,跟前面的技術(shù)也有比較好的結(jié)合。

Local 差分隱私類似多方,就是自己本身加上噪聲,再上傳到一個(gè)地方。

它在工業(yè)界遇到的一個(gè)較大問題是,因?yàn)橐诶锩婕釉肼?,所以模型精度受影響? 

螞蟻集團(tuán)「共享智能技術(shù)」戰(zhàn)略全布局丨萬字長(zhǎng)文

聯(lián)邦學(xué)習(xí),谷歌在2014年就已經(jīng)在內(nèi)部開始做這樣的技術(shù),它本身是解決to C的問題,所以想解決幾十億的設(shè)備間如何協(xié)同、安全地利用數(shù)據(jù)訓(xùn)練模型。

當(dāng)然設(shè)備之間可能不滿足獨(dú)立同分布的概念,硬件之間差異非常大,所以會(huì)導(dǎo)致可靠度的差異也很大,有時(shí)在訓(xùn)練的時(shí)候自己就下線了。

螞蟻集團(tuán)「共享智能技術(shù)」戰(zhàn)略全布局丨萬字長(zhǎng)文

在2016-2017年,聯(lián)邦學(xué)習(xí)有相應(yīng)論文發(fā)表。目前用的算法也是從服務(wù)器上拉了一個(gè)模型,做完更新,delta發(fā)給服務(wù)器做average并更新模型。

直接這么做肯定會(huì)有一些問題,所以paper里面做了大量的優(yōu)化,能夠讓通信成本和訓(xùn)練的穩(wěn)定性都有比較大的提升。

螞蟻集團(tuán)「共享智能技術(shù)」戰(zhàn)略全布局丨萬字長(zhǎng)文

谷歌在2017年期間已經(jīng)發(fā)現(xiàn)了,原來把梯度直接匯聚到服務(wù)器上的協(xié)同學(xué)習(xí)方法也不是很安全;如果要保護(hù)隱私,必須得結(jié)合MPC的技術(shù)。

幾種技術(shù)的比較和解決方案

螞蟻集團(tuán)「共享智能技術(shù)」戰(zhàn)略全布局丨萬字長(zhǎng)文

我們從自己的角度做了一張總結(jié)表格,像MPC能保護(hù)好Input privacy和計(jì)算過程中的 privacy;但對(duì)于Output privacy,它的保護(hù)能力比較弱。效率上,因?yàn)闋可娴酱罅棵艽a學(xué)技術(shù),代價(jià)不低。

TEE跟MPC類似,把它們理解成密碼學(xué)偏軟件和偏硬件的實(shí)驗(yàn)版本。

差分隱私就可以較好保護(hù)Output privacy,計(jì)算代價(jià)相對(duì)不高,實(shí)用性有一定損失,尤其是local 差分隱私加了某種噪聲之后,只能用于某些統(tǒng)計(jì)學(xué)運(yùn)算。

聯(lián)邦學(xué)習(xí)無法很好地保護(hù)Input privacy和Output privacy,好處在于效率相對(duì)高。

站在從業(yè)者的角度來看,這些技術(shù)還是需要一個(gè)端到端的設(shè)計(jì),結(jié)合各方技術(shù)優(yōu)勢(shì)提供相應(yīng)的方案,達(dá)到最后總體的效果。

螞蟻集團(tuán)「共享智能技術(shù)」戰(zhàn)略全布局丨萬字長(zhǎng)文

我們結(jié)合了這樣三個(gè)方案

首先,MPC底下分為這么幾層,用前面所講的秘密共享、OT或其他密碼學(xué)的原語。為什么要實(shí)現(xiàn)這么多密碼學(xué)的協(xié)議?就是希望能夠利用每種協(xié)議的優(yōu)缺點(diǎn),有更加好的組合,在合適的地方選用合適的技術(shù)。

第二層,我們希望把底下比較偏密碼學(xué)的原語,再做一層封裝,這上面提供一些機(jī)器學(xué)習(xí)經(jīng)常要用的運(yùn)算,比如比較、求交、矩陣加法、求max的運(yùn)算。

上面再抽象成一個(gè)DSL語言,開發(fā)算法時(shí),不用直接面對(duì)底層密碼學(xué)原語,速度相對(duì)會(huì)更快。

另外,因?yàn)槲覀儏⒖嫉氖菣C(jī)器學(xué)習(xí)里面的DSL,整個(gè)語法也跟機(jī)器學(xué)習(xí)類似,機(jī)器學(xué)習(xí)的創(chuàng)業(yè)者就能用比較低的成本,切換到共享智能技術(shù)上,進(jìn)行算法開發(fā)。

同時(shí),我們也提供編譯器,它能夠?qū)⒂脩魧?duì)上層開發(fā)的算法,自動(dòng)選擇最優(yōu)的安全算子,實(shí)現(xiàn)安全的程序,進(jìn)而實(shí)現(xiàn)整個(gè)MPC里面的一些方法。

TEE方面,因?yàn)門EE本身的SDK也不是那么友好,并且單機(jī)的SGX 的運(yùn)算能力并不是特別強(qiáng),為此我們做了一些改進(jìn):

組建安全可信集群,以擴(kuò)展算力;做了很多防止各種攻擊的方法,在安全性上有個(gè)更好的工業(yè)級(jí)框架出來,便于開發(fā)者能夠基于這些核心能力開發(fā)出各種算法。

上面是比較偏差分隱私或矩陣變換的方法。這種方法還是有比較好的適用場(chǎng)合,比如前面講的Output privacy里面用到差分隱私,或者是MPC和TEE里面在Output 的地方加上差分隱私,本身有比較好的互補(bǔ)的作用。技術(shù)之間也可以兩兩去組合。 

每個(gè)方案都有各自的優(yōu)缺點(diǎn),做隱私保護(hù)相關(guān)的工作,還是需要通過精心的工程設(shè)計(jì),算法設(shè)計(jì)加上密碼學(xué)原語,才能夠端到端地保護(hù)數(shù)據(jù)輸入、計(jì)算過程、數(shù)據(jù)輸出等隱私,從而達(dá)到相應(yīng)的目的。

螞蟻共享智能的落地經(jīng)驗(yàn)

螞蟻集團(tuán)「共享智能技術(shù)」戰(zhàn)略全布局丨萬字長(zhǎng)文

合作案例:江蘇銀行

去年上半年,江蘇銀行希望使用MPC實(shí)現(xiàn)聯(lián)合風(fēng)控,模型的產(chǎn)出完全放在江蘇銀行,自主可控。構(gòu)建出聯(lián)合模型之后,模型分?jǐn)?shù)給到銀行,由它去做獨(dú)立的風(fēng)控判斷,之后再產(chǎn)生結(jié)果給到最后的申請(qǐng)判斷。整個(gè)模型的效果在測(cè)試的時(shí)候發(fā)現(xiàn)提升了50%左右。

同樣,我們還在支付的聯(lián)合風(fēng)控、聯(lián)合營(yíng)銷以及聯(lián)合保險(xiǎn)也進(jìn)行了相應(yīng)的落地。

AI研究前沿動(dòng)態(tài)和未來展望

目前看來,現(xiàn)在這幾個(gè)技術(shù)之間彼此有互補(bǔ),但端到端的系統(tǒng)怎么在各個(gè)環(huán)節(jié)去利用合適的技術(shù),去產(chǎn)生合適的效果?怎么樣把這樣一個(gè)系統(tǒng)在超大規(guī)模的數(shù)據(jù)上做相應(yīng)的實(shí)踐?在不影響效率的情況下,將隱私保護(hù)的等級(jí)能夠升級(jí)到更高的級(jí)別? 

我覺得還需要有整個(gè)業(yè)界需要投入更多的資源,更長(zhǎng)的研發(fā)投入,更長(zhǎng)的耐心,才有可能在一些更關(guān)鍵的技術(shù)上面產(chǎn)生更好的結(jié)果。

同時(shí)也需要整個(gè)AI圈子加上密碼學(xué)的硬件再加上工程系統(tǒng),一起努力才有可能在一些點(diǎn)上面取得真正的大的突破,才有可能使得整個(gè)隱私計(jì)算的效率能夠再提升1~2個(gè)數(shù)量級(jí)。

目前隱私計(jì)算效率本身,相比非隱私保護(hù)的AI,在速度甚至精度上都會(huì)有一定的損失。

所以,怎么樣去設(shè)計(jì)更好的方式,除了在技術(shù)本身的突破,也需要有更多的場(chǎng)景去打磨技術(shù),才能發(fā)現(xiàn)的問題,逐步讓技術(shù)往前走。

螞蟻集團(tuán)「共享智能技術(shù)」戰(zhàn)略全布局丨萬字長(zhǎng)文

從三大維度來看:

第一,從算法維度看,無論是在學(xué)術(shù)界還是工業(yè)界,目前的這幾個(gè)方法割裂程度比較明顯。比如TEE跟差分隱私,雖然他們之間有交集但并不多。

TEE里也有很多技術(shù)要去突破,比如目前TEE的內(nèi)存只有128兆,相比普通系統(tǒng)還是比較小的?,F(xiàn)在數(shù)據(jù)量比較大,尤其是在一個(gè)圖像數(shù)據(jù)上,怎么在這么大的數(shù)據(jù)情況下完成隱私計(jì)算,是難度比較大的一個(gè)問題。

第二,由于內(nèi)存比較小,為了保護(hù)安全和隱私,所以在很多運(yùn)算效率跟目前正常操作有一定差距

第三,SDK的友好性方面,因?yàn)楸容^偏硬件,還涉及到大量的密碼學(xué)等機(jī)制,比如遠(yuǎn)程認(rèn)證,對(duì)于很多從業(yè)人員而言還是有相應(yīng)的學(xué)習(xí)成本。 

當(dāng)然,業(yè)界很多開源的、在原生的TEE上封裝的一些SDK,各方面有一些提升,可擴(kuò)展性本質(zhì)上有些突破,但突破不是特別大,意味著很多東西不能拿來直接在工業(yè)界使用。所以TEE也還需要整個(gè)社區(qū)有更多的投入。

TEE上面,現(xiàn)在很多都在做支持中小規(guī)模的算法訓(xùn)練和預(yù)測(cè)。怎么讓更大的規(guī)模、更新的算法能夠被集成進(jìn)來,這也是需要業(yè)界有更多投入。

差分隱私技術(shù)本身的理論性質(zhì)比較優(yōu)美,但在實(shí)用性上有一定損失。

我們提到過,對(duì)于utility loss以及差分隱私輸出來的結(jié)果,因?yàn)楫吘故窃谠嫉臄?shù)據(jù)上面加了一定的噪聲,這個(gè)數(shù)據(jù)相對(duì)來講會(huì)不會(huì)有一定的損失度?

如果完全是local 差分隱私的方式,在很多場(chǎng)景下面就沒有辦法用,怎么讓差分隱私能夠再更進(jìn)一步,更貼合現(xiàn)在AI這個(gè)情況?

目前看到,差分隱私在很多數(shù)據(jù)分析應(yīng)用非常廣泛,比如,蘋果系統(tǒng)上收集了emoji的數(shù)據(jù);微軟操作系統(tǒng)的瀏覽器里面也嵌入了差分隱私的數(shù)據(jù);Uber也用了這樣一個(gè)技術(shù),但目前大部分用在數(shù)據(jù)統(tǒng)計(jì)方面。

怎么樣把差分隱私這樣的技術(shù)能夠跟AI有更好的結(jié)合,是未來一個(gè)比較大的突破點(diǎn)。

MPC技術(shù)本身,從經(jīng)典論文發(fā)表來看,雖然不算特別新,但在很多很復(fù)雜的運(yùn)算上,尤其是在AI的一些新方法,MPC效率本身還是有一定的代價(jià)。

怎樣取得算力的增長(zhǎng),有新模式突破,像完全同態(tài)的方法什么時(shí)候真的變成實(shí)用,怎么能夠使這個(gè)技術(shù)在工業(yè)界更進(jìn)一步,這也是需要考量的一個(gè)點(diǎn)。

聯(lián)邦學(xué)習(xí)目前也存在一定的安全隱患,四個(gè)技術(shù)之間怎么去做相應(yīng)的結(jié)合,取長(zhǎng)補(bǔ)短,能夠形成比較好的下一代的解決方案,真真正正保護(hù)隱私,讓AI落地變得更簡(jiǎn)單?

尤其是在一些數(shù)據(jù)比較敏感的地方,像醫(yī)療的某些領(lǐng)域,病例的數(shù)據(jù)采集特別困難,真的能夠讓AI進(jìn)到這些地方,輔助決策,才能更加好實(shí)現(xiàn)社會(huì)意義和價(jià)值。

我覺得,在算法層面會(huì)需要深度結(jié)合,無論是基于某些算力,還是說在技術(shù)領(lǐng)域的突破,能讓這里面的一些問題有更進(jìn)一步的解法。

在平臺(tái)層,無論是差分隱私、TEE還是別的技術(shù),越靠近數(shù)學(xué)和越靠近密碼學(xué)硬件,為了保護(hù)隱私,里面大量的設(shè)置都比較難以理解。怎樣讓大家更高效產(chǎn)出不一樣的算法,降低使用門檻,這些方法才能夠跟更多地方結(jié)合,產(chǎn)生更多的新突破。

在DSL和在編譯器方面,甚至在整個(gè)系統(tǒng)的運(yùn)維、部署,以及系統(tǒng)穩(wěn)定性、安全生產(chǎn)等各方面,有沒有進(jìn)一步的突破,變得易用?

在一些對(duì)時(shí)效性要求沒有那么強(qiáng)的情況,如果能夠持續(xù)穩(wěn)定計(jì)算,對(duì)于很多產(chǎn)品也是比較適用的。對(duì)于整個(gè)隱私計(jì)算領(lǐng)域而言,這也是一個(gè)巨大的挑戰(zhàn)。

所以怎樣有更高效的平臺(tái)一體化設(shè)計(jì),讓使用門檻變低,才有可能會(huì)真正帶來一些繁榮的社區(qū),讓技術(shù)能夠走進(jìn)更多場(chǎng)景、更多機(jī)構(gòu),真正產(chǎn)生一些化學(xué)反應(yīng)。

雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

分享:
相關(guān)文章

編輯

云計(jì)算/To B/金融科技丨微信:LorraineSummer
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄