螞蟻集團(tuán)「共享智能技術(shù)」戰(zhàn)略全布局丨萬(wàn)字長(zhǎng)文

本文作者：周蕾

2020-08-17 19:01

導(dǎo)語(yǔ)：共享智能與聯(lián)邦學(xué)習(xí)有何不同？

隱私性跟可用性難以兼顧，讓人工智能落入了魚(yú)與熊掌不可兼得的尷尬境地。

當(dāng)前，業(yè)界解決隱私泄露和數(shù)據(jù)濫用的數(shù)據(jù)共享技術(shù)路線(xiàn)主要有兩條：一條是基于硬件可信執(zhí)行環(huán)境（TEE：Trusted Execution Environment）技術(shù)的可信計(jì)算，另一條是基于密碼學(xué)的多方安全計(jì)算（MPC：Multi-party Computation）。

針對(duì)數(shù)據(jù)共享場(chǎng)景，包括聯(lián)邦學(xué)習(xí)、隱私保護(hù)機(jī)器學(xué)習(xí)（PPML）在內(nèi)的多個(gè)技術(shù)解決方案紛紛出爐。螞蟻金服提出了共享智能（又稱(chēng)：共享機(jī)器學(xué)習(xí)），結(jié)合TEE與MPC兩條路線(xiàn)，同時(shí)結(jié)合螞蟻?zhàn)陨順I(yè)務(wù)場(chǎng)景特性，聚焦于金融行業(yè)的應(yīng)用。

究竟共享智能與我們熟知的聯(lián)邦學(xué)習(xí)有何不同？在共享智能落地金融等多個(gè)重要領(lǐng)域的過(guò)程中，螞蟻金服又遇到過(guò)哪些挑戰(zhàn)，留下了怎樣的寶貴經(jīng)驗(yàn)？

為此，雷鋒網(wǎng)《AI金融評(píng)論》邀請(qǐng)到了螞蟻集團(tuán)共享智能部總經(jīng)理周俊做客線(xiàn)上講堂，詳解螞蟻金服共享智能的技術(shù)進(jìn)展和落地實(shí)踐。

以下為周俊公開(kāi)課全文，AI金融評(píng)論做了不改變?cè)獾木庉嫞?/strong>

在業(yè)界做隱私保護(hù)技術(shù)研發(fā)之前，是通過(guò)協(xié)同學(xué)習(xí)方法來(lái)實(shí)現(xiàn)多方信息融合，聯(lián)邦學(xué)習(xí)就是其中一種。近年來(lái)，學(xué)術(shù)圈相應(yīng)的證明發(fā)現(xiàn)此類(lèi)方法的一些安全性問(wèn)題，尤其是直接共享梯度，本質(zhì)上存在一些安全性問(wèn)題。

我們先來(lái)看一下去年在一個(gè)學(xué)術(shù)頂會(huì)上比較火的Paper引發(fā)的討論。Paper里面的方法也比較好理解，實(shí)際上就是近幾年大家保護(hù)隱私的方法之一：就是不傳原始的數(shù)據(jù)，只傳共享的梯度，把梯度匯聚到一起，然后再匯集到模型。

這種方法在前幾年一直都比較火，無(wú)論是聯(lián)邦學(xué)習(xí)還是其他的協(xié)同學(xué)習(xí)方式。

工作里面證明了，如果有惡意者在模型訓(xùn)練過(guò)程中拿到真正的梯度之后，就可以反推出數(shù)據(jù)中的特征（x）和標(biāo)簽（y）。

這里舉了兩個(gè)例子，能夠看到，尤其是在圖像領(lǐng)域，通過(guò)梯度本身是可以反推出原始輸入的這張圖像和原始的Y。

右邊的例子，是在NIPS網(wǎng)站上摳的一些文字，剛開(kāi)始是隨機(jī)生成的，迭代到第30輪的時(shí)候，可以看到從梯度里恢復(fù)出來(lái)的一個(gè)樣本，跟原始樣本是非常接近的，只有個(gè)別詞有一定差異。

從學(xué)術(shù)上能夠看到，在這種協(xié)同學(xué)習(xí)中，以前大家認(rèn)為安全的共享梯度方式，本身并不是很安全，我們給它取了一個(gè)標(biāo)題叫做非可證安全。

在這之后，DLG方法有了改進(jìn)。這個(gè)方法首先通過(guò)推導(dǎo)可以精確拿到Label本身，有了Label再去反推X就更簡(jiǎn)單了。從公式可以看到，它能更容易反推出原始數(shù)據(jù)的X。

從它的三個(gè)數(shù)據(jù)集可以看到，改進(jìn)版DLG相對(duì)于原始的DLG在攻擊的準(zhǔn)確率提升非常大。

阿里巴巴在去年也做過(guò)一個(gè)更加貼合實(shí)際情況的例子：假定雙方有兩個(gè)數(shù)據(jù)擁有者，它們的特征空間一樣，樣本空間不一樣，我們稱(chēng)之為水平切分。

按照聯(lián)邦學(xué)習(xí)的協(xié)作方式，計(jì)算本地的梯度，發(fā)到服務(wù)器，平均之后更新本地的模型，看起來(lái)比較安全——實(shí)際上，由于A和B精確知道每一輪梯度，它其實(shí)可以反饋出很多相關(guān)信息。

滿(mǎn)足一定條件的情況下，尤其是邏輯回歸，可以構(gòu)造出這樣的一組方程組，當(dāng)方程組的個(gè)數(shù)大于這個(gè)數(shù)據(jù)的特征維度，方程組是可以解出來(lái)的。因此也可以反推出原始的數(shù)據(jù)。

從右下角的結(jié)果中，能夠看到我們攻擊出來(lái)的結(jié)果，跟原始特征非常接近。這說(shuō)明，不論是從學(xué)術(shù)圈里面假定的setting，還是真實(shí)情況中，目前這種共享梯度的協(xié)作方式，也包括聯(lián)邦學(xué)習(xí)，本身都有比較大的安全隱患。

做保護(hù)隱私的機(jī)器學(xué)習(xí)方法，本身還是需要結(jié)合其他方法去彌補(bǔ)它的不足，才有可能讓方法本身更安全，真正保護(hù)用戶(hù)隱私。

如何“精修”機(jī)器學(xué)習(xí)處理方法各環(huán)節(jié)

數(shù)據(jù)預(yù)處理：

我們自己所做的機(jī)器學(xué)習(xí)處理方法，從數(shù)據(jù)預(yù)處理到模型訓(xùn)練再到模型推斷，都是遵循這樣切實(shí)保護(hù)用戶(hù)隱私的思路，將MPC、TEE或其他技術(shù)，跟現(xiàn)在技術(shù)相應(yīng)結(jié)合，確保中間每一步的隱私都能得到更好地保護(hù)。

以數(shù)據(jù)預(yù)處理中的降維為例，假定數(shù)據(jù)在水平切分的情況下，大家樣本空間不一樣，兩方希望能夠把數(shù)據(jù)能降低一個(gè)維度，降維之后的結(jié)果能夠送到后面的機(jī)器學(xué)習(xí)模型進(jìn)行相應(yīng)訓(xùn)練，這種方法能較好提升效率。

同時(shí)，模型的泛化能力會(huì)有進(jìn)一步提升，結(jié)合MPC里同態(tài)加密和秘密分享的技術(shù)，加固PCA（Principal Components Analysis，主成分分析），使得它能真正保護(hù)數(shù)據(jù)安全性。

此處有幾步核心操作：

首先是計(jì)算均值。如果是在同態(tài)加密的情況下，需要密態(tài)空間要進(jìn)行計(jì)算；如果是秘密分享的方法，則需要將原始數(shù)據(jù)拆成多個(gè)秘密分片，再配合起來(lái)算出均值。

其次是計(jì)算協(xié)方差矩陣，最后再算出相應(yīng)的特征值、特征向量，就得到了降維后的X′。同態(tài)加密和秘密分享的技術(shù)，跟PCA做相應(yīng)結(jié)合，就能比較好的拿到相應(yīng)結(jié)果。

從結(jié)果可以看出，相比于各方單獨(dú)算一個(gè)PCA再拼湊結(jié)果，我們的方法精度提升比較大。同時(shí)，它跟原始PCA方法相比，在后面都接相同的機(jī)器學(xué)習(xí)模型的情況下，幾乎沒(méi)有精度損失的情況。

除了降維以外，還有很多類(lèi)似的工作可做，比如共線(xiàn)性檢測(cè)，隱私求交（PSI）等。

當(dāng)然，安全的方法計(jì)算時(shí)間會(huì)更長(zhǎng)一些，因?yàn)樘煜聸](méi)有免費(fèi)的午餐，要保護(hù)隱私，肯定有相應(yīng)的計(jì)算和通信成本在里面。

模型訓(xùn)練：

DNN模型是現(xiàn)在大家用的比較多的。這里分別列出來(lái)業(yè)界三種典型做法。

左邊是傳統(tǒng)的基于明文的神經(jīng)網(wǎng)絡(luò)訓(xùn)練方法。

中間是完全基于MPC的方法，有很多非線(xiàn)性運(yùn)算，可以做到可證安全，但速度會(huì)慢幾個(gè)數(shù)量級(jí)，效率本身也不高。

右邊是MIT提出來(lái)的方法，比較快，但它的Label也放在服務(wù)器里計(jì)算，安全性有一定問(wèn)題；而且它沒(méi)有考慮特征之間的相關(guān)性，精度上有一定損失。

發(fā)現(xiàn)這些問(wèn)題之后，我們提出了一個(gè)創(chuàng)新的體系。

首先，為了考慮特征之間的相關(guān)性，我們?cè)诘讓永肕PC技術(shù)去做跟隱私數(shù)據(jù)相關(guān)的一部分模型計(jì)算。計(jì)算完之后，再把跟隱層相關(guān)的復(fù)雜計(jì)算，放到一個(gè)Semi-honest 服務(wù)器（半誠(chéng)實(shí)服務(wù)器）去完成其他運(yùn)算。

這服務(wù)器里可以利用現(xiàn)有的各種計(jì)算資源，比如TF、PyTorch，甚至可以利用一些比較靈活的處理框架。

Label的部分還是放到數(shù)據(jù)持有者本身，全程能確保沒(méi)有哪一部分隱私會(huì)被泄露。

Semi-honest 服務(wù)器會(huì)拿到中間的隱層結(jié)果，我們可以通過(guò)一些對(duì)抗學(xué)習(xí)方式去防止服務(wù)器獲取中間信息。這一方法盡可能做到隱私、準(zhǔn)確率、效率三者之間的平衡。此外，我們還可以使用貝葉斯學(xué)習(xí)的方法（SGLD）去替換傳統(tǒng)的SGD（隨機(jī)梯度下降），從而更好保護(hù)訓(xùn)練過(guò)程中的隱私。

SGLD是在貝葉斯神經(jīng)網(wǎng)絡(luò)中應(yīng)用較廣泛的方法，可以看作是加噪版本的SGD。

以前很多方法都在探討它的泛化能力，在這里我們發(fā)現(xiàn)了它另外的好處：因?yàn)橛?xùn)練過(guò)程中添加了噪聲，所以可以更好的保護(hù)隱私，尤其是在對(duì)成員攻擊（Membership attack）的情況。比如有時(shí)醫(yī)療領(lǐng)域想知道自己的數(shù)據(jù)有沒(méi)有被這個(gè)模型所用。

我們?cè)谠u(píng)估Membership攻擊效果時(shí)，定了一個(gè)成員隱私的loss，這個(gè)loss就是為了看SGLD到底能不能保護(hù)成員隱私，我們通過(guò)大量的實(shí)驗(yàn)發(fā)現(xiàn)SGLD是能較好阻止Membership attack。

具體來(lái)講，我們?cè)趦蓚€(gè)數(shù)據(jù)上面做了相應(yīng)的測(cè)試，無(wú)論是在Table1還是在Table2里，尤其是在Attack Metric上，SGLD跟普通的方法相比，能夠大大降低成員攻擊的準(zhǔn)確率。

同時(shí)，我們也發(fā)現(xiàn)用它也能很好提升模型的擼棒性， SGLD和變種，比前面單獨(dú)的不加噪版本在Test上面的Metric會(huì)更好一些。

因此，我們?cè)谟?xùn)練時(shí)也把傳統(tǒng)的SGD換成了SGLD，能進(jìn)一步提升安全等級(jí)，在兼顧三方面要求后，具有比較高的安全性和高效性。

剛才講到，在服務(wù)器里，可以很好利用現(xiàn)有的TensorFlow或Pytorch，從右邊這個(gè)代碼可以看出來(lái)，該方法是非常用戶(hù)友好的。

其次，在服務(wù)器里面，對(duì)于網(wǎng)絡(luò)結(jié)構(gòu)這部分，設(shè)計(jì)可以非常靈活，也可以設(shè)置任意的網(wǎng)絡(luò)結(jié)構(gòu)，充分發(fā)揮中心服務(wù)器的計(jì)算力。

通過(guò)訓(xùn)練過(guò)程中引入的SGLD，也就是加噪的SGD，再加上Adversary loss，使得哪怕是服務(wù)器試圖做惡，也無(wú)法由此推斷出更多相應(yīng)信息，安全等級(jí)進(jìn)一步提升。

我們跟業(yè)界的幾個(gè)方法也對(duì)比過(guò)，比如2017年 MIT的 SplitNN和現(xiàn)在最好的SecureML。

性能上，（我們的方法）比這倆更好一些。從這兩個(gè)數(shù)據(jù)集來(lái)看，訓(xùn)練時(shí)間上，由于我們使用了中間服務(wù)器，訓(xùn)練時(shí)間相對(duì)于純MPC的方法（SecureML）大大降低，但相比SplitNN訓(xùn)練時(shí)間還是要長(zhǎng)，因?yàn)槲覀儼踩燃?jí)要高。

總體而言，我們的方法能較好地實(shí)現(xiàn)效率、安全性和準(zhǔn)確率的折中。

模型預(yù)測(cè)：

在模型訓(xùn)練上，涉及到前向、反向的計(jì)算，非常耗資源，它跟現(xiàn)有的一些隱私計(jì)算技術(shù)結(jié)合之后，對(duì)效率本身還是有比較大的影響。所以有很多工作都在考慮怎么做模型推理。在模型預(yù)測(cè)時(shí)，既要保護(hù)云上的模型，也要保護(hù)客戶(hù)手里的數(shù)據(jù)。

我們這個(gè)方法跟原來(lái)不一樣，之前可能有很多工作局限于支持一部分的激活函數(shù)。比如有時(shí)都無(wú)法支持sigmoid或max pooling，有的干脆只保護(hù)客戶(hù)端的Input data，但不保護(hù)服務(wù)器上的模型。

還有極端情況是完全用MPC做計(jì)算，單次模型預(yù)測(cè)用時(shí)會(huì)非常長(zhǎng)。

另外，現(xiàn)在MPC尚不能完全精確計(jì)算一些比較復(fù)雜的函數(shù)，只能做一些展開(kāi)或近似計(jì)算，精度上也有所損失。

我們希望能夠提出一種方式，盡可能在效率、精度、安全性方面能達(dá)到比較好的折中，保護(hù)服務(wù)器和用戶(hù)的隱私。

方法采用了兩點(diǎn)，一是前面介紹的貝葉斯神經(jīng)網(wǎng)絡(luò)，因?yàn)樗锩婵梢砸霗?quán)重的不確定性，這能讓服務(wù)器上的精確模型不被拿到。

第二，無(wú)論是在數(shù)據(jù)保護(hù)還是在客戶(hù)端上，用同態(tài)加密的機(jī)制去保護(hù)。

具體是把DNN的計(jì)算拆分成兩級(jí)，一是首先通過(guò)采樣的方法拿到W，有了W之后，客戶(hù)端傳過(guò)來(lái)的加密Input，通過(guò)線(xiàn)下的運(yùn)算出Z，這也是密態(tài)的。密態(tài)下的Z在返回到客戶(hù)端解密后，在客戶(hù)端上就能拿到最后的a。

這樣的方式，既保護(hù)了服務(wù)器上的模型，也保護(hù)了客戶(hù)端上面輸入數(shù)據(jù)的效果，起到了比較好的trade-off。

通過(guò)迭代式的同態(tài)加密計(jì)算，既保護(hù)了用戶(hù)隱私，也保護(hù)了密態(tài)下的服務(wù)器隱私。

我們的方法，因?yàn)榇罅康膹?fù)雜運(yùn)算很多是返回到客戶(hù)端上面，在非密態(tài)的情況下進(jìn)行計(jì)算，所以L(fǎng)atency比較低。它還能支持任意的激活函數(shù)，可以比較好地?cái)U(kuò)展到RNN和CNN。

典型應(yīng)用案例：POI上的推薦

原來(lái)的做法，不論是非常詳細(xì)的profile數(shù)據(jù)，還是一些用戶(hù)跟POI的交互數(shù)據(jù)，用戶(hù)的所有相關(guān)數(shù)據(jù)都要被推薦系統(tǒng)所收集。一些隱私模型，比如用戶(hù)偏好也都是被推薦系統(tǒng)所保留。所以推薦系統(tǒng)有很大的機(jī)會(huì)窺探到用戶(hù)相關(guān)隱私。

我們的思路是：首先，比較敏感的用戶(hù)隱私數(shù)據(jù)和模型，能夠在用戶(hù)本地，而不能上傳到服務(wù)器的推薦系統(tǒng)這里。

第二，我們還是會(huì)收集用戶(hù)和POI的交互數(shù)據(jù)，通過(guò)本地化差分隱私的方式注入噪音，這樣傳上去的是一個(gè)帶噪音且能夠保護(hù)隱私的版本。

通過(guò)這樣的方式產(chǎn)生動(dòng)態(tài)的POI，再通過(guò)去中心化的梯度下降方法學(xué)習(xí)能保護(hù)隱私的FM模型。

通過(guò)各式各樣的安全聚合方式使隱私得到保護(hù)，這種方法我們稱(chēng)為PriRec。

我們?cè)趦蓚€(gè)數(shù)據(jù)集上做了比較，在Foursquare數(shù)據(jù)上，因?yàn)橛脩?hù)特征只有兩三個(gè)，我們的方法比FM稍弱；但切換到真實(shí)的場(chǎng)景數(shù)據(jù)，因?yàn)檫@里面有大量的用戶(hù)和POI數(shù)據(jù)，能看到我們這個(gè)方法比FM起到更好的效果。

之所以會(huì)更好，原因就是用戶(hù)和POI的數(shù)據(jù)，往往具有聚焦性，而去中心化的學(xué)習(xí)方法恰恰可以很好的利用這一點(diǎn)。在PriRec中，服務(wù)器上也沒(méi)有拿到隱私的數(shù)據(jù)和模型，所以能保護(hù)隱私。

實(shí)際上，推薦搜索廣告方面都有類(lèi)似應(yīng)用；金融科技領(lǐng)域的風(fēng)控也有類(lèi)似的方法，就是對(duì)現(xiàn)有的機(jī)器學(xué)習(xí)方法進(jìn)行加固，產(chǎn)生一個(gè)更好的、更具有隱私保護(hù)的版本，達(dá)到AI助力業(yè)務(wù)效果的目的。

目前業(yè)界的四種技術(shù)

包括MPC，可信執(zhí)行環(huán)境，差分隱私和聯(lián)邦學(xué)習(xí)。

在多方安全計(jì)算時(shí)，理想情況是有一個(gè)大家都完全相信的可信服務(wù)器，所有人把所有東西都放上去計(jì)算，再把結(jié)果分發(fā)給大家。

現(xiàn)實(shí)是找不到完全的可信服務(wù)器，還是需要很多協(xié)作方，協(xié)同完成函數(shù)f的計(jì)算。

當(dāng)然，大家希望在計(jì)算的過(guò)程當(dāng)中既能夠保護(hù)Input privacy，也能夠保護(hù)計(jì)算的privacy，如果同時(shí)能保護(hù)Output privacy最好。

MPC的提出，是希望能夠保護(hù)Input privacy和Compute過(guò)程當(dāng)中的privacy。

這里面有幾個(gè)典型技術(shù)，一是秘密分享（Secret Sharing），密碼學(xué)里一個(gè)比較老的技術(shù)。早在七八十年代就已經(jīng)有相應(yīng)的論文發(fā)表。

舉個(gè)例子：有兩個(gè)人想?yún)f(xié)同計(jì)算他們求和的結(jié)果，每個(gè)人會(huì)把自己的數(shù)拆成多個(gè)share，share加起來(lái)等于他們自己，但任何人拿到其中一個(gè)的share是沒(méi)有什么物理含義的。

通過(guò)share的交互，雙方最后拿到7和6的結(jié)果（上圖右側(cè)），這其實(shí)已經(jīng)完成加法的求和運(yùn)算，既保護(hù)了Input的隱私，也保護(hù)了中間計(jì)算的隱私。

這幾年在工業(yè)界里，隨著算力的豐盛，以歐美為代表的很多公司都在用這樣的技術(shù)，比如著名的開(kāi)源SPDZ等。

二是姚期智院士在1989年提出來(lái)的混淆電路。它主要是通過(guò)兩個(gè)大的building block構(gòu)建，一個(gè)是混淆的真值表，一個(gè)是遺忘傳輸，通過(guò)這兩種方式完成協(xié)同計(jì)算，解決了著名的百萬(wàn)富翁問(wèn)題。

秘密分享因?yàn)樗枰ㄟ^(guò)大量交互迭代，通信代價(jià)一般較高。

混淆電路中間是通過(guò)大量電路運(yùn)算，電路的門(mén)個(gè)數(shù)較高時(shí)，效率相對(duì)來(lái)說(shuō)沒(méi)有那么高。

其次還有同態(tài)加密方法，過(guò)程中是在密態(tài)下計(jì)算完的，之后才解密得到相應(yīng)結(jié)果。

同態(tài)加密和秘密分享在一些比較復(fù)雜的函數(shù)上，是沒(méi)有辦法進(jìn)行相應(yīng)計(jì)算的，要通過(guò)一些近似計(jì)算的方法才能拿到相應(yīng)的結(jié)果。

由于算力的逐步提升，和一些基礎(chǔ)突破，這兩年工業(yè)界對(duì)MPC也用得越來(lái)越多。

三個(gè)技術(shù)有各自的優(yōu)缺點(diǎn)，組合使用也能產(chǎn)生一個(gè)相對(duì)理想的結(jié)果。

可信執(zhí)行環(huán)境，相當(dāng)于是一個(gè)硬件級(jí)的密碼箱。把加密數(shù)據(jù)放到密碼箱里之后，OS操作系統(tǒng)都沒(méi)有辦法打開(kāi)密碼箱，只有持有相關(guān)密鑰的人才能在里面進(jìn)行運(yùn)算，就是所說(shuō)的可信區(qū)域。

這個(gè)方法本身是非常安全，但很依賴(lài)于硬件，目前做得比較好的是因特爾的SGX。

前面所介紹的 MPC、TEE，都是可以保護(hù)Input privacy和compute privacy ，但沒(méi)能很好地保護(hù)output privacy。

在差分隱私（Differential Privacy）之前有很多別的方法去處理數(shù)據(jù)中的隱私，比如像各種匿名化方法，除了K匿名，還有一些L-diversity等方法保護(hù)隱私。

但隨著大數(shù)據(jù)時(shí)代的到來(lái)，通過(guò)鏈接一些別的數(shù)據(jù)，能夠反推出來(lái)單人ID，匿名化基本上沒(méi)有什么用。所以差分隱私之前的一些技術(shù)，現(xiàn)在來(lái)看是不安全的。對(duì)Output或Release的數(shù)據(jù)集，都在慢慢切換到差分隱私的技術(shù)上來(lái)。

這個(gè)技術(shù)本身較好地考慮到實(shí)用性和隱私性的折中，隱私肯定有代價(jià)，要么犧牲一定的實(shí)用性，要么有計(jì)算代價(jià)。

差分隱私是在數(shù)據(jù)中加噪聲，對(duì)實(shí)用性有所影響，尤其是在數(shù)據(jù)本身也不大的情況下，對(duì)結(jié)果的影響較大。

差分隱私提供了一種量化的方法，能測(cè)量到底加多少噪聲，能夠取得比較好的trade-off。

差分隱私從從概率學(xué)和信息論得到一個(gè)隱私保護(hù)的bound，實(shí)操不是很復(fù)雜，就是在數(shù)據(jù)中添加相應(yīng)的噪聲，并且通過(guò)參數(shù)控制噪音的大小。

當(dāng)然，它本身怎么使用、怎么設(shè)置privacy budget，有著非常復(fù)雜的考量機(jī)制，但原理本身不算特別復(fù)雜。

這個(gè)技術(shù)在提出來(lái)之后，因?yàn)樗斜容^好的理論保障，所以在學(xué)術(shù)界、工業(yè)界很多人也都在用，能比較好地保護(hù)Output privacy，跟前面的技術(shù)也有比較好的結(jié)合。

Local 差分隱私類(lèi)似多方，就是自己本身加上噪聲，再上傳到一個(gè)地方。

它在工業(yè)界遇到的一個(gè)較大問(wèn)題是，因?yàn)橐诶锩婕釉肼?，所以模型精度受影響?

聯(lián)邦學(xué)習(xí)，谷歌在2014年就已經(jīng)在內(nèi)部開(kāi)始做這樣的技術(shù)，它本身是解決to C的問(wèn)題，所以想解決幾十億的設(shè)備間如何協(xié)同、安全地利用數(shù)據(jù)訓(xùn)練模型。

當(dāng)然設(shè)備之間可能不滿(mǎn)足獨(dú)立同分布的概念，硬件之間差異非常大，所以會(huì)導(dǎo)致可靠度的差異也很大，有時(shí)在訓(xùn)練的時(shí)候自己就下線(xiàn)了。

在2016-2017年，聯(lián)邦學(xué)習(xí)有相應(yīng)論文發(fā)表。目前用的算法也是從服務(wù)器上拉了一個(gè)模型,做完更新，delta發(fā)給服務(wù)器做average并更新模型。

直接這么做肯定會(huì)有一些問(wèn)題，所以paper里面做了大量的優(yōu)化，能夠讓通信成本和訓(xùn)練的穩(wěn)定性都有比較大的提升。

谷歌在2017年期間已經(jīng)發(fā)現(xiàn)了，原來(lái)把梯度直接匯聚到服務(wù)器上的協(xié)同學(xué)習(xí)方法也不是很安全；如果要保護(hù)隱私，必須得結(jié)合MPC的技術(shù)。

幾種技術(shù)的比較和解決方案

我們從自己的角度做了一張總結(jié)表格，像MPC能保護(hù)好Input privacy和計(jì)算過(guò)程中的 privacy；但對(duì)于Output privacy，它的保護(hù)能力比較弱。效率上，因?yàn)闋可娴酱罅棵艽a學(xué)技術(shù)，代價(jià)不低。

TEE跟MPC類(lèi)似，把它們理解成密碼學(xué)偏軟件和偏硬件的實(shí)驗(yàn)版本。

差分隱私就可以較好保護(hù)Output privacy，計(jì)算代價(jià)相對(duì)不高，實(shí)用性有一定損失，尤其是local 差分隱私加了某種噪聲之后，只能用于某些統(tǒng)計(jì)學(xué)運(yùn)算。

聯(lián)邦學(xué)習(xí)無(wú)法很好地保護(hù)Input privacy和Output privacy，好處在于效率相對(duì)高。

站在從業(yè)者的角度來(lái)看，這些技術(shù)還是需要一個(gè)端到端的設(shè)計(jì)，結(jié)合各方技術(shù)優(yōu)勢(shì)提供相應(yīng)的方案，達(dá)到最后總體的效果。

我們結(jié)合了這樣三個(gè)方案：

首先，MPC底下分為這么幾層，用前面所講的秘密共享、OT或其他密碼學(xué)的原語(yǔ)。為什么要實(shí)現(xiàn)這么多密碼學(xué)的協(xié)議？就是希望能夠利用每種協(xié)議的優(yōu)缺點(diǎn)，有更加好的組合，在合適的地方選用合適的技術(shù)。

第二層，我們希望把底下比較偏密碼學(xué)的原語(yǔ)，再做一層封裝，這上面提供一些機(jī)器學(xué)習(xí)經(jīng)常要用的運(yùn)算，比如比較、求交、矩陣加法、求max的運(yùn)算。

上面再抽象成一個(gè)DSL語(yǔ)言，開(kāi)發(fā)算法時(shí)，不用直接面對(duì)底層密碼學(xué)原語(yǔ)，速度相對(duì)會(huì)更快。

另外，因?yàn)槲覀儏⒖嫉氖菣C(jī)器學(xué)習(xí)里面的DSL，整個(gè)語(yǔ)法也跟機(jī)器學(xué)習(xí)類(lèi)似，機(jī)器學(xué)習(xí)的創(chuàng)業(yè)者就能用比較低的成本，切換到共享智能技術(shù)上，進(jìn)行算法開(kāi)發(fā)。

同時(shí)，我們也提供編譯器，它能夠?qū)⒂脩?hù)對(duì)上層開(kāi)發(fā)的算法，自動(dòng)選擇最優(yōu)的安全算子，實(shí)現(xiàn)安全的程序，進(jìn)而實(shí)現(xiàn)整個(gè)MPC里面的一些方法。

TEE方面，因?yàn)門(mén)EE本身的SDK也不是那么友好，并且單機(jī)的SGX 的運(yùn)算能力并不是特別強(qiáng)，為此我們做了一些改進(jìn)：

組建安全可信集群，以擴(kuò)展算力；做了很多防止各種攻擊的方法，在安全性上有個(gè)更好的工業(yè)級(jí)框架出來(lái)，便于開(kāi)發(fā)者能夠基于這些核心能力開(kāi)發(fā)出各種算法。

上面是比較偏差分隱私或矩陣變換的方法。這種方法還是有比較好的適用場(chǎng)合，比如前面講的Output privacy里面用到差分隱私，或者是MPC和TEE里面在Output 的地方加上差分隱私，本身有比較好的互補(bǔ)的作用。技術(shù)之間也可以?xún)蓛扇ソM合。

每個(gè)方案都有各自的優(yōu)缺點(diǎn)，做隱私保護(hù)相關(guān)的工作，還是需要通過(guò)精心的工程設(shè)計(jì)，算法設(shè)計(jì)加上密碼學(xué)原語(yǔ)，才能夠端到端地保護(hù)數(shù)據(jù)輸入、計(jì)算過(guò)程、數(shù)據(jù)輸出等隱私，從而達(dá)到相應(yīng)的目的。

螞蟻共享智能的落地經(jīng)驗(yàn)

合作案例：江蘇銀行

去年上半年，江蘇銀行希望使用MPC實(shí)現(xiàn)聯(lián)合風(fēng)控，模型的產(chǎn)出完全放在江蘇銀行，自主可控。構(gòu)建出聯(lián)合模型之后，模型分?jǐn)?shù)給到銀行，由它去做獨(dú)立的風(fēng)控判斷，之后再產(chǎn)生結(jié)果給到最后的申請(qǐng)判斷。整個(gè)模型的效果在測(cè)試的時(shí)候發(fā)現(xiàn)提升了50%左右。

同樣，我們還在支付的聯(lián)合風(fēng)控、聯(lián)合營(yíng)銷(xiāo)以及聯(lián)合保險(xiǎn)也進(jìn)行了相應(yīng)的落地。

AI研究前沿動(dòng)態(tài)和未來(lái)展望

目前看來(lái)，現(xiàn)在這幾個(gè)技術(shù)之間彼此有互補(bǔ)，但端到端的系統(tǒng)怎么在各個(gè)環(huán)節(jié)去利用合適的技術(shù)，去產(chǎn)生合適的效果？怎么樣把這樣一個(gè)系統(tǒng)在超大規(guī)模的數(shù)據(jù)上做相應(yīng)的實(shí)踐？在不影響效率的情況下，將隱私保護(hù)的等級(jí)能夠升級(jí)到更高的級(jí)別？

我覺(jué)得還需要有整個(gè)業(yè)界需要投入更多的資源，更長(zhǎng)的研發(fā)投入，更長(zhǎng)的耐心，才有可能在一些更關(guān)鍵的技術(shù)上面產(chǎn)生更好的結(jié)果。

同時(shí)也需要整個(gè)AI圈子加上密碼學(xué)的硬件再加上工程系統(tǒng)，一起努力才有可能在一些點(diǎn)上面取得真正的大的突破，才有可能使得整個(gè)隱私計(jì)算的效率能夠再提升1~2個(gè)數(shù)量級(jí)。

目前隱私計(jì)算效率本身，相比非隱私保護(hù)的AI，在速度甚至精度上都會(huì)有一定的損失。

所以，怎么樣去設(shè)計(jì)更好的方式，除了在技術(shù)本身的突破，也需要有更多的場(chǎng)景去打磨技術(shù)，才能發(fā)現(xiàn)的問(wèn)題，逐步讓技術(shù)往前走。

從三大維度來(lái)看：

第一，從算法維度看，無(wú)論是在學(xué)術(shù)界還是工業(yè)界，目前的這幾個(gè)方法割裂程度比較明顯。比如TEE跟差分隱私，雖然他們之間有交集但并不多。

TEE里也有很多技術(shù)要去突破，比如目前TEE的內(nèi)存只有128兆，相比普通系統(tǒng)還是比較小的?，F(xiàn)在數(shù)據(jù)量比較大，尤其是在一個(gè)圖像數(shù)據(jù)上，怎么在這么大的數(shù)據(jù)情況下完成隱私計(jì)算，是難度比較大的一個(gè)問(wèn)題。

第二，由于內(nèi)存比較小，為了保護(hù)安全和隱私，所以在很多運(yùn)算效率跟目前正常操作有一定差距。

第三，SDK的友好性方面，因?yàn)楸容^偏硬件，還涉及到大量的密碼學(xué)等機(jī)制，比如遠(yuǎn)程認(rèn)證，對(duì)于很多從業(yè)人員而言還是有相應(yīng)的學(xué)習(xí)成本。

當(dāng)然，業(yè)界很多開(kāi)源的、在原生的TEE上封裝的一些SDK，各方面有一些提升，可擴(kuò)展性本質(zhì)上有些突破，但突破不是特別大，意味著很多東西不能拿來(lái)直接在工業(yè)界使用。所以TEE也還需要整個(gè)社區(qū)有更多的投入。

TEE上面，現(xiàn)在很多都在做支持中小規(guī)模的算法訓(xùn)練和預(yù)測(cè)。怎么讓更大的規(guī)模、更新的算法能夠被集成進(jìn)來(lái)，這也是需要業(yè)界有更多投入。

差分隱私技術(shù)本身的理論性質(zhì)比較優(yōu)美，但在實(shí)用性上有一定損失。

我們提到過(guò)，對(duì)于utility loss以及差分隱私輸出來(lái)的結(jié)果，因?yàn)楫吘故窃谠嫉臄?shù)據(jù)上面加了一定的噪聲，這個(gè)數(shù)據(jù)相對(duì)來(lái)講會(huì)不會(huì)有一定的損失度？

如果完全是local 差分隱私的方式，在很多場(chǎng)景下面就沒(méi)有辦法用，怎么讓差分隱私能夠再更進(jìn)一步，更貼合現(xiàn)在AI這個(gè)情況？

目前看到，差分隱私在很多數(shù)據(jù)分析應(yīng)用非常廣泛，比如，蘋(píng)果系統(tǒng)上收集了emoji的數(shù)據(jù)；微軟操作系統(tǒng)的瀏覽器里面也嵌入了差分隱私的數(shù)據(jù)；Uber也用了這樣一個(gè)技術(shù)，但目前大部分用在數(shù)據(jù)統(tǒng)計(jì)方面。

怎么樣把差分隱私這樣的技術(shù)能夠跟AI有更好的結(jié)合，是未來(lái)一個(gè)比較大的突破點(diǎn)。

MPC技術(shù)本身，從經(jīng)典論文發(fā)表來(lái)看，雖然不算特別新，但在很多很復(fù)雜的運(yùn)算上，尤其是在AI的一些新方法，MPC效率本身還是有一定的代價(jià)。

怎樣取得算力的增長(zhǎng)，有新模式突破，像完全同態(tài)的方法什么時(shí)候真的變成實(shí)用，怎么能夠使這個(gè)技術(shù)在工業(yè)界更進(jìn)一步，這也是需要考量的一個(gè)點(diǎn)。

聯(lián)邦學(xué)習(xí)目前也存在一定的安全隱患，四個(gè)技術(shù)之間怎么去做相應(yīng)的結(jié)合，取長(zhǎng)補(bǔ)短，能夠形成比較好的下一代的解決方案，真真正正保護(hù)隱私，讓AI落地變得更簡(jiǎn)單？

尤其是在一些數(shù)據(jù)比較敏感的地方，像醫(yī)療的某些領(lǐng)域，病例的數(shù)據(jù)采集特別困難，真的能夠讓AI進(jìn)到這些地方，輔助決策，才能更加好實(shí)現(xiàn)社會(huì)意義和價(jià)值。

我覺(jué)得，在算法層面會(huì)需要深度結(jié)合，無(wú)論是基于某些算力，還是說(shuō)在技術(shù)領(lǐng)域的突破，能讓這里面的一些問(wèn)題有更進(jìn)一步的解法。

在平臺(tái)層，無(wú)論是差分隱私、TEE還是別的技術(shù)，越靠近數(shù)學(xué)和越靠近密碼學(xué)硬件，為了保護(hù)隱私，里面大量的設(shè)置都比較難以理解。怎樣讓大家更高效產(chǎn)出不一樣的算法，降低使用門(mén)檻，這些方法才能夠跟更多地方結(jié)合，產(chǎn)生更多的新突破。

在DSL和在編譯器方面，甚至在整個(gè)系統(tǒng)的運(yùn)維、部署，以及系統(tǒng)穩(wěn)定性、安全生產(chǎn)等各方面，有沒(méi)有進(jìn)一步的突破，變得易用？

在一些對(duì)時(shí)效性要求沒(méi)有那么強(qiáng)的情況，如果能夠持續(xù)穩(wěn)定計(jì)算，對(duì)于很多產(chǎn)品也是比較適用的。對(duì)于整個(gè)隱私計(jì)算領(lǐng)域而言，這也是一個(gè)巨大的挑戰(zhàn)。

所以怎樣有更高效的平臺(tái)一體化設(shè)計(jì)，讓使用門(mén)檻變低，才有可能會(huì)真正帶來(lái)一些繁榮的社區(qū)，讓技術(shù)能夠走進(jìn)更多場(chǎng)景、更多機(jī)構(gòu)，真正產(chǎn)生一些化學(xué)反應(yīng)。

雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

2人收藏

分享：

相關(guān)文章

螞蟻集團(tuán) 共享智能周俊人工智能多方安全隱私計(jì)算

探索機(jī)器人“無(wú)遙操”，ATEC2025科技精英賽在港收官 ...

2025國(guó)家網(wǎng)絡(luò)安全周在昆明開(kāi)幕，螞蟻集團(tuán)gPass等多款 ...

螞蟻集團(tuán)與浙商銀行達(dá)成深化戰(zhàn)略合作：共創(chuàng)金融科技 ...

螞蟻集團(tuán)發(fā)布AI眼鏡技術(shù)框架：gPass將打造安全可信的 ...

周蕾

編輯

云計(jì)算/To B/金融科技丨微信：LorraineSummer

掃描關(guān)注作者微信

發(fā)私信

當(dāng)月熱門(mén)文章

最新文章

鐵打的完美，流水的CEO

網(wǎng)商銀行探路大模型To B

谷歌發(fā)布 Gemini：我們還是一家強(qiáng)大的公司 ?

上市終止300天后，京東科技重啟IPO

微信支付寶收款碼仨月后要「變身」？我發(fā)現(xiàn)了一點(diǎn)新商機(jī)

平安科技再度出走兩名「首席」高管，全新「業(yè)務(wù)戰(zhàn)略」浮出水面

熱門(mén)搜索

物聯(lián)網(wǎng) 騰訊云 vivo 智能電視 Oculus 寶馬硬件平板攝像頭數(shù)字貨幣電子商務(wù)