0
本文作者: 陳彩嫻 | 2021-04-06 12:11 |
導(dǎo)讀:農(nóng)夫養(yǎng)了一只小羊,想給它吃各種不同營(yíng)養(yǎng)成分的草料,需要去各地收集草料再運(yùn)送回來(lái)喂它。但是有一天,草料場(chǎng)擔(dān)心“熟客”農(nóng)夫暴露他們的商業(yè)機(jī)密,不再允許將草料向外運(yùn)輸了。農(nóng)夫非常著急:怎么辦好呢?
苦苦思考后,農(nóng)夫想了個(gè)法子:帶小羊到各個(gè)草場(chǎng)吃草。羊在各地移動(dòng),而草料不出本地。草料場(chǎng)既不用擔(dān)心商業(yè)機(jī)密暴露,小羊也能健康成長(zhǎng)。
如果把草料換成“數(shù)據(jù)”,商業(yè)機(jī)密換成“用戶隱私”,小羊換成“AI模型”,草料場(chǎng)換成“數(shù)據(jù)擁有方”,農(nóng)夫換成“工程師”,那么,上述便是一個(gè)聯(lián)邦學(xué)習(xí)的故事。
通過(guò)數(shù)據(jù)不動(dòng)模型動(dòng)的方式,聯(lián)邦學(xué)習(xí)技術(shù)能使數(shù)據(jù)可用不可見(jiàn),有效保護(hù)數(shù)據(jù)安全與用戶隱私。
拋開(kāi)技術(shù)細(xì)節(jié)不談,本文將從另一個(gè)方面講述“聯(lián)邦學(xué)習(xí)”的故事。
作者 | 蔣寶尚、陳彩嫻
2018年年底,國(guó)內(nèi)學(xué)術(shù)界與產(chǎn)業(yè)界在隱私計(jì)算領(lǐng)域開(kāi)始了一場(chǎng)基于聯(lián)邦學(xué)習(xí)技術(shù)的生態(tài)建設(shè)持久戰(zhàn)。
那年12月,IEEE標(biāo)準(zhǔn)委員會(huì)(SASB)批準(zhǔn)了由微眾銀行發(fā)起的關(guān)于《聯(lián)邦學(xué)習(xí)架構(gòu)和應(yīng)用規(guī)范》的標(biāo)準(zhǔn)立項(xiàng)。不久,來(lái)自國(guó)內(nèi)外的多位知名學(xué)者和技術(shù)專家紛紛加入標(biāo)準(zhǔn)工作組,參與到聯(lián)邦學(xué)習(xí)IEEE標(biāo)準(zhǔn)的建設(shè)中。
標(biāo)準(zhǔn),顧名思義,是對(duì)某一事物或概念進(jìn)行的統(tǒng)一規(guī)定。不僅要切合實(shí)際,還要讓大家“心服口服”,共同遵守與維護(hù)。
這并不是一件易事。工作開(kāi)始前,標(biāo)準(zhǔn)工作組主席楊強(qiáng)預(yù)計(jì):“此類技術(shù)標(biāo)準(zhǔn)屬于國(guó)內(nèi)首次,沒(méi)有任何經(jīng)驗(yàn)可以借鑒。我們預(yù)計(jì)用五年的時(shí)間拿下IEEE聯(lián)邦學(xué)習(xí)國(guó)際標(biāo)準(zhǔn)!”
但事實(shí)上,全球數(shù)據(jù)隱私保護(hù)大環(huán)境正在發(fā)生變化,標(biāo)準(zhǔn)制定也按下了快進(jìn)鍵:
2018年12月,IEEE標(biāo)準(zhǔn)協(xié)會(huì)通過(guò)標(biāo)準(zhǔn)立項(xiàng);
2019年2月,確定了聯(lián)邦學(xué)習(xí)標(biāo)準(zhǔn)的基本框架;
2019年6月,增添工作組成員,梳理各自領(lǐng)域內(nèi)的聯(lián)邦學(xué)習(xí)典型案例;
2019年8月,討論聯(lián)邦學(xué)習(xí)的評(píng)估指標(biāo)如何量化;
2019年11月,對(duì)聯(lián)邦學(xué)習(xí)的安全測(cè)評(píng)與評(píng)級(jí)進(jìn)行規(guī)劃;
2020年3月,標(biāo)準(zhǔn)草案獲IEEE通過(guò),進(jìn)入評(píng)估階段;
2020年9月,標(biāo)準(zhǔn)通過(guò)IEEE終版確認(rèn);
2021年3月,聯(lián)邦學(xué)習(xí)標(biāo)準(zhǔn)正式發(fā)布。距離立項(xiàng)不到三年,工作組便完成聯(lián)邦學(xué)習(xí)國(guó)際標(biāo)準(zhǔn)制定(以下稱為“標(biāo)準(zhǔn)”),并在今年3月30日通過(guò)IEEE確認(rèn),形成正式標(biāo)準(zhǔn)文件(IEEE P3652.1)。
聯(lián)邦學(xué)習(xí)生態(tài)的建立,離不開(kāi)國(guó)際標(biāo)準(zhǔn)。作為世界上首個(gè)聯(lián)邦學(xué)習(xí)國(guó)際標(biāo)準(zhǔn),其參與度之廣,印證了合規(guī)使用大數(shù)據(jù)的時(shí)代特征;其權(quán)威性之高,體現(xiàn)了社會(huì)對(duì)聯(lián)邦學(xué)習(xí)技術(shù)的強(qiáng)烈需求。
1、背景:數(shù)據(jù)隱私之殤
2019年1月22日,法國(guó)監(jiān)管機(jī)構(gòu)國(guó)家信息與自由委員會(huì)(CNIL)對(duì)谷歌處以5000萬(wàn)歐元巨額罰款,理由是“違反了GDPR”。
這一刻,所有需要數(shù)據(jù)作為“石油”的公司猛然驚醒:來(lái)真的了!
2018年,歐洲聯(lián)盟加速出臺(tái)了《通用數(shù)據(jù)保護(hù)條例》(GDPR),為全球互聯(lián)網(wǎng)企業(yè)在享受全球化紅利的同時(shí),加上了一條重重的鎖鏈:數(shù)據(jù)安全和用戶隱私。
作為個(gè)人信息保護(hù)立法的標(biāo)志性法規(guī),GDPR的出臺(tái)是“一點(diǎn)寒芒先到”,隨后則是“槍出如龍”。
讓有志之士沒(méi)料到的是,數(shù)據(jù)安全和用戶隱私的狂風(fēng)會(huì)襲來(lái)的這么快:姓名、生日、信用卡、地址、病史、活動(dòng)軌跡……只有“合規(guī)”,才能觸摸到背后的藍(lán)海市場(chǎng)。
針對(duì)數(shù)據(jù)安全與用戶隱私,學(xué)術(shù)界此前也取得了許多成就,但在應(yīng)用中的效果并不佳。
第四范式副總裁、主任科學(xué)家涂威威說(shuō):“同態(tài)加密、差分隱私、自動(dòng)多方機(jī)器學(xué)習(xí)技術(shù)、聯(lián)邦學(xué)習(xí)等等技術(shù),在社會(huì)重視隱私保護(hù)意識(shí)之前,每年都會(huì)有論文產(chǎn)出,每年都會(huì)迭代從而適應(yīng)越來(lái)越復(fù)雜的數(shù)據(jù)環(huán)境?!?/p>
然而,在學(xué)術(shù)界大放光彩的技術(shù),在業(yè)界可能遭遇水土不服。差分隱私技術(shù)采用加噪聲的方法給數(shù)據(jù)“打碼”用來(lái)保護(hù)隱私,在業(yè)界已經(jīng)早有嘗試。但不同于理論上的完美證明,實(shí)際產(chǎn)業(yè)應(yīng)用總是“棋差一招”。
在與國(guó)際人工智能界“遷移學(xué)習(xí)”技術(shù)的開(kāi)創(chuàng)者楊強(qiáng)交流時(shí),他也談到:“我們?cè)?012年就用華為的數(shù)據(jù)進(jìn)行了一個(gè)實(shí)驗(yàn),發(fā)現(xiàn)效果非常差,基本上屬于傷敵一千,自損八百,所以差分隱私在工業(yè)界并沒(méi)有大規(guī)模廣泛應(yīng)用。但(差分隱私)在學(xué)術(shù)界很火,因?yàn)檫@個(gè)課題寫(xiě)出的文章很漂亮?!?/p>
解決水土不服問(wèn)題,有什么比想要“活下去”的大數(shù)據(jù)科技企業(yè)更加迫切呢?
2016年,“科技巨頭”谷歌利用聯(lián)邦學(xué)習(xí)解決安卓手機(jī)終端用戶在本地更新模型的問(wèn)題,能夠基于本地“小數(shù)據(jù)”進(jìn)行不斷機(jī)器學(xué)習(xí)訓(xùn)練。
而這時(shí),國(guó)內(nèi)的研究團(tuán)隊(duì)也發(fā)現(xiàn)了這種“數(shù)據(jù)不出本地”的聯(lián)合建模技術(shù)的強(qiáng)大之處,能確保數(shù)據(jù)安全、隱私保護(hù)和合規(guī)。
于是,國(guó)內(nèi)學(xué)者和企業(yè)紛紛開(kāi)始投入到聯(lián)邦學(xué)習(xí)技術(shù)研究和“本土化”技術(shù)落地中。
在早期,國(guó)內(nèi)將「Federated Learning」大多翻譯為「聯(lián)合學(xué)習(xí)」,現(xiàn)在則多稱為「聯(lián)邦學(xué)習(xí)」。其中的區(qū)別是,如果用戶是個(gè)人,確實(shí)是把他們的模型「聯(lián)合」起來(lái)學(xué)習(xí);而如果用戶是企業(yè)、銀行、醫(yī)院等大數(shù)據(jù)擁有者,這種技術(shù)則更像是將諸多「城邦」結(jié)合起來(lái),「聯(lián)邦」一詞會(huì)更為準(zhǔn)確。
這一名字的變化,也反映著聯(lián)邦學(xué)習(xí)的研究主體從理論轉(zhuǎn)向?qū)嶋H應(yīng)用的變化趨勢(shì)。
但要真正解決數(shù)據(jù)安全、隱私保護(hù)和合規(guī)問(wèn)題,還需要一系列的配套措施。
只有將政策法規(guī)、標(biāo)準(zhǔn)規(guī)范等融入到代碼、模型中,才能讓需求各異的各方信服。
2、萬(wàn)事開(kāi)頭難
事情在一開(kāi)始時(shí)并沒(méi)有那么順利:應(yīng)該設(shè)定一個(gè)什么樣的標(biāo)準(zhǔn)?在楊強(qiáng)的預(yù)想中,聯(lián)邦學(xué)習(xí)技術(shù)框架發(fā)展迅速,標(biāo)準(zhǔn)需要有技術(shù)上的前瞻性和穩(wěn)定性, 構(gòu)建客觀的測(cè)評(píng)體系,并對(duì)實(shí)際應(yīng)用系統(tǒng)起指導(dǎo)作用。 但到底要怎么做,具體提供什么樣的指導(dǎo)功能?這是工作組首先要回答的問(wèn)題。
圖注:標(biāo)準(zhǔn)制定流程,摘自IEEE中國(guó)官網(wǎng)
一開(kāi)始就加入標(biāo)準(zhǔn)制定的涂威威也談到:“困難確實(shí)存在,首先要面對(duì)‘兩個(gè)嶄新’。標(biāo)準(zhǔn)新:標(biāo)準(zhǔn)工作組雖然有很多資深技術(shù)專家,但是對(duì)于標(biāo)準(zhǔn)模式大家都有點(diǎn)束手無(wú)策;其次,技術(shù)新:聯(lián)邦學(xué)習(xí)成為主流技術(shù)并沒(méi)有多長(zhǎng)時(shí)間,也要考慮如何吸引大家積極參與。”
當(dāng)然,這難不倒身經(jīng)百戰(zhàn)的楊強(qiáng)。
在產(chǎn)生制定標(biāo)準(zhǔn)的想法之后,他和陳天健在深圳微眾銀行的大樓達(dá)成了共識(shí):一定要接觸足夠多的機(jī)構(gòu),盡量面談取經(jīng);不求快,求穩(wěn),做好打持久戰(zhàn)的準(zhǔn)備,至少五年。
事實(shí)上,在2018年,標(biāo)準(zhǔn)還未立項(xiàng),對(duì)于標(biāo)準(zhǔn)是什么、有什么用等問(wèn)題還不清楚時(shí),楊強(qiáng)就得到了CCF和IEEE官方的幫助。
2018年年初,CCF最先提供了Technology Frontier平臺(tái)。在楊強(qiáng)提出增設(shè)有關(guān)隱私的討論題目之后,CCF只用了幾個(gè)星期就準(zhǔn)備好相關(guān)事宜。
楊強(qiáng)借助CCF TF這個(gè)平臺(tái)對(duì)聯(lián)邦學(xué)習(xí)標(biāo)準(zhǔn)制定的一些前置性問(wèn)題進(jìn)行了分享,并得到其他相關(guān)人員的反饋。
隨后,楊強(qiáng)又與國(guó)家工信部相關(guān)人士、IEEE標(biāo)準(zhǔn)協(xié)會(huì)中國(guó)戰(zhàn)略合作負(fù)責(zé)人王亮迪博士等人進(jìn)行交流。
楊強(qiáng)回憶:“當(dāng)時(shí)IEEE標(biāo)準(zhǔn)制定相關(guān)的領(lǐng)導(dǎo)還專門(mén)過(guò)來(lái)給我們答疑解惑。當(dāng)時(shí)他帶來(lái)兩個(gè)美國(guó)人,其中一個(gè)是標(biāo)準(zhǔn)委員。他們提了很多建設(shè)性的意見(jiàn),包括說(shuō)如果真的要建設(shè)標(biāo)準(zhǔn),就不能摻雜自己的偏見(jiàn)?!?/p>
一番交流后,楊強(qiáng)明白了:一項(xiàng)標(biāo)準(zhǔn)的成文涉及細(xì)節(jié)非常多,其中定義、概念、分類、算法框架規(guī)范、使用模式和使用規(guī)范等,都需要反復(fù)斟酌。
了解了大致流程:建立標(biāo)準(zhǔn)工作組,明確選舉過(guò)程,制定大綱等等,并做好了打持久戰(zhàn)的準(zhǔn)備后,楊強(qiáng)便著手開(kāi)始進(jìn)行各種調(diào)查,研究以前標(biāo)準(zhǔn)制定的相關(guān)文檔,尋找“老朋友”進(jìn)行支持。
于是就有了最初的標(biāo)準(zhǔn)工作組成員:涂威威、陳雨強(qiáng)、馮霽、胡水海、叢明舒、張鈞波......與此同時(shí),也有一些單位在工作組中以觀察員身份,持續(xù)關(guān)注標(biāo)準(zhǔn)制定的進(jìn)展。
2019年尤其關(guān)鍵,因?yàn)闃?biāo)準(zhǔn)制定的大部分正式討論會(huì)議都在這一年里召開(kāi)。
1月份,元旦剛過(guò),南京大學(xué)的周志華教授作為AAAI的主席,便邀請(qǐng)了楊強(qiáng)去夏威夷作特邀報(bào)告。這也是人工智能頂級(jí)會(huì)議上第一次出現(xiàn)聯(lián)邦學(xué)習(xí)的“題目”。
夏威夷雖處于冬季,吹的卻是暖風(fēng)。特邀報(bào)告的反響很好,工作組一合計(jì),便提出不如召開(kāi)一次正式的討論會(huì)議。這時(shí),距離立項(xiàng)通過(guò)不過(guò)兩個(gè)月。
圖注:2019年2月,標(biāo)準(zhǔn)工作組在深圳召開(kāi)第一次會(huì)議
經(jīng)過(guò)約兩個(gè)月的討論,2019 年2月份,工作組在深圳召開(kāi)了第一次會(huì)議。參會(huì)人數(shù)達(dá)到30余位。也正是這30多位業(yè)界、學(xué)界人士,畫(huà)出了聯(lián)邦學(xué)習(xí)標(biāo)準(zhǔn)的基本框架。
正式會(huì)議結(jié)束后,當(dāng)天與會(huì)者聚集在深圳萬(wàn)豪酒店的陽(yáng)臺(tái)上繼續(xù)交流。楊強(qiáng)直到現(xiàn)在還對(duì)當(dāng)時(shí)探討的具體內(nèi)容印象深刻,當(dāng)時(shí)聊到很晚,參與的人都講了自己擅長(zhǎng)的領(lǐng)域,大家也更加堅(jiān)定了打造聯(lián)邦學(xué)習(xí)技術(shù)生態(tài)的信心。
3、會(huì)議討論內(nèi)外
雖然第一次會(huì)議比較成功,但作為標(biāo)準(zhǔn)組副主席的馮霽也有自己的擔(dān)心:
一是雖然整體框架已經(jīng)搭建,但具體細(xì)節(jié)如何補(bǔ)充才能達(dá)到IEEE的要求?另外,接下來(lái)要如何說(shuō)服更多人參與進(jìn)來(lái),讓大家看到這個(gè)標(biāo)準(zhǔn)的重要性?
“大家背景都不一樣,有學(xué)者也有業(yè)界人士,還有只是感興趣的參與者,而這份標(biāo)準(zhǔn)的具體內(nèi)容既不能像論文,也不能像白皮書(shū),更不能只是算法、應(yīng)用案例的羅列?!痹趩?wèn)到標(biāo)準(zhǔn)制定遇到何種困難的時(shí)候,馮霽這樣回答。
這些問(wèn)題要求標(biāo)準(zhǔn)能夠“頂天立地”:一是能夠吸收到最新的技術(shù),二能有非常強(qiáng)的實(shí)操性,全面考慮所有應(yīng)用場(chǎng)景。
作為一家投資公司,創(chuàng)新工場(chǎng)在解決問(wèn)題時(shí)有自己的方法論。
在思想碰撞最為激烈的第四次會(huì)議中,馮霽建議在標(biāo)準(zhǔn)中將聯(lián)邦學(xué)習(xí)的應(yīng)用范圍限定在To B(企業(yè))、To C(消費(fèi)者)、To G(政府)三方,大家在討論時(shí)候,先將自己的應(yīng)用案例進(jìn)行歸類,然后具體問(wèn)題具體分析,理清楚標(biāo)準(zhǔn)范式的脈絡(luò)。
這樣一來(lái),各方參與者在討論如何在不同的案例場(chǎng)景下應(yīng)用標(biāo)準(zhǔn)的時(shí)候,就更有條理。
另一個(gè)沖突點(diǎn)是如何對(duì)技術(shù)內(nèi)演進(jìn)行定義,例如安全多方計(jì)算這些和聯(lián)邦學(xué)習(xí)平行的技術(shù)如何融合到大一統(tǒng)的標(biāo)準(zhǔn)框架中。
梳理這些技術(shù)點(diǎn)的脈絡(luò)關(guān)系,確定外延和內(nèi)涵,標(biāo)準(zhǔn)組采取的方式是:通過(guò)拿科研的文章進(jìn)行歷史性的梳理,參照不同技術(shù)之間的綜述,追根溯源,找出參與方都滿意的答案。
圖注:2019年6月,標(biāo)準(zhǔn)工作組召開(kāi)第二次會(huì)議,探討了聯(lián)邦學(xué)習(xí)的定義、框架和案例
共識(shí)可以通過(guò)討論達(dá)成,但在標(biāo)準(zhǔn)制定的全程中,需要考慮的首要問(wèn)題還是:如何吸引更多的人參與。
在回答這個(gè)問(wèn)題時(shí),馮霽的語(yǔ)氣中透露出如釋重負(fù):“好在大家積極性比較高,也有宣傳推廣的意識(shí)。除了正式的會(huì)議之外,一些參與者,尤其是楊強(qiáng)教授一馬當(dāng)先,親自利用各種機(jī)會(huì)進(jìn)行宣講,特別是致力于讓這個(gè)標(biāo)準(zhǔn)有更多的國(guó)際參與,例如世界人工智能大會(huì)、AAAI、IJCAI等都有聯(lián)邦學(xué)習(xí)的panel設(shè)定,并在美國(guó)、澳門(mén)召開(kāi)工作組會(huì)議。創(chuàng)新工場(chǎng)也是一樣,包括開(kāi)復(fù)本人,也專門(mén)對(duì)這個(gè)技術(shù)在各個(gè)場(chǎng)合進(jìn)行布道?!?/p>
由微眾牽頭,最早的參與單位有:微眾銀行、創(chuàng)新工場(chǎng)、星云Clustar、第四范式。
隨后,工作組成員增加至30多家:松鼠AI、京東城市、騰訊云、邏輯匯、華為、中國(guó)電信、小米、華大基因、中電科大數(shù)據(jù)研究院、Senses Global、依圖、趣鏈科技、百度、海信、螞蟻金服、Eduworks、AI Singapore……
領(lǐng)軍人物的“游說(shuō)”與魅力,以及參與者的長(zhǎng)遠(yuǎn)眼光,勾畫(huà)出了聯(lián)邦學(xué)習(xí)技術(shù)在未來(lái)的廣闊發(fā)展空間。
在一次和瑞典科技部長(zhǎng)的對(duì)話中,楊強(qiáng)曾問(wèn)到:“GDPR對(duì)個(gè)人數(shù)據(jù)的強(qiáng)監(jiān)管措施,對(duì)于歐洲AI公司而言,是否是創(chuàng)新的障礙?”
部長(zhǎng)回答,這看上去是絆腳石,實(shí)際上是動(dòng)力。因?yàn)榇蠹視?huì)研制下一代的AI,而美國(guó)因?yàn)闆](méi)有同等嚴(yán)苛的標(biāo)準(zhǔn),技術(shù)會(huì)因此落后一代。
因此,善于洞察趨勢(shì)的有志之士看到了:“聯(lián)邦學(xué)習(xí)將成為解決人工智能數(shù)據(jù)瓶頸的必由之路。”
4、眾人拾柴火焰高
2019年中期,一位關(guān)鍵人物加入團(tuán)隊(duì)——曾在諾基亞負(fù)責(zé)MPEG標(biāo)準(zhǔn)制定的范力欣。他在知識(shí)產(chǎn)權(quán)的標(biāo)準(zhǔn)方面經(jīng)驗(yàn)非常豐富。
范力欣加入之后,直接從另一個(gè)方面概括了遇到的困難:在涉及隱私保護(hù)這樣的課題上,如何以有效的技術(shù)方案達(dá)成目的, 沒(méi)有先例可循。但他看到工作組已經(jīng)集成了聯(lián)邦學(xué)習(xí)眾多“好手”,心想:大家齊心協(xié)力,辦法總比困難多,沒(méi)有過(guò)不去的坎。
把大家的專業(yè)和特長(zhǎng)有機(jī)整合起來(lái),這是范力欣和工作組同仁達(dá)成的共識(shí)。
圖注:2019年8月,標(biāo)準(zhǔn)工作組在澳門(mén)召開(kāi)第三次會(huì)議,聚焦聯(lián)邦學(xué)習(xí)各項(xiàng)指標(biāo)的評(píng)估如何量化、標(biāo)準(zhǔn)如何體現(xiàn)聯(lián)邦學(xué)習(xí)技術(shù)的合規(guī)性、聯(lián)邦學(xué)習(xí)應(yīng)用案例的分類歸納等
作為T(mén)o G領(lǐng)域的代表,中電科大數(shù)據(jù)研究院有限公司程序提到:“大數(shù)據(jù)院一直以政府治理大數(shù)據(jù)應(yīng)用技術(shù)為研究重點(diǎn),在推進(jìn)政府?dāng)?shù)據(jù)開(kāi)放共享等方面有很多經(jīng)驗(yàn)和做法,我們來(lái)提供To G領(lǐng)域的應(yīng)用案例。”
邏輯匯的創(chuàng)始人叢明舒作為楊強(qiáng)的學(xué)生,自然對(duì)恩師發(fā)起的項(xiàng)目全力支持:“作為投資研究平臺(tái)研發(fā)商,經(jīng)濟(jì)激勵(lì)我在行,我可以從博弈論視角分析聯(lián)邦學(xué)習(xí)商業(yè)化過(guò)程的經(jīng)濟(jì)激勵(lì)機(jī)制。”
涂威威總是邏輯清晰,對(duì)拋出的問(wèn)題一針見(jiàn)血:“在我還是學(xué)者的時(shí)候,就研究過(guò)遷移學(xué)習(xí)下的隱私保護(hù),關(guān)于聯(lián)邦學(xué)習(xí)的系統(tǒng)定義部分,我來(lái)!”
星云Clustar胡水海也積極參與:“我們一直研究聯(lián)邦學(xué)習(xí)里的底層技術(shù)架構(gòu),聯(lián)邦學(xué)習(xí)標(biāo)準(zhǔn)中的這部分,我可以負(fù)責(zé)。”
在國(guó)際上,聯(lián)邦學(xué)習(xí)也獲得了2018年圖靈獎(jiǎng)獲得者Yoshua Bengio的大力支持。
2019年12月13日,Bengio在NeurIPS 2019期間出席微眾銀行舉辦的“微眾銀行人工智能之夜”,在晚會(huì)上明確表達(dá)了自己對(duì)聯(lián)邦學(xué)習(xí)的認(rèn)可,并簽署了微眾與蒙特利爾學(xué)習(xí)算法研究所(Mila)的戰(zhàn)略合作協(xié)議。
圖注:工作組部分成員在加拿大溫哥華參與NeurIPS 2019
標(biāo)準(zhǔn)通過(guò)后,來(lái)自瑞士洛桑聯(lián)邦理工學(xué)院(EPFL)的Boi Faltings教授發(fā)來(lái)激動(dòng)的祝賀,提到聯(lián)邦學(xué)習(xí)標(biāo)準(zhǔn)對(duì)世界數(shù)據(jù)隱私保護(hù)的意義:
“Up to now, federated learning is only used by large companies. Now that there is a standard, everyone around the world can work together to maximize our benefit from AI.”(直至今日,聯(lián)邦學(xué)習(xí)技術(shù)只在大企業(yè)中得到應(yīng)用,而形成標(biāo)準(zhǔn)后,世界上每個(gè)人都可以一起努力,將AI技術(shù)“物盡其用”)
在和眾多標(biāo)準(zhǔn)組工作人員交流的過(guò)程中,盡管他們沒(méi)有提到,但AI科技評(píng)論卻能夠感受到:在全球的技術(shù)標(biāo)準(zhǔn)制定中,在隱私保護(hù)的技術(shù)發(fā)展大潮中,中國(guó)人始終處于弄潮兒的地位。
5、兩種技術(shù),一個(gè)目標(biāo)
當(dāng)前,業(yè)界解決隱私泄露和數(shù)據(jù)濫用的數(shù)據(jù)共享技術(shù)路線主要有兩條:一條是基于硬件可信執(zhí)行環(huán)境技術(shù)的可信計(jì)算,另一條就是基于密碼學(xué)的同態(tài)加密和多方安全計(jì)算。
這兩種方法一種是集中式,一種是分布式。集中式借助硬件,分布式借助密碼學(xué)算法。集中式以螞蟻金服為代表。他們提出共享學(xué)習(xí)的概念,底層使用Intel的SGX技術(shù),試圖打造出以阿里云為中心的商業(yè)模式。
而分布式的保護(hù)方式,基于密碼學(xué)的同態(tài)加密和多方安全計(jì)算(MPC:Multi-party Computation),之前一直是學(xué)術(shù)界比較火的話題,但在工業(yè)界的存在感較弱,直到“聯(lián)邦學(xué)習(xí)” 概念的出現(xiàn),才使得MPC技術(shù)一夜之間在工業(yè)界火了起來(lái)。
針對(duì)數(shù)據(jù)維度不同,聯(lián)邦學(xué)習(xí)分為縱向聯(lián)邦學(xué)習(xí)、橫向聯(lián)邦學(xué)習(xí)、聯(lián)邦遷移學(xué)習(xí),可以充分應(yīng)對(duì)用戶重疊、用戶特征重疊的各種情況。這種能夠讓參與方在數(shù)據(jù)不出本地的基礎(chǔ)上聯(lián)合建模的方法,顯然更能考慮數(shù)據(jù)擁有者的顧慮。
圖注:2019年11月,標(biāo)準(zhǔn)工作組在北京召開(kāi)第四次會(huì)議,聚焦聯(lián)邦學(xué)習(xí)場(chǎng)景需求分類與安全測(cè)評(píng),著重對(duì)聯(lián)邦學(xué)習(xí)的安全測(cè)評(píng)與評(píng)級(jí)進(jìn)行規(guī)劃
在訓(xùn)練性能方面,胡水海提到:“聯(lián)邦學(xué)習(xí)在保護(hù)隱私的同時(shí),需要以龐大的計(jì)算資源為代價(jià),而異構(gòu)計(jì)算恰好能提供強(qiáng)大的算力支持。星云Clustar以高性能算力起家,很早就開(kāi)始布局聯(lián)邦學(xué)習(xí)異構(gòu)計(jì)算的賽道?!?/p>
在使用效果方面,涂威威深有感觸:“確實(shí)有效果,第四范式也在醫(yī)療領(lǐng)域進(jìn)行了嘗試,在預(yù)測(cè)糖尿病患病率方面,比臨床金標(biāo)準(zhǔn)要提升兩倍到三倍?!?/p>
創(chuàng)新工場(chǎng)有著資本的敏銳“嗅覺(jué)”,早已看出了人工智能系統(tǒng)的安全性和隱私保護(hù)方向的重要性,已經(jīng)開(kāi)始著手研究聯(lián)邦學(xué)習(xí)企業(yè)的創(chuàng)業(yè)機(jī)會(huì)。
與創(chuàng)新工場(chǎng)“英雄所見(jiàn)略同”的還有邏輯匯。作為一家金融科技公司,叢明舒也意識(shí)到,在面向金融機(jī)構(gòu)提供在線金融分析自動(dòng)化平臺(tái)的過(guò)程中引入聯(lián)邦學(xué)習(xí)技術(shù),對(duì)看重?cái)?shù)據(jù)隱私的金融機(jī)構(gòu)亦至關(guān)重要。
京東城市自主研發(fā)的聯(lián)邦數(shù)字網(wǎng)關(guān)產(chǎn)品面向政府和企業(yè)客戶數(shù)據(jù)共享難等問(wèn)題,也在致力于為客戶提供安全數(shù)據(jù)共享、數(shù)據(jù)流轉(zhuǎn)的產(chǎn)品級(jí)解決方案。
騰訊內(nèi)部則成立了三個(gè)團(tuán)隊(duì)攻關(guān)聯(lián)邦學(xué)習(xí),而華為也有兩個(gè)不同的工作組進(jìn)行To C、ToB的布局。
騰訊云副總裁王龍談到:“這一國(guó)際標(biāo)準(zhǔn)的發(fā)布,將聯(lián)邦學(xué)習(xí)從算法層面提升到生態(tài)建設(shè)層面,是其產(chǎn)業(yè)化的重要一步。我相信這一標(biāo)準(zhǔn)在未來(lái)產(chǎn)業(yè)互聯(lián)網(wǎng)的建設(shè)中,必將發(fā)揮關(guān)鍵作用?!?/p>
6、生態(tài)與格局
求同存異、和而不同的傳統(tǒng)文化深深地刻在了中國(guó)人的骨子里,尤其體現(xiàn)在:標(biāo)準(zhǔn)組在發(fā)起投票的時(shí)候,對(duì)每一條反對(duì)意見(jiàn)都要反復(fù)修訂草案,直到最終修訂稿被IEEE標(biāo)準(zhǔn)委員會(huì)投票通過(guò)。
作為秘書(shū)長(zhǎng)單位,星云Clustar在標(biāo)準(zhǔn)制定過(guò)程中擔(dān)負(fù)起協(xié)調(diào)重任。呂亞靜回憶:“我們內(nèi)部有很多群,除了大會(huì)之外,還開(kāi)了眾多小會(huì),大家提出問(wèn)題之后,都會(huì)盡量快速討論協(xié)商解決。那時(shí)候,我就像催收作業(yè)一樣,催大家‘交作業(yè)’。”
參與撰寫(xiě)標(biāo)準(zhǔn)的單位主要有:微眾銀行、創(chuàng)新工場(chǎng)、星云Clustar、第四范式、松鼠AI、京東城市、騰訊云、邏輯匯、華為、中國(guó)電信、小米、華大基因、中電科大數(shù)據(jù)研究院、Senses Global、依圖、百度等等。
這些不同行業(yè)的參與者,帶來(lái)更多的業(yè)務(wù)場(chǎng)景和實(shí)際需求問(wèn)題,提升了標(biāo)準(zhǔn)的全面性和完整性,讓百尺的竿頭更進(jìn)了一步。
因?yàn)楹臅r(shí)太長(zhǎng),需要考慮的方面太多,工作組有時(shí)難免懷疑自己是不是真的能完成這件事:“完全沒(méi)有任何金錢方面的激勵(lì),純粹是靠大家的激情與無(wú)私奉獻(xiàn)。”
后來(lái),馮霽安慰大家說(shuō):“當(dāng)你確信在做一件正確的事情時(shí),有挑戰(zhàn)是好事,經(jīng)受住了質(zhì)疑和挑戰(zhàn)的東西才彌足寶貴。”
在半個(gè)多小時(shí)的交流中,馮霽提到最多的是“生態(tài)”:“只要這件事情值得做,對(duì)中國(guó)和世界的技術(shù)生態(tài)有幫助,有長(zhǎng)遠(yuǎn)影響,哪怕我們倒貼錢,也要進(jìn)行下去?!?/p>
靠著組織者的身體力行,他們最終讓標(biāo)準(zhǔn)成長(zhǎng)為心中的理想模樣。
圖注:2021年3月,聯(lián)邦學(xué)習(xí)標(biāo)準(zhǔn)終版正式發(fā)布
三年來(lái),海內(nèi)外多家企業(yè)和研究機(jī)構(gòu)合作參與制定的聯(lián)邦學(xué)習(xí)IEEE標(biāo)準(zhǔn)。但與其他諸多國(guó)際標(biāo)準(zhǔn)不同的是,在這次標(biāo)準(zhǔn)制定中,國(guó)內(nèi)企業(yè)占據(jù)了主導(dǎo)地位。
回想這三年所做的事情,涂威威給出的關(guān)鍵字是“格局”,表現(xiàn)在兩個(gè)方面:
一,先難后易。大家最開(kāi)始選擇了最難的標(biāo)準(zhǔn)進(jìn)行攻關(guān),這是比較明智的,因?yàn)槿绻麌?guó)際標(biāo)準(zhǔn)如果證明可行,那么往國(guó)內(nèi)引進(jìn)、推廣就比較容易。
二,行業(yè)影響長(zhǎng)遠(yuǎn)。技術(shù)標(biāo)準(zhǔn)是推廣行業(yè)應(yīng)用的通用溝通語(yǔ)言。一項(xiàng)產(chǎn)品,你說(shuō)它品質(zhì)優(yōu)秀,質(zhì)量過(guò)硬,沒(méi)有專業(yè)的評(píng)價(jià)體系,是無(wú)法讓消費(fèi)者、政府監(jiān)管機(jī)構(gòu)信服的。如果企業(yè)拿出IEEE標(biāo)準(zhǔn)用作檢測(cè),效果自然不同。
7、接下來(lái)如何推廣?
如今,聯(lián)邦學(xué)習(xí)國(guó)際標(biāo)準(zhǔn)(IEEE P3652.1)已經(jīng)通過(guò)并發(fā)布。
接下來(lái)會(huì)如何圍繞這一“國(guó)際上首個(gè)針對(duì)人工智能協(xié)同技術(shù)框架訂立的標(biāo)準(zhǔn)”做努力?
楊強(qiáng)認(rèn)為:“標(biāo)準(zhǔn)相當(dāng)于‘?dāng)?shù)據(jù)市場(chǎng)的操作系統(tǒng)’,有了操作系統(tǒng)還要有應(yīng)用,希望更多的行業(yè)參與者能夠在操作系統(tǒng)的基礎(chǔ)上制定更為細(xì)化的標(biāo)準(zhǔn)和應(yīng)用。”
言外之意,形成標(biāo)準(zhǔn)并不是一勞永逸,會(huì)繼續(xù)吸納更多參與方,動(dòng)態(tài)調(diào)整細(xì)節(jié)。只有將聯(lián)邦學(xué)習(xí)技術(shù)促成產(chǎn)業(yè)生態(tài),使其保持可持續(xù)發(fā)展,才能經(jīng)得起時(shí)間的考驗(yàn)。
如今,越來(lái)越多企業(yè)參與進(jìn)來(lái),包括字節(jié)跳動(dòng)、百度、中國(guó)電信、VMware中國(guó)等等,共同推動(dòng)聯(lián)邦學(xué)習(xí)成為一種產(chǎn)業(yè)生態(tài)。
此前,字節(jié)跳動(dòng)技術(shù)團(tuán)隊(duì)開(kāi)源了自研的聯(lián)邦學(xué)習(xí)平臺(tái)Fedlearner框架。字節(jié)跳動(dòng)高級(jí)技術(shù)總監(jiān)兼人工智能科學(xué)家劉小兵表示,“聯(lián)邦學(xué)習(xí)是機(jī)器學(xué)習(xí)新范式,而這一國(guó)際標(biāo)準(zhǔn)的建立,對(duì)于推動(dòng)人工智能在安全合規(guī)的要求下順利發(fā)展,提供了有力的保障?!?/p>
百度研究院副院長(zhǎng)李平教授也提到,“聯(lián)邦學(xué)習(xí)的標(biāo)準(zhǔn)建立意味著聯(lián)邦學(xué)習(xí)技術(shù)和應(yīng)用發(fā)展到了一個(gè)新的階段。在這一標(biāo)準(zhǔn)指引下,聯(lián)邦學(xué)習(xí)的生態(tài)將迅速形成,人工智能的隱私,安全的分布式聯(lián)合建模也將成為一個(gè)新的范式?!?span style="color: #FFFFFF;">雷鋒網(wǎng)
華為在聯(lián)邦學(xué)習(xí)上同樣不甘落后。除了搭建NAIE聯(lián)邦學(xué)習(xí)的基本框架,在去年9月25日,華為云發(fā)布了ModelArts 3.0,提供聯(lián)邦學(xué)習(xí)特性,實(shí)現(xiàn)數(shù)據(jù)不出戶的聯(lián)合建模。
而中國(guó)電信這家擁有億級(jí)用戶的巨無(wú)霸,經(jīng)過(guò)在標(biāo)準(zhǔn)推進(jìn)過(guò)程中的不斷深入研究,聯(lián)邦學(xué)習(xí)技術(shù)已經(jīng)在中國(guó)電信落地,正在進(jìn)行產(chǎn)品的迭代研發(fā)。
據(jù)介紹,中國(guó)電信將積極會(huì)進(jìn)一步關(guān)注聯(lián)邦學(xué)習(xí)的分布式終端訓(xùn)練、聯(lián)邦學(xué)習(xí)對(duì)網(wǎng)絡(luò)架構(gòu)要求和聯(lián)邦學(xué)習(xí)的安全機(jī)制等方面,推動(dòng)跨運(yùn)營(yíng)商、跨行業(yè)的應(yīng)用合作,持續(xù)細(xì)化完善行業(yè)間的應(yīng)用標(biāo)準(zhǔn)規(guī)范,以構(gòu)筑良好的應(yīng)用生態(tài)。Intel一直關(guān)注聯(lián)邦學(xué)習(xí)技術(shù)。雷鋒網(wǎng)
按照Intel大數(shù)據(jù)技術(shù)全球CTO戴金權(quán)的看法,聯(lián)邦學(xué)習(xí)能獲得數(shù)據(jù)可用不可見(jiàn)的效果,聯(lián)邦學(xué)習(xí)IEEE國(guó)際標(biāo)準(zhǔn)的發(fā)布是這一技術(shù)發(fā)展的一個(gè)里程碑。
VMware中國(guó)研發(fā)技術(shù)總監(jiān)張海寧也表態(tài):“在數(shù)據(jù)治理、隱私保護(hù)和安全合規(guī)的大潮下,我們看到越來(lái)越多的客戶使用聯(lián)邦學(xué)習(xí)的新技術(shù)來(lái)打破部門(mén)墻和連接數(shù)據(jù)孤島?!币虼?,VMware也在積極投入到聯(lián)邦學(xué)習(xí)技術(shù)的發(fā)展工作中,包括參與開(kāi)源FATE等項(xiàng)目。雷鋒網(wǎng)
數(shù)據(jù)隱私保護(hù)涉及到每個(gè)人的信息安全。聯(lián)邦學(xué)習(xí)生態(tài)的建立,離不開(kāi)國(guó)際標(biāo)準(zhǔn)。
形成標(biāo)準(zhǔn)只是第一步,聯(lián)邦學(xué)習(xí)的發(fā)展未來(lái)仍需要更多人的關(guān)注與參與。
只有參與,才能受益。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。