0
本文作者: 喬燕薇 | 2022-04-21 14:17 |
2022年4月,由雷峰網(wǎng)《醫(yī)健AI掘金志》主辦的醫(yī)療隱私計(jì)算·云峰會(huì)開(kāi)幕,從技術(shù)普及與案例剖析的初衷出發(fā),邀請(qǐng)一批隱私計(jì)算企業(yè)CXO,討論隱私計(jì)算的技術(shù)路線(xiàn)和在醫(yī)療場(chǎng)景下的實(shí)際應(yīng)用前景,共話(huà)產(chǎn)業(yè)的未來(lái)趨勢(shì)。
锘崴科技創(chuàng)始人、董事長(zhǎng)王爽教授發(fā)表了題為《隱私計(jì)算賦能醫(yī)療健康大數(shù)據(jù)價(jià)值流轉(zhuǎn)》的演講,就醫(yī)療大數(shù)據(jù)隱私保護(hù)的背景、醫(yī)療大數(shù)據(jù)安全共享解決方案與底層技術(shù)、醫(yī)療大數(shù)據(jù)隱私保護(hù)的應(yīng)用場(chǎng)景等話(huà)題進(jìn)行了分享。
王爽教授是四川大學(xué)華西醫(yī)院特聘教授、同濟(jì)大學(xué)附屬醫(yī)院客座教授?;貒?guó)之前,王爽教授在美國(guó)加州大學(xué)圣地亞哥分校UCSD醫(yī)學(xué)院做教職。
過(guò)去十余年,王爽教授及其團(tuán)隊(duì)一直專(zhuān)注醫(yī)療大數(shù)據(jù)隱私保護(hù)相關(guān)研究。2014年,王爽教授創(chuàng)辦了目前最早也是規(guī)模最大的iDASH國(guó)際隱私保護(hù)計(jì)算大賽;2017年,牽頭成立了國(guó)際同態(tài)加密標(biāo)準(zhǔn)委員會(huì),推動(dòng)制定相關(guān)國(guó)際標(biāo)準(zhǔn)。
王爽教授表示,醫(yī)療大數(shù)據(jù)的隱私安全保護(hù)需要進(jìn)行全局性的思考。
“首先,我們要弄清楚數(shù)據(jù)的類(lèi)型是什么,數(shù)據(jù)在哪里,由誰(shuí)在用以及如何在用,從而實(shí)現(xiàn)對(duì)數(shù)據(jù)整體安全的保護(hù)。在保護(hù)過(guò)程中,我們既需要滿(mǎn)足合規(guī)的能力,又需要數(shù)據(jù)保護(hù)的能力。
他認(rèn)為,隱私計(jì)算正是一種能夠輔助實(shí)現(xiàn)從形式合規(guī)到實(shí)質(zhì)合規(guī)的全流程醫(yī)療大數(shù)據(jù)安全的技術(shù)手段,并且它是目前最優(yōu)技術(shù)解。
以下為王爽教授的演講內(nèi)容,雷峰網(wǎng)《醫(yī)健AI掘金志》作了不改變?cè)獾木庉嫾罢怼?/strong>
數(shù)據(jù)正加速向“生產(chǎn)要素”轉(zhuǎn)化。
近些年,國(guó)家層面相繼出臺(tái)了數(shù)據(jù)要素化市場(chǎng)配置的政策文件,今年4月10日又推出了加快建設(shè)全國(guó)統(tǒng)一大市場(chǎng)的相關(guān)意見(jiàn),這些政策都明確要加快培育數(shù)據(jù)要素市場(chǎng),建立健全數(shù)據(jù)安全、權(quán)利保護(hù)、跨境傳輸管理、交易流通、共享開(kāi)放、安全驗(yàn)證等基礎(chǔ)制度和標(biāo)準(zhǔn)規(guī)范,深入開(kāi)展數(shù)據(jù)資源調(diào)查,推動(dòng)數(shù)據(jù)資源開(kāi)發(fā)利用。
在地方層面上,多個(gè)省、市也推出了聚焦數(shù)據(jù)要素領(lǐng)域的相關(guān)法律法規(guī),并主導(dǎo)成立地方數(shù)據(jù)交易中心,推動(dòng)數(shù)據(jù)要素實(shí)現(xiàn)市場(chǎng)化,加快數(shù)據(jù)資源共享開(kāi)放進(jìn)程。
在數(shù)據(jù)要素市場(chǎng)發(fā)展過(guò)程中,存在著一系列問(wèn)題和挑戰(zhàn)。
首先,是法律合規(guī)風(fēng)險(xiǎn)。明文數(shù)據(jù)一旦可見(jiàn)就可能被無(wú)限復(fù)制,同時(shí)暴露數(shù)據(jù)中所包含的個(gè)人敏感信息,以及數(shù)據(jù)所對(duì)應(yīng)的某個(gè)用戶(hù)或數(shù)據(jù)提供方的商業(yè)機(jī)密。
其次,是數(shù)據(jù)的不可控。數(shù)據(jù)一旦被泄露或復(fù)制,將導(dǎo)致超范圍使用甚至被轉(zhuǎn)賣(mài),無(wú)法控制其用途、用量,因此也存在數(shù)據(jù)濫用的風(fēng)險(xiǎn)。
此外,當(dāng)明文數(shù)據(jù)被濫用,打破市場(chǎng)供需關(guān)系后,會(huì)導(dǎo)致數(shù)據(jù)價(jià)值無(wú)法定價(jià),也無(wú)法形成“要素化”的概念,無(wú)法產(chǎn)生大規(guī)模的市場(chǎng)流通,數(shù)據(jù)要素的價(jià)值也將無(wú)法充分體現(xiàn)。
在國(guó)家層面上,數(shù)據(jù)隱私保護(hù)也受到重視,法律法規(guī)日趨嚴(yán)格。
2021年9月正式施行的《數(shù)據(jù)安全法》提出國(guó)家將對(duì)數(shù)據(jù)實(shí)行分類(lèi)分級(jí)保護(hù),開(kāi)展數(shù)據(jù)活動(dòng)須履行數(shù)據(jù)安全保護(hù)義務(wù)、承擔(dān)社會(huì)責(zé)任。
2021年11月正式施行的《個(gè)人信息保護(hù)法》明確要求保護(hù)個(gè)人信息權(quán)益,規(guī)范個(gè)人信息處理活動(dòng),保障個(gè)人信息依法有序自由流動(dòng),促進(jìn)個(gè)人信息合理使用。
如何在數(shù)據(jù)開(kāi)發(fā)利用與安全保護(hù)上實(shí)現(xiàn)平衡?既要能“放得開(kāi)”,又要“管得住”,傳統(tǒng)的數(shù)據(jù)中心化模式已經(jīng)不適應(yīng)當(dāng)前市場(chǎng)需求,需要引入新技術(shù)、新方法適應(yīng)數(shù)據(jù)在共享、開(kāi)放、利用中的隱私保護(hù)問(wèn)題。
傳統(tǒng)數(shù)據(jù)隱私保護(hù)是采用脫敏的方式。
但脫敏后的數(shù)據(jù)并不等于匿名化數(shù)據(jù)。過(guò)往研究發(fā)現(xiàn),美國(guó)HIPPA Safe Harbor脫敏后的數(shù)據(jù)中,每15000人里依舊有兩個(gè)病人的信息可能會(huì)被恢復(fù)。
2020年,我們與國(guó)家癌癥中心合作,完成了全國(guó)最大規(guī)模的脫敏數(shù)據(jù)風(fēng)險(xiǎn)評(píng)估,橫跨34個(gè)省、市、自治區(qū)、直轄市,共涉及7000多萬(wàn)病人的脫敏信息,其中大約0.01%病人的脫敏信息,能夠結(jié)合背景知識(shí)恢復(fù)出病人的身份。
因此,脫敏只是對(duì)數(shù)據(jù)的保護(hù)與約束,并不等于完全沒(méi)有風(fēng)險(xiǎn),它只能夠?qū)L(fēng)險(xiǎn)控制在一個(gè)較低的范圍內(nèi)。此外,數(shù)據(jù)脫敏很難有效處理醫(yī)學(xué)相關(guān)的基因數(shù)據(jù)、影像數(shù)據(jù)的隱私保護(hù)。
根據(jù)《個(gè)人信息保護(hù)法》規(guī)定,匿名化數(shù)據(jù)是指經(jīng)過(guò)處理后無(wú)法識(shí)別出自然人的數(shù)據(jù)。參照前例,脫敏數(shù)據(jù)并不等價(jià)于匿名化數(shù)據(jù),所以同樣受到《個(gè)人信息保護(hù)法》的保護(hù)。
因此,醫(yī)療大數(shù)據(jù)的隱私安全需要進(jìn)行全局性的思考。首先,我們要弄清楚數(shù)據(jù)的類(lèi)型是什么,數(shù)據(jù)在哪里,由誰(shuí)在用以及如何在用,從而實(shí)現(xiàn)對(duì)數(shù)據(jù)整體安全的保護(hù)。
在保護(hù)過(guò)程中,我們既需要滿(mǎn)足合規(guī)的能力,又需要數(shù)據(jù)保護(hù)的能力。
所謂合規(guī)能力,是指從數(shù)據(jù)采集源頭保證其合規(guī)性,對(duì)此,現(xiàn)有法律對(duì)包括知情授權(quán)、數(shù)據(jù)使用協(xié)議、數(shù)據(jù)使用范圍等在內(nèi)的要求都有明確的規(guī)定。
同時(shí)在使用過(guò)程中對(duì)數(shù)據(jù)進(jìn)行分級(jí)分類(lèi),通過(guò)數(shù)據(jù)日志監(jiān)控匹配是否存在超范圍使用,使用后需要進(jìn)行數(shù)據(jù)安全審計(jì)與可信存證。
在這個(gè)過(guò)程中,需要一些技術(shù)手段來(lái)保證從數(shù)據(jù)采集到使用的合規(guī)性,隱私計(jì)算正是一種能夠輔助實(shí)現(xiàn)從形式合規(guī)到實(shí)質(zhì)合規(guī)的全流程醫(yī)療大數(shù)據(jù)安全的技術(shù)手段,并且它是目前最優(yōu)技術(shù)解。
醫(yī)療大數(shù)據(jù)安全共享解決方案包括幾個(gè)層面,首先是支持安全合規(guī)高效。通過(guò)隱私保護(hù)計(jì)算結(jié)合區(qū)塊鏈等其他技術(shù),提供安全合規(guī)高效的醫(yī)療大數(shù)據(jù),在“可用不可見(jiàn)”的情況下融合多源數(shù)據(jù),實(shí)現(xiàn)聯(lián)合分析。
其次是支持醫(yī)療監(jiān)管決策。通過(guò)結(jié)合區(qū)塊鏈實(shí)現(xiàn)數(shù)據(jù)使用全流程可追溯、可監(jiān)管,對(duì)數(shù)據(jù)的用途、使用方、使用期限、使用范圍等都能進(jìn)行非常細(xì)致的控制與監(jiān)管,為監(jiān)管部門(mén)決策提供數(shù)據(jù)支撐。
第三是支持醫(yī)療數(shù)據(jù)開(kāi)放。通過(guò)醫(yī)療大數(shù)據(jù)價(jià)值轉(zhuǎn)化平臺(tái),實(shí)現(xiàn)醫(yī)療數(shù)據(jù)跨醫(yī)院甚至是跨境合作。
通過(guò)以上幾個(gè)目標(biāo),該方案還可以支持醫(yī)療產(chǎn)業(yè)應(yīng)用,形成圍繞醫(yī)療產(chǎn)業(yè)的聚合,包括在科研、制藥以及保險(xiǎn)等相關(guān)領(lǐng)域的應(yīng)用。
醫(yī)療大數(shù)據(jù)安全共享解決方案具備幾個(gè)核心能力,第一是隱私合規(guī)的多維檢測(cè)。
在醫(yī)療大數(shù)據(jù)從形式合規(guī)到實(shí)質(zhì)合規(guī)的過(guò)程中,對(duì)數(shù)據(jù)知情授權(quán)、使用協(xié)議、數(shù)據(jù)的使用范圍、數(shù)據(jù)使用后的銷(xiāo)毀等環(huán)節(jié)進(jìn)行自動(dòng)化檢測(cè),保證全流程的數(shù)據(jù)合規(guī),這是醫(yī)療數(shù)據(jù)使用中的先決條件。
另一個(gè)核心能力則是數(shù)據(jù)的分級(jí)分類(lèi)。對(duì)不同級(jí)別和不同類(lèi)型的數(shù)據(jù),我們可以采取不同的安全措施,充分利用不同技術(shù)能力范圍滿(mǎn)足法律監(jiān)管的需求和敏感信息保護(hù)的需求。
這里涉及到隱私保護(hù)計(jì)算。我們經(jīng)常提到的隱私保護(hù)計(jì)算有四個(gè)類(lèi)型的底層技術(shù)。
其中一種技術(shù)是聯(lián)邦學(xué)習(xí)(FL),是指在各個(gè)數(shù)據(jù)源不需要分享個(gè)體數(shù)據(jù)的情況下,通過(guò)交換統(tǒng)計(jì)信息完成多中心的聯(lián)合計(jì)算,實(shí)現(xiàn)“數(shù)據(jù)不動(dòng)模型動(dòng)”的虛擬數(shù)據(jù)融合。
聯(lián)邦學(xué)習(xí)的安全假設(shè)條件是在不交換個(gè)體數(shù)據(jù)的情況下,只需要交換一些統(tǒng)計(jì)信息。然而,在很多情況下這些明文的統(tǒng)計(jì)信息通過(guò)推理或者逆向工程的方式,可能推演出數(shù)據(jù)源的敏感信息,造成隱私泄露。
基于以上考慮,我們提出了安全聯(lián)邦學(xué)習(xí)的概念,通過(guò)結(jié)合聯(lián)邦學(xué)習(xí)、同態(tài)加密、多方安全計(jì)算、可信執(zhí)行環(huán)境等技術(shù),實(shí)現(xiàn)數(shù)據(jù)建模過(guò)程中的數(shù)據(jù)隱私保護(hù)。數(shù)據(jù)源本身,個(gè)體信息交換的統(tǒng)計(jì)量,模型的梯度,最后生成的全局模型,以及統(tǒng)計(jì)分析的結(jié)果,都可以在密態(tài)下完成計(jì)算,并且只有授權(quán)用戶(hù)才能夠拿到對(duì)應(yīng)密鑰,獲得計(jì)算結(jié)果。
除了聯(lián)邦學(xué)習(xí)外,還有一些其他的輔助技術(shù),比如上文中介紹到的同態(tài)加密(HE),它是一種基于軟件的密碼學(xué)技術(shù),能夠在加密數(shù)據(jù)上進(jìn)行運(yùn)算。同態(tài)加密技術(shù)在密文下所做的加法和乘法運(yùn)算完全等價(jià)于在明文下進(jìn)行計(jì)算,因此一些計(jì)算任務(wù)能夠在密文下利用同態(tài)加密技術(shù)完成,從而保護(hù)原始數(shù)據(jù)的隱私安全。
同態(tài)加密設(shè)計(jì)之初是用來(lái)解決數(shù)據(jù)的外包服務(wù)問(wèn)題,包括數(shù)據(jù)的儲(chǔ)存外包與計(jì)算外包。
數(shù)據(jù)擁有方將自己的數(shù)據(jù)利用同態(tài)加密進(jìn)行加密后,將私鑰保留在自己手中,將公鑰加密后的數(shù)據(jù)放到公有云之類(lèi)的第三方,即可進(jìn)行儲(chǔ)存或計(jì)算。當(dāng)有多個(gè)計(jì)算方或多個(gè)數(shù)據(jù)源參與時(shí),則需要第三方生成密鑰。
多方參與情況下的密鑰管理問(wèn)題,正對(duì)應(yīng)我們上文所說(shuō)的基于數(shù)據(jù)分級(jí)分類(lèi)采用不同安全級(jí)別的保護(hù)措施。
多方安全計(jì)算(MPC)是指多個(gè)數(shù)據(jù)參與方以亂碼電路或秘密分享的方式,在不需要交換明文數(shù)據(jù)的情況下,共同完成某項(xiàng)計(jì)算的密碼學(xué)解決方案。
其中最常用的是基于亂碼電路實(shí)現(xiàn)的安全兩方計(jì)算,超過(guò)兩方的計(jì)算則通常以秘密分享的方式實(shí)現(xiàn)。
在多方安全計(jì)算中,基本的安全假設(shè)是參與方是不能進(jìn)行竄謀。因此如果在某些應(yīng)用場(chǎng)景中參與計(jì)算的幾方之間不足以信任,可能會(huì)存在竄謀風(fēng)險(xiǎn),那么多方安全計(jì)算就不適用。也就是說(shuō),對(duì)于非常機(jī)密的數(shù)據(jù),仍需要其他的額外技術(shù)提供保護(hù)。
可信執(zhí)行環(huán)境(TEE)是指在基于硬件防護(hù)能力的隔離環(huán)境中進(jìn)行計(jì)算,實(shí)現(xiàn)數(shù)據(jù)安全和隱私保護(hù)功能。在CPU或GPU空間中形成的隔離區(qū)域中運(yùn)行的代碼、程序、數(shù)據(jù)均不受外界干擾,只有授權(quán)用戶(hù)方可使用。
可信執(zhí)行環(huán)境提供了一套驗(yàn)證機(jī)制,使用戶(hù)能夠遠(yuǎn)程確定所使用的可信執(zhí)行環(huán)境安全性,以及確保在可信執(zhí)行環(huán)境中運(yùn)行的代碼和數(shù)據(jù)的完整性和安全性,從而實(shí)現(xiàn)對(duì)某些敏感數(shù)據(jù)在隱私保護(hù)的情況下進(jìn)行運(yùn)算。
可信執(zhí)行環(huán)境的優(yōu)點(diǎn)在于,基于硬件模式,與同態(tài)加密和多方安全計(jì)算相比能夠支持更大規(guī)模的復(fù)雜運(yùn)算。
在上述四個(gè)不同技術(shù)領(lǐng)域中,我們都完成了一些早期工作。
在聯(lián)邦學(xué)習(xí)領(lǐng)域,最早在2012年我們將聯(lián)邦學(xué)習(xí)應(yīng)用于在線(xiàn)多中心醫(yī)療數(shù)據(jù)在“可用不可見(jiàn)”情況下的聯(lián)合分析,后面會(huì)介紹一個(gè)相關(guān)的案例。
之后聯(lián)邦學(xué)習(xí)也被谷歌應(yīng)用到移動(dòng)互聯(lián)網(wǎng)領(lǐng)域,以及被微眾銀行應(yīng)用到金融科技領(lǐng)域。
可信執(zhí)行環(huán)境最早于2009年提出,大規(guī)模的商業(yè)化應(yīng)用則是2015年底英特爾發(fā)布支持SGX功能的CPU之后。
我們是全球最早與英特爾達(dá)成深度合作的兩個(gè)機(jī)構(gòu)之一,通過(guò)可信執(zhí)行環(huán)境完成了全球首例多中心跨國(guó)罕見(jiàn)病研究,榮獲了英特爾杰出貢獻(xiàn)獎(jiǎng)。
同態(tài)加密領(lǐng)域的概念早在上世紀(jì)七八十年代就已提出,但是直到2009年,第一個(gè)全同態(tài)算法(即可做密文下做加法和乘法運(yùn)算的算法)被Craig Gentry提出。
我們團(tuán)隊(duì)在2015年首次將同態(tài)加密應(yīng)用到多中心罕見(jiàn)病研究中,解決了基于同態(tài)加密的多中心情況下的基因數(shù)據(jù)比對(duì)和統(tǒng)計(jì)分析問(wèn)題。
2017年,我與ISO、美國(guó)國(guó)家標(biāo)準(zhǔn)局(ANSI)、IBM和微軟等機(jī)構(gòu)共同創(chuàng)辦了國(guó)際同態(tài)加密標(biāo)準(zhǔn)委員會(huì),推進(jìn)同態(tài)加密相關(guān)標(biāo)準(zhǔn)制定。
多方安全計(jì)算中最著名的是姚期智教授提出的百萬(wàn)富翁問(wèn)題,它解決了安全的兩方計(jì)算,之后在1987年被拓展到多方計(jì)算。我們?cè)?016年將多方安全計(jì)算技術(shù)結(jié)合聯(lián)邦學(xué)習(xí)運(yùn)用到了國(guó)家級(jí)醫(yī)療網(wǎng)絡(luò)數(shù)據(jù)共享過(guò)程中。
對(duì)于應(yīng)用平臺(tái)架構(gòu),我們涉及到醫(yī)療機(jī)構(gòu)云、數(shù)據(jù)中心、省市健康云、專(zhuān)病網(wǎng)絡(luò)等數(shù)據(jù)提供方,支持結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)、處方數(shù)據(jù)、基因數(shù)據(jù)、影像數(shù)據(jù)等不同類(lèi)型的數(shù)據(jù),同時(shí)也支持衛(wèi)健委等相關(guān)監(jiān)管機(jī)構(gòu)可通過(guò)區(qū)塊鏈進(jìn)行數(shù)據(jù)使用全流程的監(jiān)管和審批。
在對(duì)外輸出能力上,支持臨床相關(guān)應(yīng)用、大健康應(yīng)用、健康管理、公共衛(wèi)生以及科研制藥等不同方面的應(yīng)用。
醫(yī)療大數(shù)據(jù)隱私保護(hù)的場(chǎng)景和應(yīng)用有以下幾種。
一種是多中心目標(biāo)條件隱私查詢(xún)。一個(gè)病人或者一批病人在醫(yī)院的臨床數(shù)據(jù),結(jié)合基因檢測(cè)中心的基因數(shù)據(jù)或者影像中心的影像數(shù)據(jù),可以實(shí)現(xiàn)多模態(tài)模型研發(fā)。
在不同機(jī)構(gòu)之間進(jìn)行病人數(shù)據(jù)匹配時(shí),在縱向聯(lián)邦學(xué)習(xí)中,我們要跨不同的醫(yī)院、機(jī)構(gòu),找到同一批病人的數(shù)據(jù)進(jìn)行支持;在橫向聯(lián)邦學(xué)習(xí)中,提高樣本量時(shí)需進(jìn)行去重,去掉在多個(gè)中心里面可能重復(fù)的病人,避免重復(fù)的病人記錄影響模型建立。
除了精準(zhǔn)匹配外,模糊匹配在醫(yī)療領(lǐng)域中亦有應(yīng)用。臨床實(shí)驗(yàn)入組時(shí),需選擇參考組和被試組,不同的組別對(duì)應(yīng)不同條件,此時(shí)需使用模糊查找,根據(jù)某一模型和權(quán)重,基于用戶(hù)的不同生理指標(biāo),判斷這個(gè)用戶(hù)是否滿(mǎn)足某一個(gè)入組條件,找到相關(guān)目標(biāo)用戶(hù)。這是多中心目標(biāo)查找的隱私計(jì)算在醫(yī)療領(lǐng)域的主要應(yīng)用。
另一個(gè)常見(jiàn)的應(yīng)用是多中心隱私數(shù)據(jù)分析、建模及推理。在某些疾病研究中,單體大數(shù)據(jù)的數(shù)據(jù)量或者單個(gè)醫(yī)院的數(shù)據(jù)維度是不夠的,我們需要更大的樣本量提高模型的統(tǒng)計(jì)效果,或者實(shí)現(xiàn)更精準(zhǔn)的病人畫(huà)像,因此需要結(jié)合多個(gè)中心進(jìn)行聯(lián)合計(jì)算。
這個(gè)過(guò)程中,如果不直接交換個(gè)體數(shù)據(jù),使用隱私計(jì)算即可實(shí)現(xiàn)在數(shù)據(jù)“可用不可見(jiàn)”的情況下,通過(guò)虛擬數(shù)據(jù)融合實(shí)現(xiàn)多中心建模。
接下來(lái),介紹我們?cè)卺t(yī)療大數(shù)據(jù)隱私保護(hù)領(lǐng)域做過(guò)的案例。
下圖是我們?cè)?012年開(kāi)始做的全球首創(chuàng)的隱私保護(hù)超大規(guī)模醫(yī)療科研網(wǎng)絡(luò),通過(guò)隱私計(jì)算覆蓋了美國(guó)3000多萬(wàn)病人,這些病人來(lái)自17個(gè)醫(yī)療系統(tǒng),覆蓋200多家醫(yī)院。
我們做的是比較效果研究。具體來(lái)說(shuō)是,探究不同藥物對(duì)于同一個(gè)病人,或是不同手術(shù)方法、器械對(duì)于同一種病人所產(chǎn)生的不同效果,從而幫助制定更好的臨床指南;
探究同一藥物對(duì)于不同并發(fā)癥的病人產(chǎn)生的效果,或是同一個(gè)藥物不同劑量時(shí)的相關(guān)效果或副作用,以及藥物適應(yīng)癥的擴(kuò)展。這些場(chǎng)景可以通過(guò)基于多中心的研究實(shí)現(xiàn)更大樣本量、更具有統(tǒng)計(jì)意義的結(jié)果。
但醫(yī)療機(jī)構(gòu)受限于隱私保護(hù)政策的限制,以及醫(yī)院自身對(duì)于數(shù)據(jù)安全的顧慮,無(wú)法直接形成大規(guī)模數(shù)據(jù)遷移,將數(shù)據(jù)都匯總到公共區(qū)域。
于是我們通過(guò)聯(lián)邦學(xué)習(xí)方式,將計(jì)算節(jié)點(diǎn)部署到各個(gè)醫(yī)院,然后通過(guò)一個(gè)中心節(jié)點(diǎn)將比較效果研究的請(qǐng)求發(fā)送到各個(gè)計(jì)算節(jié)點(diǎn),在本地完成運(yùn)算后,通過(guò)交換加密統(tǒng)計(jì)信息完成基于大規(guī)模數(shù)據(jù)的臨床研究。
基于在國(guó)外完成的成功案例,我們?cè)趪?guó)內(nèi)也將相關(guān)的研究范式應(yīng)用到了不同的癌癥領(lǐng)域,下圖案例是我們?cè)谙饪祁I(lǐng)域的嘗試。
我們橫跨24個(gè)省、直轄市、自治區(qū)的60多家醫(yī)院,覆蓋數(shù)萬(wàn)名相關(guān)病人,在數(shù)據(jù)庫(kù)中進(jìn)行上述比較效果研究,有關(guān)不同的器械、術(shù)式對(duì)胃癌、腸癌等消化外科病人治療過(guò)程中的復(fù)發(fā)癥以及生存率等分析,能夠更好地為臨床治療提供幫助,同時(shí)也為藥廠(chǎng)與器械廠(chǎng)商在相關(guān)藥物器械的研發(fā)提供臨床證據(jù)。
下圖是我們2016年做的隱私保護(hù)跨國(guó)罕見(jiàn)病分析項(xiàng)目。
罕見(jiàn)病的痛點(diǎn)有兩個(gè),一是由于其罕見(jiàn)性,許多醫(yī)生缺乏足夠的經(jīng)驗(yàn)在第一時(shí)間做出正確診斷。由于醫(yī)生缺乏對(duì)罕見(jiàn)病的了解,容易出現(xiàn)誤診現(xiàn)象。
本案例中研究的罕見(jiàn)病是川崎病。川崎病主要發(fā)病人群是兒童,癥狀包括發(fā)燒、草莓舌、眼睛發(fā)紅、身上起疹子等,大多數(shù)情況下會(huì)被誤診為與發(fā)燒相關(guān)的疾病,錯(cuò)過(guò)最佳治療時(shí)間。
如果不能及時(shí)治療,60~70%的患兒可能會(huì)發(fā)展成嚴(yán)重的心臟并發(fā)癥,甚至危及生命。但是,如果能夠在患病早期完成診斷,就可以針對(duì)此病癥有非常好的干預(yù)和治療方法。
罕見(jiàn)病的第二個(gè)痛點(diǎn)是每家醫(yī)院的數(shù)據(jù)量都極少,難以通過(guò)單體數(shù)據(jù)源實(shí)現(xiàn)對(duì)于罕見(jiàn)病致病基因的研究。
通過(guò)多中心合作可以找到滿(mǎn)足樣本量的病人數(shù)目,從而幫助醫(yī)生能夠更好地確定與疾病相關(guān)的致病位點(diǎn)。類(lèi)似于新冠疫情中使用核酸檢測(cè)快速定位某個(gè)人是否感染新冠病毒。
如果能夠找到罕見(jiàn)病基因與疾病的相關(guān)性,即可設(shè)計(jì)試劑盒或臨床輔助診斷系統(tǒng),幫助醫(yī)生進(jìn)行罕見(jiàn)病診斷,在患病早期進(jìn)行干預(yù)和治療。
此外,由于是罕見(jiàn)病,基因變異位點(diǎn)通常比較罕見(jiàn),因此敏感性也更高,這些病人的數(shù)據(jù)隱私需受到更好的保護(hù)。
基于以上幾點(diǎn),我們通過(guò)隱私計(jì)算為兒童罕見(jiàn)病,特別是川崎病提供了整套解決方案。
我們聯(lián)合美國(guó)雷迪兒童醫(yī)院、英國(guó)帝國(guó)理工學(xué)院以及新加坡基因研究所,通過(guò)虛擬化容器的方式,在每家醫(yī)院的數(shù)據(jù)中心進(jìn)行了本地計(jì)算節(jié)點(diǎn)的部署,本地計(jì)算節(jié)點(diǎn)通過(guò)虛擬化容器將底層跟川崎病相關(guān)的疾病數(shù)據(jù),包括基因數(shù)據(jù)和表型數(shù)據(jù)接入系統(tǒng),即可實(shí)現(xiàn)本地計(jì)算。
將本地計(jì)算生成的統(tǒng)計(jì)信息進(jìn)行加密,在密態(tài)下完成全局模型構(gòu)建,通過(guò)反復(fù)交互實(shí)現(xiàn)統(tǒng)計(jì)模型訓(xùn)練,獲得最終結(jié)果,從而基于大樣本獲取更具有統(tǒng)計(jì)意義的信息。
在三個(gè)國(guó)家的多所醫(yī)院中,共找到250個(gè)滿(mǎn)足條件的家庭。研究中,共使用了150個(gè)個(gè)體數(shù)據(jù),每個(gè)個(gè)體有70萬(wàn)個(gè)基因變異位點(diǎn),可在秒級(jí)內(nèi)完成跨國(guó)隱私保護(hù)研究。
這項(xiàng)研究成果獲得了英特爾杰出貢獻(xiàn)獎(jiǎng),并發(fā)表于核心生物學(xué)期刊。
基于在國(guó)外的研究成果,我們回國(guó)完成了全國(guó)首例基于隱私保護(hù)的跨多個(gè)省市的全基因組分析系統(tǒng)。
其中涉及的疾病是強(qiáng)直性脊柱炎。通過(guò)基因分析,我們能夠盡早確定某些基因變異位點(diǎn)與強(qiáng)直性脊柱炎的相關(guān)性,進(jìn)行疾病的早期預(yù)測(cè)和診斷,從而實(shí)現(xiàn)更早干預(yù)、治療,減緩病情。
在這項(xiàng)研究中也遇到了之前類(lèi)似的問(wèn)題——單體醫(yī)院的數(shù)據(jù)量非常有限。我們與清華大學(xué)、四川大學(xué)華西醫(yī)院、上海長(zhǎng)征醫(yī)院、鄭州大學(xué)第一附屬醫(yī)院、安徽醫(yī)科大學(xué)第一附屬醫(yī)院5所機(jī)構(gòu)合作,將锘崴信一體機(jī)部署到醫(yī)院信息科,然后醫(yī)院將相關(guān)數(shù)據(jù)接入一體機(jī),在防火墻后完成本地病人基因數(shù)據(jù)和表型數(shù)據(jù)分析。
每家醫(yī)院都提供了將近1000例的患者與非患者數(shù)據(jù),我們組成了參考組和被試組做對(duì)比性分析。
研究成果體現(xiàn)在以下幾方面。
首先,我們驗(yàn)證了計(jì)算精度。在實(shí)驗(yàn)數(shù)據(jù)上,虛擬數(shù)據(jù)可以實(shí)現(xiàn)等價(jià)于中心式計(jì)算。在計(jì)算時(shí)間上,由于多個(gè)中心可以同時(shí)并行計(jì)算,等價(jià)于將數(shù)據(jù)集中后的明文計(jì)算。雖然計(jì)算在密文下運(yùn)行,但是效率依舊非常高。
同時(shí),該研究也驗(yàn)證了獲得的疾病位點(diǎn)與中心計(jì)算完全一致。由于通過(guò)隱私計(jì)算觸達(dá)到了更多的數(shù)據(jù)源,我們實(shí)現(xiàn)了高一個(gè)數(shù)量量級(jí)的統(tǒng)計(jì)意義,研究成果獲得上海市科技進(jìn)步獎(jiǎng)一等獎(jiǎng)。
此外,我們也做了一些其他應(yīng)用,比如通過(guò)隱私計(jì)算幫助兒童罕見(jiàn)病網(wǎng)絡(luò)進(jìn)行帶有隱私保護(hù)的查詢(xún)和臨床輔助診斷系統(tǒng)的應(yīng)用,通過(guò)隱私計(jì)算實(shí)現(xiàn)對(duì)于輸入系統(tǒng)的患兒基因信息、臨床診斷信息等查詢(xún)條件的保護(hù)。
我們提供了一套自然語(yǔ)言處理(NLP)工具,能夠?qū)⒎墙Y(jié)構(gòu)化的醫(yī)囑信息進(jìn)行自然語(yǔ)言處理,提取出與表型相關(guān)信息,將其映射到人類(lèi)表型本體(HPO)上。
通過(guò)以上結(jié)構(gòu)化數(shù)據(jù),即可在加密狀態(tài)下與全國(guó)范圍內(nèi)罕見(jiàn)病病人的數(shù)據(jù)進(jìn)行匹配。
匹配過(guò)程并非簡(jiǎn)單的精準(zhǔn)匹配,而是在不同基因位點(diǎn)對(duì)應(yīng)不同權(quán)重和表型相關(guān)性的情況下完成匹配,最終返回加密結(jié)果,告知醫(yī)生或患者基于當(dāng)前的基因和表型可能確診的疾病或是潛在疾病。
在整個(gè)查詢(xún)過(guò)程中,查詢(xún)條件與查詢(xún)結(jié)果不存留在被查詢(xún)方,同時(shí)也保護(hù)了被查詢(xún)方的數(shù)據(jù)和匹配模型,實(shí)現(xiàn)雙盲下的數(shù)據(jù)查詢(xún)。
除以上應(yīng)用外,我們還將隱私計(jì)算應(yīng)用到了新發(fā)和突發(fā)傳染病智慧化多點(diǎn)預(yù)警突發(fā)系統(tǒng)中。
如今,疫情在多地爆發(fā)。如果能夠借助于大數(shù)據(jù),將病人在不同醫(yī)院的就診數(shù)據(jù)、軌跡信息、藥房購(gòu)藥信息、病人自主上報(bào)的信息、病人在互聯(lián)網(wǎng)上搜索的信息構(gòu)建一個(gè)多點(diǎn)觸發(fā)預(yù)警的深度學(xué)習(xí)模型,就可以在突發(fā)傳染病剛剛萌發(fā)時(shí)實(shí)現(xiàn)早期干預(yù)。
然而在實(shí)際應(yīng)用中,由于數(shù)據(jù)隱私、數(shù)據(jù)實(shí)時(shí)性、大數(shù)據(jù)計(jì)算資源等諸多限制,上述各種數(shù)據(jù)往往無(wú)法簡(jiǎn)單匯總到一個(gè)數(shù)據(jù)中心實(shí)現(xiàn)中心化的模型構(gòu)建和決策。
通過(guò)隱私計(jì)算技術(shù)在不同的數(shù)據(jù)源部署計(jì)算節(jié)點(diǎn),即可充分利用分布在不同地方的數(shù)據(jù),在隱私計(jì)算下基于更多維度的信息構(gòu)建預(yù)警模型。
基于預(yù)警模型,我們利用實(shí)時(shí)觀(guān)測(cè)到的數(shù)據(jù)進(jìn)行預(yù)警,有助于衛(wèi)健委等部門(mén)進(jìn)行傳染病的管理和管控。
此外,醫(yī)健AI掘金志也上線(xiàn)了王爽教授的演講視頻,感興趣的朋友可以關(guān)注公眾號(hào) 醫(yī)健AI掘金志,對(duì)話(huà)框回復(fù)關(guān)鍵詞“王爽”,即可回看。雷峰網(wǎng)雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。