0
本文作者: 李雨晨 | 2020-04-13 21:58 |
雷鋒網(wǎng)消息,近日,騰訊天衍實(shí)驗(yàn)室聯(lián)合微眾銀行聯(lián)合研發(fā)了醫(yī)療聯(lián)邦學(xué)習(xí)框架,實(shí)現(xiàn)了在保護(hù)不同醫(yī)院數(shù)據(jù)隱私下的疾病預(yù)測(cè)模型,破解醫(yī)療行業(yè)數(shù)據(jù)安全與隱私保護(hù)難題。
作為醫(yī)療AI成長(zhǎng)道路不可或缺的“糧食”,數(shù)據(jù)一直是醫(yī)療AI落地的“攔路虎”。我國(guó)醫(yī)療健康數(shù)據(jù)領(lǐng)域長(zhǎng)期存在“信息孤島”問(wèn)題,不同地區(qū)甚至不同醫(yī)院間的醫(yī)療數(shù)據(jù)沒(méi)有互聯(lián),也沒(méi)有統(tǒng)一的標(biāo)準(zhǔn)。與此同時(shí),數(shù)據(jù)安全問(wèn)題也存在著巨大挑戰(zhàn)。
據(jù)雷鋒網(wǎng)了解,這是聯(lián)邦學(xué)習(xí)在醫(yī)療健康大數(shù)據(jù)領(lǐng)域應(yīng)用的一個(gè)成功案例,為醫(yī)療大健康的各種潛在應(yīng)用如分診診療、慢病防控、疾病早篩、醫(yī)??刭M(fèi)的落地等探索出了新的方向。
在重大疾病早期篩查和預(yù)測(cè)領(lǐng)域,如果要成功能建立大數(shù)據(jù)疾病預(yù)測(cè)模型,就需要將居民在不同醫(yī)院的醫(yī)療信息與健康檔案進(jìn)行整合與建模。
但由于信息系統(tǒng)不統(tǒng)一,醫(yī)院管理機(jī)構(gòu)對(duì)于數(shù)據(jù)隱私泄露的擔(dān)憂,和相關(guān)數(shù)據(jù)保護(hù)法規(guī)的限制,相關(guān)機(jī)構(gòu)之間形成了數(shù)據(jù)壁壘,很少有醫(yī)院愿意進(jìn)行數(shù)據(jù)的共享,這就導(dǎo)致了AI難以在疾病預(yù)測(cè)領(lǐng)域“施展拳腳”。
這也是近年來(lái)聯(lián)邦學(xué)習(xí)方法日益受到關(guān)注的重要原因。
2016年,谷歌率先提出該技術(shù),而后微眾銀行則在首席人工智能官楊強(qiáng)教授的帶領(lǐng)下首次提出了“聯(lián)邦遷移學(xué)習(xí)”,并開(kāi)源自研聯(lián)邦學(xué)習(xí)框架Federated AI Technology Enabler(簡(jiǎn)稱FATE),推動(dòng)聯(lián)邦學(xué)習(xí)技術(shù)在行業(yè)中的落地。
目前,聯(lián)邦學(xué)習(xí)在金融、互聯(lián)網(wǎng)、智慧零智等領(lǐng)域已經(jīng)有多個(gè)成功應(yīng)用案例,但在醫(yī)療領(lǐng)域,由于醫(yī)療知識(shí)的專業(yè)性,電子病歷的復(fù)雜性對(duì)聯(lián)邦學(xué)習(xí)的構(gòu)建帶來(lái)了種種困難。
結(jié)合自身醫(yī)療機(jī)器學(xué)習(xí)與自然語(yǔ)言處理的先天優(yōu)勢(shì),騰訊天衍實(shí)驗(yàn)室與微眾銀行共同將聯(lián)邦學(xué)習(xí)與醫(yī)療深度融合,通過(guò)搭建基于聯(lián)邦學(xué)習(xí)技術(shù)的大數(shù)據(jù)集中與挖掘平臺(tái),開(kāi)發(fā)醫(yī)療聯(lián)邦學(xué)習(xí)(Medical Federated Learning)技術(shù)。
圖片來(lái)源:天衍-微眾投稿給人工智能頂級(jí)會(huì)議IJCAI 2020的論文
聯(lián)邦學(xué)習(xí)可以繞過(guò)醫(yī)療機(jī)構(gòu)之間的信息壁壘,不考慮將各自數(shù)據(jù)做合并,而是通過(guò)協(xié)議在其間傳遞加密之后的信息,該加密過(guò)程具有一定的隱私保護(hù)機(jī)制,保證加密后的信息不會(huì)產(chǎn)生數(shù)據(jù)泄露。各個(gè)醫(yī)療機(jī)構(gòu)通過(guò)使用這些加密的信息更新模型參數(shù),從而實(shí)現(xiàn)在不暴露原始數(shù)據(jù)的條件下使用全部患者數(shù)據(jù)的訓(xùn)練過(guò)程。
舉例來(lái)說(shuō),假設(shè)醫(yī)院 A 和 B 想聯(lián)合訓(xùn)練一個(gè)腦卒中疾病預(yù)測(cè)模型,兩個(gè)醫(yī)院各自掌握科研病例數(shù)據(jù),此外,醫(yī)院 B 還擁有模型需要預(yù)測(cè)的標(biāo)簽數(shù)據(jù)如腦卒中發(fā)病標(biāo)簽。出于數(shù)據(jù)隱私保護(hù)和安全考慮,醫(yī)院A和 B無(wú)法直接進(jìn)行數(shù)據(jù)交換。聯(lián)邦學(xué)習(xí)系統(tǒng)則可以利用基于加密的患者樣本對(duì)齊技術(shù),在醫(yī)院 A 和 B 不公開(kāi)各自數(shù)據(jù)的前提下確認(rèn)雙方的共有患者,并且不暴露不互相重疊的患者,以便聯(lián)合這些用戶的特征進(jìn)行建模,在確定共有用戶群體后,就可以利用這些數(shù)據(jù)訓(xùn)練疾病預(yù)測(cè)模型。
圖片來(lái)源:天衍-微眾投稿給人工智能頂級(jí)會(huì)議IJCAI 2020的論文
在這樣的一種方式下,聯(lián)邦學(xué)習(xí)技術(shù)就實(shí)現(xiàn)了保護(hù)不同醫(yī)院數(shù)據(jù)隱私的疾病預(yù)測(cè)模型,而這項(xiàng)技術(shù)也在疾病預(yù)測(cè)領(lǐng)域落地,天衍實(shí)驗(yàn)室和微眾銀行成功構(gòu)建了一個(gè)“腦卒中發(fā)病風(fēng)險(xiǎn)預(yù)測(cè)模型”。
腦卒中預(yù)測(cè)準(zhǔn)確率達(dá)80%
在構(gòu)建疾病預(yù)測(cè)模型過(guò)程中,不同醫(yī)院數(shù)據(jù)缺乏標(biāo)準(zhǔn)化是關(guān)鍵性難題。
首先,雙方通過(guò)搭建的大數(shù)據(jù)集中與挖掘平臺(tái),構(gòu)建醫(yī)療健康領(lǐng)域機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、自然語(yǔ)言理解、文本特征抽取、多種關(guān)系網(wǎng)絡(luò)等多種大數(shù)據(jù)模型,對(duì)地區(qū)居民連續(xù)電子病歷和其它數(shù)據(jù)進(jìn)行多重關(guān)聯(lián)和信息抽取。構(gòu)建帶有時(shí)間標(biāo)志的重大慢病標(biāo)簽(腦卒中、冠心病、腫瘤、慢阻肺等)與大健康醫(yī)療特征(疾病、用藥、檢查、癥狀、手術(shù)、費(fèi)用、家庭關(guān)系、行為、生活、環(huán)境),并對(duì)不同醫(yī)院構(gòu)建統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn)形成疾病標(biāo)簽集與特征集。
對(duì)疾病預(yù)測(cè)模型所需特征進(jìn)行標(biāo)準(zhǔn)與歸一化后,再將標(biāo)準(zhǔn)化模型部署到不同醫(yī)院,各醫(yī)院按照該標(biāo)準(zhǔn)對(duì)自有的疾病、用藥、檢驗(yàn)檢查、癥狀、手術(shù)等方面的數(shù)據(jù)進(jìn)行清洗,形成各自的標(biāo)準(zhǔn)化的疾病標(biāo)簽集與醫(yī)療特征集,再以此建立巢式病例對(duì)照研究隊(duì)列,基于聯(lián)邦學(xué)習(xí)算法協(xié)議,有效訓(xùn)練機(jī)器學(xué)習(xí)模型。
通過(guò)使用來(lái)自就診記錄數(shù)量TOP5的醫(yī)院真實(shí)就診數(shù)據(jù)驗(yàn)證,聯(lián)邦學(xué)習(xí)模型和集中訓(xùn)練模型表現(xiàn)幾乎一致,在腦卒中預(yù)測(cè)模型中的準(zhǔn)確率達(dá)到80%,僅比集中訓(xùn)練模型準(zhǔn)確率降低1%。
同時(shí),聯(lián)邦學(xué)習(xí)技術(shù)顯著提升了不同醫(yī)院的獨(dú)立模型效果,特別是,對(duì)于兩家腦卒中確診病例數(shù)量較少的醫(yī)院而言,聯(lián)邦學(xué)習(xí)分別提升其準(zhǔn)確率10%和20%以上。
除疾病預(yù)測(cè)模型外,雙方還會(huì)圍繞聯(lián)邦學(xué)習(xí)在醫(yī)療大數(shù)據(jù)領(lǐng)域的應(yīng)用落地進(jìn)行更多維度的合作,包括醫(yī)保控費(fèi)、合理診斷、精準(zhǔn)醫(yī)療等領(lǐng)域,例如通過(guò)聯(lián)邦學(xué)習(xí)助力電子健康卡實(shí)現(xiàn)保護(hù)用戶隱私建模等等,進(jìn)而促進(jìn)醫(yī)療健康產(chǎn)業(yè)發(fā)展,提升醫(yī)療服務(wù)的質(zhì)量。雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。