0
本文作者: 嘉嘉 | 2022-09-22 18:21 | 專題:IEEE X ATEC科技思享會 |
IEEE x ATEC科技思享會是由專業(yè)技術(shù)學會IEEE與前沿科技探索社區(qū)ATEC聯(lián)合主辦的技術(shù)沙龍。邀請行業(yè)專家學者分享前沿探索和技術(shù)實踐,助力數(shù)字化發(fā)展。
隨AI技術(shù)的不斷深入發(fā)展,醫(yī)學人工智能應用如雨后春筍般迅速涌現(xiàn),在醫(yī)療領(lǐng)域遍地開花。AI具有智能化、自動化的特點,能夠通過強大算力解鎖復雜數(shù)據(jù)、處理海量數(shù)據(jù),在醫(yī)學變革過程中發(fā)揮著無與倫比的重要作用。IEEE x ATEC科技思享會第三期會議特邀四位嘉賓圍繞“AI驅(qū)動下的醫(yī)學變革—從生命科學到醫(yī)療管理”獨立TALK。
以下是復旦大學教授/博導、上海市數(shù)據(jù)科學重點實驗室副主任、ATEC科技精英賽高級咨詢委員會專家熊贇的演講《醫(yī)療大數(shù)據(jù):由淺入深、由繁至簡》。
演講嘉賓 | 熊 贇
復旦大學教授/博導
上海市數(shù)據(jù)科學重點實驗室副主任
ATEC科技精英賽高級咨詢委員會專家
大家好,我是復旦大學的熊贇,感謝IEEE x ATEC科技思享會,非常高興能夠與大家分享醫(yī)療大數(shù)據(jù)的相關(guān)研究進展。
今天,我將從以下幾個方面來進行介紹:首先我將介紹醫(yī)療數(shù)據(jù)的來源、類型和特點,然后重點介紹醫(yī)療大數(shù)據(jù)挖掘分析技術(shù)和開放互聯(lián)技術(shù)的相關(guān)工作。
我們都知道數(shù)據(jù)已成為一種新的生產(chǎn)要素。醫(yī)療健康關(guān)乎民生福祉。習總書記指出,要加快“互聯(lián)網(wǎng)+醫(yī)療健康”發(fā)展。醫(yī)療數(shù)據(jù)的價值發(fā)現(xiàn)及其在藥物研發(fā)、輔助診斷等方面都起到了非常重要的作用。數(shù)字醫(yī)療為實現(xiàn)優(yōu)質(zhì)醫(yī)療資源共享、解決醫(yī)療資源分配不均和就醫(yī)成本高等問題提供了可行的方案。
醫(yī)療數(shù)據(jù)類型多樣,常見的有患者的就醫(yī)記錄(包括患者的基本信息、就醫(yī)診斷、用藥等信息),也有以非結(jié)構(gòu)化文本形式存在的電子病歷及其診斷報告,還有醫(yī)學影像、醫(yī)療試紙以及文獻等各類數(shù)據(jù)。我們對這些數(shù)據(jù)進行分析,從中挖掘其價值,要針對這些不同數(shù)據(jù)的特點,從不同角度來看醫(yī)療數(shù)據(jù)并研究其相應算法。我們有單一來源的數(shù)據(jù)處理方式,多來源數(shù)據(jù)的處理方式,也有結(jié)構(gòu)化、非結(jié)構(gòu)化和多模態(tài)、多源異質(zhì)數(shù)據(jù)的處理方式。
大數(shù)據(jù)的內(nèi)涵包括了用數(shù)據(jù)解決問題和解決數(shù)據(jù)的問題。
前面我們分析了醫(yī)療大數(shù)據(jù)可以用到的各種數(shù)據(jù)類型,下面我們來看一下醫(yī)療大數(shù)據(jù)的問題和挑戰(zhàn)。
醫(yī)療大數(shù)據(jù)包括了數(shù)據(jù)類型繁雜、數(shù)據(jù)質(zhì)量較差、數(shù)據(jù)孤島眾多、數(shù)據(jù)安全薄弱和數(shù)據(jù)應用尚淺等問題。這些問題在其它領(lǐng)域里面也有共性。這也是我們之所以能夠?qū)F(xiàn)有的一些數(shù)據(jù)挖掘機器學習(例如自然語言處理、圖像視覺處理等方法)引入的一個基礎(chǔ)。但醫(yī)療領(lǐng)域?qū)?shù)據(jù)質(zhì)量和分析結(jié)果的有效性的要求更高,因此,我們需要對這些共性技術(shù)加以改進。
對于類型繁雜的數(shù)據(jù),我們需要采用多模態(tài)的數(shù)據(jù)融合技術(shù),例如我們要將醫(yī)療影像和醫(yī)療報告文本的數(shù)據(jù)不同模態(tài)下進行對齊。對于數(shù)據(jù)質(zhì)量差的,我們需要有專門的醫(yī)療數(shù)據(jù)規(guī)范化的技術(shù),例如利用電子病歷文本與ICD編碼對齊這樣的規(guī)范化的技術(shù)。醫(yī)療數(shù)據(jù)的高敏感、高隱私的要求和我們在做醫(yī)療智能分析時對數(shù)據(jù)全面特征的需求,兩者之間存在著矛盾,這就需要我們要有更為有效的共享互聯(lián)機制和技術(shù)支撐。
為此,我們針對上述研究開展了工作,研制了一系列的醫(yī)療數(shù)據(jù)智能分析和開放互聯(lián)技術(shù)。
下面我們就其中的大數(shù)據(jù)挖掘分析技術(shù)和開放互聯(lián)技術(shù)展開重點介紹。
在分析挖掘方面,我們的研究工作是由淺入深發(fā)展的。首先我們在醫(yī)療大數(shù)據(jù)挖掘方面,包括了從單一來源的就醫(yī)數(shù)據(jù)的簡單挖掘到基于深度學習的特征表示,從結(jié)構(gòu)化到非結(jié)構(gòu)化和跨模態(tài)數(shù)據(jù)的深度學習方法在醫(yī)療影像和文本方面的分析,以及多源多模態(tài)的組學數(shù)據(jù)分析。
下面我們將進行展開介紹。
我們可以從一些患者的就醫(yī)記錄中看到患者的基本信息和用藥記錄等信息。我們可以使用最基礎(chǔ)的訓練模式,挖掘頻繁模式挖掘算法,來得到患者的用藥模式。例如上圖中的三個患者,他們都有使用前面三種藥物。可以看到三種藥物之間存在著一定的用藥關(guān)聯(lián)。這種直觀的方式可以帶來一定的輔助診斷作用,但醫(yī)療實際場景下不同的用藥順序也反映了患者的疾病狀態(tài)。比如先用某一種藥和后用某一種藥,治療疾病的原理可能是不一樣的。另外,用藥的劑量也反映了該病人癥狀的治療方案。
因此我們使用不同的方法,包括考慮統(tǒng)計頻次的方式、考慮順序的方式和考慮劑量的方式,得到的用藥模式也是不一樣的。
可以對于某一種用藥以及其他相關(guān)用藥進行展現(xiàn)?;颊叩挠盟幪攸c反映了患者本身的特征,有助于對患者個性化的精準治療。例如有相似用藥模式的患者,他們更為相似,可以作為診斷的參考。但我們也發(fā)現(xiàn)這種簡單的(參考)對反映用戶特征方面仍然是有限和不足的。
隨著深度學習技術(shù)的引入,可以利用患者更多的數(shù)據(jù)進行刻畫,捕獲更多的信息。比如剛剛只考慮了藥物的順序,但是藥物用藥之間的時間間隔以及前一狀態(tài)對后一狀態(tài)的影響等信息并沒有考慮到。
為了能夠更好地刻畫這些多元復雜的因素,我們將患者行為進行一個圖的建模,構(gòu)建成一個二部圖。這個節(jié)點分別是患者和用藥。邊上記錄了豐富的交互行為,即在什么條件下、什么時間使用了某一種藥物或藥物的劑量以及藥物的具體情況等等?,F(xiàn)在我們的問題就轉(zhuǎn)化為,得到圖中的每一個患者節(jié)點的特征向量來刻畫用戶的特征,用于下游任務(wù)。比如對用戶的相似性識別或者對用戶分類,對于每一個節(jié)點都可以用深度學習模型得到一個特征向量。如果兩個患者的特征向量相似,那認為這兩個患者是足夠相似的。
之所以采用圖的建模,是因為首先能夠更好的捕獲時序依賴性,即建模了多個時間間的依賴關(guān)系。比如對于一個用戶來說,他在每個不同的時間段、不同的時間點使用了藥物。那可以知道他服用A藥物以后可能還會服用B藥物。因此深度學習的建模主要是能夠最大化的用藥共現(xiàn)概率,當用戶來使用A這個藥物時他會使用的下一個藥物是什么的。
并且還能建模單個事件在不同條件下發(fā)生的概率及條件鄰近性,例如患者在什么時候來使用這個藥物。即我們的模型要能夠最大化患者和用藥,在某一個條件下面最大的概率。
我們再來看一下非結(jié)構(gòu)化和跨模態(tài)數(shù)據(jù)方面的相關(guān)技術(shù)進展。
傳統(tǒng)的基礎(chǔ)文本分析方法可以用在醫(yī)療文本上。例如對于電子病歷,進行特征抽取,然后得到它具有較多共性的文檔,形成共性文模板。這種方法可以采用比較簡單的SimHash來提取文本的特征。但可以看到這對于醫(yī)療本身的語義特征的提取是非常有限的。
因此,如果能夠利用醫(yī)療領(lǐng)域中的結(jié)構(gòu)化信息對文本進行規(guī)范化,那么可以更好的理解醫(yī)療文本。
以ICD編碼為例,即這個醫(yī)療文本主要是以文本的非結(jié)構(gòu)化的信息展示。但是每一個文本都會標注一定的ICD編碼。因此可以實現(xiàn)給一個醫(yī)療文本,能夠得到它對應的ICD編碼。這其實是一個多標簽的分類問題。我們采用的方式是對文本中的詞進行嵌入表示學習。
然后引入圖深度學習的方法。對于需要建模的ICD編碼的層次關(guān)系進行圖的表示。我們利用圖卷積的方式得到每一個圖的節(jié)點特征表示。在這種方式的支撐下,能夠比原有的淺層模型或者沒有加入圖的模型得到有效提升。但在這個過程當中,對于文本的這個特征仍然是用通用領(lǐng)域的一個卷積模型來實現(xiàn)的。這里面也可以采用像BERT這樣的預訓練模型。
由于通用領(lǐng)域包含的醫(yī)療生物信息知識比較少,因此在通用領(lǐng)域上的預訓練模型,比如BERT或者GPT,可能它不能夠更好的學習到生物醫(yī)學領(lǐng)域的知識,因而出現(xiàn)了一些專門利用生物醫(yī)學語料庫進行訓練得到生物醫(yī)療領(lǐng)域?qū)iT的預訓練模型。
我們所做的工作是在現(xiàn)有基礎(chǔ)上,對醫(yī)學文本預訓練模型考慮到中文情景當中中文漢字各個部件之間的語義關(guān)系,再進行提取。比如每一個漢字,特別是對于疾病里面的一些漢字,它的部件其實體現(xiàn)了一定的語義特征。我們將每一個漢字拆成更小的圖的形式,然后利用圖的深度學習模型來得到各個部件的語義特征,再和通用領(lǐng)域的BERT進行結(jié)合,最終得到一個更好的反映醫(yī)學文本特征的領(lǐng)域的預訓練模型。
除了單一模態(tài)數(shù)據(jù)分析外,多模態(tài)的數(shù)據(jù)融合分析也可以做到更多的價值挖掘工作。例如除了傳統(tǒng)影像中進行疾病檢測之外,其實醫(yī)學報告的生成也成為了當前的熱點,即如何能夠更好地利用文本數(shù)據(jù),這個思想其實是來源于圖像視覺領(lǐng)域里面通用領(lǐng)域的思想。它對于一個圖片來說,不僅可以得到里面有哪些具體的物件,還能夠生成一段相應的文本,即看圖說話。
在醫(yī)療影像領(lǐng)域里面存在哪些更多的挑戰(zhàn)呢?首先在醫(yī)療文本領(lǐng)域,文本報告描述的長度相對而言總是比較長的。對于一段比較長的文字,就會有一個常依賴的問題。另外要得到的異常區(qū)域比較小,挖掘、描述異常是一個挑戰(zhàn)。
因此我們將主題的注意力機制,還有門控單元等技術(shù)、深度學習的技術(shù)應用到醫(yī)療影像文本報告的生成。我們的模型得到了更好的表述異常的描述句子。
我們也發(fā)現(xiàn)了另一個問題,即所能夠獲得的有些疾病的樣本量可能是比較少的。因此提出了一個Few-shot GAN的方法,讓我們能夠生成更多的少見疾病的樣本,并且還利用了疾病圖卷積來建模疾病之間的內(nèi)在關(guān)聯(lián)性。即對于疾病的標簽之間的關(guān)聯(lián)性也進行了建模。這樣對于一些少的疾病和其他相對更多的疾病之間的關(guān)聯(lián),可以有助于增強我們對疾病、少見疾病的語義的表示,進一步提高文本生成的有效性。
對于更多源復雜的數(shù)據(jù)而言,異質(zhì)網(wǎng)絡(luò)技術(shù)的發(fā)展對于組學數(shù)據(jù)利用起到了非常積極有效的作用。例如,可以構(gòu)成一個上圖這樣的網(wǎng)絡(luò),在這個網(wǎng)絡(luò)里面既有基因這種數(shù)據(jù)類型,又有疾病這種數(shù)據(jù)類型,甚至還有它對應的藥物化合物以及這個化合物可能產(chǎn)生的副作用等信息。節(jié)點和節(jié)點之間,互相又有不同類型的關(guān)系。
通過這樣的方式,如果要研究兩個基因之間的相關(guān)性,不僅可以知道基因和基因之間是因為疾病相似,還是因為他們都是同一個疾病的靶向基因,亦或者是因為他們可能對于某一個藥物的治療都有非常重要的作用??梢圆捎卯愘|(zhì)網(wǎng)絡(luò)里面的語義路徑的方式。比如從上圖可以看到,對于兩個圓形的節(jié)點(基因節(jié)點),它可以是經(jīng)過了如三角形(疾?。┻@樣的一個語義路徑,也可以是經(jīng)過了方形(化合物)這樣的一個語義路徑。在這種情況下,可以得到更多的語義關(guān)系。
我們把這個問題簡化一下。例如要去識別和一些miRNA相似的miRNA,可以通過這樣的一個異質(zhì)圖譜,然后來考慮它不同的原路徑。比如這兩個miRNA之間是通過基因相似,還是通過疾病相似。
基于上述工作,可以進一步融合多源和多模態(tài)的數(shù)據(jù)來研究基于知識圖譜的醫(yī)學影像報告生成的任務(wù)。
前面提到醫(yī)學影像和報告生成時,我們利用了醫(yī)學影像的圖像以及醫(yī)療文本。我們知道醫(yī)療文本或影像的一些標簽和醫(yī)療領(lǐng)域的知識圖譜之間也有相對應的關(guān)系,所以也可以把醫(yī)療知識圖譜引入進來進行學習,可以得到更好的醫(yī)療影像文本報告。
但這里面還有一個挑戰(zhàn),也是我們正在研究的問題,即可能會有不同領(lǐng)域的知識圖譜。在醫(yī)學領(lǐng)域里面可能有來自于不同機構(gòu)的多種知識圖譜,需要對醫(yī)學知識圖譜進行對齊,這也是一個醫(yī)療領(lǐng)域知識規(guī)范化、質(zhì)量處理的問題。
從上面的研究內(nèi)容可以看出,多種類型的醫(yī)療大數(shù)據(jù)目前已經(jīng)有了相應的方法、應用和優(yōu)化,并且已經(jīng)顯現(xiàn)出非常好的成效,但是醫(yī)療數(shù)據(jù)的來源本身也要考慮到安全性問題。
醫(yī)療數(shù)據(jù)的共享互聯(lián)是一個開放的難題,我們就這方面的技術(shù)也開展了一些探索。以下是我們要探索的第三部分,開放互聯(lián)。
因為開放技術(shù)的發(fā)展,使得瑣碎的數(shù)據(jù)獲取流程變得更加方便簡單。我們原來要獲得相應的醫(yī)療數(shù)據(jù)需要經(jīng)過非常復雜的申請流程才能使用數(shù)據(jù),并且在使用過程當中,大部分情況下對醫(yī)療數(shù)據(jù)的訪問可能也是非常有限的。我們提出了一種數(shù)據(jù)自治的開放模式。這種模式是我們將數(shù)據(jù)封裝在數(shù)據(jù)盒中,然后用戶通過以數(shù)據(jù)盒為訪問單位的形式來訪問數(shù)據(jù)。數(shù)據(jù)擁有者有一個更自主制定哪些數(shù)據(jù)可被訪問的方式。
此外,為了能對數(shù)據(jù)訪問方式進行約束,我們在數(shù)據(jù)盒里面也提供了一個數(shù)據(jù)使用行為的檢測功能。于是,對這些數(shù)據(jù)的使用者而言,可能他所需要的操作只是利用數(shù)據(jù)的一些統(tǒng)計信息,而不能夠讀取每條數(shù)據(jù)。在行為監(jiān)測方面,我們就會加以限定。這種方式激發(fā)了數(shù)據(jù)擁有者更好、更方便地開放數(shù)據(jù)。對用戶而言,以數(shù)據(jù)盒的方式進行使用也是非常方便的。從而,我們能夠在數(shù)據(jù)開放的基礎(chǔ)上保護數(shù)據(jù)的權(quán)益。并且在這里面我們還使用了區(qū)塊鏈的方式對每一個使用過數(shù)據(jù)的用戶行為加以記錄,可以用于我們的追蹤。
同時我們也會考慮,對于數(shù)據(jù)擁有者來說,提供數(shù)據(jù)的便利,即提供數(shù)據(jù)互聯(lián)的接口。例如多個數(shù)據(jù)擁有方有多個系統(tǒng),可以利用軟件接口化技術(shù)實現(xiàn)數(shù)據(jù)的鏈接,即給出配置要求,從相應的系統(tǒng)里面連接接口,將數(shù)據(jù)與平臺進行一個銜接。
在這個過程當中,數(shù)據(jù)使用者會受到數(shù)據(jù)互聯(lián)平臺的管控。比如說哪些使用行為是允許的、哪些使用行為是不允許的,我們會對這些日志進行記錄。另外如果要使用這些數(shù)據(jù)進行智能分析時,會為這些數(shù)據(jù)分配相應的容器,即它能夠使用哪些算力,然后它就可以對這些數(shù)據(jù)進行算法訓練。
我們有機結(jié)合了數(shù)據(jù)、算力和方法三方面的優(yōu)勢。這樣可以讓數(shù)據(jù)擁有者的提供方更好地把他的數(shù)據(jù)貢獻共享出來。數(shù)據(jù)管控方主要是保護數(shù)據(jù)的安全性;人工智能算法的研究機構(gòu)或企業(yè)更關(guān)注于其研發(fā)的方法如何來進行分析和研究。所以通過上述方式,能夠高效地按需提供實時的、高質(zhì)的、互通的數(shù)據(jù)。目前已經(jīng)形成了醫(yī)療大數(shù)據(jù)的互聯(lián)互通系列技術(shù),構(gòu)建了醫(yī)療人工智能算法的訓練實驗場。
最后是總結(jié)。我們看到了淺層的醫(yī)療數(shù)據(jù)資源的利用已經(jīng)產(chǎn)生了巨大價值,還有更多更新的技術(shù)可以進一步推動醫(yī)療大數(shù)據(jù)的利用和發(fā)展。因此還需要探索更深層次的一些數(shù)據(jù)資源的利用開發(fā)方法。當前,元宇宙技術(shù)在醫(yī)療行業(yè)的探索也得到了非常大的關(guān)注,這對醫(yī)療數(shù)據(jù)的分析和利用也提出了一些新挑戰(zhàn)。
希望能夠通過對醫(yī)療大數(shù)據(jù)更深入的分析和對互聯(lián)技術(shù)更深的探索,更好地支持醫(yī)療健康數(shù)字化行業(yè)的發(fā)展,賦能未來的醫(yī)療,轉(zhuǎn)變醫(yī)療服務(wù)模式,助推全面的健康,筑牢健康的基石。以上是我的分享,謝謝大家。
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。