0
本文作者: 劉偉 | 2018-05-09 13:12 | 專題:Google I/O 2018 |
雷鋒網(wǎng)按:本文譯自Google Blog,作者為Google AI產(chǎn)品經(jīng)理Eyal Oren博士和研究科學(xué)家Alvin Rajkomar博士。
患者入院后,對接下來的事情總是充滿擔(dān)憂。他們會在心里不斷問自己,我什么時(shí)候可以回家?我會好起來嗎?我還要再回醫(yī)院嗎?準(zhǔn)確回答這些問題有助于醫(yī)生和護(hù)士更加周到、安全和高效地護(hù)理患者——一旦患者的健康狀況惡化,醫(yī)生和護(hù)士可以搶先主動(dòng)采取措施。
如今利用機(jī)器學(xué)習(xí)預(yù)測事態(tài)發(fā)展已經(jīng)非常普遍。我們可以用它預(yù)測通勤途中的交通狀況,以及將英文翻譯成西班牙語時(shí)需要用到的詞匯。那么,我們是否可以用相同類型的機(jī)器學(xué)習(xí)進(jìn)行臨床預(yù)測呢?我們認(rèn)為,要做到實(shí)用,預(yù)測模型必須具備以下兩點(diǎn)特征:
可擴(kuò)展:該預(yù)測模型要能進(jìn)行多項(xiàng)預(yù)測,得出所有我們想要的信息,并且適用于不同醫(yī)院的系統(tǒng)。鑒于醫(yī)療保健數(shù)據(jù)十分復(fù)雜,需要進(jìn)行大量數(shù)據(jù)處理,這一要求并不容易滿足。
精度高:預(yù)測結(jié)果需能幫助醫(yī)生關(guān)注真正的問題所在,而不是用誤報(bào)警分散醫(yī)生的注意力。隨著電子病歷逐漸普及,我們正嘗試用其中的數(shù)據(jù)建立更加精準(zhǔn)的預(yù)測模型。
我們聯(lián)合加州大學(xué)舊金山分校、斯坦福大學(xué)醫(yī)學(xué)院和芝加哥大學(xué)醫(yī)學(xué)院的同事,在《自然》雜志的兄弟期刊——《數(shù)字醫(yī)學(xué)》上發(fā)表了題為《可擴(kuò)展且精準(zhǔn)的深度學(xué)習(xí)與電子健康記錄》的論文。這篇論文對實(shí)現(xiàn)前文所述的兩個(gè)目標(biāo)有所幫助。
基于脫敏的電子病歷數(shù)據(jù),我們用深度學(xué)習(xí)模型對住院患者進(jìn)行了廣泛預(yù)測。值得一提的是,該模型可以直接使用原始數(shù)據(jù),無需人工對相關(guān)變量進(jìn)行提取、清洗、整理、轉(zhuǎn)換等一系列費(fèi)時(shí)費(fèi)力的操作。合作伙伴在將電子病歷數(shù)據(jù)交給我們之前,先對其進(jìn)行了脫敏處理。我們也采用了最先進(jìn)的措施保障數(shù)據(jù)安全,包括邏輯分隔、嚴(yán)格的訪問控制,以及靜態(tài)和傳輸中的數(shù)據(jù)加密。
電子病歷非常復(fù)雜。以體溫為例,因測量位置不同(舌頭下方、耳膜或額頭),其往往具有不同含義。而體溫不過是電子病歷眾多參數(shù)中最簡單的之一。此外,各個(gè)衛(wèi)生系統(tǒng)都有一套自己定制的電子病例系統(tǒng),導(dǎo)致各個(gè)醫(yī)院的采集的數(shù)據(jù)大不相同。用機(jī)器學(xué)習(xí)處理這些數(shù)據(jù)之前,需要先將其統(tǒng)一格式?;陂_放的FHIR標(biāo)準(zhǔn),我們構(gòu)建了一套標(biāo)準(zhǔn)格式。
格式統(tǒng)一后,我們就不需要手動(dòng)選擇或調(diào)整相關(guān)變量了。進(jìn)行各項(xiàng)預(yù)測時(shí),深度學(xué)習(xí)模型會自動(dòng)掃描過去到現(xiàn)在的所有數(shù)據(jù)點(diǎn),并分析其中哪些數(shù)據(jù)對預(yù)測是有價(jià)值的。由于這一過程涉及數(shù)千個(gè)數(shù)據(jù)點(diǎn),我們不得不開發(fā)了一些基于遞歸神經(jīng)網(wǎng)絡(luò)(RNN)和前饋網(wǎng)絡(luò)的新型深度學(xué)習(xí)建模方法。
*我們用時(shí)間線來展示患者電子病歷中的數(shù)據(jù)。為方便說明,我們按行顯示各種類型的臨床數(shù)據(jù),其中每個(gè)數(shù)據(jù)片段都用灰點(diǎn)表示,它們被存儲在FHIR中。FHIR是一種可供任何醫(yī)療機(jī)構(gòu)使用的開放式數(shù)據(jù)標(biāo)準(zhǔn)。深度學(xué)習(xí)模型通過從左往右掃描時(shí)間表,分析患者從圖標(biāo)開頭到現(xiàn)在的住院信息,并據(jù)此進(jìn)行不同類型的預(yù)測。
就這樣我們設(shè)計(jì)了一個(gè)計(jì)算機(jī)系統(tǒng),以可擴(kuò)展的方式進(jìn)行預(yù)測,而無需為每項(xiàng)預(yù)測任務(wù)手動(dòng)制作新的數(shù)據(jù)集。設(shè)置數(shù)據(jù)只是全部工作中的一部分,保證預(yù)測的準(zhǔn)確性也十分重要。
評估準(zhǔn)確性的最常見方法是受試者工作曲線下面積,它可以有效評估模型區(qū)分特定未來結(jié)果患者和非特定未來結(jié)果患者的效果。 在這個(gè)度量標(biāo)準(zhǔn)中,1.00代表完美,0.50代表不比隨機(jī)結(jié)果更準(zhǔn)確,也就是說得分越高代表模型越準(zhǔn)確。通過測試,我們的模型在預(yù)測患者是否會在醫(yī)院停留很久時(shí),得分為0.86(傳統(tǒng)邏輯回歸模型的評分為0.76);預(yù)測住院病死率時(shí)的得分為0.95(傳統(tǒng)模型的得分為0.86);預(yù)測出院后意外再住院率時(shí)得分為0.77(傳統(tǒng)模型得分為0.70)。從得分上看,新方法的準(zhǔn)確率提升非常顯著。
我們還用這些模型來確定患者接受的治療,比如醫(yī)生為發(fā)燒、咳嗽的患者開具頭孢曲松和強(qiáng)力霉素,該模型就會判定患者正在接受肺炎治療。必須強(qiáng)調(diào),該模型并不會給患者做診斷,它只是收集患者的相關(guān)信號,以及臨床醫(yī)生編寫的治療方案和筆記。因此,它更像是一位優(yōu)秀的聽眾而不是主診醫(yī)生。
深度學(xué)習(xí)模型的可解釋性是我們工作重點(diǎn)之一。每項(xiàng)預(yù)測的“注意圖”會展示模型在進(jìn)行該項(xiàng)預(yù)測時(shí)認(rèn)為重要的那些數(shù)據(jù)點(diǎn)。我將展示一個(gè)例子作為概念驗(yàn)證,并將其視為讓預(yù)測對臨床醫(yī)生產(chǎn)生價(jià)值的重要部分。
*患者入院24小時(shí)后,我們使用深度學(xué)習(xí)進(jìn)行預(yù)測。上圖頂部的時(shí)間表包含了患者幾個(gè)月時(shí)間的歷史數(shù)據(jù),我們將最近的數(shù)據(jù)做了放大顯示。模型用紅色標(biāo)識了患者信息圖表中用于“解釋”其預(yù)測的信息。在這個(gè)研究案例中,模型標(biāo)注了臨床上有意義的信息片段。
這項(xiàng)研究成果還處于早期階段,而且是基于回顧性數(shù)據(jù)得出的。事實(shí)上,證明機(jī)器學(xué)習(xí)可用于改善醫(yī)療保健這一假設(shè)還有做很多工作要做,本文不過是個(gè)開始。醫(yī)生們正窮于應(yīng)付各種警報(bào)和需求,機(jī)器學(xué)習(xí)模型是否能幫助處理繁瑣的管理任務(wù),讓他們更專注于護(hù)理有需要的患者?我們是否可以幫助患者獲得高質(zhì)量的護(hù)理,無論他們在哪里尋求治療?我們期待著與醫(yī)生和患者合作,找出這些問題的答案。雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。