丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
醫(yī)療科技 正文
發(fā)私信給張馳
發(fā)送

0

關于醫(yī)療大腦、知識圖譜與智能診斷,這是最全的解讀 | 雷鋒網(wǎng)公開課

本文作者: 張馳 2016-12-30 14:31 專題:雷峰網(wǎng)公開課
導語:雷鋒網(wǎng)按:本文整理自康夫子創(chuàng)始人張超在雷鋒網(wǎng)硬創(chuàng)公開課上的演講,主題為“智能診斷與醫(yī)療大腦”。

關于醫(yī)療大腦、知識圖譜與智能診斷,這是最全的解讀 | 雷鋒網(wǎng)公開課

雷鋒網(wǎng)按:本文整理自康夫子創(chuàng)始人張超在雷鋒網(wǎng)硬創(chuàng)公開課上的演講,主題為“智能診斷與醫(yī)療大腦”。

張超:康夫子創(chuàng)始人,前百度自然語言處理部資深研發(fā)工程師、文本知識挖掘方向負責人;知識圖譜、實體建模方面專家;畢業(yè)于電子科技大學計算數(shù)學專業(yè)、新加坡國大多媒體搜索實驗室研究助理。

以下為公開課內容:

雷鋒網(wǎng):簡單介紹一下康夫子所做的事。

張超:讓計算機去閱讀醫(yī)療文獻,構建知識庫,賦予這些知識庫一些推理能力,最后達到輔助醫(yī)生、患者的目的。

在產品維度,分為面向患者和醫(yī)生;醫(yī)生端分為全科與??漆t(yī)生。它們的底層是相似的,都是知識圖譜加推理,不過上層應用有差別。患者偏重邏輯問答,包括患者語言的理解;全科醫(yī)生要求知識面,而??苿t要求臨床路徑監(jiān)控,包括醫(yī)囑的下達。

現(xiàn)在我們的產品主要用在醫(yī)療機構這樣的B端,主要提供醫(yī)學輔助,不做診斷,結論由醫(yī)生把關,供患者參考。

雷鋒網(wǎng):醫(yī)療大腦包括什么,可以具體解釋下嗎?

張超:醫(yī)療大腦是個比較籠統(tǒng)的稱呼,簡單來說是一種知識庫,加上基于此的邏輯推理和計算。它可以泛指醫(yī)療從業(yè)人員的智慧總和。具體點說,它具備診斷、治療的能力,可以獨立提供用藥輔助、分診導診、健康咨詢等服務,也可以高質量的輔助醫(yī)療從業(yè)人員完成某項工作。

對我們的醫(yī)療大腦來講,患者醫(yī)療健康行為需要的能力、所有醫(yī)生行醫(yī)過程中的知識輔助能力我們都會著力去構建打造。

雷鋒網(wǎng):相比百度的醫(yī)療大腦和IBM Watson,康夫子的特別和區(qū)別是什么?

IBM Watson目前重點在腫瘤領域針對醫(yī)生提供輔助決策功能。區(qū)別是,我們:

1. 現(xiàn)階段重點是針對常見的3000種病進行建模;

2. 在服務對象方面,除了輔助醫(yī)生,患者輔助教育也是我們重要的服務對象;

3. 在醫(yī)生層面,我們的醫(yī)療大腦又分為基層全科醫(yī)生和大醫(yī)院??漆t(yī)生。

我們和Watson的場景和方法不太一樣,它大的框架是問答、搜索的框架,同時融入了多種Feature( 如 知識圖譜)。我們整個醫(yī)療決策系統(tǒng)是基于知識圖譜做推理。技術上講,對腫瘤這樣的疑難雜癥,Watson診斷用的維度非常高,但常見病的維度沒那么高。這兩個方面帶來的挑戰(zhàn)不一樣,我們是從常見病入手,把服務的范圍也會擴大。

我們的醫(yī)療大腦和百度醫(yī)療大腦在某些方面有著相同之處,都致力于輔助網(wǎng)民提供醫(yī)療信息服務。差別是:

1. 在數(shù)據(jù)維度,百度醫(yī)療大腦數(shù)據(jù)來自百度醫(yī)生APP上醫(yī)患之間交流數(shù)據(jù);我們的醫(yī)療大腦定位在醫(yī)療級產品,知識圖譜構建數(shù)據(jù)來自權威的醫(yī)療文獻和電子病歷數(shù)據(jù)。

2. 在做事的路徑上,也存在著很多不同,我們作為一家初創(chuàng)型公司,會選擇更適合其發(fā)展的路徑。

雷鋒網(wǎng):目前國內做智能診斷的現(xiàn)狀是怎么樣的?

從時間上分,有傳統(tǒng)派和新興派。傳統(tǒng)派是指類似決策樹專家系統(tǒng),知識庫依靠專家構建,診斷邏輯也基于專家書寫的roadmap等等。新興派是指利用AI技術,利用計算機從海量文獻數(shù)據(jù)中構建知識圖譜,并根據(jù)歷史經驗自動學習診斷邏輯。

從類型上分,有基于文本從癥狀、化驗入手做智能診斷的,也有基于圖像從CT圖片入手做智能診斷的。

傳統(tǒng)派的診斷系統(tǒng),受限于知識庫的規(guī)模和復雜的醫(yī)學邏輯表示,疾病的覆蓋率和診斷的準確率都不夠高。新興派在這塊整體上要好于傳統(tǒng)派,但由于研發(fā)時間短,目前仍無法達到可用狀態(tài)。

整體上智能診斷還處于初期,目前沒有可以實現(xiàn)大規(guī)模商用。

雷鋒網(wǎng):智能診斷最重要的技術挑戰(zhàn)又是哪些?非技術上的挑戰(zhàn)呢?

技術上,我們現(xiàn)階段認為智能診斷的底層核心是知識圖譜,診斷的過程是基于知識圖譜實現(xiàn)的推理過程。知識圖譜的規(guī)模從根本上決定了智能診斷的瓶頸。另外就是應用上的挑戰(zhàn),智能診斷不管服務誰,在應用場景上有很大的差別,要有針對性地提升效果。

在非技術上,重點要讓老百姓及醫(yī)療機構認可或理解這套診斷邏輯。

雷鋒網(wǎng):做好智能診斷的標準主要是哪些?應該包括哪些主要內容?

籠統(tǒng)地說,好的標準要靠效果說話,也就是說:

診斷的準確率要高;

整體過程可解釋、可干預,可以讓醫(yī)生等專業(yè)人士隨時干預;

可以輸入多種類型數(shù)據(jù)(除了癥狀,還有用藥史、化驗檢查、誘因、遺傳史、個人史等等);

另外不同服務對象的診斷系統(tǒng)標準也是不一樣的,比如,如果智能診斷是用來服務醫(yī)生,除了核心診斷能力,還需能結合醫(yī)生所在醫(yī)院科室的醫(yī)療習慣。

如果智能診斷用來服務患者:

1. 需要做患者語言理解,因為患者描述的語言和醫(yī)學語言有著較大的差異;

2. 要像醫(yī)生那樣思考,同患者交互,獲取對診斷有益的數(shù)據(jù)。

雷鋒網(wǎng):對你們來說,做智能診斷,數(shù)據(jù)來源和獲取方式有哪些?

對康夫子來講,數(shù)據(jù)主要來自如下三大方面:

權威的醫(yī)學文獻,如:醫(yī)學數(shù)據(jù)、診療指南、以及相關論文; 

病歷數(shù)據(jù);

互聯(lián)網(wǎng)獲取科普資訊、醫(yī)患問答數(shù)據(jù)等。

前兩部分數(shù)據(jù)用來構建知識圖譜,訓練診斷邏輯?;ヂ?lián)網(wǎng)數(shù)據(jù)主要用來做患者語言理解,患者可能會有一些不標準的描述,比如“感覺身體被掏空”,這些詞在醫(yī)學上沒有對應的匹配,需要計算去理解。

雷鋒網(wǎng):有的醫(yī)學文獻,經驗證是與事實存在偏倚的,有的甚至是錯誤的,這個問題怎么看?

錯誤是肯定有的,但我們在整個過程中要想辦法降低并消除這種錯誤。大概有如下思路:

1. 相信更新知識,相信更權威的知識;

2. 因為知識是通過知識圖譜表現(xiàn)出來的,所以,可以針對知識圖譜進行一些推理計算,及早發(fā)現(xiàn)某些矛盾,進而安排人工審核校對;

3. 在整個計算過程中,也可以加入大量的容錯機制。相信知識的統(tǒng)計分布,假設學習樣本中,錯誤的知識畢竟是少數(shù),通過一些排序策略進而降低錯誤知識展現(xiàn)的機會。 

雷鋒網(wǎng):數(shù)據(jù)訓練上,是否與影像診斷一樣,存在優(yōu)質數(shù)據(jù)獲取和數(shù)據(jù)標注上的障礙?

醫(yī)學AI相對于其它領域來講有著天然的數(shù)據(jù)優(yōu)勢。大量的病例數(shù)據(jù)/影像數(shù)據(jù)就是很好的訓練數(shù)據(jù)。

這里面的難點在于數(shù)據(jù)的獲取、預處理、結構化和建模。另外,目前能看到的病歷數(shù)據(jù)很復雜,多數(shù)做AI診斷的,很少有團隊用門診病歷,多數(shù)用的都是住院病歷,而住院病歷是很復雜的,如果服務于C端用戶,這類數(shù)據(jù)就不太合適了。

個人認為,智能醫(yī)生或者影像解讀,現(xiàn)階段都有著充足的數(shù)據(jù)供訓練。比如,在病例或者文獻上,醫(yī)生在無結構化文本種已經變相做了標注,如:“大葉性肺炎通常表現(xiàn)為咳鐵銹色痰”,一個醫(yī)學影像也有專家解讀成文本信息供使用。數(shù)據(jù)維度難在從這些大量的數(shù)據(jù)中提取出優(yōu)質數(shù)據(jù)。

雷鋒網(wǎng):如果說醫(yī)學上只要有充分的多維度知識,就能在輔助決策上做一些事,那之前智能診斷不算流行的原因是哪些?是否是有哪些技術上的進步?

我認為主要在于2個層面:

內因上,效果離輔助人還差強人意,專家系統(tǒng)很少能實際應用起來;

外因上,當前的大環(huán)境讓AI聚焦了很多目光,進而加速相關產品的研發(fā)。

在技術上,悲觀來看近幾年沒有多少進步。只是前些年,人工智能和自然語言處理多在大公司和研究院使用,而現(xiàn)在有很多優(yōu)秀人才流入到創(chuàng)業(yè)公司。

雷鋒網(wǎng):目前較為火熱的深度學習,用處不算太大?

深度學習目前在NLP領域取得的成績,比不上在多媒體領域取得的成績。康夫子目前主要基于深度學習做一些患者語言理解方面的工作,不排除未來會拓展到更多的場景中去。

至于將深度學習用于Clinical Decision Support這樣的專業(yè)領域,我覺得現(xiàn)階段不太合適。首先深度學習是個黑盒,讓人感覺不可信,這是心理上的問題。在應用方法上也有很大難度,比如訓練數(shù)據(jù)并非完全準確,包括格式都有誤差。我認為短期內這是一個不斷研究的方向,但不能立馬產生效果。

雷鋒網(wǎng):對于醫(yī)療信息知識圖譜,可以具體解釋下嗎,具體指什么以及作用如何?

通俗地講,知識圖譜就是結構化知識,它由實體及實體關系組成。

比如在醫(yī)療領域,實體維度包括疾病、癥狀、檢查、檢驗、體征、藥品等等醫(yī)學名詞,甚至醫(yī)生、科室、醫(yī)院也可以納入范疇。關系是指實體間的關系,比如,針對疾病和癥狀,關系可有“包含關系”,“不包含關系”,甚至“金標準關系”(比如,所有炎癥都會帶來發(fā)熱,這就是金標準)。疾病和醫(yī)生可以定義“醫(yī)生擅長治療疾病”,醫(yī)生和醫(yī)院可以定義“歸屬于關系”等等。這些都是知識圖譜的構成。

我們在應用時,需要基于這些關系做推理,進而滿足上層應用,同時上層應用的需求也會指導知識圖譜的建設方向。比如,我們想幫助患者推薦醫(yī)生,那么推理路徑大概分為:根據(jù)“癥狀與疾病”的關系推測患者可能疾病,根據(jù)疾病和醫(yī)生的關系,為患者推薦醫(yī)生。

雷鋒網(wǎng):公司構建的知識圖譜與醫(yī)生的知識結構之間差異大嗎?

首先知識圖譜的知識結構是專業(yè)人(醫(yī)生)定義出來的。醫(yī)生覺得,在診療過程中,我需要用到什么知識,那么就讓計算機去學習并構造這些知識。

醫(yī)生的知識結構可以舉一反三、演繹歸納,但現(xiàn)有的知識圖譜只能機械的做一些事,并且在短時間內該部分技術很難取得較大突破。那么在這種場景下,知識圖譜的積累和構建速度就顯得尤為重要,同時真實的應用場景不斷給知識圖譜提需求,那么二者之間的差異也會逐漸縮小。機器是按照人制定的邏輯工作,而人是有聯(lián)想能力的。

雷鋒網(wǎng):知識圖譜構建上有哪些經驗可以分享?

我從2010年加入百度,大部分精力在從事信息抽取類工作,從中也積累了大量的實戰(zhàn)經驗。在信息抽?。ㄖR圖譜建設)上,我們的著眼點依次是:

快,因為醫(yī)療知識圖譜有上千種關系,處理速度要快;

準確率高;

覆蓋率高,比如要有足夠多的疾病與癥狀的知識,才能分辨出疾??;

可控;

通用性強。

在這樣的標準下,我們比較推薦簡單粗暴可控的框架,即基于模板的抽取。這類方法簡潔可控,容易冷啟動,準確率可控,通用性也不錯。不足是:模板產生困難、覆蓋率不高,而且容易產生語義漂移,需要做邊界控制,最后是計算復雜度高。這是目前這種計算框架的優(yōu)劣。

在構建中,我們首先攻克計算性能問題,即在做pattern learning時,如何做快速計算、篩選,給每個pattern打分,這是計算性能問題。

然后我們通過pattern協(xié)作,搞定便捷控制和語義漂移。最后是把大量的精力放在pattern learning上,同時加大數(shù)據(jù)量提升覆蓋率,并引入bootstrapping機制提升召回。這是我們認為當前比較好的解決方案。

目前也有一些基于pattern做的解決方案,但往往偏人工,不成體系,通用性也較差。

另外,我們主要做從無結構化文本抽取,一些類似HTML的半結構化數(shù)據(jù)比較容易,但是有深度的知識覆蓋面很少。這塊有不少工作,有興趣的話,也可以經常關注一些IE方面的論文,有很多新奇的想法。

雷鋒網(wǎng):康夫子可以做到知識規(guī)律的自動發(fā)現(xiàn),這個是如何做到的?

這里的知識規(guī)律發(fā)現(xiàn)其實就是上文說的pattern learning。人們是按照一定書寫方式來描述知識的,數(shù)據(jù)量越大越能體現(xiàn)出書寫的語法及結構。康夫子的一個核心技術即針對要抽取的知識從海量文本中學習這種知識的描述方式。

關于醫(yī)療大腦、知識圖譜與智能診斷,這是最全的解讀 | 雷鋒網(wǎng)公開課

上圖是計算機閱讀海量文獻,針對某種知識總結出上萬條書寫規(guī)律然后進行抽取。如針對“疾病<—>癥狀”的關系,文獻中描述方式為:“(X疾?。┑陌Y狀有(Y癥狀)”,“(X疾?。┡R床表現(xiàn)為(Y癥狀)”,“(X疾病)容易引起(Y癥狀)等不適癥狀”等等。

在技術維度,較多層面是我們原創(chuàng)的技術,我們定義一個好的規(guī)律,既要體現(xiàn)出不同文本之間的區(qū)分性,又要能夠盡可能的匹配到相似文本,另外還要追求量和簡潔性。在這個目標約束下,剩下的就是求解優(yōu)化的問題了。

雷鋒網(wǎng):智能診斷中的邏輯推薦可以具體解釋下嗎?具體的挑戰(zhàn)是什么?

這個是智能診斷和醫(yī)生診斷最為根本差異的地方。

我們認為,當輸入數(shù)據(jù)一樣時,機器是可以完全比人做的好。比如,給定相同的若干組癥狀、若干輔助檢查數(shù)據(jù),機器診斷是可以輕松超過人的,因為這時候診斷的過程本質上是個搜索的問題,人腦的計算量和記憶程度在特定任務下是比不過機器的。

但是,醫(yī)生的優(yōu)勢在于,不可思議的聯(lián)想能力,可以幫助他更好地獲取對診斷有用的數(shù)據(jù)。還是針對上面癥狀+檢查數(shù)據(jù),當醫(yī)生診斷不確信時,他可以從病理或者歷史經驗去聯(lián)想新的數(shù)據(jù)特征,進而輔助診斷。而對于機器來講,聯(lián)想能力基本為零。

所以說,邏輯這塊是機器智能診斷的一個重要攻克方向:

1. 它需要不斷的構建底層知識圖譜,不斷地逼急醫(yī)生的知識架構;

2. 用大量的臨床數(shù)據(jù)去訓練知識體系之間的關系,也就所謂的“聯(lián)想能力”,進而更好地獲取數(shù)據(jù),支撐診斷;

3. 在具體問診方法維度,機器目前還非常生硬,這點也被我們放在邏輯維度。

雷鋒網(wǎng):康夫子的產品投入應用后,有沒有不滿意的方面?

如果讓我們給我們自己的產品打分,100分是非常滿意,應用效果等同于所有科室的專家診斷總和,我們現(xiàn)階段只能打到40分,而同時市面上其它類似產品很少能超過30分。

這里的不及格除了在知識圖譜維度還不夠完善,另外就是這個產品目前還只能按照既定方式去完成某些任務,而在真實的診斷場景中,“知識聯(lián)想、理解用戶”是非常重要的環(huán)節(jié)。

當然,現(xiàn)階段康夫子智能診斷還比較年輕,我們花了不到半年的時間已取得非常不錯的效果,也正是因為各種不滿意才促使我們的系統(tǒng)更加迅速的迭代。

雷峰網(wǎng)原創(chuàng)文章,未經授權禁止轉載。詳情見轉載須知。

分享:
相關文章

專業(yè)寫瞎

不受意識控制地報道那些讓人感動的產品技術和事件......zhchsimons@gmail.com ;微信:nksimons;《腦洞》公眾號:hackmind
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說