丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給李雨晨
發(fā)送

0

吳恩達(dá)肺炎診斷成果不靠譜?放射科博士長(zhǎng)文質(zhì)疑:有些數(shù)據(jù)集根本不能用

本文作者: 李雨晨 2017-12-21 10:27
導(dǎo)語(yǔ):Luke Oakden-Rayner認(rèn)為目前的 ChestXray14 數(shù)據(jù)集不適用于訓(xùn)練醫(yī)學(xué)人工智能系統(tǒng)進(jìn)行診斷工作。

雷鋒網(wǎng)消息,醫(yī)學(xué)影像是人工智能重要的發(fā)展方向之一,業(yè)界爭(zhēng)相入局的同時(shí)也吸引了很多知名學(xué)者參與其中,并已出現(xiàn)了很多引人注目的成果。一年以來(lái),國(guó)內(nèi)外很多團(tuán)隊(duì)都聲稱(chēng)自己利用AI技術(shù)在疾病診斷的正確率超越人類(lèi),斯坦福大學(xué)吳恩達(dá)等人提出的 CheXNet 算法便是其中之一。此前,雷鋒網(wǎng)對(duì)該團(tuán)隊(duì)研究成果進(jìn)行過(guò)相關(guān)報(bào)道:《吳恩達(dá)團(tuán)隊(duì)發(fā)布最新醫(yī)學(xué)影像成果,用 CNN 算法識(shí)別肺炎》。團(tuán)隊(duì)曾表示,該算法在識(shí)別胸透照片中肺炎等疾病上的準(zhǔn)確率上超越了人類(lèi)專(zhuān)業(yè)醫(yī)師。

然而,另一群學(xué)者對(duì)目前的一些研究成果產(chǎn)生了懷疑。本文作者 Luke Oakden-Rayner 就是其中之一,他是阿德萊德大學(xué)的放射科在讀博士。他認(rèn)為,目前的 ChestXray14 數(shù)據(jù)集不適用于訓(xùn)練醫(yī)學(xué)人工智能系統(tǒng)進(jìn)行診斷工作。(ChestX-ray14 是目前最大的開(kāi)放式胸透照片數(shù)據(jù)集,包含 14 種疾病的 10 萬(wàn)張前視圖 X-ray 圖像)

為了證明自己的觀點(diǎn),Luke Oakden-Rayner博士將在本文中討論了以下幾個(gè)問(wèn)題:標(biāo)簽的準(zhǔn)確度;標(biāo)簽的醫(yī)學(xué)意義;標(biāo)簽對(duì)于圖像分析的重要性

雷鋒網(wǎng)對(duì)Luke Oakden-Rayner博士的文章進(jìn)行了不改變?cè)獾倪x譯

ChestXray14 數(shù)據(jù)集來(lái)自于論文《ChestX-ray8: Hospital-scale Chest X-ray Database and Benchmarks on Weakly-Supervised Classification and Localization of Common Thorax Diseases》,自首次發(fā)布以來(lái),該數(shù)據(jù)集的論文和支持文檔已經(jīng)更新過(guò)多次。

在我看來(lái),該論文需要花更多的時(shí)間解釋數(shù)據(jù)集本身,因?yàn)樵摂?shù)據(jù)集的大量使用者是計(jì)算機(jī)科學(xué)研究人員,在缺乏臨床知識(shí)的情況下,這種需求就顯得尤為重要了。然而,這篇論文主要介紹的是文本挖掘和計(jì)算機(jī)視覺(jué)任務(wù),其中有一個(gè)圖表展示了數(shù)據(jù)集中標(biāo)簽的準(zhǔn)確性。

吳恩達(dá)肺炎診斷成果不靠譜?放射科博士長(zhǎng)文質(zhì)疑:有些數(shù)據(jù)集根本不能用

其中展示的原始結(jié)果(上半部分)是在公開(kāi)的 OpenI 數(shù)據(jù)集上進(jìn)行測(cè)試的,不僅包括報(bào)告,也有人工打上的完整標(biāo)簽。而列表中下面的部分是 ChestX-ray14 自己的數(shù)據(jù)。研究人員隨機(jī)選擇了 900 份報(bào)告,并由兩位注釋者進(jìn)行標(biāo)注,他們共同分類(lèi)了其中的 14 種疾病。據(jù)我所知,這些注釋者并沒(méi)有直接檢查圖像。

數(shù)據(jù)體量的限制會(huì)讓誤差變大(如果一個(gè)類(lèi)別中的樣例數(shù)量為 10-30,只有一個(gè)錯(cuò)誤,那么 95% 置信區(qū)間的陽(yáng)性預(yù)測(cè)值會(huì)在 75%-88%)。但如果允許一些偏差值,每個(gè)標(biāo)簽看起來(lái)準(zhǔn)確度都在 85-99%,至少準(zhǔn)確反映了報(bào)告結(jié)果。

但不幸的是,似乎標(biāo)簽無(wú)法準(zhǔn)確地反映病況。NIH 團(tuán)隊(duì)沒(méi)有表明他們看過(guò)這些圖像,他們通過(guò)測(cè)試標(biāo)簽是否匹配報(bào)告文本來(lái)判斷圖像標(biāo)注過(guò)程的優(yōu)劣。我認(rèn)為這種分離導(dǎo)致了我所提出的標(biāo)簽質(zhì)量問(wèn)題。

有很多方式可以在不需要圖像的情況下構(gòu)建圖像標(biāo)簽。如 ICD 編碼,或者從報(bào)告或其他免費(fèi)文本中提取標(biāo)簽;還可以使用增補(bǔ)數(shù)據(jù)(follow-up data)。在深度學(xué)習(xí)中,我們查看訓(xùn)練曲線、檢驗(yàn)梯度、嘗試在沒(méi)有正則化的情況下訓(xùn)練來(lái)測(cè)試是否產(chǎn)生過(guò)擬合。查看這些圖像是放射學(xué)的完整性檢查——查看圖像,確保它們和期望的一樣。

我通常 10 分鐘看完 200 張圖像以完成“完整性檢查”的初級(jí)階段。

第一部分:ChestXray14 數(shù)據(jù)集中的圖像標(biāo)簽準(zhǔn)確率

接下來(lái)要說(shuō)的是一堆基于數(shù)據(jù)集標(biāo)簽的圖像。它們是隨機(jī)選取包含 18 張圖像的序列集。

我的標(biāo)簽并不完美,其他放射科醫(yī)生可能對(duì)其中的一些標(biāo)簽有疑惑。但是必須明確一點(diǎn),我的標(biāo)簽和論文/附錄中的結(jié)果有極大的不同。

我通常喜歡硬數(shù)據(jù),因此我盡力量化標(biāo)簽準(zhǔn)確率。事實(shí)上我發(fā)現(xiàn)其中的很多標(biāo)簽都很難定義,因此下表中未列出。我查看了每個(gè)類(lèi)別中的 130 多張圖像,根據(jù)我的視覺(jué)判斷計(jì)算原始標(biāo)簽的準(zhǔn)確率。這個(gè)數(shù)據(jù)量比較適合使用,因?yàn)?5%的置信區(qū)間可能再擴(kuò)大/縮小5%,所以我的誤差率可能達(dá)到 20% 左右。

吳恩達(dá)肺炎診斷成果不靠譜?放射科博士長(zhǎng)文質(zhì)疑:有些數(shù)據(jù)集根本不能用

我的視覺(jué)分析 vs. 論文中的文本挖掘結(jié)果

我再次懷疑我的標(biāo)簽到底對(duì)不對(duì),尤其是和胸部放射科醫(yī)生的判斷結(jié)果相比,但是如上表所示,差別也太大了。我認(rèn)為上表中的數(shù)據(jù)證明這些標(biāo)簽無(wú)法匹配圖像中顯示的疾病。

也有辦法解釋這種現(xiàn)象。比如最初幫助解釋圖像的放射科醫(yī)生具備圖像以外的信息。他們具備臨床經(jīng)驗(yàn)、之前的診療結(jié)果等。這些信息非常有用,尤其是在區(qū)分類(lèi)似疾病的時(shí)候。

如果人類(lèi)專(zhuān)家無(wú)法僅從圖像中做出診斷,那么 AI 系統(tǒng)很可能也無(wú)法診斷。AI 可能能夠找出一些人類(lèi)忽略的細(xì)微證據(jù),但是憑借這些就可以產(chǎn)生性能上的巨大差異并不合理。總體來(lái)看,我們需要標(biāo)簽和圖像包含同樣的信息。

第二部分:標(biāo)注在醫(yī)學(xué)上意味著什么?

標(biāo)注實(shí)際上代表什么?它們能夠反映臨床實(shí)踐嗎?我認(rèn)為答案是否定的。

我認(rèn)為最難解析的標(biāo)簽是固結(jié)/滲透/肺不張/肺炎集聚等。這些醫(yī)學(xué)影像還存在其它問(wèn)題,與任務(wù)的臨床價(jià)值有關(guān),例如滲出(Effusion)、氣胸(Pneumothorax)、纖維化。例如,氣胸在 X 光影像上非常微小,經(jīng)常會(huì)被人忽略掉,或者纖維化的標(biāo)注準(zhǔn)確率非常低。實(shí)際上還有多種其它非圖像臨床問(wèn)題,例如:

  • 肺炎、肺氣腫和大多數(shù)纖維化都是臨床診斷問(wèn)題而不是醫(yī)療影像問(wèn)題。

  • X 射線會(huì)漏掉多達(dá) 50% 的囊腫,因此我們可能會(huì)懷疑報(bào)告所采用的囊腫標(biāo)注。

  • 沒(méi)有人關(guān)心間斷性疝氣,所以它們只是有時(shí)候進(jìn)行診斷。

找到那些優(yōu)秀的數(shù)據(jù)集或正確的標(biāo)簽來(lái)學(xué)習(xí)高效的醫(yī)療任務(wù)是十分困難的。同樣,我們還是需要專(zhuān)家查看這些影像來(lái)進(jìn)行醫(yī)療診斷。

第三部分:醫(yī)學(xué)圖像對(duì)圖像分析有什么好處?

放射學(xué)的深度學(xué)習(xí)應(yīng)用有一個(gè)大問(wèn)題,如果不查看圖像,后果將非常嚴(yán)重。如果這些標(biāo)簽很不準(zhǔn)確,并且標(biāo)簽的意義也不可靠,那么建立在這個(gè)數(shù)據(jù)集上的模型是如何達(dá)到不錯(cuò)結(jié)果的呢?模型學(xué)習(xí)的到底是什么?

實(shí)際上,我們?cè)趯ふ铱梢詫W(xué)習(xí)正確地在測(cè)試集上輸出真實(shí)結(jié)果的模型,即使所謂的真實(shí)結(jié)果在視覺(jué)上毫無(wú)意義。

吳恩達(dá)肺炎診斷成果不靠譜?放射科博士長(zhǎng)文質(zhì)疑:有些數(shù)據(jù)集根本不能用

來(lái)自 CheXNet 的結(jié)果:使用深度學(xué)習(xí)模型(Rajpurkar and Irvin et al.)在胸透圖上進(jìn)行放射專(zhuān)家級(jí)的肺炎檢測(cè),在測(cè)試集上獲得了不錯(cuò)的性能。

隨機(jī)噪聲可以作為不錯(cuò)的正則化項(xiàng),甚至還可以在某些設(shè)置中提升性能(這種技術(shù)被稱(chēng)為標(biāo)簽平滑或軟標(biāo)簽)。結(jié)構(gòu)化噪聲不一樣,它添加了完全不同的信號(hào),而模型將嘗試學(xué)習(xí)這些信號(hào)。

吳恩達(dá)肺炎診斷成果不靠譜?放射科博士長(zhǎng)文質(zhì)疑:有些數(shù)據(jù)集根本不能用

在一個(gè)包含壞標(biāo)簽的訓(xùn)練集中,神經(jīng)網(wǎng)絡(luò)將把這些標(biāo)簽看成同等有效的肺炎樣本。如果模型學(xué)習(xí)了這些標(biāo)簽,例如,「毛茸茸」是肺炎的一個(gè)信號(hào),然后模型將應(yīng)用這個(gè)信號(hào)到胸透圖中,輸出無(wú)法預(yù)測(cè)的結(jié)果。

模型將使用部分從狗類(lèi)圖像中學(xué)習(xí)的特征,并應(yīng)用到胸透圖中,盡管這和問(wèn)題本身無(wú)關(guān)。

如果你的目標(biāo)是性能最優(yōu)化,那么結(jié)構(gòu)化噪聲總會(huì)帶來(lái)負(fù)面影響。噪聲甚至不需要很明顯(其中的關(guān)系是非線性的),而偏差標(biāo)簽將降低模型的準(zhǔn)確率。

吳恩達(dá)肺炎診斷成果不靠譜?放射科博士長(zhǎng)文質(zhì)疑:有些數(shù)據(jù)集根本不能用

Rolnich 等人《Deep learning is robust to massive label noise》的結(jié)果表明,結(jié)構(gòu)化噪聲破壞了標(biāo)簽,并使得性能下降。當(dāng)噪聲與實(shí)際數(shù)據(jù)來(lái)源相同時(shí),這個(gè)問(wèn)題可能更麻煩,因?yàn)槟P蜁?huì)混淆噪聲與類(lèi)別。這可以類(lèi)推到 ChestXray14 數(shù)據(jù)集中,它們的標(biāo)簽同樣遭到了破壞。

所以,這些標(biāo)簽會(huì)損害模型的性能。那么為什么在 ChestXray14 上訓(xùn)練的模型有非常好的性能?難道是這些模型可以補(bǔ)償數(shù)據(jù)噪聲而變得魯棒性嗎?

我并不這樣認(rèn)為,我們需要關(guān)注更多的方面。其實(shí)在為數(shù)據(jù)集構(gòu)建一組新標(biāo)簽的過(guò)程中,我通過(guò)創(chuàng)建一個(gè)“opacity”類(lèi)和一個(gè)“no finding”類(lèi)來(lái)簡(jiǎn)化涉及的任務(wù)。我用原來(lái)的標(biāo)簽設(shè)置了新創(chuàng)建的標(biāo)簽,“opacity”是肺不張、肺炎、固結(jié)和滲透標(biāo)簽的組合,然后在上面訓(xùn)練一個(gè)模型。

我只需要采用一個(gè)在 ImageNet 預(yù)訓(xùn)練的 ResNet,并在新的數(shù)據(jù)集中訓(xùn)練后部分的網(wǎng)絡(luò)。我并沒(méi)有調(diào)整超參數(shù),只是在一個(gè)合理的時(shí)間里訓(xùn)練模型,最后模型的性能還是比較優(yōu)秀的。

吳恩達(dá)肺炎診斷成果不靠譜?放射科博士長(zhǎng)文質(zhì)疑:有些數(shù)據(jù)集根本不能用

盡管 AUC 是 0.7,但與標(biāo)簽錯(cuò)誤率一致,我們的分類(lèi)性能非常糟糕。該模型無(wú)法忽略錯(cuò)誤的標(biāo)簽,輸出合理的預(yù)測(cè),它對(duì)標(biāo)簽噪聲不具備魯棒性。最重要的是,AUC 值沒(méi)有反映診斷性能,這是一個(gè)很大的問(wèn)題。

這一 AI 系統(tǒng)學(xué)習(xí)可靠地輸出無(wú)意義的預(yù)測(cè)。它學(xué)習(xí)圖像特征的方式使“opacity”的案例變得幾乎沒(méi)有模糊性,而“no opacity”的案例被判斷為嚴(yán)重不正常的肺。

這就是問(wèn)題,因?yàn)槌悄憧戳藞D像,不然就會(huì)以為結(jié)果很棒。每個(gè)團(tuán)隊(duì)的模型性能都越來(lái)越好,AUC 分越來(lái)越高,看起來(lái)它們似乎正在“解決”一項(xiàng)嚴(yán)肅的醫(yī)療任務(wù)。

我認(rèn)為其有多個(gè)原因;醫(yī)療圖像很大又復(fù)雜,擁有很多普遍元素。但是,自動(dòng)挖掘標(biāo)簽的方法沒(méi)有引入不準(zhǔn)確的隨機(jī)噪聲。文本挖掘的編程本質(zhì)會(huì)導(dǎo)致持續(xù)、意料之外的數(shù)據(jù)依賴(lài)或分層。

同樣,斯坦福大學(xué)皮膚科的 Novoa 博士最近也在媒體上討論過(guò)這個(gè)問(wèn)題:

當(dāng)皮膚科醫(yī)生查看一種可能是腫瘤的病變時(shí),他們會(huì)借助一把尺子——就是你在小學(xué)時(shí)用的那種——來(lái)準(zhǔn)確測(cè)量它的大小。皮膚科醫(yī)生這樣做是為了查看病灶。因此,在一組活檢圖像中,如果圖像中有尺子,算法更可能將其判斷為惡性腫瘤,因?yàn)槌咦拥拇嬖谂c病癥癌變的可能性相關(guān)。不幸的是,Novoa 強(qiáng)調(diào),該算法不知道為什么這種相關(guān)性是有道理的,所以很容易誤解為一把隨機(jī)的尺子是診斷癌癥的根據(jù)。

深度學(xué)習(xí)非常強(qiáng)大,如果給它輸入帶有偏見(jiàn)標(biāo)簽的復(fù)雜圖像,它可以學(xué)習(xí)對(duì)這些類(lèi)別進(jìn)行分類(lèi),盡管它們毫無(wú)意義。你可以完美擬合訓(xùn)練集中的隨機(jī)標(biāo)簽,但這一結(jié)果僅僅表明深層網(wǎng)絡(luò)足夠強(qiáng)大,能夠記憶訓(xùn)練數(shù)據(jù)。他們沒(méi)有展示測(cè)試數(shù)據(jù)的泛化,相反,他們展示了噪音損害的性能。

我確實(shí)在 ChestXray14 數(shù)據(jù)中通過(guò)隨機(jī)標(biāo)簽做了一個(gè)快速測(cè)試(另一個(gè)完整性檢查),發(fā)現(xiàn)與 Zhang et al. 的相同結(jié)果;并且該模型沒(méi)有泛化到測(cè)試集。

結(jié)構(gòu)化噪聲不僅存在于訓(xùn)練數(shù)據(jù)中。整個(gè)測(cè)試數(shù)據(jù)中的標(biāo)簽誤差也是一致的。這意味著如果模型學(xué)習(xí)做出不良的醫(yī)療預(yù)測(cè),那也許它可能會(huì)獲得更佳的測(cè)試表現(xiàn)。這種情況可能僅針對(duì)通過(guò)自動(dòng)“數(shù)據(jù)挖掘”方法生成的標(biāo)簽,但是我也發(fā)現(xiàn)了人工標(biāo)簽導(dǎo)致放射科數(shù)據(jù)分層的多種方式。

放射學(xué)報(bào)告不是客觀的、事實(shí)上的圖像描述。放射學(xué)報(bào)告的目的是為他們的推薦人(通常是另一位醫(yī)生)提供有用的、可操作的信息。在某些方面,放射科醫(yī)師猜測(cè)推薦人想要的是什么信息,并且剔除那些不相關(guān)信息。

這意味著根據(jù)臨床情況、過(guò)往歷史以及放射科醫(yī)師是誰(shuí),相同圖像的兩份報(bào)告可以被貼上不同的“標(biāo)簽”。影響放射學(xué)報(bào)告的因素有很多,所有因素都會(huì)給放射學(xué)報(bào)告帶來(lái)結(jié)構(gòu)性噪音。每個(gè)小案例都可能有獨(dú)特的可學(xué)習(xí)的圖像特征。

還有很多其他視覺(jué)元素可將患者分成幾組,包括圖像質(zhì)量(根據(jù)患者是門(mén)診病人、住院病人、重癥監(jiān)護(hù)等而不同)、導(dǎo)入裝置如起搏器或心電圖導(dǎo)聯(lián)的存在、身體習(xí)性等等。這些因素都不是“診斷性的”,但它們很可能與標(biāo)簽有不同程度的相關(guān)性,深層網(wǎng)絡(luò)要找的很可能就是這樣的東西。

醫(yī)學(xué)研究人員長(zhǎng)期以來(lái)一直在處理臨床數(shù)據(jù)的分層管理。像年齡、性別、收入、飲食這些因素都會(huì)導(dǎo)致“隱藏”分層。我們還需要粗略地知道整個(gè)群組的視覺(jué)外觀分布是相似的,這意味著你需要查看圖像。

結(jié)論

以上的問(wèn)題并不意味著深度學(xué)習(xí)對(duì)于醫(yī)學(xué)影像是毫無(wú)價(jià)值的。深度學(xué)習(xí)最重要的一點(diǎn)是它奏效。雖然我們現(xiàn)在還不明白為什么,但是如果深層網(wǎng)絡(luò)擁有很好的標(biāo)簽和足夠的數(shù)據(jù),它將優(yōu)先為這些類(lèi)別學(xué)習(xí)有用的特征,而不是無(wú)意義的瑣碎特征。

與人類(lèi)視覺(jué)評(píng)估相比,ChestXray14 數(shù)據(jù)集中的標(biāo)簽不準(zhǔn)確、不清楚,并且經(jīng)常描述醫(yī)學(xué)上的次要發(fā)現(xiàn)。


這些標(biāo)簽問(wèn)題在數(shù)據(jù)之中是“內(nèi)部一致的”,這意味著模型可以展示“良好的測(cè)試集性能”,同時(shí)仍然產(chǎn)生不具有醫(yī)學(xué)意義的預(yù)測(cè)。


以上問(wèn)題表明,目前定義的數(shù)據(jù)集不適合訓(xùn)練醫(yī)療系統(tǒng),對(duì)數(shù)據(jù)集的研究不能在沒(méi)有附加正當(dāng)理由的情況下生成有效的醫(yī)療聲明。


查看圖像是圖像分析的基本的“完整性檢查”。如果你構(gòu)建數(shù)據(jù)集時(shí),沒(méi)有能夠理解你數(shù)據(jù)的人在查看圖像,那么期望數(shù)據(jù)集奏效將讓你失望。


醫(yī)學(xué)圖像數(shù)據(jù)充滿分層元素;有用的特征幾乎可以學(xué)到任何東西。查看你的模型是否每一步都照常運(yùn)行。只要標(biāo)簽足夠好,深度學(xué)習(xí)就可以在這個(gè)數(shù)據(jù)集中工作。

原文鏈接:https://lukeoakdenrayner.wordpress.com/2017/12/18/the-chestxray14-dataset-problems

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知

吳恩達(dá)肺炎診斷成果不靠譜?放射科博士長(zhǎng)文質(zhì)疑:有些數(shù)據(jù)集根本不能用

分享:
相關(guān)文章

醫(yī)療&金融頻道主編

專(zhuān)注醫(yī)療健康與金融科技的數(shù)智化原創(chuàng)報(bào)道 |微信:Gru1993
當(dāng)月熱門(mén)文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)