北卡羅萊納大學沈定剛：深度學習不是萬能鑰匙，要與醫(yī)生合作尋找需求 | CCF-GAIR 2018

本文作者：李雨晨

2018-07-17 08:53

專題：2018 CCF-GAIR 全球人工智能與機器人峰會

導語：一個方法不可能解決所有的問題，方法總有它的局限性。同時，在思路上應(yīng)該是通過問題找方法，而不是用方法來找問題。

雷鋒網(wǎng)按：2018 全球人工智能與機器人峰會（CCF-GAIR）在深圳召開，峰會由中國計算機學會（CCF）主辦，雷鋒網(wǎng)、香港中文大學（深圳）承辦，得到了深圳市寶安區(qū)政府的大力指導，是國內(nèi)人工智能和機器人學術(shù)界、工業(yè)界及投資界三大領(lǐng)域的頂級交流盛會，旨在打造國內(nèi)人工智能領(lǐng)域最具實力的跨界交流合作平臺。

在6月30日下午的計算機視覺專場中，北卡羅萊納大學的沈定剛教授發(fā)展了主題為《深度學習在醫(yī)學影像分析中的應(yīng)用（Deep Learning in Medical Image Analysis）》的主題演講。

“在美國將近20年，我都是在霍普金斯大學、賓夕法尼亞大學、北卡大學教堂山分校的放射科里與醫(yī)生們一起工作，因此知道他們的整個工作流程，知道怎么把我們的人工智能技術(shù)更好地應(yīng)用到他們臨床流程里的相應(yīng)部分中去，而不是從頭到尾都使用人工智能。”沈定剛教授在演講中談到。

沈教授現(xiàn)在是美國北卡羅來納大學教堂山分校終生教授、杰出教授，美國電子和電氣工程師協(xié)會 (IEEE)會士，美國醫(yī)學與生物工程院(AIMBE)會士和國際模式識別協(xié)會(IAPR)會士，國家千人（短期），在國際權(quán)威期刊上發(fā)表論文400余篇，被引用2萬余次。在最近Guide2Reasearch網(wǎng)站發(fā)布的2018年全球計算機科學和電子領(lǐng)域，沈定剛教授H-index 82，在該指數(shù)的前1000名華人學者中排名第13。

沈教授在1999年就前往美國約翰霍普金斯大學醫(yī)學院放射科從事醫(yī)學圖像分析方面的工作，是世界上最早開展醫(yī)學影像人工智能研究的幾位科學家之一，并最先將深度學習應(yīng)用于醫(yī)學影像，從事醫(yī)學影像分析、計算機視覺與模式識別等領(lǐng)域的研究近20年。

沈定剛教授認為，所謂的AI或者深度學習，只是解決問題的一種方法，方法必須為解決問題服務(wù)。他也時常告誡自己的學生：這個行業(yè)里的研究者，不能光知道深度學習，很多幾十年累積起來的經(jīng)典方法都必須要懂。因為一個方法不可能解決所有的問題，每種方法總有它的局限性。同時，在思路上，應(yīng)該是通過問題找方法，而不是用方法來找問題。

沈定剛教授經(jīng)歷了人工智能由低谷轉(zhuǎn)向高潮的過程，但是不管行業(yè)冷或者熱，從研究生開始的20多年的研究工作中，他的主線就是用圖像分析的方法來解決臨床問題。

沈定剛教授率領(lǐng)著一個學術(shù)能力強大的團隊，其實力在智能醫(yī)療領(lǐng)域處于國際引領(lǐng)水平。據(jù)了解，今年他的團隊有20篇論文被醫(yī)學影像AI的頂級會議MICCAI錄取，其中12篇被大會提前錄用。論文主要有幾個研究方向：圖像成像、圖像配準、老年癡呆癥和兒童自閉癥的診斷。

沈定剛教授表示，現(xiàn)在國內(nèi)很多初創(chuàng)公司的發(fā)力點集中在診斷環(huán)節(jié)，但醫(yī)學是一個很長的鏈條，成像、檢測、診斷、治療、預后每個環(huán)節(jié)都大有文章可做。將AI應(yīng)用到源頭，即成像質(zhì)量的提高，將會是未來的一大熱點。

他的團隊從成像方面入手，研究如何利用AI技術(shù)，實現(xiàn)低成本、快速和高質(zhì)量的成像，以此發(fā)表了4篇MICCAI論文?！耙环矫媸菓?yīng)用AI技術(shù)，將質(zhì)量較差的影像變成質(zhì)量更好的影像；第二個方面是在具體應(yīng)用過程中，將病人采集過程中丟失的圖像補回來；第三個方面就是快速成像，因為有些模態(tài)圖像掃描慢、噪聲很大，AI技術(shù)可以將需要幾分鐘掃完的圖像在幾十秒內(nèi)完成，這將很好提升患者體驗?！?/p>

在圖像配準方面，沈教授的團隊研究通過無監(jiān)督深度學習方法來進行圖像配準。在做醫(yī)學圖像分析時 ,經(jīng)常要將同一患者幾幅圖像放在一起分析，從而得到該患者多方面綜合信息，提高醫(yī)學診斷和治療的水平。對幾幅不同的圖像作定量分析，首先要解決的就是幾幅圖像的嚴格對齊問題。他坦言，圖像配準實現(xiàn)起來難度也很大，遠遠超過圖像的分割、診斷。

在深入到具體病例研究中，沈教授的團隊也獲得了一些實實在在的成果：3篇關(guān)于老年癡呆癥診斷的論文，6篇關(guān)于兒童腦發(fā)育和自閉癥診斷的論文。在接受雷鋒網(wǎng)采訪時他說道，現(xiàn)在關(guān)于老年癡呆癥的研究非常火，但在十年前，這類研究課題在美國非常難申請，100個課題里可能只有3%-5%能夠通過。老年癡呆癥的研究其中一個方向是用人工智能的方法來建立腦部功能網(wǎng)絡(luò)，用多層次的方式來表示大腦里面的網(wǎng)絡(luò)連接，以此預測老人會不會從輕度智力障礙轉(zhuǎn)變成老年癡呆癥。

兒童自閉癥的預測也一直是醫(yī)學界的難題。通常要等到兒童3到4歲才能確認其是否患有自閉癥。沈教授的團隊希望借助人工智能，將這個預測時間提前至僅6個月大的嬰兒，根據(jù)這個階段嬰兒的腦部結(jié)構(gòu)圖像來預判是否3到4歲時會患自閉癥。

實際上，對自閉癥的研究，沈定剛教授所在的北卡羅來納大學教堂山分校已經(jīng)累積了深厚的數(shù)據(jù)。該校在十多年時間里收集了將近2000例個體樣本（包括正常兒童）?！靶值芙忝弥腥粲谢甲蚤]癥的兒童，他們自己得自閉癥的概率非常大。UNC對這類高風險兒童進行跟蹤記錄，在他們6個月、12個月、18個月等時間段獲取他們的腦部圖像。如果到3到4歲時發(fā)現(xiàn)患有自閉癥，就返回去看他小時候的圖像。正是因為有了這些延續(xù)性的數(shù)據(jù)，才有可能用人工智能方法來預測自閉癥?！?/p>

去年10月，沈教授完成了一次身份轉(zhuǎn)型，同時擔任聯(lián)影智能聯(lián)席CEO。學界和業(yè)界的融合，需要沈教授花費更多的精力。他開玩笑說，從今年1月開始到現(xiàn)在，已經(jīng)瘦了10斤。同時他也表示，業(yè)界的身份其實對學術(shù)研究幫助很大。公司在實際過程中會遇到更多、更復雜的問題，一定程度上也為研究者拓寬了思路。

以下為沈定剛的現(xiàn)場演講內(nèi)容，雷鋒網(wǎng)作了不改變原意的整理和編輯：

沈定剛：非常感謝雷鋒網(wǎng)的邀請，我演講的題目是“深度學習在醫(yī)學影像分析中的應(yīng)用”。上午嘉賓們講了很多深度學習方面的工作，其實我們在2012年就率先把深度學習方法應(yīng)用到醫(yī)學影像分析中。從那以后，深度學習在醫(yī)學影像中的應(yīng)用越來越多。現(xiàn)在大家關(guān)心的影像AI，我認為有一點至關(guān)重要，那就是跟醫(yī)生的密切合作。

我在美國將近20年，都是在醫(yī)學院的放射科（霍普金斯大學、賓夕法尼亞大學、北卡大學教堂山分校）跟醫(yī)生們一起工作，從中知道他們的整個臨床流程。只有知道他們的整個流程，才能把我們的人工智能技術(shù)更好地運用到臨床流程的相應(yīng)部分中去，而不是從頭到尾整個流程都用AI，那是不可能的。

我在學術(shù)界工作了很長時間，國內(nèi)有100多位高校老師從我的實驗室學習回來，其中有近二十位已經(jīng)成為高校的計算機學院、生物醫(yī)學工程學院的院長、副院長、系主任或副系主任?，F(xiàn)在我覺得，高校的影像AI研究與公司的影像AI持平開發(fā)之間的差異越來越小。但是，學校里做的研究，通常數(shù)據(jù)非常小，這樣研究結(jié)果推廣性相對較差。

今年年初開始，我領(lǐng)導聯(lián)影智能專門做影像AI。聯(lián)影智能是上海聯(lián)影的子公司，聯(lián)影是國內(nèi)最大的生產(chǎn)高端影像設(shè)備的企業(yè)，其生產(chǎn)的影像設(shè)備，在影像前、影像中以及影像后都會需要用到人工智能技術(shù)。剛才有嘉賓提到如何將計算機視覺用到影像中去，其實這里有一個相應(yīng)的例子。比如在邊遠地區(qū)的基層醫(yī)院，我們可以給他們提供很好的影像設(shè)備，但是他們通常缺乏好的技師，不能準確地定位病人來掃描，這時候計算機視覺就可以幫助病人的準確定位，完成一鍵掃描。

當然，人工智能技術(shù)如果只應(yīng)用在后面的診斷，而不跟影像設(shè)備結(jié)合起來，總體效果不一定好。我們要做的是全鏈條、全棧式的影像人工智能，也就是用人工智能優(yōu)化從成像到影像的篩選，再到后面的跟蹤、診斷、治療和預后這樣一個完整的流程，從而達到最佳診斷效果。

現(xiàn)在很多公司都在做肺結(jié)節(jié)檢測，但通常是在給定圖像的情況下來完成。想象一下，現(xiàn)在，如果把成像過程跟后面的人工智能診斷結(jié)合起來，這就像在掃描過程中有一位有經(jīng)驗的“醫(yī)生”坐在那里，每重建一些slice圖像，這位“醫(yī)生”就會告訴你這里有沒有肺結(jié)節(jié)，如果有可疑肺結(jié)節(jié)，設(shè)備就自動重建得密一些，正常的slice就按常規(guī)的厚度去重建。這樣的結(jié)合，就有可能把后面的肺結(jié)節(jié)檢查做得更好；如果讓醫(yī)生人工來看，也可以看得更仔細，并且不增加多少工作量。

大家都在講人工智能，幫助醫(yī)生診斷，這樣的人工智能（Artificial Intelligence AI）其實是輔助智能（Assisted Intelligence AI）。除此之外，我們還要做超越人類的增強智能，這時候的Artificial Intelligence （AI）就變成了Augmented Intelligence（AI）。比如說，小孩發(fā)育過程中，如果皮層發(fā)育不好，可能會患自閉癥；但是造成自閉癥的皮層病變可能只有0.3%，醫(yī)生手工測量要達到這個精度非常困難。我實驗室里面每年有幾位來自大陸以及臺灣的醫(yī)生，包括主任醫(yī)生、副主任醫(yī)生，以及來自臺灣長庚醫(yī)院的醫(yī)生。我讓他們?nèi)斯順藞D，他們標出來的皮層之間的差異高達30%，而且同一個醫(yī)生前后兩天標注的差異高達20%。因此0.3%的變化，通過手工方法是測不出來的。這時候我們需要的就是增強智能，是超越人類的“人工智能”。

剛才有嘉賓提到了標注問題。醫(yī)學上的標注跟計算機視覺的標注存在很大差異。計算機視覺的標注，只要是正常人，即使沒上過學，也可以標注出圖里面哪里是車，哪里是人，哪里是路。而在醫(yī)學領(lǐng)域，只有影像科的醫(yī)生才可以標，而且只有有經(jīng)驗的醫(yī)生才能標得好，但是全世界這樣的醫(yī)生人數(shù)有限，所以醫(yī)學影像的標注非常難，非常復雜。

做影像AI，我們必須知道我們要解決什么問題，然后找相應(yīng)的技術(shù)來解決問題，而不是有了技術(shù)再找問題。

我下面要講的技術(shù)是用于解決我們手頭上的兩個重要問題。

第一個要解決的問題就是Baby Connectome小孩腦發(fā)育里的問題。當我們采集了6個月大嬰幼兒的影像和基因信息，我們想知道，這小孩三到四歲時會不會患自閉癥？我們知道，孩子在小時候腦子的可塑性非常強，如果小孩6個月大的時候我們就知道他將來會患自閉癥的話，就可以提前對他進行一系列的特殊訓練、特殊教育和干預。這樣的話，這小孩雖然3到4歲時還會患自閉癥，但等他成人以后還有可能正常地生活和工作，這是非常有意義的。

第二要解決的問題是腦子老化可能導致的老年癡呆癥問題。例如，有人在70歲得了輕度智力障礙，我們的問題是這位老人會不會在幾年以后轉(zhuǎn)變成老年癡呆癥？要回答這個問題，我們需要有比人的能力更強的AI。

先舉一個例子，關(guān)于小孩早期腦發(fā)育。我們知道小孩出生后的前12個月非常重要，因為在這個階段小孩開始學習說話、走路，有很多病變可能也在一年內(nèi)發(fā)生。首先，我們來看一張同一個小孩從出生到60個月大時的腦圖像。我們前一年每隔三個月對小孩的大腦進行掃描，從而獲得小孩腦子前一年的變化。經(jīng)研究發(fā)現(xiàn)，第一年小孩的大腦體積增大120%，第二年大概增大15-20%。很多早期的病變，比如自閉癥，在第一年就已經(jīng)可以看到相應(yīng)的癥狀，但是第一年圖像變換非常復雜。這里我們不用視頻的形式，而是把圖像一幅一幅顯示出來。最左邊是兩周的圖像，最右邊是12個月的圖像，中間是6個月的圖像，可以看到紅的曲線和綠的曲線幾乎完全重疊在一起。

我們腦子里包含白質(zhì)、灰質(zhì)、皮層，皮層里的灰質(zhì)包含我們的腦神經(jīng)元。要在前6個月的時候就能預測小孩3到4歲的時候會不會患自閉癥，需要對腦子進行一系列復雜分析：第一步是腦圖像分割，就是把白質(zhì)和灰質(zhì)從圖像中分割出來，但這是一個非常難的問題。請注意，利用現(xiàn)有的成人圖像的所有分析方法都不能準確分割小孩的腦圖像。我們可以看看用成人圖像分割方法的結(jié)果，分割得雜亂無章。這方面我們在UNC做了10年的研究，投入了很多博士后和學生，這些人后來也都成為了本領(lǐng)域的專家，取得了很多研究成果。

除了研究腦結(jié)構(gòu)之外，還可以研究腦連接（腦區(qū)之間的連接）和腦功能。有了這一系列的投入和十年的研究積累，我們才可以做剛才提到的增強智能。雖然現(xiàn)在有很多初創(chuàng)公司，但還沒有一個初創(chuàng)公司碰這種復雜的腦圖像分析，特別是小孩腦圖像的分析。

我們做了一系列的研究，研究如何把圖像分割開來，如何把左右腦分開。重建的腦表面有很多洞，我們也可以用人工智能（Deep Learning）的方法做自動糾正。皮層里面有內(nèi)表層和外表層，如何把它翻開來，然后把整個腦子里面分成很多的區(qū)域，每個區(qū)域有不同的功能。比如說海馬是管我們記憶的，老了以后，我們的記憶喪失了，因為海馬萎縮了；這里面不同的顏色表示不同的腦區(qū)域。在這個應(yīng)用中，給你一個三維的腦圖像，我們需要用三維的方法把相應(yīng)的區(qū)域識別出來；有時需要用四維甚至五維方法。例如功能圖像，每過1秒采集一副功能圖像，里面的每個位置測量相應(yīng)的血樣成分，這時候的圖像是四維圖像。分析四維圖像，比分析二維或三維圖像更復雜。另外，若要知道腦結(jié)構(gòu)變化與病變的關(guān)系，和醫(yī)生的合作非常重要，這是非常復雜的研究，而我這里只講了一個分割問題。

如果你感興趣的話，所有具體的方法都可以在我給出的論文中找到，而我只介紹一下概念。做腦圖像分割，首先我們把圖像分割成腦液體和腦組織，這個腦組織包括白質(zhì)和灰質(zhì)。很重要的一點，所謂的Deep Learning，我們必須要把它和臨床信息結(jié)合起來。早晨有人問到，Deep Learning已經(jīng)很流行了，是不是傳統(tǒng)方法就沒用了？如果你把前面二三十年已經(jīng)研究得很好的傳統(tǒng)技術(shù)和Deep Learning結(jié)合，其效果會有很大提高。同樣，如做分割只是把腦子里的腦組織和腦液體分割開來，分割完了之后，再訓練第二個神經(jīng)網(wǎng)絡(luò)，這樣可以精細地把白質(zhì)和灰質(zhì)分開來。要做到這樣非常精細的分割結(jié)果，需要很多的積累。如果只是用現(xiàn)有的方法，就只能看到剛才雜亂無章的結(jié)果。

下面我首先介紹聯(lián)影智能公司（簡稱UII）做的一些研究。

第一個是癌癥的治療。醫(yī)生至少要花幾個小時來勾畫人的器官。而我們用Deep Learning來勾畫，每個器官少于一秒鐘就可以完成。同時，我們想用最便宜的GPU實現(xiàn)最貴GPU的性能。因為在聯(lián)影，手持的設(shè)備不可能用很貴的GPU，所以在這個條件下我們必須在保證準確率不下降的情況下，使用最便宜的GPU。我們基于3000個來自不同類型的CT數(shù)據(jù)（這在影像分析中其實已經(jīng)是非常大的數(shù)據(jù)了，很多情況下只有幾十個、幾百個），這里面有大概一二十個器官，我們將它們?nèi)糠指畛鰜?，每個器官只需要0.7秒左右。

醫(yī)學影像必須跟醫(yī)生很好地結(jié)合起來。例如，醫(yī)生在診斷老年癡呆癥時，看腦子不同區(qū)域，比如說紅點區(qū)域，判斷腦室有沒有長大，海馬有沒有萎縮，再綜合判斷這個人有沒有患老年癡呆癥?；谶@樣的診斷方式，我們利用神經(jīng)網(wǎng)絡(luò)來做訓練區(qū)域的自動檢測，然后利用區(qū)域信息和另一個神經(jīng)網(wǎng)絡(luò)做老年癡呆癥的預測和診斷。如果一個新的病人來看醫(yī)生，只需采集他的圖像，通過訓練好的兩個神經(jīng)網(wǎng)絡(luò)就可做疾病的診斷和預測。如果這個人是輕度智力障礙，我們還可以預測5年后他會不會變成老年癡呆癥。

另一個應(yīng)用場景是幫助醫(yī)生來看肺部圖像。先用人工智能助理檢查一遍，沒有問題的圖像可以排在最后面，有問題的圖像放在最前面，醫(yī)生就可以先看有問題的圖像。特別是醫(yī)生早晨剛來的時候，他非常清醒，所以他犯錯誤的可能性非常小，后面的他可以不看，即使他看的話，由于疲憊導致犯錯所帶來的影響也不大?，F(xiàn)在我們的算法精度已經(jīng)很高，遠超同行。

剛才說到，在計算機視覺里面，你可以畫一個包的輪廓，計算機會給你生成一個你喜歡的包，這個技術(shù)在醫(yī)療領(lǐng)域也有很多應(yīng)用。這里左邊是核磁共振（MRI）的圖像，右邊是CT圖像。CT可以清晰顯示人體組織在每個位置的密度，這對放射治療非常有用。但是，如果要知道射線打進去涉及哪些地方，CT圖像里面有很多軟組織是顯示不清楚，而MRI可以把軟組織看得很清楚。如何把兩者結(jié)合起來？無需既做一個CT又做一個MRI，而是從MRI中估計出像真實CT的圖像。

我們可以比較用GAN從MRI生成的CT圖像跟真實的CT圖像，可以看出它們差異很大。如何把它做得更好？可以用Context-Aware GAN。例如，用第一個已訓練的GAN，可以把MRI生產(chǎn)一個CT圖像，但效果不太好；我們可以用這個生產(chǎn)的CT加上MRI訓練第二個GAN，然后把它用到MRI上，生成新的CT圖像；這樣可以繼續(xù)下去，最后得到一個高質(zhì)量的CT圖像。

我們比較一下，左邊是MRI，右邊是生成的CT，經(jīng)過四層輸出之后，可以看到它和真實的CT圖像差異非常小。這樣的圖像可以用于治療規(guī)劃，但不能用于診斷，因為小的病變可能在處理過程中會丟失。這也是為什么我一直強調(diào)做醫(yī)學影像一定要和臨床結(jié)合起來。我認為，現(xiàn)在學術(shù)界和工業(yè)界的醫(yī)學影像AI研究和開發(fā)是沒有多大區(qū)別的，是相輔相成的。

提問：我是做傳統(tǒng)圖像的學生，我看您做的醫(yī)療圖像的識別跟傳統(tǒng)圖像識別有很多共通的觀點，我比較關(guān)心的是相對于傳統(tǒng)圖像來說，醫(yī)療圖像在設(shè)計網(wǎng)絡(luò)或者訓練方式上有哪些特殊的問題需要進行針對性的設(shè)計？另外就是對于我們這種從傳統(tǒng)圖像想轉(zhuǎn)做醫(yī)療圖像來說，您覺得最大的障礙在哪里？是數(shù)據(jù)不公開的限制，比如說醫(yī)院很多數(shù)據(jù)是不公開的，還是說我們對醫(yī)療方面專業(yè)知識的缺失，導致我們設(shè)計網(wǎng)絡(luò)的時候會忽略一些信息？

沈定剛：你的第一個問題非常重要。我們要非常清楚，在進行醫(yī)學影像研究時，圖像里的每一個小點都是我們?nèi)梭w非常重要的部分，對每一點都要非常重視，這是和做傳統(tǒng)圖像識別的區(qū)別。另外，傳統(tǒng)圖像識別很多是二維的，很多人還是用二維的方法來做三維、四維的事情，但他們差異性非常大，所有的網(wǎng)絡(luò)必須變成三維、四維。

怎么樣從事醫(yī)學影像研究？醫(yī)學影像的門檻非常高，不能自己一個人去干，必須要有一個非常有經(jīng)驗的人帶領(lǐng)。此外，醫(yī)學影像要用醫(yī)生的話來說醫(yī)生的事情，也就是能和醫(yī)生進行專業(yè)對話。所以我認為，要做好醫(yī)學影像AI，必須要跟非常有經(jīng)驗的老師來做。今年6月27日，上海聯(lián)影智能成立了醫(yī)智合作培育研究中心，希望能把醫(yī)院放射科醫(yī)生和理工科人員聚集起來，大家一起來做醫(yī)學影像AI。我們不僅提供這個平臺，還幫助和指導他們更好的運用影像AI。相信他們在這里訓練完之后，回到醫(yī)院或者學校，自然而然就會成為該領(lǐng)域的專家。幾年之后，相信我們中心會培養(yǎng)出更多人才，培養(yǎng)很多真正懂醫(yī)學影像AI的專家，這樣整個行業(yè)才能有更多的人，來一起推動行業(yè)的發(fā)展。

提問：您來到聯(lián)影智能之后，在成像的研究應(yīng)該給聯(lián)影智能非常具有啟發(fā)性的幫助，我們對聯(lián)影智能也有很大期待。剛才您講到T1和T2的成像問題，未來聯(lián)影智能會考慮這種序列上的改善，然后去做這樣的成像方面最前沿的嘗試嗎？

沈定剛：對，這都是要變成產(chǎn)品的。我們把人工智能的方法跟剛才我說的成像結(jié)合起來以后，所得到的結(jié)果完全讓那些從事MR成像人員的出乎意外。其實，人工智能可以與很多領(lǐng)域結(jié)合起來，開發(fā)出很多新的技術(shù)。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

8人收藏

相關(guān)文章