0
本文作者: 老王 | 2017-10-13 09:03 | 專題:云棲大會 2017 |
談到人工智能在醫(yī)學(xué)影像中的應(yīng)用,不少業(yè)內(nèi)人認(rèn)為醫(yī)療領(lǐng)域內(nèi)的約束和障礙還有很多,AI若想落地臨床,會受到數(shù)據(jù)多樣化、標(biāo)注復(fù)雜化、政策明朗化及詢證理解難等多個問題的限制,目前還很難看到明確的未來。
于是不少企業(yè)選擇退步或觀望,即便涉水,也只是淺嘗輒止。
“醫(yī)療問題面前,不再分中國美國,也不分科技公司還是醫(yī)療公司,這是一個關(guān)系到全人類生命健康的話題。在面對這一問題時,不管過程多么艱辛,一定要有人站出來。” 英特爾中國數(shù)據(jù)中心云計算高級技術(shù)總監(jiān)周翔如是說。
在與浙江大學(xué)第一附屬醫(yī)院、愛爾眼科等多家醫(yī)院,以及阿里云、浙江大學(xué)數(shù)理學(xué)院、浙江德尚韻興圖像科技有限公司、晉弘科技和極視互聯(lián)等多家單位及企業(yè)共同探索數(shù)月后,英特爾已經(jīng)印證了AI在甲狀腺結(jié)節(jié)、糖網(wǎng)和黃斑變性等眼底病變醫(yī)學(xué)影像輔助診斷上的可行性,于是決定加大力度,全力推進(jìn)AI技術(shù)在醫(yī)療領(lǐng)域的實踐。
當(dāng)業(yè)內(nèi)其他公司的醫(yī)療團隊把所有精力集中在研發(fā)自有產(chǎn)品之際,英特爾認(rèn)為“授人以魚,不如授之以漁”,一家公司能做的事畢竟有限,如果利用自己百年來積累的技術(shù)優(yōu)勢、平臺優(yōu)勢和行業(yè)服務(wù)能力,扶持更多的AI醫(yī)療創(chuàng)新者,將比一人孤軍奮戰(zhàn)更有意義。
那么如何“授之以漁”?
經(jīng)過一番考量,英特爾決定為來自世界各地想用AI解決醫(yī)療問題的團隊,提供更強大的硬件平臺、更易用的軟件,讓他們更專注解決問題本身,無需考慮軟、硬件限制,從而發(fā)揮最大勢能。
最終,英特爾選擇以比賽作為切入點,與合作伙伴啟動了一場有著2887支隊伍參與的天池醫(yī)療人工智能大賽,歷時7個月后,于近日正式落下帷幕。
這次大賽向醫(yī)學(xué)界公認(rèn)的難題肺結(jié)節(jié)早篩發(fā)起挑戰(zhàn)。
此次大賽是英特爾、阿里云、零氪科技一同發(fā)起和支持,是國內(nèi)第一個醫(yī)療人工智能大賽,規(guī)模和數(shù)據(jù)量也在世界范圍內(nèi)絕無僅有,共有16家國內(nèi)知名腫瘤醫(yī)院為本次比賽提供了脫敏和標(biāo)注的、近3000例高?;颊叩牡蛣┝糠尾緾T影像數(shù)據(jù)。
之所以選擇肺結(jié)節(jié)篩查作為“考題”,是因為我國肺癌疾病形勢愈加嚴(yán)峻。全國腫瘤登記中心早在2013年發(fā)布的《2012年中國腫瘤登記年報》就顯示:截止當(dāng)時,近30年肺癌的死亡率上升了465%,取代肝癌成為中國首位惡性腫瘤死亡原因。
而且國內(nèi)有從肝癌識別的業(yè)內(nèi)人士也曾指出,通過對比中、美、英三國的肺癌發(fā)生率和死亡率,數(shù)據(jù)顯示國內(nèi)肺癌發(fā)生率低于英、美,但死亡率卻已超過英、美。這其中的重要原因是,當(dāng)患者診斷出自身有肺癌后,70%已到中晚期,錯過了最佳診斷和治療時間。
因此肺癌早篩在國內(nèi)是一件刻不容緩、急需解決的任務(wù)。
早篩是減少肺癌死亡率的重要手段,而癌癥早期多表現(xiàn)為肺部結(jié)節(jié)。這些肺部結(jié)節(jié)的尺寸非常小、對比度低、抑制化高。
過去的篩查工作均由影像科醫(yī)生完成,由于每個病人肺部CT的掃描圖片數(shù)目超過200層,平均診斷時間在20分鐘以上,當(dāng)醫(yī)生遇到大量病人時,極其耗時、耗力,而且容易漏診。
與此同時,微小肺部結(jié)節(jié)在影像學(xué)的表現(xiàn)易與其他組織或部位產(chǎn)生混淆,如毛細(xì)血管、結(jié)核、假瘤等,從而打擾到醫(yī)生的判斷。
基于這一痛點,影像科急需新的技術(shù)來輔助醫(yī)生提升診斷效率,這時候人工智能從眾多技術(shù)中脫穎。它能從海量醫(yī)學(xué)影像數(shù)據(jù)中學(xué)習(xí)和模仿醫(yī)生的診斷“經(jīng)驗”,在短時間內(nèi)快速提升診斷能力,輔助醫(yī)生減少誤診。
雖然人工智能更新迭代迅速,但醫(yī)學(xué)影像分析作為一個龐大的工程問題,很多工作都得一步步進(jìn)行,尤其像醫(yī)療這種數(shù)據(jù)形態(tài)和特征較為復(fù)雜的行業(yè),它在人工智能鋪助診斷上面臨的難題,也是一個接一個,且彼此之間密切相關(guān):
首先,GPU難擔(dān)重負(fù),至強融核卻有獨到優(yōu)勢
經(jīng)調(diào)查發(fā)現(xiàn),相比而言醫(yī)學(xué)影像分析更需要3D神經(jīng)網(wǎng)絡(luò)架構(gòu)的支撐,后者與行業(yè)內(nèi)常見的2D圖像深度神經(jīng)網(wǎng)絡(luò)有著很大不同。
記者了解到,天池大賽參賽隊伍大多采用3D影像數(shù)據(jù)方案,其模型本身并不大,但每次輸入的數(shù)據(jù)卻超過常用顯卡的顯存容量。醫(yī)療行業(yè)內(nèi)除了3D數(shù)據(jù)外,還有附帶時序的核磁共振4D數(shù)據(jù),它們更加依賴內(nèi)存,這時GPU在處理3D和4D影像數(shù)據(jù)時往往面臨吃不消的問題。
要想做出優(yōu)秀的醫(yī)療AI方案,不僅需要狹義上的計算力,同時也要有強大的存儲力做支撐,因此醫(yī)療為AI底層設(shè)施提出了全新的挑戰(zhàn)。
基于上述情況,英特爾專門為深度學(xué)習(xí)設(shè)計的至強融核處理器的優(yōu)勢便開始突顯,它就像CPU一樣,可直接讀取內(nèi)存,單顆能支持和使用的內(nèi)存容量就高達(dá)384GB。
不少參賽隊伍在描述英特爾至強融核處理器時如此形容到:“我們首先要明白 最重要的一點,它是CPU,不是卡。你可以把它理解為一個高性能的、能做深度學(xué)習(xí),又能夠直接連內(nèi)存的CPU產(chǎn)品?!?/p>
而在此之前,得益于在人臉識別和常見圖像識別上的顯著優(yōu)勢,GPU已成為絕大多數(shù)開發(fā)者們訓(xùn)練模型的首選。
英特爾中國數(shù)據(jù)中心云計算高級技術(shù)總監(jiān)周翔向雷鋒網(wǎng)透露,他在高校經(jīng)??吹綄W(xué)生辛苦苦苦設(shè)計的很多醫(yī)學(xué)影像分析模型無法在GPU上運行。
為此,學(xué)生們不得不降低3D肺部影像數(shù)據(jù)像素,然后拆分為多個小分塊,再進(jìn)行一一識別。
這種“妥協(xié)”的方式會引發(fā)兩大問題:第一,降低像素會丟掉細(xì)節(jié)信息;第二,分塊識別有可能會產(chǎn)生誤差。
天池大賽冠軍團隊(北京大學(xué)LAB2112 )對此也深有體會,隊長胡志強談到,肺部CT影像分析對存儲要求很高,GPU平臺由于受到顯存的限制,要想對CT影像進(jìn)行較好地分析往往需要多GPU協(xié)同甚至多機協(xié)同,但這些工程實現(xiàn)起來有一定的難度,尤其是對于諸如Batch Normalization等需要多GPU同步的層來說。
相比之下,至強融核平臺可利用大容量內(nèi)存,能更好地滿足了CT影像分析對內(nèi)存的要求,同時也不存在多個設(shè)備之間同步的問題。
軟件方面,記者得知,通過英特爾的努力,目前大部分常用的深度學(xué)習(xí)框架都已有了針對CPU的優(yōu)化版本。但進(jìn)一步的,英特爾特別針對此次醫(yī)療AI大賽的需求,還對自有優(yōu)化版Caffe框架和算法庫進(jìn)行了深度定制。通過新增且優(yōu)化諸如三維卷積層、三維反卷積層、損失函數(shù)層等數(shù)十個關(guān)鍵操作,極大的保證了至強融核平臺計算力的充分發(fā)揮,再結(jié)合該平臺自身的存儲力優(yōu)勢,使之能夠真正有效的支撐三維醫(yī)學(xué)影像的深度學(xué)習(xí)應(yīng)用。
于開發(fā)者而言,在至強融核處理器上的開發(fā)難度相對更低,雖然它的底層為深度學(xué)習(xí)的技術(shù),但上層指令集均為X86,而且英特爾提供的部分庫也可把下層進(jìn)行涵蓋,只要開發(fā)者們熟悉傳統(tǒng)CPU上的編程,也能迅速熟悉它。
“很多人喜歡談自己在GPU上的MicroBenchmark有多出色,確實,大家也已習(xí)慣拿到影像后先做預(yù)處理。但太過看重MicroBenchmark往往會忽略掉預(yù)處理之后造成的誤差。因此大家如果想做出一個比較實用的成品,應(yīng)該把注意力集中更宏觀的任務(wù)上,專注解決Solution級別的問題,通過英特爾平臺會讓整個目標(biāo)的實現(xiàn)來得更加簡單,”周翔表示:“所以英特爾希望通過天池大賽給大家提供一個新的思路,讓他們了解到,不管是醫(yī)學(xué)影像還是高精度視頻分析,你編程的方法、訓(xùn)練模型的方法,可以不受已有硬件在內(nèi)存帶寬、容量方面的限制?!?/p>
其次,通用深度學(xué)習(xí)開源框架已無法滿足醫(yī)療AI應(yīng)用需求,更優(yōu)化的框架是必備利器
硬件平臺猶如土地,而土地之上若要豐收,離不開耕地的工具,它們就是軟件框架。
此次大賽,英特爾為深度學(xué)習(xí)框架Caffe定制了43個超越開源版本的新功能,來支撐選手的模型創(chuàng)新。
由于Caffe抽象級別較高,相比而言,它的性能明顯優(yōu)于其他框架,但也存在靈活性欠佳的弊病。為此,英特爾針對它在靈活性上缺陷,為其定制了43個新功能,來對醫(yī)學(xué)影像分析難題提供更好的支持。
同時,英特爾也為天池軟件貢獻(xiàn)了35000行框架代碼和6000行參考模型代碼,為模型訓(xùn)練保駕護航。結(jié)果表明,各隊選手在比賽期間遇到的80%的問題,英特爾事先都有驗證過。
“通過這次比賽積累的經(jīng)驗,為未來深度學(xué)習(xí)框架的擴展奠定了一個較好的基礎(chǔ),后續(xù)我們也考慮引入更多的框架?!?/p>
至強融核平臺相比GPU在醫(yī)療影像AI應(yīng)用上有如此多的優(yōu)勢,那么習(xí)慣了GPU平臺的開發(fā)者,又應(yīng)該如何實現(xiàn)平滑的遷移?
針對這一問題,天池冠軍北京大學(xué)團隊也談到,這件事剛開始麻煩,但最終還是成功解決。
“我們先盡量將整個流程分成不同的模塊,這種模塊化的開發(fā)方式能使代碼結(jié)構(gòu)更加清晰,各部分功能獨立,方便排查錯誤,從而避免很多問題;我們在第一階段實現(xiàn)PyTorch版本框架時,已經(jīng)考慮到了復(fù)賽的問題,于是將盡可能多的數(shù)據(jù)處理模塊獨立于深度學(xué)習(xí)框架之外,用NumPy等庫實現(xiàn)所有操作。
除此之外,開發(fā)者團隊也應(yīng)該多花時間閱讀源代碼,因為我們在第二輪使用的是英特爾針對CPU優(yōu)化后的Caffe版本,所以相比公版Caffe改變了一些功能,為了能更好的使用這些功能,閱讀源代碼就變得很有必要,同時理解源代碼也能幫助我們在遇到問題時更快地找出錯誤。比如我們在實現(xiàn)過程中,發(fā)現(xiàn)一開始使用的網(wǎng)絡(luò)初始化方式并沒有針對三維卷積進(jìn)行處理,于是我們自己修正了初始化方式,使得結(jié)果有所提升?!标犻L胡志強向雷鋒網(wǎng)介紹到。
胡志強繼續(xù)說道,整個過程中,無論是代碼遷移還是其他重大技術(shù)問題,都離不開英特爾技術(shù)專家的服務(wù)與支持。
“印象最深刻的一次就是在我們使用英特爾優(yōu)化版Caffe時,經(jīng)常遇到Segmentation Fault的錯誤,該問題難以排查的地方在于其錯誤不經(jīng)常復(fù)現(xiàn),也就是說運行代碼的過程中有時會發(fā)生錯誤,有時候不會發(fā)生,使得我們很難找出錯誤的原因。有天晚上和英特爾團隊反饋了這個問題之后,工作人員很快就開始幫助我們排查問題并且第二天就給了我們回復(fù),產(chǎn)生錯誤的原因是我們使用了一個原址(in-place)操作導(dǎo)致內(nèi)存溢出?!?/p>
“英特爾工作人員犧牲自己的休息時間,熬夜幫我們調(diào)試代碼,并且在很短時間內(nèi)找出問題所在,這也從側(cè)面反映出他們團隊強大的技術(shù)實力?!?/p>
而現(xiàn)在,這支年輕的北京大學(xué)團隊已經(jīng)與北大幾家附屬醫(yī)院在內(nèi)的一些醫(yī)療機構(gòu)展開合作,醫(yī)學(xué)專家們也對他們的系統(tǒng)給予非常不錯的評價。
在本次訪談最后,周翔把英特爾對未來醫(yī)療AI的構(gòu)想,從全社會和個人的角度予以展現(xiàn):
一直以來,人們對英特爾的認(rèn)知是一家芯片企業(yè)。實際來看,英特爾遠(yuǎn)不止研發(fā)芯片這么簡單。正如英特爾CEO科再奇所說,我們是一家以數(shù)據(jù)為中心的公司。
醫(yī)療行業(yè)有很多數(shù)據(jù)猶如還未被正確開發(fā)的巨大寶藏,我們希望聯(lián)手阿里巴巴、零氪科技這類優(yōu)秀企業(yè)把各行各業(yè)的數(shù)據(jù)盤活。
英特爾特別希望通過這次醫(yī)療AI大賽,讓那些真正做醫(yī)療的人、擁有數(shù)據(jù)的人、制定政策的人,能夠看到一個由人工智能支撐的醫(yī)療模式是更加高效、更加安全、更具價值的。
我覺得科技公司不能因為政策和監(jiān)管問題的限制,就選擇觀望,等待政策和監(jiān)管落實后再行動。相反,我們的企業(yè)使命是考量能否通過扶持世界各地的創(chuàng)新者們加速AI技術(shù)的落地,讓更多政策制定者和監(jiān)管機構(gòu)明顯地感受到大家的創(chuàng)新成果和實際使用結(jié)果在不斷進(jìn)步,從而也間接推動政策的落實,加快全社會對人工智能的認(rèn)知和認(rèn)同。
而站在個人角度,作為公司和社會的一個小小個體,最讓我們這些技術(shù)從業(yè)者感到幸福的事,莫過于自己付出的長期努力,不僅可以造福全世界,也或許能夠切切實實地幫助到自己以及身邊的人。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。