0
雷鋒網(wǎng) AI 開發(fā)者按:自 AI 迅速發(fā)展以來,除互聯(lián)網(wǎng)之外,其在醫(yī)療方面也是屢屢作出突出貢獻。無論是高效的檢測速率,還是高精度的診斷結(jié)果,都幫助醫(yī)者大大減少了工作量,為病人奪得了更寶貴的救治時間。
就在最近全球緊密關注的新型冠狀病毒戰(zhàn)「疫」中,AI 再次發(fā)揮了其高效特性。在由浙江省疾控中心、阿里巴巴達摩院、杰毅生物共同研發(fā)的一套全新檢測平臺中,研究者們巧妙利用 AI 算法,最終使得病毒基因分析的速度由半天(約 8 小時)縮短到半小時!
而作為公民兼開發(fā)者的我們,盡管大多數(shù)人無法參與這次的抗疫開發(fā)實戰(zhàn)中,但我們可以加入 AI 研習社【肺炎檢測挑戰(zhàn)賽專題】,將我們所擁有的力量,以另一種方式貢獻到這次抗疫支援行動中。
眾所周知,要贏得這場瘟疫戰(zhàn)勝利的關鍵,一方面在于通過確診從而嚴密控制疫情擴散;另一方面則是特效疫苗的成功研制。而整個過程中,無論是病毒基因檢測,還是疫苗研發(fā),都需要大量的時間。
以前在面對疫情時,我們的醫(yī)者只能通過人工進行長時間的反復研究、反復修改、反復檢測,然后獲得預期的疫苗,但現(xiàn)在我們有了 AI——這一能夠?qū)A繑?shù)據(jù)進行精密計算的得力助手,這將大大有利于我們提高研究效率,更快取得這場沒有硝煙戰(zhàn)爭的勝利!
圖片來源:CNBC 所有者:CNBC
根據(jù)各個機構公布的數(shù)據(jù),新型冠狀病毒全基因組序列全長 29847bp,是基因組序列最長的病毒之一。而在 2 月 1 日浙江省疾控中心上線的自動化全基因組檢測分析平臺中,就充分利用了阿里達摩院研發(fā)的 AI 算法,替代了原有的核酸檢測方法。
相比之下,AI 檢測除了將原來數(shù)小時的新型冠狀病毒肺炎疑似病例基因分析縮短至半小時,大幅縮短確診時間之外;還彌補了原有方法只能檢測到病毒基因局部的局限,能夠更加精準檢測出病毒的變異情況。
新型冠狀病毒結(jié)構
在傳統(tǒng)的病毒基因分析過程中,整個流程涵蓋主要包含了:樣本標記、分裝;核酸提取;熒光定量 PCR 體系配制;上機檢測;數(shù)據(jù)報告分析。
可以發(fā)現(xiàn),其中的病毒基因的檢測和分析是兩種不同的工作。據(jù)了解,這次提高檢測效率的核心則在于將檢測的結(jié)果進行「數(shù)據(jù)化」,然后交由達摩院開發(fā)的算法進行分析。
其中阿里達摩院的一位算法專家在采訪中表示,每次測序過程會產(chǎn)生海量的數(shù)據(jù),基于一系列優(yōu)化的算法,可以加快樣本病例的檢測速度;在這個環(huán)節(jié)里,算力和算法同樣重要。
達摩院算法專家顧斐博士在疾控中心基因檢測分析現(xiàn)場
而在算法方面,具體而言,在序列比對過程中開發(fā)者增加了分布式設計,可以有效提升比對效率。而在病毒序列拼接階段則用到了分布式設計的 de Bruijn 圖算法,從而將病毒拼接的速度由 30 分鐘-1 小時縮短到 15-30 分鐘。
而且截止目前,檢測結(jié)果還未出現(xiàn)不準確的情況;通過這樣的檢測方式,甚至變異病毒也能得到精準的檢測結(jié)果。它能夠?qū)σ伤撇±牟《緲颖具M行全基因組序列分析比對,避免因為病毒變異造成的漏檢情況。
新型冠狀病毒的電鏡照片 圖片來源:中國疾控中心
通過這次 AI 抗疫,我們可以看到,AI 檢測相關技術確實能夠大幅縮短醫(yī)生的工作量,并且提高專業(yè)診斷的效率和準確性。
本次由 2019-nCoV 病毒引發(fā)的肺炎疫情仍在持續(xù)。因此,AI 研習社(https://god.yanxishe.com/)重啟「肺炎賽題」,希望大家盡量減少外出,安心在家打比賽、拿獎金、勤洗手、戴口罩;全國人民上下一心,共抗疫情。
圖片來源:AI 研習社
大賽主頁提供了「肺炎 X 光片」相關的數(shù)據(jù)集,包括了訓練集 20013 張以及測試集 6671 張。比賽任務即:編寫相應代碼,訓練模型正確識別肺炎 X 光病灶數(shù)量~
開始時間:2020-02-04 09:00:00
結(jié)束時間:2020-03-05 00:00:00
大賽基礎獎金池為 5000 元,除了比賽原有的三種獎項——參與獎(30%)、突破獎(20%)、排名獎(50%);AI 研習社春節(jié)紅包活動仍在繼續(xù),邀請好友參賽得獎金,獎金直接劃入個人賬戶,視同比賽獎金。以上四種獎項均互不沖突哦!
數(shù)據(jù)集部分圖片示例
數(shù)據(jù)集下載鏈接:
春節(jié)紅包活動:
最終提交結(jié)果文件如下所示,其中,第一個字段位:測試集圖片 ID(注意 ID 即文件名是從 0 開始的);第二個字段:病灶數(shù)量(0、1、2、3、4)。
Ps:建議使用 UTF-8(BOM)編碼,共計 6671 個結(jié)果,數(shù)量不足可能導致無法評分哈~
整個比賽的評審完全透明化,我們將會對比選手提交的結(jié)果文件,按照如下公式計算得分,其中:
True:模型分類正確數(shù)量
Total :測試集樣本總數(shù)量
每日 24:00,我們也會將最新結(jié)果更新在官網(wǎng)排行榜上。眾志成城,武漢加油!
雷鋒網(wǎng) AI 開發(fā)者 雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。