0
本文作者: 劉海濤 | 2022-01-06 10:43 |
近日,由雷峰網(wǎng) & 醫(yī)健AI掘金志主辦的GAIR「醫(yī)療科技高峰論壇」在深圳正式召開。
論壇上,西湖大學特聘研究員、西湖歐米創(chuàng)始人郭天南以《AI 賦能的蛋白質(zhì)組大數(shù)據(jù)助力精準醫(yī)療》為題發(fā)表了演講。
郭天南表示:“AlphaFold2 使用 AI 技術在蛋白質(zhì)結構預測上取得了突破性進展,但此類 AI 驅(qū)動的生命科學的更大價值將體現(xiàn)在蛋白質(zhì)組學中?!?/p>
他說到,一個戰(zhàn)場上,有各類兵種和武器,各自的性能就如同是一個蛋白質(zhì)的結構。要贏得一場戰(zhàn)斗,不僅要知道各類兵種和武器的性能,更需要知道他們的數(shù)量、運行及修復方式,以及所有軍力在整個作戰(zhàn)系統(tǒng)中的互動,這個過程在生命健康中就如同是動態(tài)的蛋白質(zhì)組。這個類比在一定程度上體現(xiàn)了蛋白質(zhì)結構和蛋白質(zhì)組的關系?!?/p>
演講中,郭天南還重點介紹了一種新的蛋白質(zhì)組大數(shù)據(jù)展示形式——怎樣將蛋白質(zhì)組數(shù)據(jù)轉(zhuǎn)化成為張量(即 Tensor,多維矩陣)。
“張量可轉(zhuǎn)化為多種數(shù)據(jù)格式視頻,包括這里每個像素就是某個蛋白質(zhì)的一個多肽的一個片段,平鋪后可以得到一副有規(guī)律的、類似宇宙的圖像,密集像素之間的間隔都是一個分子單位。這種數(shù)據(jù)可直接用于深度學習,將人體內(nèi)的小宇宙轉(zhuǎn)化為大數(shù)據(jù)。”
以下為演講的全部內(nèi)容,雷峰網(wǎng)(公眾號:雷峰網(wǎng))做了不改變原意的整理和編輯:
大家好,我是西湖大學特聘研究員郭天南,給大家分享 AI 蛋白質(zhì)組大數(shù)據(jù)輔助精準醫(yī)療的一些想法和實踐。
我的演講分為六個部分:
第一,什么是蛋白質(zhì)組學;
第二,蛋白質(zhì)組學最新臨床技術進展;
第三,蛋白質(zhì)組學大數(shù)據(jù)的概念,以及 AI 發(fā)揮的作用;
第四,AI 助力甲狀腺結節(jié)的診斷;
第五,AI 在尿檢中實現(xiàn)新冠肺炎分類;
第六,將蛋白質(zhì)轉(zhuǎn)化為 Tensor 的多維矩陣新概念。
宏觀世界中存在各種各樣的疾病,不同的檢測方法會把結果以圖像、文字、數(shù)字等呈現(xiàn)在我們面前。而 AI 能將這些大數(shù)據(jù)進行整理、分析、歸納、預測,給我們的疾病診治帶來極大便利。
同時,還有一個我們看不到的微觀分子的世界,雖然目前還沒有技術可以直接看到微觀世界里分子機器如蛋白質(zhì)等的具體呈現(xiàn)和動態(tài),但它是真實存在的,并且所有生命活動都是在微觀世界中以蛋白質(zhì)為主的分子層面上發(fā)生的。
例如在感染新冠肺炎的時候,病毒入侵細胞后,細胞內(nèi)各種蛋白質(zhì)等分子會發(fā)生相應的改變。一個成年人大約有 30 萬億個細胞,一個真菌細胞大約有 4000 萬個蛋白質(zhì)。而人體的每一個白細胞、紅細胞到底有多少種類型的蛋白質(zhì),而每一類蛋白質(zhì)有多少個,現(xiàn)在還沒有準確數(shù)據(jù)。所以,人體其實包含了無數(shù)個非常宏大的微觀世界。
這張圖展示的是一個人的基因組,一個人的基因組基本上固定不變,從出生到死亡,心肝脾肺腎各個不同器官的基因組非常穩(wěn)定。但每一個器官、每一個細胞都不一樣。我們有紅細胞、白細胞、神經(jīng)細胞、腫瘤細胞等,它們在形態(tài)上有很大差別,功能也不盡相同,這些差別也主要體現(xiàn)在蛋白質(zhì)層面,也就是蛋白質(zhì)組。
蛋白質(zhì)組是一個非常復雜的體系,這里展示的是其中一些蛋白質(zhì),每一個蛋白質(zhì)就像汽車的一個零件,研究所有蛋白質(zhì)的科學就叫蛋白質(zhì)組學 (Proteomics),與基因組 (Genomics) 的概念相對應。
最近,在生命科學和 AI 領域有一個突破性進展,將 AI 應用于蛋白質(zhì)結構的預測,因為 AI 預測在理論上可以無限并行計算,也有人將之稱為“蛋白質(zhì)組”結構的預測。
每一個蛋白質(zhì)都有獨特的結構,并且這個結構處于動態(tài)變化中,不同蛋白質(zhì)結構間還有相互作用,目前這些結構在一定程度上可以由 AI 進行預測。
第一,蛋白質(zhì)結構預測跟蛋白質(zhì)組關系是什么?
我有一個比喻。這里展示有不同的戰(zhàn)士、不同的武器和不同的裝備,他們就如同是微觀分子世界的一個個蛋白質(zhì)。每一個裝備有什么性能、有什么樣的形態(tài)、可以做什么,都需要研究。
而且,要贏得一場戰(zhàn)斗,還需要知道各種士兵和武器的數(shù)量、運行及修復方式,以及所有軍力在整個作戰(zhàn)系統(tǒng)中的互動,這個過程在生命健康中就是蛋白質(zhì)組學。這個類比在一定程度上體現(xiàn)了蛋白質(zhì)結構預測和蛋白質(zhì)組學的關系。
第二,蛋白質(zhì)組學的臨床最新技術進展。
我一直以來都是從事臨床蛋白質(zhì)組研究,十幾年前還很難將蛋白質(zhì)組學技術應用在臨床,因為當時蛋白質(zhì)組學技術非常復雜,價格昂貴,距離臨床應用尚有很長的路。
但最近幾年,這個領域有了顯著進步,多種新的技術可有效分析各類臨床樣品。
例如血清、血漿、尿液、眼淚、唾液等各種體液樣本,以及活體組織、石蠟切片、細胞等固體樣本,甚至像毛發(fā)、骨骼、牙齒、糞便等特殊組織樣本都可以進行蛋白質(zhì)組分析,且只需極小量樣本就可進行蛋白質(zhì)組分析。
圖中這個案例的組織,直徑是 0.5 毫米,上部 90% 以上都是白色石蠟,下面紅色部分是僅肉眼可見的組織樣本。
在這部分組織上,我們可以提取出足夠量的樣本進行多次高通量的蛋白質(zhì)組分析。通過獨特的壓力循環(huán)技術,3 小時能處理 16 個微量組織樣品;從組織提取到進行質(zhì)譜分析,只需要 3 個小時。
這是我們幾個月前在 Cell 發(fā)表的關于 Clinical proteomics 的Snapshot文章,總結了最新的針對各類臨床樣品的蛋白質(zhì)組分析方法。
還有一個重要問題,蛋白質(zhì)組分析的成本。
根據(jù)估算,2006 年使用質(zhì)譜測一個蛋白質(zhì)的成本大約是 3 美金;而 2020 年測一個蛋白質(zhì)的成本是 0.1 美金左右。
如果用在臨床,經(jīng)過更好地工業(yè)優(yōu)化,使用質(zhì)譜進行蛋白質(zhì)檢測的成本還會進一步降低。
有了高通量微量蛋白質(zhì)組學技術,我們就有可能將 AI 納入蛋白質(zhì)組學驅(qū)動的精準醫(yī)療當中。
AI 醫(yī)療的初衷是希望通過人工智能和醫(yī)療大數(shù)據(jù)來實現(xiàn)對疾病的早期預測、準確診斷、有效治療、靶點發(fā)現(xiàn)、預后判斷等。目前使用的醫(yī)療數(shù)據(jù)主要是臨床數(shù)據(jù)、圖像、文本分析,或簡單的生化檢測。
而組學數(shù)據(jù)正在興起,因為組學可以得到微觀世界分子的動態(tài)信息,其中蛋白質(zhì)是最主要的靶點,幾乎所有藥物的靶點和效應分子都離不開蛋白質(zhì)。我們在蛋白質(zhì)組方面的進展會讓我們加深對生命的理解。
上圖來自于我們最近的一篇綜述,AI 醫(yī)療的核心驅(qū)動力是 AI,還有臨床數(shù)據(jù)、蛋白質(zhì)組、轉(zhuǎn)錄組、基因組。蛋白質(zhì)組從臨床隊列到樣本到制備分析,整個流程會越來越容易,我們將產(chǎn)生越來越多的蛋白質(zhì)組大數(shù)據(jù)。
所以我們提出“蛋白質(zhì)組大數(shù)據(jù)”概念。蛋白質(zhì)組大數(shù)據(jù)可以通過各種臨床樣本含有的蛋白質(zhì)組的內(nèi)容,和各種蛋白質(zhì)的量,獲取 AI 醫(yī)療以前無法獲得的信息。
下面介紹一下蛋白質(zhì)組在臨床上的應用。
第一,甲狀腺結節(jié)。甲狀腺結節(jié)很常見,幾乎一半成年人都有甲狀腺結節(jié),而這些絕大多數(shù)為良性。
如果出現(xiàn)甲狀腺結節(jié),一般都是通過 B 超、血液檢測進行診斷,如果懷疑結節(jié)是惡性的,還需要做穿刺活檢,判斷組織的良惡性。
如果是惡性,就要通過手術切除,雖然這并不是很大的手術。但切除之后,病人需要終生服用人工激素。因為甲狀腺是一個非常重要的器官,切除之后就無法分泌甲狀腺素。
這其中有個關鍵問題,30% 左右的甲狀腺結節(jié)目前無法判斷是良性還是惡性,因此患者通常有非常大的心理壓力。壓力之下,大多數(shù)人會選擇甲狀腺切除。但手術后卻經(jīng)常發(fā)現(xiàn)其實是良性結節(jié),原本并不需要切除這么重要的器官。這是因為缺乏對甲狀腺結節(jié)良惡性進行準確判斷的方法。
美國有多項研究嘗試使用基因測序方法,為這些無法判斷的甲狀腺結節(jié)作
進一步診斷,通常要測 100 多個基因,其中包括 DNA 和 RNA。
以上表格是目前市面上所有經(jīng)過 FDA 批準的商業(yè)化試劑盒。經(jīng)過第三方評估,發(fā)現(xiàn)這些檢測靈敏度很高,接近百分之百,但特異性只有 10%-52%,也就是被判斷為惡性的結節(jié),實際上有大約50%-90%是良性的,這就導致過度治療,大量良性甲狀腺結節(jié)被切除。
所以,我們就嘗試開發(fā)基于蛋白質(zhì)的甲狀腺結節(jié)診斷系統(tǒng)。具體來說,我們將新加坡 578 位患者的數(shù)據(jù)作為訓練數(shù)據(jù)集。
首先這些患者的結節(jié)良惡性情況是已知的,利用這部分數(shù)據(jù)我們訓練出了一個神經(jīng)網(wǎng)絡模型,這個模型最初包含了 6000 多個蛋白。
最后我們挑選出了 19 個蛋白質(zhì),在一個回顧性的臨床隊列中進行了驗證,并在一個前瞻性的多中心臨床隊列中也做了驗證,目前已經(jīng)有十幾個國內(nèi)外醫(yī)院參與到這項工作中。
該方法在回顧性與前瞻性的隊列里面都能夠達到比較好的效果,具有 90% 的準確率,尤其在特異性方面優(yōu)于基因組的效果。我們正在通過更大規(guī)模的前瞻性的隊列去驗證、進一步優(yōu)化這個基于蛋白質(zhì)的 AI 模型,并正在開發(fā)可以在臨床使用的試劑盒。
蛋白質(zhì)組不僅僅可以用作診斷,還可以發(fā)現(xiàn)潛在的藥物靶點,幾乎所有的藥物都是要以蛋白質(zhì)作為靶點。
例如,我們在甲狀腺癌中發(fā)現(xiàn)有一個特殊的亞型叫 Hürthle cell 亞型,目前的分子機理研究非常少,也沒有特別有效的藥物治療。
目前僅知道這種腫瘤主要患者群體是老年女性,在顯微鏡下酸性染色比較強,但原因未知。我們的數(shù)據(jù)顯示,在這一群特殊的腫瘤中,有 186 個蛋白跟其它腫瘤是不一樣的,其中有 160 個蛋白都跟線粒體蛋白相關。
這些線粒體相關的蛋白,很多都是潛在藥物的靶點,有可能用來開發(fā)針對這一特殊亞型腫瘤的新方法。
第二個案例是新冠診斷。絕大部分患者感染新冠之后,自身免疫力都可以將病毒消滅,核酸陽性患者只有很少的部分,其中約 20% 的陽性患者會出現(xiàn)重癥和危重癥。 根據(jù) 2020 年的數(shù)據(jù)統(tǒng)計,占 80% 的輕癥患者可以通過一般抗病毒治療或隔離治愈,而占20% 的重癥患者,如果早期干預也可以轉(zhuǎn)化為輕癥。
但現(xiàn)在世界上還有很多國家的重癥、危重癥病人無法轉(zhuǎn)好。重癥診斷一般都是基于臨床數(shù)據(jù)判斷,也就是宏觀世界的數(shù)據(jù)——病人呼吸急促、血氧飽和度非常低等。
當這些指征出現(xiàn)的時候,病人已經(jīng)處于重癥,治療窗口期已經(jīng)非常短,要進行緊急處理,如吸氧、上呼吸機等。
所以,我們試圖在血液中找到一些分子,在患者演變?yōu)橹匕Y之前,通過 AI 進行鑒別診斷,通過分子的改變,提前預判重癥,以期為每一位患者提供更加精準的治療。
為此,我們在 2020 年收集了一些輕癥患者、重癥患者以及健康人群對照樣本,將患者分為訓練集和驗證集。
我們在訓練集中測量了蛋白,其中包含 22 個蛋白和 7 個代謝物,最終在訓練集中 AI 達到了 93.5% 的準確度,有兩個患者的預測結果和臨床結果不符。其中一位 70 歲男性患者,臨床是輕癥,但模型認為他是重癥,而我們發(fā)現(xiàn),他在所有患者中年齡最大,所以這位男性的治療方法也跟重癥患者最相似。
而在驗證集中的 19 位患者中,有 3 個患者跟臨床診斷不相符,后來發(fā)現(xiàn)主要是因為患者復雜的病史情況。
其中,XG45 這位患者臨床判斷為重癥,但 AI 認為他是輕癥,后來得知,這位患者入院前做了 20 多天各種的抗病毒治療,所以入院時雖然臨床表現(xiàn)為重癥,但很快就康復出院。
另外一位患者 XG22,臨床癥狀是輕癥,AI 模型判斷為重癥,后來診斷發(fā)現(xiàn)有乙肝和糖尿病,是所有觀察組中住院時間最長的一位。其他重癥患者都已經(jīng)出院,他還沒有明顯的好轉(zhuǎn),連續(xù) 50 多天檢測都呈陽性。這位患者的微觀世界數(shù)據(jù)表明,他的慢性疾病導致他的免疫系統(tǒng)與其他人都不一樣,比重癥患者對病毒清除能力更弱。
另外一個獨立隊列有十幾位患者,其中 3 位患者與臨床診斷不相符,后來發(fā)現(xiàn)不一定是我們錯了,甚至我們微觀世界的數(shù)據(jù)其實更加準確。
例如,X2-22 這個患者是一位 66 歲的女性,她的分數(shù)是所有患者中最低的,比重癥患者還要低,她在采血當天,血糖達到 27.8,這是典型的高血糖危象。
我們通過蛋白質(zhì)和代謝的分析,利用 AI 模型,準確找到了這位患者,未來如果我們有可能將這個方法在臨床廣泛使用,有可能讓醫(yī)生更加從容的應對類似患者。
除了對疾病診斷和預后進行判斷之外,蛋白質(zhì)組數(shù)據(jù)同時還可以提供分子通路信息,這些改變的通路里通常含有潛在的治療靶點。
我們的文章發(fā)表之后,確實有很多臨床研究針對其中一些潛在靶點,對新冠藥物進行了開發(fā)。
此外,我們也做了新的研究,利用尿液做新冠診斷。一般我們認為尿液中沒有蛋白,如果發(fā)現(xiàn)蛋白尿,一般認為是腎臟功能出了問題。
但這種觀念是因為過去臨床使用的一般的蛋白檢測技術比較陳舊,而目前蛋白質(zhì)譜技術可以發(fā)現(xiàn)正常尿液里有非常多的蛋白。為此,我們采集新冠和相應對照患者的血樣和尿樣,展開了更多蛋白質(zhì)組學分析。
我們發(fā)現(xiàn)尿液里有 3800 多個蛋白,而同樣的方法只能在血液中發(fā)現(xiàn)大約 1500 個蛋白,我們在血液中發(fā)現(xiàn)的蛋白,其實在尿液樣本中絕大多數(shù)都可以測到,且分子量分布差不多,并不是只有小的蛋白才能進入尿液。
得到結果之后,我們再用機器學習預測,使用血蛋白和尿蛋白進行新冠輕重癥鑒別,發(fā)現(xiàn)和目前使用血液檢測蛋白的方法效果類似。
并且,重癥患者尿蛋白模型的分數(shù)剛開始還比較高,康復期才逐漸下降。這說明尿蛋白也可以對新冠病情進行分類和預測。
此外,尿液中還可以發(fā)現(xiàn)很多細胞因子,一般通過抗體檢測新冠重癥患者,在細胞因子風暴數(shù)據(jù)中一般只測量十數(shù)個細胞因子。
用質(zhì)譜檢測可以測到 200 多個細胞因子以及受體,我們發(fā)現(xiàn)一些新發(fā)現(xiàn)的細胞因子都與新冠有密切相關性,這些都是目前只能通過蛋白質(zhì)譜檢測到的。蛋白質(zhì)譜可以讓我們看到肉眼無法察覺的,但在微觀世界中真實發(fā)生著的蛋白分子的一舉一動。
最后介紹一下我們的新技術——蛋白質(zhì)大數(shù)據(jù)。
大數(shù)據(jù)一定要有展示形式,大數(shù)據(jù)領域有一個基本的、適用于深度學習的大數(shù)據(jù)格式,叫做張量 (Tensor),即多維矩陣。各種大數(shù)據(jù)形式,包括文本、聲音、圖像都可以轉(zhuǎn)化成 Tensor。
那么蛋白質(zhì)組數(shù)據(jù)能不能轉(zhuǎn)化成 Tensor?
我們最近將蛋白質(zhì)轉(zhuǎn)化為 Tensor 多維矩陣,這個矩陣可以轉(zhuǎn)化為視頻。
如圖所示,每個像素就是某個蛋白質(zhì)的一個多肽片段,平鋪后可以得到一副有規(guī)律的圖片,如果再放大就會發(fā)現(xiàn)每個像素之間像宇宙圖像一樣有一些間隔,每個間隔都是一個分子單位。
我們的微觀世界蛋白質(zhì)組就像宇宙一樣,有大量信號,這些信號絕大部分都不是隨機存在的,而是生物信號。
我們做了統(tǒng)計,45 分鐘內(nèi)質(zhì)譜機采集的像素點達到 100 多億個。我們也建立了一些針對蛋白質(zhì)組 tensor 的計算流程,像 TensorFlow 一樣,可以進行各種深度學習分析,用于疾病診斷、新靶點發(fā)現(xiàn)等。
西湖歐米是我們實驗室的 Spin-off,我們希望和醫(yī)院和社區(qū)合作,滿足大家對健康及醫(yī)療的需求。雖然有很多宏觀世界數(shù)據(jù),但是微觀世界分子運作數(shù)據(jù)極其匱乏。歐米工廠生產(chǎn)試劑盒、做樣本制備,可以將各類臨床樣品轉(zhuǎn)化為蛋白質(zhì)組數(shù)據(jù)。在數(shù)據(jù)中心處理之后,AI 可發(fā)現(xiàn)并總結規(guī)律,用于指導疾病診療。同時,也有望發(fā)現(xiàn)新的藥物靶點,與制藥公司合作,開發(fā)更好的治療方法。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。