0
本文作者: 劉海濤 | 2021-07-29 10:46 |
1987年,《紐約時報》雜志曾將人類基因組計劃描述為“歷史上最大、最昂貴、最激進的生物醫(yī)學(xué)研究計劃?!?/p>
但此后三十年時間,測序技術(shù)的進步,卻讓基因組學(xué)這一技術(shù),成為這個世紀最主要的醫(yī)學(xué)科研進展之一。
其不僅改變了醫(yī)學(xué)研究的性質(zhì),也讓科學(xué)家能夠進行全面且強大的探索,據(jù)美國銀行預(yù)測,到2025年,與基因組學(xué)直接相關(guān)的研究產(chǎn)業(yè)就會達到410億美元。
而今,同樣的故事也在蛋白質(zhì)組學(xué)研究出現(xiàn),在人類基因組計劃完成之后,就有科學(xué)家在《Science》和《Nature》雜志興奮預(yù)言,蛋白質(zhì)組學(xué)時代即將到來,并將取代基因組學(xué)成為生命科學(xué)研究的焦點。
西湖大學(xué)特聘研究員、西湖歐米創(chuàng)始人郭天南表示:一切生命的表現(xiàn)形式,本質(zhì)上主要就是以蛋白質(zhì)為主的生物分子的體現(xiàn),而蛋白質(zhì)被認為是一切生命活動的齒輪,也是藥物作用的最主要靶點。完整意義上的蛋白質(zhì)組學(xué),能夠?qū)】岛图膊〉陌l(fā)生、發(fā)展、轉(zhuǎn)歸等過程有一個全面的認識,把握疾病診治的關(guān)鍵,提高藥物開發(fā)的效率。
近些年,隨著蛋白質(zhì)組大數(shù)據(jù)和人工智能技術(shù)的出現(xiàn),這一研究領(lǐng)域獲得了極大的加速,并展現(xiàn)出非常廣闊的前景。
近日,雷鋒網(wǎng)《醫(yī)健AI掘金志》以“AI制藥·下一個現(xiàn)象級賽道”為主題,邀請燧坤智能、英飛智藥、宇道生物、西湖歐米、華為云,五家先鋒企業(yè),舉辦了一場云峰會分享。
作為此次論壇的嘉賓,西湖歐米聯(lián)合創(chuàng)始人、董事長郭天南以《蛋白質(zhì)組大數(shù)據(jù)聯(lián)合AI在藥物開發(fā)中的潛在應(yīng)用》為題,進行了演講。
郭天南表示:目前,微觀生物世界數(shù)據(jù)仍是一個黑盒子,成年人身體大約有30萬億個細胞,即使一個非常簡單的真菌細胞也有4千萬個以上蛋白質(zhì),而且這些細胞里面蛋白質(zhì)數(shù)量也是目前難以估量的復(fù)雜存在。
雖然,我們看不到這些微觀世界的數(shù)據(jù),但這與我們的生命和健康都有重要的意義。
以甲狀腺結(jié)節(jié)良、惡性判斷為例,大約50%以上成年人都有甲狀腺結(jié)節(jié),其中絕大多數(shù)結(jié)節(jié)都是良性,但同時也有30%結(jié)節(jié)無法診斷,如果不切除可能危及生命,如果切除發(fā)現(xiàn)是良性可能過度治療,因為患者并不需要在當前這個階段切掉甲狀腺。
過去四年,郭天南的團隊和多國合作者一起,從蛋白質(zhì)組數(shù)據(jù)出發(fā),引入神經(jīng)網(wǎng)絡(luò)等技術(shù)開發(fā)了判斷甲狀腺結(jié)節(jié)良、惡性的新方法。
該方法通過和新加坡、西湖大學(xué)等科研機構(gòu)合作,對超過6000多個蛋白質(zhì)組數(shù)據(jù)做了測試和鑒定,得到新型甲狀腺結(jié)節(jié)鑒定方法ThyroProt (version1),使甲狀腺結(jié)節(jié)良惡性診斷特異性達到93%以上。
目前,該技術(shù)和方法正在通過西湖大學(xué)校辦企業(yè)西湖歐米進行臨床轉(zhuǎn)化。
以下是演講全部內(nèi)容,《醫(yī)健AI掘金志》做了不改變原意的整理和編輯:
大家晚上好,我是郭天南,是西湖大學(xué)特聘研究員、博士生導(dǎo)師,西湖大學(xué)蛋白質(zhì)組大數(shù)據(jù)實驗室負責人,西湖實驗室iMarker實驗室主任,西湖歐米創(chuàng)始人。
很高興跟大家進行分享,今天的演講題目是“蛋白質(zhì)組大數(shù)據(jù)聯(lián)合AI在藥物開發(fā)中的潛在應(yīng)用”。
大數(shù)據(jù)實際上是目前我們數(shù)字經(jīng)濟時代的“石油”,它的價值甚至比石油更加昂貴。
觀察家們預(yù)計,數(shù)字經(jīng)濟將成為全球經(jīng)濟與國家競爭力的又一個分水嶺。
新冠疫情全球爆發(fā),更是加速這一進程,我國計劃總投入50萬億元來推動“新基建”的建設(shè)。
據(jù)統(tǒng)計,4年之后,全世界的數(shù)據(jù)量將達到175ZB,相當于1750億TB,90%以上的數(shù)據(jù)是過去5年產(chǎn)生,所以今后5年產(chǎn)生的數(shù)據(jù)可能會更快。
而幾個主要存儲數(shù)據(jù)的公司都是科技企業(yè)。例如Google、Facebook、Microsoft和Mmazon都存儲了至少1200PB信息,數(shù)據(jù)應(yīng)該是目前經(jīng)濟數(shù)據(jù)及科研的一個制高點。
我們發(fā)現(xiàn)這些數(shù)據(jù)很多來自于旅行、教育、通訊、購物平臺等,主要是文本、視頻、聲音、圖片等形式,普遍都是宏觀世界數(shù)據(jù),也有一些健康和生命相關(guān)數(shù)據(jù),例如什么病應(yīng)該掛哪一科室,找哪一個醫(yī)生等等。
前面提到全部都是人類宏觀世界數(shù)據(jù)。地球約有70億人,像杭州、蘇州常住人口有1000多萬人,每天產(chǎn)生大量宏觀世界數(shù)據(jù)。但我們還缺乏微觀世界的數(shù)據(jù)。
我們看不到的微觀世界目前像是一個黑盒子,一個成年人大約有30萬億個細胞,即使一個非常簡單的真菌細胞也有4000萬個以上蛋白質(zhì)。
我們?nèi)祟愐粋€細胞蛋白質(zhì)數(shù)量遠遠高于4000萬個蛋白質(zhì)。每個細胞都有獨特特征,每個細胞里面蛋白質(zhì)數(shù)量是目前無法估量的復(fù)雜存在。
雖然我們?nèi)庋劭床坏?,但可以通過一些模擬,一個視頻感受我們體內(nèi)的蛋白質(zhì)機器。例如新冠病毒入侵,將會引起人肺內(nèi)細胞蛋白質(zhì)反應(yīng)。這是我們看不到的過程。
但如果我們有技術(shù)把細胞放大幾萬倍,就可以看到里面存在一個全新世界,各種各樣蛋白質(zhì)機器有條不紊的運動、變化。我們雖然看不到它們存在,但蛋白質(zhì)組世界同我們健康息息相關(guān)。
再舉一個例子,這是一個ATP合成酶動畫。1997年,獲得諾貝爾化學(xué)獎的三位科學(xué)家發(fā)現(xiàn)了這樣一個蛋白質(zhì)機器。
這個機器可以不斷旋轉(zhuǎn),可以讓我們吃的食物變成以ATP為主的能量分子,這些紅色、綠色、黃色、藍色就是分子馬達不同部件,他們的運作同我們宏觀世界的汽車和機械表里面的零件很相似。只是生命活動分子馬達不需要電流作為能源來源,是通過我們生物能量來運作。
現(xiàn)在我們有技術(shù)可以將這些蛋白質(zhì)動態(tài)變成數(shù)據(jù),即蛋白質(zhì)組大數(shù)據(jù)。
這里舉一個例子,圖中每一個像素點都是一個蛋白質(zhì)片段和一個多肽片段,紅色表示片段強度比較高,黑色表示片段強度比較低。
如果我們將動畫平鋪到一張圖上,大家可以看到像竹簡一樣一列一列,這就是微量組織產(chǎn)生的蛋白質(zhì)組大數(shù)據(jù)視覺化呈現(xiàn)。
將其中4條挑出來橫著放,可以看到它們具有高度復(fù)雜的內(nèi)容,如果再將其中很小一個區(qū)域放大,可以看到像宇宙一樣的星空圖。
宇宙里有很多點紅的、綠的、灰色的,像浩瀚宇宙一樣神秘,這里每一個點對應(yīng)都是體內(nèi)蛋白質(zhì)信息,目前人類對蛋白質(zhì)組了解非常少。
我們團隊現(xiàn)在建立了蛋白質(zhì)大數(shù)據(jù)新數(shù)據(jù)結(jié)構(gòu),叫DIAtensor (DIAT)。有了這樣數(shù)據(jù)結(jié)構(gòu),就可以很方便將蛋白質(zhì)大數(shù)據(jù)進行視覺化、轉(zhuǎn)換為各種格式,并且進行深度學(xué)習(xí),回答生物醫(yī)學(xué)健康相關(guān)問題。
下面列舉幾個案例,第一是新冠疫情剛開始階段,我們與浙江省恩澤醫(yī)院、迪安凱萊譜一起合作的項目。
武漢疫情報道出來之后,大家非常關(guān)注,怎么樣鑒定哪些新冠患者是重癥,因為大部分成年人感染新冠病毒之后沒有任何癥狀,我們體內(nèi)免疫力可以殺死新冠病毒。
據(jù)統(tǒng)計大概80%感染新冠是輕癥,絕大部分輕癥患者只要居家隔離,吃簡單抗病毒藥物,就可以得到有效治療,直至自愈,甚至不經(jīng)過治療也可以痊愈。
但有20%癥狀新冠患者會出現(xiàn)非常不好情況,呼吸困難,如果不吸氧、不用呼吸機就可能死亡。如果能夠及早發(fā)現(xiàn)重癥患者,就可以很有效地利用寶貴的 ICU病房等資源。
當時,要判斷患者是否為重癥,只有當患者呼吸困難、血氧指數(shù)下降非常嚴重、進入ICU時才能夠得到鑒定。
我們?nèi)ツ旰歪t(yī)院合作,做了一個基于蛋白質(zhì)組學(xué)和AI的新診斷方法,可以從血液里的蛋白質(zhì)、代謝等特征建立模型,提前預(yù)判哪些病人會出現(xiàn)重癥,準確度有93.5%。
但其中有兩個患者經(jīng)常不準確,我們發(fā)現(xiàn)其中一個患者模型跟臨床不相符,是XG3患者,他是一個輕癥患者,但模型認為他是一個重癥。
后來發(fā)現(xiàn)這位輕癥患者是一個70歲男性,雖然是輕癥,但他是整個研究隊列里年齡最大,所以雖然是輕癥,但他的血液分子特征卻提示和重癥患者更相似。
上圖中,是一個獨立訓(xùn)練驗證集,共有10個病人,其中1個患者是XG45,臨床診斷是重癥患者,但模型把他劃在虛線左邊,認為他和輕癥患者更相似。
后來臨床審核發(fā)現(xiàn),這位患者是一位62歲男性,入院之前經(jīng)過20多天中藥和抗病毒治療,所以臨床上雖然表現(xiàn)為重癥,但實際其分子特征和輕癥更加相似,所以通過分子檢測可以看到臨床表現(xiàn)之外的一些蛛絲馬跡和預(yù)兆。
在圖中下方是一位XG22輕癥患者,但模型認為是重癥,和臨床醫(yī)生反復(fù)的核實臨床資料,發(fā)現(xiàn)患者有乙肝傳染史、糖尿病,雖然是輕癥,但住院時間是所有患者最久,甚至我們至今也不知道他為什么50多天才轉(zhuǎn)陰。
此外,在后續(xù)訓(xùn)練中,我們也發(fā)現(xiàn)還有十幾位病人經(jīng)過分子檢測和AI預(yù)測,和臨床診斷也不太相符,最終才知道來自底層的分子診斷可能會更加精準。
例如,樣本X2-22在患者里分數(shù)最低,甚至比重癥患者打分更低,但臨床認為他是輕癥。
臨床審核這個患者是一位66歲女性,在采血當天血糖達到27.8mmol/L,正常應(yīng)該不超過6.1mmol/L,她當時處于非常危險的高血糖危象,好在恩澤醫(yī)院對她進行了救治,如果晚一些,患者有可能就會因為高血糖危象而失去生命。
所以我們?nèi)绻崆坝蟹肿訖z測模型,就可以預(yù)測哪些患者更嚴重,使用蛋白質(zhì)檢測和AI模型監(jiān)測病人病情,可以達到非常好效果。
宏觀世界上看不到一些分子機理也可以通過蛋白質(zhì)檢測來實現(xiàn),例如找到藥物靶點。
例如,我們今年完成的一篇發(fā)表在CELL上的工作,將當時在武漢協(xié)和醫(yī)院因為新冠而不幸離世的患者進行尸檢,觀察死亡患者的心、肝、脾、肺、腎、甲狀腺、睪丸等組織器官的細胞層面改變。
過去對類似新冠疾病等未知疾病的理解,通常是宏觀世界癥狀為基礎(chǔ),將組織用顯微鏡放大,通過病理技術(shù)檢測了解疾病對人體影響,但這樣的檢測并不能知道什么病因?qū)е禄颊咚劳?,也不能告訴我們什么樣藥物,讓病人病情逆轉(zhuǎn),降低死亡率。
我們通過蛋白質(zhì)檢測可以獲得底層信息,對每一個器官蛋白質(zhì)發(fā)生的改變進行鑒定。
圖中標色的蛋白質(zhì)都是在心、肝、脾、肺、腎、甲狀腺、睪丸等里面死亡患者的高蛋白表達,這可能是他們治療的靶點。
這兩個案例說明對于人體所有組織器官、液體、體液等都可以進行蛋白質(zhì)分析,只要有生命就有蛋白質(zhì),有人體活動就有蛋白質(zhì)變化。
我們可以從血、尿、眼淚等體液中鑒定到大量蛋白質(zhì),例如眼淚里有數(shù)千個蛋白質(zhì)、腦積液、唾液、活檢組織、腫瘤組織、冰凍組織、石蠟組織細胞、頭發(fā)、牙齒、指甲、骨骼、糞便也含有大量蛋白質(zhì)。
極小量樣品,小到一個芝麻的1/10或者是一滴血的1/10,或者是幾滴尿液,可以進行有效蛋白質(zhì)組分析。
大多數(shù)人認為蛋白質(zhì)鑒定比較貴、慢。但現(xiàn)在隨著技術(shù)改進,實驗室每天可以快速處理數(shù)百個蛋白質(zhì)組,產(chǎn)生大量用于AI分析的數(shù)據(jù)。
圖中一個石蠟組織里大部分都是石蠟,腫瘤組織極少,從這么小組織中提取的蛋白質(zhì)可以進行幾十次蛋白質(zhì)組分析,實現(xiàn)定量組織的蛋白質(zhì)組全面分析。
例如這張圖,是目前廣州健康營養(yǎng)隊列以及西湖大學(xué)鄭鉅圣團隊一起合作的蛋白質(zhì)組項目,項目分析大約18000個血清蛋白質(zhì)組,進行了代謝綜合征預(yù)測。
代謝綜合癥就是三高,高血壓、高血糖、高血脂患者和亞健康狀態(tài)患者。
他們從2008年開始,對大約兩千個人進行監(jiān)測,通過臨床資料,采集血、尿、糞便等,2014年又隨訪了1800多人繼續(xù)研究,2018年還有1179位仍然在參與這個項目。
目前的設(shè)備用1微升血提出的蛋白質(zhì),就足夠做幾百次蛋白質(zhì)組分析,20分鐘就可以分析一個樣品蛋白質(zhì)組。
現(xiàn)在分析速度提高,5~10分鐘就可以做一個樣品,分析成本又降低數(shù)倍。
我們一共鑒定300多個蛋白質(zhì)組,建立了機器學(xué)習(xí)模型,準確度差不多達到80%,這個數(shù)據(jù)是幾個月前的,最近我們又取得新進展,可以達到約90%準確度。
僅僅通過不到一滴血的12個蛋白質(zhì),就可以預(yù)測一個人10年當中是否會出現(xiàn)代謝綜合征,這樣技術(shù)對健康狀態(tài)監(jiān)測有非常好的應(yīng)用前景。
此外,新冠病毒研究也有了新發(fā)現(xiàn),通過尿液里蛋白質(zhì)結(jié)合鑒定新冠輕癥和重癥。
醫(yī)院檢測尿蛋白是比較傳統(tǒng)的方法,尿蛋白非常高的時候才能測出,而我們通過靈敏蛋白質(zhì)組技術(shù),發(fā)現(xiàn)健康人尿里也有數(shù)千個蛋白。
血液蛋白質(zhì)基本都可以在尿里檢測出,腎小球重吸收導(dǎo)致血高豐度蛋白大大降低,所以可以看到更多蛋白質(zhì)。
我們通過分子量分析發(fā)現(xiàn),尿液蛋白質(zhì)分子量大小同血液沒有明顯區(qū)別。
而且,我們的多個研究還發(fā)現(xiàn)細胞因子風暴、免疫治療或其他疾病中,尿蛋白都有非常重要指示作用。
尿蛋白質(zhì)組數(shù)據(jù)結(jié)合機器學(xué)習(xí)可以進行新冠輕重癥判斷。如圖所示,紅色顏色越深代表預(yù)測效果越好,準確度越高。
最后列舉一個甲狀腺結(jié)節(jié)分析案例,甲狀腺每個人都有,在脖子下面像蝴蝶一樣的小器官,只有十幾克。
甲狀腺結(jié)節(jié)也常見,50%以上成年人都有甲狀腺結(jié)節(jié),年紀越大發(fā)生率越高,大部分經(jīng)常吃海鮮的人甲狀腺結(jié)節(jié)概率高達90%以上。
甲狀腺結(jié)節(jié)分惡性和良性,惡性醫(yī)生會建議全切或半切除,但甲狀腺是非常重要的激素器官,患者切除后需要終身服藥,情緒上也會有變化。
目前,有30%結(jié)節(jié)是無法診斷良惡性,當出現(xiàn)無法診斷結(jié)節(jié),病人和醫(yī)生都會感到巨大壓力,如果切除可能是過度治療。
因為患者并不需要在當前階段切掉甲狀腺,所以就涉及到精準診斷問題。
從十幾年前開始,基因測序技術(shù)成熟之后,美國FDA就已經(jīng)批準多個基因診斷試劑盒,通常測量幾十,甚至一百多個基因DNA和RNA來診斷甲狀腺結(jié)節(jié)良惡性。
經(jīng)過權(quán)威雜志Nature Reviews Endocrinology 在2018年評估,這些基因測序檢測結(jié)果靈敏度可以達到83%~100%,即如果結(jié)節(jié)是惡性,檢測試劑盒基本可以判斷出來,但特異性只有10%~52%。
換句話說試劑盒判斷是惡性結(jié)節(jié)實際有大約50%~90%是良性,最后會讓最高達90%的患者有過度治療危險。
過去四年,我們首次用蛋白質(zhì)組大數(shù)據(jù)結(jié)合神經(jīng)網(wǎng)絡(luò),開發(fā)了判斷甲狀腺結(jié)節(jié)良、惡性的新方法,前面所有診斷方法都是基于基因,而基因跟蛋白質(zhì)相比疾病相關(guān)性相對弱一些。
基因會有很多改變,如果不在蛋白質(zhì)水平得到體現(xiàn),很難影響到疾病發(fā)生和進展。
而蛋白質(zhì)檢測難點在于,如何處理小量組織,鑒定更多蛋白,穩(wěn)定進行蛋白質(zhì)定量,我們已經(jīng)有效解決這些技術(shù)難點,也開展多中心臨床研究。
我們同新加坡Gopal和Kon教授等團隊合作建立訓(xùn)練集,采集了578個患者樣品。
新加坡是海邊城市,人吃海鮮比較多,甲狀腺結(jié)節(jié)也非常多,我們做了1700多個蛋白質(zhì)組,同時在中國也做了回顧性研究,有3個中心納入271個患者;后來又做了前瞻性研究,納入255個患者,目前這些還都是尚未公開發(fā)表的前期數(shù)據(jù)。
我們用微量組織高通量蛋白質(zhì)定量方法,總共鑒定6000多個蛋白,其中神經(jīng)網(wǎng)絡(luò)分析是西湖大學(xué)李子青教授團隊完成的。
新加坡樣品得到這個模型,在回顧性隊列和前瞻性隊列綜合都達到90%以上準確度。
將蛋白質(zhì)組織更多用于藥物開發(fā),是后續(xù)非常有信心要做的一件事,藥物開發(fā)是大家非常關(guān)注的焦點。
ThyroProt v1基于蛋白質(zhì)檢測方法,同發(fā)表在New England Journal of Medicine的基因診斷方法相比,靈敏度要稍弱一些。
這因為目前蛋白質(zhì)診斷甲狀腺診斷主要問題是特異性,基因檢測特異性在50%~81%左右,蛋白質(zhì)可以達到93%,綜合準確度蛋白質(zhì)是90%以上,基因最高是84%,這是2018年結(jié)果。
這個研究說明我們可以對數(shù)以千計微量臨床樣品進行有效蛋白組學(xué)分析,并且聯(lián)合AI改善疾病診斷。
將蛋白質(zhì)組技術(shù)更多用于藥物開發(fā),是我們下一步非常有決心和信心要做的方向,藥物開發(fā)是大家非常關(guān)注的焦點,所有疾病都希望通過藥物進行有效治療。
將三個步驟進行分析,會發(fā)現(xiàn)蛋白質(zhì)組學(xué)在藥物開發(fā)中每一個步驟都有非常大潛作用,幾乎所有藥物都針對蛋白質(zhì)發(fā)揮作用。
藥物臨床結(jié)果預(yù)測,通常需要幾個療程,每個療程可能需要幾個月時間甚至更久。
新冠研究里發(fā)現(xiàn),急性期可能在血液已經(jīng)出現(xiàn)一些征兆,這和后來反應(yīng)都有一些復(fù)雜關(guān)聯(lián)。已有研究發(fā)現(xiàn),血液里尿蛋白質(zhì)改變,同幾天或幾周后臨床表現(xiàn)有非常密切關(guān)聯(lián)。
所以我們有信心通過臨床試驗,加上蛋白質(zhì)數(shù)據(jù),加上模型建立,更快更準確的判斷。
目前非常受到關(guān)注的兩種新型藥物,研究歷史都有十年或十幾年,這些藥物得到國內(nèi)、外非常多關(guān)注。
第一類是ADC藥物(Antibody-Drug conjugates),它的設(shè)計非常巧妙,一個抗體可以結(jié)合腫瘤細胞表面一些特異性蛋白,而尾巴上有一些傳統(tǒng)毒素,這使得它具有殺傷力同時又具有特異性。
但特異性前提是能夠找到只在腫瘤細胞表面的高表達蛋白。
我們團隊做了簡單調(diào)研,自2000年以來,全球共有11個ADC產(chǎn)品在FDA獲批上市,主要以癌癥為主。
國內(nèi)ADC稍晚一些,目前ADC藥物研發(fā)處于初級階段,有一款藥物今年剛剛獲得批準。
可以看到Nature Reviews Drug Discovery預(yù)測結(jié)果,今后5年ADC銷量在國外銷量會出現(xiàn)非常大提升。
ADC研發(fā)及蛋白質(zhì)組學(xué)應(yīng)用難點,重要就是靶向抗原選擇,抗體結(jié)合哪些蛋白很重要,這是ADC開發(fā)的起點,也是ADC研發(fā)企業(yè)競爭的熱點。
目前,國內(nèi)已公開研發(fā)藥物中大部分都是靶向HER2,未來預(yù)期會有越來越多ADC藥物靶點有待發(fā)掘。
蛋白質(zhì)組學(xué)可能有非常巨大作用,團隊也在這方面綜述,現(xiàn)有蛋白質(zhì)數(shù)據(jù)可以看到大腸癌、胃癌、肺癌等等,有非常多潛在藥物靶點存在數(shù)據(jù)當中,我們團隊后面會和一些ADC公司合作,尋找新差異化靶點提供支持。
此外是臨床試用者選擇,這和前面一樣,雖然已經(jīng)找到有效藥物,但藥物并不對所有人有效。
通過蛋白質(zhì)組學(xué)、質(zhì)譜檢測,可以有效確定患者腫瘤組織里有沒有蛋白質(zhì)高表達,在疾病進展當中有沒有改變,通過蛋白質(zhì)檢測針對不同個體情況,提供相對應(yīng)治療方案,為助力精準醫(yī)療落地提供有效指導(dǎo)。
第二類創(chuàng)新藥是PROTAC技術(shù),這個技術(shù)可以使以前沒有藥物的蛋白靶點有效降解,是非常巧妙的體內(nèi)泛素化系統(tǒng)。
這個藥物有兩端,一端連接E3連接酶,另外一端連接降解蛋白質(zhì),將兩端連接到一起后,靶向蛋白就會被泛素化。
泛素化也被稱為死亡之吻,蛋白質(zhì)結(jié)合這樣一個泛素化蛋白,就會被一個Proteasome機器將蛋白質(zhì)變成碎片實現(xiàn)降解,這比小分子結(jié)合阻斷蛋白功能更加直接有效。
目前PROTAC相關(guān)藥物,國內(nèi)、外臨床研究還比較早期,人類基因組里面有600多個E3連接酶,其中只有非常少數(shù)被用于PROTAC設(shè)計,這個領(lǐng)域還有廣泛開發(fā)空間。
表格總結(jié)了小分子成功靶向關(guān)鍵靶點,這些靶點不是特別多,據(jù)不完全統(tǒng)計全球基于PROTAC技術(shù)研發(fā)管線有60多個,國內(nèi)也有好多正在啟動。
PROTAC如果成功靶點選擇非常重要。哪些蛋白可以被泛素化或者泛素化效率如何?用了藥物之后被修飾效率有沒有提高?降解程度如何?腫瘤組織和非腫瘤組織有什么區(qū)別?哪些蛋白質(zhì)降解可以全局通過蛋白質(zhì)組進行系統(tǒng)檢測,都是全新的領(lǐng)域。
下圖是2015年的文章,文章發(fā)現(xiàn)基因組生命科學(xué)時代,基因組數(shù)據(jù)增長更快,把蛋白質(zhì)加進來增長可能會更快,因為蛋白質(zhì)比基因更多信息,和生命科學(xué)更加相關(guān)。
蛋白質(zhì)組大數(shù)據(jù)距離我們還有多遠?
現(xiàn)在我們擁有將臨床樣品轉(zhuǎn)化為蛋白質(zhì)大數(shù)據(jù)的技術(shù),今后幾年我們將產(chǎn)生更多蛋白質(zhì)組大數(shù)據(jù),聯(lián)合AI可以對生命奧妙和調(diào)控有更加深刻的理解。
Q1:蛋白質(zhì)組大數(shù)據(jù)聯(lián)合AI診斷疾病準確率高嗎?
郭天南:這是一個非常大的問題,應(yīng)該針對每一個疾病而定。蛋白質(zhì)大數(shù)據(jù)可以理解為一個新興領(lǐng)域,一個新技術(shù),有獨特的優(yōu)勢,也具有一些局限性。
我們目前在西湖大學(xué)做了幾個例子,前面講的甲狀腺結(jié)節(jié)判斷準確率還可以的。目前經(jīng)過基因診斷準確度,尤其是特異度,都比不上目前基于蛋白質(zhì)的診斷方法,對于前面代謝綜合征預(yù)測模型也非常好。
但這種方法是不是對所有疾病都非常好,目前尚沒有數(shù)據(jù)證實或證偽,從理論上看,蛋白質(zhì)分析應(yīng)該是任何疾病都需要的。
Q2:蛋白質(zhì)組中是否含有人類疾病的生物標志物(Biomarker)?
郭天南:肯定是含有的,人類疾病甚至健康狀態(tài)改變都會涉及蛋白質(zhì)改變。
說話、休息、吃飯都有蛋白質(zhì)改變,當然這些改變是背景改變,蛋白質(zhì)改變可能是正常改變,有些蛋白質(zhì)在疾病狀態(tài)下改變。
我們需要通過復(fù)雜計算方法挑出疾病有影響的蛋白質(zhì)。
Q3:BCR-ABL融合基因是什么?
郭天南:這是伊馬替尼(imatinib)的藥物靶點,《我不是藥神》電影原型就是這個。
針對慢性髓系白血病,BCR和ABL本來是兩個蛋白,不同染色體編碼兩個蛋白在某一些白血病當中會融合形成新蛋白,具有非常強酶活性,打破生理平衡引發(fā)慢性白血病。
神藥出現(xiàn),實際也是蛋白質(zhì)檢測的一個成功,當然蛋白質(zhì)水平源于基因表達,蛋白的融合源自基因融合。
Q4:請問針對不同組學(xué)方法得到的數(shù)據(jù),該怎么整合?
郭天南:我們有很多嘗試,沒有統(tǒng)一方法可以用于所有多模態(tài)、多組學(xué)數(shù)據(jù),但只要有這樣一個臨床問題,有這樣數(shù)據(jù)相信一定可以找到方法。
例如甲狀腺,我們用蛋白質(zhì)組數(shù)據(jù)進行建模,實際我們還有一個正在進行的項目,是將蛋白質(zhì)跟基因還有超聲特征,包括人性別年齡等信息全部整合起來,進行AI建模,這是生命科學(xué)的新領(lǐng)域。
聽眾當中如果有計算機專家,也歡迎你們加入生命科學(xué)這個領(lǐng)域,現(xiàn)在是非常激動人心的時刻。
隨著更多計算機專家加入,這些整合一定可以更加有效實現(xiàn),前面提到宏觀世界大數(shù)據(jù),實際數(shù)據(jù)結(jié)構(gòu)更加復(fù)雜,復(fù)雜性不亞于生命科學(xué)數(shù)據(jù),但照樣可以整合起來。
例如搜索Google,可以告訴我們是什么樣網(wǎng)頁,然后我們看抖音可以推薦喜歡看的視頻,這都是通過算法可以實現(xiàn),在有經(jīng)驗計算機專家看來,問題不是很大。
Q5:痕量樣本蛋白檢測的重復(fù)性能夠保證嗎?距離臨床檢測應(yīng)用還有多遠?
郭天南:衡量樣品進行檢測重復(fù)性讓我覺得非常驚嘆,可以看到我們的數(shù)據(jù),訓(xùn)練集都是痕量樣品,訓(xùn)練集是來自于新加坡,新加坡有各種人種,生活環(huán)境、經(jīng)度、緯度跟中國都不太一樣。
但我們從這些數(shù)據(jù)訓(xùn)練出的模型,在中國杭州、大連、沈陽患者居然可以適用。并且訓(xùn)練集樣品是石蠟組織,在石蠟組織中建立模型,同時在前瞻性新鮮組織里也可以達到90%以上綜合準確度。
這個準確度我們都覺得驚訝,非常穩(wěn)定,但并不表示所有組織和數(shù)據(jù)都會這么穩(wěn)定,這里面有很多考量,我們對質(zhì)控、數(shù)據(jù)分析要求也非常高。
距離臨床應(yīng)用檢測還有多遠,我希望在保證質(zhì)量同時盡快。我們在大學(xué)里建立這個模型尚不能直接應(yīng)用于臨床。
我們正在通過西湖大學(xué)校辦企業(yè)西湖歐米進行臨床轉(zhuǎn)化,有可能明年會推出通過志愿者進行臨床檢測。
Q6:蛋白質(zhì)組中怎么判斷哪些蛋白不會相互作用?準確率多高?比判斷相互作用困難嗎?
郭天南:蛋白質(zhì)相互作用分析,質(zhì)譜是可以實現(xiàn)的,如果一個具體問題可以通過一個細胞模型,某個蛋白跟哪個蛋白結(jié)合或不結(jié)合,都可以通過實驗數(shù)據(jù)以及后續(xù)對應(yīng)分析方法進行監(jiān)測。
Q7:計算蛋白質(zhì)組學(xué)有哪些應(yīng)用場景?
郭天南:這太多了,如果我們有蛋白質(zhì)大數(shù)據(jù),其在生命健康的應(yīng)用場景不會亞于現(xiàn)在宏觀世界大數(shù)據(jù)應(yīng)用場景。
如果你問我宏觀世界大數(shù)據(jù)有什么應(yīng)用場景,我可以說它幾乎無所不在。我們的衣、食、住、行都跟宏觀世界大數(shù)據(jù)相關(guān),但微觀世界數(shù)據(jù),一個人細胞數(shù)量和地球上所有人數(shù)量是同一個量級。
一個成年人有30~70萬億個細胞,很多細胞不斷生成降解,像紅細胞每隔120天就會生成降解,每個細胞里都有數(shù)億萬計蛋白質(zhì),這些蛋白質(zhì)數(shù)據(jù)包含什么信息,有什么應(yīng)用場景現(xiàn)在沒有人可以估量。
舉例說凡是跟生命健康相關(guān)的應(yīng)用場景,都有可能通過蛋白質(zhì)智能計算獲得。
Q8:猶如體檢之前會要求禁止飲食,可能會影響體檢結(jié)果?;颊呤欠裼行┬袨闀绊懙降鞍踪|(zhì)組學(xué)的檢測結(jié)果?
郭天南:我們做了18000個血漿蛋白質(zhì)組預(yù)測代謝綜合征,代謝綜合征是三高、高血糖、高血脂、高血壓,是非常復(fù)雜的疾病,遺傳因素,生活習(xí)慣因素,飲食因素等都會影響到。
我們測出蛋白質(zhì)組數(shù)據(jù),一定會受到各種各樣因素的干擾,好在有大數(shù)據(jù)可以容忍一些變異,容忍噪音,在大數(shù)據(jù)層面,AI會自動剔除干擾因素,將好的信號提示出來。
雖然我們有幾百個蛋白被檢測,最后只找到12個最穩(wěn)定跟疾病最相關(guān),雖然肯定會有影響,但后面會挑出來。
甲狀腺結(jié)節(jié)診斷也測到6000多個蛋白,最后AI模型只發(fā)現(xiàn)其中的20個,這種準確度和其它6000多個蛋白相比,還沒有達到足夠穩(wěn)定性和信息含量。
Q9:疾病診斷中有沒有采用RNA轉(zhuǎn)錄組進行判斷的?相比蛋白質(zhì)組哪個更有優(yōu)勢呢?
郭天南:像甲狀腺結(jié)節(jié)的良、惡性判斷,基因診斷試劑盒,很多依賴RNA,但為什么會出現(xiàn)很多問題?
因為RNA很容易降解,并且RNA絕大部分不具有生命活動和執(zhí)行功能分子,目前已經(jīng)有很多研究表明, RNA和蛋白質(zhì)相關(guān)性并沒有那么強。
我們之所以要測RNA,一方面是因為有這樣技術(shù)很容易檢測,另一方面因為希望通過RNA來預(yù)測蛋白質(zhì),越來越多研究發(fā)現(xiàn)RNA并不能完全預(yù)測蛋白質(zhì)表達。
在臨床應(yīng)用中二者很容易降解,像甲狀腺穿刺出來,一不小心RNA就會降解,或者測到跟他體內(nèi)RNA表達并不一致,而蛋白質(zhì)非常穩(wěn)定。
研究石蠟組織可以很方便從新加坡接到中國,因為常溫保存運輸,而石蠟組織里是不能做RNA分析,即使能做測出來結(jié)果跟他體內(nèi)狀態(tài)也不一樣。
我們團隊前期做了很多工作,發(fā)現(xiàn)石蠟組織和新鮮冰凍組織蛋白質(zhì)表達非常穩(wěn)定。
Q10:AI+蛋白質(zhì)預(yù)測這樣的前沿技術(shù),目前在產(chǎn)業(yè)落地中有哪些比較難的瓶頸?
郭天南:最大瓶頸就是人才隊伍。聽眾里有很多非常優(yōu)秀人員,可能大家都知道基因組,很多從事生命科學(xué)都去做基因相關(guān)研究和轉(zhuǎn)化。
也有更多非常優(yōu)秀年輕人去做AI,像隔壁的阿里或騰訊都有非常高的工資,而在蛋白質(zhì)這樣的領(lǐng)域,聯(lián)合使用AI還需要進行一定探索,所以如果沒有好的隊伍,這個領(lǐng)域也很難發(fā)展起來。
領(lǐng)域重要性毋庸置疑,現(xiàn)在越來越多人關(guān)注這個領(lǐng)域,非常高興有這么多人參與討論,相信只要有優(yōu)秀的人加入,就不會存在什么問題,只是時間的問題,或遲或早,人類總有一天會解密,黑匣子會被打開,我們對生命理解就會更加深刻。
Q11:請問歐米的質(zhì)譜分析是自己做嗎?跟其他做蛋白質(zhì)譜的企業(yè)相比數(shù)據(jù)方面有哪些優(yōu)勢?
郭天南:我們質(zhì)譜都是自己做,跟其他企業(yè)相比有什么優(yōu)勢這里不便回答。
Q12:郭老師,蛋白質(zhì)檢測技術(shù)和基因檢測相比,區(qū)別和優(yōu)勢有哪些?
郭天南:針對一個難以診斷問題,大家第一想法就是做基因檢測,目前基因檢測學(xué)術(shù)上是如火如荼。
從產(chǎn)業(yè)上大家都可以做,一個基因突變,哪個公司都可以去檢測,沒有什么門檻,而蛋白質(zhì)檢測有門檻,蛋白質(zhì)經(jīng)過挑選之后只有20個蛋白質(zhì),在腫瘤和非腫瘤、良、惡性都有。
但基因突變良性沒有惡性有,蛋白質(zhì)是個連續(xù)不一樣的變量,通過不一樣建立模型,進行更加全面精準判斷。
因為生命肯定不會這么簡單,用學(xué)術(shù)術(shù)語來說蛋白質(zhì)表達具有更高顆粒度,內(nèi)涵更加的豐富,可以精準描述一個生命狀態(tài),生命肯定不會像基因突變一樣簡單,這就是蛋白質(zhì)優(yōu)勢。
蛋白質(zhì)檢測也有缺點,例如現(xiàn)在沒有技術(shù)可以很好擴增蛋白質(zhì),以前蛋白質(zhì)檢測需要大量組織,很多研究不能夠進行,現(xiàn)在可以用比較小微量、痕量組織進行蛋白質(zhì)分析,很大程度彌補蛋白質(zhì)基因和蛋白質(zhì)應(yīng)用障礙。
很多時候我們能夠分析蛋白質(zhì)組織,基因測序做不了,但蛋白質(zhì)可以做,像石蠟組織RNA做不了,而蛋白質(zhì)可以做的非常好。
我們更喜歡用石蠟組織,還有頭發(fā),里面除了毛囊之外只有蛋白質(zhì),所以頭發(fā)里面的蛋白質(zhì)信息是非常豐富,還有牙齒等等。
最后,感謝大家參與這次的交流。雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。