0
本文作者: 任平 | 2024-04-10 14:20 |
在生物醫(yī)學(xué)研究的前沿領(lǐng)域,“單細胞蛋白質(zhì)組學(xué)”是怎樣的存在?
用一個比喻來說,它就像一把鑰匙,能夠開啟細胞內(nèi)部世界的大門,讓我們得以窺見細胞如何通過蛋白質(zhì)的相互作用來執(zhí)行生命活動。
這一研究領(lǐng)域的突破,不僅能夠推動科學(xué)界對生命過程的理解,也為精準(zhǔn)醫(yī)療的實現(xiàn)奠定了基礎(chǔ)。
近期,騰訊的 AI Lab,無疑成為了這一前沿研究領(lǐng)域率先“揭開英雄榜 ”的那個研究機構(gòu)。
3月20日,騰訊 AI Lab 的 3 篇蛋白質(zhì)組論文正式入選國際頂級學(xué)術(shù)期刊。論文分別在數(shù)據(jù)庫、AI 建模、AI 輔助臨床三個角度提出了全新的研究方案,為人類從根本上闡釋生命提供了重要技術(shù)參考。
《SPDB: a comprehensive resource and knowledgebase for proteomic data at the single-cell resolution》,被生物信息學(xué)領(lǐng)域數(shù)據(jù)庫方面的的權(quán)威期刊 Nucleic Acids Research收錄。
《 scPROTEIN: a versatile deep graph contrastive learning framework for single-cell proteomics embedding》,被Nature旗下的方法學(xué)期刊Nature Methods收錄。
《Deep domain adversarial neural network for the deconvolution of cell type mixtures in tissue proteome profiling》,被Nature旗下機器學(xué)習(xí)專業(yè)期刊 Nature Machine Intelligence 所收錄。
借此契機,雷峰網(wǎng)近期對話騰訊 AI Lab 科學(xué)家姚建華和研究員楊帆,他們是三篇論文的共同作者。在訪談中,他們深入闡述了這些論文背后的技術(shù)突破、應(yīng)用價值和未來的研究規(guī)劃。
他們解釋道,這三篇論文的創(chuàng)新之處在于,它們首次為單細胞蛋白質(zhì)組提供了全面的數(shù)據(jù)知識庫和系統(tǒng)的AI分析方法。
論文一中建立的 SPDB 數(shù)據(jù)庫,通過標(biāo)準(zhǔn)化處理不同來源的單細胞蛋白質(zhì)組學(xué)數(shù)據(jù),使得數(shù)據(jù)易于比較和分析,是目前全球數(shù)據(jù)量最大、覆蓋技術(shù)和數(shù)據(jù)集最為廣泛的單細胞蛋白質(zhì)數(shù)據(jù)庫。
論文二中的 scPROTEIN 框架,針對單細胞蛋白組數(shù)據(jù)的特殊性提出了解決方案,能夠處理數(shù)據(jù)中的不確定性、缺失值、批次效應(yīng)和噪聲問題。為基于單細胞蛋白質(zhì)組的腫瘤發(fā)生發(fā)展機制研究、藥物靶點發(fā)現(xiàn)和腫瘤早篩和微環(huán)境研究提供重要的AI輔助作用。
第三篇論文中提出的 scpDeconv 方法,是一種全新的反卷積方法,能夠從“組織蛋白質(zhì)組”數(shù)據(jù)中挖掘出特定細胞類型比例,為腫瘤輔診和預(yù)后分析提供了新的視角,是三篇論文中與臨床應(yīng)用最為貼近的一項成果。
姚建華,作為騰訊 AI Lab 的 AI 醫(yī)療首席科學(xué)家,補充道:
“AlphaFold 在蛋白質(zhì)結(jié)構(gòu)領(lǐng)域取得了令人矚目的成就,它主要關(guān)注單個蛋白質(zhì)的結(jié)構(gòu)和功能,或幾個蛋白質(zhì)之間的相互作用。
而我們的研究則聚焦于細胞內(nèi)所有蛋白質(zhì)的表達模式,這些信息反映了整個細胞的狀態(tài)和微環(huán)境,使我們的工作更加貼近臨床應(yīng)用和疾病機制的探索?!?/p>
值得一提的是,當(dāng)我們在討論論文成果的同時,一個更深遠的議題逐漸浮現(xiàn):成立于2016年的騰訊 AI Lab,是否有能力在接下來的五年中,引領(lǐng)生命科學(xué)領(lǐng)域的未來發(fā)展?
這個問題不僅考驗著實驗室的科研實力,也反映出科技公司在生物醫(yī)學(xué)領(lǐng)域的影響力和責(zé)任。如今的騰訊 AI Lab,走的每一步都比以往更受關(guān)注。
以下為對話(經(jīng)編輯):
雷峰網(wǎng):首先請兩位介紹下,三篇論文的創(chuàng)新點,簡要介紹技術(shù)實現(xiàn)形式,應(yīng)用價值,以及對單細胞蛋白質(zhì)組學(xué)這一研究領(lǐng)域的貢獻(比如最適合哪些人/機構(gòu)使用)。
楊帆:單細胞測序技術(shù)已經(jīng)取得了飛速發(fā)展,盡管單細胞轉(zhuǎn)錄組相關(guān)的測序技術(shù)和計算方法已經(jīng)相當(dāng)成熟,但轉(zhuǎn)錄水平與蛋白質(zhì)水平的相關(guān)性通常低于 50% 。在單細胞層面,這種相關(guān)性更低。
因此,只有通過研究蛋白質(zhì)組,我們才能深入理解生命活動和疾病的本質(zhì)。
單細胞蛋白質(zhì)組測序技術(shù)也在不斷進步,技術(shù)革新層出不窮,并受到了國際頂級期刊如 Nature Methods 的關(guān)注和報道。特別是以 SCOPE-MS(Single-Cell Proteomics by Mass Spectrometry)、nanoPOTS (nanodroplet processing in one pot for trace samples) 為代表的基于質(zhì)譜的蛋白質(zhì)測序技術(shù),能夠檢測到單細胞中數(shù)千種蛋白質(zhì)的存在。這比以往基于抗體的單細胞蛋白質(zhì)組測序技術(shù)有了顯著的提升。
然而,這些數(shù)據(jù)的復(fù)雜性,使得專門針對單細胞蛋白質(zhì)組數(shù)據(jù)的AI計算方法相對缺乏。
正是基于這一背景,我們的三篇論文圍繞單細胞蛋白質(zhì)組數(shù)據(jù)分析進行了深入研究。我們首次為單細胞蛋白質(zhì)組提供了一套系統(tǒng)的 AI 分析方法和數(shù)據(jù)知識庫。
其中,第一篇論文收集了目前世界上最全面的、不同來源、不同測序技術(shù)、不同物種的單細胞蛋白質(zhì)組數(shù)據(jù),并進行了標(biāo)準(zhǔn)化處理和系統(tǒng)性評估。
第二篇論文基于遷移學(xué)習(xí)技術(shù),從單細胞蛋白質(zhì)組數(shù)據(jù)中推斷組織蛋白質(zhì)組中的細胞比例;
第三篇論文則采用對比學(xué)習(xí)方法對單細胞蛋白質(zhì)組進行表征;
我們的計算方法通過實驗驗證,明顯優(yōu)于直接應(yīng)用單細胞轉(zhuǎn)錄組的方法。這些方法已經(jīng)開源,并配備了詳盡的使用說明,可供全球范圍內(nèi)的研究人員使用。
我們的算法特別適合那些從事單細胞蛋白質(zhì)組數(shù)據(jù)生成的團隊,他們可以直接應(yīng)用我們的技術(shù)進行細胞級別的數(shù)據(jù)分析和下游應(yīng)用。
對于臨床醫(yī)學(xué)專家而言,他們可以利用我們的反卷積算法分析公開的TCGA或CPTAC等蛋白質(zhì)組數(shù)據(jù)庫,或者基于自己收集的臨床組織樣本,以深入理解腫瘤微環(huán)境,輔助疾病機制的研究和診斷預(yù)測。
此外,我們的數(shù)據(jù)庫允許生物學(xué)家和醫(yī)學(xué)工作者在線探索他們感興趣的蛋白質(zhì)或細胞類型,觀察這些蛋白質(zhì)在不同細胞類型中的變化規(guī)律,從而支持他們在特定蛋白質(zhì)研究方向上的研究。
雷峰網(wǎng):因為三篇論文成果都是集中在單細胞蛋白質(zhì)組學(xué)領(lǐng)域,探討了如何通過不同的計算方法和數(shù)據(jù)庫資源來分析和理解單細胞水平上的蛋白質(zhì)表達數(shù)據(jù)。那么,在此之前你們做了哪些工作?在三篇論文成果出來后,緊接著有哪些研究計劃?
楊帆:在此之前,我們團隊已經(jīng)進行了大量工作,包括醫(yī)學(xué)多模態(tài)數(shù)據(jù)分析、疾病預(yù)測以及精準(zhǔn)醫(yī)療等領(lǐng)域的研究。同時,我們也在單細胞轉(zhuǎn)錄組和空間組學(xué)等生命科學(xué)基礎(chǔ)計算領(lǐng)域進行了深入探索,并在多個AI頂級會議和期刊上發(fā)表了相關(guān)論文。
因此,我們在醫(yī)學(xué)、生命科學(xué)、精準(zhǔn)醫(yī)療和數(shù)據(jù)分析等領(lǐng)域積累了豐富的經(jīng)驗。
舉個例子:
我們在預(yù)訓(xùn)練語言模型尚未廣泛應(yīng)用于單細胞數(shù)據(jù)分析領(lǐng)域時,就意識到預(yù)訓(xùn)練模型在自然語言處理(NLP)領(lǐng)域已經(jīng)取得了巨大成功。當(dāng)時,單細胞數(shù)據(jù)分析主要依賴于簡單的機器學(xué)習(xí)方法,并且常常需要針對每個數(shù)據(jù)集進行手工處理,這限制了模型的泛化能力。
針對這一問題,我們在 2021 年啟動了一個項目,設(shè)計了一種基于單細胞數(shù)據(jù)的大規(guī)模預(yù)訓(xùn)練語言模型,名為scBERT。我們根據(jù)單細胞數(shù)據(jù)的特性,開發(fā)了基因嵌入(gene embedding)和表達嵌入(expression embedding),使得這些數(shù)據(jù)能夠被 Transformer 這種先進的計算模型處理和識別。
我們首次引入了 BERT 這種預(yù)訓(xùn)練和微調(diào)的范式,從而充分利用了當(dāng)時尚未充分利用的大規(guī)模單細胞數(shù)據(jù)進行預(yù)訓(xùn)練,顯著提升了模型的泛化性和處理跨批次、跨數(shù)據(jù)集數(shù)據(jù)的能力。
這一成果發(fā)表在了 Nature Machine Intelligence上,開啟了單細胞大模型研究的新篇章。
在這三篇論文發(fā)表之后,我們計劃更加聚焦于重大科學(xué)問題的研究,并注重其臨床應(yīng)用和轉(zhuǎn)化。我們將進一步整合多組學(xué)數(shù)據(jù)和蛋白質(zhì)大模型,賦能更多的應(yīng)用場景。
姚建華:我可以補充一些背景信息。
眾所周知,生物體內(nèi)的核心法則是中心法則,即 DNA、RNA 和蛋白質(zhì)之間的關(guān)系。
DNA 攜帶遺傳信息,通過轉(zhuǎn)錄成為 RNA,形成轉(zhuǎn)錄組。
而RNA進一步翻譯成蛋白質(zhì),即蛋白質(zhì)組。
我們的研究工作正是基于這一原理。基因測序技術(shù)的發(fā)展歷程顯示,DNA 測序是相對容易的部分,而 RNA 和蛋白質(zhì)的測序難度逐漸增加,因為它們需要更復(fù)雜的擴增和測量技術(shù)。
從上個世紀(jì) 70 年代開始,人類基因組測序技術(shù)已經(jīng)經(jīng)歷了幾代的發(fā)展。
最初,人類主要關(guān)注 DNA 信息的測序。大約 10 年前,單細胞技術(shù)開始興起,最初主要集中在 RNA 信息的測序。而單細胞蛋白質(zhì)組學(xué)則是最近五六年才開始發(fā)展的新興技術(shù)。
我們的研究工作也是沿著這一脈絡(luò)逐步推進的,從較簡單的數(shù)據(jù)開始,逐步過渡到更復(fù)雜的數(shù)據(jù)分析。
例如,我們之前的工作 scBERT 主要針對轉(zhuǎn)錄組數(shù)據(jù)進行分析。而現(xiàn)在,我們進一步研究蛋白質(zhì)組數(shù)據(jù),這是一個更為復(fù)雜和具有挑戰(zhàn)性的領(lǐng)域。隨著數(shù)據(jù)難度的增加,對算法和計算能力的要求也越來越高。我們的研究正是在這一背景下不斷進步和發(fā)展的。
雷峰網(wǎng):總體從技術(shù)層面來說,論文一提供了一個數(shù)據(jù)資源庫,論文二和論文三則分別提出了新的深度學(xué)習(xí)框架來處理不同類型的數(shù)據(jù)分析問題。論文二側(cè)重于通過圖學(xué)習(xí)處理單細胞蛋白質(zhì)組數(shù)據(jù),而論文三側(cè)重于使用域?qū)股窠?jīng)網(wǎng)絡(luò)進行細胞類型比例的解卷積。
不知道我這樣理解是否正確,請兩位再介紹下三篇論文的聯(lián)系與區(qū)別。以及,全球范圍內(nèi),還有哪些課題組或企業(yè)在做類似的工作?
楊帆:您的理解非常準(zhǔn)確。
數(shù)據(jù)資源庫是算法研究的基石,我們深知AI算法的發(fā)展離不開數(shù)據(jù)的支撐。在單細胞蛋白組學(xué)領(lǐng)域,數(shù)據(jù)的準(zhǔn)確表征是進行下游應(yīng)用的關(guān)鍵。
掌握了單細胞蛋白組數(shù)據(jù)后,我們能夠詳細了解每種細胞類型在細胞內(nèi)蛋白質(zhì)表達的模式。
基于這些數(shù)據(jù),結(jié)合AI算法,我們可以進一步推斷組織蛋白組中細胞類型的比例,這對于理解腫瘤微環(huán)境至關(guān)重要。
目前,臨床上已有大量基于組織蛋白組的數(shù)據(jù),這些數(shù)據(jù)通常來源于腫瘤患者癌組織及其周圍正常組織的樣本,通過質(zhì)譜技術(shù)獲得的是多種細胞類型混合后的蛋白質(zhì)表達平均水平。
我們的反卷積算法能夠精確推斷出不同細胞類型的比例,使全球研究者能夠從公開數(shù)據(jù)集中挖掘出有關(guān)細胞比例的信息,從而更好地理解腫瘤微環(huán)境。
此外,即使在無法進行單細胞蛋白組測序的臨床情況下,我們的算法也能提供一種解決方案,幫助理解細胞微環(huán)境,從而輔助臨床進行疾病預(yù)后和預(yù)測。
這三篇論文可以視為一個整體,其中數(shù)據(jù)資源庫為基底,上面有兩個不同角度的AI應(yīng)用,如同一棵大樹上結(jié)出的兩個果實。
據(jù)我們所知,目前全球范圍內(nèi)尚無其他團隊或企業(yè)開展與我們完全相同的工作。其他機構(gòu)主要在進行單細胞轉(zhuǎn)錄組或蛋白質(zhì)結(jié)構(gòu)的研究,這些研究當(dāng)然也很重要,但我們的工作填補了單細胞蛋白組學(xué)領(lǐng)域的一個空白,具有創(chuàng)新性和前瞻性,未來必將吸引更多研究聚焦于此領(lǐng)域。
姚建華:正如楊帆所提到的,蛋白質(zhì)結(jié)構(gòu)在AI領(lǐng)域中,尤其是 AlphaFold 這樣的技術(shù)最為人所熟知。
AlphaFold 主要分析的是單個蛋白質(zhì)的結(jié)構(gòu),例如蛋白質(zhì)的折疊方式或幾個蛋白質(zhì)之間的相互作用,它關(guān)注的是單個蛋白質(zhì)的三維結(jié)構(gòu),以及其功能和對人體細胞的作用。
而我們的研究則是從另一個角度出發(fā),分析細胞內(nèi)所有蛋白質(zhì)的表達模式。
我們知道,人體有數(shù)以億計的蛋白質(zhì),即使是單個細胞內(nèi)也有成千上萬的蛋白質(zhì)。我們的目標(biāo)是分析這些蛋白質(zhì)之間的相互作用和表達模式,這些信息反映了整個細胞的狀態(tài)和微環(huán)境。
通過蛋白質(zhì)組或轉(zhuǎn)錄組等組學(xué)數(shù)據(jù),我們可以更全面地理解細胞的微環(huán)境和疾病產(chǎn)生的原因,這對于臨床治療和疾病機制的研究具有重要意義。
與 AlphaFold 等關(guān)注單個蛋白質(zhì)結(jié)構(gòu)的技術(shù)相比,我們的研究更側(cè)重于整個細胞和微環(huán)境的系統(tǒng)性分析,這使得我們的工作更接近臨床應(yīng)用和疾病機制的探索。
雷峰網(wǎng):雖然是三個論文成果,但其實是在一個研究項目之中的嗎(因為研究是順著數(shù)據(jù)庫、AI建模、AI輔助臨床三個層面逐一展開)?三篇論文的作者團隊在專業(yè)背景上有何區(qū)分?整體來說,從立項到出論文成果,持續(xù)時間多久?
楊帆:這三篇論文是在同一個大的研究方向下自然展開的。主要作者包括我和姚老師。
此外,我們的團隊還包括來自不同領(lǐng)域的合作者,如生物信息學(xué)和 AI 機器學(xué)習(xí)領(lǐng)域的專家,以及校企聯(lián)合培養(yǎng)的學(xué)生。
騰訊 AI Lab 作為一個跨學(xué)科的平臺,為跨學(xué)科AI應(yīng)用提供了豐富的土壤。實驗室匯集了 數(shù)百位頂尖科學(xué)家,這為我們的研究提供了強大的支持。
在 AI Lab,我們有來自生物信息學(xué)領(lǐng)域的研究員,他們從生物醫(yī)學(xué)問題出發(fā),收集數(shù)據(jù)并定義研究問題。
在模型研發(fā)階段,尤其是面對原創(chuàng)性研究中的新問題和挑戰(zhàn)時,我們需要AI技術(shù)的創(chuàng)新。在這方面,我們有AI領(lǐng)域世界頂級的科學(xué)家與我們合作,共同應(yīng)對圖模型、可信 AI 以及遷移學(xué)習(xí)等領(lǐng)域的挑戰(zhàn)。
正是在 AI Lab 這樣一個充滿世界級專家、緊密交流和跨學(xué)科合作的環(huán)境中,我們才能夠激發(fā)出創(chuàng)新的火花,并推動一系列跨學(xué)科AI應(yīng)用研究的發(fā)展。
我們的實驗室主任張正友老師和AI醫(yī)療首席科學(xué)家姚建華博士,分別是 IEEE Fellow 和 AIMBE Fellow,ACM fellow,是世界知名的學(xué)術(shù)領(lǐng)袖。在他們的指導(dǎo)和把關(guān)下,我們的研究員在進行科研和創(chuàng)新時更加自信和從容。
一般來說,我們的項目從啟動到成果發(fā)表大約需要一年到一年半的時間。
雷峰網(wǎng):楊帆博士,您的背景和經(jīng)歷是怎樣的?同時請問姚建華老師,如今騰訊 AI lab 的工作者在專業(yè)背景上有何共性?
楊帆:我是清華大學(xué)的博士畢業(yè)生,在博士期間主要從事臨床組學(xué)分析的研究。自2016年起,我開始接觸人工智能領(lǐng)域。博士畢業(yè)后,我加入了騰訊隨后在 AI Lab 做研究,至今已近六年。在這里,我相當(dāng)于又完成了一個 AI 領(lǐng)域的博士學(xué)位,進行了廣泛的AI研究。
我感覺自己的知識結(jié)構(gòu)像是“T”字型。
一方面,在組學(xué)生物數(shù)據(jù)分析領(lǐng)域有深入的研究和超過十年的經(jīng)驗;
另一方面,在AI領(lǐng)域,包括多模態(tài)研究、醫(yī)學(xué)影像、臨床文本數(shù)據(jù)處理、圖模型、深度學(xué)習(xí)等多個方面都有所涉獵,并發(fā)表了相關(guān)論文。
這種“一專多能”的背景使我在跨學(xué)科領(lǐng)域,如 AI for Science ,能夠提出獨特的見解和研究方向。
姚建華:我們團隊確實需要這樣的跨學(xué)科人才。正如楊帆所提到的,AI Lab 涵蓋了人工智能、機器學(xué)習(xí)、語音識別、多模態(tài)等多個研究方向。我們特別注重生命科學(xué)領(lǐng)域的人工智能應(yīng)用,因此團隊中的許多研究員都具備 AI 和生物學(xué)的雙重背景。
只有通過這樣的交叉合作,才能真正推動這一領(lǐng)域的發(fā)展。我們也經(jīng)常與其他專注于人工智能的團隊進行技術(shù)上的交流和探討,共同促進科學(xué)的進步。
|論文一:《SPDB: a comprehensive resource and knowledgebase for proteomic data at the single-cell resolution》
鏈接:https://academic.oup.com/nar/article/52/D1/D562/7416372
該論文已入選生物信息學(xué)領(lǐng)域數(shù)據(jù)庫方面專業(yè)期刊 Nucleic Acids Research
雷峰網(wǎng):SPDB 如何整合不同來源和技術(shù)的單細胞蛋白質(zhì)組學(xué)數(shù)據(jù)?團隊在數(shù)據(jù)庫設(shè)計和實施過程中遇到的主要挑戰(zhàn)及解決方案。還有哪些研究不足和優(yōu)化計劃?
楊帆:SPDB旨在為不同技術(shù)類型的單細胞蛋白組學(xué)數(shù)據(jù)提供一個專門的數(shù)據(jù)處理框架。
我們通過在統(tǒng)一的環(huán)境中對來自不同基礎(chǔ)來源的數(shù)據(jù)進行標(biāo)準(zhǔn)化處理和分析,使得用戶能夠在一個平臺上對比和探索不同技術(shù)來源的數(shù)據(jù)。
為了確保數(shù)據(jù)集的獨立性和可靠性,SPDB 并沒有直接整合不同來源的數(shù)據(jù)集,而是提供了對單個數(shù)據(jù)集的獨立探索功能,以及對同一蛋白質(zhì)在不同數(shù)據(jù)集中的對比探索。
在SPDB數(shù)據(jù)庫建設(shè)的初期,我們面臨的一大挑戰(zhàn)是:如何處理和分析一些我們之前未曾接觸過的數(shù)據(jù)類型。
例如質(zhì)譜蛋白質(zhì)組數(shù)據(jù),以及這些原始數(shù)據(jù)的處理程度和存儲格式的多樣性。
我們通過廣泛閱讀相關(guān)文獻,并詳細研究每個數(shù)據(jù)集的源文獻中關(guān)于數(shù)據(jù)處理的描述,為每個數(shù)據(jù)集制定了針對性的數(shù)據(jù)處理步驟,從而確保了數(shù)據(jù)的準(zhǔn)確性和可靠性。
目前,SPDB 的一個不足之處在于:缺乏在線工具供用戶直接使用。未來,我們計劃將研究團隊開發(fā)的相關(guān)算法集成到SPDB平臺上,以便用戶能夠更方便地使用這些工具。
此外,SPDB 目前還沒有提供蛋白質(zhì)對應(yīng)的基因表達信息,即轉(zhuǎn)錄組數(shù)據(jù)。因此,我們的后續(xù)工作將包括為蛋白質(zhì)表達提供相應(yīng)的基因表達數(shù)據(jù),以便于用戶進行更全面的對比展示和分析。
SPDB數(shù)據(jù)庫 概述圖
雷峰網(wǎng):在我的理解,這應(yīng)該是這一工作的最大貢獻,是收集了大量數(shù)據(jù),還對這些數(shù)據(jù)進行了標(biāo)準(zhǔn)化處理,使得不同來源的數(shù)據(jù)可以放在一起比較和分析。這就好比把不同語言的書籍翻譯成同一種語言,讓讀者更容易理解。為什么當(dāng)下這種工作成為必要?
楊帆:您的理解非常準(zhǔn)確。我們構(gòu)建這個數(shù)據(jù)庫的初衷,是因為單細胞轉(zhuǎn)錄組和空間組學(xué)領(lǐng)域的研究已經(jīng)日益成熟,積累了大量的數(shù)據(jù)。
市場上也存在一些對單細胞轉(zhuǎn)錄組和空間組數(shù)據(jù)進行整合和統(tǒng)計的數(shù)據(jù)庫,這些數(shù)據(jù)庫不僅為生物學(xué)家和臨床工作者提供了探索和發(fā)現(xiàn)的工具,也為生物信息學(xué)研究者提供了基于標(biāo)準(zhǔn)化數(shù)據(jù)進行算法開發(fā)的平臺。
由于許多研究者更傾向于使用已經(jīng)處理好的標(biāo)準(zhǔn)化數(shù)據(jù)進行開發(fā),而并非所有人都具備從大量分散的原始生物學(xué)文獻中提取數(shù)據(jù)的經(jīng)驗或知識,我們的論文和工作的目標(biāo)就是為單細胞蛋白組學(xué)領(lǐng)域做出貢獻。
我們希望通過標(biāo)準(zhǔn)化的數(shù)據(jù),讓更多的AI研究者和生物信息學(xué)工作者能夠看到單細胞蛋白組學(xué)數(shù)據(jù)的潛力,并在此基礎(chǔ)上進行算法的研發(fā)和創(chuàng)新。
這就像是為整個單細胞蛋白組學(xué)研究社區(qū)提供了一片沃土,讓更多創(chuàng)新得以孕育。
此外,這個數(shù)據(jù)庫也為那些日常工作繁忙、非生物信息學(xué)專長的生物科學(xué)工作者和醫(yī)療工作者提供了便利。有了這個實用的工具,他們可以從單細胞蛋白組學(xué)的角度獲得新的啟示和發(fā)現(xiàn),即使這不是他們的主要研究領(lǐng)域。
姚建華:建立這樣一個數(shù)據(jù)庫的工作量非常巨大,數(shù)據(jù)分散在各個地方。所以這種工作其實非常適合像我們這樣資源相對充足的公司來開展。
尤其是在大模型時代,數(shù)據(jù)的重要性愈發(fā)凸顯。
以前訓(xùn)練一個模型可能只需要幾十萬、幾百萬的數(shù)據(jù),但現(xiàn)在訓(xùn)練一個大型模型可能需要數(shù)億的數(shù)據(jù)量。
我們的數(shù)據(jù)庫已經(jīng)收集了 3 億個細胞的數(shù)據(jù),這樣的數(shù)據(jù)量才有可能支撐大型模型的訓(xùn)練。我們將持續(xù)更新數(shù)據(jù)庫,隨著新數(shù)據(jù)的加入,我們希望這個數(shù)據(jù)庫能夠真正為整個領(lǐng)域的發(fā)展做出貢獻。
鏈接:https://www.nature.com/articles/s41592-024-02214-9
已入選 Nature 旗下方法學(xué)專業(yè)期刊 Nature Methods
雷峰網(wǎng):我的理解是,scPROTEIN 是一種新型的數(shù)據(jù)分析框架,它能夠處理和分析單細胞蛋白質(zhì)組數(shù)據(jù)。這就好比我們有了一臺超級顯微鏡,不僅能夠看到細胞,還能夠看到它們內(nèi)部的蛋白質(zhì)如何互動。創(chuàng)新之處在于它能夠解決數(shù)據(jù)中的不確定性、缺失值、批次效應(yīng)和噪聲問題,這些都是以往研究中的難題。
為什么要這么做?還有哪些研究不足,應(yīng)對辦法?
楊帆:scPROTEIN 框架的開發(fā)是為了解決單細胞蛋白組數(shù)據(jù)分析中的獨特挑戰(zhàn)。
在單細胞蛋白組的測定過程中,從細胞分離、裂解、蛋白質(zhì)提取,到通過質(zhì)譜技術(shù)進行肽段檢測,每一個步驟都可能引入不確定性和噪聲。
例如,樣本制備的差異、標(biāo)記策略的不同、質(zhì)譜儀的狀態(tài)變化,以及肽段在質(zhì)譜儀中的離子化和檢測過程,都可能導(dǎo)致批次效應(yīng)和數(shù)據(jù)中的噪聲問題。
此外,與單細胞轉(zhuǎn)錄組數(shù)據(jù)不同,單細胞蛋白組信號無法通過擴增來增強,只能依靠質(zhì)譜技術(shù)的靈敏度來檢測微量蛋白。
現(xiàn)有的許多單細胞轉(zhuǎn)錄組數(shù)據(jù)分析方法,并未充分考慮單細胞蛋白組數(shù)據(jù)的特殊性,直接應(yīng)用這些方法效果并不理想。
因此,我們提出了 scPROTEIN 框架,它不僅考慮了單細胞蛋白組數(shù)據(jù)的層次結(jié)構(gòu),還采用了基于可信度的方法來估計肽段測定的不確定性,并通過圖對比學(xué)習(xí)進行表征和去噪,有效解決了數(shù)據(jù)中的復(fù)雜問題。
經(jīng)過下游任務(wù)的充分驗證,scPROTEIN 的性能顯著優(yōu)于現(xiàn)有的單細胞蛋白組數(shù)據(jù)分析方法和直接套用單細胞轉(zhuǎn)錄組的方法。
姚建華:我們的算法實際上提供了一種“數(shù)據(jù)增強”功能,能夠有效去除數(shù)據(jù)中的噪聲和批次效應(yīng),使得數(shù)據(jù)分析更為一致和準(zhǔn)確。
此外,我們還提出了一種數(shù)據(jù)編碼的 embedding 方法,這在某種程度上起到了“數(shù)據(jù)降維”的作用。
正如許多大型模型如 Transformer 和 GPT 所做的那樣,通過 embedding ,我們可以將復(fù)雜的蛋白質(zhì)信息以一種高效的方式表示出來。
這種方法不僅能夠幫助我們提取數(shù)據(jù)中的核心信息,還能夠揭示不同蛋白質(zhì)之間的關(guān)系,為單細胞蛋白組數(shù)據(jù)分析提供了一種全新的視角和工具。
雷峰網(wǎng):其他現(xiàn)有的單細胞數(shù)據(jù)分析工具,為什么差強人意?
楊帆:正如我們之前提到的,scPROTEIN 框架是專門為解決單細胞蛋白組數(shù)據(jù)所面臨的挑戰(zhàn)而設(shè)計的?,F(xiàn)有的大多數(shù)單細胞數(shù)據(jù)分析工具,并沒有專門針對單細胞蛋白組數(shù)據(jù)的特性。例如數(shù)據(jù)的層次結(jié)構(gòu)和測量不確定性等,進行優(yōu)化。
scPROTEIN 框架則完全針對單細胞蛋白組數(shù)據(jù)的特有問題進行了算法開發(fā),因此能夠有效解決這些數(shù)據(jù)特有的問題。
姚建華:目前而言,幾乎沒有其他方法專門針對單細胞蛋白組分析。這項技術(shù)非常前沿,相關(guān)數(shù)據(jù)也相對稀缺,很少有研究能夠收集到如此多的單細胞蛋白組數(shù)據(jù)。
此外,分析這些數(shù)據(jù)本身也存在很大的難度,因為數(shù)據(jù)量大且復(fù)雜。
在我們開始這個項目的時候,市場上還沒有專門針對單細胞蛋白組的分析工具,大部分工作都是集中在單細胞轉(zhuǎn)錄組上。
我們預(yù)計在未來幾年,研究者們將會更多地關(guān)注蛋白質(zhì)組學(xué),因此我們在這方面的工作實際上是領(lǐng)先一步,提前進行了探索和開發(fā)。
鏈接:https://www.nature.com/articles/s42256-023-00737-y
已被Nature旗下機器學(xué)習(xí)專業(yè)期刊 Nature Machine Intelligence 所收錄
雷峰網(wǎng)(公眾號:雷峰網(wǎng)):我理解的是,這篇論文的一大亮點:提出了一種新的基于深度學(xué)習(xí)的解卷積方法(命名為scpDeconv),專門針對蛋白質(zhì)組數(shù)據(jù),獲取其中的腫瘤微環(huán)境信息。
能否介紹一下scpDeconv在臨床診斷和治療中的應(yīng)用前景和潛在挑戰(zhàn)。scpDeconv方法在實際應(yīng)用中可能遇到哪些問題,以及是否有解決方案。
楊帆:scpDeconv 的臨床應(yīng)用前景非常廣闊。如我們之前提到的,該方法可以挖掘組織樣本中的細胞比例信息,從而反映腫瘤微環(huán)境的狀況。
例如,在我們的研究中,對黑色素瘤樣本進行 scpDeconv 分析后,我們發(fā)現(xiàn)不同細胞類型比例的患者預(yù)后存在顯著差異。
這種分析可以作為一種輔助診斷工具,幫助醫(yī)生預(yù)測疾病預(yù)后,是精準(zhǔn)醫(yī)療的一個重要應(yīng)用場景。
然而,scpDeconv 的潛在挑戰(zhàn)在于:單細胞蛋白質(zhì)組數(shù)據(jù)的覆蓋范圍可能不夠廣泛,包括細胞類型和組織類型。
為了克服這一挑戰(zhàn),我們需要與進行單細胞蛋白質(zhì)組測序的實驗室合作,共同貢獻更多的公開數(shù)據(jù),以便進行更準(zhǔn)確的分析。
姚建華:“組織蛋白質(zhì)組”分析相對容易進行,因為它基于的是整個組織樣本,包括了成千上萬個細胞的蛋白質(zhì)總和,而“單細胞蛋白質(zhì)組”分析則需要對每個細胞單獨進行測量,難度和成本都顯著增加。
目前,臨床上主要進行的是組織蛋白質(zhì)組分析,因為成本較低,技術(shù)相對成熟。
我們的 scpDeconv 方法,能夠從組織蛋白質(zhì)組數(shù)據(jù)中解析出細胞類型的異質(zhì)性,從而提供類似于單細胞分析的結(jié)果,盡管可能不如單細胞數(shù)據(jù)那么精確,但至少能夠揭示組織中細胞組成的信息。
這樣的技術(shù)使得臨床醫(yī)生能夠利用現(xiàn)有的數(shù)據(jù)獲得更多的診斷信息,幫助更準(zhǔn)確地進行疾病診斷和治療決策,實現(xiàn)精準(zhǔn)醫(yī)療的目標(biāo)。
雷峰網(wǎng):最后,請說一下,騰訊 AI Lab 在單細胞蛋白質(zhì)組學(xué)領(lǐng)域的未來研究計劃。
楊帆:我拋磚引玉,分享一下我們的未來規(guī)劃。
首先,我們將貫徹和落實我們實驗室主任張正友博士的指導(dǎo)思想,更加聚焦于解決世界級的重大科學(xué)問題,并在 AI for Science 領(lǐng)域?qū)崿F(xiàn) AI Lab 的使命——在學(xué)術(shù)界產(chǎn)生影響,在工業(yè)界創(chuàng)造產(chǎn)出。
我們的研究方向與騰訊公司的“科技向善”愿景相契合。未來,我們將繼續(xù)利用現(xiàn)有基礎(chǔ),整合單細胞多組學(xué)和蛋白質(zhì)大模型,推動臨床應(yīng)用研究,并致力于產(chǎn)出具有世界影響力的原創(chuàng)AI應(yīng)用研究成果。
姚建華:我們的工作重點是利用人工智能技術(shù)解決實際問題和科學(xué)挑戰(zhàn)。
作為 AI Lab,我們的優(yōu)勢在于資源的相對豐富性和研究的聚焦性。與高校相比,公司的環(huán)境允許我們集中力量進行大規(guī)模的研究項目。
此外,公司的組織結(jié)構(gòu)也使得不同領(lǐng)域的研究員能夠協(xié)同合作,共同推進同一項目。雖然高校的研究環(huán)境更為自由,但我們這里的研究可以更加集中和深入。
我們的目標(biāo)是聚焦于最前沿的課題和方向,解決最具挑戰(zhàn)性的問題,以此形成強大的影響力。
我們將繼續(xù)在單細胞蛋白質(zhì)組學(xué)領(lǐng)域深耕,不僅推動科學(xué)的發(fā)展,也為臨床應(yīng)用提供創(chuàng)新的解決方案。我們期待通過這些努力,為整個領(lǐng)域帶來積極的變化,并為社會做出更大的貢獻。
雷峰網(wǎng):我了解到,騰訊 AI Lab 也在探索腦科學(xué)等領(lǐng)域,這是否意味著我們未來可能會看到更多相關(guān)成果?
姚建華:我們目前的重點還是集中在生命科學(xué)的一些基礎(chǔ)問題上,如蛋白質(zhì)和基因組學(xué)等領(lǐng)域。
我們確實進行了一些大腦相關(guān)的研究,但主要是為了探索大腦的本質(zhì)。例如,去年我們進行了大腦圖譜的研究,這更偏向于腦科學(xué)的基礎(chǔ)研究。
我們試圖通過蛋白質(zhì)組學(xué)和基因組學(xué)的信息來區(qū)分不同類型的神經(jīng)元,并理解它們是如何相互聯(lián)系和作用的。這樣的研究有助于我們深入理解大腦的機制。
通過我們的AI算法分析基因組學(xué)和蛋白質(zhì)組學(xué)數(shù)據(jù),我們幫助神經(jīng)科學(xué)家對不同腦細胞進行分類,并描繪它們在大腦中的空間位置。這樣的大腦圖譜研究是神經(jīng)科學(xué)研究的基礎(chǔ)。
當(dāng)然,要真正深入到腦圖譜的研究,最終還需要回到基因和蛋白質(zhì)的層面。我們的目標(biāo)是支持更高層次的科學(xué)研究。
雷峰網(wǎng):那么三篇論文成果之后,還有關(guān)于臨床應(yīng)用和成果轉(zhuǎn)化的規(guī)劃嗎?
姚建華:目前,我們更側(cè)重于研究成果的產(chǎn)出,因為工業(yè)產(chǎn)出往往需要更多的資源和工程團隊。
我們現(xiàn)階段主要致力于解決一些基礎(chǔ)科學(xué)問題。當(dāng)然,隨著技術(shù)積累到一定程度,我們可能會通過與其他團隊合作或?qū)ふ液献骰锇閬韺崿F(xiàn)這些技術(shù)的落地和產(chǎn)業(yè)化。
我們的目標(biāo)是先在科研領(lǐng)域取得突破,為未來的工業(yè)應(yīng)用打下堅實的基礎(chǔ)。
本文作者 吳彤 長期關(guān)注人工智能、生命科學(xué)和科技一線工作者,習(xí)慣系統(tǒng)完整記錄科技的每一次進步,歡迎同道微信交流:icedaguniang
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。