0
在CASP比賽創(chuàng)建者John Moult教授看來,這一比賽從來不是閉門造車,或是學(xué)術(shù)界的圈地自嗨。
2018年,在第13屆CASP比賽中,一個頂著谷歌子公司帽子的參賽選手亮相,其AlphaFold系統(tǒng)以最高的預(yù)測準(zhǔn)確率擊敗其他參賽隊伍。
2020年,在第14屆CASP比賽中,這一公司再次卷入競技場,憑借AlphaFold二代系統(tǒng)以絕對的優(yōu)勢大獲全勝,并在次年將技術(shù)成果全部發(fā)表于《Nature》和《Science》等頂級期刊。
這便是如今的AI殿堂級公司--DeepMind。
從那以后,人們首次將“人工智能”和“蛋白質(zhì)結(jié)構(gòu)預(yù)測”兩個毫不相關(guān)的領(lǐng)域聯(lián)系在一起。而DeepMind背后的谷歌,也憑借CASP大賽織造了一張夢寐以求的醫(yī)療商業(yè)藍(lán)圖。
從業(yè)內(nèi)人士的角度,這或許是意料之中。正如John Moult教授創(chuàng)立CASP比賽的初心,便是希望以此推動計算生物學(xué)研究,加速理解細(xì)胞構(gòu)建原理和推進(jìn)藥物發(fā)現(xiàn),最終惠及全人類。
顯然,DeepMind已經(jīng)蹚出了一條可參照的發(fā)展路徑。
不久前,CASP 15落下帷幕,盡管本屆比賽中未見DeepMind身影,但諸多華人團(tuán)隊參賽熱情高漲,在蛋白質(zhì)單體/多體結(jié)構(gòu)預(yù)測、蛋白質(zhì)-蛋白質(zhì)復(fù)合體結(jié)構(gòu)預(yù)測、RNA結(jié)構(gòu)預(yù)測、蛋白質(zhì)-小分子配體復(fù)合物結(jié)構(gòu)預(yù)測等多賽道上奪得桂冠。
不少參賽選手直言,“這是‘后AlphaFold2時代’的首屆大型同臺競技,所有選手都獲得了業(yè)內(nèi)前所未有的關(guān)注?!?/p>
在AlphaFold2的沖擊之下,蛋白質(zhì)結(jié)構(gòu)預(yù)測是否還能為人們帶來新的驚喜?
本屆首次新增蛋白質(zhì)-小分子復(fù)合體預(yù)測和RNA結(jié)構(gòu)預(yù)測兩大賽道,是否意味著蛋白質(zhì)結(jié)構(gòu)預(yù)測不再穩(wěn)占“C位”?
RNA結(jié)構(gòu)預(yù)測領(lǐng)域是否會出現(xiàn)如AlphaFold2一般引發(fā)革命的技術(shù)工具?
從基礎(chǔ)研究到應(yīng)用研究,人們不斷討論著在CASP 15背后行業(yè)發(fā)展的諸多可能。
近日,由雷峰網(wǎng)GAIR Live&《醫(yī)健AI掘金志》舉辦的《生物計算“奧賽”冠軍團(tuán)隊論道:當(dāng)生命科學(xué)遇上史詩級AI,何去何從?》線上圓桌論壇落幕。
本次論壇邀請了多位在CASP 15中取得出色成績的參賽者,由上海智峪生科CEO王晟擔(dān)任主持,江蘇理工學(xué)院生物信息與醫(yī)藥工程研究所教授常珊、密歇根大學(xué)計算醫(yī)學(xué)和生物信息學(xué)系博士后研究員鄭偉、浙江工業(yè)大學(xué)信息工程學(xué)院教授張貴軍、上海智峪生科技CTO熊鵬參與討論。
在上篇中,幾位嘉賓共同分享了在CASP 15中的參賽經(jīng)歷,以及在AlphaFold2沖擊下,蛋白質(zhì)結(jié)構(gòu)預(yù)測賽道該何去何從。
在下篇中,將聚焦本屆兩大新增賽道:蛋白質(zhì)-小分子復(fù)合體預(yù)測和RNA結(jié)構(gòu)預(yù)測在應(yīng)用層面的潛力,探討當(dāng)下火熱的AIGC技術(shù)在AI生命科學(xué)領(lǐng)域的可能性。
“全球人工智能與機(jī)器人大會”(GAIR)始于2016年雷峰網(wǎng)(公眾號:雷峰網(wǎng))與中國計算機(jī)學(xué)會(CCF)合作創(chuàng)立的CCF-GAIR大會,旨在打造人工智能浪潮下,連接學(xué)術(shù)界、產(chǎn)業(yè)界、投資界的新平臺,而雷峰網(wǎng)“連接三界”的全新定位也在此大會上得以確立。
經(jīng)過幾年發(fā)展,GAIR大會已成為行業(yè)標(biāo)桿,是目前為止粵港澳大灣區(qū)人工智能領(lǐng)域規(guī)模最大、規(guī)格最高、跨界最廣的學(xué)術(shù)、工業(yè)和投資領(lǐng)域盛會。
GAIR Live作為雷峰網(wǎng)旗下視頻直播品牌,旨在輸出新鮮、深度、原創(chuàng)的大咖訪談與對話內(nèi)容,打造輻射產(chǎn)、學(xué)、研、投的特色線上平臺。
以下是主題論壇的現(xiàn)場內(nèi)容,雷峰網(wǎng)《醫(yī)健AI掘金志》做了不改變原意的編輯和整理:
王晟:你們對CASP 15競賽有哪些印象深刻的事情?
常珊:我剛剛看到比賽結(jié)果的時候很驚訝,雖然知道參加比賽的華人組織很多,但沒有想到前幾個名次都被華人包攬,這讓我印象深刻。
其次就是AlphaFold2在比賽中的應(yīng)用非常廣泛,往年我們參加多聚體競賽時,通常會遇到一些困難的target,大家完成度不是特別好。
但這次比賽中感覺大家的完成度都非常好,一些困難的題目今年大家也能夠完整地提交,很大程度提高了大家參與比賽的積極性。
還有我們自己的賽道,ligand。我印象特別深刻的是有一個target,H1114target,剛出來的時候我也被嚇了一跳,因為它有56個配體。
我看到這個題目的時候其實是想放棄的,覺得組委會把這個題目設(shè)計的太難了,配體這么復(fù)雜的情況下,原本的程序就沒辦法使用了,只能自己重新寫很多代碼來實現(xiàn)target的計算。
但是想到這道題目對我們來說很難,對別人來說也很難,就堅持把題目做完了,一直到凌晨才提交完畢。
最后的評估結(jié)果有點遺憾,這道題目雖然有56個配體,完成的過程非常辛苦,但是和其他只有一個配體的題目所占的權(quán)重是一樣的,所以在評分的時候我們并不占優(yōu)勢。
張貴軍:對CASP 15來說,我們其實還算是新手,之前沒有參加過CASP比賽。
首先從CASP的發(fā)展史來看,AI在蛋白質(zhì)結(jié)構(gòu)預(yù)測方面有著非常大的推動力,從CASP 12萌芽,CASP 13發(fā)展,CASP 14突破,CASP 15發(fā)展得更加成熟。
近年來在醫(yī)藥領(lǐng)域已經(jīng)有一些企業(yè)取得了比較大的成功,比如在新冠疫情的應(yīng)對上。國內(nèi)的高校、研究機(jī)構(gòu)、企業(yè)等等,都已經(jīng)開始進(jìn)入這一領(lǐng)域,速度之快、廣度之大都非常令人驚訝。
從技術(shù)的角度來看,我覺得鄭偉博士、楊建益老師會更有發(fā)言權(quán)。
就我們的感受而言,在這次的比賽中,單體、多聚體、復(fù)合物這三個賽道目前還是在AlphaFold2的基礎(chǔ)上進(jìn)行,尤其是MSA上的處理。
這些MSA信息的獲取實際上是這一屆比賽中單體復(fù)合物結(jié)構(gòu)提升的關(guān)鍵環(huán)節(jié),當(dāng)然,這也取決于現(xiàn)在的AI模型的發(fā)展。
AI模型現(xiàn)在發(fā)展的也很快,殘差網(wǎng)絡(luò)、注意力機(jī)制、自然語言模型等等,都很好地理解了序列與結(jié)構(gòu)之間的關(guān)系。
生命系統(tǒng)以及任何一個生命活動,都是通過生命的語言進(jìn)行,氨基酸、蛋白質(zhì)、單體復(fù)合物等等類似于人類語言中的字母、單詞、句子,先進(jìn)的AI技術(shù)能夠很好地捕獲到這些信息。
在CASP 12中,一些模型的精度比較低,當(dāng)時的長度基本上都在100以內(nèi),能量模型、構(gòu)象搜索過程等問題都是我們的障礙。
近年來AI技術(shù)在在蛋白質(zhì)結(jié)構(gòu)預(yù)測方面的應(yīng)用在不斷加快,尤其是MSA、AlphaFold2等等。
今年我們參加的是模型的質(zhì)量評估賽道,比賽的過程中我們的感受是,在目前的方法上增加一些獨特的特征,然后通過網(wǎng)絡(luò)模型去學(xué)習(xí)這些特征,就能夠以比較小的算力和代價取得較大幅度的性能提升。
王晟:對于來自學(xué)術(shù)界的團(tuán)隊來說,和工業(yè)界一個很大的差別就是能夠使用的資源的量,Google、Facebook等企業(yè)可以用幾千塊甚至上萬塊的GPU來訓(xùn)練模型。
但來自學(xué)術(shù)界的參賽團(tuán)隊掌握的資源遠(yuǎn)遠(yuǎn)不及那些大公司,要在同一個賽場上和他們進(jìn)行競爭,就要更好地利用小算力、小模型取得大的進(jìn)展,這是一個非常好的啟發(fā)。
鄭偉:我覺得這次CASP 15很有趣的一個現(xiàn)象是參賽的隊伍變得特別多,說明這個領(lǐng)域開始越來越多地受到學(xué)界和工業(yè)界的關(guān)注。
這次CASP 15蛋白質(zhì)單體結(jié)構(gòu)預(yù)測賽道的參賽團(tuán)隊和CASP 14基本持平,蛋白質(zhì)-蛋白質(zhì)復(fù)合體結(jié)構(gòu)預(yù)測賽道參賽團(tuán)隊增加了75%左右,上次只有不到50個隊參加,這次有90個隊伍左右。有很多隊伍開始關(guān)注蛋白質(zhì)復(fù)合體預(yù)測這一問題。
這次比賽還開設(shè)了兩個新的賽道,一個是RNA結(jié)構(gòu)預(yù)測,另一個是蛋白質(zhì)-小分子配體復(fù)合物結(jié)構(gòu)預(yù)測。這兩個賽道雖然是第一次開設(shè),每個賽道也有超過30個團(tuán)隊參加。
今年的CASP競賽整體看起來變得越來越繁榮了,同時競爭也變得越來越激烈。
另外,我認(rèn)為今年CASP競賽中放出的target的難度以及fold的結(jié)構(gòu)種類,相比往屆有了很大的提高。
比如target H1137,是由9個不同的蛋白組成的一個超級復(fù)雜的復(fù)合體,這樣復(fù)雜的復(fù)合體在CASP競賽中應(yīng)該是首次出現(xiàn)。
在以往的競賽中,受實驗手段限制,這樣的復(fù)雜結(jié)構(gòu)很難解析出來。但在AlphaFold2等深度學(xué)習(xí)的預(yù)測模型幫助下,這次的比賽中能夠完成一些比較復(fù)雜的復(fù)合體。
而RNA和小分子賽道的加入,使CASP比賽能夠越來越全面地展示計算生物學(xué)的發(fā)展水平。整體來看,CASP比賽變得越來越有趣了。
熊鵬:這次比賽中印象最深的事情是竟然有RNA賽道。RNA結(jié)構(gòu)預(yù)測在以前相對小眾,關(guān)注度遠(yuǎn)遠(yuǎn)弱于蛋白質(zhì)結(jié)構(gòu)預(yù)測。
RNA結(jié)構(gòu)預(yù)測并不是從今年才開始比賽,早在2010年左右歐洲就組織了“RNA-Puzzles”的比賽,已經(jīng)舉辦了六七屆,十二年的時間里才積累了39個target。
對于RNA來說,每年新解析的RNA只有幾百個,其中大部分都是核糖體RNA或是附庸于蛋白質(zhì)的小RNA片段,不適合做一個獨立的fold,因此在CASP這種集中的競賽上,可以作為題目來呈現(xiàn)的新增RNA非常少。
競賽的組織者也非常有誠意,一共收集了12個target,這是非常不容易的,我們直到比賽之前都不確定會不會有RNA題目,看到組織方給出的12個題目非常欣慰,RNA結(jié)構(gòu)預(yù)測的問題會通過這個平臺被越來越多的人知道,吸引越來越多的人參與進(jìn)來,這對RNA學(xué)科的發(fā)展也非常有幫助。
王晟:今年,你們在大賽上都取得了比較理想的成績,能否總結(jié)一下在各個參賽項目上的優(yōu)劣得失?
常珊:我們今年參加了兩個賽道,一個是多聚體的賽道;另一個是ligand的賽道。這兩個賽道一起參加確實特別吃力,往年比賽的時候我只參加多聚體就已經(jīng)很吃力了,今年又增加了一個賽道,覺得更吃力。
在比賽成果上,我們在ligand賽道的成績比較好,是第一名。當(dāng)時我們對每個target都進(jìn)行了預(yù)測,每個target的配體數(shù)量不同,我們幾乎都能夠準(zhǔn)確預(yù)測到結(jié)合部位,即RMSD小于5埃。并且,有很多target我們團(tuán)隊預(yù)測的準(zhǔn)確度都達(dá)到RMSD小于2埃。
有一些target特別難,我們只有部分ligand預(yù)測的比較準(zhǔn),但每一個target都能取的比較好的結(jié)果。這是我比較欣慰的地方。
在賽后的總結(jié)中,我發(fā)現(xiàn)有很多做得不夠好的地方,比如比賽過程中在時間分配上發(fā)生了很大的失誤,我們團(tuán)隊人比較少,只有兩個老師和一個碩士生,三個人同時參加兩個賽道很難兼顧。
按照組委會的評分方式來看,比較容易的target一定要做的精度特別好才能拿到分?jǐn)?shù)。
很遺憾,為了完成比較難的target,這部分容易的target我們認(rèn)為結(jié)果是對的就提交了,沒有去精雕細(xì)琢,導(dǎo)致沒有拿到分?jǐn)?shù),這也是我們最終排名比較落后的原因。
參加比賽的人數(shù)少既是我們的缺點,同時也是優(yōu)點,我們的溝通效率會更高,在討論問題的時候三個人碰個頭就能定下來要怎么做。
下次再參加比賽,我覺得要么把任務(wù)分解一下,多讓幾個學(xué)生參與進(jìn)來,要么就選擇一個更側(cè)重的賽道參加,避免精力不足。
王晟:在這種評分體制下,簡單題目上大家的差距不會太大,但是難題一旦搞定,一道題的差距差不多抵得上5到10個簡單題目。
所以我的打法是簡單題目不要丟太多分,和大家差不多就行,重點去搞定難題。
張貴軍:剛剛常珊老師提到的問題我們組也同樣存在,今年是我們課題組第一次參加CASP比賽,還是新手,為了準(zhǔn)備CASP 15提前半年在CAMEO上做了很多測試,我們參賽成員包括幾個博士、碩士研究生。
通過本屆參賽經(jīng)驗,從下一屆開始我們需要更好的組織。
在CASP 15競賽中,我們參加的賽道比較多,除了RNA和配體之外,其他的賽道基本上都參加了。
準(zhǔn)確性評估的EMA實際上也是一個新的賽道,只是不像RNA、配體一樣顯著,這個賽道的評測主要是用三個詞表,一個是QScore,一個是Score,一個是pLDDT。
QScore來自于Complex,也就是復(fù)合物領(lǐng)域中的一個評測指標(biāo),側(cè)重于衡量interface的docking的分?jǐn)?shù)。而Score主要衡量整個蛋白質(zhì)復(fù)合物結(jié)構(gòu)的精度。
pLDDT側(cè)重的是殘基級的精度。在CASP15中,我們組在pLDDT指標(biāo)上領(lǐng)先幅度很大,這主要是得益于新的超快形狀設(shè)別(USA)特征,采用了CASP 14以來的最新網(wǎng)絡(luò),自己也生成了一批訓(xùn)練數(shù)據(jù),從而捕獲殘基集的誤差。
殘基級誤差在藥物研發(fā)中非常重要,因為它可以用來實現(xiàn)refinement過程,從而獲得高精度的結(jié)構(gòu)模型。
在Score方面,我們的指標(biāo)沒有排在前面,這也是剛剛提到的問題,算力。在CASP15競賽期間,信息工程學(xué)院、學(xué)科給了我們很多算力支持,學(xué)院計算中心三分之二的算力都是我們在使用。
即使是這樣,我們完整的AI模型也是在CASP 15結(jié)束之后才真正訓(xùn)練完成。我們現(xiàn)在也在積極復(fù)盤,查漏補(bǔ)缺。
pLDDT,包括 QScore我們也進(jìn)行了分析,如果要提升精度,就要考慮接口處殘基的數(shù)量、殘基的互作,結(jié)合pLDDT指標(biāo),以及我們單序列平均pLDDT,復(fù)合物平均pLDDT這些特征都要考慮。
在單域、多域和復(fù)合物上面,我們的表現(xiàn)一般,在這里也恭喜鄭偉博士和楊建益老師,做的非常棒。
一個最主要的原因就是AlphaFold2,MSA非常關(guān)鍵,而且需要大量的算力來做預(yù)訓(xùn)練模型,我們沒有關(guān)注這方面。我們考慮的是設(shè)計蛋白質(zhì)結(jié)構(gòu)模式的辨識方法,通過盲測去驗證想法的性能,確認(rèn)它到是不是源于現(xiàn)有的PDB數(shù)據(jù)庫的設(shè)想。
這也是一個非常久遠(yuǎn)的命題,但我認(rèn)為隨著共進(jìn)化技術(shù)的發(fā)展,模板建模方法還會峰回路轉(zhuǎn),受到更多關(guān)注??紤]到現(xiàn)有算力、算法設(shè)想,我們對MSA沒有做任何改動。從CASP 15來看,這兩點非常重要,也是我們未來努力的方向。
王晟:張貴軍老師提到一個非常重要的點:MSA的quality。
我在2020年CASP 14的比賽上的一次國際報告中,介紹當(dāng)年我們TFold方法的Pros and cons時,我也講了和張貴軍老師類似的觀點,就是MSA對于整個大分子,包括蛋白和RNA等的結(jié)構(gòu)預(yù)測的重要性非常關(guān)鍵。
我們當(dāng)時還做了很多的實驗,用一個非常淺的MSA或是用包含了更多進(jìn)化的序列跑相同的算法,其質(zhì)量是完全不同的。
不僅如此,如果用一個相同的算法搜相同的數(shù)據(jù)庫,但是使用不同的參數(shù)、不同的迭代次數(shù)、不同的e-value、不同的Z-score搜索MSA,它的質(zhì)量都會很不一樣。
這是一個非常有意思的問題,我們還要對它進(jìn)行本質(zhì)上的探索。
鄭偉:剛才王晟師兄和張貴軍老師都提到了MSA的重要性。就我們課題組而言,在MSA領(lǐng)域也做了幾年的工作,總結(jié)了一些數(shù)據(jù)和算法,也開發(fā)了一些工具專門做MSA。
比如我們的DeepMSA算法以及最新的DeepMSA 2,這些算法采用了常規(guī)的基因組和宏基因組,用不同的工具來組合構(gòu)建MSA。
我們認(rèn)為MSA確實很重要,它不僅對結(jié)構(gòu)預(yù)測這個問題很重要,放眼整個生物信息學(xué)領(lǐng)域,很多基礎(chǔ)的預(yù)測問題,比如早些年的功能預(yù)測、位點預(yù)測等,很多的時候都要依賴PSSM,而PSSM則依賴于MSA的效果。
我個人認(rèn)為MSA是整個生物信息學(xué)的基礎(chǔ),只要MSA做好了,無論是對結(jié)構(gòu)預(yù)測,還是對生物信息學(xué)里的其他基礎(chǔ)問題,都有很大幫助。
對于單體預(yù)測上一些較困難的蛋白,其同源序列的數(shù)目不夠多導(dǎo)致了預(yù)測難度比較大。如果給 AlphaFold2兩個target,其中一個MSA序列較少,另一個MSA序列較多,一般來說MSA序列較少的target結(jié)果會更差,MSA的質(zhì)量很大程度上會影響target的難度。
今年CASP 15的assessor還專門提供了一張清單,上面整理了一些Top group成功的標(biāo)簽,其中MSA在Top5的group中都出現(xiàn)了,我覺得在未來MSA也會越來越引起大家的重視。
今年我們課題組算是第一次參加蛋白質(zhì)復(fù)合體的賽道,得益于此前在單體上的算法積累和MSA的積累,雖然是第一次參加但是也取得了比較理想的成績,MSA可以說是我們今年在比賽中獲得成功的重要因素之一。
CASP比賽對我而不僅僅是一個比賽,同時也是一個比較好的學(xué)習(xí)機(jī)會。因為CASP比賽的時間比較集中,有三四個月的時間可以全身心地投入到比賽中。
平時做蛋白質(zhì)預(yù)測、做的都是針對general蛋白的算法,可能關(guān)注不到某個蛋白的特性或生物學(xué)背景,但是在比賽中每做一個 target都會去研究這些,在比賽中能學(xué)到很多不同target蛋白生物學(xué)方面的新知識。
剛才很多老師提到課題組參賽的人數(shù)比較少,我今年的體會也比較深,因為實驗室調(diào)整,我們今年不是以實驗室整體去參賽,而是以個人的名義代表實驗室參賽。
整個CASP 15期間,無論是前期的算法開發(fā),還是比賽期間服務(wù)器、算法運行,都是我一個人在負(fù)責(zé),服務(wù)器出現(xiàn)各種問題都需要我去和管理員溝通。
我在比賽期間睡覺時間非常少,一天最多只有六個小時的睡眠,每工作四小時就睡兩小時這樣輪轉(zhuǎn)。如果人力有限的話,一個人參加多個賽道是非常耗費時間和精力的事情,對體力的要求也比較高。
另一個體會比較深的是,大家一直在提的算力局限性,學(xué)界的算力肯定不比工業(yè)界,這對比賽的影響還是很大的。
我們今年顯卡個數(shù)也是比較有限,只有二三十張,所以參賽之前的很多想法,由于算力的局限都沒有來得及去實現(xiàn),比賽過程中很多工作都是一邊摸索著一邊做的,這是很大的遺憾。
將來如果有機(jī)會得到更多的算力,我想不僅是我,還有各位老師也會去嘗試更多優(yōu)秀的想法。
王晟:關(guān)于算力的問題,我們也在公司內(nèi)部進(jìn)行過一些探索的,考慮是不是所有的target都要堆算力去做,如果遇到某些搜不出同源模板的,或者根本就不存在相似fold的結(jié)構(gòu),這個結(jié)構(gòu)或許是蛋白,或許是RNA,是不是堆更多的算力,或者訓(xùn)練一個更復(fù)雜的AI模型就能搞定?或者有沒有別的方法來搞定這些target?
熊鵬:這次RNA比賽一共12個題目,分成三組,一組是天然的RNA序列,一組是人工設(shè)計的RNA序列,一組是蛋白質(zhì)和RNA的復(fù)合物。我們最大的收獲來自于人工設(shè)計的那一組RNA,一共有4個題目。
首先,相比其他的小組,我們在這四個題目上積累了很大的優(yōu)勢,使用我們自己的方法來預(yù)測這種人工設(shè)計的RNA,精度會遠(yuǎn)遠(yuǎn)高于其他的組。
以前的RNA設(shè)計并沒有進(jìn)入公眾的視野,大家聽得比較多的是蛋白質(zhì)設(shè)計,比如David Baker組,他們開發(fā)了Rosetta工具,得到了很多蛋白質(zhì)設(shè)計的成功案例。這次比賽中,來自斯坦福的實驗室通過自己的方法人工設(shè)計出了一些RNA。
我們也是通過這次比賽來解開這些題目,研究這些RNA的來源,怎么被設(shè)計出來,從而摸索出了一套RNA設(shè)計的策略。對我自己來說打開了一扇新的大門,學(xué)到了很多新的東西。
比較遺憾的是第三組題目,蛋白質(zhì)和RNA的復(fù)合物。這個方向一直都是我過去非常感興趣的方向,我也一直想將蛋白質(zhì)和RNA這兩個領(lǐng)域統(tǒng)一起來,做統(tǒng)一的結(jié)構(gòu)預(yù)測,以及統(tǒng)一復(fù)合物設(shè)計。
但很遺憾的是,這項工作的工作量比較大,構(gòu)想也太過龐大,目前為止還沒有完成。
我們原本打算在比賽中迅速開發(fā)出一個簡易的版本,去實現(xiàn)那兩個target的預(yù)測,但是發(fā)現(xiàn)沒那么容易,匆忙的一兩個、一兩周或者一個月的時間,確實不足以開發(fā)出一套可行的程序,最終那兩個target做得也比較差。
這個問題也并不是我們一個組的問題,對所有的組來說,蛋白質(zhì)和RNA的復(fù)合物預(yù)測的都不是很好,這也是整個領(lǐng)域目前面臨的難題。
但這個方向特別重要,因為生物體內(nèi)很多功能的RNA分子或者蛋白質(zhì)分子都是通過蛋白和核酸的相互作用來實現(xiàn)功能的。
比如基因編輯或者基因調(diào)控,涉及到的核心問題就是RNA和蛋白質(zhì)的相互作用,這些問題目前都還沒有解決。
未來還需要各位做蛋白質(zhì)研究和做RNA研究的人一起協(xié)作,共同解決這些問題。
另外,前面幾位老師都提到MSA,它對于蛋白質(zhì)的結(jié)構(gòu)預(yù)測至關(guān)重要,也是我們實現(xiàn)從過去的基于同源建模的方法到基于evolutionary coupling共進(jìn)化的方法這一突破的核心角色。
MSA在RNA的結(jié)構(gòu)預(yù)測中也受到了廣泛的關(guān)注,但它究竟能起多大作用目前在學(xué)術(shù)圈內(nèi)還有著較大的爭議。
有人認(rèn)為MSA對RNA結(jié)構(gòu)預(yù)測的影響像在蛋白質(zhì)結(jié)構(gòu)預(yù)測中一樣大,我們現(xiàn)在做得不好是因為MSA構(gòu)建的還不夠好,只要我們構(gòu)建出更加優(yōu)質(zhì)的MSA,就能夠提供更多的contact information或是orientation的information。
另外一派認(rèn)為在RNA結(jié)構(gòu)預(yù)測中的的MSA,可能只對二級結(jié)構(gòu)預(yù)測或base pair的預(yù)測有幫助。對于其他的相互作用,MSA提供不了任何信息。
現(xiàn)在學(xué)術(shù)圈還沒有達(dá)成共識,不同人的看法也不一樣,大家在各自的想法上進(jìn)行了嘗試,目前還沒有定論。
RNA結(jié)構(gòu)預(yù)測問題跟蛋白質(zhì)還是不一樣的,很多未知的東西還需要大家以后去解決。
王晟:CASP15比賽新增了兩個重要賽道,蛋白質(zhì)-小分子的復(fù)合物預(yù)測以及RNA結(jié)構(gòu)預(yù)測。在RNA結(jié)構(gòu)預(yù)測方面,哪些方向能因此受益而加速突破?RNA結(jié)構(gòu)預(yù)測的研究能夠怎樣推動RNA相關(guān)療法、合成生物學(xué)的發(fā)展?類似AlphaFold2引爆蛋白質(zhì)單體結(jié)構(gòu)預(yù)測的革命,能否燃燒到RNA領(lǐng)域?
常珊:雖然我沒有參加,但是我原來在密蘇里大學(xué)時,我的博士后導(dǎo)師鄒曉琴和陳世杰老師是夫妻,他們兩人的學(xué)生之間經(jīng)常交流,所以我也了解了一些相關(guān)技術(shù)。
我們在江蘇理工學(xué)院生物信息與醫(yī)藥工程研究所的團(tuán)隊里,剛好有一個成員是陳世杰老師的博士后,他的博士、博士后期間都是在陳老師的實驗室,加入我們團(tuán)隊后主要負(fù)責(zé)RNA的結(jié)構(gòu)預(yù)測。
他是物理學(xué)的背景,跟熊博士是一樣的,所以他采用的也是物理模型--先構(gòu)建二級結(jié)構(gòu),再考慮怎么把三級結(jié)構(gòu)預(yù)測得更準(zhǔn)確一些。
我認(rèn)為AI在RNA結(jié)構(gòu)領(lǐng)域的能力,還沒有比肩AlphaFold2,在這個領(lǐng)域內(nèi),物理模型還是一個主流模型。
從這次比賽的情況來看,RNA結(jié)構(gòu)預(yù)測的精度和蛋白質(zhì)結(jié)構(gòu)預(yù)測的精度相比,差距還比較大。為什么?
首先,RNA結(jié)構(gòu)預(yù)測精度太低,拉低RNA-ligand預(yù)測結(jié)果。
我們參加ligand的賽道時,有幾個受體不是蛋白質(zhì)而是RNA結(jié)構(gòu),我們當(dāng)時并不預(yù)測RNA的結(jié)構(gòu),就用組委會公開的其他小組預(yù)測的結(jié)構(gòu)做了ligand相互作用的預(yù)測。
從最終看公布的結(jié)果來看,RNA的結(jié)構(gòu)預(yù)測偏差實在太大了,這也導(dǎo)致了我們ligand預(yù)測的失敗。
我們是受到了RNA結(jié)構(gòu)預(yù)測不準(zhǔn)確的牽連,受體都不準(zhǔn)確的話,配體怎么可能會準(zhǔn)確?
我認(rèn)為,未來做RNA結(jié)構(gòu)預(yù)測的人要和做蛋白質(zhì)結(jié)構(gòu)預(yù)測的人密切合作,才能把ligand做得更好。
不論是蛋白質(zhì)還是RNA的結(jié)構(gòu)預(yù)測做的不好,都會影響ligand相互作用的預(yù)測。
其次,我們也做了蛋白質(zhì)和RNA相互作用的預(yù)測,在比賽結(jié)果中,其中一個target我們組排在前面,我非常意外,因為當(dāng)時我們自己沒有做RNA結(jié)構(gòu)預(yù)測,直接將其他組的RNA結(jié)構(gòu)預(yù)測的結(jié)果和蛋白做了相互作用。
雖然排名靠前,但誤差也20埃左右,屬于五十步笑百步。只是大家在這一項上的誤差都非常大,我們錯的稍微少一點點,就被排到了前面。
RNA結(jié)構(gòu)預(yù)測的領(lǐng)域迫切地需要引入其他技術(shù),否則其精度暫時會落后于蛋白質(zhì)結(jié)構(gòu)預(yù)測。
王晟:CASP15之所以推出了RNA結(jié)構(gòu)預(yù)測賽道,也就是借比賽,進(jìn)一步提高大家對RNA結(jié)構(gòu)預(yù)測的關(guān)注,提高RNA預(yù)測精度,推動整個領(lǐng)域的落地,即RNA療法以及合成生物學(xué)。
常珊教授講的這兩點非常有意思。
第一點是RNA和小分子。目前常見的RNA藥物,小RNA、寡RNA、RNA疫苗等等,基本都是利用其線性作用的特性,而不是利用其空間結(jié)構(gòu)。
但真實場景下的RNA,都是通過其復(fù)雜、動態(tài)的結(jié)構(gòu)發(fā)揮重要功能的,如果我們能夠準(zhǔn)確地捕獲它的復(fù)雜動態(tài)結(jié)構(gòu),理論上就可以像蛋白質(zhì)-小分子藥物一樣,設(shè)計出專門針對RNA小分子的藥物,從而target巨頭調(diào)控作用的RNA,不論是在疾病治療還是其他領(lǐng)域,都有著非常重要的作用。
第二點,RNA-蛋白質(zhì)的相互作用預(yù)測,對于合成生物學(xué)至關(guān)重要。
比如如何構(gòu)造調(diào)控網(wǎng)絡(luò)、如何理解RNA和蛋白之間的作用機(jī)制、能否設(shè)計更好的結(jié)構(gòu),讓蛋白質(zhì)表達(dá)得更多、如何調(diào)控transfer factor,設(shè)計出能夠與RNA特異序列結(jié)合的蛋白質(zhì)(RNA-binding proteins),以及構(gòu)建出優(yōu)越的底盤細(xì)胞(底盤細(xì)胞的選擇和優(yōu)化,是合成生物學(xué)鏈條上的核心步驟)。
張貴軍:剛才熊鵬博士的發(fā)言我非常認(rèn)同。
雖然蛋白質(zhì)結(jié)構(gòu)預(yù)測目前已經(jīng)達(dá)到比較可觀的精度,但我們還要考慮其動態(tài)性。
在生物體內(nèi),蛋白并非靜止?fàn)顟B(tài),而是時刻通過PPI相互作用,通過一致的原動力:電磁力導(dǎo)致最終形態(tài)發(fā)生變化,最終實現(xiàn)信號傳導(dǎo)。
多態(tài)性是RNA和蛋白質(zhì)同樣面臨的問題,蛋白在多態(tài)性方面的研究可能有助于提高RNA結(jié)構(gòu)預(yù)測精度。
此外,目前RNA的數(shù)據(jù)不及蛋白質(zhì)的數(shù)據(jù)全面。在蛋白質(zhì)結(jié)構(gòu)預(yù)測的數(shù)據(jù)庫中,如今已經(jīng)存在大量結(jié)構(gòu),且許多結(jié)構(gòu)已經(jīng)被證實是完備的。
在這種情況下,通過物理化學(xué)建模方法超越AI是有可能的。將來隨著數(shù)據(jù)的增加或是新技術(shù)的突破,RNA結(jié)構(gòu)預(yù)測也將會有所提升。
如同蛋白質(zhì)結(jié)構(gòu)預(yù)測的發(fā)展歷程一樣,在最初的CASP競賽中,大家也曾質(zhì)疑過是否能通過計算機(jī)來模擬蛋白質(zhì)結(jié)構(gòu),這一點近年來已經(jīng)得到證實,我相信未來RNA也可以達(dá)到這個水平。
我個人感覺RNA和蛋白質(zhì)的相互作用非常重要,長期以來大家很關(guān)注基因組研究,一直被忽略的RNA為什么突然受到這么多關(guān)注?之前在技術(shù)上當(dāng)然有一定難度。
然而,從藥物研發(fā)的角度來講,RNA起到的是橋梁的作用,同時又具有多態(tài)性,目前的藥物靶標(biāo)大部分還是蛋白靶標(biāo),未來RNA藥物會是一片藍(lán)海,有著廣闊的落地場景。
鄭偉:我沒有參加RNA的賽道,對RNA研究也不是特別多,在這方面肯定沒有熊鵬師兄這么有權(quán)威性,我談一些簡單的看法。
張貴軍老師剛才談到的蛋白質(zhì)結(jié)構(gòu)或者RNA結(jié)構(gòu)所具備的多態(tài)性,或者我們可以叫變構(gòu),在CASP 15之前,組委會準(zhǔn)備設(shè)置一個蛋白質(zhì)變構(gòu)賽道,但是比賽中并沒有出現(xiàn)target,相當(dāng)于這個賽道被取消了。
在CASP 15結(jié)束后,組委會成立了一個單獨的蛋白質(zhì)變構(gòu)討論組,對這個方向的討論更多了,不知明年是否會單獨設(shè)置相關(guān)賽道。
這也意味著,無論是蛋白質(zhì)變構(gòu)還是更遙遠(yuǎn)RNA變構(gòu),都是未來潛在的研究方向。
我記得貴軍老師和西湖大學(xué)李子清老師,最近發(fā)了一篇蛋白質(zhì)變構(gòu)文章(Multiple conformational states assembly of multidomain proteins using evolutionary algorithm based on structural analogues and sequential homologues)。
總體而言,變構(gòu)方面的研究太少,希望CASP16之后會有很大的變化。
此外,張貴軍老師提到的RNA對制藥領(lǐng)域或相關(guān)療法的影響,我個人認(rèn)為都非常對。以往的藥物靶點大部分都是蛋白質(zhì)靶點,但實際上RNA會成為一個比較好的潛在靶點,通過阻斷RNA表達(dá)或阻斷RNA與蛋白質(zhì)形成復(fù)合物,從而阻斷蛋白質(zhì)形成功能,其療效或許會更好。
未來研究RNA成為小分子靶點,在醫(yī)藥領(lǐng)域的落地也許會有比較好的發(fā)展。
剛才王晟博士提到一個問題,AlphaFold2預(yù)測蛋白精度比較高,RNA領(lǐng)域是否也會出現(xiàn)類似的機(jī)器學(xué)習(xí)算法,在未來引發(fā)RNA結(jié)構(gòu)預(yù)測的革命?
我認(rèn)為短時間內(nèi)可能不太容易出現(xiàn)一個純深度學(xué)習(xí)、全自動、不依賴任何人工參與,同時能夠達(dá)到AlphaFold2相同精度的算法。
AlphaFold2能夠成為一個很成功的深度學(xué)習(xí)框架,其中一個關(guān)鍵因素是具備大量的實驗結(jié)構(gòu)支撐其深度學(xué)習(xí)的訓(xùn)練。
AlphaFold2使用的PDB數(shù)據(jù)庫已經(jīng)建立了50多年,其中積累了數(shù)十萬個實驗解析的蛋白質(zhì)結(jié)構(gòu),這樣大規(guī)模的蛋白質(zhì)數(shù)據(jù)能夠為深度學(xué)習(xí)提供比較好的訓(xùn)練基礎(chǔ)。
但PDB數(shù)據(jù)庫中已經(jīng)解析出來的非冗余的RNA結(jié)構(gòu)只有數(shù)千規(guī)模,在沒有大規(guī)模數(shù)據(jù)支撐的前提下,想要開發(fā)一個全依賴于深度學(xué)習(xí)框架的RNA結(jié)構(gòu)預(yù)測算法,短時間內(nèi)很難達(dá)到AlphaFold2的水平。
當(dāng)然,這并不影響大家對深度學(xué)習(xí)框架的探索,比如一些課題組開發(fā)了基于距離約束的算法,還有課題組在嘗試RNA的端到端的學(xué)習(xí)。
王晟:我補(bǔ)充一點。鄭偉博士剛才講到的幾點,都是參考AlphaFold2框架做RNA結(jié)構(gòu)預(yù)測。
智峪生科這次有一支參賽隊伍就是采用了AlphaFold2的框架來做RNA三維結(jié)構(gòu)的預(yù)測,叫做AIchemy-RNA。
從結(jié)果來看,雖然取得了AI方法中的第一名,但和物理的方法相比確實還是要差一些,原因正如剛剛鄭博士所講,主要在于數(shù)據(jù)量的問題,這是一個很大的約束條件。
其次,之前熊博士也講到,對RNA的結(jié)構(gòu)預(yù)測來說,MSA的影響是否像在蛋白質(zhì)結(jié)構(gòu)預(yù)測中一樣強(qiáng)還是未知數(shù)。
第三,AlphaFold2的成功不僅僅在于其端對端的架構(gòu),而是將所有人類已知的序列信息利用起來了,使用了類似半監(jiān)督學(xué)習(xí)的框架。
在這次比賽中,我們也把RNA的序列以及通過實驗測得的二級結(jié)構(gòu)等信息加入到模型之中。
從結(jié)果來看,雖然比不上物理的方法,但是在這次采取AI方法的參賽隊伍中表現(xiàn)還是非常不錯的。我們做的更好的是熊鵬老師的物理方法。
未來我們非常期待把AI的方法和物理的方法結(jié)合起來,取得更好的成績。
熊鵬:首先說明一點,雖然我們這一組的方法在CASP 15的RNA組中獲得了第一名,但是它的絕對精度并不高。
比如前面我們提到的兩個RNA和蛋白質(zhì)的復(fù)合物的結(jié)構(gòu),我們的誤差在20埃左右,拓?fù)涠际清e的。
我們預(yù)測得比較好的target,比如人工設(shè)計的RNA,或者是幾個天然的risen,精度在5埃、6埃左右,相對于蛋白質(zhì)的結(jié)構(gòu)預(yù)測精度還有很大的一段距離,而距離應(yīng)用就更遠(yuǎn)了。
如果要實現(xiàn)RNA結(jié)構(gòu)計算相關(guān)的應(yīng)用,精度最好控制在兩三埃左右,不論是對小分子設(shè)計還是對RNA的功能設(shè)計,都會有比較大的幫助。
所以,現(xiàn)階段的水平離具體的應(yīng)用依然有一定差距。
如果要從根本上去解決RNA預(yù)測精度的問題,還是需要神經(jīng)網(wǎng)絡(luò)直接學(xué)習(xí)RNA折疊的驅(qū)動力,也就是使用神經(jīng)網(wǎng)絡(luò)方法去訓(xùn)練一個精度更高的立場,但我自己并沒有做太多的嘗試,各位做神經(jīng)網(wǎng)絡(luò)的專家可以往這個方面嘗試一下。
如果RNA的精度能夠達(dá)到跟蛋白質(zhì)預(yù)測差不多的水平,它應(yīng)用方向到底哪里?在生物醫(yī)藥方面的應(yīng)用主要在三個領(lǐng)域。
首先是大家關(guān)心最多的就是mRNA的優(yōu)化或設(shè)計,這涉及到蛋白質(zhì)的密碼子優(yōu)化的問題,以及mRNA穩(wěn)定性的問題,這與RNA的結(jié)構(gòu)在溶液中的狀態(tài)也有很大關(guān)系。
當(dāng)然,這個問題通過非結(jié)構(gòu)的方法也許能夠獲得一些信息,但是有結(jié)構(gòu)之后,能夠?qū)NA的折疊判斷更加準(zhǔn)確,這對于mRNA的優(yōu)化將會有非常大幫助。
第二個方向是針對RNA的target,或是針對RNA的小分子藥物設(shè)計。在做藥物的過程中,部分靶點很難找到小分子結(jié)合口袋,即不可成藥靶點。
對于這些靶點來說,如果不直接抑制其蛋白質(zhì),而是去抑制控制蛋白質(zhì)表達(dá)的Non-coding區(qū),則為藥物開發(fā)提供了新的思路。
這個方向依賴于兩件事,第一是控制蛋白質(zhì)基因表達(dá),預(yù)測其準(zhǔn)確的三級結(jié)構(gòu),第二是解決RNA和小分子的相互作用問題,針對特定的Non-coding區(qū)設(shè)計特定的小分子。這個方向國內(nèi)有很多老師都在做嘗試。
第三個方向是以RNA本身作為藥物進(jìn)入人體內(nèi)發(fā)揮功能。目前的置放藥物主要還是通過基因匹配抑制相關(guān)的基因表達(dá)。或是RNA本身作為功能分子實現(xiàn)基因調(diào)控、基因剪切等。比如設(shè)計特定的RNA切割特定位點,作為基因治療的藥物使用。
據(jù)我了解,有些組在嘗試開發(fā)純RNA的分子做基因編輯。目前基因編輯主要還是通過CAS蛋白體系,即蛋白質(zhì)復(fù)合物+guide RNA,編輯特定的序列。如果我們直接設(shè)計一個純RNA的分子,識別特定的位點,執(zhí)行精編輯的功能,在理論上也是可行的。
總結(jié)一下這三個方向,第一是通過計算的方法優(yōu)化mRNA的蛋白表達(dá),優(yōu)化其穩(wěn)定性;第二是針對RNA target的藥物設(shè)計;第三是將RNA本身作為新型藥物。
雷峰網(wǎng)《醫(yī)健AI掘金志》將于近日推出《GAIR Live | CASP 15冠軍大論道:結(jié)構(gòu)預(yù)測的下一個里程碑,將在何處?|(下篇)》,聚焦本屆兩大新增賽道:蛋白質(zhì)-小分子復(fù)合體預(yù)測和RNA結(jié)構(gòu)預(yù)測在應(yīng)用層面的潛力,探討當(dāng)下火熱的AIGC技術(shù)在AI生命科學(xué)領(lǐng)域的可能性,歡迎各位讀者朋友關(guān)注。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。