0
本文作者: 任平 | 2022-12-20 13:53 |
近日,第15屆蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)比賽(CASP 15)正式落下帷幕。
從CASP網(wǎng)站上已公布的六個(gè)賽道排名上看,華人團(tuán)隊(duì)表現(xiàn)亮眼,在蛋白質(zhì)單體/多體結(jié)構(gòu)預(yù)測(cè)、蛋白質(zhì)-蛋白質(zhì)復(fù)合體結(jié)構(gòu)預(yù)測(cè)、RNA結(jié)構(gòu)預(yù)測(cè)、蛋白質(zhì)-小分子配體復(fù)合物結(jié)構(gòu)預(yù)測(cè)(得分有異議,最終結(jié)果尚未公示)等4個(gè)賽道上名列前二。其中成立于2021年4月的智峪生科,更是在后兩大賽道中分別取得冠亞軍兩項(xiàng)榮譽(yù)。
值得注意的是,不同于往屆將蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)作為主要賽道,CASP 15更側(cè)重預(yù)測(cè)蛋白質(zhì)復(fù)合體結(jié)構(gòu)(原來CAPRI比賽的內(nèi)容)和RNA結(jié)構(gòu)(原來RNA-Puzzles比賽的內(nèi)容)。
與此同時(shí),由于前一屆AlphaFold2和RossetaFold在蛋白質(zhì)三級(jí)結(jié)構(gòu)預(yù)測(cè)中取得重大突破,與之相關(guān)的細(xì)化(Refinement)、接觸預(yù)測(cè)(Contact and Distance prediction,二級(jí)結(jié)構(gòu)預(yù)測(cè)相關(guān))、模型準(zhǔn)確性估計(jì)(Domain-level estimates of model accuracy)均被刪除。
據(jù)悉,今年5月CASP 15賽程伊始,CASP比賽發(fā)起人John Moult教授曾對(duì)外表示,“蛋白質(zhì)預(yù)測(cè)上的成就,以及開源工具的不斷豐富,都為解決RNA折疊問題提供了不少幫助。此外,蛋白質(zhì)通過與其他蛋白質(zhì)和分子相互作用而變得獨(dú)特,因此我認(rèn)為這(預(yù)測(cè)蛋白質(zhì)復(fù)合物結(jié)構(gòu))比預(yù)測(cè)單個(gè)蛋白質(zhì)結(jié)構(gòu)更重要。這是在各種行業(yè)應(yīng)用,尤其在藥物設(shè)計(jì)中需要解決的基礎(chǔ)性問題。”
今年的參賽隊(duì)伍多于往屆,并且有較多的國(guó)內(nèi)組織參與。據(jù)CASP 15會(huì)議官方統(tǒng)計(jì),全球共計(jì)163個(gè)計(jì)算生物學(xué)家小組參加了比賽。
其中,來自中國(guó)的參賽隊(duì)伍數(shù)量基本與美國(guó)持平,包含華深智藥的Omegafold、清華產(chǎn)業(yè)研究院AIRfold、百度飛槳的HelixFold、深勢(shì)科技的Uni-Fold、上海天壤的TRFold、分子之心的許錦波教授團(tuán)隊(duì)、以及清華、北大、人大、山大、浙工大、江蘇理工、上??拼?、西湖大學(xué)、中科院計(jì)算所等諸多業(yè)界和高校團(tuán)隊(duì)。
因此,隨著CASP 15在2022年寒冬打響賽道變革第一槍,生命科學(xué)的春天已經(jīng)悄然來臨。
本屆賽程從2022年5月初持續(xù)到8月中旬,包含蛋白質(zhì)單體/多體結(jié)構(gòu)預(yù)測(cè)、蛋白質(zhì)復(fù)合體結(jié)構(gòu)預(yù)測(cè)、RNA結(jié)構(gòu)預(yù)測(cè)、蛋白質(zhì)-小分子配體復(fù)合物結(jié)構(gòu)預(yù)測(cè)、蛋白質(zhì)構(gòu)象集合、準(zhǔn)確性估計(jì)等六個(gè)賽道。
對(duì)此,雷峰網(wǎng)&《醫(yī)健AI掘金志》主要對(duì)蛋白質(zhì)單體結(jié)構(gòu)預(yù)測(cè)、RNA結(jié)構(gòu)預(yù)測(cè)兩大賽道展開論述。
CASP15中的靶標(biāo)體系和不同賽道參賽情況。注意:數(shù)據(jù)有重合,會(huì)出現(xiàn)一個(gè)小組參加多條賽道的情況
在蛋白質(zhì)單體結(jié)構(gòu)預(yù)測(cè)方面,多方法組合優(yōu)化仍是“必殺技”。
在本屆競(jìng)賽中,蛋白質(zhì)單體結(jié)構(gòu)預(yù)測(cè)賽道共有135個(gè)小組參加,共預(yù)測(cè)了94個(gè)蛋白單體靶標(biāo)體系。以CASP網(wǎng)站的排名來看,山東大學(xué)楊建益為首的Yang-Server服務(wù)器、鄭偉博士開發(fā)的UM-TBM服務(wù)器(基于D-I-TASSER算法)、日本Infinite Curation公司小田賢幸的人工組PEZYFoldings分列前三,并與后續(xù)算法梯隊(duì)拉開距離。
據(jù)悉,奪得榜首的楊建益教授,曾就職于南開大學(xué)等高校,2021年7月加入山東大學(xué)數(shù)學(xué)與交叉科學(xué)研究中心,研究方向包括蛋白質(zhì)結(jié)構(gòu)與功能預(yù)測(cè)、RNA結(jié)構(gòu)預(yù)測(cè)等,此前曾與張陽(yáng)、David Baker等學(xué)者合作,成功開發(fā)了I-TASSER和trRosetta等著名結(jié)構(gòu)預(yù)測(cè)算法。
此次楊建益團(tuán)隊(duì)帶來的Yang-Server方法,是在以前trRosettaX的基礎(chǔ)上,改進(jìn)了氨基酸距離和角度的預(yù)測(cè),并用trRosetta 的能量函數(shù)進(jìn)行折疊。而對(duì)于trRosetta預(yù)測(cè)不好的結(jié)構(gòu),則直接使用了AlphaFold2的預(yù)測(cè)結(jié)果。
楊建益
實(shí)際上,通過組合使用AlphaFold2或其他方法而取勝并非個(gè)例。排名前三的UM-TBM服務(wù)器,以及人工組PEZYFoldings,在方法設(shè)計(jì)或工藝優(yōu)化上均看到了AlphaFold 2的影子。
其中,UM-TBM是對(duì)密歇根大學(xué)張陽(yáng)課題組以前所建立的多個(gè)工具的使用和改進(jìn),再通過AlphaFold 2以及其他深度學(xué)習(xí)方法產(chǎn)生的結(jié)構(gòu)約束,和AlphaFold 2產(chǎn)生的多個(gè)結(jié)構(gòu)一起進(jìn)行重新折疊和優(yōu)化。
PEZYFoldings則是AlphaFold2的變體。首先它通過利用不同搜索工具以及不同蛋白質(zhì)序列數(shù)據(jù)庫(kù)來產(chǎn)生不同的同源序列組合,其次將這些不同的同源序列組合分別輸入AlphaFold2進(jìn)行預(yù)測(cè),再根據(jù)AlphaFold2內(nèi)部的PLDDT將預(yù)測(cè)出來的多個(gè)結(jié)構(gòu)進(jìn)行排名以及結(jié)構(gòu)比對(duì),從而得出最后的人為挑選。
遺憾的是,今年沒能夠看到“Alphafold3”的參賽,不過Deepmind一向已挑戰(zhàn)科學(xué)難題為己任,難道它們認(rèn)為蛋白質(zhì)單體結(jié)構(gòu)預(yù)測(cè)問題已經(jīng)解決?
對(duì)此,深圳灣實(shí)驗(yàn)室周耀旗教授表示,“雖然AlphaFold 2沒有直接參加比賽,但從上面三個(gè)最佳預(yù)測(cè)方法的分析可以看出, CASP15還是由AlphaFold2隱形取勝?!?br/>
周耀旗教授
值得注意的是,在近日CASP 15總結(jié)會(huì)議上,領(lǐng)導(dǎo)AlphaFold團(tuán)隊(duì)的John Jumper博士也線上現(xiàn)身,并透露出一個(gè)重要信號(hào):DeepMind 即將發(fā)布利用更大數(shù)據(jù)庫(kù)訓(xùn)練的AlphaFold3。”
周耀旗教授表示,“從技術(shù)層面考慮,或許AlphaFold3會(huì)再一次拋開其他方法,但也不會(huì)拋得太遠(yuǎn),因?yàn)榉椒ū举|(zhì)不會(huì)變化太多?!?/p>
密蘇里大學(xué)許東教授補(bǔ)充道,“但至少證明,谷歌后續(xù)將加快商業(yè)化進(jìn)程。因?yàn)楝F(xiàn)在很多人關(guān)心的不光是結(jié)構(gòu)預(yù)測(cè),還有結(jié)構(gòu)預(yù)測(cè)到底能干什么。近日注意到,Isomorphic(谷歌母公司Alphabet下的AI制藥公司)聘請(qǐng)了多位有制藥背景以及機(jī)器學(xué)習(xí)的高管和員工,還將公司總部從倫敦?cái)U(kuò)展到瑞士洛桑,此前這里有多家大型制藥公司,比如羅氏、諾華和拜耳?!?/p>
許東教授
實(shí)際上,自2021年7月AlphaFold蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫(kù)開源以來,其中的蛋白質(zhì)組數(shù)據(jù)已達(dá)48種,包含人類,老鼠,果蠅,玉米、亞洲稻種、大豆及酵母等重要作物,大腸桿菌與白色念珠菌等病原體,以及多種罕見熱帶疾病的生物蛋白質(zhì)組等。2022年1月28日,DeepMind團(tuán)隊(duì)宣布“希望此舉可以加快疾病研究進(jìn)程”。弦外之音直指Isomorphic Laboratories。
此外,在12月13日CASP 15落幕當(dāng)天,《Nature》發(fā)文“After AlphaFold: protein-folding contest seeks next big breakthrough”,提到了Deepmind缺席原因或要“憋大招”---目前Deepmind正在開發(fā)用”語(yǔ)言模型”預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)的方法(其中包含一個(gè)由社交網(wǎng)絡(luò)巨頭Meta開發(fā)的方法),可能有助于預(yù)測(cè)突變?nèi)绾胃淖兊鞍踪|(zhì)的結(jié)構(gòu)。如今看來,站在計(jì)算生物學(xué)和藥物設(shè)計(jì)的風(fēng)口,谷歌或?qū)⒃俅巍按笳谷_”。
RNA結(jié)構(gòu)預(yù)測(cè)首次加入賽道,然而AI的光輝還沒有照亮RNA結(jié)構(gòu)預(yù)測(cè)。
RNA結(jié)構(gòu)預(yù)測(cè)引起了研究小組的廣泛興趣。其中,共有42個(gè)小組參加了RNA三維結(jié)構(gòu)預(yù)測(cè),共預(yù)測(cè)了12個(gè)靶標(biāo)體系。
實(shí)際上,長(zhǎng)期以來,由于新的、即將解析的RNA結(jié)構(gòu)太少、導(dǎo)致RNA結(jié)構(gòu)研究一直間歇性開展。周耀旗教授表示,“以前RNA-Puzzles是有一個(gè)RNA就讓大家預(yù)測(cè)一個(gè),這次CASP 15一下子放出來12個(gè)RNA序列(從結(jié)構(gòu)上可以分成三類:天然的RNA、人工設(shè)計(jì)的RNA、蛋白質(zhì)和RNA相互作用的復(fù)合結(jié)構(gòu)),充分體現(xiàn)了CASP組織者的能力和AlphaFold2給CASP帶來的品牌效應(yīng)?!?/p>
不過,周教授也提到,“這一打的RNA序列和有100多個(gè)蛋白結(jié)構(gòu)域的預(yù)測(cè)比賽相比,還是差得很遠(yuǎn)?!?/p>
從目前CASP網(wǎng)站公布排名來看,前兩名都為華人團(tuán)隊(duì),分別為智峪生科的Alchemy RNA2、密蘇里大學(xué)陳世杰組的Chen(綜合他們組過去所開發(fā)的Vfold3D,IsRNA,RNAJP三個(gè)方法)。
值得注意的是,此次排名靠前的團(tuán)隊(duì),采用的都是基于能量函數(shù)的傳統(tǒng)方法,而使用AI深度學(xué)習(xí)進(jìn)行端到端的預(yù)測(cè),或者先進(jìn)行AI結(jié)構(gòu)約束的預(yù)測(cè)再進(jìn)行能量?jī)?yōu)化的團(tuán)隊(duì),反而因?yàn)镽NA已知結(jié)構(gòu)數(shù)據(jù)過少導(dǎo)致訓(xùn)練過度,在RNA結(jié)構(gòu)預(yù)測(cè)上并沒有體現(xiàn)出AI的優(yōu)越性。
對(duì)此,周耀旗教授做了一個(gè)形象的描述:“AI的光輝還沒有照亮RNA結(jié)構(gòu)預(yù)測(cè)。”
RNA結(jié)構(gòu)預(yù)測(cè)方法的排名
作為RNA三維結(jié)構(gòu)預(yù)測(cè)的新手,智峪生科為何能夠一舉奪冠?
據(jù)智峪生科介紹,Alchemy_RNA2是由CTO熊鵬博士所帶領(lǐng)打造,并由智峪生科CEO王晟博士擔(dān)任“幕后參謀”。王晟是CASP的老選手,從2008年的CASP 8作為觀察員參賽以來,至今已參加8屆,并在CASP 12/14中兩獲蛋白接觸圖預(yù)測(cè)第一名。
熊鵬曾在澳大利亞格里菲斯大學(xué)從事博士后和研究員工作,師從周耀旗教授,2020年4月回國(guó),后以訪問學(xué)者身份進(jìn)入深圳灣實(shí)驗(yàn)室周耀旗課題組,繼續(xù)從事蛋白質(zhì)/RNA的序列、結(jié)構(gòu)與功能關(guān)系方面的基礎(chǔ)研究。作為智峪生科的聯(lián)合創(chuàng)始人之一,此次奪冠的AIchemy_RNA2方法的核心,正是基于熊鵬在周耀旗課題組工作時(shí)所主導(dǎo)開發(fā)的RNA-BRiQ統(tǒng)計(jì)能量函數(shù)。
熊鵬、王晟
王晟博士對(duì)雷峰網(wǎng)&《醫(yī)健AI掘金志》說到,“RNA-BRiQ相互作用不再由簡(jiǎn)單的距離和角度來表示,而是考慮了RNA的相關(guān)原子在三維結(jié)構(gòu)上的電子云分布,通過6個(gè)緯度的統(tǒng)計(jì)來刻畫,在每個(gè)維度上將空間進(jìn)行離散化進(jìn)行精確的統(tǒng)計(jì)和量化計(jì)算。該能量函數(shù)在RNA結(jié)構(gòu)預(yù)測(cè)上對(duì)極性相互作用有著很好的表征能力,因?yàn)榉€(wěn)定RNA結(jié)構(gòu)的主體能量是極性相互作用、有著強(qiáng)烈的空間方向分布。RNA-BriQ這種統(tǒng)計(jì)能量函數(shù)方法,對(duì)于人工合成的RNA,或從未出現(xiàn)在PDB數(shù)據(jù)庫(kù)中的天然RNA結(jié)構(gòu)的建模,有著非常優(yōu)異的效果。”
但僅僅是沿用傳統(tǒng)方法還不夠,AI能否用于RNA結(jié)構(gòu)預(yù)測(cè)?
王晟博士進(jìn)一步說到,“本屆比賽智峪生科共有兩支隊(duì)伍參加RNA結(jié)構(gòu)預(yù)測(cè),一支是熊鵬博士帶隊(duì)的Alchemy_RNA2,關(guān)注統(tǒng)計(jì)能量函數(shù);一支是沈濤所帶隊(duì)的Alchemy RNA,聯(lián)合港中文李煜教授和復(fù)旦大學(xué)孫思琪教授團(tuán)隊(duì),共同研發(fā)了AI預(yù)測(cè)方法。該方法是全球第一款端到端RNA三維結(jié)構(gòu)預(yù)測(cè)的深度學(xué)習(xí)模型?!?/p>
相比于其他團(tuán)隊(duì)(例如David Baker組,張陽(yáng)組,和楊建益組)的AI結(jié)構(gòu)預(yù)測(cè)模型,智峪生科團(tuán)隊(duì)搭建的Alchemy RNA有如下一些特點(diǎn):
首先,和蛋白質(zhì)預(yù)測(cè)不同,RNA領(lǐng)域里的結(jié)構(gòu)數(shù)據(jù)非常稀少。去除冗余之后,我們只有1000個(gè)左右的RNA結(jié)構(gòu)數(shù)據(jù)。Alchemy RNA利用了一個(gè)預(yù)訓(xùn)練的語(yǔ)言模型,RNA foundation model (RNA-FM),它在2300萬個(gè)非冗余RNA序列上用自監(jiān)督的方式進(jìn)行訓(xùn)練,學(xué)習(xí)到了豐富的RNA序列信息。Alchemy RNA利用RNA-FM得到的RNA序列表征來送入模型,其中在大量數(shù)據(jù)庫(kù)中學(xué)習(xí)到的RNA序列表征能夠幫助模型快速收斂。
其次,Alchemy RNA通過引入多任務(wù)訓(xùn)練來運(yùn)用更多的先驗(yàn)知識(shí)來幫助模型學(xué)習(xí)到更多的生物學(xué)語(yǔ)義。它將RNA中特有的二級(jí)結(jié)構(gòu)堿基互補(bǔ)配對(duì)信息以損失函數(shù)的方式加入進(jìn)來使模型在優(yōu)化時(shí)學(xué)到堿基配對(duì)的約束信息。
最后,Alchemy RNA通過自蒸餾的訓(xùn)練方式提前在真實(shí)結(jié)構(gòu)數(shù)據(jù)上訓(xùn)練好一個(gè)教師模型用來生成自蒸餾數(shù)據(jù)的偽標(biāo)簽,Alchemy RNA額外從RNAStralign和bp-RNA-1m數(shù)據(jù)庫(kù)中構(gòu)建了一個(gè)自蒸餾數(shù)據(jù)。這些創(chuàng)新使得Alchemy RNA在有限的RNA結(jié)構(gòu)數(shù)據(jù)上訓(xùn)練出了一個(gè)高效準(zhǔn)確的深度學(xué)習(xí)模型,它能夠端到端的預(yù)測(cè)RNA 3D結(jié)構(gòu)。
在CASP15比賽中,Alchemy RNA作為全自動(dòng)的端到端預(yù)測(cè)方法,在所有的AI預(yù)測(cè)方法中名列第一位。更重要的是,Alchemy RNA還可以全自動(dòng)地判斷輸出結(jié)構(gòu)的預(yù)測(cè)置信度。也就是說,它可以自動(dòng)判斷它輸出的結(jié)構(gòu)是否是合理的,是不是還需要人工檢查。
這個(gè)功能非常實(shí)用,可以幫助我們高效地融合專家知識(shí)。目前智峪生科在CASP中所展示出來的AI方法,由于主要采取的是多序列匹配MSA作為輸入,因此對(duì)于這12個(gè)測(cè)試結(jié)構(gòu)中的天然RNA,是可以搜索到同源序列并產(chǎn)生多序列匹配的,進(jìn)而可以使用我們的AI方法進(jìn)行預(yù)測(cè)。
而對(duì)于那些人工合成的RNA,或從未出現(xiàn)在PDB數(shù)據(jù)庫(kù)中的天然RNA結(jié)構(gòu),雖然目前無法產(chǎn)生多序列聯(lián)配,但是Alchemy RNA就會(huì)基于預(yù)測(cè)置信度來提示--對(duì)于這些RNA則需要進(jìn)一步處理。這樣研究人員便可以借助統(tǒng)計(jì)能量函數(shù)方法或其它人工介入的手段進(jìn)行操作。
王晟博士表示,“上述的這種基于預(yù)測(cè)置信度的做法是一種簡(jiǎn)單的融合AI與統(tǒng)計(jì)能量函數(shù)的手段。值得一提的是,目前由于RNA的結(jié)構(gòu)數(shù)量過少以及MSA信息的依賴,純AI方法還沒有能夠?qū)崿F(xiàn)針對(duì)任意序列的RNA結(jié)構(gòu)的精確預(yù)測(cè),還處于一個(gè)前AlphaFold2時(shí)代。但在未來,隨著我們積累越來越多的RNA結(jié)構(gòu)數(shù)據(jù)、訓(xùn)練更強(qiáng)大的RNA序列基礎(chǔ)模型、以及更深入的進(jìn)行AI方法與統(tǒng)計(jì)能量函數(shù)的融合,我相信一定會(huì)讓整個(gè)RNA結(jié)構(gòu)預(yù)測(cè)領(lǐng)域,進(jìn)入真正的AlphaFold2時(shí)代。”
CASP比賽已近30年,一直以與時(shí)俱進(jìn)著稱,因此本屆比賽被諸多圈內(nèi)人視為“后AlphaFold2時(shí)代”首屆比賽。
換言之,蛋白結(jié)構(gòu)預(yù)測(cè)取得突破性進(jìn)展后,單體結(jié)構(gòu)預(yù)測(cè)將進(jìn)入一個(gè)新的漸進(jìn)發(fā)展階段,但計(jì)算結(jié)構(gòu)生物學(xué)領(lǐng)域中RNA結(jié)構(gòu)的預(yù)測(cè)問題,以及復(fù)合體建模的問題(包括了蛋白質(zhì)和其他生物分子,如蛋白質(zhì),核酸以及小分子,多糖等等),即將進(jìn)入到一個(gè)廣受關(guān)注的時(shí)代。
王晟博士表示,“過去蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)的很多老牌強(qiáng)隊(duì),也會(huì)逐漸參與到這些新興賽道中,比如這一屆的RNA結(jié)構(gòu)預(yù)測(cè)中,就看到了David Baker組、密歇根大學(xué)張陽(yáng)組,山東大學(xué)楊建益組等熟悉面孔的加入。”
新老團(tuán)隊(duì)的流向再次說明:RNA結(jié)構(gòu)預(yù)測(cè)水平的進(jìn)步,因?yàn)槠湓谒幬镌O(shè)計(jì)和合成生物學(xué)方向的落地應(yīng)用而率先脫穎而出。
那么,RNA結(jié)構(gòu)預(yù)測(cè)水平的進(jìn)步,生命科學(xué)領(lǐng)域或合成生物學(xué)領(lǐng)域而言有何意義?
具體來看,本次比賽一共有12個(gè)RNA靶標(biāo)體系,在功能上可以分為四類:功能RNA分子(ribozyme,riboswitch)、病毒基因組RNA片段、人工設(shè)計(jì)的RNA分子,以及蛋白R(shí)NA復(fù)合物。
功能RNA分子在基因表達(dá)調(diào)控方面起重要作用;病毒基因組RNA對(duì)于我們理解病毒復(fù)制傳播機(jī)理、開發(fā)抗病毒藥物重要幫助;人工設(shè)計(jì)RNA分子有助于合成生物學(xué)應(yīng)用;蛋白R(shí)NA復(fù)合物的應(yīng)用方向是藥物開發(fā)。
那么無論是此次在RNA結(jié)構(gòu)預(yù)測(cè)領(lǐng)域奪冠的智峪生科,還是其他團(tuán)隊(duì)的加入,都證明實(shí)現(xiàn)高精度RNA結(jié)構(gòu)預(yù)測(cè),必將為非編碼RNA功能的發(fā)現(xiàn)及解釋,RNA藥物的設(shè)計(jì)與開發(fā)帶來深遠(yuǎn)的影響。
針對(duì)這個(gè)問題,王晟博士做了詳細(xì)介紹,認(rèn)為目前在RNA結(jié)構(gòu)預(yù)測(cè)領(lǐng)域的研究,有利于解析更多的RNA結(jié)構(gòu)、設(shè)計(jì)出結(jié)構(gòu)更穩(wěn)定的RNA序列、成為關(guān)鍵藥物靶點(diǎn)、以及賦能合成生物學(xué)領(lǐng)域。
首先,它將有助于研究人員解析更多的RNA結(jié)構(gòu)。盡管Alchemy RNA在大多數(shù)天然RNA家族和RNA類型上的預(yù)測(cè)精度令人印象深刻、以及Alchemy RNA2在人工設(shè)計(jì)的RNA結(jié)構(gòu)上的驚人表現(xiàn),但考慮到RNA的多樣性及其靈活的結(jié)構(gòu),人們還是應(yīng)該用實(shí)驗(yàn)的方法去解析更多的RNA結(jié)構(gòu),從而極大的擴(kuò)充PDB種的RNA結(jié)構(gòu)數(shù)量。因此,智峪生科開發(fā)RNA預(yù)測(cè)方法,有可能成為指導(dǎo)實(shí)驗(yàn)設(shè)計(jì)和數(shù)據(jù)處理的初始模型。
其次,針對(duì)藥物設(shè)計(jì)領(lǐng)域,例如在mRNA疫苗的設(shè)計(jì)上,需要關(guān)注設(shè)計(jì)的RNA序列的結(jié)構(gòu)穩(wěn)定性,這樣就可以提高疫苗設(shè)計(jì)的成功率。此外,基于RNA的小分子藥物設(shè)計(jì)方向,RNA分子也逐漸可能成為將來可以成藥的靶點(diǎn),也依賴于高精度的RNA 3D結(jié)構(gòu)預(yù)測(cè),和高精度的RNA-小分子復(fù)合體力場(chǎng)。同時(shí),RNA和蛋白質(zhì)復(fù)合體也可能成為關(guān)鍵的藥物靶點(diǎn),針對(duì)復(fù)合體界面的藥物設(shè)計(jì)可以極大拓展藥物設(shè)計(jì)的空間。
除了藥物設(shè)計(jì)領(lǐng)域,高精度RNA預(yù)測(cè)也可以賦能合成生物學(xué)領(lǐng)域。例如,如何構(gòu)建高精度的密碼子優(yōu)化算法,非常依賴于高精度的RNA結(jié)構(gòu)預(yù)測(cè),尤其是從RNA binding site到蛋白質(zhì)前面一些氨基酸對(duì)應(yīng)的mRNA的結(jié)構(gòu),會(huì)影響到到蛋白質(zhì)的高效可溶表達(dá)。另外,RNA分子也可能成為非常有潛力的生物傳感器,對(duì)小分子的檢測(cè)可能做到非常高的靈敏度,這個(gè)方面的應(yīng)用也是非常依賴于高精度的RNA結(jié)構(gòu)預(yù)測(cè)。
據(jù)王晟博士介紹,智峪生科已自主打造了完整蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)、設(shè)計(jì)、生產(chǎn)體系,以此開展藥物輔助研發(fā)及合成生物學(xué)業(yè)務(wù)。那么基于蛋白質(zhì)/RNA結(jié)構(gòu)預(yù)測(cè),已經(jīng)有了落地打算,“接下來將主要應(yīng)用在合成生物學(xué)的關(guān)鍵元件的發(fā)現(xiàn)和設(shè)計(jì)中,包括一些關(guān)鍵的生物傳感器的設(shè)計(jì),用于檢測(cè)酶催化的產(chǎn)物或者底物等,也可以用于密碼子的優(yōu)化以幫助蛋白質(zhì)高效可溶表達(dá)。”
實(shí)際上,此次比賽中也有不少圈內(nèi)人格外關(guān)注復(fù)合物結(jié)構(gòu)預(yù)測(cè)問題。也就是各種生物大分子之間,例如蛋白質(zhì),核酸,多糖,脂類等等,生物大分子-小分子之間的相互作用模式問題。
諸多圈內(nèi)人對(duì)雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))&《醫(yī)健AI掘金志》表示,“這一定會(huì)成為下一屆,或者以后CASP比賽的主流方向。”
江蘇理工學(xué)院生物信息與醫(yī)藥工程研究所所長(zhǎng),普美瑞生物首席科學(xué)顧問常珊博士,作為受邀CASP 15總結(jié)會(huì)議的團(tuán)隊(duì)負(fù)責(zé)人表示:從技術(shù)落地的角度來說,今年新開賽道都非常有必要取得突破。RNA結(jié)構(gòu)預(yù)測(cè)與最近的RNA療法等密切相關(guān)、蛋白-ligand相互作用預(yù)測(cè)是藥物設(shè)計(jì)和篩選的基礎(chǔ)、復(fù)合物組裝對(duì)抗體開發(fā)和蛋白質(zhì)降解(PROTAC)等均有重要作用。尤其是蛋白質(zhì)或核酸分子在折疊形成三維結(jié)構(gòu)之后,通常需要裝配成各種復(fù)合物形式在生命活動(dòng)中發(fā)揮其功能,因此復(fù)合物結(jié)構(gòu)的預(yù)測(cè)是生命科學(xué)領(lǐng)域的又一重大挑戰(zhàn)。
王晟博士補(bǔ)充道,生物學(xué)方向可能更關(guān)注復(fù)合體問題。了解這些相互作用,可以進(jìn)一步明確分子的功能,從而為人工干預(yù)和藥物設(shè)計(jì)提供思路和基礎(chǔ)。此外,在合成生物學(xué)領(lǐng)域,精確的復(fù)合體建模,也為關(guān)鍵的元件發(fā)現(xiàn)和設(shè)計(jì)提供了基礎(chǔ)。
比如,在蛋白質(zhì)-小分子相互作用的預(yù)測(cè)上,可以輔助我們?cè)诿赴l(fā)現(xiàn)上進(jìn)一步提高精度和效率,實(shí)現(xiàn)在海量序列中發(fā)現(xiàn)有功能的酶。了解蛋白質(zhì)和多糖的相互作用,可以幫助我們?cè)O(shè)計(jì)參與多糖合成的酶,這也是非常受工業(yè)界和科學(xué)家關(guān)注的方向。
在他看來,對(duì)蛋白質(zhì)進(jìn)行系統(tǒng)深入的研究,能讓我們從更深層次詮釋生命體的構(gòu)成和運(yùn)作變化規(guī)律,進(jìn)而全面揭示生命運(yùn)行、發(fā)展的機(jī)制,激發(fā)生物科學(xué)、藥物研發(fā)、合成生物學(xué)方面的發(fā)展。因此蛋白質(zhì)研究、預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)等,是學(xué)術(shù)與產(chǎn)業(yè)界深度參與的領(lǐng)域。
“在AI時(shí)代,得益于算力和算法模型的極大提升,我們終將迎來一個(gè)生命科學(xué)大爆發(fā)時(shí)代。”王晟博士表示。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。