丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
醫(yī)療AI 正文
發(fā)私信給任平
發(fā)送

0

GAIR Live | CASP 15冠軍大論道:AlphaFold2「掃蕩群雄」之后,結(jié)構(gòu)預(yù)測(cè)還有路可走嗎?(下篇)

本文作者: 任平 2023-03-24 09:56
導(dǎo)語(yǔ):在蛋白質(zhì)-小分子復(fù)合體預(yù)測(cè)方面,“藥物設(shè)計(jì)和酶設(shè)計(jì)”等領(lǐng)域的項(xiàng)目未來(lái)是否加速落地? 當(dāng)下火熱的AIGC技術(shù),能為AI生命科學(xué)領(lǐng)域帶來(lái)多少可能?

在蛋白質(zhì)-小分子復(fù)合體預(yù)測(cè)方面,“藥物設(shè)計(jì)和酶設(shè)計(jì)”等領(lǐng)域的項(xiàng)目未來(lái)是否加速落地? 當(dāng)下火熱的AIGC技術(shù),能為AI生命科學(xué)領(lǐng)域帶來(lái)多少可能?

在CASP比賽創(chuàng)建者John Moult教授看來(lái),這一比賽從來(lái)不是閉門造車,或是學(xué)術(shù)界的圈地自嗨。

2018年,在第13屆CASP比賽中,一個(gè)頂著谷歌子公司帽子的參賽選手亮相,其AlphaFold系統(tǒng)以最高的預(yù)測(cè)準(zhǔn)確率擊敗其他參賽隊(duì)伍。

2020年,在第14屆CASP比賽中,這一公司再次卷入競(jìng)技場(chǎng),憑借AlphaFold二代系統(tǒng)以絕對(duì)的優(yōu)勢(shì)大獲全勝,并在次年將技術(shù)成果全部發(fā)表于《Nature》和《Science》等頂級(jí)期刊。

這便是如今的AI殿堂級(jí)公司--DeepMind。

從那以后,人們首次將“人工智能”和“蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)”兩個(gè)毫不相關(guān)的領(lǐng)域聯(lián)系在一起。而DeepMind背后的谷歌,也憑借CASP大賽織造了一張夢(mèng)寐以求的醫(yī)療商業(yè)藍(lán)圖。

從業(yè)內(nèi)人士的角度,這或許是意料之中。正如John Moult教授創(chuàng)立CASP比賽的初心,便是希望以此推動(dòng)計(jì)算生物學(xué)研究,加速理解細(xì)胞構(gòu)建原理和推進(jìn)藥物發(fā)現(xiàn),最終惠及全人類。

顯然,DeepMind已經(jīng)蹚出了一條可參照的發(fā)展路徑。

不久前,CASP 15落下帷幕,盡管本屆比賽中未見(jiàn)DeepMind身影,但諸多華人團(tuán)隊(duì)參賽熱情高漲,在蛋白質(zhì)單體/多體結(jié)構(gòu)預(yù)測(cè)、蛋白質(zhì)-蛋白質(zhì)復(fù)合體結(jié)構(gòu)預(yù)測(cè)、RNA結(jié)構(gòu)預(yù)測(cè)、蛋白質(zhì)-小分子配體復(fù)合物結(jié)構(gòu)預(yù)測(cè)等多賽道上奪得桂冠。

不少參賽選手直言,“這是‘后AlphaFold2時(shí)代’的首屆大型同臺(tái)競(jìng)技,所有選手都獲得了業(yè)內(nèi)前所未有的關(guān)注。”

在AlphaFold2的沖擊之下,蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)是否還能為人們帶來(lái)新的驚喜?

本屆首次新增蛋白質(zhì)-小分子復(fù)合體預(yù)測(cè)和RNA結(jié)構(gòu)預(yù)測(cè)兩大賽道,是否意味著蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)不再穩(wěn)占“C位”?

RNA結(jié)構(gòu)預(yù)測(cè)領(lǐng)域是否會(huì)出現(xiàn)如AlphaFold2一般引發(fā)革命的技術(shù)工具?

從基礎(chǔ)研究到應(yīng)用研究,人們不斷討論著在CASP 15背后行業(yè)發(fā)展的諸多可能。

近日,由雷峰網(wǎng)GAIR Live&《醫(yī)健AI掘金志》舉辦的《生物計(jì)算“奧賽”冠軍團(tuán)隊(duì)論道:當(dāng)生命科學(xué)遇上史詩(shī)級(jí)AI,何去何從?》線上圓桌論壇落幕。

GAIR Live | CASP 15冠軍大論道:AlphaFold2「掃蕩群雄」之后,結(jié)構(gòu)預(yù)測(cè)還有路可走嗎?(下篇)


本次論壇邀請(qǐng)了多位在CASP 15中取得出色成績(jī)的參賽者,由上海智峪生科CEO王晟擔(dān)任主持,江蘇理工學(xué)院生物信息與醫(yī)藥工程研究所教授常珊、密歇根大學(xué)計(jì)算醫(yī)學(xué)和生物信息學(xué)系博士后研究員鄭偉、浙江工業(yè)大學(xué)信息工程學(xué)院教授張貴軍、上海智峪生科技CTO熊鵬參與討論。

在上篇中,幾位嘉賓共同分享了在CASP 15中的參賽經(jīng)歷,以及在AlphaFold2沖擊下,蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)賽道該何去何從。

在下篇中,將聚焦本屆兩大新增賽道:蛋白質(zhì)-小分子復(fù)合體預(yù)測(cè)和RNA結(jié)構(gòu)預(yù)測(cè)在應(yīng)用層面的潛力,探討當(dāng)下火熱的AIGC技術(shù)在AI生命科學(xué)領(lǐng)域的可能性。

“全球人工智能與機(jī)器人大會(huì)”(GAIR)始于2016年雷峰網(wǎng)與中國(guó)計(jì)算機(jī)學(xué)會(huì)(CCF)合作創(chuàng)立的CCF-GAIR大會(huì),旨在打造人工智能浪潮下,連接學(xué)術(shù)界、產(chǎn)業(yè)界、投資界的新平臺(tái),而雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))“連接三界”的全新定位也在此大會(huì)上得以確立。

經(jīng)過(guò)幾年發(fā)展,GAIR大會(huì)已成為行業(yè)標(biāo)桿,是目前為止粵港澳大灣區(qū)人工智能領(lǐng)域規(guī)模最大、規(guī)格最高、跨界最廣的學(xué)術(shù)、工業(yè)和投資領(lǐng)域盛會(huì)。

GAIR Live作為雷峰網(wǎng)旗下視頻直播品牌,旨在輸出新鮮、深度、原創(chuàng)的大咖訪談與對(duì)話內(nèi)容,打造輻射產(chǎn)、學(xué)、研、投的特色線上平臺(tái)。

以下是主題論壇的現(xiàn)場(chǎng)內(nèi)容,雷峰網(wǎng)《醫(yī)健AI掘金志》做了不改變?cè)獾木庉嫼驼恚?/p>

蛋白質(zhì)-小分子復(fù)合體預(yù)測(cè)賽道的落地之問(wèn)

王晟:在蛋白質(zhì)-小分子復(fù)合體預(yù)測(cè)方面,“藥物設(shè)計(jì)和酶設(shè)計(jì)”等領(lǐng)域的項(xiàng)目未來(lái)是否加速落地?  

常珊:其實(shí)不完全是蛋白質(zhì)和小分子,剛剛我們探討的有兩個(gè)target,受體是RNA。當(dāng)然我們做算法開(kāi)發(fā)時(shí),會(huì)偏向以蛋白質(zhì)作為受體的蛋白質(zhì)-小分子的相互作用預(yù)測(cè)。

但在去年江蘇生物信息學(xué)專委會(huì)上,有學(xué)者對(duì)靶向RNA的配體小分子設(shè)計(jì),以及相應(yīng)的藥物篩選表現(xiàn)出興趣,給我們很大啟發(fā)。因此,當(dāng)CASP15上有這樣的題目時(shí),我們就有很大的動(dòng)力去研究靶向其他受體的小分子算法開(kāi)發(fā)。

而且鄭偉博士說(shuō)得很有道理,如果先靶向RNA,是不是比靶向后續(xù)它表達(dá)出來(lái)蛋白質(zhì)更有效一些?這也是一個(gè)很好的思路。所以我覺(jué)得這一塊的確值得我們?nèi)ド钊胙芯肯鄳?yīng)的算法。我感覺(jué)這樣的一些工具,相對(duì)于蛋白和小分子的預(yù)測(cè)的工具來(lái)說(shuō),應(yīng)該更少一些。印象中,我?guī)熜秩A中科技大學(xué)黃勝友教授團(tuán)隊(duì)做了一個(gè)類似程序。

在本次CASP15的蛋白質(zhì)-小分子的賽道設(shè)置上,組委會(huì)出了大概20多個(gè)題目,非常多,但有些場(chǎng)景我感覺(jué)跟藥物設(shè)計(jì)不是特別匹配。

比如其中一個(gè)題目是,“有一個(gè)受體,這個(gè)受體有很多結(jié)合的小分子,有56個(gè)配體, 請(qǐng)預(yù)測(cè)所有小分子的結(jié)合位置?!币话愕乃幬镩_(kāi)發(fā)體系很少需要預(yù)測(cè)這么多配體分子。

因?yàn)槲覀兤綍r(shí)和制藥公司合作比較多,經(jīng)常合作做一些藥物方面的設(shè)計(jì)和開(kāi)發(fā),制藥公司并不關(guān)心你能找出多少小分子,它們真正關(guān)心的是,不管你是自己生成,還是從數(shù)據(jù)庫(kù)里篩選,只要能夠找出一個(gè)抑制蛋白質(zhì)的最合適的小分子就可以。

不過(guò)有人在CASP15交流會(huì)上透露,可能下一屆就會(huì)有小分子的篩選問(wèn)題--從眾多小分子中篩選出最合適的配體。這也是目前制藥公司都很關(guān)心的問(wèn)題,因此我們現(xiàn)在還要繼續(xù)完善方法,從而更針對(duì)于制藥過(guò)程中的關(guān)鍵問(wèn)題。

值得一提的是,自從我們?cè)贑ASP15比賽上獲得了蛋白質(zhì)-小分子賽道第一名后,能明顯感覺(jué)到合作企業(yè)和科研機(jī)構(gòu)變多了。另外我們也和江蘇本地的普美瑞生物科技公司合作開(kāi)發(fā)了一些抑制劑,或PROTAC(Proteolysis-Targeting Chimeras,即蛋白水解靶向嵌合體)分子。目前一些實(shí)驗(yàn)結(jié)果都非常出乎意料,剛剛篩選出來(lái)的配體降解能力就達(dá)到了皮摩爾(pM)級(jí)的水平,這意味著不需要進(jìn)行多輪優(yōu)化就可以去做后續(xù)實(shí)驗(yàn)。

王晟:常老師說(shuō)得非常對(duì),CASP比賽中有一個(gè)pose(構(gòu)象)的問(wèn)題。簡(jiǎn)單來(lái)說(shuō),就是給你一個(gè)蛋白質(zhì),一個(gè)小分子,要把它建模到正確的口袋里面且形成合理的相互作用,查看和“標(biāo)準(zhǔn)答案”復(fù)合物之間是不是足夠得近。

剛才說(shuō)的 ranking問(wèn)題,其實(shí)包括兩層含義,一是構(gòu)象預(yù)測(cè)/排序問(wèn)題-找出最好構(gòu)象的過(guò)程需要產(chǎn)生很多構(gòu)象然后排序打分-即CASP15關(guān)系的復(fù)合體結(jié)構(gòu)問(wèn)題,二是不同分子的排序-即screening問(wèn)題。在CASP蛋白質(zhì)預(yù)測(cè)中,分成了 3D預(yù)測(cè)和QA預(yù)測(cè),小分子結(jié)構(gòu)預(yù)測(cè)中我個(gè)人理解上將二者融合起來(lái)一切稱為1-構(gòu)象預(yù)測(cè)/排序問(wèn)題。

而制藥公司也很關(guān)心的是screening問(wèn)題。就是在眾多的小分子中,比如從幾千個(gè),幾萬(wàn)個(gè),甚至幾百萬(wàn)個(gè),幾億個(gè)小分子中,篩選出一個(gè)或者幾個(gè)抑制蛋白質(zhì)活性的小分子。

實(shí)際上,我認(rèn)為這幾個(gè)問(wèn)題的底層邏輯是相通的。如果我們能夠把Pose問(wèn)題或者docking、結(jié)合位置都做得準(zhǔn)確,構(gòu)象RMSD做到很小,同時(shí)能量也計(jì)算正確,那么對(duì)工業(yè)界關(guān)心的screening問(wèn)題,也一定會(huì)有很好的推動(dòng)作用的。張貴軍老師對(duì)于蛋白-小分子,或者叫做大分子和小分子的對(duì)接,復(fù)合物建模應(yīng)用有哪些看法?

張貴軍:我們課題組主要做蛋白結(jié)構(gòu)預(yù)測(cè)的研究,復(fù)合物方面研究工作剛剛開(kāi)始,這也是今后需要努力的一個(gè)方向。

實(shí)際上,無(wú)論是大分子,還是小分子,和靶標(biāo)蛋白來(lái)形成相互作用,最終形成一個(gè)復(fù)合物,其中一個(gè)有效的方法是通過(guò)開(kāi)發(fā)打分函數(shù),評(píng)估小分子或大分子在口袋里面的舒適度。此外,還有一種比較可靠的方式,即搜索模板,并基于模板信息做比對(duì)建模。

小分子這塊我不太了解,但是從大分子-大分子相互作用的結(jié)果來(lái)看,我們可能需要一種新方式。因?yàn)樗緛?lái)就是一體,如果單獨(dú)對(duì)它建模,再進(jìn)行剛性、柔性對(duì)接,這一定不符合實(shí)際的生命過(guò)程。所以fold和dock的過(guò)程應(yīng)用同步進(jìn)行。最近我看到有Arne Elofsson課題組的一個(gè)工作就是按照上述思想開(kāi)展工作,精度提升非常高,受此啟發(fā),我們課題組也在開(kāi)展相應(yīng)工作,我相信未來(lái)在蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)、復(fù)合物組裝方向的下游應(yīng)用會(huì)進(jìn)展迅速。

王晟:張貴軍老師講了一個(gè)非常有意思的點(diǎn),就是在實(shí)際的生物體當(dāng)中,不管是大分子-小分子,還是大分子-大分子,它們?cè)谏w中的相互作用,并不像傳統(tǒng)的計(jì)算模擬--先把兩個(gè)分子的結(jié)構(gòu)搞出來(lái),再把它們對(duì)接到一起,而是類似于“共折疊”(co-folding)的模式。

過(guò)去的Autodock Vina是怎么做的?蛋白質(zhì)保持可以剛體模式也可以讓口袋去區(qū)域保持柔性,建模時(shí)候小分子可以和蛋白質(zhì)側(cè)鏈一起按照能量下降以及蒙特卡洛方式去調(diào)整位置。因此,小分子和口袋區(qū)域蛋白質(zhì)側(cè)鏈具有一定的自由度,但蛋白質(zhì)至少在主鏈上是沒(méi)有什么自由度的。

但真實(shí)情況下確實(shí)是這樣嗎?并非如此,為什么?

誘導(dǎo)契合學(xué)說(shuō)(induced- fit hypothesis)談到,在對(duì)接過(guò)程中,不僅小分子自身改變pose(構(gòu)象),結(jié)合空腔中的氨基酸殘基位置也會(huì)改變,有時(shí)候可能會(huì)導(dǎo)致蛋白質(zhì)loop區(qū)域的位移,即配體和受體雙向奔赴的過(guò)程。

所以,我們現(xiàn)在能不能用一種更好的建模方式,同時(shí)把這兩種分子作用在一起?

實(shí)際上,AlphaFold2-Multimer(專長(zhǎng)于蛋白復(fù)合物特別是結(jié)合界面結(jié)構(gòu)預(yù)測(cè)的模型)已經(jīng)初步嘗試co-folding的方式,效果非常好。

那么類似的理念用到蛋白質(zhì)-小分子的相互作用上,會(huì)不會(huì)也有奇效?答案是肯定的。

我們這次參賽的方法就是利用了類似理念。把AlphaFold2的這套方法,在蛋白序列后面再加上小分子frame,通過(guò)frame再構(gòu)造成一個(gè)整體相互作用的模擬。我認(rèn)為,未來(lái)這條路徑一定大家都選擇的方向,因?yàn)樗悠蛘鎸?shí)的物理過(guò)程。

鄭偉:在蛋白質(zhì)-小分子的binding問(wèn)題上,早些年CASP其實(shí)一直在關(guān)注這個(gè)問(wèn)題。在CASP10之前一直有一個(gè)賽道---蛋白質(zhì)功能預(yù)測(cè)(protein function prediction),用于預(yù)測(cè)蛋白質(zhì)ligand binding site。當(dāng)然它沒(méi)有特異性,只讓你預(yù)測(cè)蛋白質(zhì)的哪個(gè)位點(diǎn)可以綁定小分子,選手只要給出該預(yù)測(cè)信息即可。

但在CASP11之后,這條賽道就一直被取消,直到本屆CASP15又重新設(shè)置基于Pose的蛋白質(zhì)-小分子結(jié)構(gòu)預(yù)測(cè)賽道。

因此,我覺(jué)得蛋白質(zhì)-小分子賽道重新提上日程,而且是以更加精細(xì)的預(yù)測(cè)項(xiàng)目出現(xiàn),一個(gè)重要原因是蛋白質(zhì)單體或者蛋白質(zhì)復(fù)合物的結(jié)構(gòu)預(yù)測(cè)精度已經(jīng)非常高。

我們有了蛋白質(zhì)結(jié)構(gòu)、小分子的具體的binding位點(diǎn),binding pose、以及具體的小分子信息之后,你可以預(yù)測(cè)工作就更多了。整體來(lái)看, CASP的賽道設(shè)置不是特別割裂,每條賽道之間都相互促進(jìn)。
另外,我非常同意王晟師兄的意見(jiàn)。我們確實(shí)應(yīng)該系統(tǒng)考慮蛋白質(zhì)-小分子的折疊問(wèn)題,而不是先折疊蛋白質(zhì),再讓小分子“打配合”。

實(shí)際上,PDB數(shù)據(jù)庫(kù)中解析的真實(shí)實(shí)驗(yàn)結(jié)構(gòu),很多蛋白質(zhì)可以配合小分子,也可以不配合小分子;甚至一些蛋白質(zhì)和小分子配體后,但它的側(cè)鏈結(jié)構(gòu),甚至主鏈結(jié)構(gòu)都會(huì)發(fā)生小范圍的變構(gòu)。

所以蛋白質(zhì)本身在折疊過(guò)程中,或者和小分子配體去做聯(lián)合折疊時(shí),它不應(yīng)該是一個(gè)彼此割裂,或者“先有雞還是先有蛋”的問(wèn)題,它肯定是一個(gè)聯(lián)合發(fā)展的折疊問(wèn)題。

因此,如果我們利用類似于共進(jìn)化信息,控制蛋白質(zhì)-小分子的體系,是更有預(yù)測(cè)優(yōu)勢(shì)的。當(dāng)然,具體怎么構(gòu)建這種蛋白質(zhì)和-小分子共進(jìn)化,可能比較難。

因?yàn)榧词乖诮Y(jié)構(gòu)預(yù)測(cè)領(lǐng)域,共進(jìn)化也不是百分之百都解決透了的。而且在蛋白質(zhì)復(fù)合物里面,共進(jìn)化要比單體更難。所以推廣在蛋白質(zhì)-小分子問(wèn)題上,我們?cè)趺丛O(shè)計(jì)共進(jìn)化,或者是怎么發(fā)現(xiàn)潛在的共進(jìn)化就更難了。具體的藥物落地這一方面,我研究得不是特別多,張貴軍、常珊兩位老師已經(jīng)總結(jié)得很好。

熊鵬:關(guān)于蛋白質(zhì)-小分子的相互作用,我研究比較少,也就不發(fā)表太多的評(píng)論。我主要跟大家談一談RNA-小分子結(jié)合的問(wèn)題。

RNA結(jié)構(gòu)和蛋白質(zhì)結(jié)構(gòu)有很大差別,因?yàn)榈鞍踪|(zhì)的最小折疊單元是domain,每個(gè)domain有一個(gè)疏水折疊核心(hydrophobic folding core),那些小分子結(jié)合的口袋,都是位于domain內(nèi)部或者domain之間的空腔,預(yù)測(cè)蛋白質(zhì)和小分子的結(jié)合,需要先預(yù)測(cè)蛋白質(zhì)的整體結(jié)構(gòu)。

但RNA所有的基團(tuán)都是極性基團(tuán),在折疊過(guò)程中并沒(méi)有類似的疏水核心。所以RNA的最小折疊單元并不是domain,而是motif(少數(shù)堿基形成的結(jié)構(gòu)模塊),由motif組裝后形成RNA的三維結(jié)構(gòu)以及小分子接口。

CASP15上有好幾個(gè)target,都涉及RNA和小分子的相互作用。但這些相互作用并不牽涉到整個(gè)RNA結(jié)構(gòu),只是牽涉了其中一些motif。比如R1117 target,就是小分子結(jié)合到差不多十來(lái)個(gè)堿基左右的motif口袋中;還有一個(gè)是人工設(shè)計(jì)RNA,其來(lái)源也是將一個(gè)結(jié)合小分子的天然motif,拼接到人工設(shè)計(jì)的框架上。

也就是說(shuō),對(duì)于和RNA結(jié)合的小分子而言,它與RNA的結(jié)合并不牽扯到RNA的整體三維結(jié)構(gòu),而只是作用于結(jié)構(gòu)中的特殊motif。因此,如果我們要針對(duì)RNA的小分子做藥物設(shè)計(jì),問(wèn)題的關(guān)鍵并非RNA的整體形狀預(yù)測(cè),而是RNA內(nèi)部功能motif的預(yù)測(cè)。

這也是我之前一直非常強(qiáng)調(diào)的問(wèn)題??赡芪覀儾⒉恍枰^(guò)度關(guān)注RNA的端對(duì)端預(yù)測(cè)、overall fold預(yù)測(cè),如果能夠把RNA的一些關(guān)鍵結(jié)構(gòu)的motif預(yù)測(cè)好,那么對(duì)于理解RNA的功能,比如說(shuō)如何結(jié)合小分子就已經(jīng)足夠了。

王晟:熊老師講了一個(gè)非常深刻的觀點(diǎn)。因?yàn)槲覀冎繰NA結(jié)構(gòu)中,很多地方它是飄在那里的,類似于蛋白質(zhì)里的intrinsically disordered regions (IDR) 。

熊鵬老師希望我們抓住問(wèn)題的本質(zhì),也就是說(shuō),RNA跟蛋白質(zhì)是類似的,都有一些motif組成的區(qū)域,只不過(guò)相對(duì)來(lái)說(shuō),蛋白質(zhì)的這種剛性區(qū)域多一些,IDP相對(duì)少一點(diǎn);RNA的非剛性區(qū)域可能會(huì)更多,但如果RNA要和小分子等結(jié)合形成結(jié)構(gòu),一定會(huì)有motif的存在,把它們給咬合在一起。

因此,從RNA的這點(diǎn)特性出發(fā),對(duì)于我們理解RNA功能,如何設(shè)計(jì)把靶標(biāo)于RNA的小分子抑制劑都至關(guān)重要,而且對(duì)于我們今后如何去預(yù)測(cè)RNA結(jié)構(gòu)也提供了全新思路。

ChatGPT在生命科學(xué)領(lǐng)域的前景如何

王晟:再談一下時(shí)下最火熱的話題——ChatGPT。這段時(shí)間,以ChatGPT為代表的AIGC概念相當(dāng)火爆。不少生物計(jì)算實(shí)驗(yàn)室也拿出了一些成果。 能否站在您的角度,談?wù)凙IGC在AI生命科學(xué)領(lǐng)域的應(yīng)用前景?

常珊:ChatGPT的放在生命科學(xué)領(lǐng)域來(lái)說(shuō)再合適不過(guò)了。因?yàn)槲覀內(nèi)ケ硎錾茖W(xué)中的一些分子,不管是核酸、蛋白還是小分子,都是以類似于語(yǔ)言“序列”的方式去表示,比如DNA 序列,蛋白序列、小分子SMILES。所以我覺(jué)得ChatGPT背后的語(yǔ)言模型天然適合生命科學(xué)研究,生命科學(xué)研究者也要盡快訓(xùn)練大型語(yǔ)言模型理解蛋白質(zhì)、分子、DNA和RNA。

剛才王晟提到幾個(gè)程序,我之前看過(guò)文獻(xiàn),但沒(méi)有深入地去看這方面的算法細(xì)節(jié),但GPT和ChatGPT出來(lái)后,我發(fā)現(xiàn)它的算法可以直接用在生物上,但是我們也要注意兩個(gè)潛在問(wèn)題。

一、數(shù)據(jù)。

ChatGPT在訓(xùn)練過(guò)程中,數(shù)據(jù)有很多,而且處理得比較干凈。但對(duì)于生物學(xué)數(shù)據(jù)來(lái)說(shuō),哪怕在PDB數(shù)據(jù)庫(kù)中的數(shù)據(jù)也可能有錯(cuò)誤,而且這些錯(cuò)誤數(shù)據(jù)可能沒(méi)法通過(guò)簡(jiǎn)單方式做清洗。只有通過(guò)大量的實(shí)驗(yàn)才能做精確篩選。因此,在當(dāng)前的生物學(xué)數(shù)據(jù)現(xiàn)狀之下,訓(xùn)練完成的算法/模型都會(huì)有一些影響。

二、模型公開(kāi)試用加大負(fù)反饋風(fēng)險(xiǎn)。

模型如何做驗(yàn)證,最常用的方法就是開(kāi)放做公開(kāi)試用。對(duì)于ChatGPT這種通用型模型來(lái)講,大家會(huì)擔(dān)心廣泛且公開(kāi)的試用,如果反饋學(xué)習(xí)可能會(huì)把模型“教壞”。但對(duì)生物學(xué)模型來(lái)說(shuō),判斷一個(gè)模型好壞還是需要一些實(shí)驗(yàn)的方法,但是反饋可能會(huì)慢一些,導(dǎo)致模型迭代優(yōu)化的速度會(huì)相對(duì)緩慢。

我們最近也用語(yǔ)言模型做了一個(gè)抗菌肽的序列設(shè)計(jì),核磁解析的結(jié)構(gòu)發(fā)現(xiàn)和設(shè)計(jì)一致,所以我覺(jué)得語(yǔ)言模型天然具有優(yōu)勢(shì),只是在數(shù)據(jù)、模型后續(xù)迭代上需要進(jìn)一步完善。

張貴軍:分享幾點(diǎn)。

一、AIGC等生成式AI技術(shù)現(xiàn)在確實(shí)非常火,我們已經(jīng)看到ChatGPT技術(shù)、擴(kuò)散模型等技術(shù)在小分子三維構(gòu)象、蛋白質(zhì)復(fù)合物預(yù)測(cè)等生命科學(xué)領(lǐng)域的潛力,未來(lái)可能會(huì)引領(lǐng)下一場(chǎng)變革。

三年前,我對(duì)人工智能的態(tài)度是,這個(gè)技術(shù)是生物信息研究中的一個(gè)必要條件,但不是充分條件,不是我們做什么都要用人工智能。但經(jīng)過(guò)幾年發(fā)展,我的想法也在不斷改變。因?yàn)槿斯ぶ悄芸梢越⒘藦?qiáng)大的能量模型擬合函數(shù),甚至包含上千億個(gè)參數(shù)的大模型。在這種基于數(shù)據(jù)的模型表達(dá)下,或許AI真的能夠充分表征生命系統(tǒng)。

剛才大家講到的生命系統(tǒng),有蛋白質(zhì)、核酸等發(fā)分子表達(dá),這些都可以想象成是通過(guò) “生命語(yǔ)言”來(lái)進(jìn)行調(diào)控。蛋白質(zhì)序列本質(zhì)上類似于自然語(yǔ)言:氨基酸以多種組合排列形成具有功能的結(jié)構(gòu),就像字母構(gòu)成單詞、單詞形成句子所具有的含義一樣。因此,在自然語(yǔ)言處理(NLP)技術(shù)應(yīng)用到蛋白質(zhì)結(jié)構(gòu)建模問(wèn)題也就不足為奇。

但人工智能進(jìn)行蛋白質(zhì)研究時(shí),我們應(yīng)該如何規(guī)避潛在問(wèn)題?

一、圍繞蛋白質(zhì)做系統(tǒng)性研究。

人類基因組編碼的蛋白質(zhì)數(shù)量不少于20萬(wàn)個(gè),但目前已知的只有2萬(wàn)多個(gè),但由于可變剪切機(jī)制,同一個(gè)基因可以表達(dá)成多個(gè)不同的蛋白質(zhì),這2萬(wàn)多個(gè)人類基因究竟能編碼多少個(gè)蛋白質(zhì)目前仍是個(gè)謎。但可以確定的是,其余大部分蛋白質(zhì)編碼基因都在做調(diào)控。因此,未來(lái)需要進(jìn)一步協(xié)同考慮蛋白質(zhì)跟小分子、DNA、 以及RNA等相互作用,從而進(jìn)行相關(guān)設(shè)計(jì)。

二、從生命本質(zhì)出發(fā)研究問(wèn)題。
用AI研究生命系統(tǒng),實(shí)際上是人工智能模擬生命系統(tǒng)。因此,回到最本質(zhì)的問(wèn)題上,什么是智能?生命能夠被完全模擬嗎?

實(shí)際上,現(xiàn)在進(jìn)行的蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)和設(shè)計(jì),以及RNA研究、復(fù)合體研究等,它們即便能夠通過(guò)語(yǔ)義、語(yǔ)法與規(guī)則被表達(dá)出來(lái),但它們?nèi)绾涡纬伞吧??事?shí)上,蛋白質(zhì)本身是沒(méi)有生命的,通過(guò)蛋白質(zhì)之間的互作以及細(xì)胞之間的協(xié)作,最終才形成生命活動(dòng),這是需要思考的一個(gè)方面。

就預(yù)測(cè)而言,現(xiàn)有挑戰(zhàn)在于揭示蛋白質(zhì)的折疊機(jī)理和活體狀態(tài)的多態(tài)問(wèn)題。目前AI模型擬合出來(lái)的還是一個(gè)靜態(tài)的蛋白質(zhì)結(jié)構(gòu);

就設(shè)計(jì)而言,脫離實(shí)驗(yàn)室條件,人工設(shè)計(jì)的蛋白質(zhì)安全性、穩(wěn)定性、耐藥性(人工設(shè)計(jì)蛋白進(jìn)入體內(nèi),白細(xì)胞可能會(huì)把它當(dāng)成一個(gè)病毒來(lái)處理,馬上產(chǎn)生抗體,蛋白質(zhì)就可能會(huì)失效)如何都不得而知,而能否適合工業(yè)生產(chǎn)又有很多不確定性。

因此,回到問(wèn)題的源頭,為什么人是有生命的?因?yàn)槿梭w存在一系列的群體連鎖反應(yīng),最后組成了一個(gè)復(fù)雜的、擁有智能和意識(shí)的生命體。

在前不久的第11屆全國(guó)生物信息學(xué)會(huì)議上,來(lái)自軍事醫(yī)學(xué)院的李昊稱,“最近的模型可解釋性方法將使我們能夠打開(kāi)“黑匣子”,從而增強(qiáng)對(duì)折疊原理的理解。”足以看出生成語(yǔ)言模型在設(shè)計(jì)功能序列方面的巨大潛力。

目前我們課題組也在不斷深入研究,從最初采樣到現(xiàn)在的能量模型,接下來(lái)我們就考慮蛋白質(zhì)整體結(jié)構(gòu)預(yù)測(cè)、多域、復(fù)合物模型,以及相應(yīng)的模型質(zhì)量評(píng)估技術(shù)。

鄭偉:AI生成內(nèi)容最近特別火,我也在關(guān)注,ChatGPT和stable diffusion都試玩了一下,從AI產(chǎn)生的內(nèi)容質(zhì)量來(lái)看,確實(shí)蠻令人驚嘆。 

具體地,AIGC在生命科學(xué)領(lǐng)域,或者在結(jié)構(gòu)生物學(xué)、計(jì)算結(jié)構(gòu)生物學(xué)領(lǐng)域都有什么應(yīng)用。我個(gè)人認(rèn)為,AIGC非常適合用在蛋白質(zhì)設(shè)計(jì)和蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)。實(shí)際上,目前這一領(lǐng)域已經(jīng)開(kāi)始嘗試算法應(yīng)用,比如PLM(protein language model )方法。

它是利用機(jī)器學(xué)習(xí)去學(xué)習(xí)隱式的蛋白質(zhì)進(jìn)化的語(yǔ)言信息,類似于隱式的MSA信息,從而用學(xué)習(xí)到的蛋白質(zhì)語(yǔ)言信息來(lái)替代傳統(tǒng)的MSA。

總體來(lái)說(shuō),這一技術(shù)的前景很好。但是目前來(lái)看,我們訓(xùn)練出來(lái)的PLM模型,以及一些大公司放出來(lái)的PLM,結(jié)果不太令人滿意,在CASP15中分?jǐn)?shù)不高。

當(dāng)然我個(gè)人覺(jué)得排名低不影響算法前景,目前分?jǐn)?shù)不高可能是因?yàn)楝F(xiàn)在大家都在拼算力,以及大家剛開(kāi)始描述MSA或者使用蛋白質(zhì)語(yǔ)言,還在摸索階段。

熊鵬:前面幾位老師都分享了語(yǔ)言模型在蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)、蛋白質(zhì)設(shè)計(jì)方面的應(yīng)用,我就從另外一個(gè)角度聊一聊對(duì)ChatGPT的看法。

現(xiàn)在生命科學(xué)學(xué)術(shù)圈的每年論文增幅約幾十萬(wàn)篇,我們逐篇地閱讀起來(lái)肯定是不充分的。因此我一直希望能有一個(gè)AI機(jī)器人,或者學(xué)術(shù)輔助工具,幫我了解一個(gè)新領(lǐng)域、幫我看文獻(xiàn),給我一種學(xué)術(shù)指導(dǎo)。所以ChatGPT出來(lái)后,我很希望它能夠?qū)崿F(xiàn)這一目標(biāo)。

但據(jù)一些老師的測(cè)試結(jié)果,目前ChatGPT還沒(méi)有很好地實(shí)現(xiàn)學(xué)術(shù)輔助的功能。比如你問(wèn)他一些專業(yè)的問(wèn)題,它可能會(huì)給你列出一堆參考文獻(xiàn),但是你仔細(xì)去翻看那些參考文獻(xiàn),發(fā)現(xiàn)都是ChatGPT基于語(yǔ)言模型虛構(gòu)出來(lái)的論文。格式都對(duì),看上去很專業(yè),但實(shí)際上什么都不是,純碎是瞎編亂造的內(nèi)容。

所以,如果要重新開(kāi)發(fā)一個(gè)對(duì)我們做學(xué)術(shù)有幫助的AI機(jī)器人,可能需要重新訓(xùn)練一套新的模型。它既需要幫助我們?nèi)ラ喿x文獻(xiàn)、理解文獻(xiàn)、總結(jié)文獻(xiàn)、幫我們快速進(jìn)入一個(gè)新領(lǐng)域,也幫我們做一些學(xué)術(shù)交叉的研究。
我相信在不遠(yuǎn)的將來(lái),這個(gè)目標(biāo)肯定能夠成為現(xiàn)實(shí)。

公眾提問(wèn)

Q:請(qǐng)問(wèn)常珊教授:今年您帶隊(duì)參加的蛋白質(zhì)- ligand復(fù)合體結(jié)構(gòu)預(yù)測(cè),這一技術(shù)在合成生物學(xué),尤其是小分子多肽和蛋白質(zhì)受體作用的預(yù)測(cè)上,有沒(méi)有投入實(shí)用的可能性?

常珊:這是完全有可能的。

盡管和蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)相比,序列生成相對(duì)落后一點(diǎn),但是目前Meta(Facebook)、Baker等幾個(gè)團(tuán)隊(duì)都發(fā)表了很多論文,涵蓋多肽設(shè)計(jì)、小蛋白設(shè)計(jì)、單體蛋白設(shè)計(jì)等。其中Meta(Facebook)最近測(cè)試了30多個(gè)蛋白,效果都不錯(cuò),所以我覺(jué)得這一塊落地的可能性還是很大的。合成生物學(xué)對(duì)蛋白質(zhì)序列設(shè)計(jì)非常重視,所以我覺(jué)得能夠設(shè)計(jì)出更好的蛋白質(zhì),一定會(huì)有助于合成生物學(xué)的發(fā)展。

Q:請(qǐng)問(wèn)張貴軍教授,您帶隊(duì)獲準(zhǔn)確性賽道復(fù)合物接觸殘基精度評(píng)估第一名,會(huì)帶來(lái)哪些實(shí)用性成果?

張貴軍:第一,模型的實(shí)用性,對(duì)后續(xù)的藥物研發(fā)等過(guò)程非常重要,因?yàn)樗幬镅邪l(fā)通常要花費(fèi)十幾億美元,耗費(fèi)十幾年的時(shí)間,最終可能僅有10%的成功率。因此,如果預(yù)測(cè)模型并不精準(zhǔn),下游的環(huán)節(jié)都會(huì)有問(wèn)題。

第二,蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)是一個(gè)不斷優(yōu)化的問(wèn)題,因此我們要采用不同的方法去做精修,比如建立一個(gè)力場(chǎng),去模擬蛋白質(zhì)折疊過(guò)程,不僅要找到得分為90分的蛋白質(zhì)模型,還需要找到 20 分的, 30 分的、40分、50~90等中低段模型。

第三,在多態(tài)問(wèn)題上,實(shí)際上已經(jīng)有一些例子,比如抗體設(shè)計(jì)、抗原設(shè)計(jì)。但我們發(fā)現(xiàn)一個(gè)有意思的現(xiàn)象,預(yù)測(cè)的pDockQ可能在90分以上,但與實(shí)驗(yàn)測(cè)定情況相差較多;有些實(shí)驗(yàn)分?jǐn)?shù)非常高,但預(yù)測(cè)的pDockQ卻在0. 23以下。這可能都是因?yàn)轭A(yù)測(cè)和實(shí)際結(jié)構(gòu)多態(tài)現(xiàn)象所導(dǎo)致的原因之一,這也是我們將來(lái)非常重要的研究方向之一。

Q:請(qǐng)問(wèn)鄭偉博士:您在多條賽道上獲第一名。有蛋白質(zhì)單體單結(jié)構(gòu)域、蛋白質(zhì)單體多結(jié)構(gòu)域、蛋白質(zhì)復(fù)合體結(jié)構(gòu)預(yù)測(cè)類別等賽項(xiàng)。后續(xù)的技術(shù)轉(zhuǎn)化有哪些?團(tuán)隊(duì)都有哪些產(chǎn)學(xué)研合作?

鄭偉:首先,藥物研發(fā)的靶點(diǎn)很多都是蛋白質(zhì),所以蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)得好,無(wú)疑對(duì)藥物研發(fā)來(lái)說(shuō)是一個(gè)基礎(chǔ)保障。

其次,今年的蛋白質(zhì)-復(fù)合體的預(yù)測(cè)精度有明顯提升,一定會(huì)在制藥領(lǐng)域有一定應(yīng)用前景。因?yàn)橛行┧幬锊还鈨H是 RNA藥物,或者小分子藥物,可能也是一些蛋白類藥物。比如醫(yī)藥領(lǐng)域有一些抗體類藥物,其實(shí)也是比較依賴于蛋白質(zhì)-復(fù)合體結(jié)構(gòu)預(yù)測(cè)這一基礎(chǔ)問(wèn)題。

CASP15上公布了antibody-antigen的復(fù)合體,也公布了nanobody-antigen的復(fù)合體,有些課題組在某些target上做得不錯(cuò),我們課題組在大部分的nanobody和antibody上,復(fù)合體預(yù)測(cè)的精度非常高。所以我個(gè)人覺(jué)得在制藥領(lǐng)域,復(fù)合體結(jié)構(gòu)預(yù)測(cè)的落地速度會(huì)加快,因?yàn)樗鼘?duì)抗體類的藥物研發(fā)作用更直接。

Q:請(qǐng)問(wèn)熊鵬博士:您對(duì)于RNA結(jié)構(gòu)預(yù)測(cè)的研究進(jìn)展,未來(lái)的落地規(guī)劃是怎樣的?

熊鵬:RNA結(jié)構(gòu)計(jì)算在落地方面,相對(duì)容易的是通過(guò)“計(jì)算+實(shí)驗(yàn)”的方法做一些功能RNA分子的設(shè)計(jì)。因?yàn)楣δ躌NA分子直接應(yīng)用場(chǎng)景,比如基因治療藥物、調(diào)控元件等。第二是同時(shí)用計(jì)算+實(shí)驗(yàn)的相互迭代的方法,也能夠更快地改進(jìn)我們的方法,改進(jìn)我們的計(jì)算模型。

長(zhǎng)遠(yuǎn)來(lái)看,靶向RNA的藥物設(shè)計(jì)是一個(gè)重要方向。RNA-小分子的相互作用預(yù)測(cè),RNA-蛋白質(zhì)在細(xì)胞內(nèi)的調(diào)控元件的一些相互作用預(yù)測(cè),將真正推動(dòng)在生物醫(yī)藥領(lǐng)域的落地。


雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

分享:
相關(guān)文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)