0
本文作者: 劉海濤 | 2021-08-17 14:26 |
過去半個(gè)月,Alphafold2先后兩次沸騰了整個(gè)學(xué)術(shù)圈。
一邊是“AI界年度十大突破”AlphaFold2終于開源,登上Nature;
另一邊DeepMind又發(fā)布,堪比人類基因組圖譜的,最完整人類蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫(kù)。
對(duì)自家的“王者級(jí)成果”,DeepMind聯(lián)合創(chuàng)始人、首席執(zhí)行官德米斯·哈薩比斯(Demis Hassabis)也自豪表示:“這是迄今為止AI在推動(dòng)科學(xué)進(jìn)步方面做出的最大貢獻(xiàn),我覺得這么說一點(diǎn)兒也不夸張?!?/p>
但事實(shí)真是如此嗎?
爆火的AlphaFold2是否被期望過高?后AlphaFold2時(shí)代,蛋白質(zhì)結(jié)構(gòu)領(lǐng)域是否會(huì)出現(xiàn)學(xué)術(shù)研究的“軍備競(jìng)賽”?AlphaFold2代碼開源,是否為各大藥企和AI制藥企業(yè)創(chuàng)造了一次最佳的超車機(jī)會(huì)?備受期待的AlphaFold2數(shù)據(jù)庫(kù),是否會(huì)成為專家們打開蛋白質(zhì)功能奧秘的金鑰匙?
近日,主題為“權(quán)威專家再談AlphaFold 2:AI是否會(huì)帶來結(jié)構(gòu)生物學(xué)的「大革命」?”的圓桌論壇正式舉行。本次主題論壇由圖像計(jì)算與數(shù)字醫(yī)學(xué)國(guó)際研討會(huì)(ISICDM)主辦,雷鋒網(wǎng)、醫(yī)健AI掘金志協(xié)辦。
印第安納大學(xué)醫(yī)學(xué)院副院長(zhǎng)、AIMBE Fellow黃昆教授擔(dān)任主持,密蘇里大學(xué)教授、AAAS/AIMBE Fellow許東教授、密歇根大學(xué)教授、DeLano獎(jiǎng)得主和I-TASSER算法發(fā)明人張陽(yáng)教授、芝加哥豐田計(jì)算技術(shù)研究所、斯隆獎(jiǎng)得主許錦波教授,中科院計(jì)算機(jī)所研究員卜東波教授共同參與了討論。
在上篇中,幾位嘉賓共同深究AlphaFold2這次成果的技術(shù)細(xì)節(jié)與意義;在下篇中,將著重分析AlphaFold2數(shù)據(jù)集,這一重磅成果實(shí)際的科研價(jià)值,以及怎樣拓展到新冠疫苗、新藥研發(fā)等其他領(lǐng)域的未來話題。
圖像計(jì)算與數(shù)字醫(yī)學(xué)國(guó)際研討會(huì)(ISICDM)自2017年創(chuàng)辦以來,一直是醫(yī)工交叉的前沿陣地,圍繞圖像計(jì)算和數(shù)字醫(yī)學(xué)中的一些重要的理論、算法與應(yīng)用問題進(jìn)行學(xué)術(shù)討論,旨在促進(jìn)電子信息(包括計(jì)算機(jī)、自動(dòng)化與生物醫(yī)學(xué)工程)、數(shù)學(xué)和醫(yī)學(xué)等領(lǐng)域?qū)W者的交流與合作,截止至今,ISICDM共邀請(qǐng)到400余位大會(huì)報(bào)告及專題報(bào)告嘉賓。
以下是主題論壇的現(xiàn)場(chǎng)內(nèi)容,雷鋒網(wǎng)做了不改變?cè)獾木庉嫼驼恚?/span>
黃昆(主持人):去年我們已經(jīng)談?wù)撨^一次AlphaFold2的成績(jī),這次其在短時(shí)間內(nèi)破譯了98.5%的人類蛋白質(zhì)組的結(jié)構(gòu),并開源了代碼,相比傳統(tǒng)算法AlphaFold2究竟有怎樣的進(jìn)步,優(yōu)點(diǎn)有哪些?
許錦波:從我的角度理解,AlphaFold2并不是用一個(gè)idea,就把蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)一下子提高很多。
其主要通過實(shí)現(xiàn)了幾個(gè)不同的Idea,每一個(gè)Idea把預(yù)測(cè)精度提升幾個(gè)點(diǎn)的得分,最后把總分提升很多,這些Idea里有些是這個(gè)領(lǐng)域里已經(jīng)有的, 有些是DeepMind自研的。
為了理解AlphaFold2和其他算法之間區(qū)別,我先總結(jié)一下它的做法:
首先,AlphaFold2第一步和以前的深度學(xué)習(xí)方法是類似的。
過去,我們預(yù)測(cè)目標(biāo)蛋白結(jié)構(gòu),首先就是在序列數(shù)據(jù)庫(kù)里找這個(gè)蛋白的同源序列,建立多序列對(duì)比;
而AlphaFold2也是在實(shí)驗(yàn)結(jié)構(gòu)數(shù)據(jù)庫(kù)里,找目標(biāo)蛋白的模板,最后把模板和多系列對(duì)比,輸入到神經(jīng)網(wǎng)絡(luò)當(dāng)中。
AlphaFold2的神經(jīng)網(wǎng)絡(luò)主要由兩大模塊組成:
第一個(gè)模塊,處理同源序列信息,主要使用注意力機(jī)制對(duì)蛋白序列進(jìn)行建模,從多系列對(duì)比和模板里,學(xué)習(xí)蛋白質(zhì)殘基之間的相互作用關(guān)系。這種關(guān)系可以理解成距離,也可以理解成聯(lián)系。
這個(gè)模塊把目標(biāo)蛋白序列映射到高維空間里,這種映射本身就包含殘基之間相互作用關(guān)系。
第二模塊,怎么把第一個(gè)模塊輸出轉(zhuǎn)換成三維結(jié)構(gòu),也就是把目標(biāo)蛋白序列在高維空間映射,以及殘基之間相互作用關(guān)系,兩種信息轉(zhuǎn)化成三維坐標(biāo)。
從實(shí)踐角度來看,第一模塊無非就是學(xué)習(xí)氨基酸之間關(guān)系,這和過去殘差網(wǎng)絡(luò)是類似的。
殘差網(wǎng)絡(luò)過去也是學(xué)習(xí)氨基酸之間關(guān)系,只不過是用距離矩陣表示,而AlphaFold2因?yàn)閷?shí)現(xiàn)了端到端訓(xùn)練,就不用使用距離矩陣表示。
我覺得AlphaFold2真正創(chuàng)新應(yīng)該在第二模塊,第一模塊注意力網(wǎng)絡(luò)過去就已經(jīng)有很多研究組在做,像Facebook很早就嘗試使用注意力機(jī)制模擬蛋白質(zhì)序列,把兩種信息轉(zhuǎn)化成三維坐標(biāo)算法的第二模塊,相對(duì)于其他組也是一個(gè)比較大的創(chuàng)新。
AlphaFold2另外一個(gè)創(chuàng)新點(diǎn)是Loss Function(機(jī)器學(xué)習(xí)模型的訓(xùn)練函數(shù)),也就是評(píng)判預(yù)測(cè)結(jié)構(gòu)的準(zhǔn)確性,過去可能更多使用RMSD、氨基酸之間接觸矩陣或距離矩陣、氨基酸之間相對(duì)位置的方法。
而這次AlphaFold2則是在每個(gè)氨基酸上,都建立了局部坐標(biāo)系統(tǒng),然后根據(jù)局部坐標(biāo)系統(tǒng),對(duì)其它氨基酸建立相對(duì)坐標(biāo),計(jì)算真實(shí)局部坐標(biāo)和預(yù)測(cè)出的局部坐標(biāo)之間誤差,這種方式是以前沒有使用過的。
就我的理解,它其實(shí)是相當(dāng)于把以往距離和Orientation(相對(duì)方向)綜合在一起,這樣做法就不需要分開處理距離和相對(duì)方向,這是我認(rèn)為AlphaFold2在Loss Function上的一些創(chuàng)新。
至于其他創(chuàng)新,例如使用自己生成的幾十萬個(gè)蛋白質(zhì)結(jié)構(gòu)去做訓(xùn)練數(shù)據(jù),則不屬于算法上的創(chuàng)新,而是工程上的優(yōu)化,而網(wǎng)絡(luò)迭代優(yōu)化(Recycling),同樣也是工程上優(yōu)化。
總結(jié)起來,AlphaFold2真正的突破就幾個(gè)方向:第一,使用注意力機(jī)制,這相比過去卷積網(wǎng)絡(luò)會(huì)提高一些,但不會(huì)太多,第二,在三維建模和Loss Function上的創(chuàng)新,最后就是使用更多訓(xùn)練數(shù)據(jù)。
而基本思想和以前其實(shí)是類似的,無非就是怎么把物理約束加進(jìn)去。以前我們是通過距離矩陣,而現(xiàn)在AlphaFold2則是直接生成三維坐標(biāo),把更多物理約束直接加入到深度神經(jīng)網(wǎng)絡(luò)當(dāng)中。
許東:AlphaFold2的創(chuàng)新可能不是在蛋白質(zhì)本身認(rèn)識(shí)上,更多是工程創(chuàng)新。
創(chuàng)新一般主要分為兩類:第一,單點(diǎn)問題創(chuàng)新,例如發(fā)現(xiàn)DNA雙螺旋結(jié)構(gòu);第二,整合創(chuàng)新,例如芯片、手機(jī)迭代,很多技術(shù)的本質(zhì)就是整合創(chuàng)新。
從綜合創(chuàng)新角度來看,AlphaFold2是有很多創(chuàng)新的,在結(jié)果上也可以看到,比之前方法提高了很多。
AlphaFold2的文章里也寫的很清楚,其中包含了10種新方法,其中就有剛才錦波教授分享的,特殊注意力機(jī)制和端到端學(xué)習(xí),每一種方法都能夠提高一點(diǎn)。
所以,我認(rèn)為怎樣將這些新方法整合在一起,才是AlphaFold2非常厲害的一個(gè)點(diǎn),這應(yīng)該不是過去量的增加,而是質(zhì)的飛躍,這種創(chuàng)新確實(shí)是值得欽佩的。
張陽(yáng):AlphaFold2很重要一點(diǎn)創(chuàng)新在于,過去需要先預(yù)測(cè)氨基酸之間距離和接觸圖,然后再依次構(gòu)造三維結(jié)構(gòu)模型,這樣的流程,讓機(jī)器學(xué)習(xí)訓(xùn)練只是一個(gè)中間過程,并非是最終結(jié)果,進(jìn)而影響機(jī)器學(xué)習(xí)效率。
相比其他實(shí)驗(yàn)室的結(jié)構(gòu)預(yù)測(cè)算法,這次AlphaFold2最關(guān)鍵的提升因素,就是端到端訓(xùn)練,也就是從序列直接學(xué)習(xí)三維空間結(jié)構(gòu)。
這種端到端訓(xùn)練有一個(gè)難點(diǎn),就是怎樣把神經(jīng)網(wǎng)絡(luò)結(jié)果投影到三維空間當(dāng)中,然后把三維空間誤差反饋到神經(jīng)網(wǎng)絡(luò),我認(rèn)為這是AlphaFold2算法上最重要的創(chuàng)新點(diǎn),之前其他實(shí)驗(yàn)室不是沒有做過嘗試,但最后都沒有成功。
AlphaFold2這次把每個(gè)氨基酸都建立了局域坐標(biāo)系統(tǒng),通過學(xué)習(xí)局域坐標(biāo)旋轉(zhuǎn)矩陣,把蛋白質(zhì)三維空間結(jié)構(gòu)直接引入到神經(jīng)網(wǎng)絡(luò)當(dāng)中。
這樣模型可以直接從數(shù)據(jù)庫(kù)學(xué)習(xí)到三維空間結(jié)構(gòu),省去距離和接觸圖等中間過程,將機(jī)器學(xué)習(xí)的威力真正釋放出來。
卜東波:我覺得張陽(yáng)教授提出的這一點(diǎn),在AlphaFold2和第一代AlphaFold的對(duì)比中,就能看得非常清楚。
第一代AlphaFold是三段論,把整個(gè)預(yù)測(cè)過程分解為三個(gè)階段:從MSA出發(fā)預(yù)測(cè)殘基間距離、根據(jù)殘基間距離構(gòu)建能量函數(shù)、最終再用優(yōu)化技術(shù)構(gòu)建出能量盡量低的結(jié)構(gòu)構(gòu)象。
現(xiàn)在AlphaFold2使用三合一,就把誤差都反傳回來,避免了中間步驟可能導(dǎo)致的信息丟失。
黃昆(主持人):除了算法上進(jìn)步,目前AlphaFold2究竟解決了多少蛋白質(zhì)結(jié)構(gòu)問題,從算法的角度還有多大的改進(jìn)空間?
張陽(yáng):回答這個(gè)問題前,我先介紹一下蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)包含哪些主要問題,從結(jié)構(gòu)層面分類,主要分為四類:二級(jí)結(jié)構(gòu)預(yù)測(cè)、三級(jí)結(jié)構(gòu)預(yù)測(cè)(包含單鏈、單結(jié)構(gòu)域)、高階三級(jí)結(jié)構(gòu)預(yù)測(cè)(包含單鏈、多結(jié)構(gòu)域)和四級(jí)結(jié)構(gòu)預(yù)測(cè)(蛋白質(zhì)之間相互作用的復(fù)合體)。
第一個(gè)問題,二級(jí)結(jié)構(gòu)預(yù)測(cè),在AlphaFold2進(jìn)入之前,這個(gè)問題就已經(jīng)解決,它的一個(gè)主要標(biāo)志就是自2004年起CASP比賽就已經(jīng)不再把二級(jí)結(jié)構(gòu)預(yù)測(cè)列為比賽項(xiàng)目。
所以,AlphaFold2主要解決的就是第二和第三層面問題,即單鏈三級(jí)結(jié)構(gòu)預(yù)測(cè)問題。
對(duì)于單鏈單結(jié)構(gòu)域問題,從CASP14比賽結(jié)果來看,AlphaFold2基本可以正確預(yù)測(cè)出所有目標(biāo)蛋白的拓?fù)鋵W(xué)結(jié)構(gòu),也就是TM-score>0.5。
而總體上來看,其它預(yù)測(cè)模型有2/3達(dá)到低精度實(shí)驗(yàn)要求,對(duì)比較困難的蛋白質(zhì)結(jié)構(gòu),也有1/3達(dá)到實(shí)驗(yàn)精度,這里的困難蛋白質(zhì)主要是指,結(jié)構(gòu)數(shù)據(jù)庫(kù)(PDB)里沒有同源模板的蛋白。
而AlphaFold2能夠?qū)щy蛋白高精度預(yù)測(cè)的原因在于,這些蛋白結(jié)構(gòu)數(shù)據(jù)庫(kù)雖然沒有同源模板,但序列數(shù)據(jù)庫(kù)卻有很多同源序列,根據(jù)同源序列進(jìn)化分析就可以得到結(jié)構(gòu)信息。
而對(duì)于那些即沒有同源結(jié)構(gòu),又沒有同源序列的真正困難蛋白,AlphaFold2預(yù)測(cè)精度還有待提高。
對(duì)于單鏈多結(jié)構(gòu)域問題,目前AlphaFold2只解決了一部分,按照TM-score,它對(duì)多結(jié)構(gòu)域預(yù)測(cè)精度可以達(dá)到單結(jié)構(gòu)域90%。
在CASP14,AlphaFold2對(duì)單結(jié)構(gòu)域的平均TM-score可以達(dá)到0.91,而對(duì)多結(jié)構(gòu)域的平均TM-score只有0.82。
所以總體來看,相比其他實(shí)驗(yàn)室,AlphaFold2雖然對(duì)多結(jié)構(gòu)域預(yù)測(cè)精度提高很多,但對(duì)高階多結(jié)構(gòu)域的三級(jí)結(jié)構(gòu)預(yù)測(cè),仍然還心有余,力不足。
第四個(gè)問題,四級(jí)結(jié)構(gòu)預(yù)測(cè),目前基于深度學(xué)習(xí)從頭預(yù)測(cè)蛋白質(zhì)四級(jí)結(jié)構(gòu)的工作還沒有開始。
但現(xiàn)在也許真的到了可以發(fā)起探索的時(shí)候,特別是AlphaFold2提供了從序列,到三維結(jié)構(gòu)端到端預(yù)測(cè)突破,給大家提供了一種新的途徑和想法。
所以,我認(rèn)為四級(jí)結(jié)構(gòu)預(yù)測(cè)可能是這個(gè)領(lǐng)域的下一個(gè)突破點(diǎn)。
其實(shí)除了剛才分析的四個(gè)方面,和蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)相關(guān)的重要問題還有很多。
例如預(yù)測(cè)蛋白質(zhì)和其它DNA、RNA等分子相互作用,蛋白質(zhì)和藥物分子相互作用,蛋白質(zhì)和功能之間關(guān)系,以及深度學(xué)習(xí)如何和冷凍電鏡、冷凍電子斷層掃描這樣大標(biāo)度實(shí)驗(yàn)技術(shù)的結(jié)合,利用低精度實(shí)驗(yàn)數(shù)據(jù),協(xié)助AI確定高精度蛋白結(jié)構(gòu)的算法,還都是AlphaFold2未曾嘗試的。
至于AlphaFold2還有多大發(fā)揮空間,我覺得AI對(duì)于結(jié)構(gòu)生物學(xué)以及生物醫(yī)學(xué)應(yīng)用才剛剛開始,大有可期。
許錦波:我再補(bǔ)充一下單結(jié)構(gòu)域問題,目前所有解決方法都依賴于同源序列或同源模板、如果沒有同源模板,或同源序列也非常少,模型最后的結(jié)果都不會(huì)很好。
其實(shí)在細(xì)胞里面,蛋白質(zhì)折疊是根本不知道同源序列信息,所以我們目前的解決方法都有點(diǎn)作弊。
從生物物理角度,這個(gè)問題還沒有完全解決,因?yàn)樵跊]有同源信息情況下很難把蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)出來。
許東:我也基本認(rèn)可錦波教授的這個(gè)看法,其實(shí)AlphaFold2預(yù)測(cè)出來的結(jié)構(gòu),經(jīng)常有一些偏差比較大的結(jié)果,這些結(jié)果可能一部分是無序結(jié)構(gòu),但也有一部分就是沒有預(yù)測(cè)好。
以目前進(jìn)展來看,AlphaFold2的預(yù)測(cè)結(jié)果里,應(yīng)該有一半預(yù)測(cè)比較好, 另一半里一部分是沒有精準(zhǔn)結(jié)構(gòu),也有很多就是預(yù)測(cè)比較差,所以,目前還談不上AlphaFold2能解決所有問題。
而如今的AlphaFold2是不是達(dá)到了理論上限,目前還不好說,我覺得還沒有足夠證據(jù)。
黃昆(主持人):那除了結(jié)構(gòu)生物學(xué)部分,AI在結(jié)構(gòu)生物學(xué)上還有哪些比較重要的應(yīng)用點(diǎn)?
許東:剛才張老師已經(jīng)回答不少,有些工作是進(jìn)行,例如蛋白人工設(shè)計(jì)大師David Baker在《science》的那篇文章,就已經(jīng)做了兩個(gè)方面工作:
第一,預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)拓展,例如解析電鏡結(jié)構(gòu)或解析晶體結(jié)構(gòu),這些問題已經(jīng)解決的很好。
第二,對(duì)蛋白功能理解,像GPCR蛋白以前沒有精準(zhǔn)結(jié)構(gòu)預(yù)測(cè)方法,所以看不出來活性狀態(tài)和失活狀態(tài)下的結(jié)構(gòu)差異?,F(xiàn)在有了精準(zhǔn)預(yù)測(cè)方法以后,就可以看到不同活性狀態(tài)下的結(jié)構(gòu)差異,也就推進(jìn)了我們對(duì)蛋白功能的理解。
此外,在結(jié)構(gòu)生物學(xué)上,AI應(yīng)該還可以解決很多問題:
第一,應(yīng)在在蛋白質(zhì)修飾作用中,一些較大的修飾,像糖化、脂化對(duì)蛋白質(zhì)結(jié)構(gòu)、功能都會(huì)造成很大的影響。而疫苗有效性差的問題,就是因?yàn)榘械鞍滋腔菇Y(jié)合不夠理想,將來或許Alphafold2真的可以解決這類問題。
第二,解決蛋白的相互作用問題,剛才張陽(yáng)教授談到蛋白質(zhì)跟DNA、RNA、脂類等相互作用非常重要,例如跟RNA相互作用形成蛋白復(fù)合體。
其實(shí),細(xì)胞質(zhì)里的蛋白質(zhì)經(jīng)常會(huì)和ER蛋白膜進(jìn)行相互作用,現(xiàn)在的預(yù)測(cè)方法就已經(jīng)可以推進(jìn)這方面的研究。
第三,預(yù)測(cè)蛋白質(zhì)和DNA之間相互作用,蛋白質(zhì)能夠作為轉(zhuǎn)錄因子和DNA產(chǎn)生相互作用,我們可以利用AI預(yù)測(cè)蛋白質(zhì)和DNA之間相互作用,來理解轉(zhuǎn)錄機(jī)理。以上這些方面,David Baker的文章里也做了列舉。
第四,解決疫苗設(shè)計(jì)和癌癥治療問題,Alphafold2也可以用于研究抗原和B細(xì)胞,抗體之間的相互作用。
第五,解決動(dòng)力學(xué)難題。我自己的博士論文就與分子動(dòng)力學(xué)相關(guān),當(dāng)時(shí)遇到就一個(gè)難點(diǎn)——如何將分子動(dòng)力學(xué)做的更長(zhǎng)一點(diǎn),更好展示蛋白質(zhì)動(dòng)態(tài)過程?
現(xiàn)在的分子動(dòng)力學(xué)不能看到蛋白折疊全過程,因?yàn)樗臅r(shí)非常短,一般分子動(dòng)力學(xué)模擬遠(yuǎn)達(dá)不到這個(gè)標(biāo)準(zhǔn),對(duì)此,我曾嘗試把模擬過程增長(zhǎng),更好模擬整個(gè)過程;或通過已有分子動(dòng)力學(xué)建立神經(jīng)網(wǎng)絡(luò),研究異構(gòu)問題。
我認(rèn)為,蛋白結(jié)構(gòu)對(duì)蛋白質(zhì)功能研究只是一個(gè)起點(diǎn),后面還有很多進(jìn)化、動(dòng)力學(xué)功能相關(guān)問題仍待解決,而Alphafold提供了一個(gè)很好的研究工具。
黃昆(主持人):我認(rèn)為從生物信息需求者角度,Alpha fold實(shí)際應(yīng)用也有非常好的潛力。
例如癌癥相關(guān)突變基因預(yù)測(cè),以前需要直接觀察基因和表現(xiàn)型之間關(guān)系,但我們更想知道基因突變對(duì)蛋白質(zhì)結(jié)構(gòu)的影響,目前如果未來對(duì)這些結(jié)構(gòu)做出預(yù)測(cè),會(huì)很有價(jià)值,能夠解決許多下游問題,例如疾病診斷。
那在后Alphafold2時(shí)代,蛋白質(zhì)預(yù)測(cè)是否會(huì)進(jìn)入一個(gè)新階段,疾病診斷方面,有哪些既有數(shù)據(jù),又值得攻關(guān)的重點(diǎn)?
卜東波:我們實(shí)驗(yàn)室張海倉(cāng)老師所做的工作,就是一個(gè)很好的案例。
過去我們關(guān)注癌癥相關(guān)突變位點(diǎn),分析癌癥患者和正常人基因組變異,二者之間變異位點(diǎn)差別比較多,但一直很難斷定哪些是真正相關(guān)位點(diǎn)。
Alphafold2出來之后,把人類基因組的大部分蛋白質(zhì)結(jié)構(gòu)都預(yù)測(cè)出來,我們就可以從結(jié)構(gòu)角度觀察,疾病患者與正常人之間基因組變異的差異,判斷和疾病相關(guān)關(guān)鍵位點(diǎn)的位置,是位于蛋白質(zhì)表面,還是內(nèi)部區(qū)域,是否對(duì)蛋白質(zhì)整體結(jié)構(gòu)造成破壞,還是對(duì)蛋白質(zhì)相互作用接觸表面造成破壞。從結(jié)構(gòu)角度判斷,哪些變異對(duì)疾病比較關(guān)鍵,這對(duì)尋找新靶點(diǎn)很有幫助。
黃昆(主持人):Alphafold2另一個(gè)應(yīng)用領(lǐng)域就是生物制藥,在生物制藥領(lǐng)域,它的方法或結(jié)果如何應(yīng)用,AI怎么樣才能夠和制藥流程結(jié)合起來?
許東:制藥過程相當(dāng)復(fù)雜,首先我們需要知道哪些是比較重要的問題。
例如單細(xì)胞技術(shù),通過單細(xì)胞技術(shù),我們可以了解細(xì)胞里DNA、RNA、小分子、蛋白質(zhì)等物質(zhì),這是一個(gè)數(shù)據(jù)量大、且值得攻關(guān)的項(xiàng)目,會(huì)有很多AI研究的機(jī)會(huì)。
而且,單細(xì)胞技術(shù)還與很多結(jié)構(gòu)問題相關(guān),其能夠通過結(jié)構(gòu)來理解細(xì)胞之間相互作用,理解細(xì)胞表面受體與靶蛋白質(zhì)相互作用。
這些過程理解可以對(duì)制藥產(chǎn)生很大幫助,例如新藥研發(fā)、癌癥相互作用的阻斷,這都可以應(yīng)用AI,有很大應(yīng)用價(jià)值。
其實(shí)很多時(shí)候,我們雖然找到很好的算法,但這個(gè)算法到底能夠把整個(gè)問題推進(jìn)到什么程度,還需要我們?nèi)ピu(píng)估。
目前,我自己也在做阿爾茲海默癥研究,有一個(gè)前年投入3600萬美元的阿爾茲海默癥藥品研發(fā)中心,在研究中光是前期藥物靶點(diǎn)尋找,我們就遇到很多問題,更不用說后面真正成藥。
所以,我覺得生物制藥這個(gè)問題牽涉到很多內(nèi)容,一方面是技術(shù)和算法上問題,另外一方面是整個(gè)流程的結(jié)合。
黃昆(主持人):從研究角度來看,Alphafold的出現(xiàn)到底是給行業(yè)增加了門檻,還是減少了門檻?這會(huì)讓越來越多人進(jìn)入這個(gè)領(lǐng)域,還是會(huì)造成研究壟斷性局面的出現(xiàn)?
張陽(yáng):從某些方面來講,門檻是降低的。
因?yàn)槿魏味畽C(jī)器學(xué)習(xí)的人都會(huì)躍躍欲試,著手研究這個(gè)問題,把已知蛋白質(zhì)序列和結(jié)構(gòu)放到神經(jīng)網(wǎng)絡(luò)里嘗試,如何預(yù)測(cè)蛋白結(jié)構(gòu)。
像傳統(tǒng)的蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè),我們一般都要有背景準(zhǔn)備,需要了解物理化學(xué)知識(shí),設(shè)計(jì)蛋白質(zhì)中包含的相互作用力場(chǎng),分子動(dòng)力學(xué),以及蒙特卡洛模擬知識(shí),通過尋找最低自由能態(tài)折疊蛋白結(jié)構(gòu)。
甚至像同源建模和threading這些簡(jiǎn)單方法,我們也都必須了解序列比對(duì)算法,以及物理、化學(xué)知識(shí)幫助模型優(yōu)化。
但這些現(xiàn)在都不需要了,所以門檻是降低了。
至于是否讓更多人進(jìn)入這個(gè)領(lǐng)域,或者是否造成一家獨(dú)大局面,我更傾向于前者。
首先,AlphaFold2的成功給這個(gè)領(lǐng)域做了一個(gè)巨大且免費(fèi)的廣告,讓大家關(guān)注這個(gè)領(lǐng)域,也讓大家意識(shí)到這個(gè)問題的重要性。
其次,因?yàn)闄C(jī)器學(xué)習(xí)把結(jié)構(gòu)預(yù)測(cè)門檻降低,所以會(huì)有越來越多人加入到這個(gè)領(lǐng)域。
許錦波:我補(bǔ)充一點(diǎn),門檻降低或升高,要針對(duì)不同的人、不同研究組。
對(duì)于機(jī)器學(xué)習(xí)背景門檻是降低了,很多背景知識(shí)不需要學(xué)習(xí),只要有輸入、輸出就可以放在神經(jīng)網(wǎng)絡(luò)訓(xùn)練。
但訓(xùn)練這些模型需要更多的計(jì)算資源,大量GPU和算法工程師,一些小lab不一定會(huì)有這么多計(jì)算資源,也雇不起很好的算法工程師。
所以,對(duì)于生物背景或非計(jì)算機(jī)背景,門檻則不一定降低。
他們以前沒有可以在網(wǎng)上一些下載代碼,稍微改一改就可以用,但現(xiàn)在他們需要重新設(shè)計(jì)新模型,新算法,這樣的門檻肯定是升高了。
而且,如果他們繼續(xù)讓以前方法進(jìn)行研究,肯定做不過現(xiàn)在的深度學(xué)習(xí),所以他們可能必須面臨改變。
黃昆(主持人):盡管進(jìn)入門檻降低,但如果想要在行業(yè)持續(xù)發(fā)展,是否還需要生物、物理、化學(xué)等學(xué)科知識(shí)儲(chǔ)備?
許東:大家要知道,蛋白質(zhì)預(yù)測(cè)是一個(gè)系統(tǒng)問題,不僅需要算法,還必須對(duì)蛋白質(zhì)有一定了解。從這點(diǎn)來看,我覺得如果新團(tuán)隊(duì)目標(biāo)是打敗Alpha fold2,那機(jī)會(huì)非常小。但我認(rèn)為,肯定會(huì)有更多l(xiāng)ab參與進(jìn)來。
其實(shí)在Alpha fold2出來之后,就有很多合作者找過我,他們一方面表示自己也有這樣的工具,另一方面也想解決類似相關(guān)的問題。
而且,其實(shí)算力和工具已經(jīng)不是現(xiàn)在的研究瓶頸,算法在谷歌co-lab上就可以全部安裝完畢,網(wǎng)上提交序列,十幾分鐘就能預(yù)測(cè)出一般的蛋白質(zhì),這大大增加生物實(shí)驗(yàn)室在結(jié)構(gòu)預(yù)測(cè)的應(yīng)用。
卜東波:第一,Alphafold2一個(gè)很大意義在于使大家相信結(jié)構(gòu)預(yù)測(cè)的結(jié)果。
過去我們總碰到其他領(lǐng)域說結(jié)構(gòu)預(yù)測(cè)結(jié)果不可信,最后還得指望電鏡等實(shí)驗(yàn)解析結(jié)構(gòu)。
Alpha fold2的成功使得大家相信計(jì)算、相信預(yù)測(cè),鼓勵(lì)更多人嘗試用AI涉足結(jié)構(gòu)生物學(xué)相關(guān)研究,正如張陽(yáng)老師所說,會(huì)有很多l(xiāng)ab進(jìn)入這個(gè)領(lǐng)域。
第二,雖然對(duì)具體物理、生化知識(shí)要求沒有那么高,但網(wǎng)絡(luò)設(shè)計(jì)過程,還需要對(duì)蛋白質(zhì)有深入理解。
例如在Alphafold2結(jié)構(gòu)圖中,從MSA,到Distance和pair presentation中間有一個(gè)雙向箭頭。
這個(gè)箭頭背后反映我們對(duì)結(jié)構(gòu)認(rèn)知有可能不準(zhǔn),需要通過距離來修正,也就是不僅從MSA來做pair presentation,還可以用pair presentation來修正MSA。
Alphafold2文章里就強(qiáng)調(diào)MSA和pair presentation之間一致性。這么一個(gè)小箭頭,背后代表的是對(duì)蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)深刻認(rèn)識(shí)。雷鋒網(wǎng)雷鋒網(wǎng)
PS.由于全文篇幅較長(zhǎng),醫(yī)健AI掘金志將講座內(nèi)容分為上、下兩篇。
下篇中,五位專家將著重分析備受期待的AlphaFold2數(shù)據(jù)庫(kù)的未來前景、新的學(xué)術(shù)研究風(fēng)向等“未來話題”。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。