0
本文作者: 李雨晨 | 2020-12-16 10:34 |
盡管,距離Deepmind公司AlphaFold2的橫空出世,已經(jīng)過(guò)去了兩周的時(shí)間,但是圍繞AlphaFold2的討論熱度依然不減。
AlphaFold2是否是完美無(wú)缺,如果不是,它的“勝利”具體體現(xiàn)在哪些項(xiàng)目上?AlphaFold2對(duì)結(jié)構(gòu)生物學(xué)的影響有哪些,哪些方向能受益而加速突破?哪些方向會(huì)受到影響而淡出?學(xué)術(shù)研究者與企業(yè)工程人員該如何分工,進(jìn)一步實(shí)現(xiàn)“產(chǎn)學(xué)融合”的高效轉(zhuǎn)化?
關(guān)于AlphaFold2,太多的問(wèn)題需要解答。
近日,主題為“權(quán)威專家談AlphaFold:DeepMind到底突破了什么?”的圓桌論壇正式舉行。本次主題論壇由圖像計(jì)算與數(shù)字醫(yī)學(xué)國(guó)際研討會(huì)(ISICDM)主辦,雷鋒網(wǎng)、醫(yī)健AI掘金志協(xié)辦。
印第安納大學(xué)醫(yī)學(xué)院副院長(zhǎng)、AIMBE Fellow黃昆教授擔(dān)任主持,密蘇里大學(xué)教授、AAAS/AIMBE Fellow許東教授、密歇根大學(xué)教授、DeLano獎(jiǎng)得主和I-TASSER算法發(fā)明人張陽(yáng)教授、芝加哥豐田計(jì)算技術(shù)研究所、斯隆獎(jiǎng)得主許錦波教授共同參與討論。
圖像計(jì)算與數(shù)字醫(yī)學(xué)國(guó)際研討會(huì)(ISICDM)自2017年創(chuàng)辦以來(lái),一直是醫(yī)工交叉的前沿陣地,圍繞圖像計(jì)算和數(shù)字醫(yī)學(xué)中的一些重要的理論、算法與應(yīng)用問(wèn)題進(jìn)行學(xué)術(shù)討論,旨在促進(jìn)電子信息(包括計(jì)算機(jī)、自動(dòng)化與生物醫(yī)學(xué)工程)、數(shù)學(xué)和醫(yī)學(xué)等領(lǐng)域?qū)W者的交流與合作,截止至今,ISICDM共邀請(qǐng)到400余位大會(huì)報(bào)告及專題報(bào)告嘉賓。
在今年的ISICDM 2020上, “計(jì)算解剖學(xué)”創(chuàng)始人的Michael I.Miller教授,新加坡國(guó)家科學(xué)院院士、發(fā)展中國(guó)家科學(xué)院院士沈佐偉教授、瑞士工程科學(xué)院院士Michael Unser教授、美國(guó)國(guó)家發(fā)明家科學(xué)院院士王革教授等數(shù)十位嘉賓分別進(jìn)行了主題演講。
黃昆:說(shuō)到蛋白質(zhì)結(jié)構(gòu),了解其結(jié)構(gòu)不僅是為了了解它,還會(huì)將其應(yīng)用于制藥。這就牽扯到蛋白和藥物之間的交互作用。同時(shí),蛋白的結(jié)構(gòu)并非一成不變,是一個(gè)動(dòng)力學(xué)過(guò)程。
那么,AlphaFold2能否擴(kuò)展到分子動(dòng)力學(xué)MDS領(lǐng)域?能否應(yīng)用于蛋白-配體相互作用/對(duì)接,蛋白質(zhì)-蛋白質(zhì)相互作用?能否應(yīng)用于蛋白質(zhì)設(shè)計(jì)呢?
許東:在蛋白設(shè)計(jì)方面,AlphagoFold2能夠比較直接地應(yīng)用。之前應(yīng)用不同序列設(shè)計(jì)出新結(jié)構(gòu)的方法,可能不用改太多就可以完成。
蛋白設(shè)計(jì)的大部分難點(diǎn)不在結(jié)構(gòu)上,而是在生物上。
第二,蛋白的相互作用,我認(rèn)為這一方面的應(yīng)用不會(huì)特別理想。其中一個(gè)原因是,蛋白相互作用的數(shù)據(jù)遠(yuǎn)遠(yuǎn)少于蛋白結(jié)構(gòu)本身的數(shù)據(jù),因此,對(duì)于機(jī)器學(xué)習(xí)來(lái)說(shuō)挑戰(zhàn)性很大。
事實(shí)上,這個(gè)問(wèn)題和蛋白結(jié)構(gòu)本身是很不一樣的問(wèn)題。目前我們組何飛博士和我們系的段曄教授正在進(jìn)行合作,用圖卷積、圖像處理、點(diǎn)云等方法來(lái)探索蛋白相互作用,這個(gè)問(wèn)題在短期內(nèi)難以解決。
更困難的是分子動(dòng)力學(xué)問(wèn)題,這就是顏寧教授所提到的。
我在讀博時(shí),導(dǎo)師讓我研究如何對(duì)分子動(dòng)力學(xué)做的非???,能夠更大尺度迭代。這個(gè)問(wèn)題花費(fèi)了我大量時(shí)間,但是沒(méi)有成功。
機(jī)器學(xué)習(xí)解決分子動(dòng)力學(xué)的問(wèn)題離我們非常遙遠(yuǎn),我們也進(jìn)行了一些簡(jiǎn)單的探索。吉林大學(xué)韓葳葳教授組一個(gè)訪問(wèn)學(xué)生朱鏡璇與我們組的王玨鑫博士目前進(jìn)行了一些工作,用這些所謂Neural relational inference——一種圖神經(jīng)網(wǎng)絡(luò)的方式,進(jìn)行了分子動(dòng)力學(xué)過(guò)程的模擬實(shí)驗(yàn)。
我們可以看到,所謂長(zhǎng)程作用的變構(gòu)效應(yīng)是能夠被預(yù)測(cè)的,但是這離分子動(dòng)力學(xué)大幅度加速還差得很遠(yuǎn),不過(guò)通過(guò)這個(gè)過(guò)程,
我們發(fā)現(xiàn)傳統(tǒng)動(dòng)力學(xué)背后的驅(qū)動(dòng)變量數(shù)維度很低。因此,我們認(rèn)為從理論上來(lái)說(shuō)大幅度加速是有可能的,但是需要很漫長(zhǎng)的道路去探索。
黃昆:下一個(gè)問(wèn)題,關(guān)于對(duì)結(jié)構(gòu)生物學(xué)的影響 ,哪些方向能受益而加速突破?哪些方向會(huì)受影響而淡出?結(jié)構(gòu)生物學(xué)的研究能夠怎樣幫助AlphaFold2改進(jìn)?我們想請(qǐng)?jiān)S錦波教授來(lái)評(píng)論一下。
許錦波:用計(jì)算的方法來(lái)做蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè),我覺(jué)得影響會(huì)越來(lái)越大。拿解結(jié)構(gòu)來(lái)說(shuō),我不認(rèn)為解結(jié)構(gòu)的人在未來(lái)會(huì)被拋棄?,F(xiàn)在來(lái)預(yù)測(cè)的數(shù)據(jù)相對(duì)來(lái)說(shuō)比較簡(jiǎn)單,比如預(yù)測(cè)單鏈。但是單鏈有時(shí)候也無(wú)法準(zhǔn)確預(yù)測(cè),目前僅有60%的預(yù)測(cè)比較好。但如果僅僅簡(jiǎn)單的解結(jié)構(gòu),以后可以直接用軟件去解決。
同時(shí),AlphaFold2可以用來(lái)提高效率,便于研究者專注于研究結(jié)構(gòu)、功能。做單鏈的蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè),這方面的人會(huì)變少。
但是軟件不是萬(wàn)能的,很多問(wèn)題依舊無(wú)法用軟件解決,畢竟還有40%的蛋白質(zhì)的結(jié)構(gòu)預(yù)測(cè)不是非常準(zhǔn)確。 且現(xiàn)在效率也存在問(wèn)題。當(dāng)下,我們還不明確AlphaFold2如何處理數(shù)據(jù),會(huì)不會(huì)開(kāi)源等,目前看來(lái)可能性不大。所以,至少在學(xué)術(shù)界需要一個(gè)與之相競(jìng)爭(zhēng)的軟件,不能壟斷。
因此,在結(jié)構(gòu)預(yù)測(cè)這個(gè)方向,目前還有許多問(wèn)題值得研究,并不會(huì)造成所有人失業(yè)。
當(dāng)然,可能會(huì)有較多的人轉(zhuǎn)向其他相關(guān)問(wèn)題的研究。就拿計(jì)算結(jié)構(gòu)生物學(xué)來(lái)說(shuō),可研究的問(wèn)題還是很多,比如說(shuō)兩個(gè)蛋白、多個(gè)蛋白如何結(jié)合、蛋白質(zhì)配體相互作用、蛋白質(zhì)制藥等發(fā)展比較快。因?yàn)槟鼙容^準(zhǔn)確地拿到結(jié)構(gòu),這些方向的未來(lái)發(fā)展會(huì)比較快。
另一方面,解結(jié)構(gòu)的人對(duì)我們從事計(jì)算研究的人員信任程度也會(huì)提升,以前我們做出來(lái)的結(jié)構(gòu)可能對(duì)其他研究人員來(lái)說(shuō)用處不大,但是軟件質(zhì)量提升后,他們會(huì)慢慢喜歡用我們這些軟件預(yù)測(cè)出來(lái)的數(shù)據(jù),便于他們研究蛋白質(zhì)及功能。
張陽(yáng):我覺(jué)得AlphaFold2的成功,并不會(huì)讓很多人轉(zhuǎn)行或者受影響而淡出。
它的成功首先會(huì)刺激和促進(jìn)蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)領(lǐng)域整體精度的提高。對(duì)結(jié)構(gòu)生物學(xué)來(lái)講,高精度的蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)會(huì)幫助很多結(jié)構(gòu)生物學(xué)家更快更好地開(kāi)展他們的研究工作。
比如X光衍射實(shí)驗(yàn),這個(gè)實(shí)驗(yàn)很重要的一步是做分子置換來(lái)確定X光衍射的相位,而成功的分子置換要求有精確的初始結(jié)構(gòu)模型。如果計(jì)算機(jī)能夠快速準(zhǔn)確預(yù)測(cè)蛋白質(zhì)地初始模型,這會(huì)大大提高X光衍射實(shí)驗(yàn)的效率。
對(duì)于冷凍電鏡的實(shí)驗(yàn),好的初始模型有利于蛋白質(zhì)構(gòu)型和電子密度圖的正確疊加,因而有利于下一步地蛋白結(jié)構(gòu)的優(yōu)化。從這些方面來(lái)講,精確地結(jié)構(gòu)預(yù)測(cè)對(duì)結(jié)構(gòu)生物學(xué)不是一個(gè)替代的問(wèn)題,它們可以相互促進(jìn)。
好的蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)算法可以大幅度提高傳統(tǒng)結(jié)構(gòu)生物學(xué)實(shí)驗(yàn)的精度和速度。做結(jié)構(gòu)生物學(xué)的科學(xué)家其目的并不只是解結(jié)構(gòu),他們只是把結(jié)構(gòu)當(dāng)成工具,來(lái)了解蛋白質(zhì)有什么樣的功能、在細(xì)胞運(yùn)行過(guò)程中有什么生物學(xué)的意義。
所以從這方面來(lái)講,AlphaFold2不可能讓人們失業(yè),或者淡出自己的行業(yè)。
黃昆:如果AlphaFold2不開(kāi)源,學(xué)術(shù)界有沒(méi)有成立開(kāi)源組織的計(jì)劃?工業(yè)界一些大公司在算法和算力方面都占有絕對(duì)優(yōu)勢(shì),那么學(xué)術(shù)研究前進(jìn)的方向在哪里?對(duì)于高校中的AI研究人員有什么建議?對(duì)于生物研究人員有什么建議?工業(yè)界一些大公司在算法和算力方面都占有絕對(duì)優(yōu)勢(shì),對(duì)整個(gè)學(xué)術(shù)界的影響會(huì)是什么?如何“擺正”學(xué)術(shù)界和工業(yè)界的關(guān)系?
張陽(yáng):第一,如果AlphaFold2不開(kāi)源,學(xué)術(shù)界有沒(méi)有成立開(kāi)源組織的計(jì)劃?
按照谷歌以往的慣例(比如alphaGo和alphaFold),我不相信Google DeepMind會(huì)分享他們的源代碼,甚至建立共享服務(wù)器。但是,我相信學(xué)術(shù)界很快就會(huì)開(kāi)發(fā)出新的替代品。我說(shuō)的替代品并不是做一個(gè)和谷歌AlphaFold2一模一樣的軟件。雖然谷歌提出了一些新的算法,但是,替代品并不是完全按照谷歌的新算法,可能會(huì)出現(xiàn)新的不同地算法來(lái)解決同樣的問(wèn)題。
谷歌的主要貢獻(xiàn)不是算法或者技術(shù)上,我覺(jué)得他們這次成功的一個(gè)主要貢獻(xiàn)是在于證明蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)這個(gè)問(wèn)題可以解決。
這并不是一個(gè)簡(jiǎn)單的問(wèn)題。做過(guò)蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)的人都知道,蛋白質(zhì)結(jié)構(gòu)是由序列決定的。但是結(jié)構(gòu)和序列的關(guān)系非常復(fù)雜。有些結(jié)構(gòu)長(zhǎng)得非常奇怪,奇怪到你會(huì)懷疑這個(gè)結(jié)構(gòu)有沒(méi)有物理的道理,會(huì)不會(huì)是大自然的一次巧合的怪胎,或者說(shuō)會(huì)不會(huì)是物理學(xué)上的確定唯一的解。
在這次CASP14中,有些蛋白質(zhì)相互纏繞,長(zhǎng)的非常奇怪,結(jié)果AlphaFold2都可以正確的預(yù)測(cè)---至少在Fold level是正確的。這在概念上是一個(gè)重要的突破,一件相當(dāng)重要的成就。當(dāng)我們解決一個(gè)問(wèn)題時(shí),預(yù)先知道這個(gè)問(wèn)題有答案和不知道這個(gè)問(wèn)題有答案,那解決的難度是不同的。所以,在這個(gè)問(wèn)題上,谷歌是有貢獻(xiàn)的。
這個(gè)貢獻(xiàn)和CASP13有相似的效應(yīng)。CASP13之前,我們很多人都知道深度學(xué)習(xí)對(duì)蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)有幫助。但是只有在CASP13之后,世界才開(kāi)始關(guān)注深度學(xué)習(xí)對(duì)蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)這一領(lǐng)域的影響,這是因?yàn)楣雀璋堰@個(gè)結(jié)果顯示給大家,讓大家覺(jué)得原來(lái)機(jī)器學(xué)習(xí)有如此大的威力。
回到你的問(wèn)題,我相信學(xué)術(shù)界應(yīng)該很快讓這項(xiàng)技術(shù)開(kāi)源使用,幫助整體生物醫(yī)學(xué)以及公眾健康研究的發(fā)展。
第二個(gè)問(wèn)題,工業(yè)界一些大公司在算法和算力方面都占有絕對(duì)優(yōu)勢(shì),那么學(xué)術(shù)研究前進(jìn)的方向在哪里?對(duì)于高校中的AI研究人員有什么建議?對(duì)于生物研究人員有什么建議?
剛才談到,AlphaFold2接近解決了單結(jié)構(gòu)域蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)的問(wèn)題。但是,這只是問(wèn)題的一個(gè)方面,還有很多未知的問(wèn)題需要解決。
例如,蛋白質(zhì)折疊的動(dòng)力學(xué)問(wèn)題,純粹用深度學(xué)習(xí),目前似乎沒(méi)辦法解決,因?yàn)槲覀冊(cè)赑DB庫(kù)中看到都是蛋白質(zhì)折疊到最后的穩(wěn)定結(jié)構(gòu),它不能提供大量的樣本供計(jì)算機(jī)來(lái)學(xué)習(xí)蛋白質(zhì)折疊的中間過(guò)程。所以,蛋白質(zhì)折疊的物理學(xué)規(guī)律,蛋白質(zhì)和蛋白質(zhì)之間相互作用等等,都是和蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)相關(guān)的,亟待解決的未知問(wèn)題。
在CASP會(huì)議最后一天,DeepMind的CEO Hassabis,提到一個(gè)嘗試,我覺(jué)得非常有趣。
大家知道,在AlphaGo的圍棋游戲軟件開(kāi)發(fā)中,他們有兩個(gè)版本。第一個(gè)版本是通過(guò)從人類十幾萬(wàn)張棋譜學(xué)習(xí)怎么下棋,這是和李世石比賽的那個(gè)版本。第二個(gè)版本叫做AlphaGo Zero,它完全拋棄人類的棋譜,直接從圍棋的規(guī)則出發(fā)進(jìn)行自我學(xué)習(xí)。第二個(gè)版本比第一個(gè)版本要強(qiáng)很多。
Hassabis提到在準(zhǔn)備AlphaFold2的時(shí)候,他們也試用了這個(gè)想法,試圖不用PDB數(shù)據(jù)庫(kù)當(dāng)中人類解析的結(jié)構(gòu)來(lái)學(xué)習(xí)蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè),而是從基本的物理規(guī)律出發(fā)進(jìn)行自我學(xué)習(xí)探索。他們似乎取得了一定進(jìn)展,但是與AlphaFold還有一定距離。
我認(rèn)為這是非常有意義的嘗試,可能代表下一步的研究發(fā)展方向。這類似于要對(duì)AlphaGo Zero輸入圍棋的規(guī)則,我們要對(duì)機(jī)器學(xué)習(xí)網(wǎng)絡(luò)輸入蛋白質(zhì)折疊的物理規(guī)則,但是蛋白質(zhì)折疊的規(guī)則目前尚不明晰。
如果Alphafold Zero能夠做這件事,我們可能就真正學(xué)到了蛋白質(zhì)折疊的物理規(guī)律,這將一個(gè)更加令人興奮的成就,遠(yuǎn)比現(xiàn)在的AlphaFold2更加令人興奮。
另一方面來(lái)講,它甚至可以讓我們預(yù)測(cè)出我們?cè)葟奈匆?jiàn)過(guò)的蛋白質(zhì)——這些蛋白質(zhì)的結(jié)構(gòu)不是我們數(shù)據(jù)庫(kù)里面已經(jīng)解構(gòu)的,這給人類設(shè)計(jì)自然界從來(lái)沒(méi)有產(chǎn)生過(guò)的,全新的蛋白提供重要的可能性。
如果有這樣一個(gè)AlphaFold Zero的實(shí)現(xiàn),也會(huì)在蛋白質(zhì)設(shè)計(jì)或者蛋白質(zhì)藥物設(shè)計(jì)領(lǐng)域產(chǎn)生巨大的影響。
您的最后一個(gè)問(wèn)題,工業(yè)界一些大公司在算法和算力方面都占有絕對(duì)優(yōu)勢(shì),對(duì)整個(gè)學(xué)術(shù)界的影響會(huì)是什么?如何“擺正”學(xué)術(shù)界和工業(yè)界的關(guān)系?
這是一個(gè)重要問(wèn)題。我覺(jué)得工業(yè)界對(duì)解決工程問(wèn)題的確有它獨(dú)有的優(yōu)勢(shì),可以集中人力和財(cái)力攻關(guān)一件事情。學(xué)術(shù)界是對(duì)科學(xué)更加感興趣,就是不僅要知道問(wèn)題如何解決,還要知道為什么要這樣解決,所謂知其然知其所以然。
就蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)來(lái)講,雖然谷歌用深度學(xué)習(xí),’暴力’地解決了這個(gè)問(wèn)題的工程學(xué)方面,但是科學(xué)上未知的問(wèn)題還很多。
我們都知道,蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)可以分成從頭預(yù)測(cè)和同源模型預(yù)測(cè),但是從頭預(yù)測(cè)遠(yuǎn)沒(méi)有基于模板的預(yù)測(cè)精準(zhǔn)。在早期CASP比賽時(shí),每一次都會(huì)有一些科學(xué)家,比如Cornell大學(xué)的Scheraga教授等,堅(jiān)持不用模板,只用物理的辦法來(lái)求解這個(gè)問(wèn)題。當(dāng)然,他們的成績(jī)或許不理想,但我覺(jué)得這是一種對(duì)科學(xué)的追求精神,值得尊重,這也是學(xué)界解決問(wèn)題的科學(xué)態(tài)度。
總體來(lái)講,我很高興看到谷歌對(duì)這個(gè)問(wèn)題的成就。但是學(xué)術(shù)界應(yīng)該放開(kāi)心態(tài),接納利用這個(gè)成果,來(lái)幫助我們解決更重要的科學(xué)上的問(wèn)題。AlphaFold2并不是末日,而是開(kāi)始。
許錦波:學(xué)術(shù)界和產(chǎn)業(yè)界的矛盾在計(jì)算機(jī)系更加普遍,很多計(jì)算機(jī)系的研究都要落后于大公司。
大公司普遍在人力和資源上要比學(xué)校強(qiáng)很多,大公司可以招聘到很多頂尖人才長(zhǎng)時(shí)間做研究,而學(xué)校教授團(tuán)隊(duì)都是一些剛剛?cè)腴T(mén)的學(xué)生,創(chuàng)新成果產(chǎn)出上學(xué)?,F(xiàn)在總體上落后于大公司。
但學(xué)術(shù)機(jī)構(gòu)也不是完全處于下風(fēng),深度學(xué)習(xí)領(lǐng)域的三巨頭都是來(lái)自于學(xué)校,在學(xué)校里堅(jiān)持做研究,才一點(diǎn)點(diǎn)取得成功。但開(kāi)端之后,新的模型、新的算法又都是產(chǎn)業(yè)界走在前面,例如DeepMind。現(xiàn)在的機(jī)器學(xué)習(xí)領(lǐng)域,產(chǎn)業(yè)界影響肯定更大一些。
學(xué)校也有自己的好處,例如思想上比較自由,可以去想、去做風(fēng)險(xiǎn)很高,別人還沒(méi)有涉及的純學(xué)術(shù)問(wèn)題,將許多問(wèn)題率先從概念角度理清。
我覺(jué)得,學(xué)者不應(yīng)該和大公司在產(chǎn)業(yè)上硬碰硬,兩者在科學(xué)研究和產(chǎn)業(yè)轉(zhuǎn)化上應(yīng)該進(jìn)行互補(bǔ)。
黃昆:這些矛盾和我們AI研究比賽和試驗(yàn)方向的評(píng)價(jià)機(jī)制也有很大關(guān)系,一味追求準(zhǔn)確率就是在和產(chǎn)業(yè)界競(jìng)爭(zhēng)。另一方面,不考慮算力的情況下進(jìn)行準(zhǔn)確率對(duì)比機(jī)制,也導(dǎo)致很多有潛力的算法被提早排除。那些新的算法、新的理論在初始階段,算力還有限的情況下,精準(zhǔn)度也不高,可能更需要學(xué)術(shù)界去關(guān)注。
許東:工業(yè)界并沒(méi)有和學(xué)術(shù)界進(jìn)行全方面PK。
以我們生物信息學(xué)為例,目前研究的算法問(wèn)題有成百上千個(gè),里面產(chǎn)業(yè)界只研究和涉及其中的幾個(gè)?,F(xiàn)在看到產(chǎn)業(yè)界在蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)這個(gè)成果很轟動(dòng),但其他像RNA三級(jí)結(jié)構(gòu)之類能不能用深度學(xué)習(xí)解決的學(xué)術(shù)問(wèn)題,產(chǎn)業(yè)界還完全沒(méi)有涉及。
許多問(wèn)題并不像蛋白結(jié)構(gòu)這么大,產(chǎn)業(yè)界投入產(chǎn)出比也不明顯,學(xué)術(shù)界做這類問(wèn)題就非常適合。
黃昆:人工智能對(duì)基礎(chǔ)科研的輔助作用,對(duì)于中國(guó)生物醫(yī)藥產(chǎn)業(yè)的追趕甚至趕超有沒(méi)有一定的啟示?
張陽(yáng):在醫(yī)藥研發(fā)過(guò)程中,前期主要的一部分工作就是找到靶蛋白,之后設(shè)計(jì)新的化合物或其他分子來(lái)調(diào)節(jié)靶蛋白的功能。其中,了解靶蛋白的原子結(jié)構(gòu),對(duì)靶蛋白地尋找以及新化合物地設(shè)計(jì),都很重要。
比如,我們的蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)軟件I-TASSER就已經(jīng)被多家美國(guó)前十的醫(yī)藥公司購(gòu)買(mǎi),他們購(gòu)買(mǎi)I-TASSER地目的,就是用它在預(yù)測(cè)各種靶蛋白的空間結(jié)構(gòu)?,F(xiàn)在AlphaFold2在結(jié)構(gòu)預(yù)測(cè)方面的巨大進(jìn)展,應(yīng)該使得醫(yī)藥公司對(duì)幾乎所有的靶蛋白都能夠進(jìn)行比較精確的結(jié)構(gòu)預(yù)測(cè),這是AlphaFold2對(duì)藥物產(chǎn)業(yè)的一個(gè)直接的影響。
在藥物研發(fā)過(guò)程中,另外一個(gè)重點(diǎn)就是了解候選藥物分子和靶蛋白的相互作用關(guān)系。這還需要新的AI技術(shù)去突破,可能也是包括谷歌在內(nèi)的產(chǎn)業(yè)界和學(xué)術(shù)界未來(lái)研究的新目標(biāo)。
所以,深度學(xué)習(xí)未來(lái)肯定會(huì)進(jìn)一步改變傳統(tǒng)藥物的研發(fā)過(guò)程,這種改變會(huì)是革命性的。
許東:我也簡(jiǎn)單舉幾個(gè)例子。像癌癥里面的癌細(xì)胞蛋白變異,過(guò)去這種變異研究都是從序列出發(fā)。未來(lái)如果AI在結(jié)構(gòu)預(yù)測(cè)的非常準(zhǔn)確,就可以用于大規(guī)模的癌細(xì)胞蛋白變異預(yù)測(cè),理解癌癥,進(jìn)行藥物開(kāi)發(fā)。
其次,小分子藥物設(shè)計(jì),像研發(fā)新冠病毒的小分子藥物,這種病毒蛋白或細(xì)菌蛋白,變異往往非常多,AI結(jié)構(gòu)預(yù)測(cè)如果也同樣很精準(zhǔn),就能更容易找到新小分子藥物對(duì)不同變異都有效果。這些都是很實(shí)在的應(yīng)用。
黃昆:一個(gè)全新的氨基酸序列,怎樣評(píng)判AI預(yù)測(cè)的結(jié)構(gòu)是不是靠譜?這種沒(méi)有標(biāo)準(zhǔn)答案的新結(jié)構(gòu)是否可以用能量穩(wěn)定性評(píng)價(jià)質(zhì)量?
許東:這種結(jié)構(gòu)評(píng)價(jià)主要有兩種情況,第一種是將預(yù)測(cè)結(jié)果和真實(shí)結(jié)構(gòu)做比對(duì),第二種是不知道結(jié)構(gòu),評(píng)估預(yù)測(cè)結(jié)果是否可靠。
第一種情況,現(xiàn)在像GDT打分這種評(píng)價(jià)方式,還非常粗獷。
我認(rèn)為終極的評(píng)估還需要考慮更多,例如比對(duì)分子上的氫鍵是否差異或錯(cuò)誤,這次的AlphaFold2肯定還達(dá)不到試驗(yàn)要求的高精度要求。其實(shí)過(guò)去的CASP就很難實(shí)現(xiàn)高精度,我覺(jué)得這次的分析肯定也不是很透徹。
第二種情況,不知道之前結(jié)果,我覺(jué)得DeepMind這次做的還比較好,用Transformer的方式,直接給出一個(gè)打分,這非常有價(jià)值。
黃昆:利用“分子動(dòng)力學(xué)+AI”加速模擬和利用“Knowledge+AI”直接預(yù)測(cè)結(jié)構(gòu)和活性,這兩種方式哪種更有潛力?
許錦波:我覺(jué)得兩種方法并不是對(duì)立,更趨向于互補(bǔ)的關(guān)系。
如果只要簡(jiǎn)單的預(yù)測(cè)分子結(jié)構(gòu),肯定knowledge+AI更有效,它更適合結(jié)構(gòu)預(yù)測(cè)。
但knowledge+AI方法也有短處,本身就是用結(jié)構(gòu)庫(kù)里的數(shù)據(jù)訓(xùn)練出來(lái)的,而結(jié)構(gòu)庫(kù)的大部分結(jié)構(gòu)都是通過(guò)X單晶衍射解出的,所以AI預(yù)測(cè)肯定會(huì)更適用于靜態(tài)結(jié)構(gòu),動(dòng)態(tài)結(jié)構(gòu)效果就會(huì)比較差。
假如希望研究AI+分子動(dòng)力學(xué)的方向,可以在動(dòng)態(tài)結(jié)構(gòu)預(yù)測(cè)方向進(jìn)行嘗試,例如預(yù)測(cè)蛋白質(zhì)動(dòng)態(tài)行為,或者做模擬和代碼的動(dòng)態(tài)分析。兩種方法都有自己更擅長(zhǎng)的方向。
黃昆:以X光衍射成像的經(jīng)驗(yàn)來(lái)看,數(shù)據(jù)的預(yù)處理非常重要,對(duì)最后AI訓(xùn)練結(jié)果影響也非常大,那么對(duì)端到端的預(yù)測(cè)影響有多大?
許錦波:以我的經(jīng)驗(yàn)來(lái)看,數(shù)據(jù)處理是非常重要的,肯定需要花費(fèi)大量的精力在數(shù)據(jù)庫(kù)建設(shè)和完善上。
現(xiàn)在的結(jié)構(gòu)數(shù)據(jù)庫(kù)樣本量還比較小,但肯定也需要進(jìn)行處理。因?yàn)槔锩嬉徊糠职被峥赡軟](méi)有坐標(biāo)、是殘缺的,許多數(shù)據(jù)的來(lái)源也不太一樣,包括NMR、冷凍電鏡、 X-ray。
這次AlphaFold就應(yīng)用了一個(gè)很大的宏基因數(shù)據(jù)組,需要花很多時(shí)間去處理里面的數(shù)據(jù)。因?yàn)橥葱蛄芯褪莵?lái)自于這些序列數(shù)據(jù)庫(kù),如果預(yù)處理過(guò)程中,同源序列都找的不好,肯定會(huì)影響最后預(yù)測(cè)結(jié)果,端到端的數(shù)據(jù)處理同樣也需要花很多精力和時(shí)間。
黃昆:剛才許教授說(shuō)到,在生物學(xué)里面還有幾百個(gè)問(wèn)題都需要應(yīng)用機(jī)器學(xué)習(xí),那么除了這次的蛋白質(zhì)折疊,DeepMind還在布局哪些其他生物技術(shù)方向?
許東:DeepMind這樣的AI技術(shù)在許多生物醫(yī)學(xué)領(lǐng)域都進(jìn)行了嘗試,然而,應(yīng)用在其他的方向其實(shí)并不容易,迄今為止還沒(méi)有太多成功案例。
從計(jì)算機(jī)角度來(lái)看,蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè),是一個(gè)已經(jīng)被定義非常清楚的問(wèn)題,雖然復(fù)雜,但還是屬于弱人工智能問(wèn)題。
而輔助診斷等其他場(chǎng)景,屬于強(qiáng)人工智能問(wèn)題,對(duì)于AI還有很多困難,DeepMind并不是沒(méi)有做這些的方向,而僅僅是還沒(méi)有取得很大成功。
補(bǔ)充提問(wèn):結(jié)構(gòu)只占序列的不到1/1000,今后有了序列很快就可以拿到結(jié)構(gòu)之后,對(duì)于依賴蛋白質(zhì)相互作用網(wǎng)絡(luò)的癌癥和中醫(yī)藥等,有什么影響?
許東:我覺(jué)得幫助會(huì)比較大的。當(dāng)然用蛋白質(zhì)結(jié)構(gòu)來(lái)預(yù)測(cè)蛋白質(zhì)相互作用網(wǎng)絡(luò)現(xiàn)在并不靠譜,但不少蛋白之間我們知道它們有相互作用,可以應(yīng)用它們各自的結(jié)構(gòu)做docking,得到相互作用的結(jié)構(gòu)模式,會(huì)對(duì)促進(jìn)理解癌癥及其相關(guān)藥物的開(kāi)發(fā)。
對(duì)于中醫(yī)我個(gè)人很感興趣,許多中草藥的基因組現(xiàn)在被測(cè)序了,但其中絕大多數(shù)蛋白沒(méi)有被研究,蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)會(huì)幫助我們理解這些蛋白的功能,助力對(duì)中草藥的藥理研究。雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。