丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
醫(yī)療AI 正文
發(fā)私信給劉海濤
發(fā)送

0

五大頂級(jí)學(xué)者的AlphaFold 2論道:破譯結(jié)構(gòu)、開(kāi)源代碼后的產(chǎn)研「大變局」(下篇)

本文作者: 劉海濤 2021-08-21 09:10
導(dǎo)語(yǔ):備受期待的AlphaFold2數(shù)據(jù)庫(kù),是否會(huì)成為專(zhuān)家們打開(kāi)蛋白質(zhì)功能奧秘的金鑰匙?

過(guò)去半個(gè)月,Alphafold2先后兩次沸騰了整個(gè)學(xué)術(shù)圈。

一邊是“AI界年度十大突破”AlphaFold2終于開(kāi)源,登上Nature;

另一邊DeepMind又發(fā)布,堪比人類(lèi)基因組圖譜的,最完整人類(lèi)蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫(kù)。

對(duì)自家的“王者級(jí)成果”,DeepMind聯(lián)合創(chuàng)始人、首席執(zhí)行官德米斯·哈薩比斯(Demis Hassabis)也自豪表示:“這是迄今為止AI在推動(dòng)科學(xué)進(jìn)步方面做出的最大貢獻(xiàn),我覺(jué)得這么說(shuō)一點(diǎn)兒也不夸張。”

但事實(shí)真是如此嗎?

爆火的AlphaFold2是否被期望過(guò)高?后AlphaFold2時(shí)代,蛋白質(zhì)結(jié)構(gòu)領(lǐng)域是否會(huì)出現(xiàn)學(xué)術(shù)研究的“軍備競(jìng)賽”?AlphaFold2代碼開(kāi)源,是否為各大藥企和AI制藥企業(yè)創(chuàng)造了一次最佳的超車(chē)機(jī)會(huì)?備受期待的AlphaFold2數(shù)據(jù)庫(kù),是否會(huì)成為專(zhuān)家們打開(kāi)蛋白質(zhì)功能奧秘的金鑰匙?

近日,主題為“權(quán)威專(zhuān)家再談AlphaFold 2:AI是否會(huì)帶來(lái)結(jié)構(gòu)生物學(xué)的「大革命」?”的圓桌論壇正式舉行。本次主題論壇由圖像計(jì)算與數(shù)字醫(yī)學(xué)國(guó)際研討會(huì)(ISICDM)主辦,雷鋒網(wǎng)、醫(yī)健AI掘金志協(xié)辦。

印第安納大學(xué)醫(yī)學(xué)院副院長(zhǎng)、AIMBE Fellow黃昆教授擔(dān)任主持,密蘇里大學(xué)教授、AAAS/AIMBE Fellow許東教授、密歇根大學(xué)教授、DeLano獎(jiǎng)得主和I-TASSER算法發(fā)明人張陽(yáng)教授、芝加哥豐田計(jì)算技術(shù)研究所、斯隆獎(jiǎng)得主許錦波教授,中科院計(jì)算機(jī)所研究員卜東波教授共同參與了討論。

在《五大頂級(jí)學(xué)者的AlphaFold2論道:破譯結(jié)構(gòu)、開(kāi)源代碼后的產(chǎn)研「大變局」(上篇)》中,幾位嘉賓共同深究AlphaFold2這次成果的技術(shù)細(xì)節(jié)與意義;

在下篇中,將著重分析AlphaFold2數(shù)據(jù)集,這一重磅成果實(shí)際的科研價(jià)值,以及怎樣拓展到新冠疫苗、新藥研發(fā)等其他領(lǐng)域的未來(lái)話題。

作為本次論壇的主辦方,圖像計(jì)算與數(shù)字醫(yī)學(xué)國(guó)際研討會(huì)(ISICDM)自2017年創(chuàng)辦以來(lái),一直是醫(yī)工交叉的前沿陣地,圍繞圖像計(jì)算和數(shù)字醫(yī)學(xué)中的一些重要的理論、算法與應(yīng)用問(wèn)題進(jìn)行學(xué)術(shù)討論,旨在促進(jìn)電子信息(包括計(jì)算機(jī)、自動(dòng)化與生物醫(yī)學(xué)工程)、數(shù)學(xué)和醫(yī)學(xué)等領(lǐng)域?qū)W者的交流與合作,截止至今,ISICDM共邀請(qǐng)到400余位大會(huì)報(bào)告及專(zhuān)題報(bào)告嘉賓。

以下是主題論壇的現(xiàn)場(chǎng)內(nèi)容,雷鋒網(wǎng)《醫(yī)健AI掘金志》做了不改變?cè)獾木庉嫼驼恚?/strong>

黃昆(主持人):Alphafold2現(xiàn)在開(kāi)放了源代碼,也開(kāi)放了模型預(yù)測(cè)部分,制藥巨頭是否可能會(huì)復(fù)現(xiàn)這些過(guò)程?是否會(huì)對(duì)AI初創(chuàng)企業(yè)造成較大沖擊?

許東:據(jù)說(shuō)DeepMind本來(lái)想把Alpha fold2變成一種商業(yè)模式,但因?yàn)镈avid Baker復(fù)現(xiàn)并開(kāi)源了類(lèi)似成果,所以他們才選擇開(kāi)源,不過(guò)這只是一種說(shuō)法。

我覺(jué)得藥企復(fù)現(xiàn)這些過(guò)程,商機(jī)可能不大,因?yàn)樗麄兒茈y超越Alphafold2模型,也無(wú)法創(chuàng)造更大知名度,小公司要復(fù)現(xiàn)就更加困難。

但現(xiàn)在有很多與結(jié)構(gòu)交叉的AI創(chuàng)業(yè)公司,以生物制藥為例,通過(guò)結(jié)構(gòu)做分子設(shè)計(jì),在中國(guó)、美國(guó)都非?;钴S,確實(shí)有不少商機(jī)。

許錦波:剛好這幾天,我就正在與一個(gè)小公司討論Alpha fold2復(fù)現(xiàn)問(wèn)題。

他們表示,自己在David Baker之前就已經(jīng)復(fù)現(xiàn),他們買(mǎi)了16個(gè)GPU,重新寫(xiě)了訓(xùn)練代碼,最后得出結(jié)果比Alpha fold 2稍微差一點(diǎn)。

所以從算法優(yōu)化或算法簡(jiǎn)化著手,十幾個(gè)GPU,幾個(gè)工程師沒(méi)準(zhǔn)真能復(fù)現(xiàn)出Alpha fold2,盡管結(jié)果會(huì)差一點(diǎn),但不會(huì)差太多。

黃昆(主持人):Baker的3-track逐級(jí)結(jié)構(gòu)約束,還有價(jià)值嗎?

張陽(yáng):Baker這篇論文因?yàn)楹虯lphaFold2一起出來(lái),媒體給了很大關(guān)注。

首先,這篇論文是獨(dú)立的,雖然受到AlphaFold2啟發(fā),但他們的程序在AlphaFold2代碼公布之前,就已經(jīng)完成,不過(guò)算法精度要比后者差一些。

其次,他們的最終模型結(jié)構(gòu)不是端到端,我認(rèn)為這是AlphaFold2的一個(gè)精髓。

Baker實(shí)驗(yàn)室雖然也實(shí)現(xiàn)了部分端到端模型,但結(jié)果甚至還比不上,利用距離和接觸約束的傳統(tǒng)算法,這可能還是算力問(wèn)題,Baker文章也提到過(guò)。

至于3-track算法,我也作過(guò)一個(gè)基準(zhǔn)測(cè)試,結(jié)果要比論文中差一些,不過(guò)要比CASP14上,除了AlphaFold2其他組稍微好一些,我認(rèn)為這種算法顯然代表了一種進(jìn)步。

但從方法學(xué)角度,端到端預(yù)測(cè)更能代表蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)的發(fā)展方向。

黃昆(主持人):蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)僅僅是蛋白質(zhì)折疊的一個(gè)子問(wèn)題,物化知識(shí)在折疊問(wèn)題研究可能才剛剛開(kāi)始?force filed和simulation應(yīng)該是否會(huì)有較大研究?jī)r(jià)值?

許東:自己讀博士的時(shí)候,每天都在做force filed和模擬。

機(jī)器學(xué)習(xí)其實(shí)并不代表物理過(guò)程,物理過(guò)程是通過(guò)force filed的力場(chǎng)來(lái)驅(qū)動(dòng)和折疊,折疊過(guò)程特別復(fù)雜。

而且物理和機(jī)器學(xué)習(xí)模式之間有很大的鴻溝,大家也在探討有沒(méi)有可能通過(guò)大數(shù)據(jù)方式回歸物理模式,把二者聯(lián)系起來(lái)。

但蛋白質(zhì)比物理要復(fù)雜,我們的圖神經(jīng)網(wǎng)絡(luò)是模擬氨基酸之間相互作用,通過(guò)圖神經(jīng)網(wǎng)絡(luò)記錄物理過(guò)程,并不是真實(shí)的物理過(guò)程,而是盡量接近物理過(guò)程,理解物理問(wèn)題。

所以,我認(rèn)為繼續(xù)過(guò)程對(duì)force filed和simulation,可能會(huì)產(chǎn)生比較大的應(yīng)用價(jià)值,但在蛋白質(zhì)上可能需要很長(zhǎng)時(shí)間理解,開(kāi)發(fā)更好的工具。

卜東波:做模擬前會(huì)有一個(gè)很大的障礙,就是我們目前還沒(méi)有標(biāo)準(zhǔn)答案。

剛才許東教授介紹的真實(shí)物理過(guò)程,因?yàn)檎郫B太快,現(xiàn)在還無(wú)法可以知道折疊中間態(tài),而即使是使用深度學(xué)習(xí),我們也首先需要具備標(biāo)簽和正確答案。

和simulation相比,蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)有X-ray、冷凍電鏡做的結(jié)構(gòu)作為標(biāo)準(zhǔn)答案,所以更加容易,但折疊過(guò)程,沒(méi)有真實(shí)物理過(guò)程做標(biāo)準(zhǔn)答案,對(duì)AI訓(xùn)練和驗(yàn)證都是非常大的阻礙。

黃昆(主持人):聯(lián)想起二十年前structure genomics project(結(jié)構(gòu)基因組學(xué)項(xiàng)目)的無(wú)果而終,AlphaFold2數(shù)據(jù)庫(kù)會(huì)不會(huì)成為一個(gè)科技泡沫?

張陽(yáng):“科技泡沫”是個(gè)值得注意的現(xiàn)象,很多科學(xué)熱點(diǎn)開(kāi)始被人們寄予厚望,最終發(fā)現(xiàn)是一場(chǎng)泡沫,這樣的例子很多很多。

回答這個(gè)問(wèn)題之前,我先介紹一下AlphaFold2數(shù)據(jù)庫(kù)。

上個(gè)月,Deepmind接連在Nature上發(fā)表了兩篇論文:第一篇論文,關(guān)于AlphaFold2的算法,這是很重要的一篇論文;

第二篇論文,把AlphaFold2程序應(yīng)用到人體基因組,把人體基因組表達(dá)的所有蛋白質(zhì)結(jié)構(gòu),都用AlphaFold2預(yù)測(cè)出來(lái)。

DeepMind接下來(lái)計(jì)劃把這項(xiàng)工作推廣到其它20種關(guān)鍵生物體中,把目前已知的1億多條蛋白質(zhì)結(jié)構(gòu)都預(yù)測(cè)出來(lái),構(gòu)建成一個(gè)數(shù)據(jù)庫(kù),和全球科學(xué)家免費(fèi)共享。

他們?cè)O(shè)想有了這個(gè)數(shù)據(jù)庫(kù)之后,生物學(xué)家只要有新蛋白質(zhì)就可以立馬找到,并利用AlphaFold2預(yù)測(cè)結(jié)構(gòu)。

這個(gè)成績(jī)對(duì)于外行來(lái)說(shuō),可能特別激動(dòng)人心,甚至DeepMindCEO也表示,這將是他科研生涯最重要的一項(xiàng)成就。

但我認(rèn)為第二篇Nature論文,以及結(jié)構(gòu)數(shù)據(jù)庫(kù)概念,對(duì)生物醫(yī)學(xué)的影響會(huì)遠(yuǎn)遠(yuǎn)小于第一篇AlphaFold2算法論文。

第一,基因組結(jié)構(gòu)預(yù)測(cè)數(shù)據(jù)庫(kù)想法并不新穎。AlphaFold2之前,就有很多人做基因組蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)數(shù)據(jù)庫(kù)。

其中最知名的就是Andrej Sali教授的ModBase結(jié)構(gòu)數(shù)據(jù)庫(kù),他們對(duì)UniProt里600萬(wàn)序列都作了結(jié)構(gòu)預(yù)測(cè),包含3000萬(wàn)個(gè)結(jié)構(gòu)模型;其次還有Torsten Schwede教授的Swiss-Model數(shù)據(jù)庫(kù),里面包含200多萬(wàn)結(jié)構(gòu)模型。

此外,Jeffrey Skolnick教授和我在15年前,也建立了一個(gè)人體基因所有G蛋白受體(GPCR)的結(jié)構(gòu)模型數(shù)據(jù)庫(kù)。

以上這些數(shù)據(jù)庫(kù)現(xiàn)在大家還都在引用,但他們的影響力遠(yuǎn)不及后來(lái)組建的在線服務(wù)器。

所以我認(rèn)為,與傳統(tǒng)結(jié)構(gòu)數(shù)據(jù)庫(kù)相比,AlphaFold2數(shù)據(jù)庫(kù)的實(shí)際亮點(diǎn)應(yīng)該是精度,特別是對(duì)非同源序列的精度,是目前為止最為精確的結(jié)構(gòu)模型數(shù)據(jù)庫(kù)。

此外,AlphaFold2數(shù)據(jù)庫(kù)也有幾個(gè)重要的局限:

第一,提供的只是預(yù)測(cè)結(jié)果,這些模型有效性,最終還需要實(shí)驗(yàn)驗(yàn)證和支持;

第二,很多蛋白質(zhì)都會(huì)發(fā)生變異,而且因?yàn)榉g、修飾原因,給定一個(gè)未知蛋白,很少能在現(xiàn)有數(shù)據(jù)庫(kù),找到一模一樣的序列。

因此,很多生物學(xué)家可能還會(huì)依賴(lài)在線服務(wù)器,來(lái)提供高精度蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)。

第三,AlphaFold2數(shù)據(jù)庫(kù)不能提供功能性注解,雖然能提供三維結(jié)構(gòu)預(yù)測(cè),但它不能告訴蛋白質(zhì)在細(xì)胞里做什么,而對(duì)蛋白質(zhì)進(jìn)行功能性注解,其實(shí)是結(jié)構(gòu)生物學(xué)家解析蛋白質(zhì)結(jié)構(gòu)的最主要價(jià)值。

接下來(lái),再談?wù)?0年前的知名項(xiàng)目——Structural Genomics,這個(gè)項(xiàng)目和現(xiàn)在AlphaFold2數(shù)據(jù)庫(kù)有一些共同之處。

大家當(dāng)時(shí)做蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)主要通過(guò)同源建模:對(duì)于未知蛋白質(zhì),如果和它同源的蛋白質(zhì)結(jié)構(gòu)被實(shí)驗(yàn)解出來(lái),那就可以用同源建模方法,構(gòu)建非常精確的模型。

但這種方法,當(dāng)時(shí)面臨一個(gè)問(wèn)題,很多蛋白質(zhì)沒(méi)有并同源實(shí)驗(yàn)結(jié)構(gòu)。

所以Structural Genomics項(xiàng)目,就是把計(jì)算機(jī)同源模建和結(jié)構(gòu)生物學(xué)實(shí)驗(yàn)技術(shù)結(jié)合,把所有基因數(shù)據(jù)庫(kù)結(jié)構(gòu)確定下來(lái)。

為了解決這個(gè)問(wèn)題,人們已經(jīng)把自然界發(fā)現(xiàn)的蛋白質(zhì)序列,按照進(jìn)化關(guān)系分成很多同源家族。對(duì)于一個(gè)家族,只要一個(gè)成員結(jié)構(gòu)已知,該家族其他成員結(jié)構(gòu)也都可以通過(guò)同源建模確定。

所以這個(gè)項(xiàng)目計(jì)劃:第一,找出哪些家族未知;第二,每個(gè)家族挑出一個(gè)成員,用結(jié)構(gòu)生物學(xué)實(shí)驗(yàn)將它結(jié)構(gòu)解析出來(lái)。

如果這個(gè)想法實(shí)現(xiàn),那今后10年或20年內(nèi),所有人體包括自然界蛋白質(zhì)結(jié)構(gòu),都可以用同源建模方法預(yù)測(cè)出來(lái),這在當(dāng)時(shí)是個(gè)很激動(dòng)人心的想法,最早提出是上個(gè)世紀(jì)末,開(kāi)始實(shí)現(xiàn)是2000年。

當(dāng)時(shí)NIGMS(美國(guó)國(guó)家衛(wèi)生院的基礎(chǔ)醫(yī)學(xué)研究所)在資金比較緊缺情況下,第一個(gè)五年計(jì)劃就投資了2.7億美元建Protein Structure Initiative(PSI)。2005年,又追加了3.25億美元,總投資7.6億美元左右。

但最終結(jié)果并不理想。許多蛋白質(zhì)雖然把結(jié)構(gòu)解出來(lái),但沒(méi)有功能性研究,相關(guān)論文也沒(méi)辦法發(fā)表,一般結(jié)構(gòu)生物學(xué)論文,雖然都解結(jié)構(gòu),但更重要是從結(jié)構(gòu)里學(xué)生物知識(shí)。

所以2010年以后,這個(gè)項(xiàng)目就失去了意義,到2015年正式項(xiàng)目終止。

新一代學(xué)生甚至有很多都不知道Structure Genomics這個(gè)項(xiàng)目的存在,很大程度上來(lái)看,2000年的一個(gè)美好愿景,最后變成了一場(chǎng)泡沫。

盡管現(xiàn)在媒體大量宣傳AlphaFold2結(jié)構(gòu)數(shù)據(jù)庫(kù),最終會(huì)對(duì)這個(gè)領(lǐng)域產(chǎn)生多大影響,我個(gè)人還是持謹(jǐn)慎態(tài)度。

許東:我補(bǔ)充一點(diǎn),泡沫可能有兩個(gè)層面。

第一,投資得不到回報(bào),前期政府投了很多錢(qián),最終產(chǎn)出遠(yuǎn)不盡人意,這是一種泡沫,但這個(gè)問(wèn)題目前還不存在。

因?yàn)槌薉eepMind,還沒(méi)有其他小公司去投入大量精力,做這個(gè)模型,而且也沒(méi)有人表示,要去PK DeepMind。

第二種泡沫,未來(lái)的預(yù)期遠(yuǎn)高于結(jié)果。大家仔細(xì)讀讀DeepMind的文章,他們把哪些預(yù)測(cè)準(zhǔn),或不準(zhǔn)都已經(jīng)寫(xiě)出來(lái)了。

但現(xiàn)在很多人的預(yù)期有一些超前了,認(rèn)為AlphaFold2對(duì)所有蛋白、所有情況都預(yù)測(cè)很準(zhǔn),這可能還需要交流,但我覺(jué)得這不會(huì)導(dǎo)致資源大量浪費(fèi)的那種泡沫。

許錦波:我補(bǔ)充一點(diǎn),結(jié)構(gòu)基因組學(xué)不是完全浪費(fèi),它給我們提供了大量訓(xùn)練數(shù)據(jù),不然就沒(méi)有這些機(jī)器學(xué)習(xí)模型。

首先,要感謝產(chǎn)生結(jié)構(gòu)數(shù)據(jù)的實(shí)驗(yàn)生物學(xué)家,還有做大規(guī)?;驕y(cè)序的學(xué)者,他們產(chǎn)生了大量數(shù)據(jù),加快了研發(fā)速度。

結(jié)構(gòu)預(yù)測(cè)現(xiàn)在宣傳有一些過(guò)頭,其實(shí)還有很多問(wèn)題都沒(méi)有解決。一些生物學(xué)家,仔細(xì)分析了現(xiàn)在的結(jié)構(gòu)預(yù)測(cè)結(jié)果也都很失望,因?yàn)橛行┙Y(jié)構(gòu)預(yù)測(cè)結(jié)果還是一團(tuán)亂麻,達(dá)不到生物學(xué)的要求。

黃昆(主持人):如果想實(shí)現(xiàn)復(fù)現(xiàn)訓(xùn)練,Alpha fold2的35萬(wàn)高質(zhì)性回爐準(zhǔn)樣序列,以及MSA和template準(zhǔn)備訓(xùn)練集,千萬(wàn)元量級(jí)算力,會(huì)不會(huì)是一個(gè)很高的門(mén)檻?

許東:這肯定是一個(gè)大工程問(wèn)題。

把模型訓(xùn)練到極致需要一個(gè)很強(qiáng)大的團(tuán)隊(duì),DeepMind這篇文章,第一作者就將近20人。他們的人力并非小實(shí)驗(yàn)室,或一般學(xué)術(shù)實(shí)驗(yàn)室能夠比擬。

而且他們?cè)谒懔蛿?shù)據(jù)等各方面,也要比一般學(xué)術(shù)實(shí)驗(yàn)室強(qiáng)很多。不僅是Alpha fold2,各種大工程問(wèn)題都需要大研究所或大公司。

所以我覺(jué)得,Alphafold2的問(wèn)題現(xiàn)在已經(jīng)做到一定量級(jí),小實(shí)驗(yàn)室不應(yīng)該想著如何在數(shù)據(jù)打敗他們,更應(yīng)該尋找新創(chuàng)新點(diǎn)。

而且并非Alphafold2后,就沒(méi)有事情可做,也并非大家都要和Alpha fold在算力和大數(shù)據(jù)方面死磕。

張陽(yáng):我再列舉一個(gè)具體案例。我們?cè)S多人都已經(jīng)知道AlphFold2的算法,拿到了源代碼,但大家如果真復(fù)現(xiàn)它的成績(jī),往往會(huì)面臨很?chē)?yán)重算力問(wèn)題。

Alphafold2用了128個(gè)頂級(jí)GPU,并行訓(xùn)練了7天,才達(dá)到這個(gè)模擬精度,但大多數(shù)實(shí)驗(yàn)室都沒(méi)有這樣的算力,甚至很多實(shí)驗(yàn)室一個(gè)GPU都沒(méi)有。

如果全部在一個(gè)GPU訓(xùn)練Alpha fold2就需要1000天,而且還是在已知答案前提下,不包括很多試錯(cuò)、調(diào)參、測(cè)試時(shí)間。

模型開(kāi)發(fā)真正耗費(fèi)算力就是反復(fù)試錯(cuò)和不斷探索過(guò)程,這個(gè)過(guò)程往往需要單個(gè)訓(xùn)練幾百到上千倍的時(shí)間,相當(dāng)于在黑暗當(dāng)中探索。

所以對(duì)Alphafold2這樣成績(jī)的復(fù)現(xiàn),將是一個(gè)巨大的算力考驗(yàn)。任何一家學(xué)術(shù)實(shí)驗(yàn)室都很難完成這樣的大規(guī)模數(shù)據(jù)訓(xùn)練、測(cè)試,所以在硬件要求上門(mén)檻很高。

黃昆(主持人):AlphaFold2用來(lái)預(yù)測(cè)Loop區(qū)域有多大的可信度?

張陽(yáng):單獨(dú)來(lái)講,Loop區(qū)域本身并沒(méi)有很穩(wěn)定的結(jié)構(gòu),它的構(gòu)型依賴(lài)于與周邊結(jié)構(gòu)的相互作用。

所以,Loop結(jié)構(gòu)預(yù)測(cè)精度很大程度依賴(lài)于,其它有規(guī)則二級(jí)機(jī)構(gòu)區(qū)域模型的精度,其中就包括Loop兩端距離是否適合等因素。

目前,AlphaFold2的loop精度應(yīng)該比其它算法精度高一些,但這是因?yàn)樗鼈冊(cè)谟幸?guī)則二級(jí)機(jī)構(gòu)的核心區(qū)域預(yù)測(cè)精度比較高。當(dāng)把中心骨架結(jié)構(gòu)都預(yù)測(cè)好之后,再把Loop搭起來(lái),精度就會(huì)比較好一些。

黃昆(主持人):請(qǐng)問(wèn)各位專(zhuān)家團(tuán)隊(duì)后續(xù)有什么樣的計(jì)劃?是否會(huì)繼續(xù)提升現(xiàn)有模型的蛋白質(zhì)預(yù)測(cè)精度?還是會(huì)借助AlphaFold2在其他方向做突破?

許東:我過(guò)去做了十幾年蛋白質(zhì)結(jié)構(gòu)核心開(kāi)發(fā),從2012年開(kāi)始,我就集中在深度學(xué)習(xí)在生物信息學(xué)中應(yīng)用。

我們后續(xù)的計(jì)劃主要有三方面:

第一,蛋白相互作用,例如蛋白對(duì)接,怎么利用深度學(xué)習(xí)選擇更好的對(duì)接結(jié)構(gòu),相關(guān)文章目前已經(jīng)出來(lái),后面還要用更好的方式把蛋白相互作用預(yù)測(cè)出來(lái)。

第二,免疫和疫苗設(shè)計(jì),這些方面有很大意義,我們?cè)谧鰡渭?xì)胞數(shù)據(jù)的時(shí)候,能看到抗原決定部位上不同氨基酸,也能看到抗原上不同多肽序列在結(jié)構(gòu)上怎么去發(fā)揮作用。怎么設(shè)計(jì)更好的疫苗,將是我們接下來(lái)的工作。

第三,用醫(yī)學(xué)方法來(lái)提取動(dòng)力學(xué)信息,更好表示出分子動(dòng)力學(xué)的不同模式。

除了蛋白結(jié)構(gòu)相關(guān),我們還會(huì)做機(jī)器學(xué)習(xí)在單細(xì)胞數(shù)據(jù)應(yīng)用,例如,受體與配體相互作用,在單細(xì)胞層面或空間層面,通過(guò)結(jié)構(gòu)方式理解單細(xì)胞數(shù)據(jù)。

張陽(yáng):我們目前主要是想做和蛋白質(zhì)結(jié)構(gòu)相關(guān)的兩件事:

第一,把深度學(xué)習(xí)推廣到蛋白-蛋白復(fù)合體結(jié)構(gòu)預(yù)測(cè),這個(gè)問(wèn)題比單鏈蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)更復(fù)雜,從功能注解來(lái)講也更重要。

第二,把深度學(xué)習(xí)和結(jié)構(gòu)生物學(xué)技術(shù)相結(jié)合,建立一種大標(biāo)度利用低精度實(shí)驗(yàn)數(shù)據(jù),快速確定高精度蛋白結(jié)構(gòu)的計(jì)算方法。

傳統(tǒng)的NMR和X-ray,以及現(xiàn)在的cryo-EM,對(duì)實(shí)驗(yàn)精度有很多限制,很多實(shí)驗(yàn)數(shù)據(jù)雖然已經(jīng)產(chǎn)生,但三維結(jié)構(gòu)并沒(méi)有解析出來(lái)。有些實(shí)驗(yàn)數(shù)據(jù)輔助的結(jié)構(gòu)預(yù)測(cè),往往比單純基于序列結(jié)構(gòu)預(yù)測(cè)要精確很多,而且又可以幫助傳統(tǒng)結(jié)構(gòu)生物學(xué)實(shí)驗(yàn)快速確定結(jié)構(gòu)。目前,這個(gè)問(wèn)題并沒(méi)有引起足夠重視,是一個(gè)很重要的研究方向。

卜東波:剛才談到的AlphaFold2是三合一。我們目前獨(dú)立做的ProFOLD就是把前兩個(gè)結(jié)合到一起,后面從距離構(gòu)建結(jié)構(gòu)還是獨(dú)立的,現(xiàn)在我們逐漸開(kāi)始把后面補(bǔ)齊。此外,我們也在嘗試復(fù)現(xiàn)AlphaFold2的過(guò)程。

關(guān)于將來(lái)的方向,我覺(jué)得有三點(diǎn):

第一,單序列預(yù)測(cè),我非常贊同錦波教授的意見(jiàn),在生物體內(nèi)部,蛋白從轉(zhuǎn)錄到翻譯都不參考MSA,折疊過(guò)程是非常重要的理論性問(wèn)題。

AlphaFold2論文中也明確說(shuō)MSA條數(shù)少于30條時(shí)預(yù)測(cè)不是特別準(zhǔn),所以我覺(jué)得可以嘗試做單序列預(yù)測(cè)。

第二,糖蛋白預(yù)測(cè),剛才許東老師談過(guò)很多蛋白都有糖基化,尤其是新冠病毒的S蛋白上有22個(gè)N糖的糖基化位點(diǎn)。

目前,我們已經(jīng)和生物物理所合作開(kāi)展了一些濕實(shí)驗(yàn),這些糖非常大,有顯著的空間位阻效應(yīng),有些位點(diǎn)長(zhǎng)糖之后,就會(huì)導(dǎo)致蛋白質(zhì)結(jié)構(gòu)和ACE2結(jié)合位點(diǎn)變化特別大;而且SPR實(shí)驗(yàn)顯示,他們的結(jié)合能變化也非常大。

還有很關(guān)鍵一點(diǎn),用冷凍電鏡測(cè)結(jié)構(gòu)時(shí),事先要把糖弄掉,因?yàn)樘菚?huì)導(dǎo)致信號(hào)非常不穩(wěn)定,做糖蛋白結(jié)構(gòu)很重要,我們和生物物理所實(shí)驗(yàn)也會(huì)做結(jié)構(gòu)預(yù)測(cè)。

第三,蛋白質(zhì)設(shè)計(jì),例如張海倉(cāng)教授和寒武紀(jì)公司合作的ProDESIGN項(xiàng)目。

黃昆(主持人):謝謝各位,我自己不是做蛋白結(jié)構(gòu)領(lǐng)域的,但我現(xiàn)在非常期待怎樣把新結(jié)果應(yīng)用在其中。例如直接做突變功能預(yù)測(cè),突變對(duì)結(jié)構(gòu)影響預(yù)測(cè)都比較感興趣,雖然不一定100%都準(zhǔn)確,但比現(xiàn)有一些結(jié)構(gòu)數(shù)據(jù)或預(yù)測(cè)數(shù)據(jù)庫(kù)要準(zhǔn)確很多。

接下來(lái),怎么樣利用數(shù)據(jù)和其它數(shù)據(jù)結(jié)合在一起,例如和其他基因表達(dá)、蛋白表達(dá)數(shù)據(jù)結(jié)合在一起做系統(tǒng)生物學(xué)模型,尤其對(duì)疾病進(jìn)行預(yù)測(cè)都是我們很關(guān)注的重點(diǎn)。今天非常感謝4位嘉賓做的精彩點(diǎn)評(píng),同時(shí)也謝謝各位聽(tīng)眾。雷鋒網(wǎng)雷鋒網(wǎng)

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

分享:
相關(guān)文章

編輯

專(zhuān)注AI醫(yī)療的新勢(shì)力和投融資丨微信ID:Daniel-six
當(dāng)月熱門(mén)文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶(hù)安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄