0
雷鋒網(wǎng) AI 科技評(píng)論按:在 2016 年和 2017 年,谷歌旗下 DeepMind 團(tuán)隊(duì)的研究成果 AlphaGo 可以說(shuō)是科技界當(dāng)之無(wú)愧的焦點(diǎn)。2016 年,AlphaGo 以出色的表現(xiàn)戰(zhàn)勝圍棋世界冠軍、職業(yè)九段棋手李世石,之后和中日韓數(shù)十位圍棋高手進(jìn)行快棋對(duì)決,連續(xù) 60 局無(wú)一敗績(jī)。2017 年 5 月,AlphaGo 以 3 比 0 的總比分戰(zhàn)勝排名世界第一的世界圍棋冠軍柯潔。圍棋界公認(rèn)阿爾法圍棋的棋力已經(jīng)超過人類職業(yè)圍棋頂尖水平。
但是 DeepMind 團(tuán)隊(duì)的最終目的并不是做游戲,他們希望用人工智能方法能幫助人類推動(dòng)基本科學(xué)的進(jìn)步。近日,團(tuán)隊(duì)發(fā)現(xiàn)了僅僅基于蛋白質(zhì)的遺傳序列來(lái)預(yù)測(cè)蛋白質(zhì)的 3D 結(jié)構(gòu)的方法。雷鋒網(wǎng) AI 科技評(píng)論編譯如下。
今天,我們非常興奮地與大家分享 DeepMind 在展示人工智能研究如何推動(dòng)和加速新的科學(xué)發(fā)現(xiàn)方面的第一個(gè)重要里程碑。通過強(qiáng)有力的跨學(xué)科方法,DeepMind 匯集了結(jié)構(gòu)生物學(xué)、物理學(xué)和機(jī)器學(xué)習(xí)領(lǐng)域的專家,應(yīng)用前沿技術(shù),僅僅基于蛋白質(zhì)的遺傳序列來(lái)預(yù)測(cè)蛋白質(zhì)的 3D 結(jié)構(gòu)。
我們的系統(tǒng),AlphaFold,在過去的兩年里我們一直在努力研究它,它建立在多年前使用大量基因組數(shù)據(jù)預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)的研究基礎(chǔ)之上。AlphaFold 產(chǎn)生的蛋白質(zhì)的 3D 模型比之前的任何模型都精確得多,也就是在這一生物學(xué)核心挑戰(zhàn)上取得了重大進(jìn)展。
蛋白質(zhì)折疊問題是什么?
蛋白質(zhì)是維持生命必不可少的復(fù)雜大分子。幾乎我們身體的每一項(xiàng)功能——收縮肌肉、感知光線或?qū)⑹澄镛D(zhuǎn)化為能量——都可以追溯到一種或多種蛋白質(zhì)以及它們?nèi)绾我苿?dòng)和轉(zhuǎn)化。制作這些蛋白質(zhì)的配方,也就是基因,就編碼在我們的 DNA 中。
每種蛋白質(zhì)可以做什么取決于其獨(dú)特的三維結(jié)構(gòu)。例如,構(gòu)成我們免疫系統(tǒng)的抗體蛋白是「Y 形」,類似于獨(dú)特的鉤狀物。通過鎖定病毒和細(xì)菌,抗體蛋白能夠檢測(cè)并標(biāo)記致病微生物以便消滅它們。類似地,膠原蛋白呈繩索狀,它在軟骨、韌帶、骨骼和皮膚之間傳遞張力。其他類型的蛋白質(zhì)包括 CRISPR 和 CAS9,它們能像剪刀一樣剪切和粘貼 DNA;抗凍蛋白,其 3D 結(jié)構(gòu)允許它們與冰晶結(jié)合并防止生物體凍結(jié);核糖體就像一個(gè)程序化的裝配線,幫助自己構(gòu)建蛋白質(zhì)。
但是僅僅根據(jù)蛋白質(zhì)的基因序列來(lái)弄清蛋白質(zhì)的 3D 形狀是一項(xiàng)復(fù)雜的任務(wù),科學(xué)家們已經(jīng)為此奮斗了幾十年。挑戰(zhàn)在于,DNA 只包含有關(guān)這種蛋白質(zhì)的氨基酸殘基的序列的信息,這種氨基酸殘基形成長(zhǎng)鏈。預(yù)測(cè)這些長(zhǎng)鏈?zhǔn)侨绾握郫B成復(fù)雜的蛋白質(zhì) 3D 結(jié)構(gòu)就是所謂的「蛋白質(zhì)折疊問題」。
蛋白質(zhì)越大,模型就越復(fù)雜和困難,因?yàn)樾枰紤]氨基酸之間更多的相互作用。正如列文塔爾的悖論所指出的,在得到正確的 3D 結(jié)構(gòu)之前,需要比宇宙的年齡更長(zhǎng)的時(shí)間來(lái)枚舉典型蛋白質(zhì)所有可能的構(gòu)型。
蛋白質(zhì)折疊為什么很重要?
預(yù)測(cè)蛋白質(zhì)形狀的能力對(duì)科學(xué)家是有用的,因?yàn)槔斫馄湓隗w內(nèi)的作用對(duì)診斷和治療被認(rèn)為是由蛋白質(zhì)的錯(cuò)誤折疊引起的疾病是至關(guān)重要的,如阿爾茨海默氏癥、帕金森氏癥、亨廷頓氏癥和囊性纖維化。
我們尤其感興趣它是如何提高我們對(duì)身體的理解以及它是如何工作的,這可以使得科學(xué)家能夠設(shè)計(jì)出新的、更有效的治療疾病的方法。我們可以通過模擬和模型獲得更多關(guān)于蛋白質(zhì)的形狀和它們?nèi)绾喂ぷ鞯闹R(shí),它開辟了藥物發(fā)現(xiàn)的新潛力,同時(shí)也降低了實(shí)驗(yàn)相關(guān)的成本。這最終可以改善全世界數(shù)百萬(wàn)患者的生活質(zhì)量。
對(duì)蛋白質(zhì)折疊的理解也有助于蛋白質(zhì)設(shè)計(jì),這可以帶來(lái)許多好處。例如,可以通過蛋白質(zhì)設(shè)計(jì)來(lái)實(shí)現(xiàn)生物可降解酶,從而幫助對(duì)付諸如塑料和石油之類的污染物,幫助我們以對(duì)環(huán)境更友好的方式分解廢物。事實(shí)上,研究人員已經(jīng)開始對(duì)細(xì)菌進(jìn)行工程改造,以分泌蛋白質(zhì),使廢物可生物降解并更容易處理。
為了促進(jìn)對(duì)提高預(yù)測(cè)準(zhǔn)確性的最新方法的研究和測(cè)量進(jìn)展,1994 年建立了一個(gè)名為 Community Wide Experiment on the Critical Assessment of Techniques for Protein Structure Prediction(CASP)的兩年一度的全球競(jìng)賽,并已成為評(píng)估技術(shù)的金標(biāo)準(zhǔn)。
AI 是如何帶來(lái)改變的?
在過去的 50 年中,科學(xué)家已經(jīng)能夠使用實(shí)驗(yàn)技術(shù),如冷凍電子顯微鏡、核磁共振或 X 射線晶體學(xué),在實(shí)驗(yàn)室中確定蛋白質(zhì)的形狀,但是每種方法都依賴于大量的試驗(yàn)和誤差,這可能需要數(shù)年時(shí)間,并且每個(gè)結(jié)構(gòu)花費(fèi)很多錢。這就是為什么生物學(xué)家轉(zhuǎn)向人工智能方法,以替代這一漫長(zhǎng)而費(fèi)力的檢測(cè)復(fù)雜蛋白質(zhì)的過程。
幸運(yùn)的是,由于基因測(cè)序成本的迅速降低,基因組學(xué)領(lǐng)域數(shù)據(jù)非常豐富。因此,基于基因組數(shù)據(jù)的深度學(xué)習(xí)方法在近幾年來(lái)變得越來(lái)越流行。今年我們向 CASP 提交了 AlphaFold,這是近幾年我們 DeepMind 對(duì)這個(gè)問題的研究成果。我們很自豪地成為 CASP 組織者所稱的「在預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)的計(jì)算方法能力方面的空前進(jìn)步」的一部分,在入選的團(tuán)隊(duì)中排名第一(我們的代號(hào)是 A7D)。
我們的團(tuán)隊(duì)特別關(guān)注從零開始建模目標(biāo)形狀的難題,而不使用以前構(gòu)建的蛋白質(zhì)結(jié)構(gòu)作為模板。在預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)的物理性質(zhì)時(shí),我們獲得了很高的精確度,然后使用兩種不同的方法來(lái)構(gòu)建全蛋白質(zhì)結(jié)構(gòu)的預(yù)測(cè)。
用神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)物理性質(zhì)
這兩種方法都依賴于深層神經(jīng)網(wǎng)絡(luò),這些神經(jīng)網(wǎng)絡(luò)被訓(xùn)練后可以從蛋白質(zhì)的遺傳序列預(yù)測(cè)蛋白質(zhì)的性質(zhì)。我們的網(wǎng)絡(luò)預(yù)測(cè)的特性是:(a)氨基酸對(duì)之間的距離,(b)連接這些氨基酸的化學(xué)鍵之間的角度。第一個(gè)進(jìn)展是評(píng)估氨基酸對(duì)是否彼此接近的常用技術(shù)的進(jìn)步。
我們訓(xùn)練神經(jīng)網(wǎng)絡(luò)來(lái)預(yù)測(cè)蛋白質(zhì)中每對(duì)殘基之間距離的獨(dú)立分布。然后將這些概率組合成一個(gè)分?jǐn)?shù),以估計(jì)所構(gòu)建的蛋白質(zhì)結(jié)構(gòu)有多精確。我們還訓(xùn)練了一個(gè)單獨(dú)的神經(jīng)網(wǎng)絡(luò),它使用所有距離來(lái)估計(jì)所構(gòu)建的結(jié)構(gòu)離正確答案有多近。
構(gòu)造蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)的新方法
利用這些評(píng)分功能,我們能夠搜索蛋白質(zhì)形狀,找到符合我們預(yù)測(cè)的結(jié)構(gòu)。我們的第一個(gè)方法建立在結(jié)構(gòu)生物學(xué)中常用的技術(shù)之上,并且用新的蛋白質(zhì)片段反復(fù)替換蛋白質(zhì)結(jié)構(gòu)的片段。我們訓(xùn)練一個(gè)有生成式的神經(jīng)網(wǎng)絡(luò)來(lái)發(fā)明新的片段,這些片段被用來(lái)不斷改進(jìn)所提議的蛋白質(zhì)結(jié)構(gòu)的評(píng)分。
第二種方法通過梯度下降來(lái)優(yōu)化分?jǐn)?shù),梯度下降是機(jī)器學(xué)習(xí)中常用的數(shù)學(xué)技術(shù),用于進(jìn)行小的、遞增的改進(jìn),從而構(gòu)建高精度的結(jié)構(gòu)。這種技術(shù)應(yīng)用于整個(gè)蛋白質(zhì)鏈,而不是在組裝之前必須單獨(dú)折疊的片段,從而降低了預(yù)測(cè)過程的復(fù)雜性。
接下來(lái)會(huì)發(fā)生什么?
我們首次涉足蛋白質(zhì)折疊的成功,展示了機(jī)器學(xué)習(xí)系統(tǒng)如何能整合各種信息來(lái)源,以幫助科學(xué)家快速地找到解決復(fù)雜問題的創(chuàng)造性解決方案。正如我們已經(jīng)看到人工智能如何通過像 AlphaGo 和 AlphaZero 這樣的系統(tǒng)幫助人們掌握復(fù)雜的游戲,我們也同樣希望有一天,人工智能的突破也能幫助我們掌握基本的科學(xué)問題。
這些早期的蛋白質(zhì)折疊進(jìn)展的跡象,證明了人工智能在科學(xué)發(fā)現(xiàn)中的效用,這是非常令人興奮的事情。盡管我們?cè)谀軌驅(qū)χ委熂膊?、管理環(huán)境等產(chǎn)生量化影響之前還有很多工作要做,但我們知道潛力是巨大的。我們擁有一個(gè)專注的團(tuán)隊(duì),致力于研究機(jī)器學(xué)習(xí)如何推動(dòng)科學(xué)進(jìn)步,我們期待著看到我們的技術(shù)可以帶來(lái)更多的變化。
雷鋒網(wǎng)
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。