0
本文作者: 王軼群 | 2024-10-15 15:18 |
近期,AI for Science 領(lǐng)域的驚喜不斷,持續(xù)在物理、化學(xué)、生物領(lǐng)域開花結(jié)果。
不僅諾貝爾物理和化學(xué)獎雙雙頒給 AI 領(lǐng)域的科學(xué)家,阿里云與中山大學(xué)的科研也帶來了RNA病毒尋找的突破,國際頂級學(xué)術(shù)期刊《Cell》收錄了這一研究論文。
《基于人工智能探索和記錄隱藏的RNA病毒世界》論文提出深度學(xué)習(xí)模型"LucaProt",用于快速準確判別RNA病毒,顛覆傳統(tǒng)病毒發(fā)現(xiàn)方法。LucaProt基于Transformer框架與大模型技術(shù),結(jié)合蛋白質(zhì)序列與結(jié)構(gòu)特征,在測試中展現(xiàn)出高準確性與特異性。通過引入蛋白質(zhì)結(jié)構(gòu)性信息,模型在外部驗證集上達到97.4%召回率及0.023%假陽性率,檢測速度僅需幾百毫秒至幾秒,遠超經(jīng)典方法的幾天至幾周。
研究團隊利用云計算與AI技術(shù)發(fā)現(xiàn)超16萬種新RNA病毒,是已知種類的近30倍,深化了對RNA病毒多樣性和演化歷史的認知,并帶來病毒學(xué)新發(fā)現(xiàn)。
論文的作者團隊橫跨了生物學(xué)領(lǐng)域與 AI,是傳統(tǒng)學(xué)科與 AI 前沿技術(shù)雙方人才的高效聯(lián)合。阿里云飛天實驗室算法專家賀勇與中山大學(xué)醫(yī)學(xué)院侯新博士,為論文共同第一作者。論文共同通訊作者為中山大學(xué)施莽教授,阿里云生物計算研究總監(jiān)李兆融,和悉尼大學(xué)全球知名病毒學(xué)家 Edward Holmes。
(阿里云和中山大學(xué)團隊,右二賀勇、右三李兆融、右四施莽、左四侯新)
作為論文共同一作,賀勇表示:“基于AI+病毒學(xué)的新研究框架刷新了人類對病毒圈的認識,隨著這種認識的不斷完善,有助于人類對未來可能發(fā)生的大流行進行預(yù)警,以及進一步推動RNA病毒疫苗的研發(fā)?!?/p>
AI for Science 探索,更需要“AI+云計算”的多面支持。近幾年,AI 技術(shù)助推學(xué)術(shù)發(fā)展上,阿里云已與全球超過70所高校開展學(xué)術(shù)合作,累計支持合作高校發(fā)表100 余篇高水平論文,共同申請近70項發(fā)明專利。
在 AI for Science領(lǐng)域,阿里云與中山大學(xué)、浙江大學(xué)等國內(nèi)知名高校共同開展病毒學(xué)、藥物學(xué)、生物學(xué)等方向的科研課題,在生命科學(xué)領(lǐng)域已發(fā)表核酸和蛋白質(zhì)統(tǒng)一基礎(chǔ)模型-LucaOne、RNA病毒發(fā)現(xiàn)-LucaProt、磷循環(huán)蛋白家族識別-LucaPCycle 等研究成果,其中多項成果由賀勇主導(dǎo)參與。
為探尋這次科研成果背后的 AI 邏輯,雷峰網(wǎng)(公眾號:雷峰網(wǎng))旗下的 AI 科技評論專訪了阿里云飛天實驗室算法專家賀勇。賀勇老師分享了科研成果的經(jīng)驗、AI for Science 的洞見。以下是訪談實錄,限于篇幅,雷峰網(wǎng)進行了不改原意的編輯:
AI 科技評論:是否有預(yù)期到這次研究成果的突破?
賀勇:我們起初是抱著試一試的態(tài)度,目標是找新病毒,能不能發(fā)到頂刊,取決于最終的研究成果。找RNA病毒的方法,已經(jīng)有一套傳統(tǒng)固定的方法了,其過程已經(jīng)可以標準化,但過程還很繁瑣與復(fù)雜,我們就想著嘗試用 AI 的方法來處理尋找 RNA 病毒的問題。當(dāng)然也需要一定的效果直覺,十年的AI實踐經(jīng)驗讓我覺得這個問題AI能夠取得不錯的效果。
AI 科技評論:AI 的方法具備哪些優(yōu)勢?
賀勇:傳統(tǒng)的方法需要有很多人工迭代的過程,需要人去查看確認、結(jié)果篩選、驗證,是相當(dāng)復(fù)雜的過程,專家參與的工作較多。我們使用了最新的第三代深度學(xué)習(xí)技術(shù),基于Transformer架構(gòu),基于生物領(lǐng)域的大模型構(gòu)建了LucaProt,對RNA病毒的復(fù)制酶序列進行表征,基于該表征進行RNA病毒鑒定。
AI 的方法就是端到端,把中間很多人工過程直接省略了。生物數(shù)據(jù)與通俗意義上的文本和圖像其實不太一樣,一般人是無法直接閱讀的,要借助很多生物的工具才能辨認。AI 的好處在于,有了相關(guān)數(shù)據(jù)就可以自動去發(fā)現(xiàn)里面的一些隱含信息,識別隱含信息更利于發(fā)現(xiàn)病毒,所以使用 AI 的效果就非常好。
我們訓(xùn)練的模型LucaProt,只要輸入一個序列,就能判斷其是否是RNA病毒,而不需要復(fù)雜的生信過程,或者傳統(tǒng)生物方法的過程。我們有一個獨立測試數(shù)據(jù)集來測試這個模型的效果泛化性,發(fā)現(xiàn)效果很好。通過全球大規(guī)模推理,經(jīng)過生物實驗的驗證,用 AI 的方法發(fā)現(xiàn)了超16萬種新RNA病毒。
AI 科技評論:相較于 LucaOne 模型,LocaProt 有哪些技術(shù)突破?
賀勇:LucaOne是一個生物基礎(chǔ)大模型,無差別對核酸與蛋白質(zhì)進行表征。LocaProt是生物大模型的表征能力,針對特定任務(wù)(如尋找新病毒)進行優(yōu)化的模型。LucaOne提供強大的基礎(chǔ)表征,而LocaProt則解決具體的下游任務(wù)。
AI 科技評論:這次研究中如何處理生物與AI的跨學(xué)科隔閡?
賀勇:我們團隊在醫(yī)療和生物方面有一定的基礎(chǔ),但直接對話生物學(xué)家仍有困難。阿里云生物計算研究總監(jiān)李兆融作為中間角色,加速了雙方理解。交叉學(xué)科,橋梁的作用是不可替代的。
AI 科技評論:這個過程中遇到的主要瓶頸是什么?
賀勇:最大的瓶頸是生物學(xué)知識門檻。我們需要不斷學(xué)習(xí)生物知識,以全局思維處理生物問題。此外,生物學(xué)數(shù)據(jù)的校驗和處理也面臨挑戰(zhàn)。
AI 科技評論:如何解決這些瓶頸?
賀勇:我們呼喚復(fù)合型人才,即具備計算機和生物學(xué)雙重背景的人才。同時,與交叉學(xué)科的學(xué)院合作可能更得心應(yīng)手,因為雙方能互補解決問題。
AI 科技評論:AI for Science 的方法可以抽象成什么模式?
賀勇:AI的方法可以抽象為以下模式:首先分析數(shù)據(jù)與面對的科學(xué)問題的特性,然后基于這些特性設(shè)置專門的模塊,利用現(xiàn)有技術(shù)進行優(yōu)化改造或提出新的模型架構(gòu)以適應(yīng)問題,接著進行效果評估和模型迭代,最后進行科學(xué)新發(fā)現(xiàn)與挖掘。
AI 科技評論:如何衡量一個項目是否適合用 AI 解決?
賀勇:我們會評估傳統(tǒng)方法的成熟度、對問題的理解門檻以及AI可能帶來的效果。同時,深入了解問題背后的規(guī)律是關(guān)鍵,有規(guī)律可循的問題AI往往能取得好效果。
AI 科技評論:您認為 AI for Science 在生物學(xué)領(lǐng)域具備哪些優(yōu)勢?
賀勇:AI for Science在生物學(xué)領(lǐng)域的優(yōu)勢主要體現(xiàn)在三個方面:一是生物數(shù)據(jù)的開放性和豐富性,特別是高質(zhì)量數(shù)據(jù)的可獲得性,比如美國國家生物技術(shù)中心會把開放的數(shù)據(jù)經(jīng)過由全球范圍內(nèi)的科學(xué)家組成的校驗組去人工校驗,經(jīng)過人工校驗之后就變成了高質(zhì)量數(shù)據(jù)且全世界可以獲??;二是計算資源的不斷增強與成本下降;三是技術(shù)遷移的便利性,如生物序列與文本序列具有的相似性,使得與語言模型技術(shù)可以無縫遷移至生物學(xué)領(lǐng)域。
AI 科技評論:最近也是諾獎的物理跟化學(xué)都頒給了AI,您這次的研究成果也為病毒學(xué)帶來的突破,您對 AI for Science 發(fā)展有哪些看法?
賀勇:AI for Science雖然仍處于起步階段,但已經(jīng)成為了解決科學(xué)問題的一種非常重要的手段與研究方法。它之所以受歡迎,是因為科學(xué)中有許多待解問題?,F(xiàn)階段,需要將科學(xué)問題進行抽象,形式化定義成輸入輸出、有數(shù)據(jù)支撐、可計算的問題,AI 可以更好的解決。
在生物學(xué)中,AI剛開始發(fā)展,目前處于第一階段,比如識別生物序列的功能、病毒序列鑒定、來源及其感染性等,相當(dāng)于文本或圖像領(lǐng)域的讀懂與階段,尚未達到生成式的第二階段。諾貝爾化學(xué)獎得主 David Baker 所做的蛋白質(zhì)生成研究,想要什么功能蛋白質(zhì),就用 AI 的方法生成一個,現(xiàn)在效果還不是很好。
未來,在生物醫(yī)療領(lǐng)域,AI將逐漸進入生成式階段,如生成抗體或小分子藥物等。然而,目前 AI for Science 仍處于認識世界的階段,離改造世界還有一定距離。但前景是光明的,只是所處的階段的問題。
AI 科技評論:要達到AI for Science改造世界的階段,需要哪些條件?
賀勇:要達到 AI for Science 改造世界的階段,需要三個條件:一是更多精細化的數(shù)據(jù)積累,特別是治療疾病和制藥的數(shù)據(jù)。二是大模型架構(gòu)的變革,以適應(yīng)生物學(xué)信息的空間分子結(jié)構(gòu),目前的主流架構(gòu) Transformer 是基于序列的。但生物學(xué)的信息本身不是一個序列,是一個分空間分子結(jié)構(gòu),所以還是無法完全獲取全部信息,存在信息損失。三是基礎(chǔ)設(shè)施的跟進,如算力、顯卡等需要重構(gòu)與之匹配。這些條件在自然科學(xué)領(lǐng)域使用AI時都是通用的。
AI 科技評論:您對 AI for Science 的未來發(fā)展有何擔(dān)憂?
賀勇:目前AI仍有諸多局限性,特別是它無法解決一些精細和微小變化的問題。AI仍依賴大量數(shù)據(jù),還無法真正像科研人員那樣進行創(chuàng)新和改變。此外,生物學(xué)實驗中的手藝活和實操技術(shù)也是目前階段,AI無法替代的。
AI 科技評論:您為何選擇深耕 AI for Science 領(lǐng)域?
賀勇:我受性格驅(qū)使,喜歡解決問題。我擁有計算機和AI背景,希望用這些技能去解決科學(xué)界的具體問題,探索AI在科學(xué)領(lǐng)域的潛力。
AI 科技評論:阿里云在生命科學(xué)領(lǐng)域的三款大模型均已開源,是基于怎樣的考慮呢?
賀勇:阿里云開源這三款大模型主要是為了讓更多人使用,推動生物學(xué)細分領(lǐng)域的基礎(chǔ)通用模型完善。同時,開源有助于模型進一步優(yōu)化,并降低使用者數(shù)據(jù)訓(xùn)練的成本。
AI 科技評論:阿里在與高校合作 AI for Science 時有哪些優(yōu)勢?
賀勇:阿里具備顯著的算力優(yōu)勢,同時擁有支持有意義項目的文化基因。此外,阿里云、達摩院與高校有長期合作經(jīng)驗,建立了深厚的信任關(guān)系。
AI 科技評論:與 AI 技術(shù)高校合作時有何感受?
賀勇:AI 的加入能加速傳統(tǒng)學(xué)科科研的速度,實現(xiàn)顛覆性的提速。但傳統(tǒng)學(xué)科有自身的發(fā)展節(jié)奏,需要雙方共同適應(yīng)與推進。
AI 科技評論:后面的研發(fā)規(guī)劃是什么?
賀勇:我們繼續(xù)對現(xiàn)有基礎(chǔ)的模型大模型 LucaOne 進行迭代,解決更多潛在的問題,并與合作團隊深化合作,來解決更多的科學(xué)問題。目前仍專注于生物領(lǐng)域,未來可能向下游臨床和制藥方向發(fā)展。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。