AI 發(fā)現(xiàn)16萬種新RNA病毒成果登上《Cell》后，我們和阿里云算法專家賀勇聊了聊

本文作者：王軼群

2024-10-15 15:18

導(dǎo)語：諾獎、頂刊，化學(xué)、物理、生物，AI for Science 火了。

近期，AI for Science 領(lǐng)域的驚喜不斷，持續(xù)在物理、化學(xué)、生物領(lǐng)域開花結(jié)果。

不僅諾貝爾物理和化學(xué)獎雙雙頒給 AI 領(lǐng)域的科學(xué)家，阿里云與中山大學(xué)的科研也帶來了RNA病毒尋找的突破，國際頂級學(xué)術(shù)期刊《Cell》收錄了這一研究論文。

AI 發(fā)現(xiàn)16萬種新RNA病毒成果登上《Cell》后，我們和阿里云算法專家賀勇聊了聊

《基于人工智能探索和記錄隱藏的RNA病毒世界》論文提出深度學(xué)習(xí)模型"LucaProt"，用于快速準確判別RNA病毒，顛覆傳統(tǒng)病毒發(fā)現(xiàn)方法。LucaProt基于Transformer框架與大模型技術(shù)，結(jié)合蛋白質(zhì)序列與結(jié)構(gòu)特征，在測試中展現(xiàn)出高準確性與特異性。通過引入蛋白質(zhì)結(jié)構(gòu)性信息，模型在外部驗證集上達到97.4%召回率及0.023%假陽性率，檢測速度僅需幾百毫秒至幾秒，遠超經(jīng)典方法的幾天至幾周。

研究團隊利用云計算與AI技術(shù)發(fā)現(xiàn)超16萬種新RNA病毒，是已知種類的近30倍，深化了對RNA病毒多樣性和演化歷史的認知，并帶來病毒學(xué)新發(fā)現(xiàn)。

論文的作者團隊橫跨了生物學(xué)領(lǐng)域與 AI，是傳統(tǒng)學(xué)科與 AI 前沿技術(shù)雙方人才的高效聯(lián)合。阿里云飛天實驗室算法專家賀勇與中山大學(xué)醫(yī)學(xué)院侯新博士，為論文共同第一作者。論文共同通訊作者為中山大學(xué)施莽教授，阿里云生物計算研究總監(jiān)李兆融，和悉尼大學(xué)全球知名病毒學(xué)家 Edward Holmes。

AI 發(fā)現(xiàn)16萬種新RNA病毒成果登上《Cell》后，我們和阿里云算法專家賀勇聊了聊

（阿里云和中山大學(xué)團隊，右二賀勇、右三李兆融、右四施莽、左四侯新）

作為論文共同一作，賀勇表示：“基于AI+病毒學(xué)的新研究框架刷新了人類對病毒圈的認識，隨著這種認識的不斷完善，有助于人類對未來可能發(fā)生的大流行進行預(yù)警，以及進一步推動RNA病毒疫苗的研發(fā)?！?/p>

AI for Science 探索，更需要“AI+云計算”的多面支持。近幾年，AI 技術(shù)助推學(xué)術(shù)發(fā)展上，阿里云已與全球超過70所高校開展學(xué)術(shù)合作，累計支持合作高校發(fā)表100 余篇高水平論文，共同申請近70項發(fā)明專利。

在 AI for Science領(lǐng)域，阿里云與中山大學(xué)、浙江大學(xué)等國內(nèi)知名高校共同開展病毒學(xué)、藥物學(xué)、生物學(xué)等方向的科研課題，在生命科學(xué)領(lǐng)域已發(fā)表核酸和蛋白質(zhì)統(tǒng)一基礎(chǔ)模型-LucaOne、RNA病毒發(fā)現(xiàn)-LucaProt、磷循環(huán)蛋白家族識別-LucaPCycle 等研究成果，其中多項成果由賀勇主導(dǎo)參與。

為探尋這次科研成果背后的 AI 邏輯，雷峰網(wǎng)(公眾號：雷峰網(wǎng))旗下的 AI 科技評論專訪了阿里云飛天實驗室算法專家賀勇。賀勇老師分享了科研成果的經(jīng)驗、AI for Science 的洞見。以下是訪談實錄，限于篇幅，雷峰網(wǎng)進行了不改原意的編輯：

可標準化的 RNA 病毒尋找，AI 大展身手

AI 科技評論：是否有預(yù)期到這次研究成果的突破？

賀勇：我們起初是抱著試一試的態(tài)度，目標是找新病毒，能不能發(fā)到頂刊，取決于最終的研究成果。找RNA病毒的方法，已經(jīng)有一套傳統(tǒng)固定的方法了，其過程已經(jīng)可以標準化，但過程還很繁瑣與復(fù)雜，我們就想著嘗試用 AI 的方法來處理尋找 RNA 病毒的問題。當(dāng)然也需要一定的效果直覺，十年的AI實踐經(jīng)驗讓我覺得這個問題AI能夠取得不錯的效果。

AI 科技評論：AI 的方法具備哪些優(yōu)勢？

賀勇：傳統(tǒng)的方法需要有很多人工迭代的過程，需要人去查看確認、結(jié)果篩選、驗證，是相當(dāng)復(fù)雜的過程，專家參與的工作較多。我們使用了最新的第三代深度學(xué)習(xí)技術(shù)，基于Transformer架構(gòu)，基于生物領(lǐng)域的大模型構(gòu)建了LucaProt，對RNA病毒的復(fù)制酶序列進行表征，基于該表征進行RNA病毒鑒定。

AI 的方法就是端到端，把中間很多人工過程直接省略了。生物數(shù)據(jù)與通俗意義上的文本和圖像其實不太一樣，一般人是無法直接閱讀的，要借助很多生物的工具才能辨認。AI 的好處在于，有了相關(guān)數(shù)據(jù)就可以自動去發(fā)現(xiàn)里面的一些隱含信息，識別隱含信息更利于發(fā)現(xiàn)病毒，所以使用 AI 的效果就非常好。

我們訓(xùn)練的模型LucaProt，只要輸入一個序列，就能判斷其是否是RNA病毒，而不需要復(fù)雜的生信過程，或者傳統(tǒng)生物方法的過程。我們有一個獨立測試數(shù)據(jù)集來測試這個模型的效果泛化性，發(fā)現(xiàn)效果很好。通過全球大規(guī)模推理，經(jīng)過生物實驗的驗證，用 AI 的方法發(fā)現(xiàn)了超16萬種新RNA病毒。

AI 科技評論：相較于 LucaOne 模型，LocaProt 有哪些技術(shù)突破？

賀勇：LucaOne是一個生物基礎(chǔ)大模型，無差別對核酸與蛋白質(zhì)進行表征。LocaProt是生物大模型的表征能力，針對特定任務(wù)（如尋找新病毒）進行優(yōu)化的模型。LucaOne提供強大的基礎(chǔ)表征，而LocaProt則解決具體的下游任務(wù)。

AI 科技評論：這次研究中如何處理生物與AI的跨學(xué)科隔閡？

賀勇：我們團隊在醫(yī)療和生物方面有一定的基礎(chǔ)，但直接對話生物學(xué)家仍有困難。阿里云生物計算研究總監(jiān)李兆融作為中間角色，加速了雙方理解。交叉學(xué)科，橋梁的作用是不可替代的。

AI 科技評論：這個過程中遇到的主要瓶頸是什么？

賀勇：最大的瓶頸是生物學(xué)知識門檻。我們需要不斷學(xué)習(xí)生物知識，以全局思維處理生物問題。此外，生物學(xué)數(shù)據(jù)的校驗和處理也面臨挑戰(zhàn)。

AI 科技評論：如何解決這些瓶頸？

賀勇：我們呼喚復(fù)合型人才，即具備計算機和生物學(xué)雙重背景的人才。同時，與交叉學(xué)科的學(xué)院合作可能更得心應(yīng)手，因為雙方能互補解決問題。

AI for Science 仍處于早期識別階段

AI 科技評論：AI for Science 的方法可以抽象成什么模式？

賀勇：AI的方法可以抽象為以下模式：首先分析數(shù)據(jù)與面對的科學(xué)問題的特性，然后基于這些特性設(shè)置專門的模塊，利用現(xiàn)有技術(shù)進行優(yōu)化改造或提出新的模型架構(gòu)以適應(yīng)問題，接著進行效果評估和模型迭代，最后進行科學(xué)新發(fā)現(xiàn)與挖掘。

AI 科技評論：如何衡量一個項目是否適合用 AI 解決？

賀勇：我們會評估傳統(tǒng)方法的成熟度、對問題的理解門檻以及AI可能帶來的效果。同時，深入了解問題背后的規(guī)律是關(guān)鍵，有規(guī)律可循的問題AI往往能取得好效果。

AI 科技評論：您認為 AI for Science 在生物學(xué)領(lǐng)域具備哪些優(yōu)勢？

賀勇：AI for Science在生物學(xué)領(lǐng)域的優(yōu)勢主要體現(xiàn)在三個方面：一是生物數(shù)據(jù)的開放性和豐富性，特別是高質(zhì)量數(shù)據(jù)的可獲得性，比如美國國家生物技術(shù)中心會把開放的數(shù)據(jù)經(jīng)過由全球范圍內(nèi)的科學(xué)家組成的校驗組去人工校驗，經(jīng)過人工校驗之后就變成了高質(zhì)量數(shù)據(jù)且全世界可以獲??；二是計算資源的不斷增強與成本下降；三是技術(shù)遷移的便利性，如生物序列與文本序列具有的相似性，使得與語言模型技術(shù)可以無縫遷移至生物學(xué)領(lǐng)域。

AI 科技評論：最近也是諾獎的物理跟化學(xué)都頒給了AI，您這次的研究成果也為病毒學(xué)帶來的突破，您對 AI for Science 發(fā)展有哪些看法？

賀勇：AI for Science雖然仍處于起步階段，但已經(jīng)成為了解決科學(xué)問題的一種非常重要的手段與研究方法。它之所以受歡迎，是因為科學(xué)中有許多待解問題?，F(xiàn)階段，需要將科學(xué)問題進行抽象，形式化定義成輸入輸出、有數(shù)據(jù)支撐、可計算的問題，AI 可以更好的解決。

在生物學(xué)中，AI剛開始發(fā)展，目前處于第一階段，比如識別生物序列的功能、病毒序列鑒定、來源及其感染性等，相當(dāng)于文本或圖像領(lǐng)域的讀懂與階段，尚未達到生成式的第二階段。諾貝爾化學(xué)獎得主 David Baker 所做的蛋白質(zhì)生成研究，想要什么功能蛋白質(zhì)，就用 AI 的方法生成一個，現(xiàn)在效果還不是很好。

未來，在生物醫(yī)療領(lǐng)域，AI將逐漸進入生成式階段，如生成抗體或小分子藥物等。然而，目前 AI for Science 仍處于認識世界的階段，離改造世界還有一定距離。但前景是光明的，只是所處的階段的問題。

AI 科技評論：要達到AI for Science改造世界的階段，需要哪些條件？

賀勇：要達到 AI for Science 改造世界的階段，需要三個條件：一是更多精細化的數(shù)據(jù)積累，特別是治療疾病和制藥的數(shù)據(jù)。二是大模型架構(gòu)的變革，以適應(yīng)生物學(xué)信息的空間分子結(jié)構(gòu)，目前的主流架構(gòu) Transformer 是基于序列的。但生物學(xué)的信息本身不是一個序列，是一個分空間分子結(jié)構(gòu)，所以還是無法完全獲取全部信息，存在信息損失。三是基礎(chǔ)設(shè)施的跟進，如算力、顯卡等需要重構(gòu)與之匹配。這些條件在自然科學(xué)領(lǐng)域使用AI時都是通用的。

AI 科技評論：您對 AI for Science 的未來發(fā)展有何擔(dān)憂？

賀勇：目前AI仍有諸多局限性，特別是它無法解決一些精細和微小變化的問題。AI仍依賴大量數(shù)據(jù)，還無法真正像科研人員那樣進行創(chuàng)新和改變。此外，生物學(xué)實驗中的手藝活和實操技術(shù)也是目前階段，AI無法替代的。

AI for Science，阿里在路上

AI 科技評論：您為何選擇深耕 AI for Science 領(lǐng)域？

賀勇：我受性格驅(qū)使，喜歡解決問題。我擁有計算機和AI背景，希望用這些技能去解決科學(xué)界的具體問題，探索AI在科學(xué)領(lǐng)域的潛力。

AI 科技評論：阿里云在生命科學(xué)領(lǐng)域的三款大模型均已開源，是基于怎樣的考慮呢？

賀勇：阿里云開源這三款大模型主要是為了讓更多人使用，推動生物學(xué)細分領(lǐng)域的基礎(chǔ)通用模型完善。同時，開源有助于模型進一步優(yōu)化，并降低使用者數(shù)據(jù)訓(xùn)練的成本。

AI 科技評論：阿里在與高校合作 AI for Science 時有哪些優(yōu)勢？

賀勇：阿里具備顯著的算力優(yōu)勢，同時擁有支持有意義項目的文化基因。此外，阿里云、達摩院與高校有長期合作經(jīng)驗，建立了深厚的信任關(guān)系。

AI 科技評論：與 AI 技術(shù)高校合作時有何感受？

賀勇：AI 的加入能加速傳統(tǒng)學(xué)科科研的速度，實現(xiàn)顛覆性的提速。但傳統(tǒng)學(xué)科有自身的發(fā)展節(jié)奏，需要雙方共同適應(yīng)與推進。

AI 科技評論：后面的研發(fā)規(guī)劃是什么？

賀勇：我們繼續(xù)對現(xiàn)有基礎(chǔ)的模型大模型 LucaOne 進行迭代，解決更多潛在的問題，并與合作團隊深化合作，來解決更多的科學(xué)問題。目前仍專注于生物領(lǐng)域，未來可能向下游臨床和制藥方向發(fā)展。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

0人收藏

相關(guān)文章

王軼群

編輯

發(fā)私信

當(dāng)月熱門文章

AI 發(fā)現(xiàn)16萬種新RNA病毒成果登上《Cell》后，我們和阿里云算法專家賀勇聊了聊

可標準化的 RNA 病毒尋找，AI 大展身手

AI for Science 仍處于早期識別階段

AI for Science，阿里在路上

AI 發(fā)現(xiàn)16萬種新RNA病毒成果登上《Cell》后，我們和阿里云算法專家賀勇聊了聊

AI for Science，阿里在路上