北大的這個(gè)交叉研究院里，為什么能走出一家AI制藥公司？

本文作者：劉海濤

2021-07-25 16:39

導(dǎo)語(yǔ)：作為標(biāo)準(zhǔn)的北大系，英飛智藥已開展5項(xiàng)候選藥研發(fā)，其中4項(xiàng)已完成設(shè)計(jì)階段。

在清華建校110周年慶祝大會(huì)上，北京大學(xué)校長(zhǎng)郝平首次宣布，在人工智能教學(xué)和科研上，雙方將聯(lián)手建立通用AI實(shí)驗(yàn)班。

這意味著，這兩家互為榜樣，互相調(diào)侃多年的對(duì)門鄰居，在人工智能上首次選擇了并肩站隊(duì)。

而事實(shí)上，在多年時(shí)間里，兩所高校內(nèi)部的姚班、圖靈班已經(jīng)先后培養(yǎng)和孵化出眾多AI界的頂尖人才和創(chuàng)新企業(yè)。

僅以北大為例，先后走出了百度CEO李彥宏、前360首席科學(xué)家顏水成、微眾銀行首席人工智能官楊強(qiáng)等一眾頂尖大佬。

在人工智能領(lǐng)域也是領(lǐng)頭的北大，2002年成立了智能科學(xué)系，該系也是北大在人工智能領(lǐng)域最主要的機(jī)構(gòu)，主要從事智能感知、機(jī)器學(xué)習(xí)、數(shù)據(jù)智能分析等方向的基礎(chǔ)和應(yīng)用基礎(chǔ)研究，側(cè)重于理論、方法以及重大領(lǐng)域應(yīng)用上。

其曾參加多項(xiàng)國(guó)家級(jí)重大科研課題和橫向應(yīng)用研究項(xiàng)目，如國(guó)家重大科技攻關(guān)課題、國(guó)家重點(diǎn)基礎(chǔ)研究發(fā)展規(guī)劃（973）課題、863重大科研課題等30多項(xiàng)科研項(xiàng)目；先后獲得重要科技獎(jiǎng)勵(lì)20多項(xiàng)：

其中指紋自動(dòng)識(shí)別技術(shù)先后獲得國(guó)家科技進(jìn)步二等獎(jiǎng)和教育部科技進(jìn)步一等獎(jiǎng)，以該項(xiàng)成果為基礎(chǔ)建立了國(guó)內(nèi)最大的指紋技術(shù)產(chǎn)業(yè)；人工神經(jīng)網(wǎng)絡(luò)說(shuō)話人識(shí)別新方法的研究獲得教育部科技進(jìn)步一等獎(jiǎng)；國(guó)家空間信息基礎(chǔ)設(shè)施關(guān)鍵技術(shù)研究獲得2000年中國(guó)高?？茖W(xué)技術(shù)二等獎(jiǎng)，入選2000年中國(guó)高校十大科技進(jìn)展等。

此外，北大又宣布成立了人工智能研究院。研究方向包括人工智能數(shù)理基礎(chǔ)和認(rèn)知科學(xué)基礎(chǔ)、智能感知、機(jī)器學(xué)習(xí)、類腦計(jì)算、人工智能治理以及智能醫(yī)療、智能社會(huì)等方面。

而在最近爆火的AI制藥賽道，也有一家由北大系創(chuàng)立的AI企業(yè)，正在逐漸嶄露頭角。

2021年5月，英飛智藥宣布完成由麗珠制藥和同創(chuàng)偉業(yè)領(lǐng)投的Pre-A 輪融資，此外在新藥研發(fā)中充分利用并持續(xù)發(fā)展先進(jìn)的AI藥物發(fā)現(xiàn)技術(shù)，打造了自主知識(shí)產(chǎn)權(quán)的AI+新藥研發(fā)平臺(tái)——智藥大腦TM。智藥大腦是集頂級(jí)專家人才、一流AI+新藥研發(fā)平臺(tái)、前沿藥物設(shè)計(jì)方法一體的藥物發(fā)現(xiàn)系統(tǒng)。

在這家企業(yè)的背后，其創(chuàng)始人裴劍鋒博士便是北大前沿交叉學(xué)科研究院定量生物學(xué)中心的研究員，此外，其聯(lián)合創(chuàng)始人徐優(yōu)俊和張偉林也分別是北大前沿交叉學(xué)科研究院定量生物學(xué)中心的博士和整合生命科學(xué)博士。

近日，雷鋒網(wǎng)《醫(yī)健AI掘金志》以“AI制藥·下一個(gè)現(xiàn)象級(jí)賽道”為題，邀請(qǐng)華為云、西湖歐米、英飛智藥、宇道生物、燧坤智能五家AI制藥新秀，舉辦了一場(chǎng)線上云峰會(huì)。

作為此次活動(dòng)的演講嘉賓，英飛智藥首席科學(xué)家張偉林，以《人工智能與新藥研發(fā)》為題，對(duì)英飛智藥的管線布局，以及AI平臺(tái)做了介紹。

張偉林表示，最近幾年，生命科學(xué)的一些原創(chuàng)性研究正在加速積累，包括靶標(biāo)機(jī)制、新靶標(biāo)結(jié)構(gòu)以及檢測(cè)和表征方法，都取得了突飛猛進(jìn)的進(jìn)展；而下游產(chǎn)業(yè)端也在愈發(fā)成熟，例如CRO，就將許多任務(wù)做得非常優(yōu)秀。

但醫(yī)藥行業(yè)目前還存在一個(gè)關(guān)鍵性問(wèn)題，就是“新分子發(fā)現(xiàn)與轉(zhuǎn)化效率不足”，也就是當(dāng)新靶標(biāo)還處于早期階段的時(shí)候，很少有人真的敢去提前進(jìn)行布局。

這也導(dǎo)致我們?cè)瓌?chuàng)藥和醫(yī)藥產(chǎn)業(yè)整體處于落后地位。一個(gè)藥物在臨床之前，因?yàn)榛衔锝Y(jié)構(gòu)已經(jīng)確定，適應(yīng)癥也已經(jīng)確定，所以藥物發(fā)現(xiàn)過(guò)程，很大程度決定一個(gè)藥物能否上市，能否創(chuàng)造價(jià)值，可以看做是整個(gè)行業(yè)最重要的命脈之一。

藥物設(shè)計(jì)最重要就是要找到未被滿足的臨床需求。所謂臨床需求，更多是要從患者角度來(lái)考慮，做出來(lái)的藥物才能更有市場(chǎng)，我們目標(biāo)具體定量來(lái)說(shuō)，就是縮短研發(fā)周期，提高研發(fā)成功率。

對(duì)于分子對(duì)接來(lái)說(shuō)，首先需要準(zhǔn)備靶蛋白結(jié)構(gòu)。當(dāng)然生物體也有一個(gè)特質(zhì)，就是同樣功能可能會(huì)有同樣折疊方式，當(dāng)沒(méi)有蛋白結(jié)構(gòu)時(shí)候，也可以通過(guò)同源模建把結(jié)構(gòu)模建出來(lái)（alphafold 2可以作到比較準(zhǔn)確的從頭預(yù)測(cè)）。

接下來(lái)是結(jié)合位點(diǎn)確認(rèn)。在有的項(xiàng)目中，已經(jīng)有復(fù)合物結(jié)構(gòu)，也就明確了小分子結(jié)合位置，可以設(shè)計(jì)一個(gè)更好結(jié)構(gòu)。

而有的時(shí)候，對(duì)于全新蛋白結(jié)構(gòu)，其實(shí)并不知道配體是什么，這時(shí)就可以運(yùn)行位點(diǎn)探測(cè)程序，例如CavityPlus程序，在表面進(jìn)行探索。

接下來(lái)才是小分子對(duì)接，對(duì)接之后再對(duì)對(duì)接構(gòu)象進(jìn)行打分評(píng)價(jià)，進(jìn)行體外細(xì)胞動(dòng)物實(shí)驗(yàn)。

在這里我對(duì)計(jì)算機(jī)輔助藥物設(shè)計(jì)，也就是傳統(tǒng)CADD和AIDD簡(jiǎn)單進(jìn)行一下比較。

CADD主要特點(diǎn)就是每一個(gè)工具和流程目標(biāo)比較明確，而且通量整體也比較高，底層有物理化學(xué)規(guī)則支持。

人工智能輔助計(jì)算（AIDD）就需要定義一個(gè)目標(biāo)，這個(gè)模型或者一套流程究竟要干什么，這需要好好規(guī)劃，不然就會(huì)出現(xiàn)定義目標(biāo)對(duì)選擇框架太難的情況，最后導(dǎo)致罷工。

當(dāng)然AIDD最好特點(diǎn)就是超高通量，我們也曾經(jīng)做過(guò)超高通量實(shí)驗(yàn)，以分子對(duì)接數(shù)據(jù)為基礎(chǔ)訓(xùn)練機(jī)器體系模型，發(fā)現(xiàn)這個(gè)模型速度能提高一百到二百倍，七八億量級(jí)數(shù)據(jù)庫(kù)，大約半天就能完成初步篩選。

以下是演講全部?jī)?nèi)容，雷鋒網(wǎng)做了不改變?cè)獾恼砗途庉嫞?/strong>

首先感謝雷鋒網(wǎng)給我們提供一個(gè)和各位線上朋友進(jìn)行交流的機(jī)會(huì)。

首先介紹一下我自己，我本科專業(yè)是北京大學(xué)化學(xué)系，主要做的是物理化學(xué)；幾年之后，又在北京大學(xué)前沿交叉學(xué)科研究院完成博士學(xué)位，在北京大學(xué)化學(xué)系做博士后。

2019年，我和幾位創(chuàng)始人一起參與創(chuàng)立了英飛智藥。

英飛智藥擁有國(guó)內(nèi)非常領(lǐng)先的AI+CADD的開發(fā)團(tuán)隊(duì)，之前做CADD已經(jīng)有大概20多年技術(shù)積累。我們的團(tuán)隊(duì)是由AI驅(qū)動(dòng)，CADD作為支持輔助，一直在為新品種努力，主要是目前針對(duì)未滿足的臨床需求，努力發(fā)展靶標(biāo)發(fā)現(xiàn)以及藥物發(fā)現(xiàn)的新方法。

我們主要就是開發(fā)自主創(chuàng)新的藥品管線，爭(zhēng)取獲得一個(gè)原始創(chuàng)新藥物，當(dāng)然我們也會(huì)為很多醫(yī)藥企業(yè)和研發(fā)機(jī)構(gòu)提供先進(jìn)的AI新藥研發(fā)技術(shù)服務(wù)和解決方案。

因?yàn)樽鰟?chuàng)新藥是一個(gè)非常復(fù)雜的過(guò)程，所以在這個(gè)過(guò)程中要非常深入和謹(jǐn)慎的思考一些事情，只有這樣創(chuàng)新藥物才能有可能做出來(lái)。

我們公司目前已經(jīng)完成Pre-A輪融資，內(nèi)部平臺(tái)——智藥大腦也已經(jīng)上線，它包括了30多個(gè)藥物設(shè)計(jì)的方法模塊，以及實(shí)用藥物設(shè)計(jì)流程。

同時(shí)公司已經(jīng)開展自研創(chuàng)新候選藥研發(fā)5項(xiàng)，4項(xiàng)已經(jīng)完成設(shè)計(jì)工作，IIP-001A項(xiàng)目獲得與上市藥物可比的體外生物活性，IIP-003A項(xiàng)目的第一輪化合物體外活性數(shù)據(jù)，接近或超過(guò)陽(yáng)參活性數(shù)據(jù)，我們還與多家機(jī)構(gòu)進(jìn)行早期創(chuàng)新藥物研發(fā)合作。

今天晚上的報(bào)告大致包括以下內(nèi)容：

第一部分，新藥研發(fā)的相關(guān)背景；

第二部分，介紹人工智能應(yīng)用于早期藥物研發(fā)的方面；

第三部分，對(duì)人工智能如何推進(jìn)新藥研發(fā)做展望；

首先有一個(gè)問(wèn)題，我們?cè)谝粋€(gè)什么樣的時(shí)代？

其實(shí)我們目前處于一個(gè)Deep Learning的時(shí)代，當(dāng)它第一次出現(xiàn)的時(shí)候，大家還都會(huì)比較迷惑。

自從上世紀(jì)1950年提出人工智能這個(gè)概念之后，這個(gè)概念就一直往前發(fā)展，在1980年到2010年這段時(shí)間，就變成了機(jī)器學(xué)習(xí)，并且在這個(gè)時(shí)期提出的許多比較先進(jìn)的機(jī)器學(xué)習(xí)算法，一直到現(xiàn)在還在使用。

而Deep Learning進(jìn)入人們的視野是在2010年之后，因?yàn)殡S著計(jì)算技術(shù)提高，我們有能力做更大規(guī)模計(jì)算，同時(shí)我們也有更多的數(shù)據(jù)。

在更多數(shù)據(jù)面前很多以前l(fā)earning算法的速度達(dá)到上限，而Deep Learning因?yàn)榧夹g(shù)本身的優(yōu)勢(shì)，還能夠繼續(xù)往上提高速度，我們目前就處于這個(gè)狀態(tài)。

接下來(lái)我們來(lái)認(rèn)真地想一想究竟什么是learning？

對(duì)于學(xué)習(xí)，我們可以很簡(jiǎn)單認(rèn)為，學(xué)習(xí)就是學(xué)會(huì)在接受刺激的時(shí)候該如何正確地產(chǎn)生響應(yīng)。

例如開車過(guò)程，我們?cè)陂_車的時(shí)候，會(huì)收到外界刺激信號(hào)，通過(guò)眼睛、耳朵以及身體去感受這些刺激信號(hào)，通過(guò)神經(jīng)系統(tǒng)進(jìn)行輸出，最后用手和腳進(jìn)行響應(yīng)。

再比如自動(dòng)駕駛技術(shù)，實(shí)際上是利用技術(shù)，利用不同感受器、攝像頭、雷達(dá)以及定位等，讓車子知道自己在哪兒，以及所處的環(huán)境，進(jìn)而用機(jī)械來(lái)響應(yīng)。

接下來(lái)看機(jī)器學(xué)習(xí)，目前主流機(jī)器學(xué)習(xí)有三種分類：

第一種有監(jiān)督學(xué)習(xí)，就是對(duì)一個(gè)數(shù)據(jù)進(jìn)行連續(xù)數(shù)據(jù)映射和分類。

在這種情況下，我們獲得的數(shù)據(jù)一般都是有標(biāo)簽的數(shù)據(jù)，實(shí)際就相當(dāng)于我們考試題有標(biāo)準(zhǔn)答案一樣，需要建立這樣一個(gè)映射，能夠映射數(shù)據(jù)標(biāo)簽。

第二種無(wú)監(jiān)督學(xué)習(xí)。無(wú)監(jiān)督學(xué)習(xí)在機(jī)器學(xué)習(xí)的時(shí)代比較有兩個(gè)比較著名的概念——聚類和降維。

目前Deep Learning比較火熱就是生成模型，實(shí)際在無(wú)監(jiān)督學(xué)習(xí)中，我們的數(shù)據(jù)是一些無(wú)標(biāo)簽數(shù)據(jù)，需要運(yùn)用一些概率統(tǒng)計(jì)算法，然后對(duì)這些數(shù)據(jù)底層固有結(jié)構(gòu)進(jìn)行學(xué)習(xí)，然后基于這樣固有結(jié)構(gòu)，進(jìn)行人為價(jià)值觀判斷。

第三種強(qiáng)化學(xué)習(xí)。強(qiáng)化學(xué)習(xí)最重要的是與環(huán)境交互而獲得獎(jiǎng)勵(lì)，比如說(shuō)下棋，通過(guò)與人或其他機(jī)器進(jìn)行對(duì)弈，然后獲得獎(jiǎng)勵(lì)，獎(jiǎng)勵(lì)的標(biāo)準(zhǔn)可以就是這盤棋下贏了。

這里很重要的一點(diǎn)就是與環(huán)境交互數(shù)據(jù)，學(xué)習(xí)如何采取合理行動(dòng)來(lái)最大化獎(jiǎng)勵(lì)，所以在學(xué)習(xí)過(guò)程中，最重要一個(gè)問(wèn)題就是要好好設(shè)定學(xué)習(xí)目標(biāo)到底是什么。

如果一個(gè)目標(biāo)不切實(shí)際，或者這個(gè)目標(biāo)和真實(shí)需求相差太遠(yuǎn)，學(xué)習(xí)模型往往只是徒勞而無(wú)功。

接下來(lái)簡(jiǎn)單說(shuō)一下藥物研發(fā)背景。

藥物研發(fā)從現(xiàn)有研發(fā)流程來(lái)看，首先是要提出與疾病相關(guān)的靶標(biāo)，再針對(duì)這些新靶標(biāo)開展下一步工作，如果是小分子藥物，就進(jìn)行先導(dǎo)發(fā)現(xiàn)過(guò)程，發(fā)現(xiàn)有潛在活性的小分子化合物，這個(gè)時(shí)候，是否能夠與靶標(biāo)結(jié)合往往是最重要一點(diǎn)。

當(dāng)把機(jī)制搞清楚之后，就可以向下一步候選化合物階段發(fā)展，一般是優(yōu)化小分子性質(zhì)，例如生物活性、藥代動(dòng)力學(xué)性質(zhì)、毒性安全性。

當(dāng)化合物基本比較安全，性質(zhì)也非常好之后，就可以開始往臨床進(jìn)行推；經(jīng)過(guò)臨床實(shí)驗(yàn)后，將化合物最終推向市場(chǎng)。

這樣一套流程，最大特點(diǎn)就是研發(fā)周期長(zhǎng)，費(fèi)用也比較高，回報(bào)相對(duì)也比較高。

但在許多情況下，這樣流程還有一些不足，例如應(yīng)對(duì)突發(fā)傳染性疾病，在這種情況下，如果沒(méi)有預(yù)先準(zhǔn)備，完全按照這一套來(lái)做，就會(huì)很慢。

我們作為一個(gè)國(guó)內(nèi)的公司，自然要看一看國(guó)內(nèi)新藥研發(fā)的一個(gè)現(xiàn)狀，目前國(guó)家生物醫(yī)藥資源實(shí)際上是非常豐富的，市場(chǎng)也是非常廣闊的。

這幾年，上游生命科學(xué)的一些原創(chuàng)性研究正在加速積累，包括一些新靶標(biāo)、新靶標(biāo)機(jī)制、新靶標(biāo)結(jié)構(gòu)以及一些非常優(yōu)秀的檢測(cè)方法表征方法都在很快的積累，下游工業(yè)化工作，例如CRO也日趨成熟，能夠?qū)⒔淮娜蝿?wù)做得非常好。

但目前仍有一個(gè)關(guān)鍵問(wèn)題新分子發(fā)現(xiàn)與轉(zhuǎn)化效率不足，也就是對(duì)于新靶標(biāo)，還很少有人敢去提前布局，新分子發(fā)現(xiàn)和轉(zhuǎn)化效率仍然還是有所欠缺。

藥物發(fā)展過(guò)程這張圖大家都見(jiàn)過(guò)，實(shí)際是一個(gè)漫長(zhǎng)的流程，算上生物過(guò)程，前期就需要3-7年。

一般得到候選化合物再往下走，從臨床前實(shí)驗(yàn)到臨床試驗(yàn)，都需要漫長(zhǎng)的觀察期，才能最終上市。

我們的創(chuàng)始人裴劍鋒也曾提到過(guò)，一個(gè)藥物在上臨床的之前，因?yàn)檫@個(gè)化合物結(jié)構(gòu)已經(jīng)確定，要治的適應(yīng)癥也已經(jīng)確定了，所以藥物發(fā)現(xiàn)的過(guò)程其實(shí)就很大程度上決定了一個(gè)藥物能否上市，所以精準(zhǔn)的藥物設(shè)計(jì)工作是要在非常早期就進(jìn)行規(guī)劃。

藥物設(shè)計(jì)有以下的一些主要方向：

第一，要找到創(chuàng)新靶標(biāo)與創(chuàng)新藥物，實(shí)際上這是一種對(duì)疾病的理解；

第二，作用機(jī)理要明確，如果作用機(jī)理不明確，很有可能藥上了市后，出現(xiàn)意想不到的副作用；

第三，就是獲取苗頭化合物和先導(dǎo)化合物；

第四，優(yōu)化先導(dǎo)化合物，這是目前大家都能看到的。

我們的智藥大腦，實(shí)際是需要結(jié)合專家經(jīng)驗(yàn)與先進(jìn)人工智能、CADD技術(shù)以及各種藥物信息技術(shù)，來(lái)幫助新靶標(biāo)發(fā)現(xiàn)以及藥物發(fā)現(xiàn)，來(lái)最終驅(qū)動(dòng)原始藥物。

在這個(gè)過(guò)程中，要嚴(yán)守物理化學(xué)科學(xué)規(guī)則，并發(fā)揮想象力才能更快成功。

下面來(lái)介紹一個(gè)常見(jiàn)的例子，即基于受體結(jié)構(gòu)的藥物設(shè)計(jì)。

這里需要提一下鎖鑰模型概念：鎖鑰模型就是小分子化合物結(jié)合到蛋白表面的一個(gè)口袋，它們是一種互補(bǔ)的關(guān)系，可以通過(guò)晶體結(jié)構(gòu)來(lái)獲得一個(gè)復(fù)合物。

這個(gè)過(guò)程中，我們會(huì)抽象出一系列重要相互作用，再依據(jù)這些相互作用尋找新分子。這些重要相互作用表征得更好，那么設(shè)計(jì)效果也就越好。

在這里我對(duì)計(jì)算機(jī)輔助藥物設(shè)計(jì)，也就是傳統(tǒng)CADD和AIDD簡(jiǎn)單進(jìn)行一下比較。

CADD主要特點(diǎn)就是每一個(gè)工具和流程目標(biāo)比較明確，而且通量整體也比較高，底層有物理化學(xué)規(guī)則支持。

AI模型能夠涵蓋很多其他因素，而這些涵蓋的這么多其他因素，如果直接編程，代碼量會(huì)非?？植馈Ｋ?，現(xiàn)階段CADD和AIDD基本一起使用，才能夠帶來(lái)更好效果。

接下來(lái)介紹一個(gè)比較工具，這是多維度配體的虛擬篩選。

我們把這部分放在先導(dǎo)優(yōu)化步驟，其實(shí)本身也是有爭(zhēng)議的，因?yàn)樗鼞?yīng)該是介于發(fā)現(xiàn)與優(yōu)化之間的這么一個(gè)工具，我們就先簡(jiǎn)單把它歸在先導(dǎo)優(yōu)化這里來(lái)。

簡(jiǎn)單說(shuō)一下基于配體的虛擬技術(shù)。

基于配體的虛擬篩選技術(shù)和我剛才講的基于受體結(jié)構(gòu)不太一樣，這里實(shí)際上有一個(gè)假設(shè)：就是相似配體可以結(jié)合在相似口袋當(dāng)中，也就是有可能鑰匙不是原配鑰匙，但也能開這把鎖。

基于配體虛擬篩選技術(shù)的一個(gè)核心概念就是：相似分子需要相似性質(zhì)，這涉及分子表征問(wèn)題，即如何說(shuō)明兩個(gè)分子很像。

目前主流技術(shù)上會(huì)做分子描述符、二維分子表征和三維分子表征，核心就是度量問(wèn)題。

分子描述符分為定量和定性兩方面描述一個(gè)分子。

其中有很多性質(zhì)可以來(lái)描述兩個(gè)分子是否相同：例如最基礎(chǔ)可以通過(guò)實(shí)驗(yàn)表征，比如光譜數(shù)據(jù)比較像不像，然后從結(jié)構(gòu)式上就能看出氫鍵供體數(shù)目，物理化學(xué)性質(zhì)。

對(duì)于二維分子表征，二維分子指紋是其關(guān)鍵特征，大概有幾種類型：

第一，按照路徑把它看成一個(gè)圖，就像一筆畫一樣從一個(gè)點(diǎn)到另一個(gè)點(diǎn)，走怎樣路徑；

第二，就像剝洋蔥一樣，以一個(gè)點(diǎn)為中心在它周圍畫圈，再使用哈希方式對(duì)它進(jìn)行指紋化處理；

第三，用一些方式直接找其中關(guān)鍵結(jié)構(gòu)；

第四，藥效團(tuán)，它實(shí)際上更多的是把分子性質(zhì)作為一個(gè)散列化處理。

除了二維指紋之外，目前也有人去設(shè)計(jì)三維分子指紋，三維分子指紋相比二維來(lái)說(shuō)就會(huì)復(fù)雜一些。因?yàn)榉肿尤S構(gòu)象還比較多變，所以三維指紋目前用的還不如二維指紋多。

總結(jié)來(lái)說(shuō)，AI多維度配體虛擬篩選，其實(shí)還有很多應(yīng)用場(chǎng)景。

例如細(xì)胞實(shí)驗(yàn)，它可能比分子實(shí)驗(yàn)或生化實(shí)驗(yàn)更早建立體系，可以進(jìn)行高通量篩選獲得活性小分子，這可能并沒(méi)有確定靶標(biāo)或只有假設(shè)靶標(biāo)，對(duì)于比較感興趣的小分子，會(huì)進(jìn)一步在大庫(kù)里搜索。

這個(gè)時(shí)候如果用對(duì)接搜索，計(jì)算量會(huì)非常大，所以直接用基于配體搜索，就像我們用搜索引擎一樣把它變成字符串搜索，就能很快得到相關(guān)度最高分子。

這是我們和合作者在去年發(fā)表的一篇綜述，里面對(duì)一些分子指紋和基于配體的虛擬篩選提供一些總結(jié)，大家可以參考一下。

這是在我們平臺(tái)上做的實(shí)現(xiàn)，我簡(jiǎn)單介紹一下流程。

這是非常常見(jiàn)的場(chǎng)景，例如我們?cè)谧x文獻(xiàn)的時(shí)候，發(fā)現(xiàn)一個(gè)化合物很不錯(cuò)，這時(shí)就可以通過(guò)截圖方式把它用AI方式直接識(shí)別成一個(gè)計(jì)算機(jī)可讀的分子格式，然后直接提交多維相似性搜索，最后對(duì)搜索結(jié)果用AI模型進(jìn)行全面性質(zhì)評(píng)估。

這個(gè)過(guò)程非常友好，因?yàn)槲覀冊(cè)谧x文獻(xiàn)的時(shí)候突然來(lái)了一個(gè)靈感，但非常不想打斷靈感打開軟件一點(diǎn)點(diǎn)畫出來(lái)，只想趕緊知道究竟有哪些與它相似分子，在這個(gè)平臺(tái)可以得到很快驗(yàn)證。

我們的多維相似性搜索，提供了一共7個(gè)維度來(lái)做這個(gè)事情。

為什么目前提供7個(gè)維度呢，因?yàn)槲覀円彩亲隽四Ｐ蛅raining和調(diào)整，讓函數(shù)整體表示相對(duì)比較平滑，不會(huì)出現(xiàn)分子指紋斷層問(wèn)題。

說(shuō)完了基于配體的虛擬篩選，我們?cè)賮?lái)講一下基于受體的分子生成。

分子生成是目前人工智能主要的發(fā)力點(diǎn)，不管是有監(jiān)督和無(wú)監(jiān)督學(xué)習(xí)還是強(qiáng)化學(xué)習(xí)，都會(huì)在這些上面進(jìn)行發(fā)力。

因?yàn)榉肿由墒腔谝延蟹肿咏Y(jié)構(gòu)、已有活性，然后學(xué)習(xí)它們的性質(zhì)，在這個(gè)空間附近擾動(dòng)，獲得新分子，這種情況下主要利用配體信息，也就是利用鑰匙信息。

當(dāng)然更多情況下，我們也可以利用鎖信息，也就是利用受體信息對(duì)空間進(jìn)行限制。

化合物空間實(shí)際上可能有10⁶⁴之多，但真正針對(duì)到某一個(gè)體系肯定不會(huì)有那么多，受體信息確定后，空間將被大幅縮小。

左邊程序叫LigBuilder，是我們以前做基于片段的全新藥物設(shè)計(jì)程序，它能夠在完成全新藥物設(shè)計(jì)以及多目標(biāo)優(yōu)化的同時(shí)，產(chǎn)生類藥性很好，可合成性高的虛擬庫(kù)。

右邊是AI分子逆合成分析，是我們基于AI模型開發(fā)的逆合成方法，如果使用AI逆合成方式，結(jié)合全新藥物設(shè)計(jì)，它的計(jì)算效率會(huì)有很好提高。

這個(gè)流程我簡(jiǎn)單說(shuō)一下，這基本上就是我們分子生成的設(shè)計(jì)流程。

一般我們會(huì)根據(jù)項(xiàng)目需求，假設(shè)我們選擇了進(jìn)行基于結(jié)構(gòu)靶標(biāo)生成，就會(huì)先進(jìn)行一輪生成，然后再基于活性進(jìn)行優(yōu)化，優(yōu)化之后還要對(duì)它進(jìn)行綜合評(píng)估。

就像我們前面說(shuō)的AI模型對(duì)于ADMET藥物性質(zhì)預(yù)測(cè)以及毒性預(yù)測(cè)，已經(jīng)有比較好的效果。

基于現(xiàn)有數(shù)據(jù)對(duì)其中毒性片段會(huì)發(fā)出一些警示信息；對(duì)于某些影響性質(zhì)片段也能夠做一定指示。

總體來(lái)說(shuō)，我們希望能夠在項(xiàng)目早期得到性質(zhì)比較好的分子，對(duì)后面一系列實(shí)驗(yàn)會(huì)有很大幫助。

我簡(jiǎn)單介紹一下我們平臺(tái)智藥大腦。這個(gè)平臺(tái)目前有很多個(gè)工具組成，需要CADD、AI、藥物化學(xué)家、藥理，還有生物靶標(biāo)上游很多知識(shí)匯集。智藥大腦本身是為大家提供了平臺(tái)對(duì)話工具，是真正用AI來(lái)驅(qū)動(dòng)研發(fā)。

接下來(lái)我來(lái)說(shuō)一下我的看法。

首先，AI輔助藥物設(shè)計(jì)這件事情，目前肯定是正在開啟一個(gè)新的時(shí)代，它肯定能夠讓藥物的研發(fā)更快，成本更低，效率更高，尤其是去年AlphaGo2橫空出世，確實(shí)也給我們很大震撼，真的覺(jué)得AI能夠幫到藥物研發(fā)。

其次，制藥工業(yè)在我們國(guó)家確實(shí)是進(jìn)入換擋提速的過(guò)程，我們也緊跟國(guó)外創(chuàng)新藥先進(jìn)治療方法，有些時(shí)候甚至是需要提前布局。

但目前AI還有很多問(wèn)題，對(duì)于AI輔助藥物設(shè)計(jì)這種方法以及實(shí)用性仍還存在問(wèn)題。諸多瓶頸問(wèn)題依然限制著AI方法和技術(shù)在創(chuàng)新藥物研發(fā)中的應(yīng)用，目前多數(shù)AI輔助藥物設(shè)計(jì)方法和系統(tǒng)的實(shí)用性仍需努力。

智藥大腦最后完成之后，還需要大家一起來(lái)評(píng)價(jià)，不是簡(jiǎn)單的AI模型堆砌，而是針對(duì)實(shí)際新藥研發(fā)問(wèn)題應(yīng)用場(chǎng)景，開發(fā)和整合多個(gè)底層AI藥物研發(fā)工具和工作流程。

它本身就是集成了很多業(yè)界認(rèn)可的一個(gè)藥物設(shè)計(jì)工具，底層很強(qiáng)調(diào)基于物理原理的科學(xué)解釋和對(duì)生物學(xué)機(jī)制的理解。

我們也希望智藥大腦能夠已經(jīng)被業(yè)界認(rèn)可的計(jì)算機(jī)輔助藥物設(shè)計(jì)工具，提供基于物理原理的解釋，為醫(yī)藥企業(yè)和藥物研發(fā)機(jī)構(gòu)研發(fā)自主知識(shí)產(chǎn)權(quán)創(chuàng)新藥物提供完整實(shí)用的解決方案。

最后是整體總結(jié)和展望。

藥物研發(fā)本身肯定是非常復(fù)雜極具挑戰(zhàn)的過(guò)程，因?yàn)橹芷诒容^長(zhǎng)，所以這個(gè)過(guò)程中任何一個(gè)失敗都很難接受。所以AI的技術(shù)發(fā)展，為整個(gè)制藥行業(yè)提供了一個(gè)新的機(jī)遇，當(dāng)然挑戰(zhàn)也是有的。

目前來(lái)看，主要就是在每一個(gè)環(huán)節(jié)和模塊上，都有很高不確定性，對(duì)這些不確定性，我們能夠提供更多證據(jù)鏈來(lái)盡可能降低不確定性，例如：

基于現(xiàn)有數(shù)據(jù)構(gòu)建AI模型預(yù)測(cè)來(lái)提供基于統(tǒng)計(jì)的證據(jù)鏈；
基于現(xiàn)有數(shù)據(jù)構(gòu)建AI模型預(yù)測(cè)來(lái)提供基于統(tǒng)計(jì)的證據(jù)鏈；
利用理論計(jì)算模擬提供一些可解釋的證據(jù)鏈；
專家基于經(jīng)驗(yàn)和各類證據(jù)鏈進(jìn)行合理的實(shí)驗(yàn)設(shè)計(jì)和驗(yàn)證；
利用新一輪的實(shí)驗(yàn)數(shù)據(jù)迭代優(yōu)化AI模型和理論計(jì)算模型，從而提供新的證據(jù)鏈。

Q&A問(wèn)答環(huán)節(jié)

Q1：請(qǐng)教一下，您覺(jué)得目前做業(yè)務(wù)的核心壁壘在哪里？

張偉林：我們國(guó)家最近也在做交叉學(xué)科的布局，以前我們交叉學(xué)科研究院已經(jīng)有過(guò)一些實(shí)踐。

其實(shí)不同領(lǐng)域的人面對(duì)的問(wèn)題難點(diǎn)是不一樣的。

比如我以前是做計(jì)算模擬，其實(shí)到現(xiàn)在還是覺(jué)得有些IT問(wèn)題對(duì)我來(lái)說(shuō)是一個(gè)問(wèn)題，但這些問(wèn)題對(duì)于IT專業(yè)人員來(lái)說(shuō)覺(jué)得不是問(wèn)題。

Q2：AI發(fā)現(xiàn)出來(lái)的藥物最大的難點(diǎn)是在分子合成砌塊？

張偉林：我覺(jué)得這不一定是最大難點(diǎn)，因?yàn)榭梢越Y(jié)合比較簡(jiǎn)單反應(yīng)來(lái)做，這一點(diǎn)我們和有機(jī)化學(xué)家如果能夠有充分合作，和他們進(jìn)行交流，有機(jī)合成到底應(yīng)該是怎么做。

以前都是從前往后設(shè)計(jì)，到最后反饋合成出問(wèn)題就前功盡棄，對(duì)于寫算法的人來(lái)說(shuō)，他可能沒(méi)有專業(yè)知識(shí)，他沒(méi)寫這些限制，所以最后就會(huì)出問(wèn)題，所以分子合成砌塊我覺(jué)得并不一定是最大的難點(diǎn)，但確實(shí)是一個(gè)比較重要的點(diǎn)。

Q3：如何看待AI用于晶型預(yù)測(cè)劑型這兩個(gè)環(huán)節(jié)的價(jià)值？

張偉林：還是非常有價(jià)值的，因?yàn)榫皖A(yù)測(cè)和劑型預(yù)測(cè)，以前只能通過(guò)實(shí)驗(yàn)來(lái)做，但目前這個(gè)領(lǐng)域可以用AI來(lái)進(jìn)行處理。

晶型其實(shí)定義更廣泛一些來(lái)說(shuō)，它其實(shí)是材料范疇，物理化學(xué)規(guī)則更嚴(yán)，所以說(shuō)它能夠獲得很好數(shù)據(jù)，也能夠很好反饋到上游。

Q4：用AI篩選的藥物如何平衡活性與毒性？

張偉林：這件事情我們可以做這樣一個(gè)假定，假定靶標(biāo)本身沒(méi)那么大毒性。

因?yàn)榈袠?biāo)處在復(fù)雜的生物網(wǎng)絡(luò)中，那么稍微干預(yù)一下靶標(biāo)，可能整個(gè)網(wǎng)絡(luò)系統(tǒng)都?jí)牧?，這也就意味這個(gè)靶標(biāo)毒性很高，那治療窗口就比較窄，這種情況下有可能應(yīng)該換靶標(biāo)或者使用靶標(biāo)組合。

所以如果靶標(biāo)選的好，它的治療窗口就會(huì)比較寬，活性和毒性平衡也就會(huì)比較容易，所以靶標(biāo)一定要慎重考慮好好選擇。

Q5：AI研發(fā)到達(dá)成熟估計(jì)得多久？

張偉林：這個(gè)問(wèn)題其實(shí)很難回答，因?yàn)楸热绯醮鶤lpha fold跟同期一些程序相比優(yōu)勢(shì)還不是特別明顯，但到下一代集成很多專家、數(shù)據(jù)以及算力之后，就達(dá)到非常高的水平。

這其實(shí)是一個(gè)迭代過(guò)程，所需要用到的資源可能不是一個(gè)小單位能夠負(fù)擔(dān)得起，當(dāng)然目前國(guó)內(nèi)一些課題組做得都非常好，也開發(fā)出一些非常先進(jìn)的工具，但我們還需要繼續(xù)向人學(xué)習(xí)。

我舉個(gè)簡(jiǎn)單例子，雖然Alpha fold2對(duì)于一些本身結(jié)構(gòu)比較好的蛋白，它已經(jīng)能夠做一個(gè)預(yù)測(cè)，但要說(shuō)真的解決結(jié)構(gòu)問(wèn)題，還需要做實(shí)驗(yàn)。

所以AI藥物研發(fā)達(dá)到成熟需要多久，我覺(jué)得會(huì)一直在路上，因?yàn)楝F(xiàn)在一些算法本身到了一定程度以后就不更新，可能就需要等它成熟以后，五年甚至十年才能知道這件事情，來(lái)告訴我們答案。

Q6：AI研發(fā)的原始數(shù)據(jù)獲取來(lái)源都有哪些？

張偉林：還是很多數(shù)據(jù)來(lái)源的，例如公開數(shù)據(jù)來(lái)源、自有數(shù)據(jù)來(lái)源等都很重要，但最重要還是如何理解這些數(shù)據(jù)質(zhì)量控制，質(zhì)量控制是最重要保證。

如果一個(gè)數(shù)據(jù)量很大，里面什么數(shù)據(jù)都有，例如在某一個(gè)靶標(biāo)活性里面，把各種各樣?xùn)|西甚至是沒(méi)法比較東西都放在一起就會(huì)很麻煩。

Q7：AI平臺(tái)physics-based modeling比較其他模型有什么優(yōu)勢(shì)呢？

張偉林：AI平臺(tái)操作里一個(gè)特點(diǎn)就是有物理原理在里面之后，其實(shí)可以通過(guò)其他物理原理來(lái)對(duì)它進(jìn)行檢驗(yàn)，也就是可解釋性是非常好，這是physics-based modeling本身的一個(gè)特質(zhì)。如果別的AI模型，具有理解這種底層進(jìn)行劃分的話，同樣可以很好。

Q8：英飛目前有哪些產(chǎn)品和管線呢？

張偉林：目前我們的產(chǎn)品主要是智藥大腦這個(gè)平臺(tái)，供內(nèi)部使用，也相當(dāng)于是不斷打磨內(nèi)測(cè)過(guò)程；然后還和我們一些合作伙伴進(jìn)行應(yīng)用場(chǎng)景探討。

Q9：請(qǐng)問(wèn)英飛有大分子藥物的管線嗎？

張偉林：我們主要部署管線是抗病毒癌癥方向，當(dāng)然大分子也有很多好處，大分子本身特異性還蠻好的，如果我們經(jīng)費(fèi)再高一點(diǎn)，計(jì)算資源多一點(diǎn)，大分子藥物我們也會(huì)考慮去做，但目前我們并沒(méi)有計(jì)劃在大分子藥物上進(jìn)行布局。

Q10：我是在校計(jì)算化學(xué)學(xué)生，最近也在自學(xué)CS，您介紹基于配體分子篩選-多維度相似性搜索，其中將文獻(xiàn)中結(jié)構(gòu)式識(shí)別成電腦能懂的語(yǔ)言，是需要通過(guò)圖像識(shí)別算法去實(shí)現(xiàn)嗎？

張偉林：覺(jué)得廣義上主要看你想怎么做，就是具體用什么算法來(lái)實(shí)現(xiàn)這個(gè)目的，而且還是要看算法能不能滿足最終目的。

圖像識(shí)別算法實(shí)際上是可以的，就是文獻(xiàn)結(jié)構(gòu)中識(shí)別為電腦能懂的，圖像識(shí)別還是個(gè)蠻不錯(cuò)的算法，因?yàn)榭山忉屝愿谩?/p>

Q11：請(qǐng)問(wèn)像英飛這樣的AI輔助藥物研發(fā)公司的商業(yè)模式是怎樣的？

張偉林：主要商業(yè)模式是這樣，我剛才提到我們是以創(chuàng)新藥為最終目標(biāo)，所以我們致力于開發(fā)一個(gè)用AI技術(shù)平臺(tái)，基于平臺(tái)驅(qū)動(dòng)開發(fā)創(chuàng)新藥物產(chǎn)品管線。

但新藥研發(fā)的流程很長(zhǎng)，所以也會(huì)和其它單位進(jìn)行合作，大家一起做確實(shí)能夠形成優(yōu)勢(shì)互補(bǔ)。

Q12：請(qǐng)問(wèn)在治療疾病方面，大分子藥物與小分子藥物哪種應(yīng)用更廣？哪種更有前景？

張偉林：治療疾病這件事有時(shí)候診斷更重要，因?yàn)樵\斷對(duì)了之后，用對(duì)了藥才會(huì)有實(shí)際效果，如果診斷不對(duì)的話，實(shí)際很難講存活率和效果。

例如癌癥5年存活率，例如PD1響應(yīng)率，這些成功率都還在于對(duì)疾病機(jī)理的理解，也就是一個(gè)疾病還沒(méi)有清楚原因的時(shí)候，很難講選擇什么樣的路徑。

但大分子本身就是因?yàn)楸旧肀容^大，性質(zhì)比較穩(wěn)定，所以基礎(chǔ)性質(zhì)比較好，小分子好處在于生產(chǎn)比較容易，保存比較方便，所以很難講哪個(gè)更有前景，應(yīng)該是并重的。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

1人收藏

分享：

相關(guān)文章

CADD 英飛智藥

六個(gè)月找出新藥分子，AI比人強(qiáng)在哪里？

獨(dú)家對(duì)話英矽智能CEO、CSO：AI新藥首進(jìn)「臨床試驗(yàn)」 ...

計(jì)算驅(qū)動(dòng)新藥平臺(tái)公司康邁迪森宣布獲得Pre-A融資

燧坤智能CEO曾亥年：AI制藥是未來(lái)藥神，還是虛假繁榮 ...

劉海濤

編輯

專注AI醫(yī)療的新勢(shì)力和投融資丨微信ID：Daniel-six

發(fā)私信

當(dāng)月熱門文章

最新文章

安頓生命預(yù)警表亮相世界互聯(lián)網(wǎng)大會(huì)“AI中醫(yī)”點(diǎn)亮主動(dòng)健康管理新未來(lái)

專訪聯(lián)影智能聯(lián)席CEO沈定剛：探索腦影像 AI 的無(wú)限可能

上萬(wàn)醫(yī)療人奔赴，這場(chǎng)“展”到底兌現(xiàn)了哪些承諾？

百度何明科：大模型為醫(yī)療健康行業(yè)帶來(lái)了哪些新可能？

專訪攜云啟源CEO張?chǎng)卫冢阂焉镄畔W(xué)的商業(yè)化做好，只做一環(huán)遠(yuǎn)遠(yuǎn)不夠

專訪上海市生物醫(yī)藥技術(shù)研究院戴文韜：生信，為何是生物醫(yī)學(xué)研究的「隱秘支柱」？

熱門搜索

機(jī)器學(xué)習(xí) 黑客 DeepMind 富士康 O2O 馬化騰 DIY GPU 今日頭條掃地機(jī)器人 ChatGPT

北大的這個(gè)交叉研究院里，為什么能走出一家AI制藥公司？

Q&A問(wèn)答環(huán)節(jié)

北大的這個(gè)交叉研究院里，為什么能走出一家AI制藥公司？