0
本文作者: 喬燕薇 | 2023-06-08 16:21 |
“大型藥企在行業(yè)內(nèi)耕耘多年,內(nèi)部積累了非常多的數(shù)據(jù),在AI制藥這條賽道上,這些數(shù)據(jù)就是一條足夠?qū)挼摹o(hù)城河’,相比之下,AI制藥公司獲取數(shù)據(jù)的難度卻高得多?!?/strong>
陳紅明博士是廣州實驗室研究員,曾在藥企巨頭阿斯利康工作十余年,在AIDD領(lǐng)域有著豐富的研究經(jīng)歷。近日,在與雷峰網(wǎng)《醫(yī)健AI掘金志》的對話中,陳紅明談及了他的研究經(jīng)歷以及對AI制藥行業(yè)的觀點。
陳紅明畢業(yè)于中科院化工冶金研究所計算化學(xué)專業(yè),后赴德國拜耳制藥公司烏帕塔爾研究中心從事博士后研究。
2001年,陳紅明加入藥企巨頭阿斯利康(AstraZeneca)哥德堡研發(fā)中心,從事計算化學(xué)和新藥開發(fā)方面的研究十余年,擔(dān)任主任研究員(Principal Scientist),主持了多個歐盟地平線2020科研項目。
2019年,陳紅明回國后,全職加入生物島實驗室擔(dān)任研究員。2021年5月,加入由鐘南山院士領(lǐng)銜廣州國家實驗室,擔(dān)任研究員。
陳紅明在阿斯利康的最后幾年,AI技術(shù)在制藥領(lǐng)域開始大放異彩,他的研究興趣也從CADD轉(zhuǎn)向AIDD相關(guān)研究,并于2017年帶領(lǐng)團隊開發(fā)了業(yè)內(nèi)著名的REINVENT算法。
他指出,相比近年來大批涌現(xiàn)的AI制藥公司,以阿斯利康為代表的藥企巨頭,在AI制藥這條賽道上有著天然的優(yōu)勢,他們有著多年來積累的藥物數(shù)據(jù),這是一條足夠?qū)挼摹白o(hù)城河”,將許多競爭者攔在門檻之外。
近日,雷峰網(wǎng)《醫(yī)健AI掘金志》推出《AI制藥十人談》系列,探究AI制藥的前景與隱憂。以下為我們與陳紅明的對話內(nèi)容,《醫(yī)健AI掘金志》做了不改變原意的編輯與整理。
《醫(yī)健AI掘金志》:自1998年博士畢業(yè)投身藥物研發(fā)領(lǐng)域以來,您經(jīng)歷了藥物研發(fā)二十余年的變遷史。您此前工作的藥企阿斯利康是最早使用AI方法進(jìn)行藥物開發(fā)的跨國公司之一。在您的研究歷程中,是如何完成從CADD到AIDD方法的轉(zhuǎn)變的?
陳紅明:我最初在阿斯利康的藥物發(fā)現(xiàn)部門的計算化學(xué)組,做一些與CADD相關(guān)的藥物開發(fā)項目支持工作,在研究方向上,主要從事高通量藥物篩選的數(shù)據(jù)分析,虛擬篩選以及藥物性質(zhì)預(yù)測等工作。
2016年,我們申請了一個歐盟的項目ExCAPE,用大規(guī)模深度學(xué)習(xí)的方法搭建預(yù)測模型,以此為契機,我開始接觸深度學(xué)習(xí)中的神經(jīng)網(wǎng)絡(luò)等算法。
通過這個項目,我開始和當(dāng)時在歐洲高校中做相關(guān)研究的教授和學(xué)者們,如奧地利林茨大學(xué)的Sepp Hochreiter教授,Günter Klambauer博士等進(jìn)行合作,逐步轉(zhuǎn)向AIDD的研究。
事實上,早在上世紀(jì)九十年代,基于定量構(gòu)效關(guān)系的神經(jīng)網(wǎng)絡(luò)就曾在藥物研發(fā)領(lǐng)域中被嘗試用于分子的活性預(yù)測,但當(dāng)時的神經(jīng)網(wǎng)絡(luò)技術(shù)在這項工作上表現(xiàn)并不太出色。
深度學(xué)習(xí)的興起,一度讓我認(rèn)為AI技術(shù)將在藥物性質(zhì)預(yù)測,尤其是分子的生物活性預(yù)測和ADMET的性質(zhì)預(yù)測等方面取得很好的效果。
抱著試試看的想法,我們開始使用深度學(xué)習(xí)的方法構(gòu)建預(yù)測模型。然而,受數(shù)據(jù)問題所限,AI在藥物性質(zhì)預(yù)測領(lǐng)域雖有不錯的表現(xiàn),但并未取得革命性的突破。
這可能有兩方面原因,一方面是制藥研發(fā)領(lǐng)域數(shù)據(jù)獲取成本非常高,導(dǎo)致整體數(shù)據(jù)量還不夠多;
另一方面,生物實驗數(shù)據(jù)本身存在實驗誤差,至今仍然沒有一個有效的整合標(biāo)準(zhǔn),加之開源的數(shù)據(jù)通常來自于許多不同的實驗室,更是增加了數(shù)據(jù)整合的難度。
相比藥物性質(zhì)預(yù)測,AI在分子生成模型上的應(yīng)用效果反而更好。我的研究方向開始從以往的藥物性質(zhì)預(yù)測轉(zhuǎn)向分子生成模型和化學(xué)反應(yīng)預(yù)測研究,2017年,我們團隊研發(fā)了生成模型REINVENT算法(相關(guān)論文:M. Olivecrona, T. Blaschke, O. Engkvist, H. Chen, Molecular de-novo design through deep reinforcement learning, J. Cheminform., 2017, 9:48.)。
REINVENT模型使用SMILES 字符串作為分子結(jié)構(gòu)的表示方法,首次使用RNN作為生成模型架構(gòu)并結(jié)合了強化學(xué)習(xí)(RL)算法。
通過對這一算法的開發(fā)和實踐應(yīng)用,我們發(fā)現(xiàn),在分子生成這一領(lǐng)域,深度學(xué)習(xí)和傳統(tǒng)方法相比,已經(jīng)取得了比較大的飛躍。
《醫(yī)健AI掘金志》:2019年,您離開阿斯利康,加入廣州國家實驗室,當(dāng)時有什么契機促使您做出這一決定?
陳紅明:我在阿斯利康工作時,我所在的部門主要是做算法開發(fā)等工作,同時也為一些早期項目提供支持,但整體還是更偏重AI算法開發(fā)。
回國之后,我希望能夠繼續(xù)從事AI算法的開發(fā)工作,但考慮到在藥企中工作,可能需要花費很多精力在項目上,最終還是選擇了這樣一個更適合做研究的機構(gòu)。
我加入的是廣州實驗室的前身--生物島實驗室,是廣東省省屬的實驗室。疫情爆發(fā)后,鐘南山院士在廣州建立了廣州國家實驗室,我所在的生物島實驗室大部分研究人員也轉(zhuǎn)入其下管理。
《醫(yī)健AI掘金志》:跨國藥企與AI制藥公司之間的合作情況怎么樣?國內(nèi)的AI制藥企業(yè)一般有三種主要的商業(yè)模式,自研管線、CRO以及專門做技術(shù)平臺,跨國藥企對AI制藥公司的CRO與AI制藥軟件態(tài)度如何?
陳紅明:跨國藥企對AI技術(shù)的態(tài)度是非常開放的,阿斯利康和其他藥企近年來與AI制藥公司之間常有合作,比如阿斯利康與AI技術(shù)公司BenevolentAI合作,基于AI算法尋找腎臟疾病的新藥物靶點。
在服務(wù)模式上,大型藥企可能更傾向于選擇CRO企業(yè),在這種合作模式之下,項目最終的評估指標(biāo)非常明確。
而AI制藥軟件在使用的過程中,常常需要根據(jù)實際研發(fā)情況進(jìn)行調(diào)整,很難以固定的模式進(jìn)行工作。
因此,相比使用AI制藥軟件,CRO的效果更直觀,也更便于評估,對大型藥企來說,這種方式明顯更方便。
《醫(yī)健AI掘金志》:傳統(tǒng)藥企起家的公司與“跨界創(chuàng)業(yè)”的AI制藥公司二者相比,在AI制藥技術(shù)的開發(fā)上誰更具優(yōu)勢?
陳紅明:傳統(tǒng)藥企是基于自身多年的專業(yè)積累和研發(fā)能力,在企業(yè)內(nèi)部建立AI平臺;AI制藥公司則是以AI技術(shù)為基礎(chǔ)搭建算法平臺來做藥。
我認(rèn)為這兩種方向各有特點,但在我個人看來,二者相比之下,大型藥企開發(fā)AI平臺或許會更具優(yōu)勢。
最根本的影響因素在于,AI藥物設(shè)計是一個比較注重實驗與數(shù)據(jù)的學(xué)科,企業(yè)在研發(fā)過程中每獲取一個數(shù)據(jù)點,都要付出非常高昂的費用。
在醫(yī)療行業(yè),數(shù)據(jù)屬于稀缺資源,這也是醫(yī)藥行業(yè)區(qū)別于其他行業(yè)的地方,比如自動駕駛等行業(yè),獲取一個數(shù)據(jù)點的成本并不算高。
大型藥企在行業(yè)內(nèi)耕耘多年,內(nèi)部積累了非常多的數(shù)據(jù),在AI制藥這條賽道上,這些數(shù)據(jù)就是一條足夠?qū)挼摹白o(hù)城河”。
相比之下,AI start up(指以人工智能技術(shù)為基礎(chǔ)啟動的公司)獲取數(shù)據(jù)的難度卻高得多。而AI start up的優(yōu)勢——AI技術(shù)人才,大型藥企則可以通過雇傭AI人才或?qū)で笸獠亢献鱽韽浹a。
《醫(yī)健AI掘金志》:如您在上個問題中所講,在AI制藥領(lǐng)域,數(shù)據(jù)是稀缺資源,也是行業(yè)的“護(hù)城河”,藥企之間能否通過數(shù)據(jù)共享的方式,打破數(shù)據(jù)對行業(yè)發(fā)展的制約?
歐洲的數(shù)據(jù)共享項目MELLODDY(Machine Learning Ledger Orchestration for Drug Discovery,機器學(xué)習(xí)分類帳編排的藥物發(fā)現(xiàn)),能否為國內(nèi)藥企提供參照?
(注:MELLODDY項目匯集楊森制藥、安進(jìn)、安斯泰來、阿斯利康、拜耳、勃林格殷格翰、葛蘭素史克、默克、諾華和施維雅等10家頂尖制藥企業(yè),兩所高校,四家初創(chuàng)公司,以及IT企業(yè)英偉達(dá),旨在創(chuàng)建一個建模平臺,在該平臺上可以利用多家制藥企業(yè)的數(shù)據(jù),創(chuàng)建更準(zhǔn)確的模型,以確定藥物開發(fā)最有效的化合物。)
陳紅明:在這個項目開啟之初,大家都期待這樣大規(guī)模的數(shù)據(jù)共享能夠為企業(yè)的模型帶來一定的提升,但我和以前阿斯利康的同事交流時,他表示相比阿斯利康自己原本的模型,提升并不算很大,這讓我有一些失望。
我認(rèn)為可能是由于不同公司的生化測試方法有所區(qū)別,導(dǎo)致數(shù)據(jù)之間存在一些系統(tǒng)性的誤差。
此外,對藥企來說,數(shù)據(jù)中最核心的化合物結(jié)構(gòu)往往并不會公開,因此在數(shù)據(jù)融合的過程中也可能會存在問題。
另一個可能的原因則是,制藥公司在藥物靶點的選擇上存在一定的共性,因此大家都集中在某些所謂熱門靶點上進(jìn)行分子設(shè)計,因此導(dǎo)致合成的分子骨架結(jié)構(gòu)差別不大,那么在化學(xué)空間上的提升自然就不會很大,這也可能會導(dǎo)致模型的提升有限。
這是我作為局外人觀察和猜測可能導(dǎo)致藥企模型提升有限的幾個原因,具體事實如何,還需進(jìn)行大量的研究才能調(diào)查清楚。
MELLODDY項目這種數(shù)據(jù)共享模式暫時也不適合移植到國內(nèi),最重要的一個原因在于,國內(nèi)的制藥公司相比MELLODDY項目中的大型跨國藥企,在數(shù)據(jù)積累上仍存在著非常大的差距。
目前比較常見的數(shù)據(jù)共享或交換的形式,往往是通過聯(lián)邦學(xué)習(xí)等技術(shù),將數(shù)據(jù)轉(zhuǎn)換為描述符等形式,交由一個可信的中間機構(gòu)來把關(guān),化合物結(jié)構(gòu)依然保密。
真正直接披露化合物結(jié)構(gòu)的數(shù)據(jù)交換,在藥物研發(fā)領(lǐng)域還是比較難以達(dá)成,比如此前阿斯利康和拜耳兩家公司,曾商定交換相同數(shù)量的化合物,這是建立在兩家公司體量相當(dāng)、數(shù)據(jù)庫規(guī)模也相當(dāng)?shù)那闆r下,進(jìn)行平等的一對一交換,參與數(shù)據(jù)交換的人員數(shù)量也很少。
《醫(yī)健AI掘金志》:加入廣州實驗室后工作后,在藥企巨頭的工作經(jīng)驗中對您來說有哪些可以借鑒?
陳紅明:在阿斯利康的工作經(jīng)歷讓我對于計算化學(xué)科學(xué)家在日常工作中面臨的挑戰(zhàn)有足夠的了解。
雖然在阿斯利康工作時我主要從事算法開發(fā),但也參加過一些藥物開發(fā)的項目,對藥物開發(fā)的流程比較熟悉,與項目中的核心人員有很多交流互動,更加了解在藥物開發(fā)過程中,計算化學(xué)的方法和工具還存在哪些欠缺,從而更好地開發(fā)AI算法。
這些經(jīng)驗都可以應(yīng)用在我現(xiàn)在的工作之中。
《醫(yī)健AI掘金志》:相比傳統(tǒng)的CADD方法,AI制藥具有哪些優(yōu)勢?AIDD最終是將與CADD相互融合還是取代CADD?
陳紅明:相比傳統(tǒng)的CADD,AI藥物設(shè)計有其獨特之處,比如近年來才興起的生成式AI,這在以往的藥物設(shè)計中是沒有的。
傳統(tǒng)的藥物設(shè)計方法往往是基于規(guī)則進(jìn)行,而AI生成模型則是數(shù)據(jù)驅(qū)動的算法,完全不需要預(yù)定規(guī)則,即可通過從數(shù)據(jù)中學(xué)習(xí)到的規(guī)律進(jìn)行分析。
但我認(rèn)為,AIDD仍屬于CADD這一大的范疇之中,屬于是CADD的一個全新的擴展。
CADD常用的分子對接、利用分子描述符建模的算法,在AIDD之中仍有沿用,所以,AIDD并不會取代CADD,二者將會相互融合,AIDD成為CADD的一個新的發(fā)展階段。
《醫(yī)健AI掘金志》:在分子結(jié)構(gòu)生成環(huán)節(jié),相比陷入瓶頸的CADD,AI可以通過學(xué)習(xí)大量的化合物結(jié)構(gòu)數(shù)據(jù)發(fā)現(xiàn)隱含的結(jié)構(gòu)構(gòu)成規(guī)則,更具創(chuàng)造力,因此越來越多的AI制藥初創(chuàng)企業(yè)加入賽道,開發(fā)出許多不同的分子生成算法。
2021年5月,您的團隊針對現(xiàn)有分子生成模型評估方法的局限進(jìn)行研究,提出了一種基于化學(xué)空間覆蓋度的生成模型效果評估方法,在這套評估方法之下,目前比較具有優(yōu)勢的算法有哪些?
陳紅明:我們當(dāng)時提出的評估算法,主要目的是選擇合適的數(shù)據(jù)集來對分子生成模型進(jìn)行評估。
在我們之前,也有其他的研究者提出過一些生成模型的評估方法,但他們當(dāng)時所選擇的數(shù)據(jù)集并不是平均的分布。
他們選擇的數(shù)據(jù)集中,涵蓋了針對不同靶點的分子,因此有些靶點的相關(guān)的特定結(jié)構(gòu)類型會比較多,有些的結(jié)構(gòu)類型則比較少,數(shù)據(jù)集的分布并不均勻。
但是評價生成模型,最好還是需要一個平均分布的數(shù)據(jù)集。
所以,我們當(dāng)時選擇了GDB13分子集合,這個小分子庫包含將近10億個重原子數(shù)小于13的分子結(jié)構(gòu),而且這些分子都是從理論上窮舉出來的,分布更加均勻。
在GDB13分子集合的基礎(chǔ)上,我們基于完整的分子結(jié)構(gòu)、官能團和環(huán)系這三個維度,對“化學(xué)空間覆蓋度”進(jìn)行評估。
在當(dāng)時的評估標(biāo)準(zhǔn)下,REINVENT算法的結(jié)果相對而言是比較好的,在這之后,國內(nèi)也涌現(xiàn)出了許多很好的算法模型。
《醫(yī)健AI掘金志》:以ChatGPT為代表的生成式AI技術(shù),將會為藥物研發(fā)帶來哪些新的可能性?
陳紅明:ChatGPT模型雖然很火爆,但我認(rèn)為它目前仍處于比較早期的階段,大語言模型依然在快速迭代的過程之中。
我們團隊前不久也做了相關(guān)的評測,GPT3.5版本在生物醫(yī)藥的NLP數(shù)據(jù)集上表現(xiàn)是不錯的,但是與SOTA模型相比,GPT3.5在項目中的表現(xiàn)還是有很大差距的,在未來的不斷迭代升級之后,GPT也許會有更好的表現(xiàn)。
GPT模型在藥物研發(fā)的流程中也能夠起到很大的作用,一方面對知識圖譜的構(gòu)建會有很大的幫助,比如從海量的文章中提取關(guān)鍵信息,作為素材生成知識圖譜,從而助力靶點發(fā)現(xiàn)等工作;
另一方面,也有人嘗試用ChatGPT直接進(jìn)行藥物分子設(shè)計,目前來看這項工作還有些困難,但ChatGPT已經(jīng)展現(xiàn)出知識綜合的能力,只要給它一個靶點,即可據(jù)此描述出分子應(yīng)該具有的特征。雖然還處于比較初級的定性階段,但也為藥物設(shè)計工作提供了一種新的可能性。
另外,也許還可以通過ChatGPT進(jìn)行化學(xué)反應(yīng)推理等各項工作,總而言之,以ChatGPT為代表的的大語言模型,在藥物研發(fā)流程中或許會給人帶來意想不到的驚喜。
為更加深入、系統(tǒng)地探討國內(nèi)醫(yī)藥企業(yè)在新藥研發(fā)中面臨的諸多問題,雷峰網(wǎng)(公眾號:雷峰網(wǎng))將于6月8日晚8點至10點,舉辦主題為《「人機協(xié)同」模式下的新藥研發(fā)》的線上圓桌論壇。
本次論壇,將由浙江大學(xué)藥學(xué)院教授謝昌諭主持,北京大學(xué)藥學(xué)院研究員劉振明、騰訊醫(yī)療健康A(chǔ)IDD技術(shù)負(fù)責(zé)人劉偉、浙江工業(yè)大學(xué)智能制藥研究院院長段宏亮、清華大學(xué)智能產(chǎn)業(yè)研究院戰(zhàn)略發(fā)展與合作部主任張煜參與討論。
讀者可掃描文章底部海報的二維碼,進(jìn)入專家社群,我們會將您的問題收集、匯總,反饋給參會嘉賓,并在討論環(huán)節(jié)進(jìn)行解答。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。