0
“數(shù)據(jù)共享對(duì)藥企模型的提升有一些幫助,但并不像大家預(yù)測(cè)中的那么大,有很多算法的細(xì)節(jié)仍有待突破,比如不同藥企的數(shù)據(jù)存在不一致性等問(wèn)題?!?/strong>
近日,雷峰網(wǎng)《醫(yī)健AI掘金志》推出《AI制藥十人談》系列,探究AI制藥的前景與隱憂。
浙江大學(xué)藥學(xué)院教授謝昌諭在與《醫(yī)健AI掘金志》的對(duì)話中,提到了歐洲的藥企數(shù)據(jù)共享項(xiàng)目MELLODDY,指出數(shù)據(jù)共享這一模式發(fā)展中存在的局限性。
謝昌諭與AI制藥結(jié)緣要追溯到2018年。
謝昌諭是具有量子物理與人工智能雙重背景的學(xué)者,早年間曾在麻省理工學(xué)院、多倫多大學(xué)、新加坡-麻省理工科研中心從事理論化學(xué)、量子計(jì)算、人工智能技術(shù)在AIDD、有機(jī)材料、生物傳感器等方向的應(yīng)用研究。
2018年回國(guó)后,謝昌諭加入騰訊量子實(shí)驗(yàn)室,帶領(lǐng)團(tuán)隊(duì)探索適合于量子計(jì)算技術(shù)的落地方向,從而進(jìn)入AI制藥領(lǐng)域。
“(制藥領(lǐng)域)如果想要在近期內(nèi)看到比較大的研究成果,其實(shí)更依賴于傳統(tǒng)計(jì)算和人工智能,而非量子計(jì)算?!?/p>
隨著研究的深入,謝昌諭的心態(tài)也從開(kāi)始的“將藥物設(shè)計(jì)作為實(shí)現(xiàn)‘AI+量子’計(jì)算算法的跳板”,轉(zhuǎn)變?yōu)檎嬲胍谒幬镌O(shè)計(jì)領(lǐng)域做出一些成果。
在浙江大學(xué)藥學(xué)院教授侯廷軍的介紹下,謝昌諭加入浙大藥學(xué)院。
對(duì)于更適用于AI制藥的傳統(tǒng)計(jì)算與人工智能兩種方法,謝昌諭也直言其各自的利弊:
傳統(tǒng)算法具備明確的理論,其泛化能力更強(qiáng),適用范圍更廣,但計(jì)算速度卻不夠快;而AI模型目前還是難以真正學(xué)到底層的因果關(guān)系,模型的泛化能力較差。
“如果對(duì)黑盒算法進(jìn)行更多可解釋性的分析,將其與AI模型相結(jié)合,或許會(huì)成為未來(lái)的主要發(fā)展趨勢(shì)之一?!?/strong>
以下為《醫(yī)健AI掘金志》與謝昌諭的對(duì)話內(nèi)容,《醫(yī)健AI掘金志》做了不改變?cè)獾木庉嬇c整理。
雷峰網(wǎng):您早年間的學(xué)術(shù)方向偏向量子計(jì)算、人工智能等領(lǐng)域,是什么時(shí)候開(kāi)始轉(zhuǎn)向AI制藥相關(guān)研究的?
謝昌諭:2018年加入騰訊之前,我的研究背景更偏向理論化學(xué)、量子計(jì)算、量子物理這方面,2019年開(kāi)始涉獵AI的方向,那時(shí)是從團(tuán)隊(duì)的角度考慮,要尋找一個(gè)量子計(jì)算的落地方向。
我認(rèn)為從量子計(jì)算的硬件等各方面條件來(lái)看,短期落地其實(shí)比較困難,所以想嘗試一下“AI+量子”這兩種前沿的計(jì)算技術(shù)的結(jié)合,在一些特殊的領(lǐng)域中有哪些可能性,從而使量子計(jì)算技術(shù)盡快落地應(yīng)用,讓社會(huì)受益于這些前沿技術(shù)。
在這個(gè)過(guò)程中,我們調(diào)研了不同的行業(yè),綜合考量每個(gè)行業(yè)的特質(zhì),以及這些行業(yè)能夠?yàn)樯鐣?huì)產(chǎn)生的價(jià)值,還有我們團(tuán)隊(duì)成員的學(xué)術(shù)背景等因素,最后覺(jué)得制藥是一個(gè)不錯(cuò)的選擇。
而且根據(jù)觀察,很多跨國(guó)藥企對(duì)人工智能、量子計(jì)算、自動(dòng)化、計(jì)算化學(xué)等各種技術(shù)興趣非常濃厚,一些公司在這上面的投入也很可觀。從這個(gè)角度來(lái)看,制藥也是一個(gè)很好的方向。
我們對(duì)這項(xiàng)研究原本的期待是,既能進(jìn)行“AI+量子”的技術(shù)研究,同時(shí)也能獲得藥企的認(rèn)可,對(duì)藥物研發(fā)做出一些貢獻(xiàn)。
但是進(jìn)行更加深入的研究之后,我們發(fā)現(xiàn),如果想要在一定時(shí)間內(nèi)看到比較大的研究成果,其實(shí)更依賴于傳統(tǒng)計(jì)算和人工智能,而非量子計(jì)算。
因此,從2019年開(kāi)始,AI制藥就逐漸變成我花費(fèi)精力最多的一個(gè)研究方向。
雷峰網(wǎng):2022年,您離開(kāi)騰訊量子實(shí)驗(yàn)室,加入浙江大學(xué)藥學(xué)院擔(dān)任教授,當(dāng)時(shí)有什么契機(jī)使您決定回歸學(xué)術(shù)界?
謝昌諭:騰訊量子實(shí)驗(yàn)室提供的科研環(huán)境非常好,招聘了很優(yōu)秀的研究員,進(jìn)行了很多領(lǐng)域的交叉研究,從科研上講很有成就感。
但騰訊量子實(shí)驗(yàn)室的核心目標(biāo)是最大程度推動(dòng)量子計(jì)算技術(shù)的發(fā)展,我一開(kāi)始的想法也是想要將藥物研發(fā)作為一個(gè)出口,讓量子計(jì)算在其中發(fā)揮作用。
隨著我在AI制藥上投入的時(shí)間越來(lái)越多,對(duì)這個(gè)領(lǐng)域有了更深刻的領(lǐng)悟,再加上新冠疫情的影響,我的心態(tài)發(fā)生了一些改變,從最初的將藥物設(shè)計(jì)作為實(shí)現(xiàn)“AI+量子”計(jì)算算法的跳板,轉(zhuǎn)變?yōu)檎嬲胍谒幬镌O(shè)計(jì)領(lǐng)域做出一些成果,反而不再介意使用的方法是傳統(tǒng)的計(jì)算物理還是AI、量子。
我的想法發(fā)生變化之后,就希望在研究上能夠以藥物研發(fā)為中心,獲得更多這方面的資源支持,恰好之前和浙江大學(xué)藥學(xué)院的侯廷軍教授有合作,通過(guò)他的介紹來(lái)到浙大藥學(xué)院工作。
雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng)):不久前,碳硅智慧發(fā)布了AI新藥研發(fā)平臺(tái)DrugFlow1.0,作為碳硅智慧算法科學(xué)家,您在DrugFlow1.0的設(shè)計(jì)、研發(fā)、后續(xù)商業(yè)探索上主要參與了哪些工作?
謝昌諭:現(xiàn)階段在碳硅智慧的工作中,我希望技術(shù)層面取得一些突破,聚焦小分子藥物設(shè)計(jì)方面的前沿算法,或是在理論層面的更多嘗試。
比如在設(shè)計(jì)大模型的過(guò)程中如何更好地學(xué)習(xí)分子表征,如何更好地結(jié)合傳統(tǒng)計(jì)算物理和深度學(xué)習(xí)來(lái)實(shí)現(xiàn)一些更具理論支撐的藥物設(shè)計(jì)方案等,這些工作是更偏研究與探索性質(zhì)為主。
這也是我選擇碳硅智慧的主要原因,在研究上,我能夠去嘗試一些對(duì)藥物設(shè)計(jì)可能更有價(jià)值的理論和想法,找到其中能夠走得更遠(yuǎn)的可行方案;
在落地上,碳硅智慧有專業(yè)的團(tuán)隊(duì)和豐富的經(jīng)驗(yàn),能夠在算法和模型的技術(shù)細(xì)節(jié)上做更多的優(yōu)化,工程化的實(shí)現(xiàn)也更加專業(yè)。
雷峰網(wǎng):在AI制藥領(lǐng)域,傳統(tǒng)算法與人工智能算法分別有何利弊?如何相互結(jié)合?
謝昌諭:傳統(tǒng)算法中比較有代表性的如分子動(dòng)力學(xué)模擬與結(jié)合自由能的計(jì)算,其優(yōu)勢(shì)在于具有比較明確的理論,我們就可以從理論的角度來(lái)判斷這個(gè)算法在什么場(chǎng)景中是相對(duì)可靠的。
同時(shí),這些算法的泛化能力較強(qiáng),適用范圍會(huì)更廣一些。
傳統(tǒng)算法也存在一些問(wèn)題,比如需要使用者具備更多的專業(yè)知識(shí)儲(chǔ)備與實(shí)際操作的經(jīng)驗(yàn)積累,才能對(duì)算法進(jìn)行研究。即便是使用相關(guān)軟件,也需要較高的知識(shí)門(mén)檻。
另一個(gè)痛點(diǎn)則是,傳統(tǒng)算法雖然理論清晰,但計(jì)算速度不夠快,有時(shí)由于各種假設(shè)與近似的原因還是不夠精準(zhǔn),所以在藥物篩選的過(guò)程中實(shí)用價(jià)值比較有限。
相比之下,AI模型如果有合適的數(shù)據(jù)進(jìn)行訓(xùn)練,速度會(huì)快上很多。在一些測(cè)試場(chǎng)景中,AI模型的效果非常精準(zhǔn),但是往往到了真實(shí)的藥物研發(fā)場(chǎng)景中,大家就會(huì)發(fā)現(xiàn)它使用起來(lái)沒(méi)有很多科研論文里描述的效果那么好。
主要原因是AI模型沒(méi)有真正學(xué)到底層的因果關(guān)系,所以模型的泛化能力很差,如果沒(méi)有新的數(shù)據(jù)做支持,模型就很難適應(yīng)新的場(chǎng)景,換而言之,模型會(huì)出現(xiàn)一些過(guò)擬合的表現(xiàn),甚至學(xué)習(xí)到數(shù)據(jù)本身隱性偏差的問(wèn)題。
所以使用AI模型時(shí),你有時(shí)候并不知道什么時(shí)候能夠真正地信任它,如果對(duì)黑盒算法進(jìn)行更多可解釋性的分析,將其與AI模型相結(jié)合,或許會(huì)成為未來(lái)的主要發(fā)展趨勢(shì)之一。
以小分子制藥為例,如果結(jié)合自由能的預(yù)測(cè),或是基于靶點(diǎn)口袋的分子生成,或是對(duì)先導(dǎo)化合物進(jìn)行優(yōu)化改造,將微觀物理的信息融入到深度學(xué)習(xí)框架之中,這個(gè)模型就能夠更好地學(xué)習(xí)到真實(shí)的因果關(guān)系或物理規(guī)律,模型的魯棒性和可靠性也會(huì)得到大幅提升。
另一個(gè)方向則是直接用AI來(lái)加速傳統(tǒng)計(jì)算,在傳統(tǒng)計(jì)算的框架之下,用AI來(lái)解方程,有希望在不喪失計(jì)算精度的情況下大幅提升計(jì)算效率。
雷峰網(wǎng):在算法層面,AI制藥平臺(tái)之間能否形成技術(shù)壁壘?
謝昌諭:如果單看一個(gè)小模型,我認(rèn)為比較難形成技術(shù)壁壘。
不能形成技術(shù)壁壘其實(shí)也可能是一個(gè)好事情。
現(xiàn)在很多被廣泛使用的模型本身就是源于互聯(lián)網(wǎng)或其他行業(yè),比如自然語(yǔ)言處理、圖像識(shí)別等領(lǐng)域的算法,研發(fā)者將其開(kāi)源之后又被AI制藥的研發(fā)人員拿過(guò)來(lái)優(yōu)化、使用。
在這樣的大環(huán)境之下,研發(fā)者們被鼓勵(lì)將自己的算法進(jìn)行開(kāi)源,促進(jìn)整個(gè)領(lǐng)域的發(fā)展。
此外,如今深度學(xué)習(xí)領(lǐng)域有很多好的建模軟件和工具,可以幫助非專家級(jí)的使用者輕松地將不是特別復(fù)雜的模型調(diào)到穩(wěn)定水平。
從算法的層面來(lái)說(shuō),很難形成技術(shù)壁壘,但對(duì)于大模型而言,就比較容易形成壁壘。
雖然模型的設(shè)計(jì)思路是透明的,但是如何收集、清理訓(xùn)練模型所需的數(shù)據(jù),以及訓(xùn)練龐大模型的技巧等等,這些復(fù)雜且大規(guī)模的工作更容易產(chǎn)生技術(shù)壁壘。
雷峰網(wǎng):數(shù)據(jù)問(wèn)題一直是AI制藥領(lǐng)域的痛點(diǎn),已經(jīng)成為目前制約AI藥物研發(fā)的重要因素之一。
目前已經(jīng)有企業(yè)嘗試建立數(shù)據(jù)共享平臺(tái),在保證數(shù)據(jù)隱私的前提下,推動(dòng)藥企之間的數(shù)據(jù)共享,在您看來(lái)這種合作形式是否符合AI制藥平臺(tái)當(dāng)下的需求?
謝昌諭:如果能夠?qū)崿F(xiàn)共享數(shù)據(jù),肯定是利大于弊的,聯(lián)邦學(xué)習(xí)等技術(shù)一定程度上能夠保護(hù)數(shù)據(jù)的隱私,如果藥企都參與進(jìn)來(lái),就可以得到表現(xiàn)更好的模型。
在歐洲有一個(gè)項(xiàng)目叫做MELLODDY,即Machine Learning Ledger Orchestration for Drug Discovery(機(jī)器學(xué)習(xí)分類帳編排的藥物發(fā)現(xiàn))。
強(qiáng)生的子公司Janssen Pharmaceutica NV(楊森制藥)是該項(xiàng)目的制藥行業(yè)負(fù)責(zé)人。
項(xiàng)目匯集了楊森制藥、安進(jìn)、安斯泰來(lái)、阿斯利康、拜耳、勃林格殷格翰、葛蘭素史克、默克、諾華和施維雅等10家頂尖制藥企業(yè),兩所高校,四家初創(chuàng)公司,以及IT企業(yè)英偉達(dá)。
該項(xiàng)目旨在創(chuàng)建一個(gè)建模平臺(tái),在該平臺(tái)上可以利用多家制藥企業(yè)的數(shù)據(jù),創(chuàng)建更準(zhǔn)確的模型,以確定藥物開(kāi)發(fā)最有效的化合物。
在不久前的DrugFlow1.0產(chǎn)品發(fā)布會(huì)的圓桌討論環(huán)節(jié)上, 也得知MELLODDY項(xiàng)目的一些進(jìn)展。
比如,該項(xiàng)目對(duì)藥企模型的提升有一些幫助,但并不像大家初期預(yù)測(cè)的那么大,有很多算法的細(xì)節(jié)仍有待突破,比如不同藥企的數(shù)據(jù)存在不一致性等問(wèn)題。
所以,并不是大家把數(shù)據(jù)拿出來(lái)共享就能馬上取得很大的突破,其中還有很多困難需要克服,從歐洲的案例中我們也可以看到在技術(shù)層面需要優(yōu)化的很多細(xì)節(jié)。
不過(guò),長(zhǎng)遠(yuǎn)來(lái)看這肯定是一件好事。
雷峰網(wǎng):2022年,AlphaFold2與ESMFold分別宣布預(yù)測(cè)出數(shù)億種蛋白質(zhì),AI技術(shù)在蛋白質(zhì)預(yù)測(cè)上的不斷突破,對(duì)制藥領(lǐng)域有哪些影響?
謝昌諭:AlphaFold2和ESMFold等產(chǎn)生的價(jià)值是清晰可見(jiàn)的,無(wú)形之中增加了大家對(duì)AI這個(gè)領(lǐng)域能夠的信心,從而持續(xù)進(jìn)行資金或科研上的投入。
單就蛋白質(zhì)折疊這個(gè)問(wèn)題而言,目前已經(jīng)取得了很大的進(jìn)展。
最近特別熱門(mén)的ChatGPT等生成式AI也是下一波發(fā)展的契機(jī),將會(huì)為科研人員的生產(chǎn)力、科學(xué)研究的生產(chǎn)效率帶來(lái)提升。
更具體地來(lái)看,AlphaFold2和ESMFold這一類算法,最早影響到的就是基于蛋白質(zhì)結(jié)構(gòu)的材料設(shè)計(jì)與藥物設(shè)計(jì),從David Baker團(tuán)隊(duì)的蛋白質(zhì)結(jié)構(gòu)設(shè)計(jì)工作中也可窺見(jiàn)一二。
結(jié)構(gòu)預(yù)測(cè)模型使蛋白質(zhì)設(shè)計(jì)獲得了非常迅猛的進(jìn)展,對(duì)藥物遞送、藥物開(kāi)發(fā)等工作產(chǎn)生了直接的沖擊。
就我所關(guān)注的小分子而言,很多靶點(diǎn)目前還沒(méi)有合適的結(jié)構(gòu),現(xiàn)在利用AlphaFold2的技術(shù),大家也在探索是否可以預(yù)測(cè)一些適合進(jìn)行藥物開(kāi)發(fā)的靶點(diǎn)口袋。
AI制藥企業(yè)英矽智能此前就做了一些類似的工作,基于AlphaFold2進(jìn)行藥物開(kāi)發(fā)。
這些進(jìn)展都是實(shí)實(shí)在在的證明,AlphaFold2和ESMFold這些工具經(jīng)過(guò)未來(lái)的持續(xù)優(yōu)化,也會(huì)在藥物設(shè)計(jì)領(lǐng)域逐漸占據(jù)重要的位置。
雷峰網(wǎng):AI技術(shù)天然具有快速迭代的特征,制藥卻是一項(xiàng)戰(zhàn)線漫長(zhǎng)的工作,兼具這兩種特征的AI制藥,應(yīng)該怎樣融合兩種思維?
謝昌諭:現(xiàn)在的AI技術(shù)的確發(fā)展很快,但這并不完全是AI技術(shù)本身的特質(zhì)。
節(jié)奏快更多是互聯(lián)網(wǎng)企業(yè)的特征,只是目前很多很好的AI工作都是由互聯(lián)網(wǎng)公司完成的,可能大家因此認(rèn)為所有AI技術(shù)一定都是快速迭代的。
此外,目前AI制藥領(lǐng)域的初創(chuàng)公司,其實(shí)更多還是聚焦在早期藥物研發(fā)的階段,比如藥物發(fā)現(xiàn)等等。
在這些環(huán)節(jié)中,利用AI等技術(shù)已經(jīng)能夠縮短研發(fā)時(shí)間,所以戰(zhàn)線也不算特別長(zhǎng)了。
因此,就節(jié)奏快慢而言,AI技術(shù)與早期藥物研發(fā)似乎并沒(méi)有太大沖突。
比較關(guān)鍵的是,做計(jì)算的可以不斷地去試錯(cuò)并調(diào)整,但做藥的人往往會(huì)更謹(jǐn)慎的去對(duì)待不同的實(shí)驗(yàn)嘗試。
面向藥物研發(fā)這樣復(fù)雜的工程難題,一個(gè)團(tuán)隊(duì)里也應(yīng)該存在不同的價(jià)值觀或聲音,大家通過(guò)交流,協(xié)商出更好的解決方案。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。