丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
生物醫(yī)藥 正文
發(fā)私信給任平
發(fā)送

0

「AI預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)第一人」許錦波:十年冷清終不渝,一個(gè)計(jì)算生物學(xué)的拓荒者

本文作者: 任平 2022-10-26 10:30
導(dǎo)語(yǔ):“就算博士幾年一點(diǎn)結(jié)果都做不出來(lái)也沒(méi)關(guān)系,大不了去硅谷寫(xiě)代碼、當(dāng)碼農(nóng)?!?

許錦波的人生分水嶺是2016年秋天。

他提出的RaptorX-Contact方法,首次證明深度學(xué)習(xí)可以大幅提升蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)精度。

長(zhǎng)期原地徘徊、進(jìn)步有限的研究領(lǐng)域終于邁出實(shí)質(zhì)性的一步,各界掀起了AI預(yù)測(cè)熱潮,無(wú)數(shù)公司獲得了進(jìn)入生命科學(xué)的時(shí)代入場(chǎng)券。

外界給他加封了一個(gè)頭銜:AI預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)全球第一人。

從2005年開(kāi)始,許錦波就在芝加哥大學(xué)附屬的豐田技術(shù)研究所開(kāi)展科研和教學(xué)工作。

這是一所受慈善捐助而成立的獨(dú)立計(jì)算機(jī)科學(xué)研究所。許錦波時(shí)間寬裕,每年的教學(xué)工作只有兩個(gè)月,很少受科研經(jīng)費(fèi)困擾。能靜下心來(lái)做研究,是他留在那兒的重要原因。

2021年9月,許錦波回國(guó)創(chuàng)業(yè)。2022年1月,他的公司成立,取名為“分子之心”(MoleculeMind)。此后,由許錦波牽頭,分子之心在國(guó)內(nèi)組建了一支25人左右的團(tuán)隊(duì),其中不乏生物計(jì)算、計(jì)算機(jī)科學(xué)、生物化學(xué)物理等多學(xué)科背景的研究人員和工程師。

4月份,公司完成數(shù)千萬(wàn)美元天使輪融資。

關(guān)于許錦波和他二十多年來(lái)的研究故事,被凝練成一句話:從冷清走向熱鬧,從象牙塔走向聚光燈。

「AI預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)第一人」許錦波:十年冷清終不渝,一個(gè)計(jì)算生物學(xué)的拓荒者

金麟豈是池中物

1990年下半年,還在讀高三的許錦波,在全國(guó)高中數(shù)學(xué)聯(lián)賽中獲江西賽區(qū)第一名,成為江西臨川縣獲得該類(lèi)獎(jiǎng)項(xiàng)的第一人。競(jìng)賽結(jié)果出來(lái)后 ,許錦波收到了國(guó)內(nèi)最好的五、六所大學(xué)發(fā)來(lái)的入學(xué)通知書(shū)。其中一封,就來(lái)自中國(guó)科學(xué)技術(shù)大學(xué)(下稱“中科大”)。

彼時(shí),中科大經(jīng)過(guò)一系列的教學(xué)改革創(chuàng)新,在中外合作培養(yǎng)事業(yè)上取得了長(zhǎng)足進(jìn)步,在國(guó)內(nèi)外聲譽(yù)鵲起,被《Nature》雜志撰文稱為“招風(fēng)的大樹(shù)”。

出生在安徽合肥的楊振寧更是多次訪問(wèn)中科大,并擔(dān)任理學(xué)院名譽(yù)院長(zhǎng),倡導(dǎo)在中科大少年班中設(shè)立計(jì)算機(jī)軟件專(zhuān)業(yè),推動(dòng)中國(guó)計(jì)算機(jī)科學(xué)發(fā)展與國(guó)際水平接軌。

在老師和親朋的建議下,許錦波思索再三,對(duì)數(shù)學(xué)的熱愛(ài)轉(zhuǎn)移到理論研究上,便將志愿定為“中科大計(jì)算機(jī)科學(xué)技術(shù)系”,并選擇了更偏向理論研究的“計(jì)算機(jī)算法”專(zhuān)業(yè)。

雖然專(zhuān)業(yè)偏向理論,但許錦波先于多數(shù)同學(xué)上手代碼和實(shí)際項(xiàng)目。大三下學(xué)期(五年制),他在校外找了一份工作,在一家做金融服務(wù)軟件的美國(guó)公司(合肥辦公室),主要做美國(guó)股票分析系統(tǒng)的用戶界面。

90年代初,許錦波用的還是元老級(jí)的編程語(yǔ)言——Borland C/C++來(lái)開(kāi)發(fā)項(xiàng)目,寫(xiě)了多少行代碼,他已經(jīng)記不清,但寫(xiě)代碼的能力卻得到了鍛煉。

他回憶道,“那時(shí)還沒(méi)有實(shí)習(xí)的想法,更多是想打工掙錢(qián)。當(dāng)然學(xué)校機(jī)房確實(shí)沒(méi)幾臺(tái)電腦,學(xué)校更強(qiáng)調(diào)把基礎(chǔ)打牢,四大力學(xué)是必修課。”

抱著深造的目的,許錦波決定碩士研究計(jì)算機(jī)的另一分支——計(jì)算機(jī)系統(tǒng) 。用他自己的話講,“當(dāng)時(shí)想學(xué)怎么造計(jì)算機(jī)。”

1996年,許錦波進(jìn)入中國(guó)科學(xué)院計(jì)算技術(shù)研究所(下稱“中科院計(jì)算所”)。在那里,許錦波結(jié)緣中科院一支高性能計(jì)算研究組——曙光組。

90年代初,時(shí)任國(guó)家智能計(jì)算機(jī)研究開(kāi)發(fā)中心主任的李國(guó)杰,帶著一支沒(méi)有設(shè)計(jì)經(jīng)驗(yàn)的隊(duì)伍,承擔(dān)了研發(fā)“超級(jí)計(jì)算機(jī)”的重任。就在許錦波到來(lái)的前一年,曙光組做出一個(gè)重要決定:863計(jì)劃下一個(gè)目標(biāo)產(chǎn)品曙光2000,不再沿著計(jì)劃原定的“超級(jí)計(jì)算機(jī)”方向走,而是轉(zhuǎn)向研制“超級(jí)服務(wù)器”。

「AI預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)第一人」許錦波:十年冷清終不渝,一個(gè)計(jì)算生物學(xué)的拓荒者

李國(guó)杰(身穿深色襯衣者)

兩者區(qū)別在于,超級(jí)計(jì)算機(jī)主要用于科學(xué)工程計(jì)算,從計(jì)算速度上追趕國(guó)際先進(jìn)水平。而超級(jí)服務(wù)器是更加通用的高端計(jì)算機(jī),除科學(xué)計(jì)算外,更多地用于事務(wù)處理與網(wǎng)絡(luò)服務(wù)。

這一決策也影響了許錦波后面的研究方向。

三年里,許錦波的重心放在了“分布式系統(tǒng)以及計(jì)算機(jī)安全”,陸續(xù)參與了曙光組的前沿項(xiàng)目,如虛擬主機(jī)系統(tǒng)、高可靠性系統(tǒng)等工程化項(xiàng)目。

他的朋友以及合作者對(duì)他的評(píng)價(jià)是:無(wú)需助手,能獨(dú)立進(jìn)行一項(xiàng)課題,獨(dú)立用算法實(shí)現(xiàn)一系列想法。這種能力,很大程度上得益于這段工作經(jīng)歷。

許錦波說(shuō),“代碼能力將成為不可忽視的底層能力,不僅是計(jì)算機(jī)專(zhuān)業(yè)要這么做,每一個(gè)理工人都要視其為基本功?!?/p>

一悟歸身處,何山路不通

1999年,南斯拉夫大使館事件讓中美關(guān)系陷入僵局。轉(zhuǎn)去加拿大,成了當(dāng)時(shí)很多人求學(xué)和任教的共同選擇。許錦波也是如此。

這一年,他去往加拿大南部腹地的大學(xué)——滑鐵盧大學(xué)(臨近多倫多),繼續(xù)攻讀計(jì)算機(jī)科學(xué)系。

在許錦波入校前,學(xué)校指派了一位做并行算法的印度裔教授Prabhakar Ragde為其導(dǎo)師。這位導(dǎo)師指導(dǎo)寬松,第一年,許錦波涉獵各個(gè)領(lǐng)域的論文,找感興趣的科研方向。

「AI預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)第一人」許錦波:十年冷清終不渝,一個(gè)計(jì)算生物學(xué)的拓荒者

Prabhakar Ragde教授

2001年上半年,人類(lèi)基因組計(jì)劃(HGP)比原計(jì)劃提前兩年完成,歷時(shí)11年的多國(guó)合作項(xiàng)目落下帷幕,隨即進(jìn)入了“功能基因組學(xué)”時(shí)代,研究的重心由基因組的“結(jié)構(gòu)”向基因的“功能”,也就是向蛋白組學(xué)轉(zhuǎn)移。

學(xué)術(shù)界一個(gè)明顯趨勢(shì)是,越來(lái)越多的學(xué)者愿意用計(jì)算機(jī)科學(xué)解決一些實(shí)際的生物學(xué)問(wèn)題。兩個(gè)學(xué)科的結(jié)合越來(lái)越緊密,直至融合形成一個(gè)新興學(xué)科——計(jì)算生物學(xué)。

許錦波深受鼓舞,抱著試試看的心情,他毛遂自薦轉(zhuǎn)入方向更為契合的滑鐵盧大學(xué)李明教授組里。

為何轉(zhuǎn)入李明門(mén)下?

實(shí)際上,許錦波本碩就讀時(shí),李明曾先后到中科大和計(jì)算所做過(guò)兩次講座,當(dāng)時(shí)李明已憑借Kolmogorov復(fù)雜性、不可壓縮方法、信息距離理論等研究,享譽(yù)計(jì)算機(jī)科學(xué)界。

1990年,李明做出了長(zhǎng)度為O(n log n) 的超串來(lái)逼近長(zhǎng)度為n的最短超串,成果發(fā)表至計(jì)算機(jī)科學(xué)領(lǐng)域的頂級(jí)會(huì)議期刊FOCS。

一年后,李明找到在加拿大麥克馬斯特大學(xué)任教的姜濤,以及從荷蘭來(lái)的訪問(wèn)學(xué)生John Tromp,合作鉆研最短超串(shortest superstring)解決法。

正在此時(shí),三人發(fā)現(xiàn)MIT的Avrim Blum、貝爾實(shí)驗(yàn)室的Mihalis Yannakakis,也在鉆研這一問(wèn)題,并且也獨(dú)立得到了修改過(guò)的貪婪算法線性解。最后,五人合作發(fā)布了一篇STOC論文《 Linear approximation of shortest superstrings》。

后來(lái),這一證明被收錄至眾多計(jì)算生物教科書(shū)中。

因此,在許錦波轉(zhuǎn)入其門(mén)下時(shí),李明已經(jīng)成為生物信息學(xué)的一位大家。

按理說(shuō),李明在停薪留職期間不收學(xué)生,但他欣賞這位后生,兩人都畢業(yè)于中科院計(jì)算所,說(shuō)起來(lái)師出同門(mén)。于是,李明從Prabhakar Ragde那里要來(lái)了許錦波,算是合作培養(yǎng)。

2001年,許錦波正式做起了計(jì)算生物學(xué)。初次接觸,李明對(duì)許錦波說(shuō),“有一個(gè)很難的問(wèn)題,研究蛋白質(zhì)折疊,想不想做?”

「AI預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)第一人」許錦波:十年冷清終不渝,一個(gè)計(jì)算生物學(xué)的拓荒者

李明教授

那時(shí)候,學(xué)界已經(jīng)研究了四十年的蛋白質(zhì)結(jié)構(gòu)問(wèn)題,一直難有大突破。李明也從未將此課題向任何學(xué)生提及,甚至他自己也未涉足這一課題。

許錦波為什么愿意接手?

多年后,他回憶起這個(gè)決定:“我們選擇研究課題的時(shí)候,通常要選擇一些比較重要和困難的問(wèn)題,如果問(wèn)題不重要,就沒(méi)必要花時(shí)間研究;如果問(wèn)題不難,幾年之內(nèi)就被別人做出來(lái),也沒(méi)有多大意義?!?/p>

對(duì)27歲的許錦波來(lái)說(shuō),接下導(dǎo)師拋過(guò)來(lái)的這一選題,也意味著他要進(jìn)行一次大范圍的自我轉(zhuǎn)變。不過(guò),許錦波也不覺(jué)得這是明顯的換方向,仍然是用計(jì)算的方法解決問(wèn)題,只不過(guò)對(duì)象換成了生物學(xué)。

不過(guò),緊接著他又補(bǔ)了一句,“就算博士幾年一點(diǎn)結(jié)果都做不出來(lái)也沒(méi)關(guān)系,大不了去硅谷寫(xiě)代碼、當(dāng)碼農(nóng)?!?/p>

許錦波說(shuō)的不無(wú)道理。

加拿大最早成立計(jì)算機(jī)科學(xué)系,就在滑鐵盧大學(xué)。而該系所屬的二級(jí)學(xué)院,正是加拿大唯一且全球最大規(guī)模的獨(dú)立數(shù)學(xué)院——滑鐵盧數(shù)學(xué)院。作為數(shù)學(xué)院最具傳奇色彩的計(jì)算機(jī)科學(xué)系,微軟、谷歌、Facebook早早就來(lái)?yè)屛串厴I(yè)的學(xué)生。

決定從一個(gè)非常熱門(mén)的領(lǐng)域跳出來(lái),去做生物學(xué)研究,無(wú)論對(duì)誰(shuí)來(lái)說(shuō)都需要很大的勇氣。

許錦波也沒(méi)想到,這次轉(zhuǎn)變將影響他一生的科研方向:在此后的二十余年時(shí)間里,他的任務(wù)就是開(kāi)發(fā)和優(yōu)化算法,去無(wú)限縮小蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)結(jié)果和真實(shí)構(gòu)型之間的差距。

不過(guò),開(kāi)始研究生物學(xué)問(wèn)題的半年時(shí)間,許錦波就很痛苦,“論文專(zhuān)業(yè)術(shù)語(yǔ)都看不懂,也沒(méi)人可以問(wèn)?!?/p>

許錦波坦言,當(dāng)時(shí)他只有高中的一點(diǎn)點(diǎn)生物知識(shí)?;F盧大學(xué)是強(qiáng)理工科背景,僅有一個(gè)很小的生物系,他跟生物系教授沒(méi)有很多交流。此外,導(dǎo)師李明還在加州學(xué)術(shù)休假,不像現(xiàn)在發(fā)個(gè)微信就可以交流,師生二人兩個(gè)月才能見(jiàn)一次面。

那段時(shí)間,許錦波只能靠自己去啃論文,除了吃飯睡覺(jué)全是做科研。

“可能和大家印象中的科研形象不一樣”,許錦波笑著說(shuō)到,“一個(gè)生物學(xué)家的實(shí)驗(yàn)室是各種試管和試劑,但作為計(jì)算生物學(xué)家,全部的科研工作都在一臺(tái)電腦上完成?!?/p>

「AI預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)第一人」許錦波:十年冷清終不渝,一個(gè)計(jì)算生物學(xué)的拓荒者


左圖為生物學(xué)家實(shí)驗(yàn)室,右圖為許錦波實(shí)驗(yàn)室

這也詮釋了計(jì)算生物學(xué)領(lǐng)域的研究手段,既有傳統(tǒng)的生物實(shí)驗(yàn),即濕實(shí)驗(yàn);也有包括計(jì)算手段在內(nèi)的數(shù)學(xué)建模、數(shù)值仿真、數(shù)據(jù)分析,或是機(jī)器學(xué)習(xí),即干實(shí)驗(yàn)。

和傳統(tǒng)的濕實(shí)驗(yàn)相比,干實(shí)驗(yàn)最大優(yōu)勢(shì)即不需要特別大的經(jīng)費(fèi)投入,其次是比較靈活,可以隨時(shí)開(kāi)展一個(gè)新的研究項(xiàng)目。

那段時(shí)間,許錦波沿用一種干實(shí)驗(yàn)方法研究蛋白質(zhì)折疊——能量?jī)?yōu)化。

他解釋到,安芬森法則是蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)的基石。在安芬森這個(gè)假設(shè)和理論基礎(chǔ)之下,科學(xué)家們?nèi)プ龅鞍踪|(zhì)折疊預(yù)測(cè),都是從能量?jī)?yōu)化的角度去做。如果將這種方法教給計(jì)算機(jī),就可以一步步優(yōu)化能量,從而達(dá)到預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)的目的。

2002年,李明學(xué)術(shù)休假結(jié)束,回到滑鐵盧,許錦波馬上告訴了他一個(gè)好消息,“馬上要開(kāi)始今年的CASP(全球蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)比賽)了,我們也去參加。”

結(jié)果是,許錦波在全自動(dòng)高通量蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)的評(píng)比中一舉奪冠。

不過(guò),許錦波認(rèn)為,“雖然排名最好,但不是大的突破,因?yàn)轭A(yù)測(cè)結(jié)果并不比以前的方法好很多?!?/p>

他重新梳理那一年來(lái)的工作,發(fā)現(xiàn)這一思路有著天然缺陷。

“第一,一個(gè)蛋白質(zhì)是一個(gè)非常大的體系,由成千上萬(wàn)個(gè)原子組成,對(duì)應(yīng)一個(gè)非常巨大的搜索空間,構(gòu)型是千變?nèi)f化的。第二,雖然說(shuō)大家普遍接受蛋白質(zhì)折疊到最小能量狀態(tài),但能量函數(shù)到底是什么樣的?我們本身就對(duì)能量函數(shù)的理解還不是特別好。”

在當(dāng)時(shí)一大批學(xué)者紛紛比拼更好的能量?jī)?yōu)化方法之際,許錦波站在了這一方法的對(duì)面:把生物學(xué)問(wèn)題當(dāng)成純粹的算法問(wèn)題,或許并不能從根本上解決問(wèn)題。

“傳統(tǒng)的能量?jī)?yōu)化方法可能不是一個(gè)很好的路徑。”

十年磨一劍,霜刃未曾試

2003年,許錦波博士畢業(yè)后計(jì)劃赴美,開(kāi)啟博士后工作。

然而,受2001年9月11日恐怖襲擊影響,美國(guó)政府一度收緊了赴美學(xué)生簽證,許錦波的簽證一直處于被審查狀態(tài)。

無(wú)奈之下,許錦波選擇暫留本校任教,一邊做助理教授,一邊等待簽證過(guò)審。

這也讓許錦波錯(cuò)失了拜入徐鷹(時(shí)任佐治亞大學(xué)生物信息系主任)門(mén)下的重要機(jī)會(huì)。而導(dǎo)師李明曾推薦他去哈佛,最終也不了了之。

等待的時(shí)間里,許錦波做了一個(gè)新問(wèn)題——蛋白質(zhì)的側(cè)鏈結(jié)構(gòu)預(yù)測(cè)。

那時(shí),學(xué)術(shù)界對(duì)蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)的研究重心是主鏈蛋白,許錦波博士期間的精力便集中于此。

為何從側(cè)鏈下手?這是因?yàn)?,蛋白質(zhì)三維結(jié)構(gòu)由主鏈和側(cè)鏈共同搭建而成,算法預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)的步驟,是先以蛋白質(zhì)主鏈建模,再根據(jù)主鏈的構(gòu)象為側(cè)鏈建模。

自然界中的蛋白質(zhì)含有20種氨基酸,它們的主鏈幾乎完全相同,而側(cè)鏈差異很大。因此,精準(zhǔn)的蛋白質(zhì)側(cè)鏈建模對(duì)蛋白質(zhì)折疊和蛋白質(zhì)設(shè)計(jì)至關(guān)重要。

簽證背調(diào)用了近一年時(shí)間,許錦波也在這個(gè)方向上投入了近一年時(shí)間。

他并沒(méi)有沿用當(dāng)時(shí)學(xué)界的主流方法,通過(guò)SCWRL軟件做近似優(yōu)化,而是將圖論算法引入側(cè)鏈結(jié)構(gòu)預(yù)測(cè),成功地將側(cè)鏈結(jié)構(gòu)預(yù)測(cè)的時(shí)間,從十幾個(gè)小時(shí)縮短至幾分鐘。除了速度提高了上百倍外,新方法還可用于構(gòu)象復(fù)雜性更高的蛋白結(jié)構(gòu)。

“這算得上是側(cè)鏈結(jié)構(gòu)預(yù)測(cè)中,第一個(gè)不需要完全暴力運(yùn)算的算法?!?/p>

2004年,許錦波將成果投遞于RECOMB(國(guó)際計(jì)算分子生物學(xué)大會(huì))。這是與ISMB(國(guó)際計(jì)算生物學(xué)會(huì))齊名的計(jì)算生物學(xué)兩大頂級(jí)會(huì)議之一,會(huì)議從1997年開(kāi)始舉辦,自2003年后投稿數(shù)量開(kāi)始增加,接收率降低到20%左右。

此后很多年,許錦波陸續(xù)在RECOMB會(huì)議上分享過(guò)多次研究成果,并獲得了諸多獎(jiǎng)項(xiàng),如2009年最佳海報(bào)獎(jiǎng)、2014年最佳論文獎(jiǎng)、2019年時(shí)間檢驗(yàn)獎(jiǎng)。

許錦波印象最深的,還是2004年第一次投遞RECOMB。他記得,2004年上半年,自己的簽證終于過(guò)審。于是馬上動(dòng)身前往MIT,開(kāi)始了博士后生涯。2005年,該論文被RECOMB順利接收,許錦波被邀請(qǐng)前往波士頓做會(huì)議報(bào)告。

在那時(shí),這一成果并沒(méi)有受到很多生物學(xué)家的關(guān)注,這和學(xué)術(shù)圈里的一個(gè)規(guī)律有關(guān)。

許錦波解釋道,“一般而言,多數(shù)生物學(xué)家認(rèn)為期刊論文更有價(jià)值,但在計(jì)算機(jī)領(lǐng)域,科研成果有很高的時(shí)效性,投稿一般都選擇學(xué)術(shù)會(huì)議,便于和同行交流?!?/p>

拿當(dāng)下最熱的深度學(xué)習(xí)來(lái)說(shuō),2014年AlexNet算是第一個(gè)大獲全勝的DL模型,距今僅8年時(shí)間,已經(jīng)變成了公認(rèn)的老古董。大約同年,生成對(duì)抗網(wǎng)絡(luò)GAN出現(xiàn)。截至目前,起碼有幾百種能叫上來(lái)名字的GAN變種。

2015年,物體檢測(cè)領(lǐng)域R-CNN被提出,深度學(xué)習(xí)正式攻陷此領(lǐng)域,之后fast-RCNN、faster-RCNN、YOLO、SSD、mask-RCNN,幾乎每年都有重大突破。

因此,計(jì)算機(jī)領(lǐng)域日新月異的發(fā)展特性,決定了重要結(jié)果幾乎先在會(huì)議上分享,其次才會(huì)在期刊里發(fā)表會(huì)議文章的擴(kuò)充版本。

許錦波不知道的是,就在報(bào)告現(xiàn)場(chǎng),他的成果吸引了一個(gè)人的特別關(guān)注。

幾天后,許錦波收到了一封郵件,邀請(qǐng)他將成果整理為期刊論文發(fā)表,落款是時(shí)任Journal of the ACM(計(jì)算機(jī)科學(xué)領(lǐng)域頂級(jí)期刊)的德國(guó)編委,Thomas Lengauer。

「AI預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)第一人」許錦波:十年冷清終不渝,一個(gè)計(jì)算生物學(xué)的拓荒者

Thomas Lengauer教授

曾于2018年至2021年擔(dān)任國(guó)際計(jì)算生物學(xué)學(xué)會(huì)主席的Lengauer,與許錦波的經(jīng)歷相似。

自20世紀(jì)90年代初以來(lái),Lengauer的研究重點(diǎn)從理論計(jì)算機(jī)轉(zhuǎn)向計(jì)算生物學(xué),其中一個(gè)研究方向就是蛋白質(zhì)結(jié)構(gòu)和功能預(yù)測(cè)。2001年后,他一直擔(dān)任馬克斯普朗克信息學(xué)研究所(MPlI,位于德國(guó))計(jì)算生物學(xué)和應(yīng)用算法部主任。

而當(dāng)時(shí)他所擔(dān)任編委的JACM,正是ACM (Association for Computing Machinery,國(guó)際計(jì)算機(jī)學(xué)會(huì)) 的官方刊物,遴選標(biāo)準(zhǔn)極為苛刻,只刊登對(duì)計(jì)算機(jī)科學(xué)有長(zhǎng)遠(yuǎn)影響的論文,理論偏向性很重。成立至今的68年里,僅發(fā)表了3000篇論文,平均一年不到50篇。

收到來(lái)信后,許錦波馬上在論文中加入了一些理論結(jié)果,并于2005年投遞于JACM。

而這一意外之舉,直接將許錦波的命運(yùn)向前推了一把。在此之后,許錦波的研究得到了計(jì)算機(jī)學(xué)者、生物學(xué)者、以及計(jì)算生物學(xué)家等更多人的支持,為他留美任教埋下了重要伏筆。

2005年,許錦波去往芝加哥大學(xué)附屬的豐田技術(shù)研究所(另譯:豐田工大芝加哥分校,TTIC,Toyota Technological Institute Chicago)任教。

TTIC是豐田工業(yè)大學(xué)與芝加哥大學(xué)共建的獨(dú)立計(jì)算機(jī)科學(xué)研究所,于2003年9月正式運(yùn)營(yíng),目前僅13名正式教授。

與眾多高校不同的是,該研究所成立之初曾獲2.6億美元捐助,資金充足、支持力度大,可以支付大部分科研經(jīng)費(fèi)。

21世紀(jì)初,機(jī)器學(xué)習(xí)還沒(méi)有邁入黃金時(shí)期,該研究所便意識(shí)到機(jī)器學(xué)習(xí)的價(jià)值,將其作為研究方向之首。此后,許錦波的研究方法逐漸從能量?jī)?yōu)化轉(zhuǎn)換為機(jī)器學(xué)習(xí),便是受研究所影響。

許錦波表示,傳統(tǒng)的機(jī)器學(xué)習(xí)方法是直接把蛋白質(zhì)的氨基酸序列映射到一個(gè)三維構(gòu)型上去,比基于物理或是統(tǒng)計(jì)的方法做得好一點(diǎn),但并沒(méi)有得到本質(zhì)上的改變,以至于大家認(rèn)為蛋白質(zhì)結(jié)構(gòu)問(wèn)題沒(méi)辦法預(yù)測(cè)出來(lái)。

這段時(shí)間,很多人做不出新成果,申請(qǐng)研究經(jīng)費(fèi)也非常困難,陸陸續(xù)續(xù)從蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)轉(zhuǎn)向其他領(lǐng)域,比如RNA結(jié)構(gòu)預(yù)測(cè)、系統(tǒng)生物學(xué)等。

那種冷清直接反應(yīng)在人數(shù)上:CASP會(huì)場(chǎng)中不足兩百人,僅有新世紀(jì)初的三分之一。

許錦波的朋友也多次勸說(shuō)他換個(gè)方向:憑他的能力,完全有機(jī)會(huì)在其他領(lǐng)域再起爐灶。

許錦波沒(méi)有動(dòng)搖,他解釋說(shuō),“這和我的性格也有關(guān)系,而且我的團(tuán)隊(duì)一直不大,不想分散精力去管理一個(gè)大團(tuán)隊(duì),做太多不同的方向?!?/p>

「AI預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)第一人」許錦波:十年冷清終不渝,一個(gè)計(jì)算生物學(xué)的拓荒者

許錦波在豐田技術(shù)研究所任教時(shí)留影

一直到2014年,局面出現(xiàn)一線轉(zhuǎn)機(jī)。

2012年,深度學(xué)習(xí)開(kāi)始在圖像識(shí)別領(lǐng)域展示出威力。許錦波很自然地想到,能不能用深度學(xué)習(xí)去做蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)。

2014年,許錦波設(shè)計(jì)了一種新的深度學(xué)習(xí)算法,從更為簡(jiǎn)單的問(wèn)題入手——預(yù)測(cè)蛋白質(zhì)的二級(jí)結(jié)構(gòu),即肽鏈主鏈骨架原子的空間位置排布,不涉及氨基酸殘基側(cè)鏈。測(cè)試發(fā)現(xiàn),深度學(xué)習(xí)對(duì)這個(gè)簡(jiǎn)單問(wèn)題有效。

這個(gè)時(shí)候,生物信息學(xué)領(lǐng)域里,只有極少數(shù)人關(guān)注到深度學(xué)習(xí)這一新的工具。

2015年和2016年,許錦波再次開(kāi)發(fā)了一種更好的深度學(xué)習(xí)算法,可以直接用來(lái)預(yù)測(cè)蛋白質(zhì)的三維結(jié)構(gòu)。許錦波解釋道,“與能量最優(yōu)化的傳統(tǒng)方法不同,深度學(xué)習(xí)帶來(lái)的新思路是預(yù)測(cè)原子之間的相互作用關(guān)系?!?/p>

很多人對(duì)此后的事情并不陌生。

2016年暑假,許錦波開(kāi)發(fā)出第一代人工智能方法RaptorX,證明了深度殘差卷積神經(jīng)網(wǎng)絡(luò)可以大幅度提高蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)的性能。

許錦波表示,“我們當(dāng)時(shí)預(yù)測(cè)的一個(gè)有兩百多個(gè)氨基酸的膜蛋白的結(jié)構(gòu),誤差大概是2.29個(gè)埃,已經(jīng)非常接近用實(shí)驗(yàn)技術(shù)解出來(lái)的結(jié)構(gòu)的分辨率?!?/p>

2016年全球蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)比賽(CASP12),許錦波的這一方法震驚了在場(chǎng)人。這一年秋天,許錦波在自己的研究所召開(kāi)了一個(gè)小型報(bào)告,邀請(qǐng)了芝加哥大學(xué)生物物理系合作者,共同探討研究成果。

其中一位是芝加哥大學(xué)生物物理系的博士后,在聽(tīng)完許錦波報(bào)告后,全力轉(zhuǎn)向深度學(xué)習(xí)方法,并在一兩個(gè)月后加入Deepmind。他就是后來(lái)領(lǐng)導(dǎo)DeepMind團(tuán)隊(duì),設(shè)計(jì)了AlphaFold人工智能系統(tǒng)的John Jumper博士。

「AI預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)第一人」許錦波:十年冷清終不渝,一個(gè)計(jì)算生物學(xué)的拓荒者

John Jumper,被《Nature》評(píng)為2021年度十大科學(xué)人物

隨后,許錦波也將論文成果公布于網(wǎng)絡(luò),發(fā)布后的第一個(gè)月,即在領(lǐng)域內(nèi)引起了一波關(guān)注。

2017年1月,這篇論文正式發(fā)表于國(guó)際計(jì)算生物學(xué)的官方期刊 PLoS Computational Biology,并在2018年上半年拿到了該刊創(chuàng)新突破獎(jiǎng)。

在2018年的CASP 13中,許錦波進(jìn)一步在比賽中驗(yàn)證他的深度學(xué)習(xí)方法,激勵(lì)了蛋白質(zhì)結(jié)構(gòu)學(xué)界的許多研究小組,其中最具代表性的要屬DeepMind、Baker兩支團(tuán)隊(duì),相繼推出了 AlphaFold2、RoseTTAFold等AI模型,將AI預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)的研究推向高潮。

許錦波也逐漸有了“AI預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)全球第一人”的稱號(hào)。

不過(guò),這個(gè)成果本可以更早。因?yàn)?015年,許錦波就組織了學(xué)生去實(shí)現(xiàn)他的想法,但沒(méi)有成功。2016年初,騰出一些時(shí)間的許錦波開(kāi)始親自寫(xiě)代碼,直至七八月份完成初步成果。

還有一個(gè)小插曲是,這一成果最初投遞的是《Nature》子刊,但是審稿的編輯不太相信結(jié)果?!耙?yàn)檫@個(gè)問(wèn)題研究很多年了,一直沒(méi)有什么進(jìn)展,他不認(rèn)為我們能做得這么好?!笔聦?shí)上,無(wú)論是從方法還是成果上看,深度卷積殘差網(wǎng)絡(luò)都超前于時(shí)代。

所以,即便是跟隨許錦波多年的學(xué)生,或是權(quán)威雜志的審稿人,都很難理解他和他的成果。許錦波說(shuō),“當(dāng)時(shí)計(jì)算機(jī)科學(xué)背景的人都在扎堆做序列,研究結(jié)構(gòu)的非常少,所以很多結(jié)構(gòu)預(yù)測(cè)方面的成果不那么受重視?!辈贿^(guò),也有很多人成了許錦波“學(xué)術(shù)上的朋友”。

曾在1994年創(chuàng)辦CASP比賽,現(xiàn)任馬里蘭大學(xué)細(xì)胞生物學(xué)和分子遺傳學(xué)系教授的約翰·莫爾特,對(duì)許錦波的工作作出了肯定。

他評(píng)價(jià)道:“DeepMind在開(kāi)發(fā)一種非常有效的方法方面做得很好。然而,這項(xiàng)工作背后的概念和方法并非憑空而來(lái),關(guān)鍵技術(shù)是深度學(xué)習(xí)方法的應(yīng)用。毫無(wú)疑問(wèn),DeepMind直接建立在許錦波的工作之上?!?/p>

此外,2012年就轉(zhuǎn)向深度學(xué)習(xí),并在許錦波博士階段指導(dǎo)過(guò)他的許東(現(xiàn)密蘇里大學(xué)校董事會(huì)教授),對(duì)許錦波的工作寄予厚望:“錦波是蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)的少數(shù)且最重要的貢獻(xiàn)者之一。隨著蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)在更廣泛的領(lǐng)域中取得進(jìn)展,這一領(lǐng)域很可能再獲得諾貝爾獎(jiǎng)的認(rèn)可?!?/p>

而許錦波的導(dǎo)師李明,更是毫不吝嗇對(duì)愛(ài)徒的贊賞,“他是我在職業(yè)生涯中遇到的最有才華、最杰出的學(xué)者之一。”

一木不成林,百花方為春

蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)的冷清已經(jīng)是過(guò)去式。2020年,AI預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu),被國(guó)際頂級(jí)學(xué)術(shù)期刊《科學(xué)》雜志評(píng)為“十大科學(xué)突破之一”,2021年又被評(píng)為“十大科學(xué)突破之首”。

2021年8月,DeepMind公司在《Nature》上宣布,已將人類(lèi)的98.5%的蛋白質(zhì)預(yù)測(cè)了一遍,計(jì)劃當(dāng)年年底將預(yù)測(cè)數(shù)量增加到1.3億個(gè),達(dá)到人類(lèi)已知蛋白質(zhì)總數(shù)的一半,并且公開(kāi)了AlphaFold2的源代碼,免費(fèi)開(kāi)源有關(guān)數(shù)據(jù)集,供全世界科研人員使用。

現(xiàn)任佐治亞大學(xué)校董事會(huì)教授的徐鷹,過(guò)去二十年來(lái)逐漸跳出蛋白質(zhì)研究,轉(zhuǎn)向了更接近實(shí)際問(wèn)題的腫瘤生物學(xué)??吹皆絹?lái)越多工業(yè)力量的加入,他感嘆,“現(xiàn)在,AI技術(shù)已被應(yīng)用于各種與蛋白質(zhì)相關(guān)的問(wèn)題,但這一切都有跡可循,離不開(kāi)錦波多年來(lái)的堅(jiān)持,他很善于用不同方法不斷改進(jìn)自己的研究工具?!?/p>

許錦波很樂(lè)于看到DeepMind繼承了他的思想。

“這種顛覆帶來(lái)的改變非常大,特別是改變了分子生物學(xué)家做研究的范式——以前分子生物學(xué)家研究一個(gè)蛋白質(zhì),都是基于氨基酸序列去研究蛋白質(zhì)的功能,但現(xiàn)在我們有了精確的結(jié)構(gòu)預(yù)測(cè),分子學(xué)家可以直接基于預(yù)測(cè)出的結(jié)構(gòu)去研究蛋白質(zhì)的功能?!?/p>

被改變的,不僅僅是一種研究方式,更是一個(gè)產(chǎn)業(yè)的崛起。

互聯(lián)網(wǎng)巨頭如微軟、甲骨文、英偉達(dá)、亞馬遜,以及中國(guó)的騰訊、百度、字節(jié)跳動(dòng)和華為等都在競(jìng)相押注“AI for Science”。

許錦波認(rèn)為,“當(dāng)下的確是一個(gè)好時(shí)代?!?/p>

2021年年初,清華大學(xué)智能產(chǎn)業(yè)研究院(AIR)的張亞勤找到許錦波,詢問(wèn)其回國(guó)意向。2021年6月開(kāi)始,許錦波陸續(xù)收到多方投資意向書(shū)。

很快,昌平國(guó)家實(shí)驗(yàn)室的高毅勤教授(現(xiàn)任北京大學(xué)化學(xué)與分子工程學(xué)院教授)、謝曉亮教授(現(xiàn)北京大學(xué)生物醫(yī)學(xué)前沿創(chuàng)新中心主任)也找到許錦波。

兩位教授坦言,國(guó)內(nèi)學(xué)者評(píng)職稱與論文數(shù)量和影響因子強(qiáng)綁定,從事計(jì)算生物學(xué)的人比較吃虧,這個(gè)領(lǐng)域的學(xué)者太少;但如果以計(jì)算機(jī)學(xué)者的身份,更是吃虧。工業(yè)界薪酬高、待遇高,多數(shù)人想去大廠。即便是資格老的教授,門(mén)下無(wú)人的現(xiàn)象常有。

“你愿不愿意回來(lái)?”

這個(gè)問(wèn)題更像是一種期盼。許錦波清楚,培養(yǎng)交叉型人才不是一個(gè)教授能推動(dòng)的,但需要有人站出來(lái)。

「AI預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)第一人」許錦波:十年冷清終不渝,一個(gè)計(jì)算生物學(xué)的拓荒者

高毅勤教授、謝曉亮教授

2021年9月,許錦波回國(guó),將視野轉(zhuǎn)向應(yīng)用空間更大的AI蛋白質(zhì)優(yōu)化設(shè)計(jì)方向。

談及回國(guó)后的創(chuàng)業(yè)規(guī)劃,許錦波表示,“我希望打造一個(gè)有中國(guó)特色的計(jì)算生物學(xué),連接「 產(chǎn)學(xué)研用」,在創(chuàng)新藥研發(fā)、生物材料、合成生物學(xué)等領(lǐng)域做出一些真正有用的東西?!?/p>

他興致勃勃談到,“比如能否把一個(gè)抗體優(yōu)化得更好,使得它能夠跟抗原結(jié)合更好;或者設(shè)計(jì)一個(gè)自然界不存在的蛋白,用它來(lái)做藥或工業(yè)生產(chǎn),比如我們可以設(shè)計(jì)一些新的酶來(lái)提高工業(yè)催化的效率?!?/p>

2022年1月,許錦波的公司成立,取名為“分子之心”(MoleculeMind)。

此后,由許錦波牽頭,分子之心在國(guó)內(nèi)組建了一支25人左右的團(tuán)隊(duì),其中不乏生物計(jì)算、計(jì)算機(jī)科學(xué)、生物化學(xué)物理等多學(xué)科背景的研究人員和工程師。

4月份,公司完成數(shù)千萬(wàn)美元天使輪融資,由紅杉中國(guó)領(lǐng)投,百度風(fēng)投、生命園創(chuàng)投基金、芯航資本、未來(lái)啟創(chuàng)等跟投。

7月份,公司自主研發(fā)的AI大分子優(yōu)化與設(shè)計(jì)平臺(tái)“MoleculeOS”正式亮相,填補(bǔ)了我國(guó)尚沒(méi)有功能完整的AI蛋白質(zhì)設(shè)計(jì)和優(yōu)化平臺(tái)的空白。

8月份,AI蛋白預(yù)測(cè)完成三級(jí)進(jìn)化,全球首發(fā)孤兒蛋白預(yù)測(cè)新算法,進(jìn)一步擴(kuò)大了人類(lèi)在蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)領(lǐng)域的探索效率和邊界。

如今,分子之心計(jì)劃與國(guó)外同行開(kāi)展聯(lián)動(dòng),在全球范圍內(nèi)同步打造專(zhuān)業(yè)的研發(fā)實(shí)驗(yàn)室,并持續(xù)尋找等各方面的優(yōu)秀人才。

作為全球人工智能和生命科學(xué)的交叉領(lǐng)域首屈一指的頂尖華人科學(xué)家,許錦波的社會(huì)責(zé)任是什么?

他有一句話,很能回答這個(gè)問(wèn)題:“AI顛覆了蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè),但這只是一個(gè)開(kāi)始。我希望打造出中國(guó)生物經(jīng)濟(jì)時(shí)代的基礎(chǔ)設(shè)施?!?/p>

「AI預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)第一人」許錦波:十年冷清終不渝,一個(gè)計(jì)算生物學(xué)的拓荒者

分子之心MoleculeOS平臺(tái)框架圖誠(chéng)然,如許錦波一樣,生活在二十世紀(jì)中后期的一些學(xué)者是幸運(yùn)的。他們有機(jī)會(huì)親身見(jiàn)證歷史的發(fā)生——70年代合成生物學(xué)誕生、80年代生物信息學(xué)誕生、90年代人類(lèi)基因研究誕生、新世紀(jì)初基因測(cè)序成果誕生……如今,一個(gè)AI生命科學(xué)的時(shí)代到來(lái)。他們一生的探索都圍繞生命科學(xué)的話題,他們的激情與困惑,真誠(chéng)與彷徨,成為這場(chǎng)科學(xué)探索中不可分割的一部分。幸也,李明、徐鷹、姜濤、潘毅、周耀旗、許東、許錦波,為生命真理的探索并未結(jié)束。

「AI預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)第一人」許錦波:十年冷清終不渝,一個(gè)計(jì)算生物學(xué)的拓荒者

作者注:

1993年,中國(guó)參與人類(lèi)基因組計(jì)劃,生物信息學(xué)科迎來(lái)大爆發(fā)。在近三十年的時(shí)間里,一大批生物、化學(xué)、物理、計(jì)算等專(zhuān)業(yè)的學(xué)者,前仆后繼加入到學(xué)科的產(chǎn)研建設(shè),那是一個(gè)靈感迸發(fā)、情誼綿長(zhǎng)的年代,也是一個(gè)走出質(zhì)疑、迷茫的年代。目前,雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))啟動(dòng)《生物信息學(xué)的三十年往事》專(zhuān)題,陸續(xù)推出了李明、徐鷹、潘毅、周耀旗、許東、許錦波等新老學(xué)者的人物故事,記錄光輝歲月,以照后人之路。關(guān)于生物信息學(xué)的更多故事,歡迎與本文作者吳彤交流,微信號(hào):icedaguniang

雷峰網(wǎng)雷峰網(wǎng)


雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

分享:
相關(guān)文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)