0
| 本文作者: 這只萌萌 | 2017-04-18 10:36 |
最近,機器學(xué)習(xí)在化學(xué)領(lǐng)域的應(yīng)用有很大進展,特別是化學(xué)搜索問題,從藥物篩選、電池設(shè)計到OLEDs設(shè)計,催化劑的發(fā)現(xiàn)。 歷史上化學(xué)家使用薛定諤方程做數(shù)值近似來解決化學(xué)檢索問題,如使用密度泛函理論(DFT),然而近似值的計算成本限制了搜索的規(guī)模。
為了能夠擴大搜索能力,雷鋒網(wǎng)了解到已有幾個研究小組使用DFT生成的訓(xùn)練數(shù)據(jù),創(chuàng)建ML模型來預(yù)測化學(xué)性質(zhì),例如Matthias Rupp等用機器學(xué)習(xí)模型來預(yù)測各種有機分子的原子化能,J?rg Behler 和 Michele Parrinello引入DFT勢能面的一種新的神經(jīng)網(wǎng)絡(luò)表征。在這些工作的基礎(chǔ)之上,谷歌研究院在QM9基準(zhǔn)數(shù)據(jù)集(配有DFT計算的電子,熱力學(xué)和振動性質(zhì)的分子集合)上應(yīng)用了各種機器學(xué)習(xí)方法。
雷鋒網(wǎng)消息,谷歌研究院發(fā)布了兩篇論文,介紹了他們在這一領(lǐng)域的研究,研究工作由Google Brain團隊,Google Accelerated Science團隊,DeepMind和巴塞爾大學(xué)合作完成。 第一篇論文《Fast machine learning models of electronic and energetic properties consistently reach approximation errors better than DFT accuracy》調(diào)查了回歸分子和分子表征的選擇對快速機器學(xué)習(xí)模型的影響,模型用于構(gòu)建有機分子的十三個基態(tài)電子性質(zhì),每個回歸/表征/性質(zhì)組合的性能通過學(xué)習(xí)曲線評估,該曲線描繪近似誤差,以此作為訓(xùn)練集大小的函數(shù)。論文在QM9基準(zhǔn)數(shù)據(jù)集上測試了多種機器學(xué)習(xí)方法,并集中改進最有希望的深層神經(jīng)網(wǎng)絡(luò)模型。
第二篇論文《Neural Message Passing for Quantum Chemistry》描述了一種稱為消息傳遞神經(jīng)網(wǎng)絡(luò)(MPNN)的模型族,將其抽象地定義為包含很多對圖形對稱性具有不變性的神經(jīng)網(wǎng)絡(luò)模型。研究團隊在MPNN模型族中開發(fā)了新變體,性能明顯優(yōu)于QM9基準(zhǔn)測試的所有基準(zhǔn)測試方法,另外某些目標(biāo)的性能改進了近四倍。
從機器學(xué)習(xí)的角度來看,分子數(shù)據(jù)之所以有趣,原因之一是一個分子的自然表征以原子作為邊界的結(jié)點和鍵。能夠利用數(shù)據(jù)中固有對稱性的模型更容易泛化,這很容易理解,卷積神經(jīng)網(wǎng)絡(luò)在圖像識別上之所以成功,一部分原因是模型能夠記住圖像數(shù)據(jù)中的一些不變性知識,比如把一種圖片中的狗挪到圖片左邊還是一張狗的照片)。 圖形對稱性這一固有特征是機器學(xué)習(xí)處理圖像數(shù)據(jù)非常理想的性質(zhì),在這領(lǐng)域也有許多有趣的研究,例如Yujia Li等研究了結(jié)構(gòu)化圖片的特征學(xué)習(xí)技巧,David Duvenaud等應(yīng)用圖像神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)分子指紋信息,Steven Kearnes等提出一種機器學(xué)習(xí)模型用于無向圖的學(xué)習(xí)。盡管這一領(lǐng)域已有所進展,谷歌研究院希望找到化學(xué)(和其他)應(yīng)用模型的最佳版本,并找出文獻中提到的不同模型之間的聯(lián)系。
谷歌研究院提出的MPNN模型提高了QM9數(shù)據(jù)集任務(wù)(預(yù)測所有13種化學(xué)性質(zhì))的最好性能,在這個特定的數(shù)據(jù)集上,他們的模型可以準(zhǔn)確地預(yù)測13種性質(zhì)中的11個,這樣的預(yù)測性能已經(jīng)足夠準(zhǔn)確,能對化學(xué)家未來的應(yīng)用有幫助。另外,此模型比使用DFT模擬要快30萬倍。但是在MPNN模型走向?qū)嶋H應(yīng)用之前還有很多工作要做。實際上,MPNN模型必須應(yīng)用于比QM9數(shù)據(jù)更多樣化的分子集合(例如數(shù)目更大,變化更大的重原子集合)。當(dāng)然,即使有了更真實的數(shù)據(jù)集,模型的泛化性能還是很差??朔陨蟽蓚€挑戰(zhàn)需要解決機器學(xué)習(xí)研究的核心問題,例如泛化。
預(yù)測分子性質(zhì)是一個非常重要的問題,它既是先進的機器學(xué)習(xí)技術(shù)的應(yīng)用場景,也為機器學(xué)習(xí)帶來了非常有趣的基礎(chǔ)研究課題。最后,分子性質(zhì)的預(yù)測有助于造福人類的新藥物和材料的設(shè)計。谷歌科學(xué)家們認(rèn)為傳播研究成果,幫助其他研究者學(xué)習(xí)機器學(xué)習(xí)應(yīng)用都是及其重要的。
封面圖片來自Chemistry Explained,雷鋒網(wǎng)編譯
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。