丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能學(xué)術(shù) 正文
發(fā)私信給我在思考中
發(fā)送

0

Bengio 終于換演講題目了!生成式主動學(xué)習(xí)如何讓科學(xué)實驗從尋找“一個分子”變?yōu)閷ふ摇耙活惙肿印保?

本文作者: 我在思考中 2021-11-29 15:02
導(dǎo)語:聽多了系統(tǒng) 1 和系統(tǒng) 2 ?是時候安排一下 GFlowNets 了。

Bengio 終于換演講題目了!生成式主動學(xué)習(xí)如何讓科學(xué)實驗從尋找“一個分子”變?yōu)閷ふ摇耙活惙肿印保?   class=

作為深度學(xué)習(xí)的大牛,Bengio 對系統(tǒng) 1 和系統(tǒng) 2 是真愛,以往的演講主題基本離不開這兩個概念,今年終于換題目了!那么,Bengio 新推的人工智能算法 GFlowNets 究竟有何特別之處?
作者 | 杏花
編輯 | 青暮

2021 年 11 月 1 日至 11 月 2 日,三星在線上舉行為期兩天的 2021三星人工智能論壇(Samsung AI Forum 2021)。今年是論壇舉辦的第 5 年,主題為「未來的人工智能研究」,聚集了世界知名的人工智能領(lǐng)域?qū)W者和行業(yè)專家,交流思想、見解和研究成果,探討人工智能未來的方向。

三星人工智能論壇第一天的主題演講由蒙特利爾大學(xué)的 Yoshua Bengio 教授發(fā)表,Bengio 也是三星人工智能論壇的聯(lián)合主席,是三星人工智能教授。在題為 GFlowNets for Scientific Discovery 的主題演講中,Bengio 提出了一種名為 GFlowNets 的新算法,不局限于在單一性質(zhì)指標下尋找某一個最佳匹配的分子,而是將目標放大,基于生成模型,學(xué)習(xí)到滿足性質(zhì)指標的足夠好的多種分子候選,更一般地說,是滿足此性質(zhì)指標的分子結(jié)構(gòu)的概率分布函數(shù)。

也就是說,結(jié)合生成模型來學(xué)習(xí)科學(xué)實驗數(shù)據(jù),GFlowNets 使得獲取的可行實驗設(shè)置不局限于在單一的量化目標下的單一候選,而可以生成多樣化的實驗候選分布,不僅可以提高對科學(xué)實驗和測試數(shù)據(jù)的預(yù)測精度,更重要的是提高實驗設(shè)置的多樣性。

Bengio 終于換演講題目了!生成式主動學(xué)習(xí)如何讓科學(xué)實驗從尋找“一個分子”變?yōu)閷ふ摇耙活惙肿印保?   class=

實現(xiàn)這一點的關(guān)鍵在于“流”的建模,也就是從一個侯選開始,逐步采樣其它候選,同時在采樣過程中,要通過獎勵函數(shù)設(shè)置保證流入和流出是平衡的,也就是流守恒。具體而言,如上圖所示,就是從初始候選 s_0 到達終端候選 s_12 的獎勵,與從第二候選 s_1 到達終端候選 s_12 的獎勵,是相等的。

Bengio 表示,這種采樣方式與 MCMC 有相似之處,但是相比之下少了很多隨機性,從而計算量大幅降低。

此外,這種基于歷史候選逐步生成新候選的采樣方式,與人類在進行科學(xué)探索時,參考前人成果的方式有相似之處,也就是閱讀和學(xué)習(xí)——構(gòu)建世界模型——提出問題(實驗候選)——向現(xiàn)實世界提問和查詢——獲取反饋——修改世界模型——提出新問題。對于這種不同于傳統(tǒng)的、靜態(tài)的監(jiān)督學(xué)習(xí)的范式,Bengio 將其稱為生成式主動學(xué)習(xí),它讓我們不再局限于尋找“一個分子”,而可以尋找“一類分子”。

相關(guān)論文已經(jīng)發(fā)表在arXiv上,代碼也已經(jīng)開源。

Bengio 終于換演講題目了!生成式主動學(xué)習(xí)如何讓科學(xué)實驗從尋找“一個分子”變?yōu)閷ふ摇耙活惙肿印保?   class=

項目地址:http://folinoid.com/w/gflownet/

Yoshua Bengio:蒙特利爾大學(xué)的全職教授,也是魁北克人工智能研究所 Mila 的創(chuàng)始人和科學(xué)主任,全球公認的人工智能領(lǐng)域的領(lǐng)先專家之一。因在深度學(xué)習(xí)方面的開創(chuàng)性工作而聞名,與 Geoffrey Hinton 和 Yann LeCun 一起獲得了 2018年AM 圖靈獎。2019年,Yoshua Bengio 獲得了著名的基拉姆獎,并于 2021 年成為世界上被引用次數(shù)第二多的計算機科學(xué)家。

Yoshua Bengio 教授作為高級研究員共同指導(dǎo) CIFAR 機器和大腦學(xué)習(xí)計劃,并擔任 IVADO 的科學(xué)總監(jiān)。他是倫敦和加拿大皇家學(xué)會的會員,也是加拿大勛章的官員。

以下是報告全文,AI科技評論進行了不改變原意的整理。



1

論文摘要

這篇論文是關(guān)于從一系列動作中學(xué)習(xí)生成對象(如分子圖)的隨機策略的問題,這樣生成對象的概率與該對象的給定正獎勵成正比。雖然標準回報最大化趨向于收斂到單個回報最大化序列,但在某些情況下,我們希望對一組不同的高回報解決方案進行采樣。

例如,在黑盒函數(shù)優(yōu)化中,當可能有幾輪時,每輪都有大量查詢,其中批次應(yīng)該是多樣化的,例如,在新分子的設(shè)計中。也可以將其視為將能量函數(shù)近似轉(zhuǎn)換為生成分布的問題。雖然 MCMC 方法可以實現(xiàn)這點,但它們很昂貴并且通常只執(zhí)行局部探索。

相反,訓(xùn)練生成策略可以分攤訓(xùn)練期間的搜索成本并快速生成。使用來自時間差異學(xué)習(xí)的見解,我們提出了 GFlowNets ,基于將生成過程視為流網(wǎng)絡(luò)的觀點,使得處理不同軌跡可以產(chǎn)生相同最終狀態(tài)的棘手情況成為可能,例如,有很多方法可以順序地添加原子以生成一些分子圖。我們將軌跡集轉(zhuǎn)換為流,并將流一致性方程轉(zhuǎn)換為學(xué)習(xí)目標,類似于將 Bellman 方程轉(zhuǎn)換為時間差分方法。

我們證明了提議目標的任何全局最小值都會產(chǎn)生一個策略,該策略從所需的分布中采樣,并證明 GFlowNets 在獎勵函數(shù)有多種模式的簡單域和分子合成任務(wù)上的改進性能和多樣性。



2

引言

強化學(xué)習(xí) (RL) 中預(yù)期回報 R 的最大化通常是通過將策略 π 的所有概率質(zhì)量放在最高回報的動作序列上來實現(xiàn)的。在本文中,我們研究了這樣一種場景,我們的目標不是生成單個最高獎勵的動作序列,而是采樣軌跡分布,其概率與給定的正回報或獎勵函數(shù)成正比。

這在探索很重要的任務(wù)中很有用,即我們想從返回函數(shù)的前導(dǎo)模式中采樣。這相當于將能量函數(shù)轉(zhuǎn)化為相應(yīng)的生成模型的問題,其中要生成的對象是通過一系列動作獲得的。通過改變能量函數(shù)的溫度(即乘法縮放)或獲取返回的冪,可以控制發(fā)生器的選擇性,即僅在低溫下從最高模式附近產(chǎn)生或探索更多更高的溫度。

這種設(shè)置的一個激勵應(yīng)用是迭代黑盒優(yōu)化,其中學(xué)習(xí)者可以訪問一個 oracle,該 oracle 可以為每一輪的大量候選者計算獎勵,例如,在藥物發(fā)現(xiàn)應(yīng)用中。當 oracle 本身不確定時,生成的候選者的多樣性尤其重要,比如,它可能由細胞檢測組成,這是臨床試驗的廉價代理,或者它可能由對接模擬的結(jié)果組成(估計候選者小分子與目標蛋白結(jié)合),這是更準確但更昂貴的下游評估(如細胞檢測或小鼠體內(nèi)檢測)的代表。

當調(diào)用 oracle 很昂貴時(例如涉及生物實驗),Angermueller 等人(2020年)已證明在此類探索環(huán)境中應(yīng)用機器學(xué)習(xí)的標準方法是獲取已經(jīng)從 oracle 收集的數(shù)據(jù)(例如一組( x, y) 對,其中 x 是候選解,y 是來自 oracle 的 x 的標量評估)并訓(xùn)練一個監(jiān)督代理 f(被視為模擬器),它從 x 預(yù)測 y。函數(shù) f 或 f 的變體包含其值的不確定性,如貝葉斯優(yōu)化(Srinivas 等人,2010 年;Negoescu 等人,2011 年),然后可以用作獎勵函數(shù) R 來訓(xùn)練生成模型或一項政策,這將為下一次實驗測定產(chǎn)生一批候選物。

搜索使 R(x) 最大化的 x 是不夠的,因為我們希望為一批查詢采樣具有高 R 值的一組代表性 x,即圍繞 R(x) 的模式。請注意,存在獲得多樣性的替代方法,例如,使用批量貝葉斯優(yōu)化(Kirsch 等人,2019)。所提出的方法的一個優(yōu)點是計算成本與批次的大小呈線性關(guān)系(與比較候選對的方法相反,這至少是二次的)。由于可以使用合成生物學(xué)對十萬個候選物進行分析,線性縮放將是一個很大的優(yōu)勢。

因此,在本文中,我們專注于將給定的正獎勵或回報函數(shù)轉(zhuǎn)換為生成策略的特定機器學(xué)習(xí)問題,該策略以與回報成正比的概率進行采樣。在上面提到的應(yīng)用中,我們只在生成一個候選后才應(yīng)用獎勵函數(shù),即除了終端狀態(tài)外,獎勵為零,返回的是終端獎勵。我們處于 RL 所謂的情節(jié)環(huán)境中。

我們的方法將給定狀態(tài)下分配給動作的概率視為與節(jié)點為狀態(tài)的網(wǎng)絡(luò)相關(guān)聯(lián)的流,而該節(jié)點的輸出邊是由動作驅(qū)動的確定性轉(zhuǎn)換。進入網(wǎng)絡(luò)的總流量是終端狀態(tài)(即分區(qū)函數(shù))中獎勵的總和,可以顯示為根節(jié)點(或開始狀態(tài))的流量。我們的算法受到 Bellman 更新的啟發(fā),并在流入和流出每個狀態(tài)的流入和流出流量匹配時收斂。選擇一個動作的概率與對應(yīng)于該動作的輸出流成正比的策略被證明可以達到預(yù)期的結(jié)果,即采樣一個終端狀態(tài)的概率與其獎勵成正比。

此外,我們表明由此產(chǎn)生的 RL 設(shè)置是離策略的;即使訓(xùn)練軌跡來自不同的策略,只要它有足夠大的支持,它也會收斂到上述解決方案。本文的主要貢獻如下:

? 我們提出了 GFlowNets ,這是一種基于流網(wǎng)絡(luò)和本地流匹配條件的非歸一化概率分布的新生成方法:進入狀態(tài)的流必須匹配輸出流。

? 我們證明了 GFlowNets  的關(guān)鍵特性,包括流匹配條件(許多訓(xùn)練目標可以提供)與生成的策略與目標獎勵函數(shù)的匹配結(jié)果之間的聯(lián)系。我們還證明了它的離線特性和漸近收斂性(如果訓(xùn)練目標可以最小化)。此外,我們還證明了Buesing 等人之前(2019 年)將生成過程視為一棵樹,當存在許多可導(dǎo)致相同狀態(tài)的動作序列時,該工作將失敗。

? 我們在合成數(shù)據(jù)上證明了從尋求一種回報模式,而是尋求對整個分布及其所有模式進行建模的有用性。

? 我們成功將 GFlowNet 應(yīng)用于大規(guī)模分子合成領(lǐng)域,并與 PPO 和 MCMC 方法進行了對比實驗。



3

演講全文

今天,我想向大家介紹一種用于科學(xué)發(fā)現(xiàn)的新機器學(xué)習(xí)工具 GFlowNets。在人們所謂的黑盒優(yōu)化,或者應(yīng)該稱為黑匣子探索的背景下,GFlowNets 可以應(yīng)用于科學(xué)發(fā)現(xiàn)的許多領(lǐng)域,比如,發(fā)明新藥物、發(fā)現(xiàn)新材料或者探索未知黑盒過程的良好控制設(shè)置

Bengio 終于換演講題目了!生成式主動學(xué)習(xí)如何讓科學(xué)實驗從尋找“一個分子”變?yōu)閷ふ摇耙活惙肿印保?   class=

我采用這種方法的動機之一,是在因果發(fā)現(xiàn)的背景下發(fā)現(xiàn)良好的因果模型和對觀察的良好解釋。在這些環(huán)境中,我們擁有一個 oracle,或一個黑匣子,或現(xiàn)實世界,或一個實驗裝置,我們可以對它進行查詢,進行試驗,或者可以嘗試輸入 x 的一些配置。

這些輸入是查詢 x,它們進入這個黑匣子,然后我們得到一個輸出 f(x)。f 是一個標量,是我們選擇的 x 的好壞指標。例如,一種分子的某個性質(zhì)有多好?答案一般通過實驗分析得到。我們不知道 f 里面發(fā)生了什么,但我們想找到 f 的高值。也就是說,我們想找到使得 f 很大的 x。更一般地說,我們希望獲得大量好的解決方案。

這里還涉及到一個“多樣性”的概念,以及一個“探索”的概念,因為我們將能夠通過許多路由多次查詢該 oracle。

最初,當我們不太了解 f 時,我們更多處于探索模式。我們將嘗試不同的 x 值,并讓學(xué)習(xí)器對 f 內(nèi)部發(fā)生的事情有所了解。在這些過程即將結(jié)束時,從而獲得有限信息時,我們可能更多處于強化學(xué)習(xí)的“利用”模式

基于池的主動學(xué)習(xí)

因此,這種方法與強化學(xué)習(xí)之間存在聯(lián)系,但也存在差異,并與主動學(xué)習(xí)有關(guān)。經(jīng)典的主動學(xué)習(xí),也稱為基于池的主動學(xué)習(xí)(Pool-based Active Learning),就是這樣工作的。我們有一個像上述一樣的 oracle,它是一個從輸入 x 到某個標量的函數(shù)。我們也有一個例子池 s,我們不知道答案,并希望調(diào)用 oracle 來找出答案。

Bengio 終于換演講題目了!生成式主動學(xué)習(xí)如何讓科學(xué)實驗從尋找“一個分子”變?yōu)閷ふ摇耙活惙肿印保?   class=

所以在主動學(xué)習(xí)的每個階段,學(xué)習(xí)器都會主動提出問題。而在傳統(tǒng)的機器學(xué)習(xí)中,我們只是觀察一組例子,然后從中學(xué)習(xí)。

在這里,除了已有的例子,我們還可以提出問題。例如,“對于一張圖片,正確的標簽是什么?”這就是主動學(xué)習(xí)。

這種方法的問題在于,在許多情況下,我們并沒有一組固定的x配置。相反,我們希望能夠在高維空間中提出任何問題,但這又可能遭遇指數(shù)爆炸。

我們從主動學(xué)習(xí)文獻中學(xué)到的重要教訓(xùn)是如何選擇這些查詢,這里的基本思想是:我們想要估計預(yù)測變量f的不確定性。換句話說,對于要估計的函數(shù),我們希望選擇能夠提供盡可能多信息的問題。

正如我所說,基于池的主動學(xué)習(xí)的問題是無法窮舉,例如,無法窮舉所有的分子,然后只需查詢那些具有高不確定性的分子。我們需要以某種方式處理數(shù)量呈指數(shù)級增長的可能問題。

生成式主動學(xué)習(xí)

所以,我提議遵循的原則是生成式主動學(xué)習(xí)(Generative Active Learning),這是本次演講最重要的內(nèi)容,當學(xué)習(xí)器可以選擇其希望現(xiàn)實世界提供答案的問題時,應(yīng)該進行哪些實驗?

Bengio 終于換演講題目了!生成式主動學(xué)習(xí)如何讓科學(xué)實驗從尋找“一個分子”變?yōu)閷ふ摇耙活惙肿印保?   class=

在高維空間中,一個不錯的方案是:訓(xùn)練一個生成模型,該模型將對好問題進行采樣。

要怎么訓(xùn)練這個模型呢?首先,我們觀察現(xiàn)實世界,然后提出一些問題,接下來進行一些實驗,將這些實驗結(jié)果加載到一個數(shù)據(jù)集中。

因此,有了該數(shù)據(jù)集,我們就可以進行傳統(tǒng)的機器學(xué)習(xí)方法。我們可以學(xué)習(xí)一個模型,比如給定 x 預(yù)測 y,我們也可以使用該模型來篩選潛在問題。

根據(jù)該模型,如果我們發(fā)現(xiàn)一個問題得分很高,比如很高的不確定性,那么這可能是一個好問題。

正如我所說,困難在于潛在的問題太多了。因此,僅憑預(yù)測候選實驗的好壞程度是不夠的,所以我們要訓(xùn)練這個生成模型。不過,我們將以一種與通常的生成模型不太相同的方式來訓(xùn)練它。

通常的訓(xùn)練生成模型的方式是利用一組固定的例子。但在這里,我們有一個由世界模型計算的函數(shù),它會告訴我們特定的實驗有多大用處。我們將采用這種特殊的方式來訓(xùn)練生成模型,尋找生成具有高f值的配置。

可能有很多方法可以做到這一點,但如果目標不僅僅是優(yōu)化,而是找到不同的好的解決方案,那么合理的做法就是將分數(shù)換算。接下來,我們將基于世界模型獲得一種獎勵函數(shù),使得生成模型不是最大化獎勵,而是獲得具有高回報的樣本問題。

Bengio 終于換演講題目了!生成式主動學(xué)習(xí)如何讓科學(xué)實驗從尋找“一個分子”變?yōu)閷ふ摇耙活惙肿印保?   class=

因此,以與獎勵成正比的概率對它們進行采樣??梢远x任何我們想要的獎勵,那么這個解決方案就合適了。但現(xiàn)在有一個數(shù)學(xué)問題:如何將獎勵函數(shù)轉(zhuǎn)換為生成模型,使得這個生成模型可以以與該獎勵函數(shù)成正比的概率進行采樣?

原則上,我們可以將該函數(shù)寫下來。P_T(x) 是從生成模型中采樣的概率,應(yīng)該等于 R(x) ,即對所有可能的獎勵進行歸一化。但歸一化是很困難的,這是我們首先遇到的問題。概率工具箱中有一個工具原則上可以做到這一點,它被稱為蒙特卡羅馬爾科夫鏈。

唯一的問題是,在這些高維空間中,對于我們通常關(guān)心的數(shù)據(jù)類型,這種 MCMC 方法可能非常慢,事實上,由于所謂的模式混合挑戰(zhàn),很難真正找到一組多樣化的解決方案。

Bengio 終于換演講題目了!生成式主動學(xué)習(xí)如何讓科學(xué)實驗從尋找“一個分子”變?yōu)閷ふ摇耙活惙肿印保?   class=

MCMC 方法的工作方式是從初始猜測開始。它們會對初始猜測做一些小改變,然后通常會接受或拒絕這些改變,這樣我們就會傾向于朝著更可能的配置、更高的獎勵配置邁進,如果用正確的數(shù)學(xué)方法做到這一點,最終,樣本鏈就會收斂到來自正確分布的樣本,但這個過程很長。

事實上,讓這條鏈訪問所有模式可能需要指數(shù)時間,或者先定位大部分模式是高概率獎勵的區(qū)域。問題在于,當兩種模式相距較遠時,從一種模式切換到另一種模式可能需要花費大量時間,就像穿越沙漠一樣。

如果是十年前,我會說這是不可行的。我們不能將 MCMC 應(yīng)用于圖像或分子之類的東西,或者有很多模式的高維物體,它們可以被大跨度分開,并且這些模式僅占據(jù)極小的體積,所以我們不能隨便嘗試。但現(xiàn)在有了機器學(xué)習(xí)方法,我們可以使用機器學(xué)習(xí)來代替這種積累試驗而不從中提取有用信息的盲目過程。

Bengio 終于換演講題目了!生成式主動學(xué)習(xí)如何讓科學(xué)實驗從尋找“一個分子”變?yōu)閷ふ摇耙活惙肿印保?   class=

因此,假設(shè)我們已經(jīng)訪問了三種模式,如我們在右側(cè)所見。幸運的是,分布中有結(jié)構(gòu)。事實上,學(xué)習(xí)器注意到我們發(fā)現(xiàn)的這三種模式都位于網(wǎng)格的點上。所以也許這個網(wǎng)格上的第 4 點是一個嘗試的好地方。這就是泛化,或者實際上被稱為系統(tǒng)泛化,我們在遠離數(shù)據(jù)的地方進行泛化。

GFlowNets

我們將使用機器學(xué)習(xí)從模式中泛化,通俗來說,我們基于它運行良好的地方看到的模式來猜測它運行良好的其他地方。我們一直在為此開發(fā)一種特殊的方法,我稱之為 GFlowNets,生成流網(wǎng)絡(luò),這是一種生成模型。

它用于生成問題或結(jié)構(gòu)化的對象,所以我們構(gòu)造對象的方式是通過一系列動作。我們不是一次性生成,而是在一系列動作中生成。例如,在分子的情況下,將碎片添加到圖形中,或者將值附加到一組高維值。

我們稱其為生成流網(wǎng)絡(luò)的原因是它的整個理論基于對非規(guī)范化概率的思考,哪些是流過路徑的流,其中一條路徑告訴我們?nèi)绾螛?gòu)造一個問題,一個對象x。所有的路徑都從一個根節(jié)點開始,到同步節(jié)點結(jié)束,但是有不同的概率——我們將去選擇一些動作,然后選擇其他動作。

Bengio 終于換演講題目了!生成式主動學(xué)習(xí)如何讓科學(xué)實驗從尋找“一個分子”變?yōu)閷ふ摇耙活惙肿印保?   class=

如果看一下這個有向圖,它的路徑數(shù)量呈指數(shù)級增長。一般來說,以及我們想要獲得的是,我們按比例對對象進行采樣,對于給定的函數(shù),是非歸一化概率的數(shù)量,或在類似于終端邊緣上流動——這是我們構(gòu)造對象的最后一步,正是我們想要的獎勵函數(shù)。所以在某種程度上,我們可以做的是修復(fù)這些流。

我們?nèi)绾伟才牌渌吘壍牧??這意味著構(gòu)建對象的策略,使得整個事物是一個流網(wǎng)絡(luò)。如果我們能做到這一點,我們就會得到我們想要的,也就是說,采樣對象的概率將與給定的獎勵函數(shù)成正比。

這就是這張幻燈片要討論的內(nèi)容。這是一系列取自即將在線的技術(shù)報告的定義和命題,所有這些數(shù)學(xué)都表明流程是對應(yīng)的。對于事件的非歸一化概率,這些事件對應(yīng)于軌跡上一組屬性,告訴我們?nèi)绾螛?gòu)造一個對象,因此我們也可以定義與這些流的比率相對應(yīng)的傳統(tǒng)概率。

最重要的是,這些流有局部條件,所以我們將學(xué)習(xí)一個流函數(shù),學(xué)習(xí)一個新的網(wǎng)絡(luò),它輸出一個數(shù)字,一種表示有多少流通過特定邊緣或特定節(jié)點的分數(shù)。如果我們查看每個節(jié)點及其輸入邊和輸出邊,并且進入的流等于流出的流。如果所有節(jié)點都是如此,則流函數(shù)是正確的,它學(xué)到了一些東西,使整個包具有非常好的特性。

如果是這樣,那么采樣對象的概率將與該獎勵函數(shù)成正比,并首先使流具有這些屬性,它是特定點發(fā)生的事情的局部屬性,我們將這些軌跡上的狀態(tài)稱為當我們構(gòu)建這些對象時的狀態(tài)。

Bengio 終于換演講題目了!生成式主動學(xué)習(xí)如何讓科學(xué)實驗從尋找“一個分子”變?yōu)閷ふ摇耙活惙肿印保?   class=

我們可以定義一個名為流匹配訓(xùn)練目標的損失函數(shù),還有其他可以定義的損失函數(shù),但它們都是局部的,只是說在此處的狀態(tài) s_t 中一些流入的流應(yīng)與退出的流的總和相匹配。好消息是,如果從強化學(xué)習(xí)的角度考慮,這個訓(xùn)練目標可以使用我們想要的任何方式采樣的軌跡來應(yīng)用,只要它們?yōu)樗锌赡艿能壽E賦予非零概率。換句話說,這可以離線訓(xùn)練,不必使用來自根據(jù)網(wǎng)絡(luò)流量訪問的策略的樣本進行訓(xùn)練。

現(xiàn)在,我想談一些很酷的東西和意想不到的東西。如果我們對這些定義進行推廣,那么我們的神經(jīng)網(wǎng)絡(luò)預(yù)測流入邊緣或節(jié)點的流現(xiàn)在是有條件的,就像額外的變量輸入。當然我們可以計算條件概率,并使用條件策略進行采樣。

Bengio 終于換演講題目了!生成式主動學(xué)習(xí)如何讓科學(xué)實驗從尋找“一個分子”變?yōu)閷ふ摇耙活惙肿印保?   class=

這有點微不足道,但出乎意料的是,當我們以軌跡本身發(fā)生的事件為條件時,例如,以在問題構(gòu)建過程中遇到過的狀態(tài)為條件,就可以計算一種現(xiàn)代化形式,也稱為自由能。換句話說,這個新網(wǎng)絡(luò)現(xiàn)在可以輸出一個難以處理的數(shù)字。這意味著我們還可以計算條件概率,因為我們已經(jīng)開始構(gòu)建。我們處于動作序列中的特定點,可以計算和采樣從動作序列下游到達其他一些狀態(tài)的概率。

而且,事實上,我們可以用它來計算看起來難以處理的事情,例如熵、條件熵和互信息。所有這些難以處理的數(shù)量,你可能會問我們怎么可能計算出它們?如果與蒙特卡羅馬爾科夫鏈進行比較,又如何?我們是否遇到了一個根本上難以解決的問題。這里可以根據(jù)能量函數(shù)或獎勵函數(shù)對概率進行采樣。我們已經(jīng)把它變成了一旦網(wǎng)絡(luò)經(jīng)過訓(xùn)練就很容易的問題。

Bengio 終于換演講題目了!生成式主動學(xué)習(xí)如何讓科學(xué)實驗從尋找“一個分子”變?yōu)閷ふ摇耙活惙肿印保?   class=

我們已經(jīng)把一個棘手的問題變成了一個簡單的問題。但是我們隱藏了訓(xùn)練本身的復(fù)雜性,也就是所有這些我說的可以計算的結(jié)果。我們可以用正確的概率進行采樣,計算這些自由能和邊緣化。

所有這些結(jié)果只有在我們能夠訓(xùn)練 GFlowNet 的情況下才有可能。因此,如果我們試圖學(xué)習(xí)的獎勵函數(shù)中沒有結(jié)構(gòu),就不可能了,正確訓(xùn)練這個網(wǎng)絡(luò)可能需要指數(shù)級的時間。但是如果有結(jié)構(gòu),如果模式以一種學(xué)習(xí)器可以泛化的方式組織起來,那么就不需要訪問整個空間。例如,如果我們可以猜測,如果查看 GAN 或 VAE 等等生成模型,它們會泛化到從未訪問過的像素配置,并且不需要對其進行訓(xùn)練。

它們不需要在所有可能的像素配置上接受訓(xùn)練,就可以做到這一點。生成之所以發(fā)生是因為底層世界有結(jié)構(gòu)。所以我們可以使用這些結(jié)構(gòu)來潛在地邊緣化高維聯(lián)合概率。我們可以使用這些概率來表示圖上集合的分布,因為圖只是特殊類型的集合。

如果我們有數(shù)據(jù),也可以訓(xùn)練能量函數(shù)。到目前為止,我們已經(jīng)有了這個 GFlowNet,它將學(xué)習(xí)從一個世界模型中為科學(xué)發(fā)現(xiàn)過程采樣問題,該模型可以提供獎勵函數(shù)。但是我們從哪里得到這個獎勵函數(shù)呢?答案是從數(shù)據(jù)中訓(xùn)練它。

現(xiàn)在事實證明,如果想學(xué)習(xí)高維空間上的聯(lián)合分布,學(xué)習(xí)完整的聯(lián)合是很困難的。我們可以利用從能量函數(shù)中采樣的能力來訓(xùn)練模型的能量函數(shù)。此外,還可以使用 GFlowNets 使用經(jīng)典最大值(如梯度)從數(shù)據(jù)中訓(xùn)練能量函數(shù)。在發(fā)現(xiàn)新分子的科學(xué)問題中,我們一直在對此進行一些實驗。

我們已經(jīng)對此進行了訓(xùn)練,并與我提到的 MCMC 方法以及強化學(xué)習(xí)方法進行了比較,我們發(fā)現(xiàn),如果看一下回合順序,在訓(xùn)練系統(tǒng)的地方訓(xùn)練有監(jiān)督的學(xué)習(xí)器,然后訓(xùn)練 GFlowNet 使用新模型對新實驗進行采樣,作為獎勵函數(shù),我們在 GFlowNet 訓(xùn)練后發(fā)送這些查詢。

我們發(fā)現(xiàn),相比其他方法,GFlowNets 能更快地收斂到好的解決方案。此外,它還找到了更多樣化的解決方案。在一些我們知道模式在哪里的問題中,我們可以計算 GFlowNets 是否找到了與現(xiàn)有模式接近的東西,但它甚至發(fā)現(xiàn)了更多模式。所以這是非常令人鼓舞的,我們對發(fā)現(xiàn)中的潛在應(yīng)用感到非常興奮。

參考鏈接:

https://news.samsung.com/global/samsung-ai-forum-2021-day-1-ai-research-for-tomorrow

Bengio 終于換演講題目了!生成式主動學(xué)習(xí)如何讓科學(xué)實驗從尋找“一個分子”變?yōu)閷ふ摇耙活惙肿印保?   class=

雷峰網(wǎng)(公眾號:雷峰網(wǎng))雷峰網(wǎng)


雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

Bengio 終于換演講題目了!生成式主動學(xué)習(xí)如何讓科學(xué)實驗從尋找“一個分子”變?yōu)閷ふ摇耙活惙肿印保? src=

分享:
相關(guān)文章
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說