丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
人工智能學術 正文
發(fā)私信給陳彩嫻
發(fā)送

0

普林斯頓大學王夢迪:從基礎理論到通用算法,看見更大的AI世界觀

本文作者: 陳彩嫻 2021-12-23 15:12
導語:拓展強化學習在復雜現(xiàn)實環(huán)境中的通用性。

強化學習在人工智能領域的「揚名立萬」,始于2016年DeepMind開發(fā)的Alpha Go在圍棋競賽中戰(zhàn)勝人類世界冠軍李世石。
之后,強化學習被廣泛應用于人工智能、機器人與自然科學等領域,并取得一系列突破性成果(如DeepMind的Alpha系列),引起了大批學者的研究興趣與廣泛關注。
事實上,強化學習的研究由來已久,遠遠早于2016年。自上世紀80年代以來,強化學習的核心問題,如探索效率、學習與規(guī)劃的規(guī)模與難度權衡,便在計算機科學、人工智能、控制理論、運籌學與統(tǒng)計學等等領域得到了廣泛研究。
然而,強化學習的基礎理論問題是什么?該領域出色的通用算法應具備哪些要素?如何設計高度可擴展的強化學習算法?……在2019年以前,這一系列重要問題均未得到很好的定義,強化學習也未形成一門獨立的研究學科。
在此契機下,2019年秋天,七位學者組織了西蒙斯強化學習理論大會,召集了來自世界各地對強化學習感興趣的學者,共同探討與梳理強化學習的研究問題。
與1956年的達特茅斯會議相似,該會議的參會者也是來自各個領域,有應用數(shù)學家、統(tǒng)計學家、理論計算機學家,還有通信學家、密碼學家、神經(jīng)學家等等,包括Michael Jordan、Martin Wainwright、Csaba Szepesvari、Ben Recht等等知名學者。
大會長達半年,橫貫一學期,覆蓋四個分論壇,七位發(fā)起人梳理問題,最終確立了強化學習領域的四大核心研究方向:在線強化學習、離線與基于模擬器的強化學習、深度強化學習與應用強化學習。此舉打開了科研人員研究強化學習理論與通用算法的大門,此后,研究強化學習的論文在NeurIPS、ICML等國際頂會上井噴,越來越多學者參與其中,極大地推動了強化學習學科的快速發(fā)展。
西蒙斯大會無疑是強化學習方向的「達特茅斯」。但與達特茅斯會議不同的是,西蒙斯大會的七位發(fā)起人中,有一位華人學者。她就是現(xiàn)任普林斯頓大學終身教授的知名青年科學家王夢迪。


1、從控制論談起

求學期間,王夢迪常被稱為「天才少女」:

14歲上清華,18歲到麻省理工學院(MIT)讀博,師從美國國家工程院院士 Dimitri P.Bertsekas,23歲博士畢業(yè),24歲進入普林斯頓任教、擔任博士生導師,29歲獲得終身教職,斬獲多個重要學術獎項,可謂一部活脫脫的「名校披襟斬棘之史」!

普林斯頓大學王夢迪:從基礎理論到通用算法,看見更大的AI世界觀

圖 / 2018年,王夢迪入選「MIT TR35」中國區(qū)榜單

王夢迪在人工智能領域的探索,始于清華大學自動化系的本科就讀經(jīng)歷。

清華大學自動化系組建于1970年,名師云集,引領著控制工程學科的科技創(chuàng)新,推動現(xiàn)代化和人工智能科技進程??刂普摫闶钱敶斯ぶ悄艿钠鹪粗?。

從原理上看,控制論與強化學習/人工智能系統(tǒng)有著緊密聯(lián)系。

如凱文·凱利在《失控》一書中所言,人工智能的雛形其實很簡單:比方說,早期的抽水馬桶就是一個「人工智能系統(tǒng)」:只要摁一下沖水鍵,馬桶就能在失誤很小的情況下自動完成沖水功能。但凡一個機制能通過反饋完成一個功能,就是人工智能。

普林斯頓大學王夢迪:從基礎理論到通用算法,看見更大的AI世界觀

圖 / Kevin Kelly發(fā)表于1992年的經(jīng)典科普著作《失控》

控制論的核心思路是對一個已知系統(tǒng)設計自我反饋機制以達到特定的目標或最大/最小化目標函數(shù):

人們用一組微分方程或拉普拉斯函數(shù)對需要控制的系統(tǒng)(如機械系統(tǒng)、電氣系統(tǒng)等)進行完整的描述。當系統(tǒng)的模型完全精確已知時,早期研究者無需借助計算機就可以通過數(shù)學的運算直接推導出該系統(tǒng)的最優(yōu)控制策略,從而在物理上設計一個反饋機制,隨著系統(tǒng)狀態(tài)變化給出不同的反饋,實現(xiàn)自動控制。

同樣地,強化學習也是基于系統(tǒng)的狀態(tài),不斷對系統(tǒng)進行動態(tài)操控。區(qū)別在于,對于強化學習算法來說,待控制的系統(tǒng)是一個黑箱函數(shù),不具備完整的數(shù)學描述,難以直接求解最優(yōu)策略。所以,強化學習有潛力解決很多復雜但模糊的新問題,比如游戲的最佳策略,蛋白質(zhì)的設計等等。 

本科期間,王夢迪便是從控制論出發(fā),首次接觸了強化學習算法。

清華自動化系的本科畢業(yè)設計要做一個雙足行走的機器人,在機器人的髖關節(jié)中間加一個小小的電機,目標是用最小的能量讓機器人流暢地行走起來。假設機器腿是完美的剛體結(jié)構(gòu),腿部的擺動可以用拉格朗日方程精確描述。這時,經(jīng)典的控制論就可以找到最優(yōu)的控制策略。

普林斯頓大學王夢迪:從基礎理論到通用算法,看見更大的AI世界觀

圖 / 雙足機器人(圖源網(wǎng)絡)

然而現(xiàn)實的場景往往不符合假設,不存在精確的數(shù)學描述。課題中,要先不施加電機輸入,觀察機器人在斜坡如何利用重力和擺動被動走起來;走起來后,收集它的行走軌跡數(shù)據(jù)。然后,再基于數(shù)據(jù),探索如何通過控制髖關節(jié)的電機,設計一個自適應的反饋系統(tǒng),讓機器人擺脫對重力的依賴、在平地上健步如飛。

面對這樣一個動態(tài)過程,強化學習被派上用場:如果把雙足機器人系統(tǒng)當成一個黑箱函數(shù),基于價值函數(shù)和策略函數(shù)不斷迭代、更新、實驗、逼近,就能通過不斷的試驗進行在線學習,算出一個最適合雙足行走機器人的狀態(tài)-價值函數(shù),找到最優(yōu)控制策略。

普林斯頓大學王夢迪:從基礎理論到通用算法,看見更大的AI世界觀

圖 / 王夢迪在 2017 年中國人工智能大會上作演講,談控制論與人工智能的關系

隨著控制問題的復雜度不斷提升,控制算法對系統(tǒng)建模的依賴也需逐漸放松,注重通過實驗來收集數(shù)據(jù)、從數(shù)據(jù)中總結(jié)模型信息、在線學習來逼近最優(yōu)系統(tǒng)操控策略的強化學習方法將在復雜系統(tǒng)中扮演越來越重要的角色。從這一點來看,控制論成就了人工智能的核心,而強化學習等新興方法又反哺了控制問題的求索:

「比如,下棋本身無法用微分方程來描述,但我們可以一邊下、一邊收集下棋和對手的信息。當我們對要控制的系統(tǒng)的先驗知識越來越少時,我們就越來越依賴于來自經(jīng)驗與數(shù)據(jù)的近似,并利用大規(guī)模深度神經(jīng)網(wǎng)絡進行高通量的計算、擬合和推理。」王夢迪介紹。

基于反饋、優(yōu)化、乃至于深度學習,現(xiàn)代人工智能早已改變了人類的生活和認知,從自動駕駛到機器人流水線,從宏觀電網(wǎng)調(diào)度到微觀的蛋白質(zhì)優(yōu)化??刂普撝械脑S多經(jīng)典思想和方法,比如貝爾曼方程、模擬、反饋、系統(tǒng)辨識等方法,深刻影響了以深度強化學習為代表的現(xiàn)代人工智能研究上。


2、MIT讀博:科研觀的形成

在MIT讀博期間(2007-2013),王夢迪師從 Dimitri P.Bertsekas教授,隸屬于信息與決策系統(tǒng)實驗室(Laboratory for Information and Decision Systems, LIDS),主攻控制算法與隨機優(yōu)化問題。

MIT 的 LIDS 實驗室的研究傳承來自于維納與香農(nóng)。維納是控制論之父,而香農(nóng)是信息論之父,控制論和信息論,分別代表了工業(yè)自動化時代和信息時代的開端。自成立以來,LIDS實驗室的杰出科學家們便追求將控制論與信息論結(jié)合起來,用于復雜系統(tǒng)的智能化和信息化。

王夢迪的博士導師、美國國家工程院院士 Dimitri P.Bertsekas 是自動控制領域的宗師,于控制論、優(yōu)化、運籌、神經(jīng)網(wǎng)絡等多個領域做出過奠基性貢獻。

王夢迪對AI科技評論回憶,讀博那會,導師Bertsekas非常寬松。王夢迪是他的關門弟子,他一直很鼓勵她的發(fā)散性思考,從不否定她的各種腦洞大開的想法,這讓王夢迪進一步釋放了在清華時就開始積淀的對開創(chuàng)性的新問題、新領域的追求:

「我現(xiàn)在回想起來,他從來沒有說過一句令我沮喪的話。如果我處在他的位置,可能對『我』會有挺多意見的?!?/p>

在Bertsekas的門下,王夢迪更多是學習到了一種高級的研究品味。這是一種與大咖導師同行、耳濡目染之下培養(yǎng)的研究思路。

Bertsekas在應用數(shù)學與系統(tǒng)控制方向均有極高的研究造詣,著有《概率導論》、《非線性規(guī)劃》、《隨機優(yōu)化控制》與《強化學習與最優(yōu)控制》等十多本著作與教材,是名副其實的大咖。在他的反復錘煉下,王夢迪慢慢明白一項好的研究工作應當具備怎樣的標準,「他是一點一點地把我拎到了那個高度?!?/p>

普林斯頓大學王夢迪:從基礎理論到通用算法,看見更大的AI世界觀

圖 / Dimitri P. Bertsekas

Bertsekas是2019年完成《強化學習與最優(yōu)控制》一書,彼時,王夢迪已離開導師的庇蔭許久,在強化學習這一她自己獨立拓展的領域打開一片新的天地,成為了人工智能、強化學習領域能夠獨當一面的學者。

對控制論與強化學習的關系思考,也使王夢迪相信:學習效率更高、泛用性更強的算法,是人工智能的未來。


3、機器學習與強化學習理論探索

王夢迪在2014年開始進入普林斯頓擔任助理教授,2019年成為普林斯頓大學的終身教授,之后王夢迪加入了普林斯頓當時剛成立不久的統(tǒng)計與機器學習中心(Center for Statistics and Machine Learning,CSML),是最早加入CSML的教授之一。

CSML的主要研究內(nèi)容是開發(fā)數(shù)據(jù)驅(qū)動的現(xiàn)代機器學習算法,與王夢迪的研究方向更契合。同樣是舉下棋的例子:就下棋而言,智能體的訓練數(shù)據(jù)來自于游戲本身,每嘗試新的玩法、就會收集到新的數(shù)據(jù);在一個可以完美模擬的游戲環(huán)境中,智能體所收集的數(shù)據(jù)量甚至是無上限的。如何從模擬走向現(xiàn)實,即「sim2real」,是人工智能領域面臨的難題之一。

自2015年DeepMind開發(fā)的Alpha Go 在與世界圍棋冠軍李世石的對峙中取勝,強化學習便成為許多人工智能研究員的神往之地,王夢迪也是其中之一。

普林斯頓大學王夢迪:從基礎理論到通用算法,看見更大的AI世界觀

圖 / 普林斯頓大學統(tǒng)計與機器學習中心(CSML)

在早期工作中,王夢迪是將數(shù)學優(yōu)化方法與高維統(tǒng)計相結(jié)合,以解決大規(guī)模機器學習中的圖問題。比如,當圖問題離散組合時,如何利用問題的特殊結(jié)構(gòu),將問題進行對偶分解,從而獲得一個出色的近似解。這一近似解借用了非凸優(yōu)化的對偶性,與非凸問題的最優(yōu)解相近。

她探索過復雜的多層期望嵌套的隨機規(guī)劃問題。通過巧妙的設計多層嵌套隨機梯度法,能夠在線的進行迭代,最終拿到的估計的統(tǒng)計效果與離線進行完整組合分析的效果一致。憑借這項研究,王夢迪在2016年獲得三年頒發(fā)一次的國際數(shù)學規(guī)劃學會青年學者獎(Young Researcher Prize in Continuous Optimization of the Mathematical Optimization Society)。

這些探索性的研究更加深了王夢迪對隨機優(yōu)化理論與機器學習結(jié)合的興趣。接著,她又與斯坦福大學的葉蔭宇(馮諾伊曼理論獎唯一華人獲得者)等人合作,研究馬爾可夫決策鏈(MDP)的理論復雜度與最優(yōu)算法。

MDP是強化學習的基礎模型,同時,MDP的算法復雜度也是運籌學領域的經(jīng)典問題。他們要解決的問題是:當強化學習的樣本來自于馬爾可夫鏈時,要如何研究一個算法的最優(yōu)收斂性與樣本復雜度?如何定義MDP問題的最優(yōu)算法與計算復雜度?從上世紀70年代起,便有許多學者開始研究這些問題,但一直懸而未決。

王夢迪與葉蔭宇等人合作,結(jié)合經(jīng)典的價值迭代算法,以及樣本與方差縮減技巧,首次提出了能基于樣本精確解決MDP的最優(yōu)快速收斂算法,將馬爾可夫決策鏈中的計算復雜度與樣本復雜度做到了最優(yōu)。他們的一系列工作(如“Near-Optimal Time and Sample Complexities for Solving Markov Decision Processes with a Generative Model”)于2019年發(fā)表在了計算機和機器學習頂會NeurIPS、SODA等上。

普林斯頓大學王夢迪:從基礎理論到通用算法,看見更大的AI世界觀

論文地址:https://arxiv.org/pdf/1806.01492.pdf

憑借在馬爾可夫決策鏈復雜度和在線強化學習上的一系列工作,王夢迪在2018年入選了「麻省理工科技評論35歲以下創(chuàng)新35人(MIT TR35)」的中國區(qū)榜單。

后來,她又在強化學習領域做了許多通用算法研究的工作,比如,在特征空間中進行在線自學習;再比如,探索強化學習的未知模:當未知價值函數(shù)屬于一個無限維的抽象函數(shù)空間時,要如何在這個空間里不斷迭代估計,并用該空間的復雜度來描述強化學習算法的效率。這些早期工作,也成為理論強化學習領域的奠基性工作。

2020年,DeepMind發(fā)布新一代強化學習系統(tǒng)Muzero。以往的強化學習算法如AlphaGo和AlphaZero往往只適用于單一類別的游戲。Muzero僅使用像素和游戲分數(shù)作為輸入,同時在Atari、圍棋、象棋等多個單人視頻游戲和雙人零和游戲上超越人類水平,達到AI算法最強戰(zhàn)績。

那時王夢迪正在DeepMind休學術假。她與團隊成員聯(lián)合 DeepMind 的科學家從理論上證明并進一步推廣了Muzero的泛用性,移除了“價值函數(shù)導向回歸”(value target regression)的特殊算法技巧,使得強化學習算法可以在任何一個黑箱環(huán)境中,對未知環(huán)境的變化進行判斷、數(shù)據(jù)收集、并且構(gòu)造后驗概率模型,在一個抽象的大的函數(shù)空間里不斷搜索、縮小模型范圍,對未知環(huán)境及其最優(yōu)策略快速逼近。

該算法同時結(jié)合了 model-based(基于環(huán)境模型的) 和 model-free(不基于環(huán)境模型而是基于價值函數(shù)逼近)的兩派強化學習算法各自的優(yōu)點:對任意的黑箱環(huán)境進行探索、建模、并且利用深度價值網(wǎng)絡快速訓練、快速在線迭代策略,從而煉就了極強的泛化能力。這一系列新成果可以極大提高強化學習的效率,普適性,并降低對昂貴的算力和大規(guī)模數(shù)據(jù)資源的依賴。

普林斯頓大學王夢迪:從基礎理論到通用算法,看見更大的AI世界觀

論文地址:https://arxiv.org/abs/2006.01107


4、拓展強化學習在復雜現(xiàn)實場景中的通用性

所有強化學習的算法都受限于馬爾可夫決策過程中的獎勵可加性 (reward additivity),即「目標價值函數(shù)是每一步所得獎勵的累加值期望」。獎勵的可加性是貝爾曼方程(Bellman Equation)、控制論、乃至所有強化學習算法的數(shù)學基礎。

盡管獎勵的可加性能推導出數(shù)學上優(yōu)美的貝爾曼方程,卻極大地限制了強化學習的應用,因為在大量的非游戲的現(xiàn)實場景中,目標函數(shù)往往不是獎勵的簡單相加。在風險控制、策略模仿、團隊協(xié)作等場景中,真正的目標函數(shù)往往是關于狀態(tài)軌跡的復雜非線性函數(shù),如風險函數(shù)、散度等等,甚至包含復雜的非線性安全約束條件。由于缺乏可加性,這些重要的實際問題無法用強化學習解決。

然而,當可加性不再成立,強化學習和控制的數(shù)學基礎不復存在,我們熟悉的價值函數(shù)(Value Function)也不再存在。同時,策略優(yōu)化算法的基礎——強化學習之父Rich Sutton證明的策略梯度定理(Policy Gradient Theorem)也不復成立。

在智能決策領域,不滿足獎勵可加性的問題無解。

王夢迪團隊挑戰(zhàn)了這個全新的領域,拓展了強化學習的邊界。當面對復雜目標函數(shù)、獎勵不再可加時,王夢迪團隊利用數(shù)學對偶原理,重新定義了策略梯度,得到了全新的更泛用的變分策略梯度定理(Variational Policy Gradient Theorem)。他們證明,對于更復雜的目標函數(shù),其策略梯度依然可以計算,并且其等價于一個極大極小值問題的最優(yōu)解。被重新定義的策略梯度,帶來了全新的算法和應用。也就是說,強化學習可以進一步推廣到金融風控、多智能體、模仿學習等現(xiàn)實場景中。

強化學習的邊界,從獎勵可加的馬爾可夫決策過程,推廣到更一般性的、更復雜的策略優(yōu)化問題。這一系列工作收到了強化學習領域和數(shù)學優(yōu)化領域的關注,連續(xù)兩年在NeurIPS 2020與2021上被選為Spotlight Paper:

  • J Zhang, C Ni, Z Yu, CSzepesvári, M Wang. On the Convergence and Sample Efficiency of Variance-Reduced Policy Gradient Method. (NeurIPS 2021)

  • J Zhang, A Koppel, AS Bedi, C Szepesvari , Mengdi Wang. Variational Policy Gradient Method for Reinforcement Learning with General Utilities. (NeurIPS 2020)

面向未來,王夢迪在強化學習中的另一項重要研究,便是數(shù)據(jù)降維(Dimensionality Reduction)和離線學習 (Offline Learning)。

王夢迪的研究路線一向清晰:從理論研究出發(fā),再將理論上的突破推向?qū)嶋H應用?;陔x線數(shù)據(jù)的、在現(xiàn)實生活中落地的決策優(yōu)化問題,便是王夢迪團隊的一塊「硬骨頭」。

如前所述,在常見的游戲AI任務中,智能體能夠通過不斷模擬實驗來收集數(shù)據(jù),然后用這些數(shù)據(jù)來訓練系統(tǒng)的策略網(wǎng)絡。數(shù)據(jù)越多,算力充足,則算法越強,比如Alpha Go,AlphaStar,就能打敗人類世界的冠軍戰(zhàn)隊。

但在現(xiàn)實生活中,許多關鍵領域,比如醫(yī)學與金融,并不具備像游戲般的完美模擬環(huán)境。因此,在模擬器上十分完美的強化學習算法,在現(xiàn)實生活中就未必能輕松地解決工程問題,比如醫(yī)療場景中的策略優(yōu)化、復雜電力系統(tǒng)的最優(yōu)控制等。這就是sim2real的難點。

王夢迪曾參加過一些醫(yī)療領域和生物技術領域的人工智能探索。在這些項目中,她的任務是將病人的病例數(shù)據(jù)當成「棋譜」,從中學習針對某一病例的診斷策略,并研究能否進一步優(yōu)化診斷流程,降低病人的重癥率。與游戲中的智能體可以「盲目」嘗試、無限模擬不同,在醫(yī)學環(huán)境中,病人沒有辦法做新的實驗,而且數(shù)據(jù)可能極其有限。

在數(shù)據(jù)有限的情況下,研究者還能找到最優(yōu)策略嗎?亦或者是否可以退而求其次,將現(xiàn)有的策略進行最大程度的提高?如果要繼續(xù)做實驗,那么應該如何進行,才能以最小的代價收集到這些數(shù)據(jù)?這些問題,也就是「離線強化學習」所關心的問題。

顯然,離線強化學習更看重「有效率」的嘗試。王夢迪與團隊通過數(shù)據(jù)降維的embedding方法,將數(shù)據(jù)從高維空間切換到低維空間,從而保留最有內(nèi)容的信息,規(guī)避數(shù)據(jù)的過度擬合現(xiàn)象,為離線強化學習的研究開辟了新的道路。這些新探索在AI+醫(yī)療、新金融、AI「智造」等領域帶來新的可能性。


5、面向未來的AI

應用數(shù)學和基礎理論,往往是發(fā)現(xiàn)通用算法的起點。研究問題的通用性,逐漸拓寬研究的邊界,加速了學科的交流與合作,也成就了王夢迪更大的研究世界觀。

強化學習、統(tǒng)計優(yōu)化是王夢迪組的兩大研究方向,但她并沒有將自己局限于機器學習的范疇。

青年科學家如王夢迪,成長于學科漸趨深度融合的大環(huán)境,也擁有了更大的研究世界觀。在科研上,他們站在巨人的肩膀上,追求探索與創(chuàng)新的工作??鐚W科作為火花碰撞的主要口子之一,自然對新一代的研究員有著致命的吸引力。

如果說達特茅斯會議的頭腦風暴,是學科知識融合的起切口,那么,「AI for Science」(將人工智能應用于科學研究)似乎是人工智能首次作為一門成熟的獨立學科,加入到學科間的交流中??茖W領域的「大熔爐」是否會形成?答案仍未揭曉,但趨勢卻漸顯。

「普林斯頓以科學為本,也愿意站在一個更高的理論角度來思考學科的發(fā)展,對AI for Science十分關注。」王夢迪談道。

王夢迪對「AI for Science」的關注,始于2019年。那時,王夢迪在學術休假期間加盟DeepMind,兼職任高級研究科學家,也接觸到了許多將人工智能技術用于科學研究的工作,比如能夠預測蛋白質(zhì)結(jié)構(gòu)的 AlphaFold,不久前用神經(jīng)網(wǎng)絡求解混合整數(shù)規(guī)劃(MIP)問題等。

王夢迪與團隊追求創(chuàng)新研究,探索前人沒有涉足過的問題。在她看來,機器學習領域更多基礎問題已經(jīng)解決,但在應用中還有大片空白。比如,在 AI 與生物學、AI與醫(yī)療、AI與材料等的結(jié)合研究中,學科間的融合是一大難點。

在與跨學科的科學家合作的過程中,王夢迪的一個感受是:兩個領域的學者在定義問題的語言與方式上十分不同:

「機器學習的研究者習慣一上來就先問數(shù)據(jù)是什么、輸入輸出是什么,而自然科學的科學家可能對『輸入』的概念很模糊。尤其是當數(shù)據(jù)少時,我們會需要對數(shù)據(jù)進行遷移學習,了解其他關聯(lián)數(shù)據(jù),分析數(shù)據(jù)之間的相似性,尋找內(nèi)在邏輯和圖譜等等。所以,要設計機器學習算法來輔助science,還要有大量溝通。」

不過,王夢迪并不沮喪。DeepMind是將人工智能應用在科學研究上的領頭羊。來自 DeepMind 與其他機器學習領域的科學家的自信也感染了王夢迪:

「DeepMind的價值觀就是要推動人類文明的進步。我感覺研究人工智能的學者都非常自信,覺得自己有能力解決世界上最難的問題。這種自信非常棒,會給予自己主觀能動性,也會感染其他學者,幫助不同學科的人更快、更好地聯(lián)合在一起,去解決原先以為難于登天的問題?!?/p>

近日,王夢迪與團隊在這方面也取得了不錯的成果:他們將單細胞的狀態(tài)(來自于單細胞的逆轉(zhuǎn)因子測序)當成一個系統(tǒng)來進行強化學習建模,通過高通量的單細胞測序數(shù)據(jù)來重建一個單細胞的狀態(tài)變化軌跡,甚至找到它的重要隱變量,從而預測干細胞的分化和癌癥細胞的病變。他們用深度學習的方法優(yōu)化堿基序列和蛋白質(zhì)氨基酸序列,輔助開發(fā)新的基因編輯、基因治療工具。

問及為何「AI for Science」的首選領域是結(jié)構(gòu)生物學,王夢迪解釋:主要原因是結(jié)構(gòu)領域的數(shù)據(jù)相對多;即使沒有數(shù)據(jù),還可以用分子動力學進行計算模擬。很多AI在藥物發(fā)現(xiàn)上的突破,即是從這個角度出發(fā),用深度學習進行加速,做泛化性處理。然而在數(shù)據(jù)量更稀少的問題上,還有大片空白等待探索。

談起DeepMind,王夢迪非常愛戴,這個由世界頂級科學家創(chuàng)立的科研機構(gòu)在用 AI 推動科學進步、社會進步的進程上敢為天下先,給全世界的學者帶來了信心。但與此同時,DeepMind也無需被過度神化:「單就強化學習的應用技術而言,國內(nèi)的領頭羊,比如騰訊 AI Lab、阿里達摩院、滴滴等,并不比DeepMind差?!?/p>

追溯DeepMind發(fā)展飛快的更深一層原因,是 DeepMind 的科學家在母公司谷歌的支持下,能夠自由地探索研究。相比之下,「國內(nèi)應該沒有一個 AI 機構(gòu)能像 DeepMind 一樣拿到那么多沒有限制的資源。所以,從資源投入的角度來看,將任何一個以前的研究機構(gòu)與 DeepMind 比都是不公平的?!?/p>


6、青年學者的樂觀主義

王夢迪對人工智能的未來十分樂觀。

她認為,機器學習仍在快速發(fā)展,當越來越多學科與知識融入其中,也必然產(chǎn)生越來越多的新問題。從這個角度來看,后繼者在可以前人的基礎上開辟新的道路,深度學習的瓶頸未必是人工智能研究的瓶頸。年輕的科學家們有機會拓展機器學習的邊界、甚至科學的邊界,在AI的大領域中找到自己的位置。

也許是年齡與所帶領的博士生相仿,王夢迪似乎更能理解學生的想法,愿意支持學生做各種各樣的選擇。無論是進入學術界傳承衣缽,亦或進入工業(yè)界推動技術落地;是做應用和產(chǎn)品,還是理論研究,她認為,這些方式都能推動人工智能發(fā)展,無以臧否。雷峰網(wǎng)

這一點,顯然是受到了Bertsekas的影響。在她讀博時,導師便從未否定過她的想法,而是支持她做任何事情。

她所指導的許多博士生與博士后,如今也已卓有成就,比如楊林,加入了UCLA擔任助理教授,是NeurIPS 2020論文入選最多的華人學者(9篇);酈旭東,如今已是復旦大學大數(shù)據(jù)學院的副教授;張君宇,現(xiàn)任新加坡國立大學副教授;郝博韜, 如今是DeepMind的強化學習科學家;Saeed Ghadimi,現(xiàn)任Waterloo大學商學院教授。

普林斯頓大學王夢迪:從基礎理論到通用算法,看見更大的AI世界觀

圖 / 王夢迪(最右)在普林斯頓任教

王夢迪對AI人才的發(fā)展也是樂觀的。她相信,當AI被應用于越來越多的領域,AI的研究人才必然是時代發(fā)展的中流砥柱。只是,AI人才要掌握的知識與技能能將不斷增多,跨學科知識的學習大概率是新的突破口之一。雷峰網(wǎng)(公眾號:雷峰網(wǎng))

而與此同時,年輕的學者也生活在一個有機會接觸到多學科知識的時代。在學科深度融合的洪流中,個體的成長道路畢竟更寬廣。雷峰網(wǎng)

所以,「年輕人就應該樂觀,世界屬于他們?!雇鯄舻险劦?。

參考鏈接:

1. https://www.tsinghua.edu.cn/info/1673/69827.htm

2. https://simons.berkeley.edu/programs/rl20


雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

普林斯頓大學王夢迪:從基礎理論到通用算法,看見更大的AI世界觀

分享:
相關文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說