丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能學(xué)術(shù) 正文
發(fā)私信給蔣寶尚
發(fā)送

0

《Nature》最新研究:大腦中存在分布式強(qiáng)化學(xué)習(xí)機(jī)制

本文作者: 蔣寶尚 2020-01-16 18:12
導(dǎo)語:多巴胺細(xì)胞驅(qū)動

《Nature》最新研究:大腦中存在分布式強(qiáng)化學(xué)習(xí)機(jī)制

作者 | DeepMind

編譯 | 雷鋒網(wǎng) AI 科技評論


雷鋒網(wǎng)編者按:人工智能與神經(jīng)科學(xué)/腦科學(xué)之間存在剪不斷理還亂的關(guān)系。從人工智能誕生之初,其研究就深受神經(jīng)科學(xué)的影響,包括人工神經(jīng)網(wǎng)絡(luò)、強(qiáng)化學(xué)習(xí)等諸多算法;最近較火的類腦計算,更是提出“brain-inspire”的想法。然而,我們常聽,人工智能研究受神經(jīng)科學(xué)/腦科學(xué)啟發(fā);那么,神經(jīng)科學(xué)/腦科學(xué)的研究能否受人工智能研究的啟發(fā)呢?

DeepMind最近發(fā)表在《Nature》上的文章正是這樣的的典范,在分布式強(qiáng)化學(xué)習(xí)的啟發(fā)下,他們研究了小鼠多巴胺細(xì)胞的生理機(jī)制,發(fā)現(xiàn)大腦中同樣在使用「分布式強(qiáng)化學(xué)習(xí)」。這樣的研究,一方面促進(jìn)了神經(jīng)科學(xué)的發(fā)展,另一方面也驗證了AI研究走在正確的道路上。學(xué)習(xí)和動機(jī)是由內(nèi)、外部獎勵所驅(qū)動的。我們的許多日常行為都以預(yù)測或預(yù)測給定的行動是否會帶來積極的(即有益的)結(jié)果為指導(dǎo)。

《Nature》最新研究:大腦中存在分布式強(qiáng)化學(xué)習(xí)機(jī)制

巴浦洛夫在他最著名的實驗中,訓(xùn)練狗在鈴聲響起后會產(chǎn)生期待食物的反應(yīng),這些狗在食物到達(dá)之前聽到聲音就開始流唾液,這表明它們已經(jīng)學(xué)會了預(yù)測獎勵。在最初的實驗中,巴甫洛夫通過測量它們產(chǎn)生的唾液量來估計它們的期望。不過最近幾十年中,科學(xué)家們開始破譯大腦如何學(xué)習(xí)這些期望的內(nèi)部運作方式。

與神經(jīng)科學(xué)家的研究同時,計算機(jī)科學(xué)家們也在人工系統(tǒng)中不斷地開發(fā)強(qiáng)化學(xué)習(xí)的算法,這些算法使AI系統(tǒng)不需要外部指導(dǎo)(而是由獎勵預(yù)測指導(dǎo))即可學(xué)習(xí)復(fù)雜的策略。

《Nature》最新研究:大腦中存在分布式強(qiáng)化學(xué)習(xí)機(jī)制

DeepMind近期發(fā)表在Nature上的一項新的工作是,受計算機(jī)科學(xué)最新的研究(對強(qiáng)化學(xué)習(xí)算法的重大改進(jìn))啟發(fā),他們?yōu)榇竽X中獎勵學(xué)習(xí)的一些以前無法解釋的特征提供了一個深刻而簡約的解釋,并由此開辟了研究大腦多巴胺系統(tǒng)的新途徑??芍^是人工智能研究反哺神經(jīng)科學(xué)/腦科學(xué)的典范。

預(yù)測鏈:時間差分學(xué)習(xí)

強(qiáng)化學(xué)習(xí)是人工智能與神經(jīng)科學(xué)結(jié)合形成的最為「古老」且強(qiáng)大的思想,早在80年代末就已經(jīng)出現(xiàn)。當(dāng)時的計算機(jī)科學(xué)研究人員試圖設(shè)計一種算法,把獎勵和懲罰作為反饋信號融入到機(jī)器的學(xué)習(xí)過程,目的是讓機(jī)器能夠自動執(zhí)行復(fù)雜的行為。獎勵行為可以強(qiáng)化機(jī)器的行為,但是要解決一個特定的問題,即必須了解當(dāng)前機(jī)器的行為如何帶來未來的回報;為了預(yù)測某項行為帶來的未來的總回報,通常有必要對未來采取許多措施。

時間差分算法(TD)的出現(xiàn)為解決獎勵預(yù)測問題找到額突破口,TD使用一種數(shù)學(xué)技巧,通過一個非常簡單的學(xué)習(xí)過程代替對未來的復(fù)雜推理,還能得到相同的結(jié)果。簡單的說,TD算法并不計算所能得到的未來的總回報,而是僅僅預(yù)測即時獎勵以及下一步驟所能獲得的獎勵。 然后,當(dāng)下一刻出現(xiàn)新信息時,將新的預(yù)測與預(yù)期的進(jìn)行比較。

如果它們不同,則算法會計算出它們之間的差異,并使用此“時間差分”將舊的預(yù)測調(diào)整為新的預(yù)測。不斷調(diào)整,使期望與現(xiàn)實相匹配,從而使整個預(yù)測鏈逐漸變得更加準(zhǔn)確。大約在20世紀(jì)80年代末和90年代初,神經(jīng)科學(xué)家研究了多巴胺神經(jīng)元的行為,并發(fā)現(xiàn)此神經(jīng)元的放電和獎勵有某種關(guān)系,而且這種關(guān)系依賴于感覺輸入,并且如果研究目標(biāo)(例如動物)在一項任務(wù)中變得更加有經(jīng)驗,則這種關(guān)系也會發(fā)生改變。

20世紀(jì)90年代中期,有一批科學(xué)家同時對神經(jīng)科學(xué)和人工智能都非常精通。他們注意到:有一些多巴胺神經(jīng)元的反饋意味著獎勵預(yù)測的錯誤,例如與訓(xùn)練時的預(yù)期相比,當(dāng)動物得到過多或過少的獎勵時,這些多巴胺就會放電發(fā)出信號。這些科學(xué)家于是提出了大腦使用的TD算法,即考慮多巴胺的反饋,并用于驅(qū)動學(xué)習(xí)。此后這種多巴胺獎勵預(yù)測誤差理論( reward prediction error theory of dopamine)在數(shù)千個實驗中得到驗證,并成為了神經(jīng)科學(xué)中最成功的定量理論之一。

分布式強(qiáng)化學(xué)習(xí)

計算機(jī)科學(xué)家的腳步并未停留于此,自2013年以來,越來越多的研究人員開始關(guān)注深度強(qiáng)化學(xué)習(xí),這種在強(qiáng)化學(xué)習(xí)中用深度神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)表示的算法,能夠極為有效的解決復(fù)雜問題。 

《Nature》最新研究:大腦中存在分布式強(qiáng)化學(xué)習(xí)機(jī)制

雷鋒網(wǎng)注:圖 1 :概率表示未來可能得到的獎勵,如上圖所示,紅色表示正向結(jié)果,綠色表示負(fù)向結(jié)果。

分布強(qiáng)化學(xué)習(xí)是其中的代表,它能讓強(qiáng)化學(xué)習(xí)發(fā)揮出更加優(yōu)異的效果。在許多情況下(尤其是在現(xiàn)實世界中),特定動作所產(chǎn)生的未來獎勵具有隨機(jī)性。如上圖所示,圖中的“小人”并不知道是跨過缺口,還是掉進(jìn)去,所以預(yù)測獎勵的概率分布圖形出現(xiàn)了兩個凸起:一個代表跌落;一個代表成功跨過。傳統(tǒng)的TD算法采用的方式是預(yù)測未來獎勵的平均值,這顯然無法獲得獎勵分布的兩個峰值(凸起),這時候分布強(qiáng)化學(xué)習(xí)則可以預(yù)測到所有的可能性。

悲觀/樂觀預(yù)測譜 

最簡單的分布強(qiáng)化學(xué)習(xí)算法與標(biāo)準(zhǔn)TD密切想關(guān),這種算法也稱為分布式TD。兩者的區(qū)別是:標(biāo)準(zhǔn)TD算法學(xué)習(xí)單個預(yù)測或者預(yù)測的期望值;而分布式TD則學(xué)習(xí)的是一組不同的預(yù)測,這組預(yù)測中的每一個都采用標(biāo)準(zhǔn)TD方法學(xué)習(xí)。但關(guān)鍵的因素是,每個預(yù)測器都會對其獎勵預(yù)測誤差應(yīng)用不同的轉(zhuǎn)換。

《Nature》最新研究:大腦中存在分布式強(qiáng)化學(xué)習(xí)機(jī)制

圖 2:a:“悲觀的”細(xì)胞將放大負(fù)向獎勵或忽略正向獎勵,樂觀的細(xì)胞將放大正向獎勵或忽略負(fù)向獎勵;b:獎勵累積分布圖;c:獎勵的完整分布圖

如上圖a所示,當(dāng)獎勵預(yù)測誤差為正時,一些預(yù)測器有選擇地“放大”或“加碼”獎勵預(yù)測誤差(RPE)。與獎勵分配的較高部分相對比,這種方法能夠讓預(yù)測器學(xué)習(xí)到一個更樂觀的獎勵預(yù)測。同樣如上圖所示,其他預(yù)測因子放大了它們的負(fù)獎勵預(yù)測誤差,因此學(xué)習(xí)更悲觀的預(yù)測。綜上所述,包含悲觀和樂觀獎勵的預(yù)測器能夠繪制完整的獎勵分布圖。 除了簡單之外,分布式強(qiáng)化學(xué)習(xí)的另一個好處是,與深度神經(jīng)網(wǎng)絡(luò)結(jié)合使用時,它會非常強(qiáng)大。在過去5年中,基于原始的深度強(qiáng)化學(xué)習(xí)DQN agent的算法取得了很大進(jìn)展,并且經(jīng)常在Atari 2600游戲的Atari-57基準(zhǔn)測試集上進(jìn)行評估。

《Nature》最新研究:大腦中存在分布式強(qiáng)化學(xué)習(xí)機(jī)制 

圖 3:將經(jīng)典的深度強(qiáng)化學(xué)習(xí)與分布強(qiáng)化學(xué)習(xí)進(jìn)行對比,在Atari-57基準(zhǔn)上的標(biāo)準(zhǔn)化得分中位數(shù)(Atari-57 human-normalised scores)

圖3比較了在相同基準(zhǔn)下經(jīng)過相同條件訓(xùn)練和評估的多個標(biāo)準(zhǔn)RL和分布式RL算法。分布式強(qiáng)化學(xué)習(xí)agent以藍(lán)色顯示,可以看出取得了顯著的提升。其中的三種算法(QR-DQN,IQN和FQF)是我們一直在討論的分布式TD算法的變體。為什么分布強(qiáng)化學(xué)習(xí)算法如此有效?雖然這仍然還是一個活躍的研究課題,但其中一點則在于了解獎勵的分布情況會為神經(jīng)網(wǎng)絡(luò)提供更強(qiáng)的信號,從而以一種對環(huán)境變化或策略變化更具魯棒性的方式來塑造其表示形式。

多巴胺中的分布式代碼

由于分布式時間差分在人工神經(jīng)網(wǎng)絡(luò)中的功能如此強(qiáng)大,一個科學(xué)問題隨之出現(xiàn):分布式時間差分能被應(yīng)用到大腦中嗎?這就是驅(qū)動研究者開始這篇《Nature》論文工作的最初動機(jī)。在這篇論文中,DeepMind與哈佛Uchida Lab 合作,分析了他們對小鼠多巴胺細(xì)胞的記錄。這些記錄記下了小鼠在一項任務(wù)中表現(xiàn)出的學(xué)習(xí)能力,在任務(wù)中,它們獲得了意料之外的大量的獎勵(如圖4 的彩圖所示):

《Nature》最新研究:大腦中存在分布式強(qiáng)化學(xué)習(xí)機(jī)制

《Nature》最新研究:大腦中存在分布式強(qiáng)化學(xué)習(xí)機(jī)制

圖4:在該任務(wù)中,小鼠被給予隨機(jī)確定、容積可變的水獎勵,容積從0.1ul到20ul不等(獎勵大小由擲骰子決定):(A)經(jīng)典TD 模型下模擬的多巴胺細(xì)胞對7種不同獎勵大小的反應(yīng);(B)分布式TD 模型下,每一行點對應(yīng)著一個多巴胺細(xì)胞,每一種顏色對應(yīng)著不同的獎勵大小,顏色曲線表示數(shù)據(jù)的樣條插值。一個細(xì)胞的“反轉(zhuǎn)點”(細(xì)胞的獎勵預(yù)測誤差、放電率在0值處相交)就是特定細(xì)胞將獎勵“調(diào)”到的預(yù)期獎勵,例如,由于獎勵大小達(dá)到了細(xì)胞的期望,所以它的放電率與它的基線率相比不多也不少;(C)實際多巴胺細(xì)胞對其中不同獎勵大小的反應(yīng),與分布式TD模型的預(yù)測非常接近。

插圖展示了三個對正向和負(fù)向的獎勵預(yù)測誤差有不同的相對縮放比例的示例細(xì)胞。研究者評估了多巴胺神經(jīng)元的活動是與「標(biāo)準(zhǔn)的時間差分」還是與「分布式時間差分」更加一致。如上所描述的,分布式時間差分依賴于一組不同的獎勵預(yù)測。

因此,研究首要的問題便是,是否能夠在神經(jīng)數(shù)據(jù)中找到這些真實多樣的獎勵預(yù)測。在此前的工作中,研究者了解到多巴胺細(xì)胞會改變它們的放電率,來暗示出現(xiàn)了預(yù)測誤差,也就是說,當(dāng)動物獲得了比它們的預(yù)期更多或更少的獎勵,就是發(fā)生了預(yù)測誤差。

而當(dāng)細(xì)胞獲得了與它的預(yù)測恰好相等的獎勵,預(yù)測誤差就為 0 ,從而其放電率也不會發(fā)生任何變化。研究者為每個多巴胺細(xì)胞決定好不會改變它的基線放電率的獎勵大小,對此研究者稱之為細(xì)胞的“反轉(zhuǎn)點”。他們希望能夠了解到,細(xì)胞與細(xì)胞之間的“反轉(zhuǎn)點”是否不同。

在圖4c中,作者展示了細(xì)胞之間的顯著差異,一些細(xì)胞預(yù)測的獎勵非常大,而另一些細(xì)胞預(yù)測的獎勵卻非常小。這些差異超出了預(yù)期從記錄中原有的隨機(jī)變異性,所看到的差異程度。在分布式時間差分中,獎勵預(yù)測中的這些差異源自于正向或負(fù)向的獎勵預(yù)測誤差的選擇性放大。放大正向的獎勵預(yù)測誤差,會造成學(xué)習(xí)的獎勵預(yù)測更樂觀;而放大負(fù)向的獎勵預(yù)測誤差,則會帶來悲觀的獎勵預(yù)測。

所以研究者接下來測量了不同多巴胺細(xì)胞表現(xiàn)的不同正向和負(fù)向預(yù)測的相對放大程度。在細(xì)胞間,研究者發(fā)現(xiàn)了可靠然而卻無法用噪聲來解釋的多樣性。并且最關(guān)鍵的是,研究者發(fā)現(xiàn),放大了正向獎勵預(yù)測誤差的相同的細(xì)胞,也有更高的反轉(zhuǎn)點(圖4c,右下角圖),也就是說,它們顯然將反轉(zhuǎn)點調(diào)整到了更高獎勵量的預(yù)期。最后,分布式時間差分理論預(yù)測出,細(xì)胞之間不同的“反轉(zhuǎn)點”、不同的不對稱性應(yīng)該一起對學(xué)到的獎勵分布編碼。所以最后一個問題就是,是否能夠基于多巴胺細(xì)胞的放電率對獎勵分布解碼。

《Nature》最新研究:大腦中存在分布式強(qiáng)化學(xué)習(xí)機(jī)制

圖5:多巴胺細(xì)胞作為一個群體,對學(xué)到的獎勵分布的形狀進(jìn)行編碼:可以給予放電率對獎勵分布編碼,灰色的陰影區(qū)域是任務(wù)中遇到的真實的獎勵分布。每條淺藍(lán)色的軌跡都顯示了執(zhí)行解碼過程的示例。深藍(lán)色表示的是淺藍(lán)色軌跡平均超出灰色區(qū)域的部分。

如圖5 所示,研究者發(fā)現(xiàn)僅使用多巴胺細(xì)胞的放電率,完全有可能重構(gòu)一個獎勵分布(藍(lán)色軌跡),這與小鼠參與任務(wù)中的實際獎勵分布(灰色區(qū)域)非常接近。 這一重構(gòu)依賴于將多巴胺細(xì)胞的放電率解譯為分布時間差分模型分布的獎勵預(yù)測誤差并進(jìn)行推理以確定模型已經(jīng)了解的分布。

總結(jié)

總結(jié)來說,研究者發(fā)現(xiàn)大腦中的每個多巴胺神經(jīng)元都被調(diào)到了不同的積極或消極程度。要是它們是一個唱詩班,它們唱的并不是一個音符,而是在唱和聲,它們都像低音或女高音歌手一樣,有著各自始終如一的聲帶。在人工強(qiáng)化學(xué)習(xí)系統(tǒng)中,這種多樣的調(diào)整,創(chuàng)造了更加豐富的訓(xùn)練信號,極大地加速了神經(jīng)網(wǎng)絡(luò)中的學(xué)習(xí)速度,研究者推斷大腦也會出于這種考量而去采用這種多樣的調(diào)整方式。 大腦中現(xiàn)存的分布式強(qiáng)化學(xué)習(xí),對AI 和神經(jīng)科學(xué)都有著非常有意思的影響。

首先,這一發(fā)現(xiàn)驗證了分布式強(qiáng)化學(xué)習(xí),讓我們更加堅信:AI 研究正走在正確的軌跡上,因為分布式強(qiáng)化學(xué)習(xí)算法已經(jīng)應(yīng)用于我們認(rèn)為最智能的實體:大腦。 其次,它為神經(jīng)科學(xué)提出了新問題,并為理解心理健康和動機(jī)提供了新的視角。

如果一個人的大腦有選擇性地“傾聽”樂觀或悲觀的多巴胺神經(jīng)元,會發(fā)生什么?這會引起沖動或是抑郁的情緒?大腦的優(yōu)勢在于其強(qiáng)大的表示能力——所以,分布式學(xué)習(xí)到底是怎么形成的這種強(qiáng)大的表示能力的呢?當(dāng)動物學(xué)習(xí)了獎勵分布,又是如何在其下游使用這種表示?多巴胺細(xì)胞之間的各種正向表示,與大腦中已知的其他多樣性形式又有何關(guān)系呢?這些都有待進(jìn)一步去探索。我們希望能有更多的研究人員去提出并回答類似這樣的問題,從而來推動神經(jīng)科學(xué)的進(jìn)步,并反過來讓 AI 研究受益,形成一個良性的閉環(huán)!

via https://deepmind.com/blog/article/Dopamine-and-temporal-difference-learning-A-fruitful-relationship-between-neuroscience-and-AI

參考:https://www.nature.com/articles/s41586-019-1924-6

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

《Nature》最新研究:大腦中存在分布式強(qiáng)化學(xué)習(xí)機(jī)制

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說