丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給楊曉凡
發(fā)送

0

「糟糕」的策略梯度

本文作者: 楊曉凡 編輯:郭奕欣 2018-02-27 11:05
導(dǎo)語(yǔ):如此難用卻如此流行

雷鋒網(wǎng) AI 科技評(píng)論按:強(qiáng)化學(xué)習(xí)(reinforcement learning)是機(jī)器學(xué)習(xí)界近幾年的一大研究熱點(diǎn),無(wú)需先驗(yàn)知識(shí)、在環(huán)境中反復(fù)摸索嘗試獲得高反饋(reward)進(jìn)行學(xué)習(xí)的根本思維符合人類(lèi)的直覺(jué),DeepMind 的 AlphaGo 系列更是強(qiáng)化學(xué)習(xí)成功案例的正面典型。不過(guò),強(qiáng)化學(xué)習(xí)訓(xùn)練極為不穩(wěn)定、樣本利用率非常低、泛化性不好等問(wèn)題也一直困擾著研究人員們,自蒙特卡洛、策略梯度以來(lái)大家也繼續(xù)找到了 Actor-Critic、Deep-Q Learning 等算法嘗試獲得更好的表現(xiàn)。

UC 伯克利大學(xué)電子工程和計(jì)算機(jī)系副教授、《Machine Learning Research》雜志編委 Ben Recht 近期就在自己的個(gè)人博客上撰寫(xiě)了一系列強(qiáng)化學(xué)習(xí)的入門(mén)介紹文章,從各個(gè)角度剖析講解強(qiáng)化學(xué)習(xí)領(lǐng)域的重要知識(shí)和概念。其中有一篇《The Policy of Truth》(真正的策略)詳細(xì)聊了聊強(qiáng)化學(xué)習(xí)中廣泛使用的策略梯度為什么是個(gè)不好的算法,并將其喻為「?jìng)窝b在數(shù)學(xué)符號(hào)和數(shù)學(xué)黑話(huà)里的隨機(jī)搜索」。雷鋒網(wǎng) AI 科技評(píng)論把這篇文章編譯如下。

「糟糕」的策略梯度

對(duì)于各種強(qiáng)化學(xué)習(xí)問(wèn)題,人們第一個(gè)想到的通用解決方案就是策略梯度(Policy Gradient)。不過(guò)讓我震驚的是 1993 年的時(shí)候人們并沒(méi)有把策略梯度看作一個(gè)糟糕的方法并且棄之不用。策略梯度確實(shí)有相當(dāng)?shù)奈?,因?yàn)樗雌饋?lái)可以用來(lái)精細(xì)調(diào)節(jié)一個(gè)程序,無(wú)需任何領(lǐng)域內(nèi)知識(shí)就可以解決任意問(wèn)題。任何這樣夸下??诘亩伎隙ㄊ菫榱舜蹬踝约?,實(shí)際上當(dāng)你仔細(xì)去研究的時(shí)候,你就會(huì)發(fā)現(xiàn)策略梯度其實(shí)就是偽裝在數(shù)學(xué)符號(hào)和數(shù)學(xué)黑話(huà)里的隨機(jī)搜索,僅此而已。

我有必要提前說(shuō)聲抱歉,因?yàn)檫@篇文章接下來(lái)會(huì)有不少公式。策略梯度中需要用到如此之多的公式,讓我們誤以為其中仿佛真的有什么嚴(yán)肅深入的東西。我猜策略梯度之所以一直還是活躍的研究課題的原因就是人們并不會(huì)嘗試實(shí)現(xiàn)它,以及這些數(shù)學(xué)公式單獨(dú)看來(lái)還是很有吸引力的。這其實(shí)會(huì)迷惑我們的雙眼,讓我們忽視了真正把方法寫(xiě)成代碼之后可能發(fā)生的事情。跟我來(lái)一起看看那些需要鋼鐵般信念的關(guān)頭吧。

不斷增加更多的抽象,直到問(wèn)題解決

我們就從人們用策略梯度解決的最通用的問(wèn)題開(kāi)始。在這里我們把動(dòng)態(tài)系統(tǒng)生成的一系列狀態(tài) xk 和控制動(dòng)作 uk 合稱(chēng)為軌跡(trajectory) τ

「糟糕」的策略梯度

策略(policy)就是函數(shù) π,它的輸入是一個(gè)軌跡,然后輸出一個(gè)新的控制動(dòng)作。我們的目標(biāo)就是找到一個(gè)能讓 L 個(gè)時(shí)間步驟后的反饋?zhàn)畲蠡牟呗浴?/p>

在策略梯度中,我們只關(guān)注參數(shù)化的、隨機(jī)化的策略。策略 π 中有一系列參數(shù) ? 需要調(diào)節(jié)。以及,相比于輸出某一個(gè)具體的控制動(dòng)作,我們通常假設(shè) π 是一個(gè)多種控制動(dòng)作上的概率分布;在實(shí)際操作中,按照每個(gè)時(shí)間步驟對(duì) π 的分布進(jìn)行采樣,然后得出一個(gè)控制動(dòng)作。你可能要問(wèn)了,為什么要有采樣的這一步?這個(gè)問(wèn)題很棒,不過(guò)我們先暫且放下這個(gè)無(wú)比合理的問(wèn)題,過(guò)一會(huì)兒再說(shuō)。

為了體現(xiàn)出策略 π 對(duì)參數(shù) ? 的依賴(lài),我們把它寫(xiě)作 π? 。由于 π? 是一個(gè)概率分布,把 π? 作為策略就引入了一個(gè)基于軌跡的概率分布:

「糟糕」的策略梯度

進(jìn)一步地,我們可以再增加幾個(gè)符號(hào),把軌跡的反饋定義為:

「糟糕」的策略梯度

那么,這個(gè)強(qiáng)化學(xué)習(xí)優(yōu)化問(wèn)題就變成了看起來(lái)很整齊的:

「糟糕」的策略梯度

如果我們繼續(xù)做如下定義的話(huà)還可以再簡(jiǎn)潔一點(diǎn):

「糟糕」的策略梯度

這樣,我們的強(qiáng)化學(xué)習(xí)目標(biāo)就終于可以寫(xiě)成簡(jiǎn)短的:

「糟糕」的策略梯度

策略梯度

用簡(jiǎn)潔的公式表述了這個(gè)問(wèn)題之后,策略梯度就可以用下面這樣的技巧推導(dǎo)得到:

「糟糕」的策略梯度

這個(gè)式子表明了 J 相對(duì)于 ? 的梯度是下面這個(gè)式子的預(yù)期值

「糟糕」的策略梯度

這樣,當(dāng)我們執(zhí)行策略 π? 對(duì)軌跡 τ 采樣的時(shí)候,我們就可以計(jì)算 G(τ,?) ,從而得到對(duì) J 的梯度的無(wú)偏差估計(jì)值。沿著這個(gè)方向下去我們就可以對(duì) J 做隨機(jī)梯度下降。

更神奇的是,計(jì)算 G(τ,?) 時(shí)可以無(wú)需知道整個(gè)動(dòng)態(tài)系統(tǒng)的運(yùn)轉(zhuǎn)規(guī)律方程。我們觀察到

「糟糕」的策略梯度

不是參數(shù)組 ? 的函數(shù),因此

「糟糕」的策略梯度

只要 π? 是可微的。以及你安裝了最新版的 autograd,這些導(dǎo)數(shù)就都是可以計(jì)算的。

總結(jié)一下,我們就這樣得到了下面這個(gè)非常美妙的方法,我們可以在不知道系統(tǒng)的任何動(dòng)態(tài)特性的情況下用它優(yōu)化一個(gè)最優(yōu)化問(wèn)題。

  1. 選擇一組初始的猜測(cè)值 ?0 和步驟序列 ak。初始 k=0。

  2. 在模擬器中運(yùn)行策略 π?k,采樣得到軌跡 τk。

  3. 令 「糟糕」的策略梯度

  4. 迭代 k=k+1,回到第 2 步

策略梯度吸引人的主要原因就是因?yàn)榭雌饋?lái)很簡(jiǎn)單。如果你可以從 π? 高效地采樣,理論上你就可以用這個(gè)算法解決任何問(wèn)題。可以飛四旋翼,可以冷卻數(shù)據(jù)中心,也可以教機(jī)器人開(kāi)門(mén)。那么理所當(dāng)然的下一個(gè)問(wèn)題就是,能做到多好呢?下面我簡(jiǎn)單提一下線(xiàn)性化法則(Linearization Principle),你馬上就會(huì)看清真實(shí)狀況,從此以后再也不會(huì)想要選策略梯度了。

為什么我們又開(kāi)始用概率策略了?

在聊線(xiàn)性模型之前,我們暫且退一步,考慮一個(gè)純優(yōu)化問(wèn)題。我們用一堆符號(hào)把強(qiáng)化學(xué)習(xí)變得公式化,以至于到了最后似乎我們只需要關(guān)注一個(gè)無(wú)限制函數(shù)的最大化問(wèn)題。我們先把所有系統(tǒng)的動(dòng)態(tài)特性撇開(kāi)不談,考慮單步最優(yōu)化問(wèn)題。給定一個(gè)函數(shù) R(u),我要找到讓函數(shù)值盡可能大的 u。也就是說(shuō)我要解決這個(gè)優(yōu)化問(wèn)題

「糟糕」的策略梯度

容我說(shuō)幾句可能看起來(lái)有點(diǎn)離題的,任何這個(gè)形式的優(yōu)化問(wèn)題都等價(jià)于 u 的概率分布之上的優(yōu)化問(wèn)題

「糟糕」的策略梯度

做這個(gè)等價(jià)變換的目標(biāo)是:如果 u? 是最優(yōu)解,那么當(dāng)我們?cè)?nbsp;u? 附近施加一個(gè) Delta 函數(shù)的話(huà)也可以得到同樣的反饋。進(jìn)一步地,如果 p 是一個(gè)概率分布,那么就很明確,可期待的反饋值永遠(yuǎn)都不會(huì)大于固定的 u 得到的最大反饋。所以我們要優(yōu)化的要么是 u,要么是 u 的分布。

這里,我們就來(lái)到了策略梯度中的第一個(gè)邏輯跳躍的地方了。相比于對(duì)所有可能的分布構(gòu)成的空間做優(yōu)化,我們優(yōu)化的是一組參數(shù)的分布 p(u;?)。如果這組參數(shù)中含有所有的 Delta 函數(shù),那么得到的最優(yōu)解就會(huì)和不含隨機(jī)的優(yōu)化問(wèn)題的解一樣。而如果參數(shù)中不含有 Delta 函數(shù),我們就只能得到優(yōu)化反饋的下界而已,不管我們找到的概率分布有多好;在這種情況下,如果從策略中采樣 u,可以期待得到的反饋肯定是次優(yōu)的。

這種基于分布的優(yōu)化范式有一個(gè)重大問(wèn)題,就是我們需要給這一組參數(shù)平衡許多不同的要求。我們需要的概率分布應(yīng)當(dāng):

  1. 足夠豐富,可以逼近 Delta 函數(shù)

  2. 不難通過(guò)基于梯度的方法搜索

  3. 易于采樣

這其實(shí)就對(duì)分布提出了很高的要求了,尤其是當(dāng)你的模型輸出的控制動(dòng)作是連續(xù)值的時(shí)候。對(duì)于連續(xù)動(dòng)作,多數(shù)時(shí)候人們都會(huì)從各種高斯分布中找一個(gè)以便讓

「糟糕」的策略梯度

在這里,f 是某個(gè)非線(xiàn)性函數(shù),gt 是一個(gè)高斯隨機(jī)向量。像這樣的參數(shù)化形式里沒(méi)有哪個(gè)是帶有 Delta 函數(shù)的。并且做這樣的參數(shù)化動(dòng)作的時(shí)候我們并不知道到底會(huì)損失多少,因?yàn)槲覀儾](méi)有辦法對(duì)強(qiáng)化學(xué)習(xí)中發(fā)生的一切建模。

現(xiàn)在就需要重新強(qiáng)調(diào)一件重要的事情,在我們研究的基本最優(yōu)控制問(wèn)題中并不需要隨機(jī)化的策略。簡(jiǎn)單的 LQR (線(xiàn)性二次調(diào)節(jié)器)問(wèn)題中當(dāng)然也不需要。概率策略確實(shí)是一種建模的方法,但它永遠(yuǎn)都不會(huì)比確定性策略更好。

非常通用的強(qiáng)化算法

所以上面這樣的策略梯度算法實(shí)際上是一個(gè)找到如下形式的式子的隨機(jī)梯度的通用方法

「糟糕」的策略梯度

它的對(duì)數(shù)似然也具有完全的泛化性

「糟糕」的策略梯度

所以下面這個(gè)方法也就是一個(gè)完全通用化的方法,用來(lái)找到關(guān)于參數(shù)分布的最大化反饋

  1. 選擇某個(gè)初始猜測(cè)值 ?0 和步驟序列 αk。初始 k=0。

  2. 從概率分布 p(u;?k) 中獨(dú)立同分布采樣 uk

  3. 令 「糟糕」的策略梯度

  4. 迭代 k=k+1,回到第 2 步

這種形式的算法就可以被稱(chēng)為「強(qiáng)化」(reinforce)。它看起來(lái)很奇怪:我們得到的是一個(gè)隨機(jī)梯度,然而我們想要優(yōu)化的函數(shù) R 只能通過(guò)函數(shù)評(píng)估訪(fǎng)問(wèn)。我們從來(lái)都不計(jì)算 R 自己的梯度。

那么這個(gè)算法有任何好處么?答案取決于你想要什么。如果你想要的是一個(gè)能和梯度相提并論的算法,那就一點(diǎn)也不好,是一個(gè)糟透了的算法。而如果你想要的是能和 R 的有限差分近似相提并論,那么…… 那么它仍然是一個(gè)糟透了的算法。只不過(guò)其中的數(shù)學(xué)計(jì)算還挺討人喜歡。

這里要說(shuō)明的是,線(xiàn)性化法則提醒我們幾乎是馬上就需要拋棄這個(gè)算法。我們來(lái)看一個(gè)最平凡的線(xiàn)性二次調(diào)節(jié)器例子:R(u)=?||u?z||2 。設(shè) p(u;?) 為均值為 ?、方差為 σ2I 的多元高斯分布。那么策略梯度能起到什么作用呢?首先我們注意到

「糟糕」的策略梯度

很顯然,此時(shí)此刻我們的最佳選擇是讓 ?=z。同時(shí)我們注意到預(yù)期反饋中含有減去 σ2d 的一項(xiàng),不過(guò)起碼現(xiàn)在是一個(gè)對(duì) u 的不錯(cuò)的猜測(cè)值了。并且,J 作為 ? 的函數(shù),明顯是的,以及需要知道的最重要的事是這樣的梯度的預(yù)期標(biāo)準(zhǔn)值控制著迭代次數(shù)。那么現(xiàn)在,如果你從 ?=0 開(kāi)始,那么梯度就是

「糟糕」的策略梯度

其中 ω 是一個(gè)正態(tài)分布的隨機(jī)向量,均值為 0,方差為 σ2I。然后這個(gè)隨機(jī)梯度的預(yù)期標(biāo)準(zhǔn)值是…… 哦算了吧,你要算一個(gè) 6 次的式子,這一點(diǎn)都不好玩。如果忽略一下不重要的細(xì)節(jié),你會(huì)發(fā)現(xiàn)預(yù)期標(biāo)準(zhǔn)值大概和這個(gè)式子是同階的:

「糟糕」的策略梯度

這個(gè)式子很大了!隨著維度變高,它的拓展問(wèn)題也會(huì)讓人頭疼。

很多人都分析過(guò)這種方法的復(fù)雜性,當(dāng)然一點(diǎn)都不理想,而且高度取決于搜索空間的維度數(shù)目大小。反饋的最大大小 B 也有影響。如果函數(shù)值里有很多噪聲,那么即便對(duì)于凸函數(shù),收斂速率也只是 「糟糕」的策略梯度,這還是在假定了算法的各個(gè)參數(shù)都剛好設(shè)置恰當(dāng)?shù)那闆r下。對(duì)于非常凸的函數(shù),你有可能能湊出一個(gè) 「糟糕」的策略梯度級(jí)別的函數(shù)解,但是這個(gè)結(jié)果對(duì)于參數(shù)的選擇將會(huì)非常敏感。最后,我們注意到僅僅給反饋加入一個(gè)負(fù)的常數(shù)項(xiàng)就會(huì)大大降低算法的速度。如果你選擇的反饋函數(shù)的取值在 [0,1],然后你給每個(gè)反饋值都減去 106 的話(huà),這就會(huì)讓算法的運(yùn)行時(shí)間變長(zhǎng) 106 倍,即便每次的反饋值的大小關(guān)系是不變的。

我們還需要看到,當(dāng)我們?cè)趧?dòng)態(tài)系統(tǒng)中考慮這些因素的時(shí)候情況只會(huì)變得更糟糕。線(xiàn)性二次調(diào)節(jié)器的策略梯度更新里會(huì)含有非常多的噪聲,而且它的方差會(huì)隨著模擬步數(shù) L 增大。更麻煩的是,如果要找一個(gè)簡(jiǎn)單的靜態(tài)策略的話(huà),搜索 ? 的過(guò)程顯然是非凸的。即便實(shí)際操作中能看到一些結(jié)果,我們面前如此之多的困難還是提醒著我們可能最好換一換別的方法。

為什么這么多人都說(shuō)在強(qiáng)化學(xué)習(xí)中取得了巨大成功?

我們已經(jīng)看到有許許多多的論文,把策略梯度用在各種各樣的問(wèn)題上,然后得到各種各樣的好看的結(jié)果。但我希望我們現(xiàn)在都能看清他們其實(shí)只是把隨機(jī)搜索打扮得漂漂亮亮了而已。尤其當(dāng)你看到另外一批論文里的基因算法和你的算法得到了近似的成果的時(shí)候,你需要明白這并不代表著基因算法有了新的發(fā)展,它更可能是在告訴你,你的方法只不過(guò)是隨機(jī)搜索的一次糟糕的實(shí)現(xiàn)而已

畢竟,基因算法和策略梯度需要的樣本數(shù)目都多到夸張。如果你已經(jīng)準(zhǔn)備好了在亞馬遜 AWS 上花上百萬(wàn)美元訓(xùn)練,并且根本不打算調(diào)節(jié)一個(gè)實(shí)體化的系統(tǒng)的話(huà),想用其實(shí)也可以。但是我們肯定是有更好的辦法的。

策略梯度和強(qiáng)化學(xué)習(xí)并沒(méi)有什么神奇的魔力,我想我已經(jīng)強(qiáng)調(diào)得夠多了。不過(guò)我還是要繼續(xù)說(shuō),策略梯度和它的各種變體真的是糟糕得很合理的算法。想讓它們順利運(yùn)行得出結(jié)果需要很多的技巧。可是你冷靜想想,難以調(diào)試、難以復(fù)現(xiàn),而且還不能勝過(guò)原原本本的基因算法的算法,真的可以算是很差的算法了。

在這個(gè)系列文章中我還會(huì)多次談起這個(gè)觀點(diǎn):任選一個(gè)策略梯度能得到好結(jié)果的問(wèn)題,都能再找到一個(gè)簡(jiǎn)單得多、魯棒得多的算法,而且能匹敵或者超越策略梯度的表現(xiàn)。策略梯度從來(lái)就不是一個(gè)好點(diǎn)子,但我也許一輩子都弄不清為什么它會(huì)如此流行。

下篇文章我會(huì)繼續(xù)講線(xiàn)性二次調(diào)節(jié)器,以及討論幾個(gè)可能會(huì)比策略梯度更成功的策略。

(完)

 via argmin.net,雷鋒網(wǎng) AI 科技評(píng)論編譯

相關(guān)文章:

南京大學(xué)俞揚(yáng)博士萬(wàn)字演講全文:強(qiáng)化學(xué)習(xí)前沿(上)

南京大學(xué)俞揚(yáng)博士:強(qiáng)化學(xué)習(xí)前沿(下)

Uber論文5連發(fā)宣告神經(jīng)演化新時(shí)代,深度強(qiáng)化學(xué)習(xí)訓(xùn)練勝過(guò)SGD和策略梯度

能用強(qiáng)化學(xué)習(xí)買(mǎi)賣(mài)比特幣賺錢(qián)嗎?能能能,當(dāng)然能!

這里有一篇深度強(qiáng)化學(xué)習(xí)勸退文

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知

「糟糕」的策略梯度

分享:
相關(guān)文章

讀論文為生

日常笑點(diǎn)滴,學(xué)術(shù)死腦筋
當(dāng)月熱門(mén)文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話(huà)
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶(hù)安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)