丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

<label id="qtdnu"></label>

<li id="qtdnu"><legend id="qtdnu"></legend></li>

<span id="qtdnu"></span>

您正在使用IE低版瀏覽器，為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗，強烈建議使用更快更安全的瀏覽器

此為臨時鏈接，僅用于文章預(yù)覽，將在時失效

人工智能正文

發(fā)私信給AI研習社-譯站

發(fā)送

0

強化學習基礎(chǔ)-對偶梯度上升

本文作者： AI研習社-譯站

2019-01-28 10:26

導(dǎo)語：對偶梯度下降是一個優(yōu)化帶約束目標函數(shù)的常用方法。

強化學習基礎(chǔ)-對偶梯度上升

本文為 AI 研習社編譯的技術(shù)博客，原標題：
The base of deep reinforcement-learning-Dual Gradient Descent
作者 | Jonathan Hui
翻譯 | 斯蒂芬?二狗子
校對 | 斯蒂芬?二狗子審核| 莫青悠整理 | 菠蘿妹
原文鏈接：
https://medium.com/@jonathan_hui/rl-dual-gradient-descent-fac524c1f049

對偶梯度下降是一個優(yōu)化帶約束目標函數(shù)的常用方法。在強化學習中，該方法可以幫助我們做出更好的決策。

強化學習基礎(chǔ)-對偶梯度上升

該方法的核心思想是把目標函數(shù)轉(zhuǎn)換為可以迭代優(yōu)化拉格朗日對偶函數(shù)。其中拉格朗日函數(shù) ? 和拉格朗日對偶函數(shù) g 定義為：

強化學習基礎(chǔ)-對偶梯度上升

其中標量 λ 被稱為拉格朗日乘子。

對偶函數(shù) g 是原始優(yōu)化問題的下限，實際上，若 f 是凸函數(shù)，g和f保持強對偶關(guān)系，即g函數(shù)的最大值等價于優(yōu)化問題的最小。只要找到使得g最大的 λ ，我們就解決了原始優(yōu)化問題。

所以，我們隨機指定 λ 為初始值，使用優(yōu)化方法解決這個無約束的g(λ)。

強化學習基礎(chǔ)-對偶梯度上升

接下來，我們將應(yīng)用梯度上升來更新 λ 以便最大化g。 g的梯度是：

強化學習基礎(chǔ)-對偶梯度上升

即為

強化學習基礎(chǔ)-對偶梯度上升

在下面的步驟1中，我們根據(jù)當前的 λ 值找到最小x，然后我們對g進行梯度上升（步驟2和3）。

強化學習基礎(chǔ)-對偶梯度上升

先最小化帶有原始x變量的拉格朗日?，再用梯度法更新拉格朗日乘子 λ ，不斷交替著進行這兩種計算。通過這樣重復(fù)迭代，λ、x將收斂。

可視化

讓我們想象一下這個算法是如何工作的。

強化學習基礎(chǔ)-對偶梯度上升

Modified from source

設(shè) y = g(x)， z = f(x)。y 和 z 在來自于空間 G ，我們畫出了與y對應(yīng)的z。我們的解是上面的橙色的點：空間 G上的最小f同時滿足g(x)= 0。下面的橙色線是拉格朗日函數(shù)。它的斜率等于λ，它接觸G的邊界。

強化學習基礎(chǔ)-對偶梯度上升

然后我們使用梯度上升來調(diào)整 λ（斜率），以獲得與 g(x)= 0 接觸G的最大值 f(x) 。

強化學習基礎(chǔ)-對偶梯度上升

Modified from source

這就是對偶梯度上升法的工作原理。（PPT）

示例

讓我們通過一個示例來分析如何求解的。

強化學習基礎(chǔ)-對偶梯度上升

拉格朗日乘子

那么，拉格朗日乘子是什么？我們可以使用不同d值的等高線圖可視化f函數(shù)。g是約束函數(shù)。

強化學習基礎(chǔ)-對偶梯度上升

其中 λ 是拉格朗日乘子

強化學習基礎(chǔ)-對偶梯度上升

思考

對偶梯度下降可以使用任何優(yōu)化方法來最小化具有λ值的拉格朗日函數(shù)。在軌跡優(yōu)化問題中，我們一般使用的優(yōu)化方法為iLQR。然后我們應(yīng)用梯度上升來調(diào)整λ。通過重復(fù)迭代可以找到最優(yōu)解。

強化學習基礎(chǔ)-對偶梯度上升

想要繼續(xù)查看該篇文章相關(guān)鏈接和參考文獻？

長按鏈接點擊打開或點擊【強化學習基礎(chǔ)：對偶梯度上升】：

https://ai.yanxishe.com/page/TextTranslation/1427

AI研習社每日更新精彩內(nèi)容，觀看更多精彩內(nèi)容：雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)

盤點圖像分類的竅門

動態(tài)編程：二項式序列

如何用Keras來構(gòu)建LSTM模型，并且調(diào)參

一文教你如何用PyTorch構(gòu)建 Faster RCNN

等你來譯：

如何在神經(jīng)NLP處理中引用語義結(jié)構(gòu)

你睡著了嗎？不如起來給你的睡眠分個類吧！

高級DQNs：利用深度強化學習玩吃豆人游戲

深度強化學習新趨勢：谷歌如何把好奇心引入強化學習智能體

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

8人收藏

分享：

相關(guān)文章

AI研習社-譯站

知情人士

AI研習社(yanxishe.com)譯站頻道，傳播前沿人工智能知識，讓語言不再成為學習知識的門檻。（原雷鋒字幕組）

掃描關(guān)注作者微信

發(fā)私信

當月熱門文章

最新文章

熱門搜索

比特幣 Windows 10 intel Waymo 醫(yī)療叫獸發(fā)言地圖央行驍龍820 Gear VR HUD

為了您的賬戶安全，請驗證郵箱

您的郵箱還未驗證,完成可獲20積分喲！

重發(fā)郵箱修改郵箱

請驗證您的郵箱

立即驗證

完善賬號信息

您的賬號已經(jīng)綁定，現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄

立即設(shè)置 以后再說

<rt id="sj2hw"></rt>