丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能開(kāi)發(fā)者 正文
發(fā)私信給AI研習(xí)社-譯站
發(fā)送

0

零基礎(chǔ)搞懂強(qiáng)化學(xué)習(xí)?這份視頻攻略不算遲

本文作者: AI研習(xí)社-譯站 2018-04-24 16:38
導(dǎo)語(yǔ):介紹機(jī)器學(xué)習(xí)中的子領(lǐng)域“強(qiáng)化學(xué)習(xí)”

雷鋒網(wǎng)按:喜歡機(jī)器學(xué)習(xí)和人工智能,卻發(fā)現(xiàn)埋頭苦練枯燥乏味還殺時(shí)間?油管頻道 Arxiv Insights 每周精選,從技術(shù)視角出發(fā),帶你輕松深度學(xué)習(xí)。

翻譯 | 鄭前   字幕 |  凡江   整理 |  吳璇

本期 Arxiv Insights 將重點(diǎn)介紹機(jī)器學(xué)習(xí)中的子領(lǐng)域“強(qiáng)化學(xué)習(xí)”,也是機(jī)器人最具智能前景的方向之一。

? 強(qiáng)化學(xué)習(xí)解讀視頻

有監(jiān)督學(xué)習(xí) VS 強(qiáng)化學(xué)習(xí)

在常見(jiàn)的機(jī)器學(xué)習(xí)應(yīng)用中,人們會(huì)運(yùn)用有監(jiān)督學(xué)習(xí),也就是給神經(jīng)網(wǎng)絡(luò)模型一個(gè)輸入,但模型輸出結(jié)果已成定局。因此你可以利用反向傳播算法計(jì)算梯度,以訓(xùn)練此網(wǎng)絡(luò)產(chǎn)生結(jié)果。

在監(jiān)督學(xué)習(xí)的情況下,如果要訓(xùn)練一個(gè)會(huì)玩吃雞的神經(jīng)網(wǎng)絡(luò),你需要找一個(gè)吃雞高手玩好幾個(gè)小時(shí),然后獲得一個(gè)數(shù)據(jù)集,包括了所有的幀。比如玩家看到的屏幕,以及他在游戲中的鍵盤(pán)操作(如,向上或向下)。隨后將這些數(shù)據(jù)輸入到一個(gè)非常簡(jiǎn)單的神經(jīng)網(wǎng)絡(luò)中,便可以輸出向上或向下的行為。利用反向傳播這類(lèi)算法對(duì)人類(lèi)玩家數(shù)據(jù)集進(jìn)行訓(xùn)練,可以訓(xùn)練出模擬人類(lèi)玩家操作的神經(jīng)網(wǎng)絡(luò)。

但這種方法有兩種明顯的缺陷。第一,如果你想進(jìn)行監(jiān)督學(xué)習(xí),就必須有一個(gè)數(shù)據(jù)集來(lái)訓(xùn)練,但訓(xùn)練數(shù)據(jù)集本身就不容易了。另一方面,如果你訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型,僅僅是模仿人類(lèi)玩家的操作,那么這個(gè)模型在玩游戲時(shí),成績(jī)肯定不會(huì)比人類(lèi)選手高。

強(qiáng)化學(xué)習(xí)讓智能體更聰明

想訓(xùn)練一個(gè)AlphaGo Zero,能夠擊敗世界頂級(jí)選手?從理論上,不能運(yùn)用監(jiān)督學(xué)習(xí)。那么,有什么方法可以讓智能體主動(dòng)來(lái)玩游戲?這時(shí)候強(qiáng)化學(xué)習(xí)就有用了。

實(shí)際上,強(qiáng)化學(xué)習(xí)的框架與監(jiān)督學(xué)習(xí)框架非常相似,仍舊有輸入幀,并通過(guò)神經(jīng)網(wǎng)絡(luò)模型運(yùn)行模型,輸出各種人類(lèi)操作。唯一的區(qū)別是,我們不知道目標(biāo)標(biāo)簽是什么,不知道在什么情況下,要進(jìn)行向上或向下的鍵盤(pán)操作,因?yàn)檫@里沒(méi)有數(shù)據(jù)集去訓(xùn)練。

在強(qiáng)化學(xué)習(xí)中,將輸入幀轉(zhuǎn)換為輸出動(dòng)作的網(wǎng)絡(luò),被稱為策略網(wǎng)絡(luò)。一個(gè)最簡(jiǎn)單的訓(xùn)練策略網(wǎng)絡(luò)的方法,被稱為策略梯度。策略梯度中的方法是,從一個(gè)完全隨機(jī)的網(wǎng)絡(luò)開(kāi)始,并向其提供游戲產(chǎn)生的一個(gè)幀,它隨機(jī)產(chǎn)生操作,然后再將該動(dòng)作輸入到游戲中,游戲繼續(xù)產(chǎn)生下一幀,如此循環(huán)下去。

用強(qiáng)化學(xué)習(xí)教智能體玩游戲

這個(gè)例子中的網(wǎng)絡(luò),可以是一個(gè)全連接網(wǎng)絡(luò),但可以在這里運(yùn)用卷積,現(xiàn)在你的網(wǎng)絡(luò)會(huì)輸出兩個(gè)數(shù)字向上和向下的概率。當(dāng)你訓(xùn)練時(shí),其實(shí)是在分布中抽樣,你不需要總是重復(fù)特定的操作,智能體可以一定程度上隨機(jī)地探索環(huán)境,并幸運(yùn)地發(fā)現(xiàn)更高的回報(bào)和更好的行為。

現(xiàn)在我們想讓智能體自主學(xué)習(xí)唯一的反饋是,我們?cè)谟螒蛑薪o它一個(gè)記分牌,當(dāng)智能體擊中目標(biāo)時(shí),它會(huì)獲得+1的回報(bào),如果未擊中目標(biāo),它會(huì)收到-1的懲罰。智能體的目標(biāo)就是優(yōu)化策略,以盡可能多的獲取回報(bào)。因此為了訓(xùn)練策略網(wǎng)絡(luò),我們首先要收集大量記錄,然后將游戲的幀輸入到網(wǎng)絡(luò)中,再隨機(jī)選取動(dòng)作,重新反饋到游戲中,就產(chǎn)生了很多隨機(jī)的游戲操作。

由于智能體沒(méi)有經(jīng)過(guò)訓(xùn)練學(xué)習(xí),它在大多數(shù)時(shí)候都會(huì)失敗,但是有時(shí)候智能體隨機(jī)選取了一系列行為,并擊中了目標(biāo),智能體將會(huì)獲得獎(jiǎng)勵(lì)。重點(diǎn)是對(duì)于每一局游戲,無(wú)論想要正獎(jiǎng)勵(lì)還是負(fù)獎(jiǎng)勵(lì),我們都可以計(jì)算梯度,它使智能機(jī)在后續(xù)更多的選擇某些動(dòng)作。

策略梯度要做的就是對(duì)于得到正回報(bào)的局,我們使用正的梯度,以增加該類(lèi)操作未來(lái)發(fā)生的可能性,但當(dāng)我們得到了負(fù)的回報(bào),就會(huì)使用相同數(shù)值的負(fù)梯度,負(fù)號(hào)會(huì)使失敗局采取的所有操作在未來(lái)發(fā)生的可能性下降。結(jié)果就是,在訓(xùn)練策略網(wǎng)絡(luò)時(shí)導(dǎo)致負(fù)回報(bào)的行為,在未來(lái)會(huì)逐漸過(guò)濾掉,而導(dǎo)致正回報(bào)的行為會(huì)越來(lái)越多的出現(xiàn)。從某種意義上說(shuō),這就是智能體正在學(xué)習(xí)如何玩游戲的過(guò)程。

相關(guān)資料推薦:

- "Pong from Pixels - Karpathy": http://karpathy.github.io/2016/05/31/rl/

- Concept networks for grasp & stack (Paper with heavy reward shaping): https://arxiv.org/abs/1709.06977  雷鋒網(wǎng)雷鋒網(wǎng)

雷鋒字幕組正在招募中,掃描下方二維碼,備注“雷鋒字幕組+姓名”加入我們。雷鋒網(wǎng)雷鋒網(wǎng)

零基礎(chǔ)搞懂強(qiáng)化學(xué)習(xí)?這份視頻攻略不算遲零基礎(chǔ)搞懂強(qiáng)化學(xué)習(xí)?這份視頻攻略不算遲

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

零基礎(chǔ)搞懂強(qiáng)化學(xué)習(xí)?這份視頻攻略不算遲

分享:
相關(guān)文章

知情人士

AI研習(xí)社(yanxishe.com)譯站頻道,傳播前沿人工智能知識(shí),讓語(yǔ)言不再成為學(xué)習(xí)知識(shí)的門(mén)檻。(原雷鋒字幕組)
當(dāng)月熱門(mén)文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)