零基礎(chǔ)搞懂強(qiáng)化學(xué)習(xí)？這份視頻攻略不算遲

本文作者： AI研習(xí)社-譯站

2018-04-24 16:38

導(dǎo)語(yǔ)：介紹機(jī)器學(xué)習(xí)中的子領(lǐng)域“強(qiáng)化學(xué)習(xí)”

雷鋒網(wǎng)按：喜歡機(jī)器學(xué)習(xí)和人工智能，卻發(fā)現(xiàn)埋頭苦練枯燥乏味還殺時(shí)間？油管頻道 Arxiv Insights 每周精選，從技術(shù)視角出發(fā)，帶你輕松深度學(xué)習(xí)。

翻譯 | 鄭前字幕 | 凡江整理 | 吳璇

本期 Arxiv Insights 將重點(diǎn)介紹機(jī)器學(xué)習(xí)中的子領(lǐng)域“強(qiáng)化學(xué)習(xí)”，也是機(jī)器人最具智能前景的方向之一。

? 強(qiáng)化學(xué)習(xí)解讀視頻

有監(jiān)督學(xué)習(xí) VS 強(qiáng)化學(xué)習(xí)

在常見(jiàn)的機(jī)器學(xué)習(xí)應(yīng)用中，人們會(huì)運(yùn)用有監(jiān)督學(xué)習(xí)，也就是給神經(jīng)網(wǎng)絡(luò)模型一個(gè)輸入，但模型輸出結(jié)果已成定局。因此你可以利用反向傳播算法計(jì)算梯度，以訓(xùn)練此網(wǎng)絡(luò)產(chǎn)生結(jié)果。

在監(jiān)督學(xué)習(xí)的情況下，如果要訓(xùn)練一個(gè)會(huì)玩吃雞的神經(jīng)網(wǎng)絡(luò)，你需要找一個(gè)吃雞高手玩好幾個(gè)小時(shí)，然后獲得一個(gè)數(shù)據(jù)集，包括了所有的幀。比如玩家看到的屏幕，以及他在游戲中的鍵盤(pán)操作（如，向上或向下）。隨后將這些數(shù)據(jù)輸入到一個(gè)非常簡(jiǎn)單的神經(jīng)網(wǎng)絡(luò)中，便可以輸出向上或向下的行為。利用反向傳播這類(lèi)算法對(duì)人類(lèi)玩家數(shù)據(jù)集進(jìn)行訓(xùn)練，可以訓(xùn)練出模擬人類(lèi)玩家操作的神經(jīng)網(wǎng)絡(luò)。

但這種方法有兩種明顯的缺陷。第一，如果你想進(jìn)行監(jiān)督學(xué)習(xí)，就必須有一個(gè)數(shù)據(jù)集來(lái)訓(xùn)練，但訓(xùn)練數(shù)據(jù)集本身就不容易了。另一方面，如果你訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型，僅僅是模仿人類(lèi)玩家的操作，那么這個(gè)模型在玩游戲時(shí)，成績(jī)肯定不會(huì)比人類(lèi)選手高。

強(qiáng)化學(xué)習(xí)讓智能體更聰明

想訓(xùn)練一個(gè)AlphaGo Zero，能夠擊敗世界頂級(jí)選手？從理論上，不能運(yùn)用監(jiān)督學(xué)習(xí)。那么，有什么方法可以讓智能體主動(dòng)來(lái)玩游戲？這時(shí)候強(qiáng)化學(xué)習(xí)就有用了。

實(shí)際上，強(qiáng)化學(xué)習(xí)的框架與監(jiān)督學(xué)習(xí)框架非常相似，仍舊有輸入幀，并通過(guò)神經(jīng)網(wǎng)絡(luò)模型運(yùn)行模型，輸出各種人類(lèi)操作。唯一的區(qū)別是，我們不知道目標(biāo)標(biāo)簽是什么，不知道在什么情況下，要進(jìn)行向上或向下的鍵盤(pán)操作，因?yàn)檫@里沒(méi)有數(shù)據(jù)集去訓(xùn)練。

在強(qiáng)化學(xué)習(xí)中，將輸入幀轉(zhuǎn)換為輸出動(dòng)作的網(wǎng)絡(luò)，被稱為策略網(wǎng)絡(luò)。一個(gè)最簡(jiǎn)單的訓(xùn)練策略網(wǎng)絡(luò)的方法，被稱為策略梯度。策略梯度中的方法是，從一個(gè)完全隨機(jī)的網(wǎng)絡(luò)開(kāi)始，并向其提供游戲產(chǎn)生的一個(gè)幀，它隨機(jī)產(chǎn)生操作，然后再將該動(dòng)作輸入到游戲中，游戲繼續(xù)產(chǎn)生下一幀，如此循環(huán)下去。

用強(qiáng)化學(xué)習(xí)教智能體玩游戲

這個(gè)例子中的網(wǎng)絡(luò)，可以是一個(gè)全連接網(wǎng)絡(luò)，但可以在這里運(yùn)用卷積，現(xiàn)在你的網(wǎng)絡(luò)會(huì)輸出兩個(gè)數(shù)字向上和向下的概率。當(dāng)你訓(xùn)練時(shí)，其實(shí)是在分布中抽樣，你不需要總是重復(fù)特定的操作，智能體可以一定程度上隨機(jī)地探索環(huán)境，并幸運(yùn)地發(fā)現(xiàn)更高的回報(bào)和更好的行為。

現(xiàn)在我們想讓智能體自主學(xué)習(xí)唯一的反饋是，我們?cè)谟螒蛑薪o它一個(gè)記分牌，當(dāng)智能體擊中目標(biāo)時(shí)，它會(huì)獲得+1的回報(bào)，如果未擊中目標(biāo)，它會(huì)收到-1的懲罰。智能體的目標(biāo)就是優(yōu)化策略，以盡可能多的獲取回報(bào)。因此為了訓(xùn)練策略網(wǎng)絡(luò)，我們首先要收集大量記錄，然后將游戲的幀輸入到網(wǎng)絡(luò)中，再隨機(jī)選取動(dòng)作，重新反饋到游戲中，就產(chǎn)生了很多隨機(jī)的游戲操作。

由于智能體沒(méi)有經(jīng)過(guò)訓(xùn)練學(xué)習(xí)，它在大多數(shù)時(shí)候都會(huì)失敗，但是有時(shí)候智能體隨機(jī)選取了一系列行為，并擊中了目標(biāo)，智能體將會(huì)獲得獎(jiǎng)勵(lì)。重點(diǎn)是對(duì)于每一局游戲，無(wú)論想要正獎(jiǎng)勵(lì)還是負(fù)獎(jiǎng)勵(lì)，我們都可以計(jì)算梯度，它使智能機(jī)在后續(xù)更多的選擇某些動(dòng)作。

策略梯度要做的就是對(duì)于得到正回報(bào)的局，我們使用正的梯度，以增加該類(lèi)操作未來(lái)發(fā)生的可能性，但當(dāng)我們得到了負(fù)的回報(bào)，就會(huì)使用相同數(shù)值的負(fù)梯度，負(fù)號(hào)會(huì)使失敗局采取的所有操作在未來(lái)發(fā)生的可能性下降。結(jié)果就是，在訓(xùn)練策略網(wǎng)絡(luò)時(shí)導(dǎo)致負(fù)回報(bào)的行為，在未來(lái)會(huì)逐漸過(guò)濾掉，而導(dǎo)致正回報(bào)的行為會(huì)越來(lái)越多的出現(xiàn)。從某種意義上說(shuō)，這就是智能體正在學(xué)習(xí)如何玩游戲的過(guò)程。

相關(guān)資料推薦：

- "Pong from Pixels - Karpathy": http://karpathy.github.io/2016/05/31/rl/

- Concept networks for grasp & stack (Paper with heavy reward shaping): https://arxiv.org/abs/1709.06977 雷鋒網(wǎng)雷鋒網(wǎng)

雷鋒字幕組正在招募中，掃描下方二維碼，備注“雷鋒字幕組+姓名”加入我們。雷鋒網(wǎng)雷鋒網(wǎng)

零基礎(chǔ)搞懂強(qiáng)化學(xué)習(xí)？這份視頻攻略不算遲