ASSIA | 中國(guó)自動(dòng)化學(xué)會(huì)「深度與寬度強(qiáng)化學(xué)習(xí)」智能自動(dòng)化學(xué)科前沿講習(xí)班（一）

本文作者： sanman

2018-06-11 10:23

導(dǎo)語：中國(guó)自動(dòng)化學(xué)會(huì)圍繞「深度與寬度強(qiáng)化學(xué)習(xí)」這一主題，在中科院自動(dòng)化所成功舉辦第 5 期智能自動(dòng)化學(xué)科前沿講習(xí)班

雷鋒網(wǎng) AI 科技評(píng)論按：2018 年 5 月 31 日-6 月 1 日，中國(guó)自動(dòng)化學(xué)會(huì)在中國(guó)科學(xué)院自動(dòng)化研究所成功舉辦第 5 期智能自動(dòng)化學(xué)科前沿講習(xí)班，主題為「深度與寬度強(qiáng)化學(xué)習(xí)」。

如何賦予機(jī)器自主學(xué)習(xí)的能力，一直是人工智能領(lǐng)域的研究熱點(diǎn)。在越來越多的復(fù)雜現(xiàn)實(shí)場(chǎng)景任務(wù)中，需要利用深度學(xué)習(xí)、寬度學(xué)習(xí)來自動(dòng)學(xué)習(xí)大規(guī)模輸入數(shù)據(jù)的抽象表征，并以此表征為依據(jù)進(jìn)行自我激勵(lì)的強(qiáng)化學(xué)習(xí)，優(yōu)化解決問題的策略。深度與寬度強(qiáng)化學(xué)習(xí)技術(shù)在游戲、機(jī)器人控制、參數(shù)優(yōu)化、機(jī)器視覺等領(lǐng)域中的成功應(yīng)用，使其被認(rèn)為是邁向通用人工智能的重要途徑。

本期講習(xí)班邀請(qǐng)有澳門大學(xué)講座教授，中國(guó)自動(dòng)化學(xué)會(huì)副理事長(zhǎng)陳俊龍，清華大學(xué)教授宋士吉，北京交通大學(xué)教授侯忠生，國(guó)防科技大學(xué)教授徐昕，中國(guó)中車首席專家楊穎，中科院研究員趙冬斌，清華大學(xué)教授季向陽，西安交通大學(xué)教授陳霸東，浙江大學(xué)教授劉勇，清華大學(xué)副教授游科友等十位學(xué)者就深度與寬度強(qiáng)化學(xué)習(xí)技術(shù)在游戲、機(jī)器人控制、參數(shù)優(yōu)化、機(jī)器視覺等領(lǐng)域中的成功應(yīng)用進(jìn)行報(bào)告。

雷鋒網(wǎng)AI科技評(píng)論在本文中將對(duì) 31 日陳俊龍、宋士吉、侯忠生、季向陽、陳霸東的 5 場(chǎng)精彩報(bào)告進(jìn)行介紹。6 月 1 日的精彩報(bào)告見下篇文章。

陳俊龍：從深度強(qiáng)化學(xué)習(xí)到寬度強(qiáng)化學(xué)習(xí)：結(jié)構(gòu)，算法，機(jī)遇及挑戰(zhàn)

陳俊龍是澳門大學(xué)講座教授，中國(guó)自動(dòng)化學(xué)會(huì)副理事長(zhǎng)，國(guó)家千人學(xué)者，IEEE Fellow、AAAS Fellow、IAPR Fellow。

本報(bào)告討論強(qiáng)化學(xué)習(xí)的結(jié)構(gòu)及理論，包括馬爾科夫決策過程、強(qiáng)化學(xué)習(xí)的數(shù)學(xué)表達(dá)式、策略的構(gòu)建、估計(jì)及預(yù)測(cè)未來的回報(bào)。還討論如何用深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)來穩(wěn)定學(xué)習(xí)過程及特征提取、如何利用寬度學(xué)習(xí)結(jié)構(gòu)跟強(qiáng)化學(xué)習(xí)結(jié)合。最后討論深度、寬度強(qiáng)化學(xué)習(xí)帶來的機(jī)遇與挑戰(zhàn)。

陳俊龍教授提出的寬度學(xué)習(xí)系統(tǒng)（Broad Learning System，BLS）是基于將映射特征作為 RVFLNN 輸入的思想設(shè)計(jì)的。此外，BLS 可以在新加入的數(shù)據(jù)以有效和高效的方式更新系統(tǒng)（輸入的增量學(xué)習(xí)）。BLS 的設(shè)計(jì)思路為：首先，利用輸入數(shù)據(jù)映射的特征作為網(wǎng)絡(luò)的「特征節(jié)點(diǎn)」。其次，映射的特征被增強(qiáng)為隨機(jī)生成權(quán)重的「增強(qiáng)節(jié)點(diǎn)」。最后，所有映射的特征和增強(qiáng)節(jié)點(diǎn)直接連接到輸出端，對(duì)應(yīng)的輸出系數(shù)可以通過快遞的 Pseudo 偽逆得出。

寬度強(qiáng)化學(xué)習(xí)相較于深度強(qiáng)化學(xué)習(xí)需要的訓(xùn)練時(shí)間更短，計(jì)算更快的同時(shí)準(zhǔn)確度也高，并使用額外的節(jié)點(diǎn)來提高準(zhǔn)確度，常規(guī)方法則是提高層數(shù)。

陳俊龍教授認(rèn)為強(qiáng)化學(xué)習(xí)接下來還要面對(duì)安全性和有效性問題，過度擬合等一系列挑戰(zhàn)。

宋士吉：基于強(qiáng)化學(xué)習(xí)的深海機(jī)器人智能搜索與運(yùn)動(dòng)控制方法

宋士吉是清華大學(xué)自動(dòng)化系教授，博士生導(dǎo)師，國(guó)家 CIMS 工程技術(shù)研究中心研究員。

本報(bào)告闡述強(qiáng)化學(xué)習(xí)在深海機(jī)器人智能搜索與運(yùn)動(dòng)控制領(lǐng)域的算法研究及其應(yīng)用，從熱液羽狀流智能搜索與深海機(jī)器人運(yùn)動(dòng)控制兩個(gè)方面開展工作。在熱液羽狀流智能搜索方面，研究基于強(qiáng)化學(xué)習(xí)和遞歸網(wǎng)絡(luò)的羽狀流追蹤算法。利用傳感器采集到的流場(chǎng)與熱液信號(hào)信息，將機(jī)器人搜索熱液噴口的過程建模為狀態(tài)行為域連續(xù)的馬爾科夫決策過程，通過強(qiáng)化學(xué)習(xí)算法得到機(jī)器人艏向的最優(yōu)控制策略。在深海機(jī)器人運(yùn)動(dòng)控制方面，研究基于強(qiáng)化學(xué)習(xí)的軌跡跟蹤與最優(yōu)深度控制算法。在機(jī)器人系統(tǒng)模型未知的情況下，將控制問題建模成連續(xù)狀態(tài)動(dòng)作空間的馬爾可夫決策過程，并構(gòu)建評(píng)價(jià)網(wǎng)絡(luò)與策略網(wǎng)絡(luò)，通過確定性策略和神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)得到最優(yōu)控制策略。

侯忠生：數(shù)據(jù)驅(qū)動(dòng)的自適應(yīng)學(xué)習(xí)控制

侯忠生是北京交通大學(xué)教授、博導(dǎo)，北京交通大學(xué)自動(dòng)控制系主任。

本報(bào)告分為以下 6 個(gè)部分：第 1 部分主要介紹數(shù)據(jù)驅(qū)動(dòng)學(xué)習(xí)，之所以提出數(shù)據(jù)驅(qū)動(dòng)學(xué)習(xí)是為了應(yīng)付模型未知的場(chǎng)景；第 2 部分主要介紹學(xué)習(xí)控制，該部分主要介紹了無模型自適應(yīng)學(xué)習(xí)控制；第 3 部分主要介紹動(dòng)態(tài)線性化方法，動(dòng)態(tài)線性化特點(diǎn)在于它不依賴于模型，結(jié)構(gòu)，順序等；第 4 部分是數(shù)據(jù)驅(qū)動(dòng)自適應(yīng)控制在時(shí)間軸上的應(yīng)用；第 5 部分?jǐn)?shù)據(jù)驅(qū)動(dòng)自適應(yīng)控制在迭代軸上的應(yīng)用。第 6 部分是結(jié)論，即基于模型的控制理論收到越來越大的挑戰(zhàn)，數(shù)據(jù)驅(qū)動(dòng)的的控制理論也許可以作為解決方案。

季向陽：強(qiáng)化學(xué)習(xí)及智能控制與決策

季向陽是清華大學(xué)教授，國(guó)家杰青，中國(guó)青年科技獎(jiǎng)獲得者。

本報(bào)告主要聚焦于強(qiáng)化學(xué)習(xí)在智能控制系統(tǒng)中的應(yīng)用。強(qiáng)化學(xué)習(xí)（Reinforcement learning）是機(jī)器學(xué)習(xí)中的一個(gè)領(lǐng)域，強(qiáng)調(diào)如何基于環(huán)境而行動(dòng)，以取得最大化的預(yù)期利益。其靈感來源于心理學(xué)中的行為主義理論，即有機(jī)體如何在環(huán)境給予的獎(jiǎng)勵(lì)或懲罰的刺激下，逐步形成對(duì)刺激的預(yù)期，產(chǎn)生能獲得最大利益的習(xí)慣性行為。強(qiáng)化學(xué)習(xí)通常包括兩個(gè)實(shí)體 agent 和 environment。兩個(gè)實(shí)體的交互如下，在 environment 的 state s_t 下，agent 采取 action a_t 進(jìn)而得到 reward r_t 并進(jìn)入 state s_t+1。

本報(bào)告主要介紹如何在智能控制與決策中使用強(qiáng)化學(xué)習(xí)方法。

陳霸東：核自適應(yīng)濾波與寬度學(xué)習(xí)

陳霸東是西安交通大學(xué)教授、博導(dǎo)，陜西省「百人計(jì)劃」特聘教授。

本報(bào)告主要聚焦于核自適應(yīng)濾波與寬度學(xué)習(xí)相關(guān)內(nèi)容，核自適應(yīng)濾波器（Kernel Adaptive Filters）是近年來興起的在可再生核希爾伯特空間（RKHS）中實(shí)現(xiàn)的一類非線性自適應(yīng)濾波器，其拓?fù)浣Y(jié)構(gòu)為線性增長(zhǎng)的單隱層神經(jīng)元網(wǎng)絡(luò)。其基本思想是：首先，將輸入信號(hào)映射到高維核空間；然后，在核空間中推導(dǎo)線性濾波算法；最后，利用核技巧（Kernel Trick）得到原信號(hào)空間中非線性濾波算法。與傳統(tǒng)非線性濾波器比較，核自適應(yīng)濾波器具有以下優(yōu)點(diǎn)：（a）如果選取嚴(yán)格正定的 Mercer 核函數(shù)，具有萬能逼近能力；（b）性能曲面在高維核空間中具有凸性，因此理論上不具局部極值；（c）隱節(jié)點(diǎn)由數(shù)據(jù)驅(qū)動(dòng)生成，減少了人工參與；（d）具有自正則性（Self-regularization），可有效防止過擬合。因此，核自適應(yīng)濾波概念提出以后引起了國(guó)內(nèi)外研究者廣泛興趣，越來越多的相關(guān)算法被提出，并被應(yīng)用到諸多領(lǐng)域。核自適應(yīng)濾波與最近興起的寬度學(xué)習(xí)（Broad Learning）關(guān)系密切，可以認(rèn)為是一類基于核方法的寬度學(xué)習(xí)算法。本報(bào)告將深入系統(tǒng)地闡述核自適應(yīng)濾波的基本思想、主要算法、性能分析、典型應(yīng)用，以及如何將其與寬度學(xué)習(xí)納入統(tǒng)一框架。

陳俊龍、宋士吉、侯忠生、季向陽、陳霸東的 5 場(chǎng)精彩報(bào)告介紹如上，敬請(qǐng)期待雷鋒網(wǎng) AI 科技評(píng)論的后續(xù)報(bào)道。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

1人收藏

sanman

編輯

發(fā)私信