0
本文作者: sanman | 2018-06-11 10:23 |
雷鋒網(wǎng) AI 科技評(píng)論按:2018 年 5 月 31 日-6 月 1 日,中國(guó)自動(dòng)化學(xué)會(huì)在中國(guó)科學(xué)院自動(dòng)化研究所成功舉辦第 5 期智能自動(dòng)化學(xué)科前沿講習(xí)班,主題為「深度與寬度強(qiáng)化學(xué)習(xí)」。
如何賦予機(jī)器自主學(xué)習(xí)的能力,一直是人工智能領(lǐng)域的研究熱點(diǎn)。在越來(lái)越多的復(fù)雜現(xiàn)實(shí)場(chǎng)景任務(wù)中,需要利用深度學(xué)習(xí)、寬度學(xué)習(xí)來(lái)自動(dòng)學(xué)習(xí)大規(guī)模輸入數(shù)據(jù)的抽象表征,并以此表征為依據(jù)進(jìn)行自我激勵(lì)的強(qiáng)化學(xué)習(xí),優(yōu)化解決問題的策略。深度與寬度強(qiáng)化學(xué)習(xí)技術(shù)在游戲、機(jī)器人控制、參數(shù)優(yōu)化、機(jī)器視覺等領(lǐng)域中的成功應(yīng)用,使其被認(rèn)為是邁向通用人工智能的重要途徑。
本期講習(xí)班邀請(qǐng)有澳門大學(xué)講座教授,中國(guó)自動(dòng)化學(xué)會(huì)副理事長(zhǎng)陳俊龍,清華大學(xué)教授宋士吉,北京交通大學(xué)教授侯忠生,國(guó)防科技大學(xué)教授徐昕,中國(guó)中車首席專家楊穎,中科院研究員趙冬斌,清華大學(xué)教授季向陽(yáng),西安交通大學(xué)教授陳霸東,浙江大學(xué)教授劉勇,清華大學(xué)副教授游科友等十位學(xué)者就深度與寬度強(qiáng)化學(xué)習(xí)技術(shù)在游戲、機(jī)器人控制、參數(shù)優(yōu)化、機(jī)器視覺等領(lǐng)域中的成功應(yīng)用進(jìn)行報(bào)告。
雷鋒網(wǎng)AI科技評(píng)論在本文中將對(duì) 31 日陳俊龍、宋士吉、侯忠生、季向陽(yáng)、陳霸東的 5 場(chǎng)精彩報(bào)告進(jìn)行介紹。6 月 1 日的精彩報(bào)告見下篇文章。
陳俊龍是澳門大學(xué)講座教授,中國(guó)自動(dòng)化學(xué)會(huì)副理事長(zhǎng),國(guó)家千人學(xué)者,IEEE Fellow、AAAS Fellow、IAPR Fellow。
本報(bào)告討論強(qiáng)化學(xué)習(xí)的結(jié)構(gòu)及理論,包括馬爾科夫決策過(guò)程、強(qiáng)化學(xué)習(xí)的數(shù)學(xué)表達(dá)式、策略的構(gòu)建、估計(jì)及預(yù)測(cè)未來(lái)的回報(bào)。還討論如何用深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)來(lái)穩(wěn)定學(xué)習(xí)過(guò)程及特征提取、如何利用寬度學(xué)習(xí)結(jié)構(gòu)跟強(qiáng)化學(xué)習(xí)結(jié)合。最后討論深度、寬度強(qiáng)化學(xué)習(xí)帶來(lái)的機(jī)遇與挑戰(zhàn)。
陳俊龍教授提出的寬度學(xué)習(xí)系統(tǒng)(Broad Learning System,BLS)是基于將映射特征作為 RVFLNN 輸入的思想設(shè)計(jì)的。此外,BLS 可以在新加入的數(shù)據(jù)以有效和高效的方式更新系統(tǒng)(輸入的增量學(xué)習(xí))。BLS 的設(shè)計(jì)思路為:首先,利用輸入數(shù)據(jù)映射的特征作為網(wǎng)絡(luò)的「特征節(jié)點(diǎn)」。其次,映射的特征被增強(qiáng)為隨機(jī)生成權(quán)重的「增強(qiáng)節(jié)點(diǎn)」。最后,所有映射的特征和增強(qiáng)節(jié)點(diǎn)直接連接到輸出端,對(duì)應(yīng)的輸出系數(shù)可以通過(guò)快遞的 Pseudo 偽逆得出。
寬度強(qiáng)化學(xué)習(xí)相較于深度強(qiáng)化學(xué)習(xí)需要的訓(xùn)練時(shí)間更短,計(jì)算更快的同時(shí)準(zhǔn)確度也高,并使用額外的節(jié)點(diǎn)來(lái)提高準(zhǔn)確度,常規(guī)方法則是提高層數(shù)。
陳俊龍教授認(rèn)為強(qiáng)化學(xué)習(xí)接下來(lái)還要面對(duì)安全性和有效性問題,過(guò)度擬合等一系列挑戰(zhàn)。
宋士吉是清華大學(xué)自動(dòng)化系教授,博士生導(dǎo)師,國(guó)家 CIMS 工程技術(shù)研究中心研究員。
本報(bào)告闡述強(qiáng)化學(xué)習(xí)在深海機(jī)器人智能搜索與運(yùn)動(dòng)控制領(lǐng)域的算法研究及其應(yīng)用,從熱液羽狀流智能搜索與深海機(jī)器人運(yùn)動(dòng)控制兩個(gè)方面開展工作。在熱液羽狀流智能搜索方面,研究基于強(qiáng)化學(xué)習(xí)和遞歸網(wǎng)絡(luò)的羽狀流追蹤算法。利用傳感器采集到的流場(chǎng)與熱液信號(hào)信息,將機(jī)器人搜索熱液噴口的過(guò)程建模為狀態(tài)行為域連續(xù)的馬爾科夫決策過(guò)程,通過(guò)強(qiáng)化學(xué)習(xí)算法得到機(jī)器人艏向的最優(yōu)控制策略。在深海機(jī)器人運(yùn)動(dòng)控制方面,研究基于強(qiáng)化學(xué)習(xí)的軌跡跟蹤與最優(yōu)深度控制算法。在機(jī)器人系統(tǒng)模型未知的情況下,將控制問題建模成連續(xù)狀態(tài)動(dòng)作空間的馬爾可夫決策過(guò)程,并構(gòu)建評(píng)價(jià)網(wǎng)絡(luò)與策略網(wǎng)絡(luò),通過(guò)確定性策略和神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)得到最優(yōu)控制策略。
侯忠生是北京交通大學(xué)教授、博導(dǎo),北京交通大學(xué)自動(dòng)控制系主任。
本報(bào)告分為以下 6 個(gè)部分:第 1 部分主要介紹數(shù)據(jù)驅(qū)動(dòng)學(xué)習(xí),之所以提出數(shù)據(jù)驅(qū)動(dòng)學(xué)習(xí)是為了應(yīng)付模型未知的場(chǎng)景;第 2 部分主要介紹學(xué)習(xí)控制,該部分主要介紹了無(wú)模型自適應(yīng)學(xué)習(xí)控制;第 3 部分主要介紹動(dòng)態(tài)線性化方法,動(dòng)態(tài)線性化特點(diǎn)在于它不依賴于模型,結(jié)構(gòu),順序等;第 4 部分是數(shù)據(jù)驅(qū)動(dòng)自適應(yīng)控制在時(shí)間軸上的應(yīng)用;第 5 部分?jǐn)?shù)據(jù)驅(qū)動(dòng)自適應(yīng)控制在迭代軸上的應(yīng)用。第 6 部分是結(jié)論,即基于模型的控制理論收到越來(lái)越大的挑戰(zhàn),數(shù)據(jù)驅(qū)動(dòng)的的控制理論也許可以作為解決方案。
季向陽(yáng)是清華大學(xué)教授,國(guó)家杰青,中國(guó)青年科技獎(jiǎng)獲得者。
本報(bào)告主要聚焦于強(qiáng)化學(xué)習(xí)在智能控制系統(tǒng)中的應(yīng)用。強(qiáng)化學(xué)習(xí)(Reinforcement learning)是機(jī)器學(xué)習(xí)中的一個(gè)領(lǐng)域,強(qiáng)調(diào)如何基于環(huán)境而行動(dòng),以取得最大化的預(yù)期利益。其靈感來(lái)源于心理學(xué)中的行為主義理論,即有機(jī)體如何在環(huán)境給予的獎(jiǎng)勵(lì)或懲罰的刺激下,逐步形成對(duì)刺激的預(yù)期,產(chǎn)生能獲得最大利益的習(xí)慣性行為。強(qiáng)化學(xué)習(xí)通常包括兩個(gè)實(shí)體 agent 和 environment。兩個(gè)實(shí)體的交互如下,在 environment 的 state st 下,agent 采取 action at 進(jìn)而得到 reward rt 并進(jìn)入 state st+1。
本報(bào)告主要介紹如何在智能控制與決策中使用強(qiáng)化學(xué)習(xí)方法。
陳霸東是西安交通大學(xué)教授、博導(dǎo),陜西省「百人計(jì)劃」特聘教授。
本報(bào)告主要聚焦于核自適應(yīng)濾波與寬度學(xué)習(xí)相關(guān)內(nèi)容,核自適應(yīng)濾波器(Kernel Adaptive Filters)是近年來(lái)興起的在可再生核希爾伯特空間(RKHS)中實(shí)現(xiàn)的一類非線性自適應(yīng)濾波器,其拓?fù)浣Y(jié)構(gòu)為線性增長(zhǎng)的單隱層神經(jīng)元網(wǎng)絡(luò)。其基本思想是:首先,將輸入信號(hào)映射到高維核空間;然后,在核空間中推導(dǎo)線性濾波算法;最后,利用核技巧(Kernel Trick)得到原信號(hào)空間中非線性濾波算法。與傳統(tǒng)非線性濾波器比較,核自適應(yīng)濾波器具有以下優(yōu)點(diǎn):(a)如果選取嚴(yán)格正定的 Mercer 核函數(shù),具有萬(wàn)能逼近能力;(b)性能曲面在高維核空間中具有凸性,因此理論上不具局部極值;(c)隱節(jié)點(diǎn)由數(shù)據(jù)驅(qū)動(dòng)生成,減少了人工參與;(d)具有自正則性(Self-regularization),可有效防止過(guò)擬合。因此,核自適應(yīng)濾波概念提出以后引起了國(guó)內(nèi)外研究者廣泛興趣,越來(lái)越多的相關(guān)算法被提出,并被應(yīng)用到諸多領(lǐng)域。核自適應(yīng)濾波與最近興起的寬度學(xué)習(xí)(Broad Learning)關(guān)系密切,可以認(rèn)為是一類基于核方法的寬度學(xué)習(xí)算法。本報(bào)告將深入系統(tǒng)地闡述核自適應(yīng)濾波的基本思想、主要算法、性能分析、典型應(yīng)用,以及如何將其與寬度學(xué)習(xí)納入統(tǒng)一框架。
陳俊龍、宋士吉、侯忠生、季向陽(yáng)、陳霸東的 5 場(chǎng)精彩報(bào)告介紹如上,敬請(qǐng)期待雷鋒網(wǎng) AI 科技評(píng)論的后續(xù)報(bào)道。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。