PRICAI 2016國際人工智能大會論文解析 | 探索強(qiáng)化學(xué)習(xí)中多個動作之間的關(guān)系

本文作者：章敏

2016-08-24 15:33

導(dǎo)語：PRICAI 2016是環(huán)太平洋國際人工智能會議，每兩年舉行一次，大會專注于人工智能的理論，技術(shù)及其在社會領(lǐng)域的應(yīng)用，和其對于太平洋沿岸國家經(jīng)濟(jì)的重要性

導(dǎo)讀：PRICAI 2016是環(huán)太平洋國際人工智能會議，每兩年舉行一次，大會專注于人工智能的理論，技術(shù)及其在社會領(lǐng)域的應(yīng)用，和其對于太平洋沿岸國家經(jīng)濟(jì)的重要性。

探索強(qiáng)化學(xué)習(xí)中多個動作之間的關(guān)系（Exploring Multi-action Relationship in Reinforcement Learning）

PRICAI 2016國際人工智能大會論文解析 | 探索強(qiáng)化學(xué)習(xí)中多個動作之間的關(guān)系

摘要：很多現(xiàn)實(shí)生活中的強(qiáng)化學(xué)習(xí)問題，要求代理同時控制多個行動。在這種情況下進(jìn)行學(xué)習(xí)，以前，每一個動作通常和其他動作分開處理。然而，在應(yīng)用中多個行動之間幾乎很少獨(dú)立進(jìn)行，而且利用行動之間潛在的關(guān)系，可能有助于加快學(xué)習(xí)。本文探討了強(qiáng)化學(xué)習(xí)中多個行動之間的關(guān)系。我們提出執(zhí)行一個正則項(xiàng)來捕獲多行動之間的關(guān)系。我們將正則項(xiàng)具體化到最小二乘策略迭代和時域差分法中，這有效的解決了凸學(xué)習(xí)目標(biāo)。所提出的方法已在幾個領(lǐng)域中被證實(shí)有效。實(shí)驗(yàn)結(jié)果顯示具體化多動作之間關(guān)系能有效提高學(xué)習(xí)性能。

作者簡介

俞楊（Yang Yu）

郵箱：yuy@lamda.nju.edu.cn
職位：南京大學(xué)計算機(jī)科學(xué)與技術(shù)系副教授/LAMDA Group
研究方向：人工智能，進(jìn)化的機(jī)器學(xué)習(xí)，強(qiáng)化學(xué)習(xí)
相關(guān)學(xué)術(shù)論文：
·High-dimensional derivative-free optimization
·Pareto optimization

汪涵（Han Wang）