Tracking Learning Based on Gaussian Regression for Multi-agent Systems in Continuous Space

Xin Chen,Hai-Jun Wei,Wei-Hua Cao,Min Wu

doi:10.3724/sp.j.1004.2013.02021

Abstract

摘要: 提高适应性、实现连续空间的泛化、降低维度是实现多智能体强化学习（Multi-agent reinforcement learning，MARL）在连续系统中应用的几个关键. 针对上述需求，本文提出连续多智能体系统（Multi-agent systems，MAS）环境下基于模型的智能体跟踪式学习机制和算法（MAS MBRL-CPT）.以学习智能体适应同伴策略为出发点，通过定义个体期望即时回报，将智能体对同伴策略的观测融入环境交互效果中，并运用随机逼近实现个体期望即时回报的在线学习.定义降维的Q函数，在降低学习空间维度的同时，建立MAS环境下智能体跟踪式学习的Markov决策过程（Markov decision process，MDP）.在运用高斯回归建立状态转移概率模型的基础上，实现泛化样本集Q值函数的在线动态规划求解.基于离散样本集Q函数运用高斯回归建立值函数和策略的泛化模型. MAS MBRL-CPT在连续空间Multi-cart-pole控制系统的仿真实验表明，算法能够使学习智能体在系统动力学模型和同伴策略未知的条件下，实现适应性协作策略的学习，具有学习效率高、泛化能力强等特点. 关键词: 连续状态空间 / 多智能体系统 / 基于模型的强化学习 / 高斯回归

Full Text