Entropy-based policy diversity measures to quantify the activation-convergence of UAV-based collective intelligent systems

Wen Wang,Junfeng Wu,Xianping Tao,Liang Wang,Hao Hu

doi:10.1360/sst-2021-0374

Abstract

新一代无人机群系统的重要特征是具有群体智能, 是一类典型的群智激发汇聚系统. 目前, 多智能体强化学习技术展现出较强优势, 是构建新一代自主智能无人机群系统的重要方法. 但目前多智能体强化学习的训练过程尚处于``黑盒状态, 缺乏对群体智能的激发和汇聚程度的有效度量手段. 针对这一问题, 本文从多智能体强化学习中智能体的策略出发, 以策略多样性度量无人机群在多智能体强化学习的训练过程中的激发-汇聚程度. 为了对策略的多样性进行度量, 本文借鉴物种多样性和信息论中的相关概念, 明确了策略多样性的内涵包括丰富和均匀程度两方面, 提出了``策略距离二次熵和``动作分布信息熵这两种策略多样性的计算方法. 本文设计了无人机群突防场景对本文所提出的策略多样性指标和两种计算方法的有效性和有用性进行了验证, 并通过敏感程度分析对两种计算方法进行了对比. 实验结果表明这两种计算方法在该场景中均能有效区分策略多样性的变化, 且两种计算方法间具有一致性, 从而验证了本文所提出的策略多样性指标及其计算方法的有效性. 在有用性方面, 本文验证了策略多样性与奖赏之间的关联关系, 以及环境的动态改变与策略多样性之间的相互影响和关联关系, 体现了策略多样性在认知群智系统, 指导群智激发汇聚过程上的潜在有用性. 本文所提出的策略多样性及其计算方法, 能够为定量认知群智系统激发-汇聚程度, 进而对群智系统的学习和训练开展引导和干预提供方法支撑.

Full Text