Ứng dụng phương pháp học tăng cường đa tác nhân giải bài toán lựa chọn phương tiện hỏa lực trong hệ thống tự động hóa chỉ huy-điều khiển

Xuân Trường Nguyễn,Hỏa Tiễn Vũ,Văn Phúc Hoàng,Quang Thi Nguyễn,Chí Thanh Vũ

doi:10.54939/1859-1043.j.mst.94.2024.11-21

Abstract

Bài báo trình bày phương pháp học tăng cường sâu đa tác nhân giải bài toán lựa chọn phương tiện hỏa lực (PTHL) động trong hệ thống TĐH CH-ĐK phòng không. Mô hình hoạt động của PTHL được xây dựng dựa trên dự đoán quỹ đạo tối ưu của các mô hình mục tiêu trên không đã được huấn luyện trước đó [1] và trạng thái các đối tượng trên mặt đất, cũng như phương án tối ưu phối hợp hoạt động của các PTHL trong hệ thống. Mô hình PTHL được xây dựng trên bộ thư viện OpenAI Gym sử dụng thuật toán học tăng cường sâu (DQL) để tối ưu hóa hàm giá trị Q. Sau khi được huấn luyện qua 200 nghìn vòng, mô hình PTHL đã có khả năng tự động phân tích, nhận thức tình huống, phối hợp các PTHL trong hệ thống, xây dựng phương án tương tác đối kháng động và chọn ra phương án tối ưu có tính tới các ràng buộc thực tế, để thu được giá trị cực tiểu của hàm tổn thất tổng thể cho toàn bộ quá trình chiến đấu. So với mô hình PTHL sử dụng thuật toán PPO được huấn luyện trong cùng một điều kiện môi trường, sau 1000 chu trình tác chiến tương tác với mô hình mục tiêu trên không, mô hình PTHL đề xuất đạt tỉ lệ chiến thắng 89,1% lớn hơn nhiều so với 77,2% của mô hình sử dụng thuật toán PPO.

Full Text