Abstract

Purpose of reseach. The main purpose of this work is to increase the efficiency of a neural network model when navigating a mobile robotic platform in static and dynamically generated environments. Methods. To solve this problem, precise setting and optimization of neural network hyperparameters were proposed. In order to encourage agents to explore the environment, the reward system was adjusted to increase the reward when the distance from the agent to the target point was reduced, and the penalty increased when moving in the opposite direction to the end point and passing each subsequent scene. This distribution of rewards and penalties encourages agents to learn actively and helps to reduce the total number of scenes. In order to reduce the amount of data processed by a neural network, normalization of input vectors was introduced. The learning time of the neural network model was reduced due to the parallel training of agents and, consequently, increased experience as a result of the environmental research. Results. The proposed approach reduced the learning time by 30% and improved the navigation efficiency of the mobile platform by 10% in a dynamically generated environment and by 22% in a static environment compared to the non-optimized model. Conclusion. The proposed solution can be used in conjunction with other methods of tracing and navigation, when the taught neural network works simultaneously with the already developed and proven navigation algorithms, for example, if the mobile platform connects a taught neural network only to adjust the position in space and to prevent collisions with other objects.

Highlights

  • The main purpose of this work is to increase the efficiency of a neural network model when navigating a mobile robotic platform

  • the penalty increased when moving in the opposite direction to the end point

  • In order to reduce the amount of data processed by a neural network

Read more

Summary

Настройка гиперпараметров

Для повышения эффективности работы системы навигации агентов и уменьшения времени исследования окружающей среды была проведена настройка следующих гиперпараметров модели нейронной сети: числа скрытых слоев, временного горизонта, силы регуляризации энтропии , силы любопытства и количества эпох обучения. С целью обеспечения баланса между скоростью обучения и качеством модели нейронной сети, количество скрытых слоев было уменьшено с 256 до 128. Для возможности фиксации важных действий агента, таких как столкновения с другими объектами и застревание на месте, при частых вознаграждениях параметр «временной горизонт» был увеличен с 32 до 1000. 1 и 2 представлены графики изменения энтропии во время обучения нейронной сети для неоптимизированной и оптимизированной моделей соответственно. Энтропия неоптимизированной модели увеличивается в течение обучения, что свидетельствует о том, что при попытке избежать столкновения с другими объектами платформа не достигает целевой точки. С целью систематизации формы представления входных данных нейронной сети было уменьшено количество векторов координат точек пространства.

Корректировка системы распределения вознаграждений
Findings
Параллельное обучение агентов
Full Text
Published version (Free)

Talk to us

Join us for a 30 min session where you can share your feedback and ask us any queries you have

Schedule a call