Sistema de detección de robots humanoides en ambientes semiestructurados basado en visión estereoscópica

Oscar Herrera,Paola Cortez,Yesenia Gonzáles,Benito Granados

doi:10.36561/ing.21.8

Abstract

This work proposes the design, development and implementation of an artificial vision system based on stereo video, which is executed in an embedded system, to identify humanoid robots within a semi-structured area. The embedded system uses an Intel RealSense camera that, in addition to being able to obtain distances to objects due to its stereo vision, is capable of discriminating information after a distance threshold determined by the user, eliminating objects in the background of the scene and, through Image recognition based on a convolutional neural network recognizes the humanoid robots within it. The application of the system is based on the Robocup Humanoid League contest, where two teams of robots play soccer, so in addition to recognizing humanoid robots at different angles and distances, the system can classify recognized robots as companions or opponents (depending on the recognition of color marks they carry), emulating that, in the future, the proposed system will be mounted on another humanoid robot.

Highlights

Summary.- This work proposes the design, development and implementation of an artificial vision system based on stereo video, which is executed in an embedded system, to identify humanoid robots within a semi-structured area
Con relación a la categoría “RoboCup Humanoids League”, donde dos equipos de robots humanoides deben enfrentarse en un juego de fútbol de manera autónoma, los algoritmos desarrollados para la tarea de detección de robots humanoides han sido diversos, aunque no tan abundantes comparados con otras áreas de desarrollo, debido a que los interesados en esta tarea son pocos grupos de investigación a nivel mundial
Los archivos según el número de épocas que mejor resultado dieron en todas las versiones se muestran en la Tabla II

Summary

Etapa 2

Preprocesamiento. – Las imágenes a color que entrega la cámara son en formato RGB y cada imagen a color es un conjunto de 3 matrices de datos con la misma resolución (número de filas y columnas). – Las imágenes a color que entrega la cámara son en formato RGB y cada imagen a color es un conjunto de 3 matrices de datos con la misma resolución (número de filas y columnas). Puede observarse la imagen original en formato de color RGB, el mapa de profundidad obtenido y la discriminación de píxeles con distancias mayores a 1 m, a los cuales se le cambió el color original a color gris (se seleccionó el valor numérico 153). Este conjunto de datos es bastante grande, sin embargo, al ser fotogramas de videos, las imágenes en su mayoría no tenían diferencia, esto es algo que se debe evitar para entrenar a una red neuronal ya que los modelos pueden sufrir de sobreajuste y no funcionan más que con los datos con los que fueron entrenados. Imágenes del banco de datos utilizado para el entrenamiento de la red neuronal convolucional

Etapa 3

Findings

Etapa 4