Abstract

La detección de valores atípicos en el campo de la minería de datos (DM) y el descubrimiento de conocimiento a partir de datos (KDD) es de gran interés en áreas que requieren sistemas de soporte a la toma de decisiones, como, por ejemplo, en el área financiera, en donde mediante DM se pueden detectar fraudes financieros o encontrar errores producidos por los usuarios. Entonces, es esencial, evaluar la veracidad de la información, a través de métodos de detección de comportamientos inusuales en los datos. Este artículo propone un método para detectar valores que se consideran valores atípicos en una base de datos de datos de tipo nominal. El método implementa un algoritmo global de “k” vecinos más cercanos, un algoritmo de agrupamiento denominado k-means y un método estadístico denominado chi-cuadrado. La aplicación de estas técnicas ha sido implementada sobre una base de datos de clientes que han solicitado un crédito financiero. El experimento se realizó sobre un conjunto de datos con 1180 tuplas, en donde, deliberadamente se introdujeron valores atípicos. Los resultados demostraron que el método propuesto es capaz de detectar todos los valores atípicos introducidos.

Highlights

  • The detection of outliers in the field of data mining (DM) and the process of knowledge discovery in databases (KDD) is of great interest in areas that require support systems for decision making

  • Kuna et al (2013) presenta un procedimiento que utiliza árboles de decisión basados en el algoritmo C4.5, el cual aplica valores continuos y separa los posibles resultados en dos ramas

  • No solamente existe un método; además, también se han presentado estudios que proveen métodos híbridos (p. ej., métodos adaptativos y basados en grupos) que aceleran el algoritmo de clasificación

Read more

Summary

Introducción

La detección de valores atípicos representa un desafío en las técnicas de minería de datos. Mandhare y Idate (2017) consideran que este tipo de datos son una amenaza y los definen como irrelevantes o. Kuna et al (2013) presenta un procedimiento que utiliza árboles de decisión basados en el algoritmo C4.5, el cual aplica valores continuos y separa los posibles resultados en dos ramas. Para encontrar los atributos más significativos y luego cada atributo de entrada y salida, se aplica el factor de valor atípico mediante la técnica de Local Outlier Factor (LOF). Consecuentemente, el presente artículo, propone una metodología para la detección de valores atípicos, que se basa en la aplicación de métodos estadísticos tradicionales (prueba de chi-cuadrado) con la aplicación de algoritmos de minería de datos (KNN Global Anomaly y K-means). La Sección 4 presenta la evaluación de la aplicación de la metodología, y finalmente, la Sección 5 presenta las conclusiones y el trabajo futuro

Trabajos relacionados
Metodología
Resultados y discusión
Conclusiones y recomendaciones

Talk to us

Join us for a 30 min session where you can share your feedback and ask us any queries you have

Schedule a call

Disclaimer: All third-party content on this website/platform is and will remain the property of their respective owners and is provided on "as is" basis without any warranties, express or implied. Use of third-party content does not indicate any affiliation, sponsorship with or endorsement by them. Any references to third-party content is to identify the corresponding services and shall be considered fair use under The CopyrightLaw.