Abstract
Neste artigo, apresenta-se um Método de Verificação de Dados Climatológicos Apoiado em Modelos Minerados - VEDALOGIC para o Instituto de Controle do Espaço Aéreo Brasileiro (ICEA). O VEDALOGIC consiste de uma verificação de dados, utilizando-se de modelos criados com algoritmos de Mineração de Dados. O Método utiliza modelos de clustering, gerados a partir de uma série histórica, que propiciam a identificação de grupos homogêneos em uma Base de Dados Climatológicos (BDC). A partir desses modelos, torna-se possível a detecção de inconformidades nos dados, denominadas pontos estranhos (outliers). Após a detecção de um outlier, este é classificado/predito, de acordo com o modelo de árvore de decisão, gerado também a partir de uma série histórica. O valor encontrado com base na árvore de decisão é adotado como sugestão para a correção do outlier, contribuindo com a consistência dos dados no BDC. Neste artigo, utilizam-se os seguintes algoritmos: Expectation-Maximization (EM) e K-means para clustering; e REPTree e M5P para classificação/predição. Para a verificação da eficiência do VEDALOGIC, inseriram-se, artificialmente, dados ruidosos em um conjunto de dados, os quais foram todos detectados pelo VEDALOGIC, que sugeriu valores para correção com uma precisão média superior a 98%.
Highlights
VEDALOGIC – A METHOD OF CLIMATOLOGIC DATA VERIFICATION BASED ON DATA MINING MODELS This work presents the VEDALOGIC - Method for Climatologic Data Verification – based on Data Mining Models, to be used by the “Instituto de Controle do Espaço Aéreo Brasileiro” (ICEA)
Caso o valor de um determinado atributo se encontre fora do intervalo estabelecido, um outlier, esta tupla seguirá para um modelo de árvore de decisão; A partir do modelo de árvore de decisão, sugere-se um valor alternativo para o atributo suspeito, de acordo com a série histórica armazenada na base de dados; Compara-se, então, o valor alternativo com o valor suspeito, caso estes sejam diferentes, considera-se os dados suspeitos como ruídos; Uma vez detectado o ruído, o usuário receberá uma mensagem informando os atributos que contenham possíveis erros, assim como os respectivos valores de sugestão para a correção e o intervalo de valores aceitáveis para estes atributos; e
Os atributos referentes à flags de controle interno e chave primária ou estrangeira são descartados, nos primeiros passos da etapa de pré-processamento
Summary
Esta pesquisa foi motivada pela necessidade do Instituto de Controle de Espaço Aéreo (ICEA) desenvolver um verificador para as inserções de dados, em uma Base de Dados Climatológicos (BDC), que considerasse não apenas verificações por intervalo de valores de cada atributo, mas também as inter-relações entre eles. Naquela Instituição, de uma série histórica climatológica contendo dados das últimas cinco décadas, em processo de digitalização gradativa, bem como o armazenamento no BDC, sem uma verificação de consistência, o que impacta na confiabilidade dos dados armazenados. Será apresentado o Método VEDALOGIC com a geração de modelos de verificação dos dados, utilizando-se das técnicas de mineração de dados. Se aplicará os algoritmos de mineração de dados, adotando-se as técnicas que apresentam resultados com qualidade de classificação e de predição de valores para correção com precisão aceitável e que melhor identifiquem grupos homogêneos no BDC
Talk to us
Join us for a 30 min session where you can share your feedback and ask us any queries you have