Abstract

Neste artigo, apresenta-se um Método de Verificação de Dados Climatológicos Apoiado em Modelos Minerados - VEDALOGIC para o Instituto de Controle do Espaço Aéreo Brasileiro (ICEA). O VEDALOGIC consiste de uma verificação de dados, utilizando-se de modelos criados com algoritmos de Mineração de Dados. O Método utiliza modelos de clustering, gerados a partir de uma série histórica, que propiciam a identificação de grupos homogêneos em uma Base de Dados Climatológicos (BDC). A partir desses modelos, torna-se possível a detecção de inconformidades nos dados, denominadas pontos estranhos (outliers). Após a detecção de um outlier, este é classificado/predito, de acordo com o modelo de árvore de decisão, gerado também a partir de uma série histórica. O valor encontrado com base na árvore de decisão é adotado como sugestão para a correção do outlier, contribuindo com a consistência dos dados no BDC. Neste artigo, utilizam-se os seguintes algoritmos: Expectation-Maximization (EM) e K-means para clustering; e REPTree e M5P para classificação/predição. Para a verificação da eficiência do VEDALOGIC, inseriram-se, artificialmente, dados ruidosos em um conjunto de dados, os quais foram todos detectados pelo VEDALOGIC, que sugeriu valores para correção com uma precisão média superior a 98%.

Highlights

  • VEDALOGIC – A METHOD OF CLIMATOLOGIC DATA VERIFICATION BASED ON DATA MINING MODELS This work presents the VEDALOGIC - Method for Climatologic Data Verification – based on Data Mining Models, to be used by the “Instituto de Controle do Espaço Aéreo Brasileiro” (ICEA)

  • Caso o valor de um determinado atributo se encontre fora do intervalo estabelecido, um outlier, esta tupla seguirá para um modelo de árvore de decisão; A partir do modelo de árvore de decisão, sugere-se um valor alternativo para o atributo suspeito, de acordo com a série histórica armazenada na base de dados; Compara-se, então, o valor alternativo com o valor suspeito, caso estes sejam diferentes, considera-se os dados suspeitos como ruídos; Uma vez detectado o ruído, o usuário receberá uma mensagem informando os atributos que contenham possíveis erros, assim como os respectivos valores de sugestão para a correção e o intervalo de valores aceitáveis para estes atributos; e

  • Os atributos referentes à flags de controle interno e chave primária ou estrangeira são descartados, nos primeiros passos da etapa de pré-processamento

Read more

Summary

INTRODUÇÃO

Esta pesquisa foi motivada pela necessidade do Instituto de Controle de Espaço Aéreo (ICEA) desenvolver um verificador para as inserções de dados, em uma Base de Dados Climatológicos (BDC), que considerasse não apenas verificações por intervalo de valores de cada atributo, mas também as inter-relações entre eles. Naquela Instituição, de uma série histórica climatológica contendo dados das últimas cinco décadas, em processo de digitalização gradativa, bem como o armazenamento no BDC, sem uma verificação de consistência, o que impacta na confiabilidade dos dados armazenados. Será apresentado o Método VEDALOGIC com a geração de modelos de verificação dos dados, utilizando-se das técnicas de mineração de dados. Se aplicará os algoritmos de mineração de dados, adotando-se as técnicas que apresentam resultados com qualidade de classificação e de predição de valores para correção com precisão aceitável e que melhor identifiquem grupos homogêneos no BDC

MINERAÇÃO DE DADOS
Descoberta de Conhecimento em Banco de Dados – DCBD
O que é Mineração de Dados?
Tarefas e Técnicas de Mineração de Dados
VEGALOGIC
Geração dos Modelos de Verificação de Dados
Estudo de Caso
Pré-Processamento
Geração dos Modelos
Aplicação do VEDALOGIC nos Dados do BDC
DISCUSSÃO DOS RESULTADOS
CONCLUSÃO
Recomendações
AGRADECIMENTOS
REFERÊNCIAS BIBLIOGRÁFICAS
Full Text
Published version (Free)

Talk to us

Join us for a 30 min session where you can share your feedback and ask us any queries you have

Schedule a call