Abstract

Resumo O objetivo deste trabalho foi avaliar diferentes estratégias para a predição da distribuição de classes de solo em mapas pedológicos digitais de áreas sem dados de referência, na bacia sedimentar do São Francisco, no Norte de Minas Gerais. As estratégias incluíram: o detalhamento da legenda, o treinamento por observações em campo, a ampliação do conjunto de treinamento e o uso de diferentes algoritmos de mineração de dados. Foram elaboradas quatro matrizes, diferenciadas pelo volume de dados, para o aprendizado dos algoritmos, e pelo nível taxonômico das classes de solo a serem preditas. Avaliou-se o desempenho dos algoritmos de aprendizado de máquina - Random Forest, J48 e MLP -, associados a procedimentos de discretização, balanceamento de classes, seleção de variáveis e expansão do conjunto de treinamento. O balanceamento de classes, a discretização de variáveis por frequências iguais e o algoritmo Random Forest apresentaram os melhores desempenhos. A extensão da representatividade das observações em campo, que presume uma área de treinamento mais ampla, não trouxe ganho preditivo. A generalização taxonômica para subordem diminui a fragmentação dos polígonos mapeados e aumenta a acurácia dos mapas pedológicos digitais. Quando são produzidos após treinamento por observações de solo in situ, na área de mapeamento, os mapas pedológicos digitais têm valores de acurácia equivalentes aos dos treinados em mapas preexistentes.

Highlights

  • Soil class prediction by data mining in an area of the sedimentary São Francisco basin Abstract – The objective of this work was to evaluate different strategies for the prediction of soil class distribution on digital soil maps of areas without reference data, in the sedimentary basin of San Francisco, in the north of the state of Minas Gerais, Brazil

  • Soil taxonomic generalization to the suborder level reduces the fragmentation of mapped polygons and improves the accuracy of digital soil maps

  • When generated by training on in situ soil observations at the mapping area, digital soil maps are as accurate as those trained on preexistent maps

Read more

Summary

Material e Métodos

A área estudada está inserida na Microrregião de Montes Claros, norte do Estado de Minas Gerais, com o Município de Capitão Enéas em posição central, e tem 110.289 ha, delimitada entre 16o02'09" e 16o40'14"S e 43o56'51" e 43o36'54"W. Classes de Solo – a seleção dos locais de observação de solos foi realizada pelo programa de amostragem aleatória estratificada cLHS (Wyss & Jorgensen, 1998), tendo como condicionantes as variáveis de relevo, litologia e os índices derivados da imagem Landsat 8. Matrizes de dados – as variáveis geomorfométricas, os índices derivados da imagem Landsat 8 e a litologia foram considerados preditivos das classes de solo avaliadas em dois níveis hierárquicos do SiBCS: subgrupo (4o nível), acrescido do grupamento textural; e subordem (2o nível). Para cada um dos algoritmos, testaram-se técnicas de pré-processamento dos dados, como discretização, balanceamento de classes e ordenamento e seleção de variáveis. Constituídos pelo algoritmo e pela sequência de técnicas de pré-processamento que resultaram na maior acurácia, foram aplicados às matrizes para a predição das classes de solo faltantes. Validação dos mapas – em matrizes de erro, as 62 observações em campo separadas para validação foram confrontadas com os mapas preditos, tendo-se obtido a acurácia global, que é a proporção de observações corretamente classificadas, e o índice kappa

Resultados e Discussão
Discretização Balanceamento Seleção de de classes variáveis
Findings
Matriz Acurácia global
Full Text
Paper version not known

Talk to us

Join us for a 30 min session where you can share your feedback and ask us any queries you have

Schedule a call

Disclaimer: All third-party content on this website/platform is and will remain the property of their respective owners and is provided on "as is" basis without any warranties, express or implied. Use of third-party content does not indicate any affiliation, sponsorship with or endorsement by them. Any references to third-party content is to identify the corresponding services and shall be considered fair use under The CopyrightLaw.