Abstract

The universal fast algorithm of cluster analysis is considered. The proposed algorithm is a grid type, it uses the point density parameter in the grid cell and the ratio between neighborhoods to unite of neighboring dense cells into clusters.The algorithm sequentially calculates for each point the number of the cell to which it belongs, then generates groups of points for each non-empty cell. Then it sequentially unites cells into clusters, starting the process of fusion of the densest cells.The next cell is included in some cluster if at least one cell neighbor already belongs to the cluster. If the neighbors of the cell do not belong to any formed cluster, then the cell forms a new cluster. If the neighbors of the cell belong to several existing clusters, the respective clusters are merged into a new cluster.Combining cells into clusters uniquely determines the distribution of multiple points between the clusters. The user must specify a grid step parameter and a minimum grid cell density for which the cluster joining process is not performed. Low-density cells are considered noise.The algorithm does not require a preliminary task of the number of clusters and information about the nature of the distribution of points in the input set.The proposed algorithm can be used to process large arrays of point data of large spatial resolution. The most promising area of application of the algorithm is the analysis of multispectral satellite images of medium and high resolution in the fields of the analysis of the state of agricultural resources, forest resources and various natural landscapes. The result of clustering the space image data can also be used to create a classifier's training set.

Highlights

  • The algorithm does not require a preliminary task of the number of clusters and information about the nature of the distribution of points in the input set

  • The most promising area of application of the algorithm is the analysis of multispectral satellite images of medium and high resolution in the fields of the analysis of the state of agricultural resources, forest resources and various natural landscapes

  • Стаття надійшла до редакції 17.10.2019 і прийнята до друку після рецензування 23.12.2019

Read more

Summary

Побудова сітки

Задаємо параметр дискретизації сітки h і обчислимо кількість розбиттів паралелепіпеда в напрямку кожної координати: mj. Загальна кількість комірок, які покривають паралелепіпед , n дорівнює M = m j. Множина векторних індексів комірок сітки R взаємно-однозначно відображується на множину натуральних чисел: R Z = 1,2,...M. Послідовно для кожної точки множини обчислюємо багатовимірний індекс комірки, якій вона належить: R(i) rji xi, j. Z = Z (i) ,i ,i = 1, N , який встановлює приналежність кожної точки множини одній з комірок сітки. Об'єднання комірок в кластери однозначно визначає кластеризацію множини точок. Тому достатньо об’єднати в кластери одновимірні індекси комірок. Другий варіант завершення процедури кластеризації можна здійснити методом класифікації (навчання з вчителем), де в якості множини навчання використовуються вже сформовані кластери, наприклад методом мінімальної відстані або методом найближчих сусідів

Тестова перевірка працездатності алгоритму
СПИСОК ЛІТЕРАТУРИ
Full Text
Published version (Free)

Talk to us

Join us for a 30 min session where you can share your feedback and ask us any queries you have

Schedule a call