Abstract

One of the urgent tasks of machine learning is the problem of clustering objects. Clustering time series is used as an independent research technique, as well as part of more complex data mining methods, such as rule detection, classification, anomaly detection, etc.A comparative analysis of clustering noisy time series is carried out. The clustering sample contained time series of various types, among which there were atypical objects. Clustering was performed by k-means and DBSCAN methods using various distance functions for time series.A numerical experiment was conducted to investigate the application of the k-means and DBSCAN methods to model time series with additive white noise. The sample on which clustering was carried out consisted of m time series of various types: harmonic realizations, parabolic realizations, and “bursts”.The work was carried out clustering noisy time series of various types.DBSCAN and k-means methods with different distance functions were used. The best results were shown by the DBSCAN method with the Euclidean metric and the CID function.Analysis of the results of the clustering of time series allows determining the key differences between the methods: if you can determine the number of clusters and you do not need to separate atypical time series, the k-means method shows fairly good results; if there is no information on the number of clusters and there is a problem of isolating non-typical rows, it is advisable to use the DBSCAN method.

Highlights

  • Целью данной работы является проведение сравнительного анализа кластеризации зашумленных временных рядов с нетипичными объектами с использованием нескольких методов кластеризации и различных функций расстояния

  • Вначале мы задаем количество кластеров и соответствующие центроиды для каждого из них

  • Что мы можем получить в кластере такие объекты, которые на самом деле не являются близкими к их центроиду

Read more

Summary

КЛАСТЕРИЗАЦИЯ ЗАШУМЛЕННЫХ ВРЕМЕННЫХ РЯДОВ

Анализ результатов кластеризации временных рядов позволяет определить ключевые различия между методами: если можно определить количество кластеров и не требуется отделять нетипичные временные ряды, метод k-средних показывает довольно хорошие результаты; если нет информации о количестве кластеров и существует задача выделения нетипичных рядов, целесобразно использовать метод DBSCAN. Вынести такие объекты в отдельный кластер успешно получилось только с помощью метода DBSCAN, не смотря на то, что для в методе k-means одним из начальных центров задавался нетипичный объект. Среди выбранных метрик для сравнения временных рядов наилучшие результаты были получены с помощью метрики Эвклида с функцией CID.

Кластеризація зашумленних часових рядів
Clustering Noisy Time Series
Full Text
Paper version not known

Talk to us

Join us for a 30 min session where you can share your feedback and ask us any queries you have

Schedule a call

Disclaimer: All third-party content on this website/platform is and will remain the property of their respective owners and is provided on "as is" basis without any warranties, express or implied. Use of third-party content does not indicate any affiliation, sponsorship with or endorsement by them. Any references to third-party content is to identify the corresponding services and shall be considered fair use under The CopyrightLaw.