IMPACT OF PARAMETERS CHARACTERIZING CLUSTERING ON DATA ANALYSIS RESULTS

Pēteris Grabusts

doi:10.17770/lner2012vol1.4.1828

Abstract

Clustering algorithms are used to group some given objects defined by a set of numerical properties in such a way that the objects within a group are more similar than the objects in different groups. All clustering algorithms have common parameters the choice of which characterizes the effectiveness of clustering. The most important parameters characterizing clustering are: metrics (the distance between cluster elements and cluster centre), number of clusters k and cluster validity criteria. The goal of the paper – to perform the evaluation of the validity of metrics’ choice, to describe the change with respect to the number of clusters for experimental data purposes and to evaluate the credibility of clustering results. As an input data the table describing the rating of Latvian state higher educational institutions for year 2011 has been used and the goal of the experiment was to show, how by using the clustering methods it is possible to analyze the mentioned data in an alternative way.

Highlights

Mūsdienās ir uzkrājies liels daudzums datu dažādās zinātnes, uzņēmējdarbības, tautsaimniecības u.c. sfērās un rodas nepieciešamība analizēt tos labākai konkrētās nozares vadīšanai
Galvenās pētījuma metodes dotajā darbā ir aprakstošā metode, matemātiskā modelēšana un statistiskā analīze
Ka, atšķirībā no daudzām citām statistiskām procedūrām, vairumā gadījumu klasteranalīzes metodes tiek izmantotas tad, kad nav nekādu hipotēžu attiecībā par klasēm, bet vēl aizvien notiek datu vākšanas etaps

Summary

Klasterizācijas metožu pielietojums datu analīzē

Dažādās pētniecības jomās aktuāls ir jautājums: “Kā organizēt novērojamos datus pārskatāmās struktūrās?”. Ņemot vērā klasterizācijas svarīgo lomu datu analīzē, objekta piederības jēdziens tika vispārināts uz tādu klašu funkciju, kas nosaka klašu objektu piederību konkrētai klasei. Datu analīzē tradicionāli tiek pielietots k–vidējais klasterizācijas algoritms (2.). Parasti klasterizācijas algoritmos ieejas datu vektors tiek salīdzināts ar citiem vai ar iepriekš noteiktu klastera centru. Autors savā darbā (4.) pārbaudīja klasiskā klasterizācijas algoritma k–vidējais darbības rezultātus ar dažādām metrikām: Eiklīda attālumu, Manhetenas distanci, Kosinusa distanci un Pirsona korelācijas koeficientu. Eksperimentu gaitā kā k–vidējais klasterizācijas algoritmā klasteru centru noteikšanai secīgi tika izmantotas minētās četras metrikas. Tradicionāli klasterizācijas algoritmos izmanto Eiklīda attālumu, taču citas metrikas izvēle atsevišķos gadījumos var būt diskutējama. Algoritma darbības rezultātā tiek noteikti galīgie klasteru centri wj, ievērojot nosacījumu, ka attālumu kvadrātu summai starp visiem punktiem, kas pieder grupai j, un klastera centru ir jābūt minimālai.

Klasterizācijas rezultātu ticamības novērtējums

Reitinga dati

Klasterizācijas rezultāti

LU RTU RSU DU RPIVA RA REA ViA LiepU

Klasterizācijas ticamības analīze

Summary