Abstract

Clustering algorithms are used to group some given objects defined by a set of numerical properties in such a way that the objects within a group are more similar than the objects in different groups. All clustering algorithms have common parameters the choice of which characterizes the effectiveness of clustering. The most important parameters characterizing clustering are: metrics (the distance between cluster elements and cluster centre), number of clusters k and cluster validity criteria. The goal of the paper – to perform the evaluation of the validity of metrics’ choice, to describe the change with respect to the number of clusters for experimental data purposes and to evaluate the credibility of clustering results. As an input data the table describing the rating of Latvian state higher educational institutions for year 2011 has been used and the goal of the experiment was to show, how by using the clustering methods it is possible to analyze the mentioned data in an alternative way.

Highlights

  • Mūsdienās ir uzkrājies liels daudzums datu dažādās zinātnes, uzņēmējdarbības, tautsaimniecības u.c. sfērās un rodas nepieciešamība analizēt tos labākai konkrētās nozares vadīšanai

  • Galvenās pētījuma metodes dotajā darbā ir aprakstošā metode, matemātiskā modelēšana un statistiskā analīze

  • Ka, atšķirībā no daudzām citām statistiskām procedūrām, vairumā gadījumu klasteranalīzes metodes tiek izmantotas tad, kad nav nekādu hipotēžu attiecībā par klasēm, bet vēl aizvien notiek datu vākšanas etaps

Read more

Summary

Klasterizācijas metožu pielietojums datu analīzē

Dažādās pētniecības jomās aktuāls ir jautājums: “Kā organizēt novērojamos datus pārskatāmās struktūrās?”. Ņemot vērā klasterizācijas svarīgo lomu datu analīzē, objekta piederības jēdziens tika vispārināts uz tādu klašu funkciju, kas nosaka klašu objektu piederību konkrētai klasei. Datu analīzē tradicionāli tiek pielietots k–vidējais klasterizācijas algoritms (2.). Parasti klasterizācijas algoritmos ieejas datu vektors tiek salīdzināts ar citiem vai ar iepriekš noteiktu klastera centru. Autors savā darbā (4.) pārbaudīja klasiskā klasterizācijas algoritma k–vidējais darbības rezultātus ar dažādām metrikām: Eiklīda attālumu, Manhetenas distanci, Kosinusa distanci un Pirsona korelācijas koeficientu. Eksperimentu gaitā kā k–vidējais klasterizācijas algoritmā klasteru centru noteikšanai secīgi tika izmantotas minētās četras metrikas. Tradicionāli klasterizācijas algoritmos izmanto Eiklīda attālumu, taču citas metrikas izvēle atsevišķos gadījumos var būt diskutējama. Algoritma darbības rezultātā tiek noteikti galīgie klasteru centri wj, ievērojot nosacījumu, ka attālumu kvadrātu summai starp visiem punktiem, kas pieder grupai j, un klastera centru ir jābūt minimālai.

Klasterizācijas rezultātu ticamības novērtējums
Reitinga dati
Klasterizācijas rezultāti
LU RTU RSU DU RPIVA RA REA ViA LiepU
Klasterizācijas ticamības analīze
Summary
Full Text
Published version (Free)

Talk to us

Join us for a 30 min session where you can share your feedback and ask us any queries you have

Schedule a call