Abstract

The paper deals with the comparison of data dimensionality reduction methods with emphasis on ordinal data. Categorical and especially ordinal d ata we frequently obtain from questionnaire surveys. A questionnaire usually includes a big amount of questions (variables) . For applications of multivariate statistical methods, it is useful to reduce the number of these questions and create new latent va riables, which represent groups of original questions. Some dimensionality reduction methods are applicable to ordinal data (latent class models), some methods must be improved (categorical principal component analysis). Other methods are based on a distan ce matrix, so it is possible to use an appropriate distance measure for ordinal data (multidimensional scaling). In this paper , dimensionality reduction methods are applied to real datasets including ordinal data in the form of Likert scales. Various techn iques for the comparison of these methods are used. They are aimed to investigate goodness of the data structure in original and reduced space. In this paper t he goodness is evaluated by Spearman rank correlation coefficient .

Highlights

  • Zařazení proměnných do skupin na základě získaných hodnot dimenzí bylo provedeno pomocí fuzzy shlukové analýzy

  • Zápornými hodnotami v případě fuzzy shlukové analýzy mohou být ohodnoceny objekty, pro které je míra příslušnosti přibližně stejná pro dva či více shluků

  • Pro kombinování výsledků v rámci našich analýz byla horizontálním spojením jednotlivých výsledných matic stupňů příslušnosti proměnných do shluků získaných pro jednotlivé metody vytvořena nová vstupní matice

Read more

Summary

Použité metody a jejich specifikace

Základními metodami, které umožňují redukovat dimenzi vektorů charakterizujících objekty zahrnuté do analýzy, jsou analýza hlavních komponent (PCA – Principal Component Analysis) a faktorová analýza (FA – Factor Analysis). Pro účely tohoto článku jsme v systému SPSS využili matici vycházející z hodnot koeficientu pořadové korelace, viz níže. Z konkrétních metod lze uvést shlukové modely latentních tříd (modely LCC – Latent Class Cluster), modely diskrétní faktorové analýzy Metoda MDS (obdobně jako některé metody shlukové analýzy) vychází z matice vzdáleností (nepodobností, odlišností) pro všechny kombinace dvojic objektů či proměnných. Pro aplikace popsané v tomto článku byl v rámci všech tří výše zmíněných metod vícerozměrného škálování a též ve faktorové analýze použit Kendallův koeficient pořadové korelace τb, založený na porovnávání dvojic objektů a počítaný podle vzorce ôτbb. Kde Г je počet konkordantních párů, Δ je počet diskordantních párů, Ψk je počet párů, které obsahují stejnou hodnotu znaku Xk, ale různou hodnotu Xl, Ψl je počet párů, které obsahují stejnou hodnotu znaku Xl, ale různou hodnotu Xk. Zařazení proměnných do skupin na základě získaných hodnot dimenzí (komponent) bylo provedeno pomocí fuzzy shlukové analýzy. Pro spojování výsledků získaných pomocí různých metod do jediného výsledku byl využit přístup CSPA (Cluster-based Similarity Partitioning Algorithm)

Faktorová analýza
Modely latentních tříd
Kategoriální analýza hlavních komponent
Metody MDS a NMMDS
Fuzzy shluková analýza
DUNN nk 1 nk 2
DUNN 1 1
Přístup CSPA
Aplikace na reálná data a vyhodnocení

Talk to us

Join us for a 30 min session where you can share your feedback and ask us any queries you have

Schedule a call

Disclaimer: All third-party content on this website/platform is and will remain the property of their respective owners and is provided on "as is" basis without any warranties, express or implied. Use of third-party content does not indicate any affiliation, sponsorship with or endorsement by them. Any references to third-party content is to identify the corresponding services and shall be considered fair use under The CopyrightLaw.