Mejora de la visualización de gráficos PRINCALS en R: Un estudio de caso sobre "La Violencia contra la Mujer durante el 2018"
Violence against women is a global public health issue. In Peru, the number of reported cases continues to rise, and studies addressing this problem often involve a wide variety of qualitative variables. The aim of this study is to optimize the quality of the graphs generated through categorical principal component analysis (PRINCALS) using the R programming language, focusing on cases of economic and other types of violence during the year 2018. The text outlines the foundations of the PRINCALS method and highlights the advantages of optimal scaling for transforming qualitative variables into quantitative ones, enabling a deeper analysis of categorical data. Finally, the graphs produced using the Gifi package are compared to those generated with g.princals, demonstrating signi_cant improvements in visual clarity, axis alignment, and reduction of label overlap.
- Research Article
44
- 10.1016/j.jsr.2020.02.004
- Mar 20, 2020
- Journal of Safety Research
Comparative analysis of data reduction techniques for questionnaire validation using self-reported driver behaviors
- Research Article
9
- 10.1088/1742-6596/824/1/012027
- Mar 1, 2017
- Journal of Physics: Conference Series
The problem often encounters in logistic regression modeling are multicollinearity problems. Data that have multicollinearity between explanatory variables with the result in the estimation of parameters to be bias. Besides, the multicollinearity will result in error in the classification. In general, to overcome multicollinearity in regression used stepwise regression. They are also another method to overcome multicollinearity which involves all variable for prediction. That is Principal Component Analysis (PCA). However, classical PCA in only for numeric data. Its data are categorical, one method to solve the problems is Categorical Principal Component Analysis (CATPCA). Data were used in this research were a part of data Demographic and Population Survey Indonesia (IDHS) 2012. This research focuses on the characteristic of women of using the contraceptive methods. Classification results evaluated using Area Under Curve (AUC) values. The higher the AUC value, the better. Based on AUC values, the classification of the contraceptive method using stepwise method (58.66%) is better than the logistic regression model (57.39%) and CATPCA (57.39%). Evaluation of the results of logistic regression using sensitivity, shows the opposite where CATPCA method (99.79%) is better than logistic regression method (92.43%) and stepwise (92.05%). Therefore in this study focuses on major class classification (using a contraceptive method), then the selected model is CATPCA because it can raise the level of the major class model accuracy.
- Research Article
76
- 10.1007/s11205-018-1842-2
- Jan 31, 2018
- Social Indicators Research
Social capital is a promising concept, widely used by social science researchers in analysing factors that contribute to the persistence of various economic issues. Unfortunately, the search for the best way to define, measure and classify the appropriate components that constitute this intangible form of capital is far from complete. Generally, data on social capital are qualitative in nature (mostly of the nominal and ordinal types) and encompass a large number of variables. This challenges the researcher to find the best way to reduce these data to a small number of composites to be used as a proxy of measurement in further analysis. Although principal component analysis (PCA) is considered an appropriate method and has been widely adopted in past studies, the requirement that data must be at the numeric measurement level, as well as the assumptions of linear relationships between variables, might hinder the use of PCA in working with social capital data. Categorical principal component analysis (CATPCA) is a more flexible alternative, suitable for variables of mixed measurement levels (nominal, ordinal, and numeric) that may not be linearly related to each other. Based on theory and past studies, questionnaires have been constructed and fieldwork has been carried out to gather data on social capital in Malaysia. Later, using CATPCA, 42 potential variables were identified to represent components of social capital. Final results indicate that after withdrawing 9 variables with bad fits, CATPCA has categorized the balance of 33 variables into four dimensions of social capital. These dimensions can be described by 5 principal components, which have been identified as influence of spirituality and culture, benefits from interaction with friend, trusted person during financial difficulties, benefits from financial aid receive and benefits from involvement in association. The first component represents culture/spirituality, the new dimension created by this study to address social capital from the perspective of a developing country. The second, third, fourth and fifth components are in line with the consensus reached by scholars and advocates regarding the elements or components of social capital. The second and fifth actually fall under the rubrics of the social relation/networks dimension while the third and fourth under trust and norms.
- Dissertation
- 10.12681/eadd/57183
- Jul 1, 2024
Εισαγωγή: Η αλλεργική δερματίτιδα εξ επαφής (ΑΔΕ) είναι μια δερματική αντίδραση υπερευαισθησίας επιβραδυνόμενου τύπου IV. Εμφανίζεται ως μια ανοσολογική απόκριση μετά από την επαφή του δέρματος με αλλεργιογόνα (απτένια) και μόνο σε προηγουμένως ευαισθητοποιημένα άτομα. Ειδικότερα, η ευαισθητοποίηση είναι η προφλεγμονώδης κατάσταση στο δέρμα, η οποία προκαλείται μετά από έκθεση σε κάποιο απτένιο χωρίς όμως κλινικές εκδηλώσεις, ενώ οι βλάβες της ΑΔΕ αναπτύσσονται μετά από επακόλουθες εκθέσεις στα ίδια απτένια. Αξίζει να σημειωθεί ότι οι ευαισθητοποιημένοι ασθενείς σε ένα αλλεργιογόνο έχει αποδειχθεί ότι διατρέχουν υψηλό κίνδυνο να αναπτύξουν αλλεργίες σε πολλαπλά αλλεργιογόνα. Ειδικότερα, ως πολλαπλή ευαισθητοποίηση ή πολυευαισθητοποίηση ορίζεται η καταγραφή θετικών αντιδράσεων στις επιδερμιδικές δοκιμασίες τύπου εμπλάστρου (patch test) σε τρία ή περισσότερα μη σχετιζόμενα απτένια. Επιπλέον, η επαγγελματική δερματίτιδα εξ επαφής είναι ο πιο συχνός τύπος επαγγελματικών δερματικών παθήσεων. Στις βιομηχανοποιημένες περιοχές της Ευρώπης, η ΑΔΕ που σχετίζεται με το επάγγελμα αντιπροσωπεύει το 80 % όλων των περιπτώσεων επαγγελματικών δερματοπαθειών. Επαγγέλματα όπως φαρμακοποιοί, γιατροί, νοσηλευτές, οδοντοτεχνίτες, οικοδόμοι, ελαιοχρωματιστές, εργαζόμενοι στις υπηρεσίες καθαρισμού, αισθητικοί, τεχνίτριες νυχιών, κομμωτές, καθώς και εργαζόμενοι στη βιομηχανία καουτσούκ, πλαστικών, χρωμάτων και υφασμάτων διατρέχουν αυξημένο κίνδυνο εμφάνισης της νόσου. Συνολικά, η ΑΔΕ επηρεάζει περίπου 5,7 εκατομμύρια ενήλικες και 4,4 εκατομμύρια παιδιά ετησίως. Συνεπώς αλλεργική δερματίτιδα εξ επαφής αποτελεί ένα σημαντικό παγκόσμιο πρόβλημα υγείας, που επηρεάζει τη σωματική, συναισθηματική, κοινωνική και ψυχική υγεία των ασθενών με μεγάλη ταυτόχρονα επίπτωση στην παραγωγικότητα των ασθενών και την παροχή υγειονομικής περίθαλψης. Ο επιπολασμός της αλλεργίας εξ επαφής εκτιμάται ότι σχετίζεται με περιβαλλοντικούς και γενετικούς παράγοντες. Ωστόσο, η αιτιολογία και οι μηχανισμοί ευαισθητοποίησης είναι ακόμη σε μεγάλο βαθμό άγνωστοι. Κατά συνέπεια, η έγκαιρη διάγνωση της ΑΔΕ και ο εντοπισμός των πηγών ευαισθητοποίησης είναι κρίσιμα βήματα στην αποτελεσματική διαχείριση των ασθενών και της δερματικής νόσου.Επί του παρόντος, η in vivo μέθοδος της επιδερμικής δοκιμασίας τύπου επιθέματος (patch test) παραμένει η κύρια διαγνωστική μέθοδος. Η Ευρωπαϊκή Βασική Σειρά (European Baseline Series - EBS) είναι το βασικό σύνολο αλλεργιογόνων εξ επαφής. Ειδικότερα περιλαμβάνει τις πιο διαδεδομένες κατηγορίες αλλεργιογόνων, όπως τοπικά φάρμακα, έκδοχα, συντηρητικά, μέταλλα, αρώματα, βαφές-χρωστικές, ακρυλικές ενώσεις, και ρητίνες. Τα κριτήρια συμπερίληψης αλλεργιογόνων διαμορφώνονται και ενημερώνονται από την European Society of Contact Dermatitis (ESCD) με βάση τα εθνικά, κοινωνικά και εργασιακά πρότυπα. Αυτό σημαίνει ότι νέα αλλεργιογόνα μπορούν να προστεθούν στις σειρές ελέγχου, ενώ αυτά που δεν έχουν πλέον κλινική σημασία μπορούν να διαγραφούν από αυτές. Τα τοπικά φαρμακευτικά προϊόντα έχουν τη δυνατότητα να προκαλέσουν ΑΔΕ. Ειδικότερα, η τοπική εφαρμογή αναισθητικών, αντιβιοτικών, κορτικοστεροειδών, αντιμυκητιασικών, μη στεροειδών αντιφλεγμονωδών φαρμάκων (ΜΣΑΦ), οιστρογόνων και τεστοστερόνης, καθώς και οι συνθέσεις τους περιέχουν έκδοχα και συντηρητικά, μπορούν να λειτουργήσουν ως αλλεργιογόνοι παράγοντες. Ωστόσο, δεν απαιτούνται επιπλέον δεδομένα ασφάλειας σχετικά με τις αντιδράσεις υπερευαισθησίας στα σκευάσματα τοπικών φάρμακα, εφόσον τα συστατικά είναι σύμφωνα με τα πρότυπα του Υπουργείου Υγείας. Πρόσφατα, η υπηρεσία FDA συνέστησε τη χρήση διαγνωστικών patch test, τόσο στα συστατικά (δραστικές ουσίες και έκδοχα) καθώς και στο τελικό προϊόν κατά την έρευνα/ανάπτυξη φαρμάκων για την ενίσχυση του προφίλ ασφάλειάς τους.Στην εποχή των "Μεγάλων Δεδομένων", οι εφαρμογές της τεχνητής νοημοσύνης (AI) απαντώνται σε πολλές ιατρικές ειδικότητες, όπως η δερματολογία, η νευρολογία, η καρδιολογία, η παιδιατρική, η χειρουργική και άλλες. Ειδικότερα, οι αλγόριθμοι μηχανικής μάθησης (ML) έχουν τη δυνατότητα να αποκαλύπτουν μοναδικά πρότυπα στα σύνολα των κλινικών δεδομένων. Συνεπώς, η μηχανική μάθηση θα μπορούσε να συμβάλλει ενεργά στη στρατηγική διάγνωσης και θεραπείας της ΑΔΕ. Σκοπός: Η παρούσα διατριβή στοχεύει στη διερεύνηση των προτύπων ευαισθητοποίησης προκειμένου να κατανοηθεί η σύνδεση μεταξύ της υπερευαισθησίας σε φάρμακα και έκδοχα/συντηρητικά, ΑΔΕ, κλινικά και δημογραφικά χαρακτηριστικά ασθενών με τη χρήση μεθόδων τεχνητής νοημοσύνης (AI). Συγκεκριμένα, αυτή η μελέτη υπογραμμίζει τις δυνατότητες της τεχνητής νοημοσύνης στην αποκάλυψη μοναδικών μοτίβων στα δερματολογικά δεδομένα, βελτιώνοντας την παρακολούθηση των ασθενών και ανοίγοντας το δρόμο για τον ουσιαστικό μετασχηματισμό του συστήματος υγειονομικής περίθαλψης. Η όλη έρευνα διεξήχθη υπό το πρίσμα του τρόπου με τον οποίο η μεθοδολογία patch test , θα μπορούσε να εφαρμοστεί στην έρευνα/ανάπτυξη τοπικών φαρμάκων, βελτιώνοντας έτσι το προφίλ ασφάλειάς τους και ελαχιστοποιώντας τη συχνότητα εμφάνισης της νόσου. Υλικά -Μέθοδοι: Αναδρομικές και προοπτικές κλινικές μελέτες πραγματοποιήθηκαν για τη διερεύνηση του επιπολασμού της αλλεργικής δερματίτιδας εξ επαφής. Πιο συγκεκριμένα, πραγματοποιήθηκε συλλογή δεδομένων που αφορούν την in vivo δερματική δοκιμασία patch test από συνολικά 1200 ασθενείς, οι οποίοι εξετάστηκαν στο Εθνικό Κέντρο Αναφοράς Επαγγελματικών Δερματοπαθειών του Πανεπιστημιακού Νοσοκομείου «Ανδρέας Συγγρός». Η όλη διαχείριση των δεδομένων διεξήχθη υπό την επίβλεψη των θεραπόντων ιατρών, καθώς και η Επιστημονική Επιτροπή του νοσοκομείου εξέτασε και ενέκρινε κάθε ερευνητικό πρωτόκολλο. Όλες οι ηθικές πτυχές της μελέτης ήταν πλήρως σύμφωνες με τη Διακήρυξη του Ελσίνκι (1975, ανασκόπηση 2000). Η ευαισθητοποίηση σε όλες τις περιπτώσεις δοκιμάστηκε με μια συλλογή από 30 αλλεργιογόνα της Ευρωπαϊκής Βασικής Σειράς. Ειδικότερα, οι ασθενείς που επιλέχτηκαν για την παρούσα μελέτη ήταν ενήλικες διαγνωσμένοι με ΑΔΕ και ευαισθητοποιημένοι είτε σε φάρμακα είτε σε έκδοχα/συντηρητικά. Ως κριτήρια αποκλεισμού για το patch test λήφθηκαν υπόψη η υψηλή έκθεση στην υπεριώδη ακτινοβολία και η χρόνια χρήση κορτικοστεροειδών, ανοσοτροποποιητικών και αντιφλεγμονωδών φαρμάκων, τα οποία ενδέχεται να δώσουν ψευδώς θετικά ή αρνητικά αποτελέσματα. Σε αυτή τη διατριβή, μόνο τα θετικά αποτελέσματα patch test σε budesonide 0.01%, caine mix III 7%, and neomycin sulphate 20% (φάρμακα), ethylenediamine dihydrochloride 1% (έκδοχο), καθώς και formaldehyde 2%, quaternium-15 1%, KATHON 0.02%, thimerosal 0.1%, methyldibromo-glutaronitrile (MDBGN) 0.5%, και paraben mix 16% (συντηρητικά) αναλύθηκαν περαιτέρω. Επιπλέον, η κλινική αξιολόγηση πραγματοποιήθηκε 48 και 72 ώρες μετά την πρώτη έκθεση σε αλλεργιογόνα και ήταν σύμφωνη με τα κριτήρια της International Contact Dermatitis Research Group (ICDRG).Πληροφορίες συλλέχθηκαν, επίσης, με βάση έναν εκτεταμένο δείκτη MOAHLFA, για χαρακτηριστικά, όπως M (male), O (occupational dermatitis), A (atopic dermatitis), H (hand dermatitis), L (leg dermatitis), F (face dermatitis), A (age > 40), trunk, καθώς και δερματίτιδα κορμού, αυχένα και κεφαλής. Επιπλέον, η κατηγορία του επαγγέλματος αξιολογήθηκε σύμφωνα με τις οδηγίες ταξινόμησης International Standard Classification of Occupations (ISCO). Συγκεκριμένα, οι ασθενείς χωρίστηκαν σε πέντε μεγάλες επαγγελματικές κατηγορίες: υπηρεσίες καθαρισμού, βιομηχανία ομορφιάς, εργαζόμενοι στη βιομηχανία, εργαζόμενοι στον τομέα της υγείας και υπάλληλοι γραφείου. Με τη χρήση της κάμερας πολυφασματικής ανάλυσης Antera 3D®, οι δερματικές αντιδράσεις αξιολογήθηκαν περαιτέρω, πριν από τη δοκιμή επιθέματος και 72 ώρες μετά από την πρώτη έκθεση στα αλλεργιογόνα. Με βάση τις εικόνες που συλλέχθηκαν αξιολογήθηκαν το ερύθημα (haemoglobin), καθώς και η υφή του δέρματος (texture, elevation). Τέλος, οι τεχνικές μηχανικής μάθησης: Mulple correspondence analysis (MCA), Categorical Principal Components Analysis (CATPCA), Factor Analysis of mixed Data (FAMD), καθώς και Hierarchical και K-Means Clustering χρησιμοποιήθηκαν για την εύρεση και την απεικόνιση των υποκείμενων δομών στη συλλογή των κλινικών δεδομένων. Συνολικά, η διαχείριση και η ανάλυση των δεδομένων πραγματοποιήθηκε με τη γλώσσα προγραμματισμού R (htps://www.r-project.org), (version 4.3.3). Αποτελέσματα: Οι μέθοδοι μηχανικής μάθησης αποκάλυψαν πολυάριθμες συσχετίσεις μεταξύ των χαρακτηριστικών των ασθενών. Όσον αφορά τον δείκτη MOAHLFA, τα μοντέλα MCA αποκάλυψαν θετικές συσχετίσεις μεταξύ των ανατομικών περιοχών, της κατηγορίας επαγγέλματος και των πηγών ευαισθητοποίησης. Η ανάλυση CATPCA αποκάλυψε ισχυρές συσχετίσεις μεταξύ της δερματίτιδας χειρών και προϊόντων, όπως απολυμαντικά/προϊόντα καθαρισμού, βιομηχανικά υλικά, καλλυντικά και τοπικά φάρμακα. Επιπλέον, εντοπίστηκαν σημαντικές σχέσεις μεταξύ της ομάδας αλλεργιογόνου και των προσβεβλημένων περιοχών του σώματος. Επιπρόσθετα, τα μοντέλα CATPCA έδειξαν ότι οι ευαισθητοποιημένοι ασθενείς σε formaldehyde, thimerosal, και MDBGN φαίνεται να αναπτύσσουν επαγγελματική ΑΔΕ κυρίως στα χέρια, ενώ οι ασθενείς με KATHON ανέπτυξαν κυρίως δερματίτιδα προσώπου. Όσον αφορά την κατηγορία επαγγέλματος, η MCA βρήκε θετική συσχέτιση μεταξύ της κατηγορίας επαγγέλματος και του αλλεργιογόνου. Με βάση την αντίστοιχη ανάλυση CATPCA, οι εργαζόμενοι στη βιομηχανία και στη βιομηχανία ομορφιάς βρέθηκαν να είναι κυρίως ευαισθητοποιημένοι σε formaldehyde 2% και KATHON 0.02%, οι εργαζόμενοι σε υπηρεσίες καθαρισμού στη formaldehyde 2%, ενώ οι εργαζόμενοι στον τομέα της υγείας σε MDBGN 0,5% και thimerosal 0,1%. Επιπλέον, τα μοντέλα MCA και CATPCA επιβεβαίωσαν τα αποτελέσματα της κλασσικής στατιστικής, βρίσκοντας ισχυρές συσχετίσεις μεταξύ της ομάδας αλλεργιογόνου και του ICDRG 72h. Τα διαγράμματα MCA αποκάλυψαν πρόσθετες συσχετίσεις μεταξύ των κλινικών χαρακτηριστικών, της ηλικιακής ομάδας, του φύλου, της κατηγορίας BMI και του καπνίσματος, καθώς και μεταξύ της ατοπικής δερματίτιδας και του οικογενειακού ιστορικού ατοπίας. Στην ίδια κατεύθυνση, οι τα μοντέλα CATPCA αποκάλυψαν περαιτέρω συσχετίσεις μεταξύ ατοπικής δερματίτιδας - φωτότυπου (II, III), καθώς και ατοπικής δερματίτιδας - ηλικιακής ομάδας (> 40). Βάσει της ανάλυσης FAMD, θετικές συσχετίσεις βρέθηκαν μεταξύ ICDRG 72 h και Antera® 3D haemoglobin 72 h, δείχνοντας ότι η παράμετρος haemoglobin Antera® 3D στις 72 ώρες θα μπορούσε να χρησιμοποιηθεί ως πρόσθετο διαγνωστικό εργαλείο στην κλινική αξιολόγησης του patch test. Τέλος, οι αναλύσεις των βιομετρικών στοιχείων των ασθενών και των μετρήσεων Antera® 3D με τη χρήση των τεχνικών HCA και K-Means clustering διέκριναν δύο διαφορετικές ομαδοποιήσεις δεδομένων, συμβάλλοντας στην καλύτερη κατανόηση της ευαισθητοποίησης.ΣυμπεράσματαΟι εφαρμογές μηχανικής μάθησης αποτελούν χρήσιμο εργαλείο στη διερεύνηση και ανακάλυψη συσχετίσεων μεταξύ των διαφόρων κλινικών και δημογραφικών χαρακτηριστικών του ασθενούς. Ειδικότερα, η χρήση διαφορετικών αλγορίθμων μηχανικής μάθησης αποκάλυψε μοναδικά μοτίβα εντός των δεδομένων, συμβάλλοντας σημαντικά στη διερεύνηση του προφίλ των ασθενών. Η στρατηγική διάγνωσης και θεραπείας της ΑΔΕ μπορεί να είναι αποτελεσματική με τη συνεργασία του συστήματος υγειονομικής περίθαλψης, της διεθνούς επιστημονικής κοινότητας και της φαρμακευτικής βιομηχανίας, σύμφωνα με το νομοθετικό πλαίσιο. Συνολικά, η τεχνητή νοημοσύνη έχει τη δυνατότητα να μεταμορφώσει ριζικά το σύστημα υγειονομικής περίθαλψης και να βελτιώσει την ποιότητα ζωής των ασθενών.
- Research Article
- 10.18805/ijar.bf-1791
- Jun 12, 2024
- Indian Journal of Animal Research
Background: This study aims to determine the relationship between milk composition traits and breed in the Akkaraman and Awasi sheep as well as to provide ease of interpretation by showing the relationships structure between variables and between categories of variables in two-dimensional space with Categorical principal component analysis. Methods: Categorical principal component analysis determines relationships between continuous and categorical variables as well as ordinal variables. It aims to reduce system dimensionality through optimal scaling while maintaining variable measurement levels (nominal, multiple nominal, ordinal and interval). In this research, data obtained from Akkaraman and Awasi Breed Sheep Raised by Public Hands in Tuşba District of Van Province were used. In order to determine relationship with breed, the traits were divided into two categories, “low” and “high” and all variables (9 variables) were considered together and a Categorical principal components analysis was performed. Result: As a results, Dimension 1 accounted for 35.58% of the total variation while dimension 2 accounted for 15.21%. Two dimensions together accounted for 50.79% of the variation. Thus it can be noted that Categorical principal component analysis can be used in the analysis of data sets containing a large number of different types of variables with linear or non-linear relationships between them.
- Conference Article
- 10.3390/entropy2021-09828
- May 5, 2021
- Proceedings of Entropy 2021: The Scientific Tool of the 21st Century
Dengue is a mosquito-borne viral infection that is a leading cause of serious illness and death among children and adults in many countries across the world. In Paraguay, dengue incidence has been increasing especially in urban areas, becoming endemic and epidemic in the last few years. This work seeks to understand what factors are responsible for the epidemic and hemorrhagic varieties of dengue. Considering that collected data are of mixed nature (nominal and continuous), Categorical Principal Components Analysis (CatPCA) is adopted as a first tool. However, interpretation of CatPCA output can be challenging, partly because the same variable may appear throughout several of the principal components. Multivariate Symmetrical Uncertainty (MSU), an entropy-based similarity measure, allows quantifying correlations in a multivariate environment and detecting both linear and nonlinear associations. In this work, the MSU measure is used in combination with CatPCA to obtain greater insight regarding the relevance of each variable. We apply the two techniques combined in stages, using nation-wide data collected by the country's Sanitary Surveillance Department from nearly 200,000 suspected and confirmed cases throughout 5 years. The first few runs of CatPCA help to discard the less relevant attributes. A subsequent run of CatPCA provides principal components that account for a high percentage of the total variance. Working with the attribute sets identified by CatPCA, MSU finds $n$-way interactions and correlations, and groups those attributes for further selection. Segregation of attributes in disjoint groups can be done at this stage; this allows for an easier interpretation of groupings including those containing the key linear and nonlinear correlations. The outcomes from this combined approach are better than the CatPCA alone, identifying individual and grouped variables that contribute to the behavior of the class.
- Research Article
2
- 10.1016/j.catena.2023.107456
- Aug 16, 2023
- CATENA
Can CATPCA be utilized for spatial modeling? a case of the generation susceptibility of gully head in a watershed
- Book Chapter
- 10.1007/978-3-031-09034-9_39
- Jan 1, 2023
Leadership has been considerate as a competitive advantage for organizations, contributing to their success and effective and efficient performance. Motivation, on the other hand, is assumed as a basic competence of leadership. Therefore, the main purpose of this paper is to know the perceptions of bank employees on the main motivational factors in the organizational context. Data analysis was performed based on several statistical methods, among which the Categorical Principal Component Analysis (CatPCA) and some agglomerative hierarchical clustering algorithms from VL (V for Validity, L for Linkage) parametrical family, applied to the items that aim to assess the aspects most valued by bankers in the work context. The CatPCA allowed to extract four principal components which explain almost 70% of the total data variance. The dendrograms provided by the hierarchical clustering algorithms over the same data, exhibit four main branches, which are associated with different main motivational factors. Moreover, CatPCA and clustering results show an important correspondence concerning the main motivations in this sector.
- Research Article
- 10.4103/indianjpsychiatry.indianjpsychiatry_356_24
- Oct 1, 2024
- Indian Journal of Psychiatry
Background:Adolescents in low-middle-income countries face increasing physical and mental health challenges. The present study aimed to assess status of injury, verbal abuse, substance use, and emotional behavior of adolescents of Uttarakhand, India, and evaluate the importance of each component.Methods:A cross-sectional study was conducted among adolescents in 13 government schools in Uttarakhand using the Global School-based Health Survey (GSHS). Categorical principal component analysis (CATPCA) using Varimax rotation was performed to analyze principal components among two domains of GSHS (substance abuse domain and verbal abuse and emotional behavior domain). Factorability was assessed using Kaiser–Meyer–Olkin and Bartlett’s test. Variance Accounted For index was used to evaluate the importance of each component.Results:A total of 634 adolescents completed the questionnaire. 41.3% students suffered from serious injury with a significant difference (P < 0.0001) between both genders. Girls were more likely to report having felt lonely most of the time or always in the past 12 months (11.0% vs 4.6%, P = 0.018). Boys were more likely to miss classes on 3 or more days (9.9% vs 4.9%, P = 0.043). Initiation of smoking cigarettes (9.6% vs 1.2%, P <0.0001) and tobacco chewing (3.4% vs 0.3%, P = 0.001) was more likely in 12–15-year-old boys. One-third of the students reported male guardians to use either alcohol or some form of tobacco. CATPCA yielded an 11-factor model accounting for 58.26% of variances with the most important principal component named “Tobacco (Smoking and Chewing): Initiation, Frequency and Attempt to Stop” (eigenvalue: 4.109).Conclusion:Significant differences in various items of injury, verbal abuse, substance use, and emotional behavior were recorded between boys and girls. CATPCA revealed patterns among injury, verbal abuse, emotional behavior, and substance abuse domains of GSHS by categorizing them into 11 components. On the basis of these patterns, prioritizing and development of appropriate school-based interventions may be implemented by various stakeholders of Uttarakhand.
- Conference Article
- 10.4995/wdsa-ccwi2022.2022.14755
- Jul 18, 2022
Water main breaks can jeopardize the safe delivery of clean water and incur significant costs. To mitigate these risks, water main breaks have been predicted through physical and statistical approaches. The latter are less complex and can provide satisfactory results with less data. While many factors can contribute to breaks, the factors applied in previous studies depended on local data availability. Because other studies have focused on a few systems at a time, a broad comparison of factor importance has not been possible. This limits the understanding of the impact of different factors on water main deterioration. The present study identifies the most important factors driving water main breaks across 13 Canadian water systems. Twenty-eight factors describing physical, historical, protection, environmental and operational attributes were compiled and cleaned. Availability of each attribute differed by system. To evaluate the importance of both numerical and categorical attributes together, two approaches were tested, categorical principal component analysis (CATPCA) and recursive feature elimination with cross-validation (RFECV). The target variable in both cases was set as yearly break status, either broken or non-broken. While CATPCA provides the contribution of each attribute to the target, RFECV provides a tuned predictive model with selected attributes. The RFECV approach was applied with Random Forest and XGBoost models, both types of machine learning models which have been shown to produce accurate results in water main break prediction. Results from both approaches showed that physical and historical attributes are generally important across all systems. Other types of data, i.e. protection and operational are less available. When protection data is available it was shown to be even more important than physical and historical attributes. Specifically, with CATPCA, lining age and lining material were found to have a higher contribution to break status than pipe age and lining status. With RFECV lining age and lining material were also included in the best models, in particular for systems with greater percentage of lined pipes. These results indicate the choice and timing of lining are key in extending the service life of water mains. Furthermore, this data should be collected if protection practices are in place, to more accurately predict deterioration and future costs. The results also point to an opportunity to collect more operational data. Among attributes collected by only one utility, pipe pressure, roughness, and dead-end, were found to be important in CATPCA and RFECV. Thus, pipe dissipation and water stagnation could lead to greater pipe deterioration. Further studies are required to quantify the impacts of different pressure ranges and network designs on deterioration.
- Research Article
59
- 10.1016/j.jclepro.2022.134096
- Sep 14, 2022
- Journal of Cleaner Production
A hybrid machine-learning model for predicting the waste generation rate of building demolition projects
- Research Article
16
- 0161911/aim.009
- Nov 1, 2016
- Archives of Iranian medicine
Some variables like Socioeconomic Status (SES) cannot be directly measured, instead, so-called 'latent variables' are measured indirectly through calculating tangible items. There are different methods for measuring latent variables such as data reduction methods e.g. Principal Components Analysis (PCA) and Latent Class Analysis (LCA). The purpose of our study was to measure assets index- as a representative of SES- through two methods of Non-Linear PCA (NLPCA) and LCA, and to compare them for choosing the most appropriate model. This was a cross sectional study in which 1995 respondents filled the questionnaires about their assets in Tehran. The data were analyzed by SPSS 19 (CATPCA command) and SAS 9.2 (PROC LCA command) to estimate their socioeconomic status. The results were compared based on the Intra-class Correlation Coefficient (ICC). The 6 derived classes from LCA based on BIC, were highly consistent with the 6 classes from CATPCA (Categorical PCA) (ICC = 0.87, 95%CI: 0.86 - 0.88). There is no gold standard to measure SES. Therefore, it is not possible to definitely say that a specific method is better than another one. LCA is a complicated method that presents detailed information about latent variables and required one assumption (local independency), while NLPCA is a simple method, which requires more assumptions. Generally, NLPCA seems to be an acceptable method of analysis because of its simplicity and high agreement with LCA.
- Research Article
3
- 10.1027/1614-2241.5.1.26
- Jan 1, 2009
- Methodology
The use of classic dimension reduction techniques can be considered customary practice within the context of data mining (DM). Nevertheless, although artificial neural networks (ANNs) are one of the most important DM techniques, specific ANN architectures for dimensionality reduction, such as the principal components analysis ANN (PCA-ANN) and the linear auto-associative ANN (LA-ANN), are used on far fewer occasions. In this study, categorical principal component analysis (CATPCA) and the two ANN procedures are studied and compared searching for uniqueness in an applied context relative to personality variables and drug consumption. A sample of 7,030 adolescents completed a personality test made up of 20 dichotomous items with a hypothesized four-factor latent model. Results point out that both ANN factor solutions converge to those obtained using CATPCA. Nevertheless, possible drawbacks of the ANN techniques lie in their relatively complex application, as well as in the need to use visual graphic analysis as a support for interpreting the factorized solutions.
- Supplementary Content
1
- 10.25904/1912/4063
- Jan 20, 2021
- Griffith Research Online (Griffith University, Queensland, Australia)
A Framework for Islamic Social Banking
- Research Article
3
- 10.3389/fimmu.2024.1450153
- Jan 20, 2025
- Frontiers in immunology
This study aimed to identify new clinical phenotypes of microscopic polyangiitis (MPA) using a principal components analysis (PCA)-based cluster analysis. A total of 189 patients with MPA between May 2005 and December 2021 were enrolled from a multicenter cohort in Japan (REVEAL cohort). Categorical PCA and cluster analysis were performed based on clinical, laboratory, and radiological findings. Clinical characteristics and outcomes, including all-cause mortality, respiratory-related mortality, end-stage renal disease (ESRD), and relapse were compared between each cluster. Eleven clinical variables were transformed into four components using categorical PCA and synthetic variables were created. Additionally, a cluster analysis was performed using these variables to classify patients with MPA into subgroups. Four distinct clinical subgroups were identified: Cluster 1 included the renal involvements and diffuse alveolar hemorrhage (DAH)-dominant group (N=33). Cluster 2 comprised the elderly onset systemic inflammation group (N=75). Cluster 3 included patients in the younger-onset limited-organ disease group (N=45). Cluster 4 was comprised of an ILD-predominant group without kidney involvement (N=36). 61 patients died during follow-up, with 32 dying of respiratory-related causes. Additionally, 19 patients developed ESRD and 70 relapsed. Cluster 1 showed the worst ESRD-free survival and relapse rates, whereas Cluster 2 showed the worst overall survival and respiratory-related death-free survival rates among the four groups. Our study identified four unique subgroups with different MPA outcomes. Individualized treatments for each subgroup may be required to improve the prognosis of MPA.