Improving the accuracy of classification algorithms for inductive learning rules using wrapper methods

Jasmina Novakovic

doi:10.5937/tehnika1503528n

Abstract

In this paper we investigate the problem of the accuracy of classifier using wrapper methods. For the purposes of classification is used a large number of algorithms: IBK, Naive Bayes, SVM, J48 decision tree and RBF networks. Experimental results show that wrapper methods can rapidly identify irrelevant, redundant attributes, as well as the noise in the data, if any; and those attributes which are important for the studied phenomenon. The paper prove that applying wrapper methods for reducing the dimensionality of the data it is possible to significantly improve system performance for inductive learning rules in classification problems.

Highlights

Mamografska masa: zadatak ovog skupa podataka je da predvidi ozbiljnost mamografskih lezija na osnovu BI-RADS atributa i starosti pacijenta [7]
U poslednjoj koloni tabele prikazana je referentna tačnost za realne i veštačke skupove podataka
Metod prethodnog učenja sa IBk klasifikatorom je u više od pola skupova podataka (10 skupova) pokazao iste ili bolje rezultate od IBk algoritma na osnovnom skupu podataka, a u 5 skupova podataka rezultati su bili i statistički bolji

Summary

METODE PRETHODNOG UČENJA

Kod metoda prethodnog učenja koriste se određeni algoritmi za modeliranje kako bi se ocenili podskupovi atributa u odnosu na njihovu klasifikacijsku ili prediktivnu moć. Kod korišćenja ovih metoda u praksi se pojavljuju tri pitanja: kako pretražiti prostor svih mogućih podskupova atributa, kako proceniti uspešnost algoritma za modeliranje s obzirom na pretraživanje skupa atributa, koji postupak modeliranja koristiti kao crnu kutiju za metode prethodnog učenja. Kod ovih metoda za svaki posmatrani podskup atributa izgrađuje se više modela, a ukupan broj podskupova eksponencijalno raste s povećanjem broja atributa. Ako sa n označimo ukupan broj atributa, izbor atributa unapred i eliminacija atributa unatrag imaju složenost O n , i s obzirom da proizvode prihvatljive rezultate u razumnom vremenu, upravo ove dve tehnike pretraživanja se najčešće koriste u izboru atributa metodama prethodnog učenja. S obzirom da se vrednost skupa atributa meri procenom ispravnosti klasifikacije, onda se zbog samo jedne optimistične procene oba postupka mogu preuranjeno završiti, i u tom slučaju eliminacija atributa unatrag će odabrati previše atributa, a odabir atributa unapred premalo. Kod metoda prethodnog učenja najvažniji nedostatak je sporost pri izvođenju uslovljena pozivanjem ciljnog algoritma mašinskog učenja više puta, zbog čega ovim metodama ne odgovaraju obimni skupovi podataka za učenje sa većim brojem atributa

OPIS IZABRANIH PROBLEMA UČENJA

ESTIMACIJA TAČNOSTI KLASIFIKACIJE

DISKUSIJA REZULTATA I DALJA ISTRAŽIVANJA

SUMMARY