Abstract

Imbalanced data is a problem that is often found in real-world cases of classification. Imbalanced data causes misclassification will tend to occur in the minority class. This can lead to errors in decision-making if the minority class has important information and it’s the focus of attention in research. Generally, there are two approaches that can be taken to deal with the problem of imbalanced data, the data level approach and the algorithm level approach. The data level approach has proven to be very effective in dealing with imbalanced data and more flexible. The oversampling method is one of the data level approaches that generally gives better results than the undersampling method. SMOTE is the most popular oversampling method used in more applications. In this study, we will discuss in more detail the SMOTE method, potential, and disadvantages of this method. In general, this method is intended to avoid overfitting and improve classification performance in the minority class. However, this method also causes overgeneralization which tends to be overlapping.

Highlights

  • a problem that is often found in real-world cases of classification

  • Imbalanced data causes misclassification will tend to occur in the minority class

  • This can lead to errors

Read more

Summary

PENDAHULUAN

Data tidak seimbang merupakan permasalahan yang sering ditemukan pada kasus nyata dalam klasifikasi. Data tidak seimbang menyebabkan kesalahan klasifikasi akan cenderung terjadi pada kelas minoritas. Kelas minoritas akan lebih sulit untuk diprediksi karena hanya ada sedikit data pada kelas tersebut jika dibandingkan dengan kelas mayoritas. Pada kasus data tidak seimbang model klasifikasi akan cenderung berfokus untuk mempelajari karakteristik data pada kelas mayoritas dan mengabaikan kelas minoritas (Singh dan Sharma, 2019). Umumnya terdapat dua pendekatan yang dapat dilakukan untuk menangani permasalahan data tidak seimbang, yakni pendekatan level data dan pendekatan level algoritma. Pendekatan pada level data dilakukan dengan menyeimbangkan distribusi kelas mayoritas dan minoritas dengan teknik pengambilan sampel seperti undersampling, oversampling, maupun kombinasi dari kedua metode tersebut. Hal ini dikarenakan metode undersampling mengurangi data pada kelas mayoritas sehingga dapat menghilangkan informasi penting pada data tersebut. Pada kajian ini akan dibahas lebih mendalam mengenai potensi dan kekurangan dari metode SMOTE

KAJIAN PUSTAKA
PEMBAHASAN
KESIMPULAN
Full Text
Published version (Free)

Talk to us

Join us for a 30 min session where you can share your feedback and ask us any queries you have

Schedule a call