Identifikasi Konten Kasar Pada Tweet Bahasa Indonesia

Ahmad Fathan Hidayatullah,Aufa Aulia Fadila,Kiki Purnama Juwairi,Royan Abida Nayoan

doi:10.26418/jlk.v2i1.15

Ahmad Fathan Hidayatullah, Aufa Aulia Fadila + Show 2 more

Open Access

https://doi.org/10.26418/jlk.v2i1.15

Copy DOI

Abstract

Penelitian ini bertujuan untuk melakukan identifikasi tweet yang mengandung konten kasar atau ofensif. Untuk melakukan hal tersebut, ada lima tahap yang dilalui yaitu pengumpulan data, preprocessing, ekstraksi fitur, klasifikasi, dan evaluasi. Adapun algoritma klasifikasi yang digunakan adalah Multinomial Naïve Bayes dan Support Vector Machine dengan linear kernel. Berdasarkan eksperimen, diketahui bahwa performa algoritma Support Vector Machine dengan linear kernel lebih unggul secara keseluruhan dibandingkan dengan algoritma Multinomial Naïve Bayes. Hal tersebut dilihat dari perolehan nilai accuracy, precision, recall, dan F1-score untuk algoritma SVM berturut-turut adalah 0.9928; 0.9914; 0.9946; dan 0.9930. Sedangkan perolehan accuracy, precision, recall, dan F1-score algoritma Multinomial Naïve Bayes berturut-turut adalah 0.9834; 0.9912; 0.9762; dan 0.9836. Namun demikian, dapat disimpulkan bahwa algoritma Support Vector Machine dan Multinomial Naïve Bayes memiliki performa yang hampir sama baiknya. Hal tersebut dibuktikan dengan selisih capaian performa yang tidak terlalu mencolok dari keduanya.

Full Text