Abstract

Spam pada Instagram (IG) umumnya berupa komentar yang dianggap mengganggu karena tidak berhubungan dengan foto atau video yang dikomentari. Spam pada komentar dapat menyebabkan beberapa dampak negatif seperti menyulitkan untuk mengikuti diskusi pada komentar yang dipenuhi oleh komentar spam dan menyebabkan seseorang tampak populer karena jumlah komentarnya banyak walaupun pada kenyataannya lebih banyak komentar yang berupa spam. Penelitian ini mencoba untuk membangun model yang dapat melakukan identifikasi komentar spam pada IG. Komentar pada IG berbentuk teks, sehingga pada penelitian ini digunakan metode-metode pengolahan teks. Untuk identifikasi digunakan metode Support Vector Machine (SVM). Data komentar yang digunakan pada penelitian ini dikumpulkan dari komentar-komentar pada foto atau video yang dibagikan oleh aktor dan artis Indonesia yang memiliki pengikut (follower) paling banyak di IG. Dari hasil penelitian didapatkan model identifikasi komentar spam dengan metode SVM menghasilkan tingkat akurasi 78,49% yang lebih baik jika dibandingkan dengan model pembanding yang menggunakan metode NB (77,25%). Penelitian ini juga menguji beberapa proporsi data pelatihan yang berbeda-beda dan hasilnya metode SVM tetap lebih baik dibandingkan dengan metode NB. Hasil lain dari penelitian ini adalah tahap pre-processing dan stemming yang harus disesuaikan terutama untuk dukungan terhadap pengolahan karakter-karakter unicode dan simbol-simbol khusus yang banyak ditemukan pada komentar-komentar di IG.

Highlights

  • because it does not relate to the photos or videos

  • difficult to follow the discussion on the posted status

  • The comment on IG is in text format

Read more

Summary

Pendahuluan

Instagram (IG) merupakan media sosial berbasis foto/gambar terpopuler di dunia nomor 1, dan di urutan ke-6 untuk media sosial secara umum. Penelitian mengenai penggunaan metode NB dan SVM yang digunakan dalam klasifikasi atau deteksi spam juga telah banyak dilakukan. Naive Bayes telah digunakan untuk mendeteksi klasifikasi teks karena mudah digunakan, performa baik, dan fleksibel, dan banyak pula yang melakukan berbagai peningkatan algoritma ini, seperti misalnya penggunaan informasi class negatif yang diterapkan pada NewsGroup dataset untuk meningkatkan performa NB, dan terbukti memiliki hasil yang meningkat [3]. Batasan masalah dari penelitian ini adalah (1) menggunakan data dari 10 artis Indonesia yang memiliki follower lebih dari 10 juta berdasarkan referensi dari [1], di mana setiap artis diambil 50 status terbaru dengan 50 komentar terbaru, (2) proses stemming menggunakan library Sastrawi Stemming dari Andi Librian, (3) hanya digunakan untuk deteksi komentar spam dalam bahasa Indonesia, (4) tool yang digunakan untuk analisis adalah RapidMiner 7.x

Tahap Pengumpulan Data
Tahap Pre-processing
Tahap Text Transformation
Tahap Features Selection
Tahap Klasifikasi
Tinjauan Pustaka
Algoritma Naïve Bayes
Algoritma Support Vector Machine
Confusion Matrix
Hasil dan Pembahasan
Skenario II Tanpa Stemming
Skenario I dengan Stemming
Skenario II dengan Stemming
Pembahasan Perbandingan Algoritma NB dan SVM dengan Stemming
Pembahasan Perbandingan Algoritma NB dan SVM Secara Keseluruhan
Findings
Kesimpulan
Full Text
Published version (Free)

Talk to us

Join us for a 30 min session where you can share your feedback and ask us any queries you have

Schedule a call