Abstract
Twitter merupakan media sosial yang berinteraksi melalui postingan tweet yang berbasis teks 140 karakter termasuk foto, video dan hyperlink. Tweet spam berisi pesan membahayakan yang dikirim secara terus-menerus. Selain mengganggu juga membahayakan bagi yang menerima, diperburuk dengan penggunaan bot yang secara otomatis dan cepat menyebarkan pesan spam yang dapat menyebabkan kerusakan data. Penelitian ini bertujuan mendeteksi bot spam dengan memanfaatkan kemiripan tweets menggunakan Smith Waterman dan Interval waktu posting. Data tweets dikumpulkan menggunakan library scrap di python berupa id, text, time, link, berdasarkan dataset berlabel yang telah tersedia. Data tersebut dilakukan tahapan text preprocessing untuk membersihkan teks kemudian dilakukan perhitungan. Hasil perhitungan dari kedua metode similarity dan interval waktu posting kemudian diklasifikasi dengan k-Neaset Neighbour dengan dataset sebelumnya yang telah berlabel untuk mendapatkan hasil prediksi bot spam atau legitimate. Hasil percobaan klasifikasi dengan beberapa kombinasi k untuk mendeteksi bot spam dengan kriteria similarity dan interval entropy diperoleh hasil terbaik k=3 Neirest Neighbour dan 10 fold Cross Validation dengan nilai prediksi deteksi accuracy sebesar 80%, precission 84% dan recall 84%.
Highlights
Twitter merupakan media sosial yang berinteraksi melalui postingan tweet yang berbasis teks 140 karakter termasuk foto, video dan hyperlink
Hasil percobaan klasifikasi dengan beberapa kombinasi k untuk mendeteksi bot spam dengan kriteria similarity dan interval entropy diperoleh hasil terbaik k=3 Neirest Neighbour dan 10 fold Cross Validation dengan nilai prediksi deteksi accuracy sebesar 80%, precission 84% dan recall 84%
“Bot Spammer Detection in Twitter Using Tweet Similarity and Time Interval Entropy,” J
Summary
Pada penelitian ini data berjumlah 40 user kemudian dibagi menjadi data training dan testing dengan perbandingan 80:20. K-Fold Cross Validation pada similarity dan time interval entropy dengan tetangga terdekat sebesar k=3 Nearest Neighbour dan 10 Fold Cross Validation menghasilkan prediksi penelitian ini ditentukan jumlah fold 10, untuk Tabel 1. Hasil k=3 Nearest Neighbour dan 10 Fold Cross Validation memperkirakan tingkat kesalahan yang terjadi, sebab User data training pada setiap fold cukup berbeda dengan Id data training yang asli
Published Version (
Free)
Talk to us
Join us for a 30 min session where you can share your feedback and ask us any queries you have