Abstract

<p><em>Twitter merupakan media sosial dimana penggunanya dapat memposting suatu informasi berupa tweet. Tweet yang diposting oleh pengguna dapat dibagikan ulang oleh pengguna lain melalui retweet, tweet yang memiliki banyak retweet tersebar lebih cepat dan luas dibandingkan yang tidak mendapat retweet. Tetapi tidak semua tweet mendapatkan retweet karena terdapat fitur-fitur yang mempengaruhi apakah suatu tweet akan mendapat retweet atau tidak. Dalam penelitian ini</em><em> fitur yang digunakan adalah fitur berbasis pengguna, berbasis waktu dan berbasis konten, serta menggunakan algoritma pembelajaran mesin Decision Tree (DT) jenis </em><em>classification and regression tree (</em><em>CART) untuk memprediksi kelas retweet. Masalah yang dihadapi pada penelitian ini adalah data yang tidak seimbang, lalu mengatasinya dengan oversampling dan undersampling. Setelah mengatasi data yang tidak seimbang performansi dari model meningkat terutama saat melakukan undersampling untuk max_depth = 4 menghasilkan nilai akurasi dan f1 85%. Selain itu diperoleh juga bahwa fitur yang paling berpengaruh dalam menentukan apakah suatu tweet akan mendapat retweet atau tidak adalah fitur pengikut_pengguna, usia_akun_pengguna, total_tweet_disukai_pengguna, fitur cek_mention dan panjang_tweet.</em><em></em></p>

Full Text
Published version (Free)

Talk to us

Join us for a 30 min session where you can share your feedback and ask us any queries you have

Schedule a call