Abstract

Makalah ini menyajikan sebuah dataset teks berbahasa Indonesia untuk digunakan di bidang analisis teks, terutama analisis sentimen. Dataset ini mencakup data utama, yaitu 10.806 baris data berbahasa Indonesia yang diambil dari media sosial Twitter, yang telah dikategorikan ke dalam tiga label, yaitu positif, negatif, dan netral, beserta 454.559 baris data yang masih bersifat mentah. Selain itu, pada data yang sudah dilabeli, data sudah mengalami proses pembersihan dari elemen-elemen pengganggu di dalam data, misalnya simbol atau tautan halaman web. Dalam makalah ini, data yang disajikan sudah diuji terlebih dahulu menggunakan sebuah model sentimen analisis sederhana untuk memastikan bahwa data ini sudah sesuai untuk digunakan dalam sebuah pemodelan analisis teks secara umum. Pengujian ini dilakukan dengan melihat hasil nilai ketepatan sebuah model analisis sentimen yang menggunakan dataset ini pada proses pelatihan dan membandingkannya dengan model analisis yang menggunakan dataset lain pada proses pelatihan datanya. Setelah dilakukan pengujian menggunakan model analisis sentimen sederhana yang menggunakan algoritme SVM, KNN, dan SGD, terlihat bahwa nilai ketepatan dari data utama dan data pembanding seimbang pada masing-masing algortime, dengan perbedaan nilai ketepatan berkisar pada angka 4% sampai 12%, dan membuktikan bahwa data yang disajikan sudah layak untuk digunakan dalam pemodelan analisis sentimen. Dataset dapat diunduh pada tautan di bagian kesimpulan.

Full Text
Published version (Free)

Talk to us

Join us for a 30 min session where you can share your feedback and ask us any queries you have

Schedule a call