Abstract

Information exchange is currently the most happening on the internet. Information exchange can be done in many ways, such as expressing expressions on social media. One of them is reviewing a film. When someone reviews a film he will use his emotions to express their feelings, it can be positive or negative. The fast growth of the internet has made information more diverse, plentiful and unstructured. Sentiment analysis can handle this, because sentiment analysis is a classification process to understand opinions, interactions, and emotions of a document or text that is carried out automatically by a computer system. One suitable machine learning method is the Modified Balanced Random Forest. To deal with the various data, the feature selection used is Mutual Information. With these two methods, the system is able to produce an accuracy value of 79% and F1-scores value of 75%.

Highlights

  • Teknologi terus berkembang internet merupakan sebuah teknologi yang sebagian besar orang memilikinya

  • Performansi model klasifikasi Modified Balanced Random Forest memiliki nilai f1-scores terbaik 74% sedangkan Random Forest hanya 49%

  • Beberapa saran untuk penelitian selanjutnya seperti Mengganti metode under-sampling yang dilakukan secara acak terhadap majority class untuk modified balanced random forest menjadi metode lain dan menambahkan jumlah dataset yang pada dataset movie review berbahasa inggris agar mendapatkan performansi yang lebih baik

Read more

Summary

PENDAHULUAN

Teknologi terus berkembang internet merupakan sebuah teknologi yang sebagian besar orang memilikinya. Banyak metode penilitan berbeda yang digunakan untuk melakukan pendekatan pada proses klasifikasi sentiment terhadap data document review Film, seperti Support Vector Machine[4], Naïve Bayes[2], Artifical Neural Network[5] dan Random Forest[6]. Pada penilitan kali ini menggunakan metode Modified Balanced Random Forest dalam melakukan klasifikasi sentiment untuk menentukan nilai positif atau negatif dari sebuah dokumen review film. Penelitian pada paper[4] menjelaskan bahwa analisis sentiment merupakan cara untuk menentukan opini dari sebuah teks. Pada paper[14] menjelaskan bahwa metode klasifikasi Random Forest mempunyai komputasi yang sangat lama untuk data yang besar dan mempunyai data yang imbalanced. Penelitian ini melakukan peningkatan pada metode klasifikasi Random Forest dengan cara melakukan sebagian besar under-sampling data berdasarkan dari clustering, nantinya data under-sampling akan merepresentasikan semua data untuk pembangunan tree dan data. Metode seleksi fitur Mutual Informaiton mempu mereduksi waktu klasifikasi sebesar 51.52%, dan meningkatkan akurasi sebesar 1.7%

Dataset
Preprocessing
Feature Extraction TF-IDF
Feature Selection Mutual Information
Klasifikasi Modified Balanced Random Forest
Skenario Pengujian
Hasil Pengujian Skenario 2
Hasil Pengujian Skenario 3
Analisis Hasil Pengujian
Findings
KESIMPULAN
Full Text
Published version (Free)

Talk to us

Join us for a 30 min session where you can share your feedback and ask us any queries you have

Schedule a call