Abstract
Speech recognition is one of the important research fields which is currently widely used for various applications. However, speech recognition performance is affected by the dialect of the speaker. Therefore, dialect recognition is often used as an additional feature in speech recognition. The process of recognizing dialects is not easy. Currently, Machine Learning technology is widely applied in dialect recognition. One of the challenges in the introduction of machine learning-based dialects is the imbalance of classes and overlaps in a wide variety of classification techniques. This study applies Random Forest-based oversampling technology for dialect recognition. For hyper-parameter optimization of the random forest algorithm, we apply the Grid Search method. Experiments on Speech Accent Archive data using the MFCC feature resulted in an accuracy of 0.91 and AUC of 0.95
Highlights
Pengenalan suara merupakan salah satu bidang riset atau penelitian yang cukup penting dimana saat ini sudah banyak digunakan secara luas untuk keperluan berbagai aplikasi [1]
of the important research fields which is currently widely used for various applications
speech recognition performance is affected by the dialect of the speaker
Summary
Pengenalan suara merupakan salah satu bidang riset atau penelitian yang cukup penting dimana saat ini sudah banyak digunakan secara luas untuk keperluan berbagai aplikasi [1]. Dalam proses pengenalan suara dibutuhkan suatu metode untuk ekstraksi fitur dari suara tersebut, hasil dari ekstraksi tersebut yang nantinya akan diproses dan dilakukan pencocokan dengan pemodelan tertentu. Pendekatan level data (Sampling) dapat digunakan untuk modifikasi distribusi kelas dari data latih untuk menyeimbangkan data [13], pendekatan level data itu sendiri adalah tahapan preprocessing yang dilakukan sebelum membuat pemodelan machine learning [12]. Kami mengusulkan Random Forest (RF) untuk sistem pengenalan dialek dengan menggunakan Random Over Sampling (ROS) dan SMOTE untuk mengatasi ketidakseimbangan data. Penelitian ini menggunakan dataset speech accent yang dapat diunduh pada repository http://accent.gmu.edu/ (Diakses pada 13 Oktober 2020)
Talk to us
Join us for a 30 min session where you can share your feedback and ask us any queries you have