Abstract

Speech recognition is one of the important research fields which is currently widely used for various applications. However, speech recognition performance is affected by the dialect of the speaker. Therefore, dialect recognition is often used as an additional feature in speech recognition. The process of recognizing dialects is not easy. Currently, Machine Learning technology is widely applied in dialect recognition. One of the challenges in the introduction of machine learning-based dialects is the imbalance of classes and overlaps in a wide variety of classification techniques. This study applies Random Forest-based oversampling technology for dialect recognition. For hyper-parameter optimization of the random forest algorithm, we apply the Grid Search method. Experiments on Speech Accent Archive data using the MFCC feature resulted in an accuracy of 0.91 and AUC of 0.95

Highlights

  • Pengenalan suara merupakan salah satu bidang riset atau penelitian yang cukup penting dimana saat ini sudah banyak digunakan secara luas untuk keperluan berbagai aplikasi [1]

  • of the important research fields which is currently widely used for various applications

  • speech recognition performance is affected by the dialect of the speaker

Read more

Summary

PENDAHULUAN

Pengenalan suara merupakan salah satu bidang riset atau penelitian yang cukup penting dimana saat ini sudah banyak digunakan secara luas untuk keperluan berbagai aplikasi [1]. Dalam proses pengenalan suara dibutuhkan suatu metode untuk ekstraksi fitur dari suara tersebut, hasil dari ekstraksi tersebut yang nantinya akan diproses dan dilakukan pencocokan dengan pemodelan tertentu. Pendekatan level data (Sampling) dapat digunakan untuk modifikasi distribusi kelas dari data latih untuk menyeimbangkan data [13], pendekatan level data itu sendiri adalah tahapan preprocessing yang dilakukan sebelum membuat pemodelan machine learning [12]. Kami mengusulkan Random Forest (RF) untuk sistem pengenalan dialek dengan menggunakan Random Over Sampling (ROS) dan SMOTE untuk mengatasi ketidakseimbangan data. Penelitian ini menggunakan dataset speech accent yang dapat diunduh pada repository http://accent.gmu.edu/ (Diakses pada 13 Oktober 2020)

METODOLOGI PENELITIAN
Resampling
Random Forest dan Grid Search
Dataset
Setting Grid Search
Data Audio Hasil Ekstraksi Fitur MFCC
Hasil resampling dengan ROS ataupun SMOTE
Pengujian Model
KESIMPULAN
Full Text
Published version (Free)

Talk to us

Join us for a 30 min session where you can share your feedback and ask us any queries you have

Schedule a call