English Spoken Digit Recognition using Convolutional Neural Network (CNN)

Muhammad Aminuddin

doi:10.31602/eeict.v6i2.11877

Abstract

Digit Spoken recognition atau pengenalan suara merupakan proses untuk menerjemahkan kata-kata menjadi sebuah teks (angka). Data yang diterjemahkan dapat berupa rekaman audio suara maupun menggunakan suara langsung. Pengenalan suara dapat membuat interaksi antara manusia kepada komputer menjadi lebih intuitif, aksebilitas bagi penyandang disabilitas, serta memungkinkan pengoperasian dengan hands-free. Dataset terdiri dari rekaman suara 6 speaker dalam bahasa inggris dengan total 3.000 data, yang terbagi sebanyak 80% untuk data latih dan 20% untuk data validasi. Mel-frequency cepstrum coefficient (MFCC) digunakan untuk mengekstraksi fitur dari rekaman audio suara. Selanjutnya data tersebut digunakan untuk melatih model CNN. Hasil dari model CNN yang diusulkan dapat mengklasifikasi data suara audio dengan akurasi lebih dari 90%.

Full Text