Evaluación comparativa de sistemas de reconocimiento de locutor basados en los algoritmos LPC, CC y MFCC

René Hernández ,Héctor Juárez ,Yesenia González ,Alfredo Bermúdez ,Oscar Rodríguez Rocha

doi:10.36561/ing.17.6

René Hernández , Héctor Juárez + Show 3 more

Open Access

https://doi.org/10.36561/ing.17.6

Copy DOI

Abstract

This document proposes the evaluation of speaker recognition systems based on the LPC (Linear Predicting Coding), CC (Cepstral Coefficients) and MFCC (Mel Frequency Cepstral Coefficients) algorithms, used in the extraction of voice parameters. The evaluation, following an experimental quantitative methodology, consists of determining the change in performance when the input signal is exposed to different noise conditions (crowd and Gaussian noise), namely, at different levels of SNR, comparing the verification results for 2 speakers. Although all the systems decrease their performance in noisy environments, each one possesses intrinsically a certain level of robustness. This evaluation will serve as a reference in the construction of speaker recognition systems, which include voice enhancement systems to reduce noise.

Highlights

Summary. -This document proposes the evaluation of speaker recognition systems based on the LPC (Linear Predicting Coding), coeficientes cepstrales (CC) (Cepstral Coefficients) and MFCC (Mel Frequency Cepstral Coefficients) algorithms, used in the extraction of voice parameters
Modelo de referencia y semejanza para poder eliminar problemas causados por los cambios rápidos en los extremos de las tramas de voz
A comparative performance of various speech analysis-synthesis techniques, International Journal of Signal Processing Systems, vol 2, no

Summary

Dado que

∂ET ∂aj está derivando con respecto a j, el resultado de la derivada será para todos los términos k diferentes de j. El resultado de la aplicación de las ecuaciones (20) y (21) es la obtención del espectro de potencia de la señal en los intervalos de frecuencia establecidos por la escala Mel. El cepstrum en frecuencias Mel (MFC), realmente es un cepstrum con su espectro mapeado en la escala Mel antes de aplicar la operación logarítmica y la transformada inversa de Fourier, como lo mostrado en la Figura V. Al multiplicar la señal por un banco de filtros triangulares (Figura VI) se logra obtener las componentes de frecuencia que le aporta la señal analizada a cada banda del banco de filtros. 2.2 Diseño del sistema de reconocimiento de locutor.- Tomando como base el diagrama a bloques de la Figura I, en la Tabla I se describen cada una de las etapas de los sistemas de reconocimiento de locutor propuestos. Las señales de ruido que se agregan a las muestras originales se pueden generar de forma artificial para el caso de ruido gaussiano y por la mezcla de diferentes voces para el caso de ruido de bullicio

Captura y

Extracción de características

Bits de resolución

Formato de audio

Diferencia de tiempos