An insight to the automatic categorization of speakers according to sex and its application to the detection of voice pathologies: A comparative study

Jorge Andrés Gómez-García,Universidad Politécnica De Madrid ,César Germán Castellanos-Domínguez,Juan Ignacio Godino-Llorente,Universidad Nacional De Colombia ,Laureano Moro-Velázquez

doi:10.17533/udea.redin.n79a06

Jorge Andrés Gómez-García, Universidad Politécnica De Madrid + Show 4 more

Open Access

https://doi.org/10.17533/udea.redin.n79a06

Copy DOI

Abstract

La hipotesis que se establece en este estudio es que una categorizacion automatica de hablantes de acuerdo con su sexo mejora el rendimiento de un detector automatico de patologias de voz. Esto se basa en hallazgos que demuestran diferencias perceptuales, acusticas y anatomicas en voces masculinas y femeninas. En particular, este trabajo persigue dos objetivos: 1) disenar un sistema que discrimine automaticamente el sexo de hablantes utilizando habla normal y patologica, 2) estudiar la influencia que este detector de sexo tiene sobre el acierto de un posterior detector de patologias de voz. La parametrizacion del detector automatico de sexo esta basada en MFCC aplicados sobre senales de voz; y MFCC aplicados a formas de onda glotal, junto a parametros que modelan el tracto vocal. Las formas de onda glotal se extraen de la voz a traves de un filtrado inverso iterativo en celosia. En cuanto al detector de patologias de voz, una parametrizacion MFCC se aplica sobre senales de voz. La clasificacion, tanto en los detectores de sexo como de patologia, se lleva a cabo con tecnicas del estado del arte basadas en modelos de base universal. Los experimentos se realizan sobre la base de datos Saarbrucken, empleando la fonacion sostenida de la vocal /a/. Los resultados indican que el sexo del hablante puede ser discriminado automaticamente utilizando habla normal y patologica, obteniendo una precision de hasta un 95%. Por otra parte, al incluir informacion a-priori sobre el sexo del hablante se produce una mejora en el rendimiento absoluto de alrededor de 2% en EER, en tareas de deteccion de patologia.

Full Text