Speaker-dependent-feature extraction, recognition and processing techniques

Sadaoki Furui

doi:10.1016/0167-6393(91)90054-w

Sadaoki Furui

https://doi.org/10.1016/0167-6393(91)90054-w

Copy DOI

Export

Save

Cite

Journal: Speech Communication	Publication Date: Dec 1, 1991
Citations: 80

Affiliation: NTT (Japan)

Abstract
Full-Text
Similar Papers

Abstract

Listen

This paper discusses recent advances in and perspectives of research on speaker-dependent-feature extraction from speech waves, automatic speaker identification and verification, speaker adaptation in speech recognition, and voice conversion techniques. Speaker-dependent information exists both in the spectral envelope and in the supra-segmental features of speech. This individual information can be further classified into temporal and dynamic features. Speaker identification/verification methods can be divided into text-dependent and tect-independent methods. Although text-dependent speaker verification techniques have almost reached the level suitable for practical implementation, text-independent techniques are still in the fundamental research stage. Both supervised and unsupervised speaker adaptation algorithms for speech recognition have recently been proposed, and remarkable progress has been achieved in this field. Improving synthesized speech quality by adding natural characteristics of voice individuality, and converting synthesized voice individuality from one speaker to another, are as yet little exploited research fields to be studied in the near future. Research on speaker-dependent information is one of the most important future directions for achieving advanced speech information processing systems. Dieser Beitrag diskutiert Perspektiven der Forschung im Bereich der Bestimmung der Sprechermerkmale im Sprachsignal, der automatischen Identifizierung und Erkennung von Sprechrn, der Sprecheranpassung in automatischer Spracherkennung, sowie der Techniken der Stimmumwandlung. Sprecherabhängige Information existriert in der spektralen Hüllkurve und in den suprasegmentalen Merkmalen von Sprache. Diese spezifische Information kann weiterhin unterteilt werden in Zeitmerkmale und dynamische Merkmale. Methoden der Sprecheridentifizierung oder Überprüfung können unterteilt werden in textabhängige oder textunabhängige Methoden. Obwohl textabhängige Methoden der Sprecherüberprüfung fast ein Niveau erreicht haben welches praktische Anwendungen erlaubt, sind textunabhängige Methoden noch im Stadium der reinen Forschung. Sowohl überwachte als unüberwachte Algorithmen zur Sprecheranpassung in der automatischen Spracherkennung sind kürzlich vorgestellt worden und bemerkenswerte Fortschritte sind auf diesem Gebiet erzielt worden. Die Verbesserung der Qualität von synthetischer Sprache durch Zuhilfenahme der natürlichen Charakteristiken der Individualität der Stimme, sowie der Übergang der synthetischen Stimmindividualität von einem Sprecher zum anderen sind noch ungenügend erforschte Gebiete welche in naher Zukunft studiert werden. Das Studium der sprecherabhängigen Information ist eine der wichtigsten zukünftigen Richtungen von denen die Vollendung von Informationsaufbereitungssystemen welche auf Sprache beruhen abhängt. Dans cet article, des développements récent concernant l'extraction, à partir de l'onde de parole, des indices dépendants du locuteur, l'identification et la vérification automatiques du locuteur, l'adaptation au locuteur en reconnaissance automatique de la parole et les techniques de conversion de voix sont discutés. L'information concernant le locuteur se trouve à la fois dans l'enveloppe spectrale et dans les traits prosodiques de la parole. Cette information peut de plus être classée en traits temporels et traits dynamiques. Les méthodes de vérification/identification du locuteur peuvent être divisées en méthodes dépendantes du texte et méthodes indépendantes du texte. Bien que les techniques de vérification du locuteur dépendantes du texte aient presque atteint le niveau de développement approprié pour l'implémentation pratique, les techniques indépendantes du texte en sont toujours au stade de la recherche fondamentale. En reconnaissance de parole, des algorithmes d'adaptation au locuteur supervisés et non supervisés ont récemment été proposés, et des progrès remarquables on été réalisés dans ce domaine. L'amélioration de la qualité de la parole synthétique par l'ajout de caractéristiques vocales individuelles et la conversion de l'individualité vocale synthétique d'un locuteur à l'autre sont des sujets de recherche peu exploités actuellement qui devraient être étudiés dans un proche avenir. La recherche sur l'information dépendante du locuteur constitue l'une des plus importantes directions à suivre pour réaliser des systèmes avancés de traitement de l'information dans le domaine de la parole.

Full Text