State-dependent time warping in the trended hidden Markov model

D.X Sun,L Deng,C.F.J Wu

doi:10.1016/0165-1684(94)90089-2

Abstract

In this paper we present an algorithm for estimating state-dependent polynomial coefficients in the nonstationary-state hidden Markov model (or the trended HMM) which allows for the flexibility of linear time warping or scaling in individual model states. The need for the state-dependent time warping arises from the consideration that due to speaking rate variation and other temporal factors in speech, multiple state-segmented speech data sequences used for training a single set of polynomial coefficients often vary appreciably in their sequence lengths. The algorithm is developed based on a general framework with use of auxiliary parameters, which, of no interests in themselves, nevertheless provide an intermediate tool for achieving maximal accuracy for estimating the polynomial coefficients in the trended HMM. It is proved that the proposed estimation algorithm converges to a solution equivalent to the state-optimized maximum likelihood estimate. Effectiveness of the algorithm is demonstrated in experiments designed to fit a single trended HMM simultaneously to multiple sequences of speech data which are different renditions of the same word yet vary over a wide range in the sequence length. Speech recognition experiments have been performed based on the standard acoustic-phonetic TIMIT database. The speech recognition results demonstrate the advantages of the time-warping trended HMMs over the regular trended HMMs measured about 10 to 15% improvement in terms of the recognition rate. In dieser Arbeit stellen wir einen Algorithmus zur Schätzung zustandsabhängiger Polynomkoeffizienten beim nichtstationären Hidden Markov Model (THMM) vor, der eine flexible Zeitskalierung der individuellen Modellzustände gestattet. Der Grund für eine zustandsabhängige Zeitänderung folgt aus der Beobachtung, daβ wegen der Sprech-ratenänderung und anderen zeitabhängigen Faktoren in der Sprache verschiedene Datenfolgen, die man als Lernfolgen eines Satzes von Polynomkoeffizienten verwendet, oft beträchtlich in ihrer Länge variieren. Der entwickelte Algorithmus verwendet Hilfsparameter die zwar selbst keine unmittelbare Bedeutung besitzen, aber nichtsdestotrotz geeignet sind, die maximale Genauigkeit der Schätzung der Polynomkoeffizienten des THMM zu erzielen. Es wird gezeigt, daβ der vorgeschlagene Schätzalgorithmus gegen eine Lösung konvergiert, die der zustandsoptimierten Maximum-Likelihood-Schätzung äquivalent ist. Die Brauchbarkeit des Algorithmus wird anhand von Beispielen gezeigt, bei denen ein einzelnes THMM gleichzeitig für mehrere Folgen, die das gleiche Wort mit stark unterschiedlichen Folgenlängen darstellen, entworfen wird. Untersuchungen zur Spracherkennung wurden mit Hilfe der akustisch-phonetischen Datenbank TIMIT durchgeführt. Sie zeigen die Vorteile der zeitskalierten THMM gegenüber den regulären THMM von ca. 10–15% Verbesserung hinschitlich der Erkennungsrate. Dans cet article, nous présentons un algorithme pour l'estimation des coefficients du polynôme dépendant de l'état dans le modèle de Markov à état non-stationnaire caché (ou HMM) qui permet une déformation ou un changement d'échelle flexible linéaire temporellement dans des états de modèles individuels. Les besoins pour des déformations temporelles dépendant de l'état surviennent lorsque l'on prend en considération que, due aux variations de débit et à d'autres facteurs temporels en parole, les séquences de données de parole segmentées utilisées pour suivre un seul ensemble de coefficients polymiaux varient souvent de manière appréciable dans leurs longeurs. L'algoithme est développé en se basant sur un schéma général avec l'utilisation de paramètres auxiliaires, lesquelles, bien que n'avant pas d'intérêt par eux-mêmes, procure néanmoins un outil intermédiaire pour atteindre une précision maximale pour l'estimation des coefficients du polynôme du HMM. Il est prouvé que l'algorithme d'estimation proposé converge vers une solution équivalente à l'estimation du maximum de vraisemblance à état optimisé. L'efficacité. L'efficacité de l'algorithme est démontré par des expérimentations concues pour utiliser un seul HMM simultanément sur des séquences multiples de données de la parole ayant des rendus différents du même mot et dont la longeur de la séquence varie dans une grande mesure. Des expérimentations de reconnaissance de la parole ont été r'ealiséessur la base de données standards acoustique-phonétique TIMIT. Les résultats de reconnaissance de la parole démontrent que les avantages des HMMs à déformation temporelle sur les approches HMM normales sont de 10 à 15% en terme de taux de reconnainssance.

Full Text