An Algorithm for Parameters Estimation of Autoregressive Model of Basic Speech Units

I V Gubochkin

doi:10.18255/1818-1015-2013-2-23-33

I V Gubochkin

Open Access

PDF Available

https://doi.org/10.18255/1818-1015-2013-2-23-33

Copy DOI

Export

Save

Cite

Abstract
Highlights/Summary
Full-Text PDF
Similar Papers

Abstract

Listen

The article considers the problem of estimating autoregressive model parameters of elementary speech units such as phonemes. It is suggested an iterative algorithm based on the Newton numerical minimization technique to search an autoregressive model of phonemes specified its multiple samples. For this purpose the analytical expressions of the gradient and the Hessian of Kullback–Leibler information divergence between autoregressive models were computed. Experimental studies on a set of English phonemes showed that the developed algorithm requires less computational effort for large amounts of data, and iterations count depends little on the amount of input data as opposed to reference phoneme selection algorithm based on the criterion of a minimum sum of information divergence. Moreover, the proposed algorithm allows finding models of phonemes, which provide a higher probability of correct recognition.

Highlights

Для решения указанных выше проблем был разработан новый алгоритм оценки параметров АР-модели элементарные речевые единицы (ЭРЕ)
В качестве критерия оптимальности используется минимум величины среднего информационного рассогласования между АР-моделью ЭРЕ и представляющими ее реализациями
Он позволяет находить такие АР-модели элементарные речевые единицы (ЭРЕ), которые обеспечивают более высокую вероятность правильного распознавания

Summary

Introduction

Предложен итерационный алгоритм поиска авторегрессионной модели фонемы, заданной множеством ее реализаций, в основе которого лежит метод Ньютона, предназначенный для численной минимизации функций. В ходе экспериментальных исследований на наборе фонем английского языка показано, что разработанный алгоритм, по сравнению с алгоритмом выбора эталона фонемы на основе критерия минимума суммы информационных рассогласований, требует меньших вычислительных затрат на больших объемах данных, а число необходимых итераций слабо зависит от объема входных данных. Предложенный алгоритм позволяет находить такие модели фонем, которые обеспечивают более высокую вероятность правильного распознавания.

Results

Conclusion