Abstract

In the paper, selection of best phoneme set for Russian automatic speech recognition is described. For the acoustic modeling, we describe a method based on combination of knowledge-based and statistical approaches to create several different phoneme sets. Applying this method to the Russian phonetic set of the IPA (International Phonetic Alphabet) alphabet, we first reduced it to 47 phonological units and derived several other phoneme sets with different number of phonological units from 27 till 47. Speech recognition experiments using these sets showed that reduced phoneme sets are better for phoneme recognition task and as good for word level speech recognition. For experiment with extra-large vocabulary, we used syntactico-statistical language model, which allowed us to achieve the word recognition accuracy of 73.1%. The results correspond to continuous Russian speech recognition quality obtained by other organizations up to date.

Highlights

  • We describe a method based on combination of knowledge-based and statistical approaches to create several different phoneme sets

  • Applying this method to the Russian phonetic set of the IPA (International Phonetic Alphabet) alphabet, we first reduced it to 47 phonological units and derived several other phoneme sets with different number of phonological units from 27 till 47

  • This model was created by adding grammatically-connected word pairs, which were separated by other words in the training corpus, to the baseline bigram model

Read more

Summary

Фонетические единицы

При использовании трифонов может возникнуть проблема дефицита обучающих данных. Обычно кластеризация контекстов осуществляется с помощью деревьев решений [14,15], при этом используются вопросы о том, имеет ли левая или правая фонема определенные фонетические признаки (например, является ли левая/правая фонема звонкой). В таблице 2 приведены основные различия между наборами вопросов дерева решений для английского и русского языков. Дерево решений для русского языка состоит из 38 общих вопросов плюс по одному вопросу для каждой единицы фонемного набора отдельно для левого и правого контекста. Размер используемого фонемного набора определяет количество контекстно-независимых моделей и также влияет на число контекстнозависимых моделей. Если их количество слишком мало, может снизиться точность системы, так как акустически схожие модели будут чаще распознаваться неправильно (спутываться). Различия между наборами вопросов дерева решений для английского и русского языков

Добавленные вопросы для русского
Ударные Безударные
Число фонологических единиц
Число состояний
Фонемный набор
Findings
SUMMARY
Full Text
Published version (Free)

Talk to us

Join us for a 30 min session where you can share your feedback and ask us any queries you have

Schedule a call