Abstract

For extra-large vocabulary continuous speech recognition a language model that describes permissible phrases is needed. In the paper, the results of experiments on extra-large vocabulary (above 100 K words) continuous speech recognition, with usage of n-gram models, are presented. A quantitative comparison of recognition accuracy of words, symbols, and phonemes depending on n-gram model, with n value varying from 0 till 3, was made.

Highlights

  • Например, глаголы могут формировать до нескольких сотен различных словоформ, и их нужно учитывать при создании систем автоматического распознавания русской речи

  • Из-за того, что число вставленных слов было больше, чем слов во фразе, точность распознавания этой фразы оказалась отрицательной

  • It is connected with a fact that lots of bigrams and trigrams from the text corpus are missing in the training data

Read more

Summary

СВЕРХБОЛЬШОГО СЛОВАРЯ

Эксперименты по распознаванию слитной русской речи с использованием сверхбольшого словаря. Для распознавания слитной речи со сверхбольшим словарем распознавателю необходима модель языка, описывающая допустимые фразы. Ключевые слова: распознавание слитной русской речи, сверхбольшой словарь, модели языка. Автоматическое распознавание русской слитной речи представляет собой очень сложную задачу из-за целого ряда особенностей и трудностей русского языка. Для русского языка с его богатой морфологией объем фонетического словаря распознавания должен быть в несколько раз больше. Употребительных слов русского языка, и при помощи специальной системы обозначений он позволяет построить все словоформы для выбранного слова. Например, глаголы могут формировать до нескольких сотен различных словоформ, и их нужно учитывать при создании систем автоматического распознавания русской речи. В статье представлены результаты распознавания слитной русской речи при использовании сверхбольшого словаря. Слов, именно такой объем словаря необходим для создания систем стенографирования устной русской речи. Задача системы распознавания речи заключается в том, чтобы правильно распознать эту последовательность слов

Статистическая модель языка
Тип модели
Результат распознавания
SUMMARY
Full Text
Published version (Free)

Talk to us

Join us for a 30 min session where you can share your feedback and ask us any queries you have

Schedule a call