Abstract

This article presents an analytic survey of various end-to-end speech recognition systems, as well as some approaches to their construction and optimization. We consider models based on connectionist temporal classification (CTC), models based on encoder-decoder architecture with attention mechanism and models using conditional random field (CRF). We also describe integration possibilities with language models at a stage of decoding. We see that such an approach significantly reduces recognition error rates for end-to-end models. A survey of research works in this subject area reveals that end-to-end systems allow achieving results close to that of the state-of-the-art hybrid models. Nevertheless, end-to-end models use simple configuration and demonstrate a high speed of learning and decoding. In addition, we consider popular frameworks and toolkits for creating speech recognition systems.

Highlights

  • РАСПОЗНАВАНИЯ РЕЧИПриведен аналитический обзор разновидностей интегральных (end-toend) систем для распознавания речи, методов их построения, обучения и оптимизации

  • This article presents an analytic survey of various end-to-end speech recognition systems, as well as some approaches to their construction, training and optimization

  • We consider models based on connectionist temporal classification (CTC) as a loss function for neural networks, models based on encoder-decoder architecture with attention mechanism

Read more

Summary

РАСПОЗНАВАНИЯ РЕЧИ

Приведен аналитический обзор разновидностей интегральных (end-toend) систем для распознавания речи, методов их построения, обучения и оптимизации. Построенные с использованием условных случайных полей (CRF), которые являются обобщением скрытых марковских моделей, что позволяет исправить многие недостатки стандартных гибридных систем распознавания речи, например, предположение о том, что элементы входных последовательностей звуков речи являются независимыми случайными величинами. Описаны различные модификации и улучшения стандартных интегральных архитектур систем распознавания речи, как, например, обобщение коннекционной классификации и использовании регуляризации в моделях, основанных на механизмах внимания. Рассмотрены наиболее популярные и развивающиеся библиотеки и инструментарии для построения интегральных систем распознавания речи, такие как TensorFlow, Eesen, Kaldi и другие. В данном обзоре рассматриваются три вида интегральных моделей на основе глубоких ИНС для распознавания речи: на основе коннекционной временной классификации, шифратор-дешифратор модели с использованием механизма внимания и модели, использующие условные случайные поля.

Языковая модель
DyNet TIMIT
Модели a b c
Findings
RECOGNITION SYSTEMS
Full Text
Paper version not known

Talk to us

Join us for a 30 min session where you can share your feedback and ask us any queries you have

Schedule a call

Disclaimer: All third-party content on this website/platform is and will remain the property of their respective owners and is provided on "as is" basis without any warranties, express or implied. Use of third-party content does not indicate any affiliation, sponsorship with or endorsement by them. Any references to third-party content is to identify the corresponding services and shall be considered fair use under The CopyrightLaw.