An Analytic Survey of End-to-End Speech Recognition Systems

Nikita Mikhailovich Markovnikov,Irina Sergeevna Kipyatkova

doi:10.15622/sp.58.4

Abstract

This article presents an analytic survey of various end-to-end speech recognition systems, as well as some approaches to their construction and optimization. We consider models based on connectionist temporal classification (CTC), models based on encoder-decoder architecture with attention mechanism and models using conditional random field (CRF). We also describe integration possibilities with language models at a stage of decoding. We see that such an approach significantly reduces recognition error rates for end-to-end models. A survey of research works in this subject area reveals that end-to-end systems allow achieving results close to that of the state-of-the-art hybrid models. Nevertheless, end-to-end models use simple configuration and demonstrate a high speed of learning and decoding. In addition, we consider popular frameworks and toolkits for creating speech recognition systems.

Highlights

РАСПОЗНАВАНИЯ РЕЧИПриведен аналитический обзор разновидностей интегральных (end-toend) систем для распознавания речи, методов их построения, обучения и оптимизации
This article presents an analytic survey of various end-to-end speech recognition systems, as well as some approaches to their construction, training and optimization
We consider models based on connectionist temporal classification (CTC) as a loss function for neural networks, models based on encoder-decoder architecture with attention mechanism

Summary

РАСПОЗНАВАНИЯ РЕЧИ

Приведен аналитический обзор разновидностей интегральных (end-toend) систем для распознавания речи, методов их построения, обучения и оптимизации. Построенные с использованием условных случайных полей (CRF), которые являются обобщением скрытых марковских моделей, что позволяет исправить многие недостатки стандартных гибридных систем распознавания речи, например, предположение о том, что элементы входных последовательностей звуков речи являются независимыми случайными величинами. Описаны различные модификации и улучшения стандартных интегральных архитектур систем распознавания речи, как, например, обобщение коннекционной классификации и использовании регуляризации в моделях, основанных на механизмах внимания. Рассмотрены наиболее популярные и развивающиеся библиотеки и инструментарии для построения интегральных систем распознавания речи, такие как TensorFlow, Eesen, Kaldi и другие. В данном обзоре рассматриваются три вида интегральных моделей на основе глубоких ИНС для распознавания речи: на основе коннекционной временной классификации, шифратор-дешифратор модели с использованием механизма внимания и модели, использующие условные случайные поля.

Языковая модель

DyNet TIMIT

Модели a b c

Findings

RECOGNITION SYSTEMS

Full Text

Paper version not known

Open DOI Link

Talk to us

Join us for a 30 min session where you can share your feedback and ask us any queries you have

Schedule a call

Journal: SPIIRAS Proceedings	Publication Date: Jun 1, 2018
Citations: 12	License type: cc-by

R Discovery Prime

R Discovery Prime

An Analytic Survey of End-to-End Speech Recognition Systems

Abstract

Highlights

Summary

Talk to us

Similar Papers

More From: SPIIRAS Proceedings

Lead the way for us

Similar Papers

Encoder-decoder models for recognition of Russian speech
Irina Kipyatkova ... Nikita Markovnikov
Информационно-управляющие системы | VOL. -
Irina Kipyatkova, et. al.Irina Kipyatkova ... Nikita Markovnikov
04 Oct 2019
Информационно-управляющие системы | VOL. -

Advancing Acoustic-to-Word CTC Model With Attention and Mixed-Units
Amit Das ... Yifan Gong
IEEE/ACM Transactions on Audio, Speech, and Language Processing | VOL. 27
Amit Das, et. al.Amit Das ... Yifan Gong
04 Sep 2019
IEEE/ACM Transactions on Audio, Speech, and Language Processing | VOL. 27

Improving Amharic Speech Recognition System Using Connectionist Temporal Classification with Attention Model and Phoneme-Based Byte-Pair-Encodings
Eshete Derb Emiru ... Shengwu Xiong
Information | VOL. 12
Eshete Derb Emiru, et. al.Eshete Derb Emiru ... Shengwu Xiong
03 Feb 2021
Information | VOL. 12

Transliteration Based Approaches to Improve Code-Switched Speech Recognition Performance
Jesse Emond ... Bhuvana Ramabhadran
-
Jesse Emond, et. al.Jesse Emond ... Bhuvana Ramabhadran
01 Dec 2018
01 Dec 2018

Editage

Paperpal

R Discovery

Mind the Graph

R Discovery Prime

R Discovery Prime

An Analytic Survey of End-to-End Speech Recognition Systems

Abstract

Highlights

Summary

Talk to us

Similar Papers

More From: SPIIRAS Proceedings