Abstract

The paper is devoted to speech recognition technology developed in Artificial intelligence Institute (Donetsk, Ukraine). It is based on the following main stages: segmentation with the help of full variation digital analogue; diphone-database creation; DTW-recognition of words based on diphone templates. The technology could be used for large vocabulary speech recognition as well as for development of text editors with voice input.

Highlights

  • Такой эталон записывается для каждого из слов распознаваемого словаря

  • В наших распознавателях реализована также процедура дообучения: в случае ошибки пользователь указывает мышкой в списке или вводит с клавиатуры правильное слово; программа, сегментируя сигнал, создает эталоны прозвучавших дифонов и с их помощью модифицирует эталоны базы путем усреднения, которое было описано в конце раздела 9

Read more

Summary

Introduction

Ключевые слова: сегментация речевого сигнала, дифон, DTW-распознавание. На рисунке 7 показан результат для слова «мимо», отсегментированного в соответствии с только что описанным алгоритмом. Если слово содержит шипящие или паузы, то мы выделяем их, как описано выше, после чего значения величины (6) для соответствующих им окон полагаем равными нулю и сегментируем сигнал подряд только что описанным способом (шипящие и паузы автоматически попадают в число Н-участков).

Results
Conclusion
Full Text
Published version (Free)

Talk to us

Join us for a 30 min session where you can share your feedback and ask us any queries you have

Schedule a call