Abstract
The paper is devoted to speech recognition technology developed in Artificial intelligence Institute (Donetsk, Ukraine). It is based on the following main stages: segmentation with the help of full variation digital analogue; diphone-database creation; DTW-recognition of words based on diphone templates. The technology could be used for large vocabulary speech recognition as well as for development of text editors with voice input.
Highlights
Такой эталон записывается для каждого из слов распознаваемого словаря
В наших распознавателях реализована также процедура дообучения: в случае ошибки пользователь указывает мышкой в списке или вводит с клавиатуры правильное слово; программа, сегментируя сигнал, создает эталоны прозвучавших дифонов и с их помощью модифицирует эталоны базы путем усреднения, которое было описано в конце раздела 9
Summary
Ключевые слова: сегментация речевого сигнала, дифон, DTW-распознавание. На рисунке 7 показан результат для слова «мимо», отсегментированного в соответствии с только что описанным алгоритмом. Если слово содержит шипящие или паузы, то мы выделяем их, как описано выше, после чего значения величины (6) для соответствующих им окон полагаем равными нулю и сегментируем сигнал подряд только что описанным способом (шипящие и паузы автоматически попадают в число Н-участков).
Talk to us
Join us for a 30 min session where you can share your feedback and ask us any queries you have