Segmentation and diphone recognition of speech signals

Aigerim Keulimzhajevna Buribajeva,Galina Vladimirovna Dorokhina,Vladislav Jurievich Shelepov,Artem Vladimirovich Nitsenko

doi:10.15622/sp.31.2

Abstract

The paper is devoted to speech recognition technology developed in Artificial intelligence Institute (Donetsk, Ukraine). It is based on the following main stages: segmentation with the help of full variation digital analogue; diphone-database creation; DTW-recognition of words based on diphone templates. The technology could be used for large vocabulary speech recognition as well as for development of text editors with voice input.

Highlights

Такой эталон записывается для каждого из слов распознаваемого словаря
В наших распознавателях реализована также процедура дообучения: в случае ошибки пользователь указывает мышкой в списке или вводит с клавиатуры правильное слово; программа, сегментируя сигнал, создает эталоны прозвучавших дифонов и с их помощью модифицирует эталоны базы путем усреднения, которое было описано в конце раздела 9

Summary

Introduction

Ключевые слова: сегментация речевого сигнала, дифон, DTW-распознавание. На рисунке 7 показан результат для слова «мимо», отсегментированного в соответствии с только что описанным алгоритмом. Если слово содержит шипящие или паузы, то мы выделяем их, как описано выше, после чего значения величины (6) для соответствующих им окон полагаем равными нулю и сегментируем сигнал подряд только что описанным способом (шипящие и паузы автоматически попадают в число Н-участков).

Results

Conclusion