Abstract

During automatic speech processing a number of problems appear, and among them are such as speech variation and different kinds of speech disfluences. In this article different types of speech disfluencies and their causes are presented, as well as the algorithm for their automatic detection based on the analysis of acoustical parameters. The method of cross-correlation was used to deteсt voiced hesitation phenomena and a method of band-filtering was used to detect unvoiced hesitation phenomena and artefacts. The experiments were performed on a specially collected corpus of spontaneous Russian map-task and appointment-task dialogs. Experiments showed that voiced hesitation phenomena are detected with 80% accuracy and devoiced hesitation phenomena and artefacts – with 66% accuracy.

Highlights

  • Experiments showed that voiced hesitation phenomena are detected with 80% accuracy and devoiced hesitation phenomena and artefacts – with 66% accuracy

  • В работе [28] показано, что улучшение качества распознавания речи возможно за счет выделения в сигнале свойств сложных речевых сбоев, которые представляют собой смесь хезитаций и самокоррекций

  • Further it is planned to solve the occurred problems of laryngealized sounds and of inaccurate division between sounds

Read more

Summary

Ретроспективная коррекция

В настоящее время для исследования речевых сбоев используются корпусы спонтанной речи с многоуровневой аннотацией. Чаще всего используются только акустические модели речевых сбоев для их последующего применения в системах автоматического распознавания речи. В работе [28] показано, что улучшение качества распознавания речи возможно за счет выделения в сигнале свойств сложных речевых сбоев, которые представляют собой смесь хезитаций и самокоррекций. Поэтому в данной работе было решено исследовать параметрические методы для цифровой обработки аудиосигнала и определения границ речевых сбоев. Задача определения общего свободного времени на основе личных расписаний заключалась в том, что собеседники должны были найти время для: а) телефонного разговора длительностью в 15-20 минут, б) встречи длительностью 1 час. В рамках проекта РФФИ 12-06-31203 мол_а был собран корпус русской спонтанной речи, часть которого послужила материалом для данного исследования.

Обозначение пауз хезитаций и артефактов строилось по схеме
Findings
SUMMARY
Full Text
Paper version not known

Talk to us

Join us for a 30 min session where you can share your feedback and ask us any queries you have

Schedule a call

Disclaimer: All third-party content on this website/platform is and will remain the property of their respective owners and is provided on "as is" basis without any warranties, express or implied. Use of third-party content does not indicate any affiliation, sponsorship with or endorsement by them. Any references to third-party content is to identify the corresponding services and shall be considered fair use under The CopyrightLaw.