Usage of Speech Signal Segmentation for the Construction of Complex Model in the Speaker Identification System

Tatyana Vladimirovna Yermolenko,Nikita Sergeevich Klymenko

doi:10.15622/sp.26.21

Tatyana Vladimirovna Yermolenko, Nikita Sergeevich Klymenko

Open Access

PDF Available

https://doi.org/10.15622/sp.26.21

Copy DOI

Export

Save

Cite

Journal: SPIIRAS Proceedings	Publication Date: Mar 17, 2014
License type: cc-by

Abstract
Highlights/Summary
Full-Text PDF
Similar Papers

Abstract

Listen

The article is devoted to development of a complex speaker model for using at the text-independent speaker identification. The complex speaker model is based on gaussian mixture method. The model is formed by preliminary segmented speech signal, where each segment matches to certain broad phonetic class. Method of speaker models structuring is proposed. Speaker models are structured as a tree, which allows to identify speaker without running a full search on the set of models. Researches have shown the division of the acoustic space of speaker's voice on the set of classes that represent some phonetic events, increases the efficiency of voice identification and the proposed structuring method of models accelerates the search operation.

Highlights

The model is formed by preliminary segmented speech signal, where each segment matches to certain broad phonetic class
The optimize procedure increases the effectiveness of speaker identification by adjusting the composition of clusters and reduces the depth of the tree, and increases the speed of searching on it

Summary

Voc k

В численном исследовании эффективности использования комплексной модели диктора принимали участие 100 дикторов с различными голосовыми данными. При рассмотрении полученных значений функции (3), соответствующих моделям без учета ШФК, наблюдался самый высокий разброс результатов. При проведении сравнительного анализа моделей, обученных на фреймах, принадлежащих одному ШФК, и моделей без учета ШФК можно сказать следующее:. – значения МО и СКО функции (3) для моделей, обученных на фреймах класса Voc, сравнимы с показателями моделей без учета ШФК;. – для моделей, обученных на фреймах классов Sh и Cons, МО значений функции (3) возросло в среднем по всем дикторам в 2 раза, однако их СКО сравнимо с СКО для моделей без учета ШФК;. В случае, когда модель и сигнал, подлежащий идентификации, принадлежат разным дикторам, значение функции (3) должно стремиться к 0. Как видно из таблицы 1, полученные значения (3) в 10 – 50 раз меньше, чем значения, вычисленные для случая, когда модель и сигнал, по которому проводится идентификация, принадлежат одному диктору. Отношение статистических параметров значений функции (3) различных типов моделей к значениям, соответствующим параметрам моделей без разделения на ШФК

Без учета ШФК Комплексная модель Voc Sh Cons Son

Модель диктора

SUMMARY