Abstract

В рамках существующих систем, используемых в настоящее время в телекоммуникационных системах и средствах мобильной связи для автоматического определения активности голоса во время разговора абонентов невозможно существенно снизить объем передаваемых данных во время молчания или пауз. Для повышения эффективности таких систем необходимо использовать различные современные телекоммуникационные системы, основанные на искусственном интеллекте. В данной статье анализируется эффективность использования искусственных нейронных сетей в современных технологиях по распознаванию человеческого голоса. Представлены результаты исследования, направленного на сравнение эффективности различных нейронных сетей в распознавании человеческого голоса на казахском языке. Проведен анализ точности распознавания голоса с использованием различных нейронных сетей для различного количества дикторов. Полученные результаты показывают, что нейронная сеть CNN демонстрирует небольшое, но значимое преимущество в точности распознавания голоса на казахском языке по сравнению с другими. Также отмечено, что точность распознавания голоса с помощью нейронных сетей может сильно варьироваться в зависимости от разнообразия голосов, использованных при обучении. Такой анализ позволяет лучше понять влияние разнообразия обучающих данных на точность нейронных сетей, что является важным возможным направлением для будущих исследований. Полученные результаты в рамках данной работы могут быть полезны для специалистов в области технологий распознавания речи и машинного обучения.

Full Text
Published version (Free)

Talk to us

Join us for a 30 min session where you can share your feedback and ask us any queries you have

Schedule a call