Building a Speaker Diarization System: Lessons from VoxSRC 2023

Russian-Armenian University ,Davit S Karamyan,Institute Of Mathematics Of Nas Ra ,Grigor A Kirakosyan,Krisp.ai

doi:10.51408/1963-0109

Building a Speaker Diarization System: Lessons from VoxSRC 2023

Russian-Armenian University , Davit S Karamyan + Show 3 more

Open Access

https://doi.org/10.51408/1963-0109

Copy DOI

Journal: Mathematical Problems of Computer Science	Publication Date: Nov 30, 2023
License type: cc-by-nc

Affiliation: Russian-Armenian University, Institute of Mathematics and Informatics, Czech Academy of Sciences, Institute of Mathematics

#Speaker Diarization System #Voice Activity Detection + Show 8 more

Abstract
Full-Text PDF
Similar Papers

Abstract

Speaker diarization is the process of partitioning an audio recording into segments corresponding to individual speakers. In this paper, we present a robust speaker diarization system and describe its architecture. We focus on discussing the key components necessary for building a strong diarization system, such as voice activity detection (VAD), speaker embedding, and clustering. Our system emerged as the winner in the Voxceleb Speaker Recognition Challenge (VoxSRC) 2023, a widely recognized competition for evaluating speaker diarization systems.

Full Text