Permutation Invariant Training for Speaker-Independent Multi-Pitch Tracking

Yuzhou Liu,Deliang Wang

doi:10.1109/icassp.2018.8461526

Permutation Invariant Training for Speaker-Independent Multi-Pitch Tracking

Yuzhou Liu, Deliang Wang

https://doi.org/10.1109/icassp.2018.8461526

Copy DOI

Publication Date: Apr 1, 2018

Citations: 6

Affiliation: The Ohio State University

#Factorial Hidden Markov Model #Utterance-level Permutation Invariant Training + Show 8 more

Abstract
Full-Text PDF
Similar Papers

Abstract

Speaker-independent multi-pitch tracking has been a long-standing problem in speech processing. In this study, we extend a recurrent neural network - factorial hidden Markov model (RNN-FHMM) framework, and use the utterance-level permutation invariant training (uPIT) criterion for multi-pitch tracking. Separated speech and label permutations from a speech separation uPIT-RNN have been further incorporated to improve pitch tracking performance. We evaluate our methods on the GRID database. Results indicate that the proposed speech separation - pitch tracking system with matched uPIT label permutations outperforms all other gender-dependent and speaker-independent multi-pitch trackers. The improvement is more significant for challenging same-gender mixtures.

Full Text