CTC기반 음성인식 모델과 저차원 특징을 이용한 음성신호에서의 음소분할

Choonghyeon Lee,Sungjae Kim,Injung Kim

doi:10.5626/jok.2023.50.4.337

Abstract

본 논문은 다중 수준 특징을 이용해 음성신호를 각 음소의 구간으로 분할하는 방법을 제안한다. 기존의 딥러닝 기반 음성인식 알고리즘들은 심층신경망이 추출한 고수준 특징을 기반으로 음소들의 위치를 추정한다. 그러나, 음소인식에는 고수준 특징이 효과적인 반면, 음소분할에는 지역적 정보를 잘 반영하는 저수준 특징이 더욱 효과적이다. 제안하는 방법은 먼저 고수준 특징을 이용해 음성신호로부터 음소들을 검출한 후 저수준 특징을 이용해 음소 간 경계를 추정한다. 고수준 특징만을 이용한 모델과의 비교 실험에서 음소 경계 추정 평균절대오차(mean absolute error)가 HESD 데이터셋에 대하여 0.34초에서 0.01초로 95.8% 감소하였으며, NUS-48E 데이터셋에 대해서는 0.17초에서 0.04초로 76.5% 감소하였다. 시각화 분석에서도 다중 수준 특징을 이용하는 제안하는 방법은 비교 모델에 비해 음소 간 경계를 더 정확하게 추정하였다.

Full Text