Abstract

본 논문은 다중 수준 특징을 이용해 음성신호를 각 음소의 구간으로 분할하는 방법을 제안한다. 기존의 딥러닝 기반 음성인식 알고리즘들은 심층신경망이 추출한 고수준 특징을 기반으로 음소들의 위치를 추정한다. 그러나, 음소인식에는 고수준 특징이 효과적인 반면, 음소분할에는 지역적 정보를 잘 반영하는 저수준 특징이 더욱 효과적이다. 제안하는 방법은 먼저 고수준 특징을 이용해 음성신호로부터 음소들을 검출한 후 저수준 특징을 이용해 음소 간 경계를 추정한다. 고수준 특징만을 이용한 모델과의 비교 실험에서 음소 경계 추정 평균절대오차(mean absolute error)가 HESD 데이터셋에 대하여 0.34초에서 0.01초로 95.8% 감소하였으며, NUS-48E 데이터셋에 대해서는 0.17초에서 0.04초로 76.5% 감소하였다. 시각화 분석에서도 다중 수준 특징을 이용하는 제안하는 방법은 비교 모델에 비해 음소 간 경계를 더 정확하게 추정하였다.

Full Text
Paper version not known

Talk to us

Join us for a 30 min session where you can share your feedback and ask us any queries you have

Schedule a call

Disclaimer: All third-party content on this website/platform is and will remain the property of their respective owners and is provided on "as is" basis without any warranties, express or implied. Use of third-party content does not indicate any affiliation, sponsorship with or endorsement by them. Any references to third-party content is to identify the corresponding services and shall be considered fair use under The CopyrightLaw.