STFT 소리맵을 이용한 컨볼루션 신경망 기반 화자식별 방법

Seok-Jun Bu,Sung-Bae Cho

doi:10.5626/ktcp.2018.24.6.289

Abstract

화자식별은 개인 성도의 음성학적 특징을 모델링하고 분류하는 기술로 음성 인식 분야의 가장 어려운 분야에 속한다. 화자식별 기술은 보안인증, 접근제어, 개인화, 지능형 로봇제어 등의 분야에서 광범위하게 응용이 가능하지만, 실제 환경 요소로 인한 잡음 때문에 발생하는 학습과 테스트 데이터 간의 불일치를 해결하는 것이 필요하다. 본 논문에서는 잡음 강건성을 위해 컨볼루션-풀링 연산을 반복적으로 적용하는 화자식별 시스템을 제안하였다. 정적 신호가 아닌 시계열 특성을 지니는 스피치 데이터의 특징을 보다 잘 모델링 하기 위해서 STFT알고리즘을 사용하여 소리맵을 생성하여 분류하였다. 제안하는 화자식별 시스템은 다른 기계학습 알고리즘의 인식 성능을 크게 상회하였고, 단계별로 잡음을 삽입하는 실험의 결과로 잡음 강건성을 검증하였다.

Full Text