CRNN 기반의 소리 이벤트 검출 성능 분석

Suk-Hwan Chung,Yong-Joo Chung

doi:10.14801/jkiit.2019.17.5.83

Abstract

본 논문에서는 소리 이벤트 검출을 위한 CRNN(Convolutional Recurrent Neural Network)에 대한 심층적 고찰을 진행하였다. 이를 위해서 학습률(learning rate)과 입력 세그먼트의 길이에 대한 최적의 값을 성능 실험을 통하여 알아보았다. 또한, 매 학습 반복(iteration) 마다 배치(batch) 데이터의 변화가 성능에 어떤 영향을 미치는지를 고찰하였으며, 배치정규화(batch normalization)과 드랍아웃(dropout)의 유무가 성능에 미치는 영향에 대해서도 관찰하였다. 마지막으로, 학습 과정의 수렴을 판단하는 최적화 기준에 따른 성능 변화도 알아보았다. 앞에서 언급된 이러한 과정을 통해서 소리 이벤트 검출을 위한 CRNN에 대한 최적의 조건을 도출하고자 하였다. TUT Sound Events Synthetic 2016 데이터베이스를 이용한 실험 결과 학습률은 10SUP-4/SUP 일 때 가장 좋은 성능을 보였고 드랍아웃 보다는 배치정규화 성능이 훨씬 큰 영향을 미치는 것을 알 수 있었으며 매 반복 마다 배치 데이터의 시작점을 다르게 함으로써 많은 성능 향상을 이루었다.

Full Text