1차원 CNN를 이용한 비디오 행동 인식 모델 병렬성 향상

Jeonghyun Joo,Heeyoul Choi

doi:10.5626/ktcp.2021.27.4.216

Abstract

딥러닝 프레임워크는 컴퓨터 비전 많은 분야에서 괄목할 만한 성과를 보여주고 있다. 비디오 행동 인식 분야 역시 딥러닝 모델을 적용하기 위한 많은 연구들이 수행되었다. 한 선행연구는 2차원 CNN을 이용해 공간적 피쳐를 학습하고 이를 RNN에 입력으로 전달해 이용해 공간적 피쳐 사이의 시간적 상호 관계를 학습하는 모델 구조를 제안했다. 본 논문에서는 RNN 대신 1차원 CNN을 이용해 시간적 상호관계를 학습하도록 선행 연구의 모델 구조를 개선하는 연구를 수행한다. 이러한 구조 변경을 통해 RNN의 순차적 연산 과정을 제거해 향상된 GPU 활용도를 기대할 수 있다. 본 논문은 수정된 모델이 정확도를 비슷하게 유지하면서 연산 시간이 줄어드는 것을 보여주는 실험 결과를 제시함으로써 이러한 주장을 뒷받침한다.

Full Text