Abstract
사람의 빈번한 자세 변화, 그리고 background clutter과 occlusion으로 인해 Person Re-identificatio는 컴퓨터 비전 분야에서 가장 어려운 부분이다. 비겹침 카메라의 이미지는 어떤 사람을 다른 사람과 구별하기 어렵게 한다. 더욱 나은 성능 일치를 달성하기 위해 대부분의 방법은 특징 선택과 거리 메트릭을 개별적으로 사용한다. 그렇게 차별화된 표현과 적절한 거리를 얻을 수 있고, 사람과 중요한 특징의 무시 사이의 유사성을 설명할 수 있다. 이러한 상황은 우리가 이 문제를 다루는 새로운 방법을 고려하도록 한다. 본 논문에서는 Person Re-identification를 위한 3단 계층네트워크를 갖는 향상되고 반복적인 신경 회로망을 제안하였다. 특히 RNN(Revurrent Neural Network) 모델은 반복적인 EM(Expectation Maximum) 알고리즘과 3단 계층 네트워크를 포함하고, 차별적 특징과 지표 거리를 공동으로 학습한다. 반복적인 EM 알고리즘은 RNN 이전에 연속해 있는 CNN(Convoutional Neural Network)의 특징 추출 능력을 충분히 사용할 수 있다. 자율 학습을 통해 EM 프레임 워크는 패치의 레이블을 변경하고 더 큰 데이터 세트를 훈련할 수 있다. 네트워크를 더 잘 훈련시키기 위해 3단 계층 네트워크를 통해 CNN, RNN 및 풀링 계층이 공동으로 특징 추출을 할 수 있다. 실험 결과에 따르면 비전처리 분야에서 다른 연구자의 접근 방식과 비교할 때 이 방법은 경쟁력 있는 정확도를 얻을 수 있다. 이 방법에 대한 다른 요소의 영향은 향후 연구에서 분석되고 평가될 것이다. The person Re-identification is the most challenging part of computer vision due to the significant changes in human pose and background clutter with occlusions. The picture from non-overlapping cameras enhance the difficulty to distinguish some person from the other. To reach a better performance match, most methods use feature selection and distance metrics separately to get discriminative representations and proper distance to describe the similarity between person and kind of ignoring some significant features. This situation has encouraged us to consider a novel method to deal with this problem. In this paper, we proposed an enhanced recurrent neural network with three-tier hierarchical network for person re-identification. Specifically, the proposed recurrent neural network (RNN) model contain an iterative expectation maximum (EM) algorithm and three-tier Hierarchical network to jointly learn both the discriminative features and metrics distance. The iterative EM algorithm can fully use of the feature extraction ability of convolutional neural network (CNN) which is in series before the RNN. By unsupervised learning, the EM framework can change the labels of the patches and train larger datasets. Through the three-tier hierarchical network, the convolutional neural network, recurrent network and pooling layer can jointly be a feature extractor to better train the network. The experimental result shows that comparing with other researchers' approaches in this field, this method also can get a competitive accuracy. The influence of different component of this method will be analyzed and evaluated in the future research.
Talk to us
Join us for a 30 min session where you can share your feedback and ask us any queries you have
More From: The Journal of the Institute of Internet Broadcasting and Communication
Disclaimer: All third-party content on this website/platform is and will remain the property of their respective owners and is provided on "as is" basis without any warranties, express or implied. Use of third-party content does not indicate any affiliation, sponsorship with or endorsement by them. Any references to third-party content is to identify the corresponding services and shall be considered fair use under The CopyrightLaw.