Abstract
The article describes the formulation of the problem of recognition of the movements of objects in a video sequence, the stages of its solution, the analysis of the basic methods of each of the stages. A wide range of applications and growing requirements on the quality of recognition determines the relevance of the study. The process of action recognition and detection begins with extracting useful features, from the input video sequence. Features are then processed through a classier to identify the action class (for example, running, walking, jumping, various gestures). The article describes the main feature descriptors, in the filter-based category: histogram of oriented gradients, cuboid descriptor, scale-invariant feature transform, gradient location-orientation histogram, local trinary patterns, and spatiotemporal patches, optical flow-based descriptors: histograms of optical flow, the motion boundary histogram, dense trajectory, convolutional neural network-based descriptors. Some algorithms require the extraction of primitive features and further refinement of the auxiliary features before they can be passed to the classifier. Examples of the use of specialized primitive features are methods based on silhouettes / contours and methods based on object tracking. There are methods for classifying extracted features, including the following: support vector machines, adaptive boost, artificial neural networks, convolutional neural networks. The key difficulties arising in solving the problem are considered. There are ways to compare various methods. One of the ways to draw comparisons is to quantitatively evaluate each approach on the same database with the same protocol. From simple KTH datasets and Weizmannnd to Carnegie Mellon University Crowded Videos dataset and Microsoft Research Action Group dataset to more complex video conditions and large-scale UCF101 and ActivityNet datasets. Existing approaches to recognition of motion in video sequences are analyzed. The article reveals characteristics, strengths and weaknesses of the various methods of detecting features and their classification. Leading methods that show the best results widely use convolutional neural networks. One of such methods is a spatio-temporal graph convolutional neural network for action recognition based on the object's skeleton. A method for further research and improvement was chosen.
Highlights
The article describes the formulation of the problem of recognition
growing requirements on the quality of recognition determines the relevance of the study
The process of action recognition and detection begins with extracting useful features
Summary
KTH база являє собою набір з 600 відео на яких 25 акторів виконують 6 дій( ходьба, біг, біг підтюпцем, боксування, хвиля, оплески) в 4 різних умовах (усього 600 відео зразків). База Weizmann містить 90 відео зразків, 10 акторів, 9 дій. Щоб задовольнити відсутність природних параметрів у наборах даних KTH та Weizmann, зокрема, чистота фону, наступним кроком було тестування алгоритмів на відео з динамічним фоном. У спробах створити набір даних, що відповідає вимогам додатків у реальному світі для розпізнавання дій, необхідно було зібрати відео, що не обмежується рухами камери, контекстом сцени, просторовою сегментацією та точками зору. Набір даних UCF101[10] був одним з найбільш складних і великих наборів даних для виявлення та розпізнавання дій. Набори даних UCF101 і ActivityNet містять відео, які дуже нагадують відео, які можна знайти в реальному світі. Алгоритми, які добре працюють на цих наборах даних, мають великий потенціал для використання в реальних умовах
Talk to us
Join us for a 30 min session where you can share your feedback and ask us any queries you have
Disclaimer: All third-party content on this website/platform is and will remain the property of their respective owners and is provided on "as is" basis without any warranties, express or implied. Use of third-party content does not indicate any affiliation, sponsorship with or endorsement by them. Any references to third-party content is to identify the corresponding services and shall be considered fair use under The CopyrightLaw.