Project

Back to overview

Motion Models for Monocular People Tracking

English title Motion Models for Monocular People Tracking
Applicant Fua Pascal
Number 159248
Funding scheme Project funding (Div. I-III)
Research institution Laboratoire de vision par ordinateur EPFL - IC - ISIM - CVLAB
Institution of higher education EPF Lausanne - EPFL
Main discipline Information Technology
Start/End 01.09.2015 - 28.02.2018
Approved amount 122'092.00
Show all

Keywords (3)

Video; Motion Tracking; Computer Vision

Lay Summary (French)

Lead
La modélisation du corps humain et de ses mouvements reste difficile pour plusieurs raisons: Les humains ont une géométrie complexe. Leurs vêtements, en se déformant, rendent l’analyse du mouvement plus difficile et les différentes parties du corps se cachent souvent les unes les autres. C’est la problématique sur laquelle nous entendons travailler. Les applications potentielles en sont la formation sportive, la surveillance, le divertissement, et l'édition électronique.
Lay summary

Dans des travaux antérieurs, nous avons montré que, dans un contexte multi caméra, le suivi de personne pouvait être formulé comme un problème de Programmation Linéaire.  Les trajectoires sont calculées comme l'optimum global d'une fonction d'objectif convexe bien définie, ce qui rend le processus à la fois robuste et rapide. Dans ce projet, nous entendons démontrer que cette approche reste applicable lorsque l’on n’utilise qu’une seule caméra. 

A cette fin, nous proposons une approche en deux étapes. Tout d'abord, nous détecterons les individus et leur pose 3D dans chaque image individuellement tout en prenant en compte les occlusions produites par les autres personnes présentes dans la scène. Ensuite, nous sélectionnerons parmi toutes ces détections celles qui résultent dans un mouvement cohérent et répondant à un modèle de mouvement approprié.

En substance, dans nos travaux antérieurs, les ambiguïtés ont été résolues par l'utilisation de plusieurs caméras. Ici, nous avons l'intention de montrer qu'elles peuvent être résolues en prenant en compte la cohérence temporelle, ce qui rendra l’approche plus générique et plus facile à mettre en œuvre. 

 
Direct link to Lay Summary Last update: 29.03.2015

Responsible applicant and co-applicants

Employees

Name Institute

Publications

Publication
Modeling Facial Geometry using Compositional VAEs
Bagautdinov T, Wu C, Saragih J, Fua P, Sheikh Y (2018), Modeling Facial Geometry using Compositional VAEs, in Conference on Computer Vision and Pattern Recognition.
Social Scene Understand- ing: End-To-End Multi-Person Action Localization and Collective Activity Recognition
Bagautdinov T., Alahi A., Fleuret F., Fua P., Savarese S. (2017), Social Scene Understand- ing: End-To-End Multi-Person Action Localization and Collective Activity Recognition, in Conference on Computer Vision and Pattern Recognition.
Probability Occupancy Maps for Occluded Depth Images
Bagautdinov T., Fleuret F., Fua P. (2015), Probability Occupancy Maps for Occluded Depth Images, in Conference on Computer Vision and Pattern Recognition.

Collaboration

Group / person Country
Types of collaboration
IDIAP Switzerland (Europe)
- in-depth/constructive exchanges on approaches, methods or results
- Publication

Associated projects

Number Title Start Funding scheme
147693 Tracking in the Wild 01.01.2014 Sinergia
131549 Advanced Learning for Tracking and Detection in Medical Workflow Analysis. 01.04.2012 Project funding (Div. I-III)
144318 Motion Models for Monocular People Tracking 01.09.2013 Project funding (Div. I-III)
172500 Modeling People and their Clothes in Crowded Scenes 01.01.2018 Project funding (Div. I-III)

Abstract

Tracking people and recovering their 3D motion is one of the most difficult and challenging problems in Computer Vision. Today, there is great interest in capturing complex motions solely by analyzing video sequences, both because cameras are becoming ever cheaper and more prevalent and because there are so many potential applications. These include athletic training, surveillance, entertainment, and electronic publishing.During the first year of the ongoing project we have focused on using a single Kinect depth camera. We have shown that we could successfully extend our earlier multi-camera approach to computing probabilities that people are present in the scene at any given time using input from a single depth-camera and in such a way that occlusions are correctly handled. During the remainder of the ongoing project, we will work on linking these detections across time and inferring temporally consistent 3D poses. In the project continuation we are now requesting, we will return to using an ordinary video camera while applying the lessons learned to achieve the same result, but without requiring the additional depth information. This will allow us to operate in settings where depth-cameras do not work well, such as outdoors or at depth ranges beyond their capabilities.The approach we propose to investigate relies on the idea that, instead of using multiple cameras to resolve ambiguities as we did in earlier work, we can use images taken by a single camera over time to achieve the same result by enforcing temporal continuity.
-