david antonio gómez jáuregui rapporteurs: bill triggs frédéric lerasle
Post on 24-Feb-2016
44 Views
Preview:
DESCRIPTION
TRANSCRIPT
Soutenance de thèse pour obtenir le grade de Docteur de Télécom SudParis (ED S&I - UEVE)
Acquisition 3D des gestes par vision artificielle et restitution virtuelle
David Antonio Gómez Jáuregui Rapporteurs: Bill TRIGGS Frédéric LERASLE
Examinateurs: Rachid DERICHE André GAGALOWICZ
Directrice: Bernadette DORIZZI Encadrant: Patrick HORAIN
Application:Environnements Virtuels Collaboratifs (EVCs)
David Gomez2
Animation des avatars prédéfinie. Menus difficiles à gérer. La perception des gestes est amoindrie.
Capteurs pour l’acquisition 3D des gestes
Optique
David Gomez3
Centrales inertielles
Magnétique Mécanique
Très chers !!
Encombrants !!
Difficiles àÉtalonner !!
Acquisition 3D des gestes par vision monoscopique en temps-réel
Temps-réel
Sans marqueurs
Utilisation d’une webcam
PC grand public• avec puissance variable
David Gomez4
(Marques Soares et al., 2004)
Difficultés
Manque d’information de profondeur Grand nombre de degrés de liberté Occlusions des parties du corps Plusieurs vêtements Proportions du corps différentes Des mouvements imprédictibles Environnements complexes
David Gomez
Contribution de la thèse
Améliorer la robustesse et la précision de l’acquisition 3D des gestes par vision monoculaire en temps réel.
Des analyses expérimentales sont effectuées afin de démontrer l’amélioration des résultats en temps réel.
Adaptation à la plateforme.
David Gomez6
Plan de l’exposé
I. Travaux antérieurs.II. Notre approche pour l’acquisition 3D des
gestes.III. Recalage sur les régions et les contours.IV. Filtrage particulaire en temps réel avec
heuristiques.V. Démonstration du système.VI. Conclusions et perspectives
David Gomez7
Travaux antérieurs: état de l’art de l’acquisition 3D des
gestes par vision artificielle
Caractéristiques d’image
La couleur (Broekhuijsen et al., 2006), (Fontmarty et al., 2006), (Bernier et al, 2009)
Les silhouettes (Deutscher et al., 2005), (Agarwal et al., 2006),
Les contours (Noriega et al., 2007), (Ramanan et al., 2003)
Le mouvement (Sminchisescu et al., 2001), (Bregler et al., 2004)
David Gomez9
(Sminchisescu et al, 2001)
(Howe, 2006)
Estimation de la pose 3D
Deux approches (Poppe, 2007) :• Génératives: recalent un modèle 3D du corps en
minimisant un coût d’association.1. Estimation Top-down (Delamarre et al., 2001) , (Sminchisescu et al., 2002)
2. Estimation Bottom-up (Hua et al., 2007), (Noriega et al., 2007)
• Discriminatives: classer la pose 3D directement à partir des images.
1. Apprentissage d’un mapping (Agarwal and Triggs, 2006)
2. A partir des exemples. (Toyama et al., 2002), (Stenger et al., 2003)
David Gomez10
Modélisation probabiliste du mouvement humain
Haute dimensionnalité • Clustering des poses
(Caillete et al. 2005)
Faible dimensionnalité• PCA (Rius et al., 2009)
• Processus gaussiens (GPLVM, GPDM) (Urtasun et al., 2006)
David Gomez11
(Urtasun et al., 2006)
Limitations des travaux antérieurs pour l’acquisition 3D des gestes
La plupart des approches restent éloignées du temps réel.
Besoin de plusieurs caméras (approches multi-vues).
Peu d’évaluations quantitatives.
Parfois limités à quelques activités spécifiques (marcher, courir, swing pour le golf).
David Gomezpage 12
Notre approche pour l’acquisition 3D
des gestes par vision monoculaire en temps réel
David Gomez14
Notre approche pour l’acquisition des gestes
Recaler un modèle 3D articulé de la moitié supérieure du corps humain sur des séquences vidéo
Vecteur de paramètres de la pose du modèle :• 6 paramètres globaux
(position & orientation) • 17 angles
d’articulations
Approche : recalage 3D / 2D
David Gomez15
primitives
primitives
Evaluation du recalage
Optimisation du recalage
Contraintes biomécaniques
Implémentation: étape d’initialisation
David Gomez16
Recalage sur les régions et recalage sur les contours
pour l’acquisition 3D des gestes en temps réel par vision
monoscopique
David Gomez18
Évaluation du recalage :taux de non recouvrement (Ouhaddi, 1999)
? mm
c cc
cccc
qBAqBAqBA
qF
1
1 )()()(
où :m = nombre de classes de couleurAc = pixels classe c (vidéo segmentée)
Bc = pixels classe c (modèle projeté)
q = paramètres articulatoires
Recalage sur les régions :Avantages et inconvénients
Robustesse à l’initialisationUn recouvrement partiel suffit
Précision limitéePixels des contours peu nombreux par rapport aux pixels
intérieurs
David Gomez19
?
Recalage sur les contours:Distance résiduelle entre contours
où :
DRC = distance résiduelle entre contours
Icd = carte de distance aux contours
pi = point de contour occultant
N = nombre des points de contours occultants
Np
iiCDRC pI
ND )(1
David Gomez20
David Gomez21
Précision du recalage sur les contours
☺ Contours → Recalage plus précis
Modèle recalésur régions
Modèle recalésur contours
Contrainte du temps-réel
Temps réel temps de calcul limité (< 100 ms par image)
nombre d’itérations limité → précision Objectif: compromis entre les deux caractéristiques
(région colorées et contours) en fonction du nombre d’itérations disponibles.
Evaluation du résultat:• La robustesse:
- nombre de décrochages: erreur résiduelle > seuil
• La précision de la pose 3D- proximité à la vérité terrain
David Gomez22
Analyse expérimentale
David Gomez23
Expérimentation sur plusieurs séquences vidéo avec divers gestes
GRETA
Pelachaud et al.
Taux de non recouvrement (Décrochages)
David Gomez24
~200
Analyse expérimentale de la robustesse
Recalage sur les régions • converge plus vite• plus robuste (après 200 itérations)
Recalage sur les contours• plus précis
Combien d’itérations faut-il allouer à chaque étape afin d’avoir la meilleure précision en temps réel?
David Gomez25
Evaluation de la précision de la pose estimée
David Gomezpage 26
𝐷ሺ𝑥,𝑥ሻ= σ ԡ𝑥𝑚 − 𝑥𝑚ԡ𝑀𝑚=1 𝑀
où :
D(x,x)̃ = erreur résiduelle de la pose 3D
xm = coordonnée 3D (vérité terrain)
xm = coordonnée 3D (pose estimée)
M = nombre d‘articulations
Modélisation de l’erreur résiduelle 2D
David Gomezpage 27
𝑧= 𝐴+ 𝐵𝑥+ 𝐶𝑦+ 𝐷𝑥2 + 𝐹𝑦2 + 𝐺𝑥𝑦
Compromis en temps réel
David Gomezpage 28
Répartition optimale du nombre d’itérations Adaptation automatique à la puissance de calcul disponible
Filtrage particulaire en temps réel avec heuristiques pour
l’acquisition 3D des gestes par vision monoscopique
Ambigüités des images monoculaires
David Gomezpage 30
Plusieurs poses 3D peuvent coïncider avec la même observation 2D
Suivi avec plusieurs hypothèses
Filtrage particulaire: Approches de Monte-Carlo
séquentielles
Flexibles, parallélisables, faciles à implémenter et à modifier
David Gomezpage 31
Filtrage particulaire
David Gomezpage 32
Représentation de la f.d.p. par un ensemble de N particules avec des poids associés:
N
iit
ittt wxzxP 1
)()(:1 ,)|(
particule représentant un état du système poids associé à chaque particule en fonction des
mesures.
)(itx)(i
tw
Fonction de vraisemblance: 𝑤𝑡(𝑖) ∝ 𝑝ቀ𝑧𝑡ቚ𝑥𝑡ሺ𝑖ሻቁ
Algorithme de filtrage particulaire (Isard and Blake, 1998)
David Gomezpage 33
Limitation: très couteux dans des espaces de haut dimensionnalité
Mise en œuvre du filtrage particulaire
David Gomezpage 34
)(itx
𝒑ቀ𝒛𝒕ቚ𝒙𝒕ሺ𝒊ሻቁ
Filtrage particulaire classique (Isard and Blake, 1998)
David Gomezpage 35
Particules mal guidées (200 particules)
Filtrage particulaire pour l’acquisition 3D des gestes: travaux antérieures
Plusieurs stratégies et améliorations:• Filtrage particulaire partitionné
- (MacCormick et al., 2000)
• Filtre particulaire avec recuit simulé - (Deutscher et al., 2000)
• Echantillonnage avec l’optimisation locale- (Cham et al., 1999), (Sminchisescu and Triggs, 2001)
• Inférence analytique - (Lee et al., 2002)
• Echantillonnage déterministe - (Saboune et Charpillet, 2005)
David Gomezpage 36
Notre approche du filtrage particulaire pour l’acquisition 3D des gestes
Limitations des approches antérieures: Eloignées du temps réel. Deux ou plusieurs caméras.
Notre approche: nouvelles heuristiques à la méthode de CONDENSATION pour guider les particules dans un espace de grande dimension :
Dimension 20 : nombre d’angles articulatoires En temps-réel → 100 à 500 particules En traitant les ambigüités 3D / 2D
David Gomezpage 37
Limitation du rééchantillonnage probabiliste
Utilisation des poids comme probabilités d’occurrence des particules (Gordon, 1993).Propagation de particules avec des poids faibles
Temps de calcul limité → pas assez de particules
Solution : rééchantillonnage déterministe pour propager uniquement les particules avec des poids importants.
David Gomezpage 38
)(itw
Resampling Prediction Measurement
Rééchantillonnage déterministe par poids
Particules avec poids faibles → pas d’enfant
Particules avec poids forts → famille de particules
David Gomezpage 39
Rééchantillonnage déterministe: contribution à la précision 3D et robustesse
David Gomezpage 40
Précision réduite par rapport au nombre d’itérations
Réduction du nombre de décrochages.
Limitation de la prédiction
Échantillonnage aléatoire de tous les paramètres à chaque instant. Les particules n'explorent pas l'espace d‘état de
manière efficace.
Solution: appliquer la diffusion aléatoire uniquement aux parties du corps qui ont bougé d’une trame à l’autre.
David Gomezpage 41
Resampling Prediction Measurement
Échantillonnage partitionné basée mouvement
David Gomezpage 42
𝑥𝑡 = (𝑥𝑡𝐶,𝑥𝑡𝐻,𝑥𝑡𝐿𝐴,𝑥𝑡𝑅𝐴). 𝒙𝒕𝑪
𝒙𝒕𝑯 𝒙𝒕𝑳𝑹 𝒙𝒕𝑨𝑹
𝒙𝒕−𝟏
𝒛𝒕−𝟏 𝒛𝒕 Détection de mouvement Echantillonnage partitionné
Échantillonnage partitionné basée mouvement: contribution à la précision 3D et robustesse
David Gomezpage 43
Amélioration de la précision pour les gestes avec du mouvement fronto parallèle
Amélioration de la robustesse: meilleure performance sur les gestes avec du mouvement fronto parallèle
Limitation de la prédiction
Échantillonnage aléatoire: Grand nombre de particules pour explorer l’espace
d’état.
Solution: optimisation locale pour guider de façon déterministe les groupes de particules vers les minimums.
David Gomezpage 44
Resampling Prediction Measurement
Prédiction avec l’optimisation locale et échantillonnage aléatoire
David Gomezpage 45
Grands groupes → descente du simplex Petits groupes → échantillonnage aléatoire
Prédiction avec l’optimisation locale: contribution à la précision 3D et robustesse
David Gomezpage 46
Pas d’amélioration de la précision: l’optimisation locale ne peut pas gérer les ambigüités 3D / 2D
Amélioration du recalage 2D Pas d’amélioration de la précision 3D
Limitation de la prédiction dans les images monoculaires
Plusieurs poses 3D peuvent générer la même projection 2D (Ambigüités). La sélection de la mauvaise pose 3D conduit aux décrochages.
Solution: générer analytiquement plusieurs hypothèses qui donnent la même projection (Sminchisescu and Triggs 2003).
David Gomezpage 47
Resampling Prediction Measurement
Echantillonnage par sauts-cinématiques
David Gomezpage 48
Echantillonnage par sauts-cinématiques: contribution à la précision 3D et robustesse
David Gomezpage 49
Pas d’amélioration significative
Amélioration de la robustesse: meilleure performance sur les gestes avec du mouvement vers la profondeur
Limitation du suivi de la pose 3D dans des image monoculaires
Les angles articulatoires ne permettent pas de modéliser l’incertitude de la profondeur.
Solution: un paramétrage qui permet de séparer l’incertitude de la profondeur et l’incertitude dans le plan image.
David Gomezpage 50
Resampling Prediction Measurement
Changement de paramétrage (suivi avec le bout de la chaine cinématique)
David Gomezpage 51
Changement de paramétrage: contribution à la précision 3D
David Gomezpage 52
Amélioration de la précision pour les gestes avec des mouvements vers la profondeur
Amélioration de la robustesse: meilleure performance sur les mouvements vers la profondeur
Accélération par GPU
David Gomezpage 53
Number ofparticles
CPU(Native C++)
GPU(OpenCL)
100 27 ms 1.4 ms
300 40 ms 2.5 ms
500 76 ms 6.5 ms
700 110 ms 17 ms
Resampling Prediction Measurement
Algorithme de filtrage particulaire en temps réel avec heuristiques
David Gomezpage 54
Niit
it wx 1
)(1
)(1, Particules
parents
Particulesenfants
Sauts Cinématiques
Echant.Partitionné +End-effector
Buffer (GPU)
Niit
it wx 1
)()( ,
Rééchantillonnage
Prédiction
Mesurer
Résultat du filtrage particulaire avec heuristiques: précision 3D
David Gomezpage 55
Amélioration significative de la précision 3D pour toutes les séquences vidéo (80 – 120 mm).
Résultat du filtrage particulaire avec heuristiques: robustesse
David Gomezpage 56
Amélioration significative de la robustesse pour toutes les séquences vidéo.
Filtrage particulaire en temps réel avec heuristiques: Résultats qualitatifs
David Gomezpage 57
Acquisition 3D des gestes plus précise et robuste avec un faible nombre de particules (200).
Filtrage particulaire en temps réel avec heuristiques: résultats qualitatifs
David Gomezpage 58
Résultats antérieurs (Marques Soares et al., 2004) Résultats actuels
Démonstration
Je vous remercie de votre attention.
David Gomez63
Publications
1) David Antonio Gomez Jauregui, Patrick Horain, Manoj Kumar Rajagopal, Senanayak Sesh Kumar Karri. “Real-Time Particle Filtering with Heuristics for 3D Motion Capture by Monocular Vision”, IEEE International Workshop on Multimedia Signal Processing 2010 (MMSP'10), Saint-Malo, France, October 4-6, 2010
2) David Antonio Gomez Jauregui, Patrick Horain, « Acquisition 3D des gestes par vision artificielle et restitution virtuelle ». A3DM '10 : Journée scientifique du colloque "Analyse 3d du mouvement", 17-18 juin 2010, Poitiers, France, 2010
3) Patrick Horain, José Marques Soares, Dianle Zhou, Zhenbo Li, David Antonio Gomez Jauregui, Yannick Allusse, “Perceiving and rendering users in a 3D interaction”, Proceedings of the Second IEEE International Conference on Intelligent Human Computer Interaction (IHCI 2010), January 16-18, 2010, Allahabad, India, Springer (ISBN 978-81-8489-540-7), pp. 42-53.
4) Zhenbo Li, Jun Yue, David Antonio Gómez Jáuregui, "A new virtual reality environment used for e-Learning", IEEE International Symposium on IT in Medicine & Education, 14-16 August 2009 (ITIME '09 external), Vol. 1, p. 445-449.
David Gomezpage 64
Publications
5) David Antonio Gómez Jáuregui, Patrick Horain, « Recalage sur les contours et recalage sur les régions pour l'acquisition 3D des gestes en temps réel par vision monoscopique », Actes en ligne d'ORASIS'09 - Congrès des jeunes chercheurs en vision par ordinateur, Trégastel, France, 8 au 12 juin 2009.
6) David Antonio Gómez Jáuregui, Patrick Horain, "Region-based vs. edge-based registration for 3D motion capture by real time monoscopic vision", Proceedings of MIRAGE 2009, 4-6 May, 2009, INRIA Rocquencourt, France, A. Gagalowicz and W. Philips (Eds.), LNCS 5496, Springer-Verlag, 2009, pp. 344–355.
7) David Antonio Gómez Jáuregui, Patrick Horain & Fawaz Baroud, « Acquisition 3D des gestes par vision monoscopique en temps réel », Actes de MajecSTIC 2008, Marseille, 29 au 31 octobre 2008.
David Gomezpage 65
top related