0tudes de cas en analyse des données
TRANSCRIPT
Études de cas en analyse des données
Bernard Colin (Éditeur)Départements de mathématiques et d�informatique
Faculté des SciencesUniversité de Sherbooke
Rapport de recherche No 86
1
AVANT-PROPOS
Ce rapport, présente les travaux réalisés, lors de la session de l�automne 2009, par les étudiantes etles étudiants des départements de mathématiques et d�informatique de l�Université de Sherbrooke, dansle cadre de l�activité pédagogique STT 707 �Analyse des données�, inscrite au programme de maîtrise enmathématiques et de maîtrise en imagerie. En très grande majorité, ces analyses portent sur des donnéesdirectement issues de travaux de recherches en cours et je tiens, à cette occasion, à remercier très sincèrementMessieurs Maxime Descoteaux, François Dubeau, Pierre-Marc Jodoin et Ernest Monga qui, en tant quedirecteurs de recherche des étudiantes et étudiants participant à cette activité, ont accepté de m�apporterleur support et leur collaboration.
Mes plus sincères remerciements vont également aux étudiantes et étudiants qui, avec ardeur et enthou-siasme, ont participé à cette activité pédagogique et qui n�ont ménagé ni leur temps ni leurs e¤orts dans laréalisation de ces travaux.
Sherbrooke, mars 2010,
Bernard ColinDépartement de mathématiquesFaculté des SciencesUniversité de Sherbrooke
2
Tables des matières
[1] Anthony Adam : Analyse des techniques semi-automatiques de segmentation de l�aorte humaine.
[2] Arnaud Boré et Etienne Saint-Amant : Analyse des données issues de l�imagerie médicale, signal dedi¤usion et ODF estimées.
[3] Pierre Clarot : Analyse d�une séquence vidéo basée sur l�activité.
[4] Véronique Croteau : Analyse des données de mesures anthropologiques.
[5] Jean-Christophe Houde : Analyse de l�in�uence de caractéristiques de mise en correspondance sur lavision stéréoscopique par ordinateur.
[6] Youness Mir : Classi�cation et caractérisation des rivières au Québec.
[7] Julien Prémont : Segmentation par nuées dynamiques de nuages de points en plans.
3
COLLOQUE d�ANALYSE des DONNÉES : Études de cas
Date : Le mercredi le 17 février 2010
Heure : de 9 h à 15 h 30
Local : D3-2035
Les exposés qui suivent, s�inscrivent dans le cadre du cours STT 707 : �Modèles Statistiques multidimen-sionnels et Analyse des Données�et portent, pour l�essentiel, sur des appplications en imagerie rencontréesdans le contexte de projets de recherches.
Programme de la journée
� 8 h 45 à 9 h : Ouverture du colloque.
� 9 h à 9 h 30
Conférencier : Julien Prémont (Maîtrise en informatique).
Titre : Segmentation par nuées dynamiques de nuages de points en plans
Résumé : Embryonnaire il y a quinze ans, déjà bien établie cinq ans plus tard et omniprésente de nosjours, la 3D a rapidement fait sa place dans de nombreuses sphères d�activités, des jeux vidéos et du cinéma,bien sûr, au design industriel, en passant par l�architecture ou le génie civil. Dans bien des cas, des artistessont chargés de créer à l�aide d�un ordinateur des modèles 3D, mais il est aussi fréquent d�avoir à représenteren 3D, sur un ordinateur, des objets réels. Des capteurs (visuels ou non) sont généralement utilisés pourfaire l�acquisition des données sous forme d�un nuage de points. Il su¢ t alors d�utiliser un algorithme pourreconstituer les objets (décomposés en primitives géométriques) à partir du nuage de points. À cette �n, uneméthode de détection de plans se basant sur l�algorithme des nuées dynamiques est ici explorée.
� 9 h 40 à 10 h 20
Conférencière : Véronique Croteau (Maîtrise en mathémariques).
Titre : Analyse de données des mesures anthropologiques.
Résumé : Comment peut-on déterminer, à l�aide de mesures anthropologiques (mesures prises sur lecorps humain), si l�individu que l�on étudie est un homme ou une femme? Pour ce faire, il faut étudier quellesmesures sont utiles sans être toutefois redondantes. Nous allons partir de 24 variables, pour ensuite réduirele plus possible ces variables a�n de diminuer le temps et le coût de prise de données. Cette étude ce fait en2 étapes, tout d�abord en e¤ectuant une analyse en composantes principales a�n de trouver les variables quisont pertinentes, ensuite en conduisant une analyse discriminante permettant d�associer les individus à leursexe à l�aide des variables gardées en première partie du travail.
1
� 10 h 30 à 10 h 50 : Pause.
� 10 h 50 à 11h 20
Conférencier : Jean-Christophe Houde (Maîtrise en informatique).
Titre : Analyse de l�in�uence des caractéristiques de mise en correspondance, sur la vision stéréoscopiquepar ordinateur.
Résumé : L�une des tâches les plus importantes de la vision par ordinateur est la mise en correspondancedes pixels d�une paire d�images stéréoscopiques.Les résultats de cette mise en correspondance permettent d�estimer la position 3D des points d�une scène,
et permettent donc à l�ordinateur de «voir» . La plupart des techniques de mise en correspondance utilisentdes primitives, a�n de trouver les parties les plus semblables des images. Dans notre travail, nous e¤ectuonsune analyse expérimentale de l�importance et de l�utilité de certaines des primitives les plus utilisées. Cetteanalyse est faite à l�aide de l�analyse en composantes principales. Nous présenterons brièvement le domaine,les données de notre expérience, de même que les résultats et conclusions auxquelles nous sommes parvenus.
� 11 h 30 à 12 h
Conférenciers : Arnaud Boré et Étienne Saint-Amant (Maîtrise en informatique).
Titre : Analyse de données en di¤usion issues de l�imagerie cérébrale.
Résumé : Les données de di¤usion permettent une nouvelle approche de l�imagerie cérébrale. Elle donnel�information sur la façon dont les molécules d�eau se déplacent dans le cerveau. Elle apporte donc un plusquant à l�organisation des �bres dans notre cerveau. Notre première analyse a pris comme jeu de données lesignal de di¤usion a�n de saisir le comportement global des �bres dans une région donnée.A la suite de cette analyse, nous nous sommes penchés sur la reconstruction de cette di¤usion apparente,
qui se fait grâce au Q-Ball Imaging et nous donne des objets représentant l�orientation des �bres (ODF).Ces données vivent sur la sphère. Notre première approche a été de voir s�il existait une direction priv-
ilégiée dans une partie spéci�que du cerveau appelé corps calleux et ceci, à l�aide de l�analyse en composantesprincipales. Dans un second temps nous avons cherché à savoir s�il était possible de réduire la dimensionnalitéde ces objets.Notre étude essaie donc de répondre à ces questions.Comment peut-on obtenir l�information sur l�anatomie cérébrale et plus particulièrement de la matière
blanche ?Existe-t-il une direction privilégiée des �bres de la matière blanche dans le cerveau?Est-il possible de réduire le jeu de données, tout en conservant l�information de di¤usion?
� 12h10 à 13 h 30 : Repas.
� 13 h 30 à 14 h
Conférencier : Anthony Adam Duquette (Maîtrise en informatique).
Titre : Analyse des techniques semi-automatiques de segmentation de l�aorte humaine.
Résumé : Les images par résonance magnétique et scan sont fortement utiles dans le domaine de la santé.Dans le cadre de ma recherche, des chirurgiens cardiaques les analysent a�n de faire des choix judicieux pourleurs patients. Dans cette présentation, nous parlerons plus précisément de l�aorte sortant du coeur et quidescend jusqu�aux reins. Le but étant de montrer statistiquement que certaines techniques aideront à biensegmenter l�aorte dans ces images. Pour ce faire, l�utilisation d�une MDS (positionement multidimentionnel)est de mise.
2
� 14 h 10 à 14 h 40
Conférencier : Pierre Clarot (Maîtrise en informatique).
Titre : Analyse d�une séquence vidéo à l�aide de l�activité détectée.
Résumé : Le domaine de la vidéo-surveillance est actuellement en pleine expansion. Les camérassont partout dans les villes à enregistrer nos moindres faits et gestes. Cependant la grande majorité desvidéos enregistrées ne sont pas utilisées. Elles sont justes sauvegardées sur un serveur a�n d�être visionnéesultérieurement en cas d�incident. Malheureusement, visionner une très longue vidéo n�est pas une choseagréable et facile à faire.Nous allons présenter une méthode consistant à analyser une séquence vidéo en utilisant le mouvement
détecté dans chaque image, dans le but de déterminer les redondances temporelles d�activités. Une vidéopeut alors être résumée en une suite de types ou de classes d�activités. Il est aussi possible de détecter lesimages de la vidéo qui contiennent de l�activité très di¤érente par rapport au reste de la séquence. Cesinformations peuvent être utilisées pour alerter un opérateur humain en temps réel a�n de véri�er s�il y aun problème. Il est aussi possible d�annoter la séquence a�n de permettre un visionnement ultérieur pluse¢ cace.
� 14h 50 à 15 h 20
Conférencier : Youness Mir (Doctorat en mathématiques).
Titre : Classi�cation et caractérisation des rivières au Québec.
Résumé : Le réseau hydrologique du Québec se caractérise par son étendue à l�échelle de toute laprovince et compte une centaine de rivières dont le débit varie considérablement sur toute l�année.Dans cet exposé, nous proposons de caractériser et de classi�er les rivières selon leurs débits saisonniers.
A �n de résoudre ce problème, nous exploiterons la méthode d�analyse en composantes principales.
15 h 30 : Fin du colloque.
Organisateur : Bernard Colin,Département de mathématiques (poste 62012)[email protected]
3
Analyse des données STT 707 : Rapport de recherche ∗
Anthony Adam
1er mars 2010
Université de SherbrookeSherbrooke (Qc), Canada, J1K 2R1
∗Professeur : Colin Bernard
1
Anthony Adam
Analyse des techniques semi-automatiques desegmentation de l’aorte humaine
1 IntroductionDe plus en plus, les gens souffrent de maladies cardiaques dans le monde. Parfois, c’est le coeur lui-
même qui lâche, parfois c’est ce qui y est connecté. Dans cette recherche, nous nous intéressons plusprécisément à l’aorte. Le présent rapport porte sur le problème de la segmentation d’images de l’aortehumaine. La segmentation d’images consiste à diviser une image en deux parties. Dans ce cas-ci, il ya deux parties, soient les parois interne et externe de l’aorte. L’analyse des résultats est faite à partir desegmentations manuelles dessinées par des médecins et des segmentations semi-automatiques calculéesà partir de diverses techniques de vision par ordinateur. Le but est de déterminer si des algorithmesdéveloppés avec la technique du « graph cut » [4] permettent d’obtenir des résultats aussi précis que leferait une personne qualifiée pour ce travail. Il s’agit d’un problème auquel font face des techniciennes ettechniciens, car ils doivent segmenter plusieurs patients par jour. La segmentation de l’aorte est faite avecdes images par résonance magnétique. Pour l’instant, la technique actuelle consiste en une segmentationmanuelle, grâce à un ordinateur et un logiciel simpliste, du contour de l’aorte par une personne assignéeà cette tâche. Cela est long, fatiguant, sans oublier qu’il y a toujours une probabilité d’erreurs.
2 Position du problème
(a) Segmentation manuelle interne (b) Segmentation manuelle externe
FIGURE 2.1 – Exemples de résultats de segmentations sur une même image d’un patient.
Pour chaque patient, il faut déterminer l’avancement de ses problèmes. Cela s’effectue en prenantles dimensions de son aorte au niveau du torse. Pour se faire, il faut segmenter les parois intérieures et
2
Anthony Adam
extérieures de l’aorte, comme le montre la figure 2.1. Ce qui crée un problème, c’est qu’il faut faire dessegmentations sur plusieurs images afin d’obtenir les dimensions sur toute l’aorte d’une personne. Bref,déterminer les dimensions de l’aorte d’un patient peu prendre beaucoup de temps.
3 Présentation des données
FIGURE 3.1 – Image d’une « ciné 3D »
3.1 Données brutesLes données à analyser sont les sommes des différences entre les segmentations. Pour chaque patient,
on a une série d’environ vingt images sur le plan axial (voir figure 2.1) et une dizaine pour la « ciné 3D» (voir figure 3.1). La coupe axiale représente une tranche du corps sur sa largeur. Le devant du corpsest au haut de l’image et le derrière est au bas de celle-ci. La ciné en trois dimensions représente un peula même idée, mais c’est une tranche perpendiculaire à l’aorte au lieu d’être perpendiculaire au corps. Ilfaut remarquer que ce type d’images est toujours plus flou et moins précis que la coupe sur le plan axial.C’est donc un type d’images plus difficile à segmenter. Chaque série d’images est segmentée sur lesparois interne et externe de l’aorte. Il en résulte donc quatre séquences au total à segmenter pour chaquepatient. Pour le présent rapport, il y a dix patients en tout. Afin de valider les résultats de la recherche,il y a une comparaison entre trois médecins et 32 techniques. Cela permet d’analyser les différences desegmentations entre médecins, celles entre les médecins et les techniques et celles entre les techniques.Il faut donc voir les données comme suit : pour une séquence segmentée (que ce soit les résultats d’unmédecin ou d’une technique), il faut la comparer aux 34 autres. Les calculs résultent donc en une matricedes distances 35 par 35.
3
3.2 Obtention des données Anthony Adam
3.2 Obtention des données
(a) Différence entre les deux images bi-naires
(b) Première image binaire (c) Seconde image binaire
FIGURE 3.2 – Résultat d’un calcul de différence en valeur absolue entre deux images binaires
Id(x, y) = |I1(x, y)− I2(x, y)| (3.1)
Afin de calculer la différence entre deux images de segmentation, il faut d’abord savoir comment ellessont faites. Lorsqu’une segmentation est terminée, elle est transformée, comme à la figure 3.2 b) et c). Ils’agit d’une image dite binaire. Elle ne contient que deux valeurs possibles soient des uns et des zéros.L’étiquette 1 (blanc) indique que ce pixel se trouve à l’intérieur et l’étiquette 0 (noir) attribut un pixel àl’extérieur. Une différence entre deux images est calculée avec la valeur absolue de la soustraction d’uneimage à l’autre (voir éq. 3.1). Il faut faire ce calcul sur tous les pixels (aux positions x et y) des deuximages. ∑
Id(x, y) (3.2)
Dij =
√√√√nbPatients∑1
nbImages∑1
nbP ixels∑1
Id(x, y) (3.3)
La métrique de différence entre deux images est la somme des pixels étiquetés à 1 dans l’image dite dedifférence, comme le montre l’équation 3.2. Donc, pour deux techniques i et j données, il faut calculer lasomme des différences pour toutes les séquences de tous les patients. Afin d’assurer que la norme entredeux techniques soit euclidienne, il faut calculer la racine carrée de cette dernière somme (voir éq. 3.3).Après ces calculs pour toutes les techniques, on obtient la matrice des distances 35 par 35. Il y a doncquatre matrices de distances à représenter avec l’analyse du positionnement multidimensionnel.
4
Anthony Adam
4 Modèle
4.1 Choix du modèleComme mentionné précédemment, le modèle d’analyse choisi est le positionnement multidimension-
nel [2]. Cette analyse permet justement de traiter une matrice de similarité ou de dissimilarité afin demieux l’analyser et d’en tirer des conclusions [3]. Puisqu’il n’y a pas beaucoup de médecins et de tech-niques, il est certain que les calculs ne prendrons pas beaucoup de temps.
(a) Graphique des données de base (b) Graphique des données à dimensionnalité réduite
FIGURE 4.1 – Exemple de données avant et après projection par positionnement muiltidimensionnel
4.2 Présentation du modèleLe positionnement multidimensionnel prend en entrée une matrice de distances. Ensuite, il réduit la
dimensionnalité des données de la matrice afin de mieux les représenter. Pour la présente recherche, lenuage de points est réduit à deux dimensions pour un affichage plus instinctif des données. Ce graphiquepermet de voir, avec beaucoup de facilité, les ressemblances et les distances entre chaque technique. Deplus, la projection des données est faite de façon à optimiser la visibilité et la variance entre elles, commele montre la figure 4.1. Les couleurs aident à remarquer que les données projetées en deux dimensionsse « suivent » d’une certaine façon.
4.3 Critique du modèleIl y a quand même des problèmes reliés à l’utilisation de cette analyse. Les distances dans la matrice
D doivent être dans un espace euclidien. Malgré que les calculs soient fais avec une norme euclidienne,il arrive que la matrice d’entrée doive être modifiée. Cette situation se produit lorsqu’on regarde lesvaleurs propres calculées avec la matrice de sortie Y . Si la matrice Y tY n’est pas semi-définie positive,
5
4.3 Critique du modèle Anthony Adam
les résultats se sont pas représentés dans une espace euclidien. Il est possible de ne pas tenir compte desvaleurs propres qui ont une amplitude négative quasiment nulles, cependant il faut s’en occuper dans lecas contraire.
Avant Après1 5.5842e+04 5.7937e+042 1.0782e+04 1.2878e+043 5.0909e+03 7.1865e+034 5.0489e+03 7.1445e+035 3.9023e+03 5.9979e+036 2.9314e+03 5.0270e+037 2.6282e+03 4.7238e+038 1.9729e+03 4.0685e+039 1.7166e+03 3.8122e+0310 1.3245e+03 3.4201e+0311 1.1146e+03 3.2101e+0312 1.0182e+03 3.1138e+0313 829.9838 2.9256e+03... ... ...33 54.1276 2.1497e+0334 2.8422e-13 3.4198e-1235 -2.0956e+03 -4.2724e-12
TABLE 4.1 – Valeurs propres de Y tY avant et après modifications
Dij =√
D2ij + c (4.1)
c = −2λmin (4.2)
Pour cela, il existe une technique [1] de réglage de la matrice d’entrée. Il suffit de modifier toutes sesvaleurs comme à l’équation 4.1. Évidement, à l’équation 4.2, il faut savoir que λmin représente la pluspetite valeur propre de la matrice Y tY . Le tableau 4.1 montre un exemple des valeurs propres avant etaprès ce réglage sur la matrice D. Il est possible qu’il y ait encore des valeurs propres négatives, maiselles seront toujours à faible amplitude à force de refaire le même réglage. De plus, il existe une autresource de problème au positionnement multidimensionnel. Il s’agit de la représentation des donnéesdans le nouvel espace réduit à deux dimensions. Assurément, il est possible de réduire toute matrice dedistance à la dimensionnalité voulue, mais à quel prix ? Il ne semble pas y avoir de problème lorsque ladimension de départ est petite, mais c’est quasi-impossible d’avoir une bonne qualité de représentationlorsque la dimension de départ est grande.
6
Anthony Adam
θ = arccos ∥ Y1,2 ∥ / ∥ Y ∥ (4.3)
Donc, pour savoir si la projection des données est bonne, il faut faire un calcul de qualité. Ce calculde l’angle entre les vecteurs à deux dimensions et celui avec toutes le dimensions de départ (voir éq. 4.3)permet de vérifier la qualité. Plus l’angle est petit, meilleure est la réduction de dimensionnalité pour cepoint. On peut donc faire confiance aux points bien projetés et en tirer des conclusions sans problème.
5 Analyse des résultats
5.1 Traitement informatiquePour le traitement des données, j’ai utilisé le langage informatique Matlab. Il a une fonction appelée
cmdscale qui prend une matrice de distances en paramètre et qui retourne la matrice des résultatsY . Le réglage de la matrice D est fait au besoin si Y tY a des valeurs propres négatives. La qualité dereprésentation est donnée avec la couleur du point dans le graphique du nouveau nuage de points à deuxdimensions. Un point rouge signifie qu’il est très mal projeté et vert le contraire. Les segmentationsdes médecins sont les points 1, 30 et 31 pour les quatre graphiques. Les autres points représentent destechniques semi-automatiques.
5.2 Analyse des données et interprétation des résultats
FIGURE 5.1 – Nuage de points pour les segmentations internes sur le plan axial
7
5.2 Analyse des données et interprétation des résultats Anthony Adam
Les segmentations semi-automatiques internes de l’aorte pour le plan axial des IRM donnent lesmeilleurs résultats. Comme le démontre la figure 5.1, les médecins sont quasiment aussi distants entreeux que l’est la pire technique. Même si la technique la plus près des médecins est rouge, ses segmenta-tions sont bien bonnes lorsqu’on regarde ses résultats. Cela prouve donc que les médecins 1 et 31 sontbien différents et qu’on peut affirmer que j’ai assurément une technique aussi bonne.
FIGURE 5.2 – Nuage de points pour les segmentations internes des images « ciné 3D »
Les résultats de la segmentation interne des « ciné 3D » sont moins bons. Tel que mentionné plus haut,ce type d’images est très difficile à segmenter. Les techniques tiennent toutes compte de l’image avant etaprès celle courante pour la segmenter. Cependant, ces images sont faites sur des plans différents d’uneimage à l’autre. Cela explique les moins bons résultats des techniques. Par contre, la figure 5.2 montreque les résultats sont presque tous bien projetés. Il demeure que le trio de points composé des médecins1, 30 et 31 a des résultats semblables et différents de tous les autres. Il y donc place à l’amélioration pources segmentations.
8
Anthony Adam
(a) Nuage axial externe (b) Nuage ciné 3D externe
FIGURE 5.3 – Nuage de points pour les segmentations externes des images axiales et « ciné 3D »
Les pires résultats sont ceux des segmentations externes, peut importe le type d’images. Les figures 5.3a) et b) montrent que les nuages de points sont plus ou moins bien représentés, mais aussi que lesmédecins sont toujours dans un groupe séparé des autres. La difficulté des « ciné 3D » explique encoreune fois ces mauvaises segmentations. Pour ce qui est du plan axial, il faut regarder les images et lesrésultats des médecins pour se rendre compte de la difficulté de ce type de segmentation. En effet, ilfaut segmenter à des endroits où il ne semble pas y avoir de contour. Il faut donc en déduire que lesmédecins semblent découper la paroi externe avec un « indice » de contour flou dans l’image. Il fautdonc complètement revoir les techniques pour imiter cette intuition.
6 ConclusionLe bilan de ce rapport est donc « à moitié positif ». L’analyse des données à l’aide du positionnement
multidimensionnel aide à déterminer si mes techniques de segmentations d’images sont près de la réalité.Il semble qu’il y ait du potentiel pour les segmentations internes de la paroi de l’aorte, mais beaucoup depain sur la planche pour obtenir d’aussi bons résultats pour la paroi externe. Aussi, il serait intéressantd’augmenter le nombre de médecins avec qui les résultats seraient comparés. Pour l’avenir, il faut doncrepenser les algorithmes de segmentation pour la paroi externe de l’aorte, peu importe le type d’imagesà segmenter. Finalement, afin d’obtenir des résultats vraiment concluants, il faudrait qu’il n’y ait qu’uneseule technique qui donne des résultats semblables aux médecins pour tous les type d’images.
9
BIBLIOGRAPHIE Anthony Adam
Bibliographie[1] F. CAILLIEZ : The analytical solution of the additive constant problem. Psychometrika, 48:305–308,
1983.
[2] B. COLIN : Le positionnement multidimensionnel. Cours stt707 : Analyse des données, 2009.
[3] D. DESBOIS : Introduction au positionnement multidimensionnel. MODULAD, 32, 2005.
[4] Y. Boykov et M.-P. JOLLY : Interactive graph cuts for optimal boundary and region segmentation.Proceeding of ICCV, 1, 2001.
10
Analyse des données issues de l'imagerie médi ale, signal de
di�usion et ODF estimées
Arnaud Boré et Etienne Saint-Amant
28 février 2010
Table des matières
1 Introdu tion 2
2 Présentation des données 2
3 Position du problème 3
4 Modèle 3
5 Analyse des données de di�usion 4
5.1 Analyse de la matière blan he . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
5.2 Analyse du orps alleux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
5.3 Interprétation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
6 Analyse des données ODF 6
6.1 Analyse de la matière blan he . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
6.2 Analyse du orps alleux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
6.3 Interprétation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
6.4 Re onstru tion des données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
6.4.1 Matière Blan he . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
6.4.2 Corps Calleux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
7 Con lusion 9
7.1 Perspe tives d'avenir . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
8 Bibliographie 10
1
1 Introdu tion
L'imagerie par résonan e magnétique nu léaire (IRM) est la te hnologie a tuelle par ex ellen e pour
"imager" et "voir" l'intérieur du orps humain en trois dimensions de façon non invasive. Pour réaliser es
images, on ou he le patient dans un hamp magnétique puissant de l'ordre de 1.5 à 3 T (Tesla) (équivalent à
environ 50 000 à 100 000 fois la for e du hamp magnétique terrestre qu'on ressent normalement à la surfa e).
Les spins des protons des atomes d'hydrogène se pla eront parallèlement (en vaste majorité) au hamp. À
l'aide d'autres hamps magnétiques (appelés gradients) et de la bonne fréquen e radio, on forme une sé-
quen e spé iale qui a pour but d'"é outer" le omportement de ette magnétisation du orps. On ré upère
ses informations à l'aide d'antennes et les données sont enregistrées dans le domaine fréquentiel (de Fourier).
En e�e tuant une opération mathématique (appelée transformée de Fourier inverse), on peut ainsi ré upé-
rer les données dans le domaine spatiale. Ces données forment une image tri-dimensionnelle du orps humain.
L'IRM de di�usion est une autre méthode utilisée pour l'a quisition de données. Elle permet de mesurer
la di�usion des molé ules d'eau dans le orps humain. Le omportement de la di�usion peut être isotrope ou
anisotrope. Un milieu est dit isotrope si la di�usion ne subit au une ontrainte dire tionnelle (e.g. une goutte
d'en re dans un verre d'eau). À l'opposé, un milieu est dit anisotrope si la di�usion subit une ontrainte
dire tionnelle (e.g. l'eau oulera le long d'un �l). Dans le adre de notre étude, on étudiera le omportement
de la di�usion des molé ules dans le erveau humain. Étant donné que la matière blan he du erveau (les
autoroutes intra érébrales) est très �breuse, la di�usion y est anisotrope.
2 Présentation des données
Les données d'IRM de di�usion utilisées pour notre analyse sont elles du sujet 07 fournies par notre
dire teur de re her he, Maxime Des �teaux. Ce sont des données d'imagerie de di�usion à haute résolution
angulaire (HARDI : high angular resolution di�usion imaging). Les images du sujet 07 présentent un erveau
sain. On a utilisé deux jeux de données di�érents : soit un jeu de 41 dire tions de di�usion et un autre de
200 dire tions. Les dimensions du premier jeu sont 128 par 128 par 60 par 41 (résolution en X, résolution
en Y, résolution en Z, dire tions des gradients de di�usion). Les dimensions du deuxième jeu sont 128 par
128 par 60 par 200. On a utilisé deux segmentations de la matière blan he : une de l'hémisphère gau he
et l'autre de l'hémisphère droit. On a fusionné es deux segmentations pour obtenir la segmentation totale
de la matière blan he du erveau. Ensuite, on a utilisé une transformation de Talaira h a�n de superposer
exa tement ette segmentation ave les données de l'imagerie de di�usion. On a aussi onstruit à la main, à
l'aide du logi iel Anatomist, une segmentation sur le orps alleux (matière blan he interhémisphérique).
Cette dernière sera pratique ar on a a priori la onnaissan e des propriétés anisotropiques de ette région.
2
3 Position du problème
Notre première analyse a pris omme jeu de données le signal de di�usion a�n de saisir le omportement
global des �bres dans une région donnée. À la suite de ette analyse, on s'est pen hés sur la re onstru -
tion de ette di�usion apparente, qui se fait grâ e au Q-Ball Imaging et on donne des objets représentant
l'orientation des �bres (ODF : Orientation Distribution Fun tion). Ces données vivent sur la sphère. Notre
première appro he a été de voir s'il existait une dire tion privilégiée dans une partie spé i�que du erveau
appelé orps alleux et e i, à l'aide de l'analyse en omposantes prin ipales. Dans un se ond temps, on a
her hé à savoir s'il était possible de réduire la dimensionnalité de es objets.
Notre étude essaie don de répondre à es questions.
• Comment peut-on obtenir l'information sur l'anatomie érébrale et plus parti ulièrement de la matière
blan he ?
• Existe-t-il une dire tion privilégiée des �bres de la matière blan he dans le erveau ?
• Est-il possible de réduire le jeu de données, tout en onservant l'information de di�usion ?
4 Modèle
Le modèle i i implémenté est l'analyse en omposante prin ipale qui permet de ressortir les dire tions
prin ipales d'inertie de nos points. Ce i permettra de voir si l'ensemble des gradients utilisés sont intéressants
et interviennent de façon signi� ative dans les images.
L'idée prin ipale de e projet était de mettre en lumière l'utilisation d'un ertain nombre de gradients
lors de l'a quisition des images.
L'analyse en omposantes prin ipales permet à partir d'un é hantillon d'observations dé�nis par des va-
riables de trouver les variables qui ara térisent au mieux l'é hantillon en question. Pour ela on trouve une
ombinaison linaire de es variables. Ensuite on trouve un axe prin ipal d'inertie qui permet d'expliquer un
pour entage de valeurs expliquées. Le but étant d'avoir un maximum de pour entage d'inertie expliquée ave
un minimum d'axes prin ipaux.
Notons X l'é hantillon des observations : X1 (observation 1). On prendra suivant nos jeux de données 1000
observations de manière aléatoire. L'ensemble des variables par lesquelles l'observation X1 est ara térisée
représentent les gradients que l'on a utilisés pour l'a quisition de l'image. On a aussi D la matri e des poids
qui représente la matri e identité (au un de nos gradients et prépondérant par rapport à un autre). On
obtient don la matri e des varian es- ovarian es
V= tXDX
Ensuite, il faut onnaître les ve teurs propres de la matri e V qui représenteront les ombinaisons linéaires
des ve teurs propres initiaux. Notre intérêt i i ne repose pas sur la qualité de proje tion des variables mais
il faut les pour entages d'inertie expliquée par les ve teurs propres et ainsi on pourra savoir s'il existe une
dire tion privilégiée des �bres dans la matière blan he ou plus pré isément dans le orps alleux.
L'ensemble des al uls et des graphes ont été e�é tués à l'aide du logi iel Matlab.
3
5 Analyse des données de di�usion
5.1 Analyse de la matière blan he
Notre analyse donne les résultats suivants :
Fig. 1 � Pour entage d'inertie expliquée par les ve teurs prin ipaux
On voit que l'analyse en omposantes prin ipales donne près de 50 % de l'inertie expliquée par le premier
ve teur propre e qui est vraiment intéressant et pousse à roire qu'il existe une dire tion privilégiée dans
le erveau. A�n de on�rmer notre idée, on va e�e tuer la même analyse mais i i on va prendre un jeu de
données plus restreint en l'endroit du orps alleux.
5.2 Analyse du orps alleux
Notre analyse donne les résultats suivants :
Fig. 2 � Inertie expliquée par les ve teurs prin ipaux
L'analyse sur le orps alleux ne donne pas de très bons résultats mais on sent une tendan e relative
pro he de elle des voxels de la matière blan he.
4
5.3 Interprétation
On pourrait être satisfait de es résultats, ependant on remarque qu'il y a un problème. En e�et, om-
ment expliquer que l'inertie soit plus importante dans la matière blan he, où les dire tions de propagations
dans le erveau se font dans tous les sens, que dans le orps alleux là où on a lairement une dire tion
privilégiée des �bres.
Pour ela, il faut que l'on revienne à la signi� ation de nos données initiales. L'imagerie de di�usion donne
des images en degradé de gris. Dans es images, plus la di�usion est grande plus l'image est noire dès lors la
valeur de nos pixels est très petite. Or, l'analyse en omposante prin ipale travaille sur les observations qui
ont de grandes valeurs sur des variables parti ulières alors que e qu'on veut 'est totalement l'inverse. On
doit don her her un nouvel objet mathématique qui permet d'avoir des valeurs élevées lorsque la di�usion
est grande. Cet objet existe déjà, il s'appelle l'ODF (Orientation Distribution Fun tion).
L'ODF est issue de la transformée de Funk-Radon qui donne l'intégrale sur le ontour du signal. L'ODF
est un objet qui vit sur la sphère grâ e à 15 oe� ients uniformément répartis qui déforment la sphère
suivant l'intensité des oe� ients. Comme notre analyse porte sur la dire tion des �bres dans notre erveau,
on doit projeter nos ODF suivant les gradients utilisés lors de l'a quisition de nos images et ensuite faire
notre analyse sur e nouveau jeu de données.
Signal de di�usion pour une seule dire tion ODF résultante
Fig. 3 � La transformée de Funk-Radon permet de passer du signal à l'ODF
5
6 Analyse des données ODF
6.1 Analyse de la matière blan he
I i, on analyse un jeu de données 1000 voxels hoisis aléatoirement dans la matière blan he.
Fig. 4 � Pour entage d'inertie expliquée par les ve teurs prin ipaux
On notera que e graphe est plus pro he de e à quoi on pouvait attendre au début de l'analyse ependant
les résultats sont assez impressionnants du fait qu'ave seulement 15 dire tions on est apable d'expliquer
100 % des données.
6.2 Analyse du orps alleux
On hoisit 1000 voxels aléatoirement dans le orps alleux.
Fig. 5 � Pour entage d'inertie expliquée par les ve teurs prin ipaux
6.3 Interprétation
Sur les graphiques pré édents, on est rassuré sur le pour entage d'inertie de la première ombinaison
linéaire puisque le pour entage d'inertie expliquée est plus important pour les données du orps alleux que
pour la matière blan he en générale. Comme on peut le voir, on est apable de ré upérer 90 % de l'information
en utilisant seulement 5 ombinaisons linéaires de nos gradients initiaux, e qui revient à donner 5 nouveaux
gradients. On remarque aussi qu'il existe une sorte de palier pour les 5 premiers ve teurs propres. A l'aide
de 15 ombinaisons, on est apable de re onstruire 100 % de la l'information.
6
6.4 Re onstru tion des données
L'idée i i, est de re onstruire ertaines ODF a�n de voir si ave un nombre restreint de gradients on est
apable de ré upérer les ara téristiques globales de nos �bres. Pour un raisonnement plus omplet, on a
e�e tué ette re onstru tion sur des jeux de données di�érents apparentés à la matière blan he ou au orps
alleux.
6.4.1 Matière Blan he
ODF d'origine 5 Gradients 10 Gradients 15 Gradients
Fig. 6 � ODF re onstruites suivant des nombres de gradients di�érents
Comme on peut le voir i i, la re onstru tion des ODF de la matière blan he n'est pas bonne si l'on utilise
uniquement 5 gradients. En e�et, même si le pour entage d'inertie expliquée par les 5 premiers gradients est
de plus de 90 %, on est in apable de retrouver le roisement de �bres initial.
ODF d'origine 5 Gradients 10 Gradients 15 Gradients
Fig. 7 � ODF re onstruites suivant des nombres de gradients di�érents
I i, le problème semble ne pas se poser puisque l'on a une seule dire tion de �bre et ette dire tion est
visible dès la re onstru tion à partir de 5 gradients.
7
6.4.2 Corps Calleux
ODF d'origine 5 Gradients 10 Gradients 15 Gradients
Fig. 8 � ODF re onstruites suivant des nombres de gradients di�érents
ODF d'origine 5 Gradients 10 Gradients 15 Gradients
Fig. 9 � ODF re onstruites suivant des nombres de gradients di�érents
Dans le orps alleux, la re onstru tion semble n'avoir besoin que de 5 gradients, e i étant dû à la nature
même du orps alleux, les �bres y sont orientées dans la dire tion transverse au erveau et où les roisements
se font rares.
8
7 Con lusion
Nos analyses auront permis de voir que les données en di�usions brutes ne sont pas exploitables par
l'analyse en omposantes prin ipales, ar en e�et, les valeurs intéressantes sont les valeurs les plus faibles.
La ompressibilité des ODF n'est pas vraiment exploitable puisque l'information des roisements se
trouvent dans les hautes fréquen es, dès lors, il faut absolument les 15 gradients a�n de re onstruire à
100 % nos données d'origine. Ave 90 % de l'information On se trouve in apable de déterminer les roi-
sements de �bres. Cependant, on a dé ouvert qu'il existe une base de même dimensionnalité que les ODF
mais dé�nie par une ombinaisons linéaires des gradients initiaux. Ces gradients sont relatifs au sujet, aux
paramètres d'a quisition e qui en fait une analyse ara téristique du sujet et non généralisable.
Fig. 10 � Etapes de travail
7.1 Perspe tives d'avenir
Il faudrait tout d'abord véri�er en linique ave les nouveaux gradients trouvés lors de nos analyses si
l'on peut réellement retrouver toute l'information de nos �bres. Une autre perspe tive de travail serait de
refaire l'analyse sur d'autres sujets a�n de on�rmer nos interprétations.
9
8 Bibliographie
• M.Des �teaux, High Angular Resolution Di�usion MRI : From Lo al Estimation to Segmentation and
Tra tography. PhD Thesis, Universite de Ni e - Sophia Antipolis, Febuary 2008.
• B.Colin, Cours d'analyse de données STT 707, Université de Sherbrooke - Département de mathéma-
tiques, Automne 2009.
10
Analyse d’une séquence vidéo basée sur l’activité
Pierre Clarot
3 mars 2010
1 Introduction.Le domaine de la vidéo-surveillance est actuellement en pleine expansion. Les caméras sont partout
dans les villes à enregistrer nos moindres faits et gestes. Mais quelle est la véritable utilisation de ces vi-déos ? Certaines d’entre elles sont parfois visionnées en temps réel par un opérateur humain. Cependantun opérateur humain n’est pas infaillible, il se fatigue, s’ennuie rapidement et peut facilement omettreune information importante dans une vidéo. De plus, avec la multiplication des caméras avoir du per-sonnel pour visionner toutes caméras coute très chères. Finalement une grande majorité des vidéos nesont pas utilisées. Elles sont juste sauvegardées sur un serveur afin d’être visionnée ultérieurement encas d’incident. Par exemple, lors d’un cambriolage il peut être intéressant de visionner les vidéos ducambriolage afin de reconnaître les malfaiteurs. Mais il est aussi intéressant de visionner les vidéos descaméras dans les rues adjacentes pour voir si les voleurs ont fait du repérage dans les jours précédents leméfait. On peut aussi vouloir retrouver le parcours du véhicule utilisé par les malfaiteurs en cherchant lavoiture dans le réseau de caméras de surveillance de la ville.
Malheureusement visionner et rechercher des informations dans une très longue vidéo n’est pas unechose agréable et facile à faire. Généralement la recherche consiste à avoir un opérateur qui visionnela vidéo en vitesse rapide. On retrouve alors les mêmes problèmes que pour la surveillance en tempsréel. L’opérateur coute chère et n’est pas parfait. Puisque le visionnement n’est pas efficace même en casd’incident les vidéos ne sont pas toujours utilisées.
Finalement, la majorité des informations contenues dans les séquences vidéos ne sont pas exploitées.Nous allons présenter dans cet article une ébauche de réponse à ce problème en analysant l’activité desvidéos.
2 Position du problème.Nous allons présenter une méthode consistant à analyser une séquence vidéo en utilisant le mouvement
détecté dans chaque image, afin de déterminer les redondances temporelles d’activité. Une vidéo est alorsrésumée a une suite de types ou classes d’activités. À partir de cet ensemble de classes d’activité il estpossible de détecter les images de la vidéo qui contiennent des choses inhabituelles. En effet, si l’activitédans une ou plusieurs images ne correspond pas à une des classes détectées précédemment alors ces
1
DI, Université de Sherbrooke Présentation interne
images ne font pas partie de l’activité normale qui a été perçue par la caméra. Il y a de fortes chancesque la caméra perçoit une activité problématique. On peut alors afficher les images enregistrées par lacaméra a un opérateur humain afin qu’il dise si il y a effectivement un problème. On diminue alors lenombre d’opérateurs nécessaires pour surveiller un réseau de caméras puisque seulement les camérasqui sont susceptibles de contenir une information intéressante seront affichées aux yeux des opérateurs.De la même façon la création de ce résumé permet d’optimiser un visionnement ultérieur de la vidéo.
3 Présentation des données.
3.1 Présentation des séquences vidéos.Les données initiales sont composées de plusieurs séquences vidéos comprenant de l’activité dite nor-
male et des évènements inhabituels. Les séquences peuvent être classées dans deux groupes différents.Le premier groupe contient des vidéos que l’on peut qualifier de simple. Elles sont constituées d’uneactivité faible ou moyenne presque constante, et puis a des moments bien particuliers il y a beaucoupd’activité dans le champ de la caméra. Par exemple une des vidéos a été générée en filmant un pland’eau. Le mouvement de l’eau crée de l’activité et puis d’un seul coup on a un bateau qui passe. Uneautre des séquences consiste à filmer une fontaine et des piétons qui passent devant la fontaine. Ce pre-mier groupe de vidéos est considéré comme simple car il serait facile de détecter l’activité inhabituellejuste en regardant l’activité moyenne à un moment donnée. La méthode développée doit impérativementmarcher avec ces séquence, c’est le minimum requis. Le deuxième groupe comprend deux vidéos où ilest plus difficile de différencier l’activité problématique. La première est une vidéo d’un croisement àBoston. Il y a donc une succession d’activité, puis de non-activité. Pour cette vidéo on cherche à détecterles virages en U qui sont illégaux sur ce croisement. La deuxième vidéo a été filmé sur un trottoir del’université de Sherbrooke. Il y a des piétons qui marchent le long du trottoir dans les deux sens, puis ona un piéton qui dépose un sac, et quelques temps plus tard quelqu’un d’autre le ramasse. Avec cette vidéoon cherche à détecter le fait qu’un sac a été abandonné. Ces vidéos sont moins simples car l’activité ditenormale ne se résume pas à un type d’activité mais plusieurs. De plus, on cherche a détecter des activitésinhabituelle complexe. Le but de ce projet est de trouver une méthode qui fonctionne avec ces vidéos.
3.2 Extraction des données à partir des séquences vidéos.L’extraction de l’information et la création de nos observations se fait a l’aide de plusieurs étapes. Il
faut tout d’abord estimer quels sont les pixels qui ont vu du mouvement pour chaque image de chaquecaméra (Figure 3.1). Pour cela il faut estimer la couleur des pixels du fond de la scène pour chaquecaméra. Cette estimation se fait très bien avec un filtre médian sur la séquence lorsque il y a moins de50% d’activité. Il suffit ensuite de faire la soustraction entre cette image du fond et une image de laséquence. Si la différence est grande alors il y a de fortes chances qu’il y ait un objet en mouvemententre la caméra et le fond de la scène. Par contre, si la différence est faible alors il y a de fortes chancesque ce pixel est en train de voir le fond de la scène. Afin d’être robuste aux changements d’illuminationl’image du fond est régulièrement mit a jour lorsque l’on parcours la séquence.
2
DI, Université de Sherbrooke Présentation interne
FIGURE 3.1 – Détection de mouvement avec algorithme de soustraction de fond
FIGURE 3.2 – Volume 3D binaire
Comme le montre la figure 3.2 dès que la détection de mouvement est effectuée on obtient un volume3D binaire pour chaque séquence. Il faut maintenant sélectionner un ensemble de sous volumes de taillefixe dans ce grand volume afin d’avoir notre ensemble d’observation (Figure 3.3). Dans notre cas on afixé la position du volume spatialement, puis on l’a décalé au fur à mesure sur l’axe temporelle. On adonc pour chacun de ces décalages une observation qui contient l’activité que la caméra a perçut dansune région donnée entre deux instants.
FIGURE 3.3 – Sélection de sous-volumes
Afin de réduire la taille des données et la durée des calculs une dernière étape est utilisée. Pour uncertain voisinage 3D dans la volume on garde la moyenne de l’activité. La figure 3.4 illustre cette étape
3
DI, Université de Sherbrooke Présentation interne
avec un exemple en deux dimensions.
FIGURE 3.4 – Exemple de réduction de la taille des données avec une moyenne sur un voisinage
4 Modèle.
4.1 Présentation du modèle4.1.1 Description de la méthode
On a donc une série de volumes 3D qui résument l’activité dans différentes parties de la séquencevidéo. Le but du projet est de trouver une fonction de coût qui permettra de discriminer les volumes quicontiennent de l’activité différentes, et de regrouper les volumes similaires.
Pour cela la méthode comprend les étapes suivantes :
– Extraction des caractéristiques des différents volumes.– Calcul d’une distance euclidienne entre les volumes à partir des caractéristiques.– Construction d’une matrice de distance.– Utilisation du positionnement multidimensionnel pour visualiser les résultats.– Calcul de la qualité de la représentation.– Utilisation du spectral clustering pour segmenter le nuage de points.
4.1.2 Explication du positionnement multidimensionnel
Le positionnement multidimensionnel permet de projeter dans un espace euclidien des points à partirdes distances entre eux. Par exemple, à partir des distances entre des villes il permet de retrouver à unerotation près la carte d’une région. Dans notre cas on va l’utiliser afin de retrouver la projection de nosvolumes 3D après avoir mesuré une distance entre nos volumes à l’aide d’une certaine fonction de coût.Il nous permettra aussi de réduire le nombre de dimensions de notre nuage de points afin de pouvoirvisualiser les résultats et vérifier si les volumes ont été convenablement discriminés et regroupés.
Pour calculer le positionnement multidimensionnel on utilise la fonction MATLAB suivante :
4
DI, Université de Sherbrooke Présentation interne
[Y, e] = cmdscale(D);
Avec :
D matrice carré symétrique euclidienne des distances de taille N par N .Y coordonnées des points. Matrice de taille N par P .e valeur propres de Y ∗ Y ′.
Lorsque D est euclidienne les premiers P éléments de e sont positifs, le reste est nulle. Si les premiersk éléments de e sont beaucoup plus grands que les (N − k) restant, alors le nuage de points peut êtreraisonnablement réduit a k dimensions.
Si D n’est pas euclidienne certains des éléments de e vont être négatifs. La fonction cmdscale vachoisir p comme étant le nombre de valeurs propres positives. La réduction à p ou moins de dimensionsest alors un raisonnable approximation de D seulement si l’amplitude des valeurs propres négatives estfaible par rapport aux positives.
Si vous désirez plus de détails sur le fonctionnement du positionnement multidimensionnel veuillezregarder les références [5] et [6].
4.1.3 Calcul de la qualité de la représentation
Comme dit ci-dessus nous allons utiliser le positionnement multidimensionnel afin de visualiser nosrésultat dans une dimension plus faible que leur dimensions d’origine et vérifier si notre fonction de coûtest approprié. Une fonction de coût est bonne si les volumes contenant de l’activité normale sont regrou-pés sur notre plan, et que les volumes avec les évènements problématiques sont loin de tout les autres. Onva donc regarder les distances entre les points sur notre plan de projection et faire des conclusions a partirde ce que l’on voit. Ces conclusions sont valides seulement si les distances entre les points sur le plansont les mêmes que celles dans la matrice de distance. C’est-à-dire qu’il faut vérifier pour chaque point sila réduction à deux dimensions est valide. Pour cela on calcule l’angle entre nos points dans l’espace à Ndimensions et leur projection sur le plan. Si l’angle est petit alors la réduction à deux dimensions pour cepoint est valide et on peut faire des conclusions en regardant la distance entre ce point et d’autres pointsavec une bonne représentation. Par contre si l’angle est grand alors on ne peut faire aucune conclusion.La figure 4.1 montre un exemple de résultat de calcul de la qualité de le représentation. Les points enrouge sont mal représentés et les points en vert sont bien représentés.
4.1.4 Segmentation du nuage de points à l’aide du spectral clustering
Comme on peut le voir sur la figure 4.1 de nombreux points sont mal représentés. Normalement pourpouvoir faire l’analyse de nos résultats il faudrait pour chacun de ces points aller regarder les valeurs dansla matrice des distances lorsque l’on veut faire une conclusion sur leur distance par rapport aux autrespoints. On a généralement environ la moitié des points qui sont mal représentés. Pour l’exemple de lafigure 4.1 cela correspond à 350 points mal représentés sur 700. Aller vérifier les valeurs dans la matricede distance pour ses points afin de faire l’analyse est une tâche longue et laborieuse. C’est pour celaque l’on a ajouté une dernière étape dans notre méthode. Cette étape consiste a utiliser un algorithme de
5
DI, Université de Sherbrooke Présentation interne
FIGURE 4.1 – Qualité de la représentation : rouge = mauvaise, vert = bonne
segmentation sur notre nuage de points dans N dimensions, puis ajouter l’information renvoyé par cettealgorithme sur notre affichage. Les points qui sont proches seront dans des classes communes quelquesoit la qualité de leur représentation. La figure 4.2 est un exemple de résultats obtenus en segmentant lemême nuage de points que de la figure 4.1 en trois classes. Les points sont colorés en fonction de leurappartenance à une classe. Les deux figures peuvent sembler être totalement différente, mais ce n’est pasle cas, il y a juste une rotation entre les deux.
Si vous désirez plus de détails sur le fonctionnement du spectral clustering veuillez regarder les réfé-rences [2] et [1]. L’implémentation utilisée du spectral clustering est celui qui a été développé par [8]pour leur article. Leur implémentation MATLAB de leur technique est disponible sur internet.
4.2 Limite du modèleComme vu ci-dessus si la matrice des distances n’est pas euclidienne e va contenir des valeurs propres
négatives. La réduction du nombre de dimensions est alors valide si l’amplitude des valeurs propres né-gatives est faible par rapport aux positives. Malheureusement ce n’est pas toujours le cas, si la distanceentre nos volumes n’est pas euclidienne, il y aura des valeurs propres négatives avec une forte amplitude.Pour régler ce problème on peut comme le préconise [4] modifier la matrice de distance afin d’obtenirune matrice euclidienne. Dans notre cas l’utilisation de cette méthode n’aura pas été efficace. Elle a
6
DI, Université de Sherbrooke Présentation interne
FIGURE 4.2 – Segmentation 3 classes à l’aide du spectral clustering
tout simplement généré d’autres problèmes que nous ne détaillerons pas dans ce document. Il aura falluretourner à la base de notre problème, c’est-à-dire le fait que notre fonction de coût n’était pas eucli-dienne. Il a fallu légèrement modifier la fonction de coût pour qu’elle soit euclidienne. Mais c’est unedes grosses contraintes de la méthode, il faut être sûre d’avoir bien une matrice euclidienne sinon lesrésultats ne correspondent pas à la réalité des données. L’autre limite de la méthode est la nombre dedimensions. N points définissent un espace à N − 1 dimensions. Pour chaque séquence on a toujoursplusieurs centaine de points. On a donc à chaque fois des espaces avec énormément de dimensions. Parconséquent on a toujours beaucoup de points qui sont mal représentés dans un plan. C’est pour cela quel’on a été obligé de rajouter une étape de segmentation à notre méthode pour pouvoir faire l’analyse.Puisque l’on ne peut pas faire confiance à la projection sur un plan on est obligé de faire confiance à unalgorithme de segmentation. Mais l’utilisation d’un autre algorithme pourrait changer les résultats finauxet l’analyse que l’on fait. La multiplication des dimensions et le fait que l’on ne puisse pas visualiser nosrésultats facilement avec notre méthode nous crée une dépendance à un autre outil.
7
DI, Université de Sherbrooke Présentation interne
5 Analyse des résultats.
5.1 Fonctions de coût implémentées– Distance euclidienne directement entre les volumes :
La première fonction de coût est juste une distance euclidienne entre les volumes 3D. Cette fonctionest invariante a rien du tout et ne fonctionne pas du tout. Elle a été rapidement éliminé.
– Fonction basée sur les transformées de Fourier rapides (FFT) :Comme l’article [3] nous avons voulu utiliser les transformées de Fourier rapides pour extraire descaractéristiques de nos volumes. Pour cela on vectorise le volume, puis on applique une transforméde Fourier rapide sur le vecteur. On a donc pour chaque volume un vecteur de coefficient de laFFT. La fonction de coût est ensuite une distance euclidienne entre les vecteurs de coefficient desdifférents volumes.
– Moment invariant à deux dimensions :En nous inspirant de l’article [9] de reconnaissance de mouvement nous avons implémenté uneméthode basée sur des moments invariants à deux dimensions. Pour cela, pour chaque volume ongénère deux images qui indiquent quels sont les pixels qui ont vu du mouvement et comment parrapport à l’axe temporelle les pixels ont vu du mouvement. Puis on calcule une série de momentsinvariants à deux dimensions sur les deux images. Les moments invariants sont placés dans unvecteur. Il suffit ensuite de calculer une distance euclidienne entre les vecteurs pour avoir notredistance entre les volumes.
– Moment invariant à trois dimensions :Nous avons aussi essayé des moments invariants à trois dimensions comme le propose une partiede cette article [7]. Il suffit de calculer directement les moments invariants sur le volume 3D, puisplacer les résultats dans un vecteur. Comme pour les fonctions précédentes on calcule ensuite unedistance euclidienne entre les vecteurs des volumes pour construire la matrice des distances.
5.2 Exemple d’analyse de résultatDans cette section nous allons présenter comment nous analysont les résultats de la méthode. Nous
allons faire l’analyse de la séquence du cours d’eau avec un bateau. La fonction de coût utilisée sera cellebasée sur les transformées de Fourier rapides. Tout d’abord pour une séquence donnée on numérote lesvolumes 3D en ordre croissant au niveau temporelle. Puis on note quels sont les numéros des volumesqui contiennent l’activité inhabituelle. Pour la séquence du bateau ce sont les volumes de 240 à 250environ.
Nous calculons ensuite la matrice des distances à partir de la fonction de coût et de l’ensemble devolumes. Comme indiqué précédemment on utilise ensuite le positionnement multidimensionnel, et oncalcule la qualité de le représentation pour obtenir la figure 4.1. Puisque de nombreux points sont malreprésentés on ne peut pas conclure avec seulement cette figure. Mais elle nous indique cependant une
8
DI, Université de Sherbrooke Présentation interne
idée générale de l’efficacité de la fonction de coût. Il est intéressant de voir que les volumes que l’onvoulait détecter sont loin de tout les autres points. C’est plutôt rassurant. On remarque aussi un autregroupe de points qui sont légèrement éloignés du gros groupe de points. Ces points correspondent auxvolumes de 620 à 640 environ. Si on regarde les images de la séquence qui correspondent à ces volumeson se rend compte qu’il y a eu un changement de luminosité dans la scène. C’est surement dû à unnuage qui passe devant le soleil. Il est logique de les détecter différents du reste de la séquence car ilscontiennent de l’activité inhabituelles. Par contre puisqu’il se passe rien de vraiment étrange dans lechamp de la caméra ces volumes sont considérés comme étant des faux positifs.
Pour pouvoir vérifier si les points mal représentés au niveau du gros conglomérat de points sont toutde mêmes proches les uns des autres on utilise le spectral clustering avec un différent nombre de classes.On affiche ensuite le résultat (voir figures 5.1, 4.2, et 5.2 ). Il suffit ensuite de voir si il y un nombrede classes telle que l’on différencie les points contenant l’activité normale de ceux contenant l’activitéinhabituelle. La figure 4.2 est particulièrement intéressante. En effet l’activité dite normale est regroupéedans deux classes (mauve et vert). Par contre tout les volumes contenant de l’activité inhabituelle commele changement de luminosité et le bateau sont dans une classe à part (bleu clair). Ce résultat est vraimenttrès bon, on peut donc conclure que la fonction de coût fonctionne bien avec cette séquence. Par contrenotre système d’affichage ne nous permet pas de savoir facilement si le résultat est cohérent au niveautemporelle. Pour cet exemple on voit parfaitement qu’on a réussie à détecter ce que l’on voulait, mais ilpeut être intéressant d’utiliser une autre forme d’affichage pour conforter nos conclusions. La figure 5.3nous permet de visualiser les transitions entre les différentes classes par rapport à un axe temporelle. Celafonctionne parce que l’on a numéroté nos volumes en ordre croissant. Si notre fonction de coût marchebien alors il ne devrait pas avoir énormément de transition. Et effectivement lorsqu’on regarde la figureil y a quelques transitions entre les classes 1 et 3 que l’on peut ignorer, car elles correspondent toutes lesdeux a l’activité normale. Et puis on a deux petits paliers pour la classe 2 correspondant aux volumesque l’on cherchait à détecter. Cette figure nous conforte sur le fait que la fonction de coût marche bien.
9
DI, Université de Sherbrooke Présentation interne
FIGURE 5.1 – Segmentation 2 classes à l’aide du spectral clustering
FIGURE 5.2 – Segmentation 4 classes à l’aide du spectral clustering
10
DI, Université de Sherbrooke Présentation interne
FIGURE 5.3 – Transition des classes par rapport à l’axe temporelle
5.3 Analyse des résultats des différentes fonction de coût– Distance euclidienne directement entre les volumes :
Cette méthode ne marche pas du tout.
– Fonction basée sur les transformées de Fourier rapides :Donne de bon résultats avec les séquences simples mais ne fonctionne pas du tout avec les deuxséquences complexes.
– Moment invariant à deux dimensions :Ne donne pas de bon résultats.
– Moment invariant à trois dimensions :Ne fonctionne pas.
6 ConclusionFinalement, seulement la méthode basée sur les transformées de Fourier rapide donne des résultats
acceptables. Malheureusement, cette méthode ne fonctionne pas avec les séquences complexes. Commecela a été indiqué dans les présentation des données il est possible d’avoir de bon résultats avec les
11
DI, Université de Sherbrooke Présentation interne
séquences simples juste en regardant la quantité d’activité. L’utilisation des transformées de Fourier adonc ajouté de la complexité sans avoir de meilleurs résultats.
Les fonctions implémentées sont pourtant utilisées dans le domaine de le reconnaissance de mouve-ment. Mais à la différence du domaine de la reconnaissance de mouvement nous ne travaillons pas dansune environnement totalement contrôlée. Dans leur domaine ils ont peu de bruit dans les images, peud’objets en mouvement et pas de changement de luminosité durant la vidéo. De plus, lorsque plusieursobjets sont en mouvement ils arrivent à les différencier pour les traiter de façon indépendante. Nous, nousavons du bruit, et un nombre arbitraire d’objets en mouvement et souvent des changement de luminosité.Une autre grosse différence est la normalisation temporelle. La plupart des techniques de reconnaissancede mouvement détectent le début et la fin d’un mouvement, puis ils génèrent un volume normalisé detaille fixe. Un volume contiendra donc à chaque fois un mouvement complet. À la différence de nous quiéchantillonnons notre séquence régulièrement. C’est a dire que deux mouvements identiques mais à deuxvitesses différentes auront des signatures différentes avec notre technique. En conclusion les techniquesdéveloppées dans le domaine de la reconnaissance de mouvement manque de robustesse pour pouvoirbien fonctionner dans le domaine de la vidéo surveillance.
Références[1] F.R. BACH et M.I. JORDAN : Learning spectral clustering. Computer, 2003.
[2] P. BIELA et D. HAMAD : Introduction to spectral clustering.
[3] A.F. BOBICK et J.W. DAVIS : The recognition of human movement using temporal templates. IEEETrans. on Pattern Anal. and Machine Intell, 2001.
[4] F. CAILLIEZ : The analytical solution of the additive constant problem. Psychometrika, 48(2):305–308, 1983.
[5] F. CAILLIEZ et J.P. PAGES : Introduction à l’analyse des données. Smash, 1976.
[6] D. DESBOIS : Une introduction au positionnement multidimensionnel. Revue MODULAD, 32:28,2005.
[7] L. GORELICK, M. BLANK, E. SHECHTMAN, M. IRANI et R. BASRI : Actions as space-time shapes.IEEE Transactions on Pattern Analysis and Machine Intelligence, 29(12):2247, 2007.
[8] Y. SONG, W.Y. CHEN, H. BAI, C.J. LIN et E.Y. CHANG : Parallel spectral clustering. In Proc. ofECML/PKDD. Springer, 2008.
[9] D. WEINLAND, R. RONFARD et E. BOYER : Free viewpoint action recognition using motion historyvolumes. Computer Vision and Image Understanding, 104(2-3):249–257, 2006.
12
Analyse des données de mesures anthropologiques par Véronique Croteau
1. Introduction
Comment peut-on déterminer le sexe d’un individu, à l’aide de ses mesures anthropologiques (mesures prises sur le corps humain)? L’étude suivante portera uniquement sur des hommes et des femmes actifs âgés dans la vingtaine et la trentaine. Pour ce faire, il faut sélectionner les mesures qui sont utiles sans toutefois être redondantes. À partir de 24 variables différentes, nous diminuerons au maximum le nombre de variables afin de réduire le temps et les coûts reliés à la prise de données. Cette étude se fait en deux étapes, la première consistant en l’application de l’analyse en composantes principales pour déterminer les variables qui sont pertinentes. Puis, une analyse discriminante permet d’associer les individus à leur sexe à l’aide des variables sélectionnées préalablement.
2. Présentation des données
Les données utilisées pour la présente étude ont été recueillies par les auteurs de l’article « Exploring relationships in body dimensions » (2003) apparu dans la revue « Journal of statistics Education ». L’étude a été faite sur 507 individus (247 hommes et 260 femmes) de 20 à 40 ans et en bonne condition physique. Les variables étudiées sont : le diamètre de l’os au niveau des épaules (biacromial), le diamètre de la crète iliaque (au niveau du bassin) (biiliac), le diamètre de l’os au niveau de la hanche (bitrochanteric) (ces variables sont représentées sur l’image 1 de l’annexe 1), l’épaisseur de la poitrine, le diamètre du squelette au niveau de la poitrine, du coude, du poignet, du genou et de la cheville, la circonférence de l’épaule, de la poitrine, de la taille, du corps au niveau du nombril, de la hanche, de la cuisse, du biceps, de l’avant-bras, du genou, du mollet, de la cheville et du poignet, l’âge, le poids, la taille et le sexe (voir annexe 2 pour l’abréviation des variables). Il est à noter que toutes les mesures de diamètre, de circonférence et la taille sont exprimées en centimètres, le poids en kilogrammes, l’âge en années et le sexe est représenté par 1 ou 0 selon qu’il s’agit d’un homme ou d’une femme. Les données sont inscrites de façon à ce que chaque colonne représente une variable classée dans le même ordre où elles ont été énumérées précédemment et chaque ligne représente un individu. Vous trouverez ci-dessous les données portant sur les trois premiers individus. Cependant, dans le cas suivant, nous ne pouvons mettre toutes les données d’un individu sur une seule ligne.
42.9 26.0 31.5 17.7 28.0 13.1 10.4 18.8 14.1 106.2 89.5 71.5 74.5 93.5 51.5 32.5 26.0 34.5 36.5 23.5 16.5 21.0 65.6 174.0 1
43.7 28.5 33.5 16.9 30.8 14.0 11.8 20.6 15.1 110.5 97.0 79.0 86.5 94.8 51.5 34.4 28.0 36.5 37.5 24.5 17.0 23.0 71.8 175.3 1
40.1 28.2 33.3 20.9 31.7 13.9 10.9 19.7 14.1 115.1 97.5 83.2 82.9 95.0 57.3 33.4 28.8 37.0 37.3 21.9 16.9 28.0 80.7 193.5 1
Par exemple, d’après ces données, on remarque que le deuxième individu est un homme mesurant 174,0 centimètres et la circonférence de ces cuisses est de 51,5 centimètres.
Pour les données recueillies sur le squelette, on utilise un grand et un petit vernier (voir l’image 2 de l’annexe 1). Quant aux données portant sur la circonférence, on utilise un ruban en s’assurant de ne pas faire de compression sur les membres étudiés.
3. Modèle 3.1. Choix du modèle
Afin de réduire le nombre de variables, tout en demeurant le plus précis possible dans notre étude, nous devons d’abord déterminer les variables ayant une corrélation positive entre elles. C’est principalement pour cette raison que nous utiliserons l’analyse en composantes principales (ACP). Dans le but d’obtenir une interprétation rigoureuse des résultats, il s’avère nécessaire d’appliquer l’ACP sur tous les individus, peu importe le sexe, puis sur les hommes seulement et finalement sur les femmes. Une fois les trois analyses effectuées, l’étude de la cohérence entre les groupes de variables permet de déterminer les variables que nous garderons. Dans la deuxième partie, nous associerons des données inconnues à l’un des deux groupes de l’étude, soit celui des hommes ou celui des femmes. C’est exactement le but de l’analyse discriminante à but prédictif, c’est donc ce que nous allons utiliser après avoir fait l’analyse en composantes principales.
3.2. Analyse en composantes principales
Le but de l’analyse en composantes principales est de simplifier l’information que l’on possède, afin d’interpréter plus aisément les données. Cette technique permet d’extraire l’essentiel d’un tableau de données. Dans le cas présent, l’ACP permet de sélectionner les mesures pertinentes prises sur les 507 individus. Cela dit, elle réduit la dimension du tableau, soit en diminuant le nombre de variables, tout en conservant la meilleure représentation possible.
Notons par X la matrice qui contient les n observations (soit 507 pour la totalité des individus, 247 pour les hommes et 260 pour les femmes) sur lesquelles on a mesuré p variables. Comme l’analyse en composantes principales s’applique seulement sur des variables quantitatives, nous devons supprimer la variable sexe. D’autant plus qu’il s’agit de la variable dont nous tenterons de déterminer la modalité avec la seconde partie. La variable âge peut également être enlevée, puisque les variables restantes sont des mesures anthropométriques prises sur des individus étant tous adultes (pour plus de détails voir l’analyse des résultats). C’est pourquoi la valeur de p est réduite à 23. Comme il n’y a aucune raison de favoriser un individu plus qu’un autre, les observations ont toutes le même poids soit 1/507 pour les deux sexes ensemble, 1/247 pour les hommes et 1/260 pour les femmes. On note les observations 1 2, ,...,
nx x x selon la valeur de n et on note les
variables 1 2 23, ,...,x x x . Pour expliquer ce modèle, nous allons supposer que les données sont centrées, c’est-à-dire que les moyennes sont nulles. Or, puisque c’est rarement le cas, nous devons centrer les données tout simplement en faisant 1 1 2 2, ,...,
n nx x x x x x− − − . Aux
fins de cette analyse, nous n’avons pas seulement centré les variables, mais nous les avons
également réduites x µ
σ
− (on divise également les observations par l’écart type). Nous
effectuons ce changement étant donné que d’une variable à l’autre l’écart type varie énormément, pouvant atteindre un facteur de 10 (voir l’annexe 3 pour les valeurs des écarts types). Pour simplifier la notation, nous utilisons également la notation 1 2, ,...,
nx x x
pour les observations ayant été centrées et réduites. Dans la situation présente, nous utilisons comme métrique A=I pour ne pas prioriser de variables. Notons également que V est la matrice d’inertie dont le terme général est j k
ij i i i
i
v p x x=∑ où pi est le poids de
l’observation i. On remarque donc que V est tout simplement la matrice de variances covariances, lorsque les poids sont tous égaux. La première étape de l’ACP est de rechercher les axes principaux d’inertie de l’ensemble des observations, aussi appelé nuage de points (noté N). Cette étape revient à rechercher une combinaison linéaire des
variables initiales ( )1 2 23, ,...,x x x que l’on note 23
1
j
j
j
u u x=
=∑ avec le critère que u est de
norme 1 ( )21t
u uAu= = . Ce problème est équivalent au problème d’optimisation
suivant : max t
uuAVAu sous la contrainte
21u = . La solution de ce problème est donnée
par u1 le vecteur propre associé à la plus grande valeur propre (λ1) de la matrice VA, u2 le vecteur propre associé à la deuxième plus grande valeur propre (λ2) et ainsi de suite jusqu’à ce qu’on soit satisfait du pourcentage d’inertie expliquée. Le pourcentage
d’inertie expliquée par l’axe lu
∆ est donné par 23
1
( )l l
i
i
tr VA
λ λ
λ=
=
∑ et le pourcentage d’inertie
expliquée de l’espace 1 2, ,...,
lu u u∆ ∆ ∆ est donné par 1
23
1
l
i
i
i
i
λ
λ
=
=
∑
∑.
Ensuite, nous représentons les observations ainsi que les variables sur les axes principaux d’inerties à l’aide de projections orthogonales. Soit
ix une observation, sa projection
orthogonale sur l’axeku
∆ est donnée par k t t
i i k k iz x Au u Ax= = . Donc, si on note par ˆ
ix la
représentation de i
x dans le nouveau système, on obtient ( )1 2ˆ , ,..., ,...,k l
i i i i ix z z z z= où l est
le nombre d’axes qui nous a permis d’atteindre le pourcentage d’inertie désiré. Une fois le ˆ
ix trouvé, nous voulons nous assurer qu’il représente bien la vraie observation. Pour ce
faire, nous devons calculer l’angle entre i
x et ˆi
x , s’il est petit, l’observation est bien
représentée. Notons cet angle α, il sera petit si 2
22
ˆ ˆ ˆcos
ti i i
t
i ii
x x Ax
x Axxα = = est près de 1. Pour
plus de précision, voir l’image ci-dessous.
Étudions maintenant la représentation des variables. Encore une fois, la représentation des nouvelles variables est faite à l’aide de projections. Notons les nouvelles variables par ˆ
jξ où j est la je variable, on a alors ( )1 1 2 2ˆ , ,...,j j j
j l lu u uξ λ λ λ= . La proximité entre les
nouvelles variables (c’est-à-dire la projection) nous indique qu’il y a probablement corrélation entre ces variables. De plus, si une variable est près du cercle des corrélations cela implique qu’elle est bien représentée.
3.3. Analyse discriminante à but prédictif.
Commençons d’abord par l’analyse discriminante en général et concentrons-nous ensuite sur le cas particulier de l’analyse discriminante à but prédictif. Cette analyse permet d’expliquer, de décrire et de prédire un ensemble de variables, plus précisément p variables quantitatives et une qualitative, sur un ensemble d’observations. La variable qualitative permet d’associer les observations à m différents groupes, où m est le nombre de modalités de la variable qualitative. Dans notre cas, la variable qualitative est le sexe de l’individu, il y a donc seulement deux groupes possibles : soit les hommes et les femmes. Nommons le groupe des hommes G1 et le groupe des femmes G2. Pour l’analyse discriminante, nous avons besoin du nombre d’observations dans chaque groupe, le poids de chaque observation et de chaque groupe, le centre de gravité de chaque groupe, la matrice d’inertie totale, la matrice d’inertie de chaque groupe, la matrice d’inertie intra-classe, la matrice d’inertie inter-classe et d’une métrique symétrique définie positive. Encore une fois, il est important que les variables soient également centrées sur l’ensemble des observations. Le nombre d’observations pour le groupe k est noté par nk, ici on a donc n1=247 et n2=260. Le poids de chaque observation est donné par 1/507 (1/n) puisque toutes les observations occupent la même importance. Quant aux poids des groupes, ils sont donnés par nk/n, donc 247/507 pour le groupe G1 et 260/507 pour le
groupe G2. Le centre de gravité de chaque groupe est donné par : ,1
1kn
k i k
i k
g xn=
=∑ où ,i kx
est la ie observation du groupe k et 1/nk est le poids de la ie observation dans le ke groupe.
La matrice d’inertie totale est donnée par: , ,1 1
knmt
i k i k
k i
T x x= =
=∑∑ , la matrice d’inertie du
groupe k est : , ,1
( ) ( )kn
t
k i k k i k k
k
W x g x g=
= − −∑ , la matrice d’inertie intra-classe est :
1
m
k
k
W W=
=∑ et la matrice d’inertie inter-classe est : 1
mt
k k k
k
B n g g=
=∑ . Puis, pour les mêmes
raisons que l’analyse en composantes principales, la métrique A est la matrice identité.
Pour l’analyse discriminante à but prédictif, on ajoute une observation anonyme « a » que l’on affecte à l’un de nos groupes. On cherche alors à déterminer s’il s’agit d’un homme ou d’une femme. Pour cette partie, nous considérons une nouvelle métrique T-1. On affecte « a » au groupe le plus « proche », c’est-à-dire que nous devons résoudre le
problème d’optimisation : { }1
2
, ,arg min ( , )
ky y yd a y
∈
…
où 1,...,k
y y sont les centres de gravité
des k groupes et 2 1 1 1 1( , ) ( ) ( ) 2t t t td a y a y T a y yT y yT a aT a− − − −= − − = − + comme 1taT a
−
est une constante on peut réécrire le problème de la forme suivante : { }1 , ,
arg min ( )k
yy y y
V a∈
…
où 1 1( ) 2t t
yV a yT y yT a− −= − . Dans le cas de deux classes, on peut effectuer quelques
calculs pour trouver comme solution que si ( )12 1( )t
my y T y a−− − est positif on affecte
l’observation anonyme au groupe 1, sinon on l’affecte au groupe 2. Notons que y2 est le centre de gravité du 2e groupe, y1 est le centre de gravité du 1er groupe et ym est la
moyenne des deux centres de gravité 1 2
2m
y yy
+ =
. Dans le cas présent, si le résultat est
positif, c’est un homme sinon il s’agit d’une femme.
3.4. Critique du modèle
Lors de l’analyse des données, nous avions qu’un nombre limité de choix. Pour la première partie, nous avions le choix entre l’analyse en composantes principales et l’analyse discriminante pas à pas. Pour la deuxième partie, on utilise l’analyse discriminante à but prédictif avec une approche géométrique plutôt qu’avec une approche probabiliste. Pourquoi avoir choisi ces deux techniques?
L’analyse en composantes principales a été favorisée à l’analyse discriminante pas à pas, car cette dernière a un temps de calcul beaucoup plus élevé. Ce qui fait croître le temps de réalisation de cette technique qui se situe principalement au niveau du calcul du pourcentage de bien classé pour les p variables à l’itération 1, pour les p-1 variables à l’itération 2 et ainsi de suite de sorte qu’à la me itération on calcule le pourcentage sur p-(m-1) variables. Le pourcentage de bien classé est calculé à l’aide d’un tableau de contingence. De plus, avec nos données, il serait intéressant d’effectuer une régression linéaire du poids en fonction des autres variables, qui nécessite que les variables ne soient pas corrélées, donc l’ACP serait utile dans ce cas. Notre méthode privilégiée pourrait alors être réutilisée au détriment de l’analyse discriminante pas à pas.
Pour la seconde partie, l’analyse discriminante à but prédictif avec une approche géométrique a été préférée à l’approche probabiliste par manque d’informations sur le sujet. Il nous aurait fallu avoir le coût qu’engendre une mauvaise classification, la fonction de densité qui nous donne la probabilité d’affecter une observation de la classe k à la classe l ainsi que la probabilité à priori de chacune des classes. Nous n’avons pas accès à ces données puisqu’on ne sait pas à quoi sert exactement la détermination du sexe d’un individu.
4. Analyse des résultats 4.1. Traitement informatique
Le traitement informatique des données a été fait à l’aide du logiciel R. Vous trouverez dans l’annexe 4, le code pour l’analyse en composantes principales sur l’ensemble des individus. Puisqu’il s’agit exactement du même code pour le groupe des hommes et le groupe des femmes, ce code n’a pas été mis. Dans la même annexe, vous trouverez également le code pour l’analyse discriminante à but prédictif.
4.2. Analyse des données et interprétation des résultats
Pour vérifier que la variable âge n’était pas nécessaire à l’analyse, nous avons fait le graphique de la projection des variables sur les axes c1 et c2, pour observer la position de la variable âge. De ce fait, puisque la variable âge était suffisamment près du centre (voir annexe 5), nous en avons déduit qu’elle ne variait pas beaucoup et l’avons effectivement enlevée de l’analyse. Pour compléter l’analyse, nous étudierons les résultats de l’analyse en composantes principales sur l’ensemble des individus, puis sur les hommes seulement et sur les femmes, pour ensuite faire l’analyse discriminante.
Mentionnons que la première étape de l’analyse en composantes principales consistait à calculer les valeurs propres de la matrice V. Une fois ce calcul effectué, nous avons calculé les inerties partielles et totales pour créer nos axes principaux. Nous avons trouvé pour tous les individus ensemble que les trois premiers axes nous donnent une inertie cumulée de 80,36 %, ce qui est excellent. Nous avons donc fait notre étude sur les trois premiers axes principaux reliés aux valeurs propres 14,93, 2,48 et 1,07 qui ont une inertie partielle respective de 64,93 %, 10,80 % et 3,96 %. Pour connaître toutes les valeurs propres ainsi que leurs inerties partielles et cumulées, consultez l’annexe 6. Une fois les valeurs propres trouvées, nous avons représenté les individus et les variables sur des graphiques comportant deux axes, soit un graphique avec la première et la deuxième composante (c1, c2) et un avec la première et la troisième composante (c1, c3). Les graphiques des individus (annexe 7) nous montrent que les observations sont assez homogènes. Par conséquent, elles ne causent pas de problèmes sauf peut-être pour l’individu 124. En regardant les valeurs de cet individu, on remarque que ce n’est pas une donnée extrême. On constate également que les observations sont bien représentées. Cependant, considérant le nombre élevé d’observations, on ne fournit pas les valeurs de
2cos α . Pour les variables, les projections nous donnent les coordonnées sur les trois axes que vous pouvez consulter à l’annexe 8. Pour mieux observer les variables qui sont projetées les unes près des autres, on étudie les graphiques des variables (annexe 9). Les variables des deux graphiques se situent assez près du cercle de corrélation, ce qui veut dire que les variables sont généralement bien représentées. Ainsi, nous pouvons faire une étude plus approfondie des relations entre les variables.
En regardant le graphique de la projection des variables avec les axes c1 et c2, nous pouvons regrouper les variables entre elles de la façon suivante : le premier groupe est constitué de BL, CDI, WD, ED, AD, WRG, SG, FG, CHG, BG et HHT, le deuxième groupe est composé de CDE, KD, AG, WAG, WHT et le troisième groupe contient CAG, KG, BC, PB, NG, HG, TG. Considérant que la proximité entre deux variables, lors d’une projection, indique qu’en réalité elles doivent se comporter semblablement, nous en déduisons que les variables de chaque groupe sont probablement corrélées. Nous pouvons vérifier cette hypothèse à l’aide de la matrice des corrélations, dont un résumé pour les
variables de chaque groupe a été fait dans l’annexe 10. Avec ces résultats, on peut garder le premier groupe tel quel, puisque les coefficients de corrélation sont tous assez élevés. Pour le deuxième groupe, on doit le modifier pour garder seulement CDE, WAG et WHT. Pour le troisième groupe, on doit former deux petits groupes de variables, soient KG avec CAG ainsi que TG, HG et NG.
Étudions maintenant le graphique avec les axes c1 et c3. Comme les variables sont toutes très proches les unes des autres, nous allons former deux groupes seulement. Le premier groupe est composé de PB, HHT, BC, KD, AD, BL, ED, WD, KG, AG, CAG et WRG. Le deuxième groupe est formé de WHT, CDI, HG, FG, SG, NG, TG, CHG, WAG, BG et CDE. Nous vérifierons les coefficients de corrélation de ces groupes avec les tableaux de l’annexe 11. Après cette analyse, nous formons quatre groupes au lieu de deux. Nous avons tout d’abord le groupe composé de ED, AD, KD, WD, WRG et BL. Le second groupe contient AG, KG et CAG. Le troisième est formé de CDE, CHG, WAG, WHT, BG, FG, CDI et SG. Puis, nous avons le trio HG, NG et TG.
Une fois l’étude de ces deux graphiques effectuée, on peut former les groupes finaux de l’analyse en composantes principales sur l’ensemble des individus. Comme il y a plusieurs possibilités pour les groupes de départs sur les graphiques, on peut apporter quelques modifications après avoir comparé les résultats pour les deux premiers axes et pour le premier et troisième axe. On a donc le groupe formé de KG, CAG, AG en changeant la variable AG de groupe dans le graphique c1, c2. On a également celui composé de NG, HG et TG. CDI, CHG, BG, SG et FG sont également corrélés entre eux. Ensuite vient le groupe de CDE, WAG et WHT. Puis, nous avons l’ensemble qui contient ED, AD, BL et WD.
Étudions maintenant l’analyse en composantes principales chez les hommes. Pour les hommes, on a calculé que les trois premiers axes ont un pourcentage satisfaisant d’inertie expliquée de 68,00 %. Donc, étudions les trois premiers axes d’inertie associés aux trois plus grandes valeurs propres, c’est-à-dire 11,96, 1,95 et 1,72 qui ont un pourcentage d’inertie partielle respectif de 52,01 %, 8,49 % et 7,50 %. Pour plus de détails sur les valeurs propres et leurs inerties partielles et cumulées, consultez l’annexe 12. Nous avons également calculé la projection des individus et des variables sur les axes principaux. Les deux graphiques des individus (annexe 13) nous indiquent qu’il y a possiblement une observation extrême, soit l’individu 124. Vérification faite, on remarque qu’il s’agit effectivement d’une donnée extrême que nous éliminerons donc pour le reste de l’analyse. Les observations ont bien un 2cos α près d’un, ce qui signifie qu’elles sont bien représentées. Les composantes de la projection des variables sur les axes principaux d’inertie (voir annexe 14) nous permettent d’étudier la corrélation des variables sur les graphiques à l’annexe 15. Encore une fois, les deux graphiques ont leurs variables assez près du cercle de corrélation. Donc, les variables sont généralement bien représentées.
Regardons le graphique avec les axes c1 et c2. Nous formerons les groupes suivants : le premier contient KD, AD, ED, WRG, WD, HHT et BL, le deuxième est constitué de AG, BC, KG, CAG, FG et PB, le troisième est formé de BG, CDI, WHT, SG, TG, HG, CHG, CDE, NG et WAG. Pour nous assurer qu’il existe bien une corrélation, nous avons regardé les coefficients de corrélations deux à deux entre les variables de chaque groupe que vous pouvez retrouver à l’annexe 16. On obtient alors de plus petits groupes, soient le duo BC et PB, le trio KG, CAG et AG, la paire CDI SG et celui composé de HG, NG, WAG, WHT, CHG et CDE.
On répète le même principe pour le graphique c1, c3. À première vue, on forme les groupes (BG, FG, SG, CHG, WRG, WD, ED), (CDI, TG, CDE, AD, WHT, CAG, AG, KD, WAG, NG, KG, HG) et (BL, HHT, BC, PB). Ensuite, nous comparons les coefficients de corrélation dans le tableau de l’annexe 17 pour former les nouveaux groupes : (BG, FG, CHG, SG), (CDE, WHT, WAG, NG, HG), (TG, CAG, KG) et (BC, PB).
Avec ces informations, on crée les groupes finaux pour l’ACP chez les hommes. Considérant que nous avons formé intuitivement les groupes initiaux, nous devons donc les modifier en changeant de groupe CHG et FG dans le graphique de c1, c3. On obtient alors la paire BC et PB, le groupe composé de CDE, WHT, NG et HG, celui formé de AG, CAG et KG et finalement celui qui contient BG, FG, CHG et SG.
Pour l’analyse en composantes principales chez les femmes le pourcentage d’inertie expliquée de 72,63 %, pour les trois premiers axes est très bien. Nous devrons donc, encore une fois, faire la projection sur les trois premiers axes d’inertie, où le premier axe possède un pourcentage d’inertie partielle de 58,51 % et une valeur propre de 13,46. Pour le deuxième axe, la valeur propre est 1,90 et le pourcentage d’inertie partielle est de 8,25 %. Quant au troisième axe, la valeur propre est de 1,35 et le pourcentage d’inertie partielle est de 5,88 %. Pour connaître toutes les valeurs propres avec leur inertie partielle, voir l’annexe 18. La projection des individus sur les axes nous donne les graphiques à l’annexe 19 qui nous permettent d’identifier deux valeurs extrêmes, soit les individus 112 et 227. Nous éliminerons ces derniers de notre échantillon. Encore une fois, les observations sont bien représentées. Cela dit, nous pouvons donc continuer notre analyse. Les coordonnées de la projection des variables sur les axes sont inscrites à l’annexe 20. Les graphiques de la représentation des variables se retrouvent à l’annexe 21. Pour les femmes également, les variables sont bien représentées, à cause de leur proximité avec le cercle des corrélations.
Suite à l’étude du graphique des axes c1 et c2, nous formons trois groupes, celui composé de WAG, CDE, BG, NG, CHG, TG, HG, WHT, SG et FG, celui qui contient KG, CAG, CDI, KD, BC, AG, PB et WRG et puis le groupe ED, WD, AD, BL et HHT. Grâce aux tableaux des coefficients de corrélations de l’annexe 22, nous conservons le premier groupe presque intact (on enlève seulement la variable CDE), le groupe formé de KD, KG, CAG, WRG et AG et finalement le duo WD, ED.
Pour le graphique des axes c1 et c3 nous avons les groupes : (BC, NG, HG, AD, CDE, WAG, TG, WHT, KD) et (KG, ED, BL, CHG, CAG, BG, AG, WD, CDI, FG, SG, WRG) ainsi que les variables PB et HHT qui ne sont dans aucun groupe. Pour une dernière fois, nous regardons les coefficients de corrélations (annexe 23) pour modifier les groupes initiaux afin d’obtenir les ensembles suivants : le groupe formé de NG, HG, WAG, TG et WHT, celui composé de CDI, CHG, SG et BG, puis le groupe qui contient KG, CAG, AG, FG et WRG.
Les groupes finaux pour les femmes sont exactement les mêmes que pour le premier et le troisième axe, en modifiant un peu les groupes initiaux du graphique des deux premiers axes d’inerties. Plus précisément, on va changer de groupe les variables FG et CDI du premier graphique pour obtenir les groupes du deuxième graphique tout en gardant PB et HHT seuls.
Dans le but de regrouper les variables le mieux possible, nous avons comparé les groupes finaux, soit celui de tous les individus, celui des hommes seuls et celui des femmes seules. Une fois cette comparaison effectuée, nous obtenons les groupes finaux : (NG, HG, TG), (AG, CAG, KG), (CHG, SG, BG, CDI, FG), (WAG, WHT, CDE), (WRG, ED, WD), (BC, PB) et les variables suivantes BL, AD, KD, HHT sont seules. Nous pouvons alors choisir une variable par groupe pour identifier les mesures que nous prendrons sur nos individus. Les groupes formés représentent assez bien ce que l’on aurait pu prédire au début de l’analyse. Tout d’abord, le premier groupe, qui contient la circonférence au niveau du nombril, de la hanche et de la cuisse s’explique par le fait que ces parties sont toutes assez près l’une de l’autre. Si un individu prend du poids à l’un de ces endroits, il va généralement prendre également du poids aux deux autres places. Il en est de même pour les muscles, une personne va muscler toutes ces parties en même temps. De ce fait, on peut dire que le premier groupe représente le milieu du corps humain. Le deuxième groupe contient la circonférence de la cheville, du genou et du mollet. On y retrouve une composition tout à fait logique, pour les mêmes raisons que pour le premier groupe. Pour sa part, le second groupe représente la partie inférieure du corps. Le troisième groupe formé du diamètre de la poitrine, de la circonférence de la poitrine, des épaules, des biceps et des avant-bras représente la partie supérieure du corps. Le quatrième groupe, quant à lui, considère le poids, la profondeur de la poitrine et la circonférence de la taille. Ce qui est tout à fait normal, puisque la prise de poids se constate généralement davantage à ces deux endroits. C’est pour cette raison que le poids est associé à ces deux variables plutôt qu’à un groupe quelconque. Le cinquième groupe constitué du diamètre, du coude et du poignet, ainsi que la circonférence du poignet est également logique, puisque ce sont tous des endroits sans muscles et dont la chair est directement sur les os. Le dernier groupe, composé du diamètre des épaules et des hanches, trouve tout son sens, puisque le corps humain est fait pour que ces os soient pratiquement de la même longueur pour bien former le bassin. Pour sa part, la taille se retrouve seule, car c’est une mesure de longueur alors que les autres sont des mesures de diamètre et de circonférence, sauf le poids. Le poids est corrélé à une variable, mais pas la taille, puisque le poids est très influencé par la graisse et, par conséquent, il est corrélé avec les circonférences. Alors que la taille affecte la longueur des os seulement, qui elle n’est pas prise en considération ici. Le diamètre des épaules se retrouve seul, probablement parce qu’il varie beaucoup d’une personne à l’autre, sans vraiment changer le reste du physique. Le diamètre de la cheville et du genou sont seuls pour une raison peu évidente. Par contre, on ne rejette pas l’idée que la prise de données puisse avoir été légèrement défectueuse, ce qui peut avoir biaisé les résultats. En effet, en effectuant le test du sexe sur une personne nous avons conclu que le diamètre de la cheville devait en fait être le diamètre des deux chevilles ensemble, tout comme le genou, ce qui rend les données moins précises.
On choisit les variables de chaque groupe de façon à faciliter la prise de données. Pour le premier groupe, on garde la circonférence au niveau du nombril puisque c’est l’endroit où il y a moins de possibilités d’erreur lors de la prise de données. Pour illustrer ce fait, prenons par exemple la circonférence de la cuisse, elle peut être prise à différents endroits, c’est donc difficile de rester constant. Pour cette même raison, nous avons choisi la circonférence de la cheville pour le deuxième groupe. Pour le troisième groupe, on élimine sans contredit le diamètre du squelette au niveau de la poitrine, car il est difficile de prendre une mesure sur le squelette. On choisit ensuite parmi celles qui restent de la même façon que les deux premiers groupes. On choisit donc la circonférence du biceps. Pour le quatrième groupe, on prend le poids, puisque c’est très simple à mesurer et il y a très peu de marge d’erreur. Pour le groupe suivant, on calcule la circonférence du poignet
étant donné qu’il s’agit de la seule mesure qui n’est pas prise sur le squelette. Pour le dernier groupe, on choisit le diamètre du squelette au niveau de la hanche, car il y a généralement moins de gras à cet endroit, donc il est plus facile de repérer l’os pour prendre le diamètre de celui-ci. Cela dit, on retient donc les dix variables suivantes : la circonférence du corps au niveau du nombril, la circonférence de la cheville, la circonférence du biceps, le poids, le diamètre du squelette au niveau de la hanche, la circonférence du poignet, le diamètre du squelette au niveau des épaules, le diamètre de la cheville, le diamètre du genou et la grandeur. Pour avoir la matrice des corrélations de toutes les variables ensemble, voir l’annexe 24.
Étudions maintenant la deuxième partie du travail portant sur l’analyse discriminante à but prédictif. Maintenant que nous avons choisi les variables, nous pouvons les étudier plus en profondeur. Nous avons trouvé toutes les informations nécessaires à l’analyse discriminante soit la moyenne et l’écart type de tous les individus ainsi que les hommes et les femmes séparément (voir l’annexe 25). La matrice d’inertie totale inverse (T-1) est donnée à l’annexe 26. Nous avons tout d’abord créé un individu imaginaire, en supposant que les mesures anthropologiques suivent une loi normale, différente pour chaque variable. Les moyennes et les écarts types sont ceux calculés avec tous les individus donnés à l’annexe 25. Les résultats de l’individu test sont donnés par a= (38.55990 27.95171 18.53019 14.89835 86.01007 31.68029 22.33173 14.67837 62.26647 180.13221) dont nous avons obtenu la valeur finale -0.00238699 qui nous a permis d’affirmer que c’est une femme. Rappelons que si la valeur finale est supérieure à 0 nous avons un homme sinon c’est une femme. Nous avons également fait le test avec une femme qui possédait les mesures a = (34.5 31.5 19.0 13.0 77.5 27.0 23.0 17.0 56.5 165.0). Nous avons obtenu la valeur finale -0.007186967 qui nous a confirmé qu’il s’agissait effectivement d’une femme. Nous avons également fait le test sur un homme ayant comme mesures a=(40.0 30.0 20.0 14.5 87.0 33.0 26.0 18.0 70.5 176.0). Nous avons obtenu la valeur finale -0.002078566 qui malheureusement nous affirme qu’il s’agissait d’une femme. Finalement, nous avons fait le test avec un homme de l’échantillon de départ, soit l’individu 40 qui a comme mesures a = (42.1 32.4 21.0 16.4 78.0 37.7 23.3 18.7 80.1 184.2) et qui est vraiment un homme puisque la valeur finale donne 0.003950016. La raison possible pour laquelle ça n’a pas fonctionné avec l’homme test, c’est qu’il a de petits os, qui est souvent une caractéristique que l’on retrouve chez les femmes, d’autant plus que nos variables étudiées mettent en valeur cette caractéristique. L’étude n’est donc pas 100 % fiable. Cette erreur est possiblement due au fait que le centre de gravité des hommes et celui des femmes sont assez près l’un de l’autre, donc nous donne de petites valeurs finales qui sont plus sensibles au signe.
5. Conclusion
Suite à cette analyse, nous pouvons affirmer qu’il n’est pas nécessaire de prendre vingt-quatre mesures anthropologiques sur une personne pour connaître son sexe, mais seulement dix. Parmi ces dernières nous retrouvons les variables suivantes : la circonférence du corps au niveau du nombril, la circonférence de la cheville, la circonférence du biceps, le poids, diamètre du squelette au niveau de la hanche, la circonférence du poignet, diamètre du squelette au niveau des épaules, diamètre de la cheville, diamètre du genou et la grandeur. La problématique de cette analyse est que dans l’analyse en composantes principales on utilise notre jugement pour créer les groupes de variables de départ pour trouver celles corrélées ensemble. Il est possible que si nous avions commencé avec d’autres groupes, nous ayons eu des variables finales qui auraient été légèrement différentes. Il aurait donc probablement été
plus précis de faire l’analyse discriminante pas à pas. La précision aurait été accrue, si on avait utilisé l’approche probabiliste plutôt que géométrique, pour associer les individus au bon sexe, puisque les centres de gravités des hommes et des femmes sont assez près l’un de l’autre. Mais pour utiliser ces deux méthodes, il faudrait faire une étude plus approfondie sur l’utilité de connaître le sexe d’une personne de cette façon. Il serait également intéressant de faire d’autres études, telles qu’une régression linéaire du poid d’un individu en fonction de ses mesures anthropologiques.
6. Bibliographie
1_ Grete H., Louis J.P, Roger W.J., Carter J.K., Exploring relationships in body dimensions, Journal of Statistics Education, vol 11, 2, 2003 http://www.amstat.org/publications/jse/v11n2/datasets.heinz.html
2_Bernard COLIN, Notes de cours d’analyse des données, Université de Sherbrooke, 2009
3_Philippe BESSE, Programmation en R, Université de Toulouse, http://www.math.univ-toulouse.fr/~besse/pub/R/, 2009
4_ Ricco RAKOTOMALALA, analyse en composantes principales avec R, Université de Lyon 2, http://eric.univ-lyon2.fr/~ricco/cours/didacticiels/R/acp_avec_r.pdf, 2009
ANNEXE 1
Image 1
Image 2
ANNEXE 2
Nom de la variable Abréviation diamètre du squelette au niveau des épaules BL diamètre du squelette au niveau de la crète iliaque PB diamètre du squelette au niveau de la hanche BC épaisseur de la poitrine CDE diamètre du squelette au niveau de la poitrine CDI diamètre du squelette au niveau du coude ED diamètre du squelette au niveau du poignet WD diamètre du squelette au niveau du genou KD diamètre du squelette au niveau de la cheville AD circonférence de l’épaule SG circonférence de la poitrine CHG circonférence de la taille WAG circonférence du corps au niveau du nombril NG circonférence de la hanche HG circonférence de la cuisse TG circonférence du biceps BG circonférence de l’avant-bras FG circonférence du genou KG circonférence du mollet CAG circonférence de la cheville AG circonférence du poignet WRG âge AGE poids WHT taille HHT sexe MF
ANNEXE 3
Tableau des moyennes et écart types des variables
Variables Moyennes Écart types BL 38,80 3,06 PB 27,83 2,21 BC 31,95 2,00
CDE 19,23 2,52 CDI 27,97 2,74 ED 13,39 1,35 WD 10,54 0,94 KD 18,78 1,30 AD 13,86 1,25 SG 108,20 10,37
CHG 93,33 10,03 WAG 76,98 11,01 NG 85,51 9,24 HG 96,68 6,68 TG 56,86 4,45 BG 31,13 4,22 FG 25,94 2,83 KG 36,20 2,62
CAG 36,08 2,85 AG 22,14 1,85
WRG 16,08 1,37 AGE 30,18 9,61 WHT 68,91 13,03 HHT 171,1 9,43
ANNEXE 4
Code pour l’analyse en composantes principales : #Analyse avec les données des hommes et des femmes #Répertoire de travail setwd("C:/DocumentsandSettings/Véronique/Mesdocuments/ maitrisesession1/STT707/corps") #chargement des données corps01<- read.table("donnees01.txt") #changement de nom des variables colnames(corps01)<-c("BL","PB","BC","CDE","CDI","ED","WD","KD","AD","SG","CHG","WAG","NG","HG","TG","BG","FG","KG","CAG","AG","WRG","AGE","WHT","HHT","MF") #calcul de la moyenne, du minimum, du maximum, de l'écart type et de la variance de chaque variable summary(corps01) sd(corps01$BL); sd(corps01$PB); sd(corps01$BC); sd(corps01$CDE); sd(corps01$CDI); sd(corps01$ED); sd(corps01$WD); sd(corps01$KD); sd(corps01$AD); sd(corps01$SG); sd(corps01$CHG); sd(corps01$WAG) sd(corps01$NG); sd(corps01$HG); sd(corps01$TG); sd(corps01$BG); sd(corps01$FG); sd(corps01$KG); sd(corps01$CAG); sd(corps01$AG); sd(corps01$WRG); sd(corps01$AGE); sd(corps01$WHT); sd(corps01$HHT) var(corps01$BL); var(corps01$PB); var(corps01$BC); var(corps01$CDE); var(corps01$CDI); var(corps01$ED); var(corps01$WD); var(corps01$KD); var(corps01$AD); var(corps01$SG); var(corps01$CHG); var(corps01$WAG) var(corps01$NG); var(corps01$HG); var(corps01$TG); var(corps01$BG); var(corps01$FG); var(corps01$KG); var(corps01$CAG); var(corps01$AG); var(corps01$WRG); var(corps01$AGE); var(corps01$WHT); var(corps01$HHT) #début de l'analyse en composantes principales (on doit enlever la variable sexe et la variable âge) #chargement des données sans la variable sexe et sans la variable âge corps<- read.table("donnees.txt") #changement de nom des variables colnames(corps)<-c("BL","PB","BC","CDE","CDI","ED","WD","KD","AD","SG","CHG","WAG","NG","HG","TG","BG","FG","KG","CAG","AG","WRG","WHT","HHT") #calcul du coefficient de corrélation entre chaque variable coefficient<-cor(corps) sink("C:/Documents and Settings/Véronique/Mes documents/maitrise session1/STT707/corps/coeffcor.txt") coefficient sink(NULL) #centrer et réduire les variables acp.corps <- princomp(corps, cor = T, scores = T) print(acp.corps) print(summary(acp.corps)) print(attributes(acp.corps)) #calcul des valeurs propres val.propres<-acp.corps$sdev^2 print(val.propres)
#Calcul de l'inertie partielle et totale inertie<-function(lambda) { for(i in 1:23) { somme.lambda<-lambda[1] k<-2 inertie.partielle2<-lambda[i]/sum(lambda) if(i==1) { inertie.totale2<-inertie.partielle2 } else { while(k<=i) { somme.lambda<-somme.lambda+lambda[k] k<-k+1 } inertie.totale2<-somme.lambda/sum(lambda) } print(paste("L'inertie partielle de",i,"est",inertie.partielle2,"et l'inertie totale est",inertie.totale2)) } } inertie(val.propres) #corrélation variables-facteurs c1 <- acp.corps$loadings[,1]*acp.corps$sdev[1] c2 <- acp.corps$loadings[,2]*acp.corps$sdev[2] c3 <- acp.corps$loadings[,3]*acp.corps$sdev[3] correlation <- cbind(c1,c2,c3) print(correlation,digits=2) print(correlation^2,digits=2) sink(NULL) print(t(apply(correlation^2,1,cumsum)),digits=2) #*** cercle des corrélations - variables actives *** plot(c1,c2,xlim=c(-1,+1),ylim=c(-1,+1),type="n") abline(h=0,v=0) text(c1,c2,labels=colnames(corps),cex=0.5) symbols(0,0,circles=1,inches=F,add=T) savePlot("C:/Documents and Settings/Véronique/Mes documents/maitrise session1/STT707/corps/correlationc1c2","jpeg") #*** cercle des corrélations - variables actives *** plot(c1,c3,xlim=c(-1,+1),ylim=c(-1,+1),type="n") abline(h=0,v=0) text(c1,c3,labels=colnames(corps),cex=0.5) symbols(0,0,circles=1,inches=F,add=T) savePlot("C:/Documents and Settings/Véronique/Mes documents/maitrise session1/STT707/corps/correlationc1c3","jpeg") #graphique des individus
plot(acp.corps$scores[,1],acp.corps$scores[,2],type="n",xlab="Comp.1 - 65%",ylab="Comp.2 - 11%") abline(h=0,v=0) text(acp.corps$scores[,1],acp.corps$scores[,2],labels=rownames(corps),cex=0.75) savePlot("C:/Documents and Settings/Véronique/Mes documents/maitrise session1/STT707/corps/repindc1c2","jpeg") plot(acp.corps$scores[,1],acp.corps$scores[,3],type="n",xlab="Comp.1 - 65%",ylab="Comp.3 - 5%") abline(h=0,v=0) text(acp.corps$scores[,1],acp.corps$scores[,3],labels=rownames(corps),cex=0.75) savePlot("C:/Documents and Settings/Véronique/Mes documents/maitrise session1/STT707/corps/repindc1c3","jpeg") #qualité de la représentation #calcul du carré de la distance d'un individu au centre de gravité d2 <- function(x){return(sum(((x-acp.corps$center)/acp.corps$scale)^2))} #appliquer à l'ensemble des observations all.d2 <- apply(corps,1,d2) #cosinus^2 pour une composante cos2 <- function(x){return(x^2/all.d2)} #cosinus^2 pour les composantes retenues (les 3 premières) all.cos2 <- apply(acp.corps$scores[,1:3],2,cos2) print(all.cos2) Code pour l’analyse discriminante à but prédictif : #Répertoire de travail setwd("C:/Documents and Settings/Véronique/Mes documents/maitrise session1/STT707/corps") #chargement des données corpsAD<- read.table("donneesAD.txt") #changement de nom des variables colnames(corpsAD)<-c("BL","BC","KD","AD","NG","BG","AG","WRG","WHT","HHT") #calcul de la moyenne, du minimum, du maximum, de la médiane, de l'écart type et de la variance de chaque variable summary(corpsAD) sd(corpsAD$BL); sd(corpsAD$BC); sd(corpsAD$KD); sd(corpsAD$AD) sd(corpsAD$NG); sd(corpsAD$BG); sd(corpsAD$AG); sd(corpsAD$WRG); sd(corpsAD$WHT); sd(corpsAD$HHT) var(corpsAD$BL); var(corpsAD$BC); var(corpsAD$KD); var(corpsAD$AD) var(corpsAD$NG); var(corpsAD$BG); var(corpsAD$AG); var(corpsAD$WRG); var(corpsAD$WHT); var(corpsAD$HHT) #chargement des données des hommes seulement corpsADM<- read.table("donneesADM.txt") colnames(corpsADM)<-c("BL","BC","KD","AD","NG","BG","AG","WRG","WHT","HHT") # transformer corpsADM en matrice et vérifier que c'est bien une matrice xmen<-as.matrix(corpsADM) is.matrix(xmen) #calcul des écart types des hommes sd(corpsADM$BL); sd(corpsADM$BC); sd(corpsADM$KD); sd(corpsADM$AD)
sd(corpsADM$NG); sd(corpsADM$BG); sd(corpsADM$AG); sd(corpsADM$WRG); sd(corpsADM$WHT); sd(corpsADM$HHT) #calcul du centre de gravité des hommes graviteh<-apply(xmen,2,mean) graviteh #chargement des données des femmes seulement corpsADF<- read.table("donneesADF.txt") colnames(corpsADF)<-c("BL","BC","KD","AD","NG","BG","AG","WRG","WHT","HHT") # transformer corpsADM en matrice et vérifier que c'est bien une matrice xwomen<-as.matrix(corpsADF) is.matrix(xwomen) #calcul des écart types des femmes sd(corpsADF$BL); sd(corpsADF$BC); sd(corpsADF$KD); sd(corpsADF$AD) sd(corpsADF$NG); sd(corpsADF$BG); sd(corpsADF$AG); sd(corpsADF$WRG); sd(corpsADF$WHT); sd(corpsADF$HHT) #calcul du centre de gravité des femmes gravitef<-apply(xwomen,2,mean) gravitef #calcul de la matrice T^(-1) #calcul de t_h t_h<-t(xmen)%*%xmen t_h #calcul de t_f t_f<-t(xwomen)%*%xwomen t_f t_havect_f<-t_h+t_f t_inverse<-solve(t_havect_f) sink("C:/Documents and Settings/Véronique/Mes documents/maitrise session1/STT707/corps/tinverse.txt") t_inverse sink(NULL) #calcul pour affecter l'observation a aux hommes ou aux femmes #créer a à partir de la loi normale de chaque variable a<-c(rnorm(1,38.80,3.06),rnorm(1,31.95,2.00),rnorm(1,18.78,1.30),rnorm(1,13.86,1.25),rnorm(1,85.51,9.24),rnorm(1,31.13,4.22),rnorm(1,22.14,1.85),rnorm(1,16.08,1.37),rnorm(1,68.91,13.03),rnorm(1,171.1,9.45)) #femme test #a<-c(34.5,31.5,19.0,13.0,77.5,27.0,23.0,17.0,56.5,165.0) #homme de l’échantillon (numéro 40) #a<-c(42.1,32.4,21.0,16.4,78.0,37.7,23.3,18.7,80.1,184.2) #homme test #a<-c(40.0,30.0,20.0,14.5,87.0,33.0,26.0,18.0,70.5,176.0) #calcul final, si la réponse (sexe) est supérieur à 0 c'est un homme sinon c'est une femme g1_g2<-graviteh-gravitef moyenne<-(graviteh-gravitef)/2 sexe<-g1_g2%*%t_inverse%*%a-g1_g2%*%t_inverse%*%moyenne sexe
ANNEXE 5
Graphique des variables (dont l’âge) sur les deux premiers axes principaux pour tous les individus.
ANNEXE 6
Tableau des valeurs propres pour tous les individus
Valeur propre Inertie partielle Inertie cumulée
1 14,9335 0,6493 0,6493 2 2,4832 0,1080 0,7572 3 1,0653 0,0463 0,8036 4 0,9116 0,0396 0,8432 5 0,4808 0,0209 0,8641 6 0,4336 0,0189 0,8830 7 0,3383 0,0147 0,8977 8 0,3220 0,0140 0,9117 9 0,2780 0,0121 0,9238
10 0,2723 0,0118 0,9356 11 0,2479 0,0108 0,9464 12 0,2032 0,0088 0,9552 13 0,1764 0,0077 0,9629 14 0,1574 0,0068 0,9697 15 0,1451 0,0063 0,9760 16 0,1218 0,0053 0,9813 17 0,1024 0,0045 0,9858 18 0,0864 0,0038 0,9895 19 0,0804 0,0035 0,9930 20 0,0558 0,0024 0,9954 21 0,0464 0,0020 0,9975 22 0,0373 0,0016 0,9991 23 0,0207 0,0009 1,0000
ANNEXE 7
Graphique de tous les individus sur les deux premiers axes d’inerties.
Graphique de tous les individus sur le premier et troisième axe d’inertie.
ANNEXE 8
Tableau des composantes des variables suite à la projection pour tous les individus.
c1 c2 c3
BL -0.78 0.359 0.1811 PB -0.49 -0.482 0.4604 BC -0.69 -0.419 0.3629
CDE -0.80 0.015 -0.2504 CDI -0.86 0.175 -0.1038 ED -0.87 0.306 0.1197 WD -0.83 0.312 0.0971 KD -0.82 -0.024 0.2452 AD -0.80 0.241 0.2396 SG -0.91 0.228 -0.1900
CHG -0.91 0.151 -0.2712 WAG -0.88 -0.066 -0.2460 NG -0.68 -0.511 -0.1854 HG -0.72 -0.622 -0.0889 TG -0.50 -0.717 -0.1730 BG -0.90 0.151 -0.2452 FG -0.91 0.232 -0.1338 KG -0.80 -0.317 0.0860
CAG -0.78 -0.263 0.0282 AG -0.81 -0.037 0.0674
WRG -0.89 0.297 0.0017 WHT -0.97 -0.083 -0.0693 HHT -0.73 0.285 0.3689
ANNEXE 9
Graphique des variables sur les deux premiers axes principaux pour tous les individus.
Graphique des variables sur le premier et troisième axe d’inertie pour tous les individus.
ANNEXE 10
Tableau des corrélations pour le premier groupe de variables pour tous les individus (C1,C2)
BL ED WD AD CDI WRG BG CHG SG FG HHT
BL 1,00 0,77 0,72 0,66 0,77 0,77 0,70 0,72 0,79 0,75 0,75 ED 0,77 1,00 0,84 0,82 0,76 0,85 0,80 0,80 0,82 0,86 0,74 WD 0,72 0.84 1,00 0,77 0,73 0,86 0,76 0,77 0,78 0,81 0,68 AD 0,66 0,82 0,77 1,00 0,67 0,76 0,69 0,71 0,69 0,74 0,69 CDI 0,77 0,76 0,73 0,67 1,00 0,76 0,79 0,87 0,87 0,81 0,63
WRG 0,77 0,85 0,86 0,76 0,76 1,00 0,85 0,82 0,84 0,90 0,69 BG 0,70 0,80 0,76 0,69 0,79 0,85 1,00 0,91 0,90 0,94 0,59
CHG 0,72 0,80 0,77 0,71 0,87 0,82 0,91 1,00 0,93 0,89 0,62 SG 0,79 0,82 0,78 0,69 0,87 0,84 0,90 0,93 1,00 0,89 0,67 FG 0,75 0,86 0,81 0,74 0,81 0,90 0,94 0,89 0,89 1,00 0,66
HHT 0,75 0,74 0,68 0,69 0,63 0,69 0,59 0,62 0,67 0,66 1,00
Tableau des corrélations pour le deuxième groupe de variables pour tous les individus (C1,C2)
CDE KD AG WAG WHT CDE 1,00 0,55 0,59 0,80 0,80 KD 0,55 1,00 0,65 0,62 0,77 AG 0,59 0,65 1,00 0,66 0,76 WAG 0,80 0,62 0,66 1,00 0,90 WHT 0,80 0,77 0,76 0,90 1,00
Tableau des corrélations pour le troisième groupe de variables pour tous les individus (C1,C2)
PB BC CAG KG NG HG TG PB 1,00 0,67 0,41 0,47 0,58 0,56 0,41 BC 0,67 1,00 0,59 0,62 0,62 0,75 0,53 CAG 0,41 0,59 1,00 0,80 0,52 0,67 0,63 KG 0,47 0,62 0,80 1,00 0,61 0,73 0,64 NG 0,58 0,62 0,52 0,61 1,00 0,83 0,60 HG 0,56 0,75 0,67 0,73 0,83 1,00 0,83 TG 0,41 0,53 0,63 0,64 0,60 0,83 1,00
ANNEXE 11
Tableau des corrélations du premier groupe de variables pour tous les individus (C1,C3)
BL PB BC ED AD KD WD KG AG CAG WRG HHT
BL 1,00 0,31 0,49 0,77 0,66 0,64 0,72 0,51 0,60 0,51 0,77 0,75 PB 0,31 1,00 0,67 0,32 0,37 0,44 0,28 0,47 0,34 0,41 0,26 0,38 BC 0,49 0,67 1,00 0,53 0,50 0,61 0,47 0,62 0,54 0,59 0,48 0,49 ED 0,77 0,32 0,53 1,00 0,82 0,73 0,84 0,59 0,66 0,58 0,85 0,74 AD 0,66 0,37 0,50 0,82 1,00 0,72 0,77 0,54 0,68 0,54 0,76 0,69 KD 0,64 0,44 0,61 0,73 0,72 1,00 0,71 0,73 0,65 0,69 0,73 0,59 WD 0,72 0,28 0,47 0,84 0,77 0,71 1,00 0,58 0,65 0,58 0,86 0,68 KG 0,51 0,47 0,62 0,59 0,54 0,73 0,58 1,00 0,74 0,80 0,64 0,53 AG 0,60 0,34 0,54 0,66 0,68 0,65 0,65 0,74 1,00 0,76 0,75 0,57
CAG 0,51 0,41 0,59 0,58 0,54 0,69 0,58 0,80 0,76 1,00 0,65 0,45 WRG 0,77 0,26 0,48 0,85 0,76 0,73 0,86 0,64 0,75 0,65 1,00 0,69 HHT 0,75 0,38 0,49 0,74 0,69 0,59 0,68 0,53 0,57 0,45 0,69 1,00
Tableau des corrélations du deuxième groupe de variables pour tous les individus (C1, C3)
CDE CDI SG CHG WAG NG HG TG BG FG WHT
CDE 1,00 0,67 0,74 0,81 0,80 0,62 0,56 0,36 0,73 0,72 0,80 CDI 0,67 1,00 0,87 0,87 0,79 0,50 0,52 0,31 0,79 0,81 0,83 SG 0,74 0,87 1,00 0,93 0,82 0,52 0,53 0,32 0,90 0,89 0,88
CHG 0,81 0,87 0,93 1,00 0,88 0,62 0,58 0,36 0,91 0,89 0,90 WAG 0,80 0,79 0,82 0,88 1,00 0,75 0,69 0,42 0,80 0,78 0,90 NG 0,62 0,50 0,52 0,62 0,75 1,00 0,83 0,60 0,56 0,48 0,71 HG 0,56 0,52 0,53 0,58 0,69 0,83 1,00 0,83 0,56 0,51 0,76 TG 0,36 0,31 0,32 0,36 0,42 0,60 0,83 1,00 0,41 0,34 0,56 BG 0,73 0,79 0,90 0,91 0,80 0,56 0,56 0,41 1,00 0,94 0,87 FG 0,72 0,81 0,89 0,89 0,78 0,48 0,51 0,34 0,94 1,00 0,87
WHT 0,80 0,83 0,88 0,90 0,90 0,71 0,76 0,56 0,87 0,87 1,00
ANNEXE 12
Tableau des valeurs propres pour les hommes seulement
Valeur propre Inertie partielle Inertie cumulée 1 11,9614 0,5201 0,5201 2 1,9536 0,0849 0,6050 3 1,7249 0,0750 0,6800 4 1,1694 0,0508 0,7308 5 1,0060 0,0437 0,7746 6 0,7042 0,0306 0,8052 7 0,6434 0,0278 0,8332 8 0,5705 0,0248 0,8580 9 0,4696 0,0204 0,8784
10 0,3995 0,0174 0,8958 11 0,3575 0,0155 0,9113 12 0,3265 0,01420 0,9255 13 0,3046 0,0132 0,9387 14 0,2588 0,0113 0,9500 15 0,2351 0,0102 0,9602 16 0,1896 0,0082 0,9685 17 0,1837 0,0080 0,9764 18 0,1568 0,0068 0,9833 19 0,1183 0,0051 0,9884 20 0,0926 0,0040 0,9924 21 0,0814 0,0035 0,9960 22 0,0585 0,0025 0,9985 23 0,0341 0,0015 1,0000
ANNEXE 13
Représentation des hommes sur les deux premiers axes d’inerties.
Représentation des hommes sur le premier et troisième axe d’inertie.
ANNEXE 14
Tableau des composantes des variables suite à la projection pour les hommes
c1 c2 c3 BL -0.47 0.3078 -0.1675 PB -0.61 0.0052 -0.5363 BC -0.72 0.0491 -0.4762
CDE -0.70 -0.3144 0.0031 CDI -0.75 -0.1367 0.0406 ED -0.69 0.4161 0.1545 WD -0.62 0.3451 0.2464 KD -0.59 0.4889 -0.1008 AD -0.58 0.4596 -0.0145 SG -0.79 -0.1745 0.3340
CHG -0.81 -0.3053 0.3297 WAG -0.76 -0.4749 -0.1563 NG -0.76 -0.4214 -0.2051 HG -0.87 -0.2695 -0.2064 TG -0.77 -0.2083 -0.0033 BG -0.75 -0.0986 0.5030 FG -0.77 0.0752 0.4783 KG -0.78 0.0684 -0.2210
CAG -0.75 0.0712 -0.0903 AG -0.72 0.1844 -0.0811
WRG -0.70 0.3326 0.3215 WHT -0.96 -0.1206 -0.0677 HHT -0.50 0.4113 -0.3212
ANNEXE 15
Représentation des variables pour les deux premiers axes d’inerties pour les hommes.
Représentation des variables sur le premier et troisième axe d’inertie pour les hommes.
ANNEXE 16
Tableau des corrélations du premier groupe de variables pour les hommes (C1,C2)
BL AD KD ED WD WRG HHT
BL 1,00 0,19 0,34 0,37 0,27 0,35 0,47 AD 0,19 1,00 0,55 0,61 0,49 0,51 0,42 KD 0,34 0,55 1,00 0,52 0,49 0,48 0,35 ED 0,37 0,61 0,52 1,00 0,60 0,59 0,49 WD 0,27 0,49 0,49 0,60 1,00 0,63 0,33
WRG 0,35 0,51 0,48 0,59 0,63 1,00 0,34 HHT 0,47 0,42 0,35 0,49 0,33 0,34 1,00
Tableau des corrélations du deuxième groupe de variables pour les hommes (C1,C2)
BC PB KG CAG FG AG
BC 1,00 0,72 0,56 0,52 0,36 0,37 PB 0,72 1,00 0,49 0,46 0,29 0,33 KG 0,56 0,49 1,00 0,76 0,53 0,69
CAG 0,52 0,46 0,76 1,00 0,55 0,70 FG 0,36 0,29 0,53 0,55 1,00 0,51 AG 0,37 0,33 0,69 0,70 0,51 1,00
Tableau des corrélations du troisième groupe de variables pour les hommes (C1,C2)
CDI CDE BG SG TG HG CHG NG WAG WHT
CDI 1,00 0,46 0,54 0,71 0,55 0,63 0,73 0,55 0,61 0,73 CDE 0,46 1,00 0,49 0,57 0,50 0,62 0,70 0,67 0,70 0,72 BG 0,54 0,49 1,00 0,76 0,66 0,57 0,78 0,47 0,47 0,69 SG 0,71 0,57 0,76 1,00 0,61 0,65 0,83 0,54 0,58 0,76 TG 0,55 0,50 0,66 0,61 1,00 0,79 0,60 0,55 0,56 0,77 HG 0,63 0,62 0,57 0,65 0,79 1,00 0,68 0,81 0,80 0,88
CHG 0,73 0,70 0,78 0,83 0,60 0,68 1,00 0,68 0,71 0,76 NG 0,55 0,67 0,47 0,54 0,55 0,81 0,68 1,00 0,88 0,78
WAG 0,61 0,70 0,47 0,58 0,56 0,80 0,71 0,88 1,00 0,81 WHT 0,73 0,72 0,69 0,76 0,77 0,88 0,76 0,78 0,81 1,00
ANNEXE 17
Tableau des corrélations du premier groupe de variables pour les hommes (C1, C3)
ED WD BG FG CHG SG WRG ED 1,00 0,60 0,55 0,61 0,51 0,51 0,59 WD 0,60 1,00 0,47 0,52 0,48 0,48 0,63 BG 0,55 0,47 1,00 0,86 0,78 0,76 0,61 FG 0,61 0,52 0,86 1,00 0,70 0,70 0,71
CHG 0,51 0,48 0,78 0,70 1,00 0,83 0,55 SG 0,51 0,48 0,76 0,70 0,83 1,00 0,54
WRG 0,59 0,63 0,61 0,71 0,55 0,54 1,00
Tableau des corrélations du premier groupe de variables pour les hommes (C1,C3)
CDI CDE TG AD WHT CAG AG KD WAG NG HG KG CDI 1,00 0,46 0,55 0,32 0,73 0,52 0,43 0,41 0,61 0,55 0,63 0,53 CDE 0,46 1,00 0,50 0,30 0,72 0,42 0,44 0,23 0,70 0,66 0,62 0,48 TG 0,55 0,50 1,00 0,30 0,77 0,70 0,52 0,43 0,56 0,55 0,79 0,66 AD 0,32 0,30 0,30 1,00 0,51 0,43 0,55 0,55 0,33 0,37 0,37 0,43
WHT 0,73 0,72 0,77 0,51 1,00 0,69 0,64 0,51 0,81 0,78 0,88 0,74 CAG 0,52 0,42 0,70 0,43 0,69 1,00 0,70 0,51 0,52 0,46 0,65 0,73 AG 0,43 0,44 0,52 0,55 0,64 0,70 1,00 0,46 0,48 0,51 0,59 0,69 KD 0,41 0,23 0,43 0,55 0,51 0,51 0,46 1,00 0,24 0,23 0,44 0,57
WAG 0,61 0,70 0,56 0,33 0,81 0,52 0,48 0,24 1,00 0,88 0,80 0,57 NG 0,55 0,66 0,55 0,37 0,78 0,46 0,51 0,23 0,88 1,00 0,81 0,56 HG 0,63 0,62 0,79 0,37 0,88 0,65 0,59 0,44 0,80 0,81 1,00 0,70 KG 0,53 0,48 0,66 0,43 0,74 0,73 0,69 0,57 0,57 0,56 0,70 1,00
Tableau des corrélations du troisième groupe de variables pour les hommes (C1,C3)
BL BC PB HHT
BL 1,00 0,46 0,35 0,48 BC 0,46 1,00 0,72 0,50 PB 0,35 0,72 1,00 0,42
HHT 0,48 0,50 0,42 1,00
ANNEXE 18
Tableau des valeurs propres pour les femmes seulement
Valeur propre Inertie partielle Inertie cumulée 1 13,4566 0,5850 0,5850 2 1,8967 0,0825 0,6675 3 1,3527 0,0588 0,7263 4 1,0482 0,0456 0,7719 5 0,8585 0,0373 0,8092 6 0,6254 0,0272 0,8364 7 0,5024 0,0218 0,8583 8 0,4366 0,0190 0,8773 9 0,4357 0,0189 0,8962
10 0,3436 0,0149 0,9111 11 0,3059 0,0133 0,9244 12 0,2849 0,0124 0,9368 13 0,2503 0,0109 0,9477 14 0,2119 0,0092 0,9569 15 0,1911 0,0083 0,9652 16 0,1645 0,0072 0,9724 17 0,1515 0,0066 0,9790 18 0,1271 0,0055 0,9845 19 0,1265 0,0055 0,9900 20 0,0827 0,0035 0,9936 21 0,0733 0,0032 0,9968 22 0,0457 0,0020 0,9988 23 0,0280 0,0012 1,000
ANNEXE 19
Représentation des femmes sur les deux premiers axes d’inerties.
Représentation des femmes sur le premier et troisième axe d’inertie.
ANNEXE 20
Tableau des composantes des variables suite à la projection pour les femmes
c1 c2 c3 BL -0.57 -0.434 -0.068 PB -0.56 -0.120 0.690 BC -0.74 -0.157 0.363
CDE -0.61 0.385 0.163 CDI -0.71 -0.011 -0.243 ED -0.73 -0.347 -0.061 WD -0.68 -0.432 -0.232 KD -0.83 -0.162 0.049 AD -0.61 -0.425 0.195 SG -0.82 0.099 -0.270
CHG -0.85 0.269 -0.105 WAG -0.82 0.412 0.084 NG -0.80 0.314 0.298 HG -0.89 0.202 0.194 TG -0.83 0.258 0.080 BG -0.85 0.319 -0.159 FG -0.88 0.076 -0.248 KG -0.85 -0.048 -0.030
CAG -0.80 -0.026 -0.136 AG -0.73 -0.152 -0.201
WRG -0.80 -0.216 -0.332 WHT -0.96 0.105 0.057 HHT -0.41 -0.598 0.271
ANNEXE 21
Représentation des variables sur les deux premiers axes d’inerties pour les femmes
Représentation des variables sur le premier et troisième axe d’inertie pour les femmes
ANNEXE 22
Tableau des corrélations du premier groupe des variables pour les femmes (C1,C2)
CDE BG NG CHG TG HG WAG SG FG WHT CDE 1,00 0,57 0,63 0,62 0,54 0,57 0,63 0,48 0,48 0,61 BG 0,57 1,00 0,75 0,82 0,75 0,77 0,80 0,74 0,87 0,82 NG 0,63 0,75 1,00 0,77 0,70 0,83 0,84 0,61 0,64 0,80
CHG 0,62 0,82 0,77 1,00 0,68 0,74 0,86 0,83 0,77 0,84 TG 0,54 0,75 0,70 0,68 1,00 0,90 0,73 0,63 0,73 0,86 HG 0,57 0,77 0,83 0,74 0,90 1,00 0,81 0,68 0,75 0,90
WAG 0,63 0,80 0,84 0,86 0,73 0,81 1,00 0,73 0,71 0,86 SG 0,48 0,74 0,61 0,83 0,63 0,68 0,73 1,00 0,75 0,79 FG 0,48 0,87 0,64 0,77 0,73 0,75 0,71 0,75 1,00 0,83
WHT 0,61 0,82 0,80 0,84 0,86 0,90 0,86 0,79 0,83 1,00
Tableau des corrélations du deuxième groupe des variables pour les femmes (C1,C2)
BC PB CDI KD KG AG WRG CAG BC 1,00 0,63 0,50 0,67 0,61 0,49 0,50 0,58 PB 0,63 1,00 0,27 0,49 0,44 0,28 0,29 0,34
CDI 0,50 0,27 1,00 0,52 0,49 0,45 0,56 0,47 KD 0,67 0,49 0,52 1,00 0,77 0,59 0,68 0,71 KG 0,61 0,44 0,49 0,77 1,00 0,70 0,70 0,80 AG 0,49 0,28 0,45 0,59 0,70 1,00 0,67 0,74
WRG 0,50 0,29 0,56 0,68 0,70 0,67 1,00 0,65 CAG 0,58 0,34 0,47 0,71 0,80 0,74 0,65 1,00
Tableau des corrélations du troisième groupe des variables pour les femmes (C1,C2)
BL AD ED WD HHT
BL 1,00 0,39 0,48 0,47 0,47 AD 0,39 1,00 0,65 0,60 0,40 ED 0,48 0,65 1,00 0,68 0,41 WD 0,47 0,60 0,68 1,00 0,40 HHT 0,47 0,40 0,41 0,40 1,00
ANNEXE 23
Tableau des corrélations du premier groupe de variables pour les femmes (C1, C3)
BC CDE AD KD NG HG WAG TG WHT BC 1,00 0,35 0,53 0,67 0,59 0,75 0,55 0,64 0,69
CDE 0,35 1,00 0,31 0,43 0,63 0,57 0,63 0,54 0,61 AD 0,53 0,31 1,00 0,60 0,46 0,46 0,33 0,38 0,49 KD 0,67 0,43 0,60 1,00 0,59 0,71 0,60 0,67 0,78 NG 0,59 0,63 0,46 0,59 1,00 0,83 0,84 0,70 0,80 HG 0,75 0,57 0,46 0,71 0,83 1,00 0,81 0,90 0,90
WAG 0,55 0,63 0,33 0,60 0,84 0,81 1,00 0,73 0,86 TG 0,64 0,54 0,38 0,67 0,70 0,90 0,73 1,00 0,86
WHT 0,69 0,61 0,49 0,78 0,80 0,90 0,86 0,86 1,00
Tableau des corrélations du deuxième groupe de variables pour les femmes (C1,C3)
BL CDI ED WD KG CHG CAG BG AG FG SG WRG BL 1,00 0,54 0,48 0,47 0,43 0,41 0,43 0,31 0,41 0,43 0,56 0,53 CDI 0,54 1,00 0,53 0,47 0,49 0,73 0,47 0,61 0,45 0,61 0,75 0,56 ED 0,48 0,53 1,00 0,68 0,57 0,57 0,53 0,54 0,48 0,66 0,58 0,64 WD 0,47 0,47 0,68 1,00 0,57 0,51 0,52 0,50 0,56 0,62 0,50 0,75 KG 0,43 0,49 0,57 0,57 1,00 0,62 0,80 0,68 0,70 0,75 0,65 0,70
CHG 0,41 0,73 0,57 0,51 0,62 1,00 0,58 0,82 0,51 0,77 0,83 0,64 CAG 0,43 0,47 0,53 0,52 0,80 0,58 1,00 0,67 0,74 0,74 0,63 0,65 BG 0,31 0,61 0,54 0,50 0,68 0,82 0,67 1,00 0,57 0,87 0,74 0,68 AG 0,41 0,45 0,48 0,56 0,70 0,51 0,74 0,57 1,00 0,64 0,56 0,67 FG 0,43 0,61 0,66 0,62 0,75 0,77 0,74 0,87 0,64 1,00 0,75 0,81 SG 0,56 0,75 0,58 0,50 0,65 0,83 0,63 0,74 0,56 0,75 1,00 0,66
WRG 0,53 0,56 0,64 0,75 0,70 0,64 0,65 0,68 0,67 0,81 0,66 1,00
ANNEXE 24
Matrice des corrélations :
BL PB BC CDE CDI ED WD
BL 1.0000000 0.3090358 0.4862726 0.5832585 0.7691406 0.7658212 0.7228388
PB 0.3090358 1.0000000 0.6734567 0.3567852 0.3311695 0.3228573 0.2792363
BC 0.4862726 0.6734567 1.0000000 0.4725560 0.5241288 0.5257579 0.4681583
CDE 0.5832585 0.3567852 0.4725560 1.0000000 0.6650702 0.6652377 0.6081147
CDI 0.7691406 0.3311695 0.5241288 0.6650702 1.0000000 0.7588682 0.7308643
ED 0.7658212 0.3228573 0.5257579 0.6652377 0.7588682 1.0000000 0.8399305
WD 0.7228388 0.2792363 0.4681583 0.6081147 0.7308643 0.8399305 1.0000000
KD 0.6359621 0.4377883 0.6083021 0.5502889 0.6590648 0.7315042 0.7124844
AD 0.6614162 0.3683128 0.4954057 0.5978540 0.6685389 0.8210977 0.7724489
SG 0.7925957 0.2772388 0.4787637 0.7376115 0.8706480 0.8194698 0.7783992
CHG 0.7218401 0.3256838 0.4880845 0.8065033 0.8703062 0.8031396 0.7665426
WAG 0.6416072 0.4347003 0.5702148 0.8037549 0.7880334 0.6946192 0.6807824
NG 0.3057128 0.5805152 0.6175048 0.6212365 0.5012123 0.4387605 0.3992720
HG 0.3400615 0.5641529 0.7482328 0.5563131 0.5212073 0.4393353 0.4223687
TG 0.1219279 0.4141551 0.5317738 0.3576541 0.3147735 0.2069166 0.1940200
BG 0.6950618 0.2991071 0.4801457 0.7328977 0.7923345 0.8047840 0.7621594
FG 0.7526421 0.2896823 0.4780849 0.7175490 0.8071175 0.8582063 0.8147088
KG 0.5079070 0.4724691 0.6233547 0.5636517 0.5928721 0.5909794 0.5818739
CAG 0.5108144 0.4070641 0.5929802 0.5535016 0.5969089 0.5799083 0.5814377
AG 0.6034678 0.3358175 0.5390628 0.5873425 0.6350210 0.6641619 0.6546945
WRG 0.7715976 0.2632546 0.4795170 0.6802408 0.7608931 0.8457563 0.8625527
WHT 0.7254145 0.4957573 0.6657252 0.8007315 0.8314645 0.8011938 0.7646054
HHT 0.7489218 0.3814241 0.4852790 0.5529111 0.6268931 0.7381129 0.6779616
KD AD SG CHG WAG NG HG
BL 0.6359621 0.6614162 0.7925957 0.7218401 0.6416072 0.3057128 0.3400615
PB 0.4377883 0.3683128 0.2772388 0.3256838 0.4347003 0.5805152 0.5641529
BC 0.6083021 0.4954057 0.4787637 0.4880845 0.5702148 0.6175048 0.7482328
CDE 0.5502889 0.5978540 0.7376115 0.8065033 0.8037549 0.6212365 0.5563131
CDI 0.6590648 0.6685389 0.8706480 0.8703062 0.7880334 0.5012123 0.5212073
ED 0.7315042 0.8210977 0.8194698 0.8031396 0.6946192 0.4387605 0.4393353
WD 0.7124844 0.7724489 0.7783992 0.7665426 0.6807824 0.3992720 0.4223687
KD 1.0000000 0.7232729 0.6818019 0.6522224 0.6239675 0.4712506 0.5795936
AD 0.7232729 1.0000000 0.6921115 0.7058718 0.6369715 0.4365745 0.4077358
SG 0.6818019 0.6921115 1.0000000 0.9271923 0.8234546 0.5154661 0.5336717
CHG 0.6522224 0.7058718 0.9271923 1.0000000 0.8837994 0.6229823 0.5834991
WAG 0.6239675 0.6369715 0.8234546 0.8837994 1.0000000 0.7547704 0.6923506
NG 0.4712506 0.4365745 0.5154661 0.6229823 0.7547704 1.0000000 0.8258924
HG 0.5795936 0.4077358 0.5336717 0.5834991 0.6923506 0.8258924 1.0000000
TG 0.4315276 0.1926277 0.3234272 0.3630508 0.4210849 0.6026428 0.8289411
BG 0.6814055 0.6862886 0.8951884 0.9081845 0.8047044 0.5578071 0.5598848
FG 0.7206519 0.7352504 0.8949838 0.8875909 0.7807924 0.4862181 0.5143585
KG 0.7338176 0.5423538 0.6247826 0.6140547 0.6582072 0.6120932 0.7349017
CAG 0.6860935 0.5436159 0.6270538 0.6088643 0.6313445 0.5247789 0.6745805
AG 0.6547070 0.6772298 0.6797568 0.6691396 0.6558891 0.5194785 0.5770429
WRG 0.7311803 0.7627486 0.8407085 0.8246754 0.7289813 0.4354197 0.4588567
WHT 0.7660485 0.7264682 0.8788342 0.8989595 0.9039908 0.7118165 0.7629691
HHT 0.5880951 0.6864505 0.6657353 0.6187309 0.5529605 0.3131968 0.3385840
TG BG FG KG CAG AG WRG
BL 0.1219279 0.6950618 0.7526421 0.5079070 0.5108144 0.6034678 0.7715976
PB 0.4141551 0.2991071 0.2896823 0.4724691 0.4070641 0.3358175 0.2632546
BC 0.5317738 0.4801457 0.4780849 0.6233547 0.5929802 0.5390628 0.4795170
CDE 0.3576541 0.7328977 0.7175490 0.5636517 0.5535016 0.5873425 0.6802408
CDI 0.3147735 0.7923345 0.8071175 0.5928721 0.5969089 0.6350210 0.7608931
ED 0.2069166 0.8047840 0.8582063 0.5909794 0.5799083 0.6641619 0.8457563
WD 0.1940200 0.7621594 0.8147088 0.5818739 0.5814377 0.6546945 0.8625527
KD 0.4315276 0.6814055 0.7206519 0.7338176 0.6860935 0.6547070 0.7311803
AD 0.1926277 0.6862886 0.7352504 0.5423538 0.5436159 0.6772298 0.7627486
SG 0.3234272 0.8951884 0.8949838 0.6247826 0.6270538 0.6797568 0.8407085
CHG 0.3630508 0.9081845 0.8875909 0.6140547 0.6088643 0.6691396 0.8246754
WAG 0.4210849 0.8047044 0.7807924 0.6582072 0.6313445 0.6558891 0.7289813
NG 0.6026428 0.5578071 0.4862181 0.6120932 0.5247789 0.5194785 0.4354197
HG 0.8289411 0.5598848 0.5143585 0.7349017 0.6745805 0.5770429 0.4588567
TG 1.0000000 0.4114580 0.3452848 0.6384400 0.6288901 0.4217687 0.2416102
BG 0.4114580 1.0000000 0.9423755 0.6207299 0.6374041 0.6693240 0.8479443
FG 0.3452848 0.9423755 1.0000000 0.6575450 0.6701918 0.7125539 0.9047086
KG 0.6384400 0.6207299 0.6575450 1.0000000 0.7958277 0.7377154 0.6409596
CAG 0.6288901 0.6374041 0.6701918 0.7958277 1.0000000 0.7622219 0.6476269
AG 0.4217687 0.6693240 0.7125539 0.7377154 0.7622219 1.0000000 0.7536365
WRG 0.2416102 0.8479443 0.9047086 0.6409596 0.6476269 0.7536365 1.0000000
WHT 0.5585626 0.8666722 0.8695531 0.7955518 0.7692826 0.7619985 0.8164884
HHT 0.1163097 0.5884151 0.6550178 0.5257018 0.4526826 0.5709096 0.6908343
WHT HHT
BL 0.7254145 0.7489218
PB 0.4957573 0.3814241
BC 0.6657252 0.4852790
CDE 0.8007315 0.5529111
CDI 0.8314645 0.6268931
ED 0.8011938 0.7381129
WD 0.7646054 0.6779616
KD 0.7660485 0.5880951
AD 0.7264682 0.6864505
SG 0.8788342 0.6657353
CHG 0.8989595 0.6187309
WAG 0.9039908 0.5529605
NG 0.7118165 0.3131968
HG 0.7629691 0.3385840
TG 0.5585626 0.1163097
BG 0.8666722 0.5884151
FG 0.8695531 0.6550178
KG 0.7955518 0.5257018
CAG 0.7692826 0.4526826
AG 0.7619985 0.5709096
WRG 0.8164884 0.6908343
WHT 1.0000000 0.7173011
HHT 0.7173011 1.0000000
ANNEXE 25
Tableau des moyennes et écart types des variables pour tous les individus
Variables Moyennes Écart types BL 38,80 3,06 BC 31,95 2,00 KD 18,78 1,30 AD 13,86 1,25 NG 85,51 9,24 BG 31,13 4,22 AG 22,14 1,85
WRG 16,08 1,37 WHT 68,91 13,03 HHT 171,1 9,43
Tableau des moyennes et écart types des variables pour les hommes
Variables Moyennes Écart types
BL 41,23 2,09 BC 32,51 1,85 KD 19,55 1,05 AD 14,74 0,94 NG 87,59 8,33 BG 34,38 2,97 AG 23,14 1,72
WRG 17,18 0,90 WHT 77,99 10,25 HHT 177,75 7,20
Tableau des moyennes et écart types des variables pour les femmes
Variables Moyennes Écart types
BL 36,48 1.77 BC 31,41 2.00 KD 18,06 1.09 AD 13,02 0.87 NG 83,52 9.63 BG 28,02 2.56 AG 21,18 1.40
WRG 15,04 0.81 WHT 60,26 8.83 HHT 164,84 6.55
ANNEXE 26
Matrice T-1 : BL BC KD AD NG
BL 7.338267e-04 -1.460625e-04 -9.787882e-05 4.710674e-05 4.494620e-05
BC -1.460625e-04 1.036768e-03 -6.665572e-04 1.588028e-04 -1.192052e-04
KD -9.787882e-05 -6.665572e-04 3.375093e-03 -1.175130e-03 4.650998e-06
AD 4.710674e-05 1.588028e-04 -1.175130e-03 4.186501e-03 -1.073592e-05
NG 4.494620e-05 -1.192052e-04 4.650998e-06 -1.073592e-05 5.292432e-05
BG -7.437324e-05 7.157627e-05 -5.605230e-05 -3.694776e-05 -2.629645e-05
AG 1.218404e-05 -1.778997e-04 -1.582050e-04 -3.132210e-04 -4.564048e-05
WRG -5.296727e-04 2.370850e-04 -7.767458e-04 -8.916336e-04 5.609714e-05
WHT -2.160641e-05 2.820184e-05 1.927743e-05 -5.057060e-05 -1.486706e-05
HHT -8.419510e-05 -6.415263e-05 -3.495240e-05 -9.372779e-05 -2.591575e-06
BG AG WRG WHT HHT
BL -7.437324e-05 1.218404e-05 -5.296727e-04 -2.160641e-05 -8.419510e-05
BC 7.157627e-05 -1.778997e-04 2.370850e-04 2.820184e-05 -6.415263e-05
KD -5.605230e-05 -1.582050e-04 -7.767458e-04 1.927743e-05 -3.495240e-05
AD -3.694776e-05 -3.132210e-04 -8.916336e-04 -5.057060e-05 -9.372779e-05
NG -2.629645e-05 -4.564048e-05 5.609714e-05 -1.486706e-05 -2.591575e-06
BG 6.384200e-04 1.267096e-04 -1.023888e-03 -9.877336e-05 2.933530e-05
AG 1.267096e-04 1.605385e-03 -1.172047e-03 -3.293083e-05 -1.124551e-05
WRG -1.023888e-03 -1.172047e-03 6.685291e-03 5.574863e-05 -1.076101e-04
WHT -9.877336e-05 -3.293083e-05 5.574863e-05 5.036558e-05 5.677305e-06
HHT 2.933530e-05 -1.124551e-05 -1.076101e-04 5.677305e-06 4.777169e-05
Analyse de l’influence de caractéristiques de mise encorrespondance sur la vision stéréoscopique par ordinateur
Jean-Christophe Houde
3 mars 2010
1 IntroductionEn informatique, le domaine de la vision par ordinateur est l’ensemble des techniques développées
afin de permettre à un ordinateur de « comprendre » ce qui est représenté dans une image. En effet, pourun ordinateur, une image n’est qu’une matrice de valeurs numériques. Les chercheurs de ce domainetentent donc de trouver des techniques permettant, de manière mathématique, de découvrir le contenud’une image.
2 Position du problèmeL’une des familles d’approches permettant à un ordinateur de « voir » est la stéréovision. Dans cette
famille d’approches, qui est semblable à la vision binoculaire humaine, deux images de la scène sontcaptées de deux points de vue légèrement différents. Par la suite, les algorithmes tentent de mettre encorrespondance les pixels des deux images. Ces correspondances permettent, en connaissant la géométriedes caméras, d’estimer la profondeur des points associés aux pixels. Par la suite, grâce à ces informa-tions, il est possible de trouver des informations importantes, comme la structure de l’environnement.La plupart des techniques de mise en correspondance cherchent les correspondances entre les pixels dedeux images, généralement notées Ig et Id, pour l’image de gauche et de droite respectivement. Cetterecherche est souvent faite en cherchant les pixels minimisant la différence de valeur de différentes ca-ractéristiques. On tentera d’analyser l’importance, l’utilité et la qualité des correspondances obtenues àl’aide de certaines des caractéristiques les plus utilisées.
3 Présentation des donnéesAfin d’effectuer l’analyse, nous avons calculé la valeur de plusieurs caractéristiques sur plusieurs
paires d’images. Plus précisément, nous avons utilisé quatre paires d’images provenant de l’ensembled’images du Middlebury College ([2] et [3]). Pour l’ensemble de données de 2001, les paires d’images
1
utilisées sont les images im2.ppm et im6.ppm des séquences « Barn1 » et « Sawtooth ». De même, lesimages im2.ppm et im6.ppm sont utilisées pour les séquences « Cones » et « Teddy » de l’ensemble dedonnées de 2003. Pour chacune de ces paires d’images, des pixels ont été régulièrement échantillonnés.Pour chacun de ces échantillons, les caractéristiques suivantes ont été calculées :
– Moyenne sur un voisinage– Écart-type sur un voisinage– Valeur minimale d’un pixel du voisinage– Valeur maximale d’un pixel du voisinage– Gradients en X et en Y pour le pixel courantPour ce qui est des caractéristiques impliquant un voisinage, elles ont été calculées avec différentes
grandeurs de voisinage. Les tailles de voisinages utilisées sont : 3x3, 5x5, 7x7, 9x9, 11x11, 13x13 et15x15. Pour ces voisinages, le pixel courant se trouvait toujours au milieu du carré. De plus, pour lacaractéristique de la moyenne sur un voisinage, nous avons aussi testé avec un voisinage de 1x1, c’est-à-dire uniquement le pixel courant. Les caractéristiques étaient calculées pour chacun des échantillons del’image de référence. Par la suite, comme les paires d’images sont fournies avec des images de vérité-terrain, qui indiquent la vraie disparité pour chaque pixel d’une image, il était possible de trouver lepixel correspondant dans l’image de mise en correspondance. La valeur des caractéristiques était alorsaussi calculée pour le pixel correspondant à chaque échantillon original. Finalement, comme on désireétablir une correspondance entre les pixels d’origine et les pixels de destination, la différence entre lavaleur de la caractéristique pour l’image de référence et la valeur pour l’image de correspondance étaitcalculée. Les variables à analyser sont donc les différences entre chacune de ces caractéristiques et lesobservations sont les pixels échantillonnés.
4 Présentation du modèle
4.1 Choix du modèleComme le but de ce travail était d’analyser l’influence et les relations entre les différentes carac-
téristiques pour la mise en correspondance (et donc entre les variables), nous avons utilisé l’analyseen composantes principales. Celle-ci nous a permis de voir si certaines variables sont meilleures qued’autres pour expliquer l’inertie des observations.
4.2 Analyse en composantes principalesLe modèle utilisé pour analyser les données est l’analyse en composantes principales. Cette méthode
est utilisée pour tenter d’obtenir un résumé simplifié des données d’entrée. Elle est habituellement uti-lisée lorsque le problème est composé d’un grand nombre de variables, ce qui implique une grandedimensionalité des observations.
Le principe général de la méthode est le suivant : on a un nuage d’observations dans un espace Rp.On peut calculer une mesure d’inertie sur ces observations. L’inertie représente la « dispersion » des
2
données dans l’espace. Une grande inertie indique que les données sont très dispersées, tandis qu’unefaible inertie indique que les observations sont rapprochées les unes des autres. Le but de l’analyse encomposantes principales est de trouver de nouveaux axes, formant une nouvelle base de l’espace, etautour desquels l’inertie est minimale. Ces nouveaux axes sont en fait des combinaisons linéaires desvariables initiales.
De façon résumée, la méthode pour trouver les axes principaux consiste à maximiser le produit dematrice utAV Au sous la contrainte utAu = 1, où V est la matrice de variances-covariances des obser-vations et A est la matrice représentant la métrique associée à l’espace de nos observations. Dans notrecas, A = I . On peut prouver ([1]) que cela revient à chercher les valeurs propres de V A. Les axes prin-cipaux seront alors les vecteurs propres associés aux valeurs propres trouvées. Par la suite, connaissantces valeurs et vecteurs propres, il est possible de calculer le pourcentage d’inertie expliquée par chaqueaxe principal, et ainsi avoir une idée de la représentativité de chaque axe.
Présuppositions et hypothèses du modèle Afin de donner des résultats corrects, les données doiventêtre centrées. Pour chaque variable de chaque observation, on doit donc soustraire la moyenne de cettevariable sur toutes les observations. De plus, si les données sont réduites, on pourra utiliser le cercle descorrélations lors de la représentation des variables sur le nouveau système d’axes. Cela permet d’établirdes relations entre les projections des différentes variables, chose qui ne serait pas possible si les donnéesn’étaient pas réduites. De plus, afin que le modèle puisse être utilisé et qu’il produise des résultatscorrects, les variables doivent être indépendantes.
4.3 Critique du modèleL’analyse en composantes principales a plusieurs avantages. Elle permet entre autres de visualiser
plus facilement des données de grande dimension en les représentant à l’aide de seulement deux outrois axes. Elle permet aussi, dans les cas idéaux, de trouver des combinaisons de variables originalesexpliquant une grande partie de l’inertie du nuage de points lié aux observations originales. À l’aide deces combinaisons, si on veut voir la proximité de deux observations dans le nouveau repère, il suffit decalculer la valeur des combinaisons linéaires et de comparer les deux résultats. Cette proximité ne permetcependant pas de conclure que les observations sont près dans l’espace original.
Bien sûr, l’analyse en composantes principales possède aussi des désavantages. Parmi ceux-ci, notonsle fait que, même si les projections de 2 observations sur un plan composé de 2 axes principaux sontrapprochées sur ce plan, on ne peut pas automatiquement conclure que ces observations sont prochesdans l’espace n-dimensionnel original. Un autre inconvénient majeur est qu’il n’y a aucune garantie queles axes principaux que l’on trouvera seront très représentatifs des données. Par exemple, si l’inertie dunuage de points original est très élevée, il est possible que l’inertie totale expliquée par les 3 premiersaxes principaux ne soit que 45 %, ce qui ne permet pas de bien représenter les observations initiales, nide tirer de conclusions très fiables sur l’influence des variables par rapport à l’inertie du nuage.
3
5 Analyse des résultatsAvant de passer à l’analyse en tant que telle, il est important de bien situer la problématique et les
variables impliquées, afin que l’analyse soit bien comprise. Dans le cadre de notre problématique, nousrecherchons les caractéristiques de mise en correspondance ayant le moins d’inertie. En effet, une faibleinertie des observations initiales implique que celles-ci sont assez regroupées dans l’espace original. Deplus, nos variables représentent toutes la différence entre la valeur d’une caractéristique pour l’imagede gauche avec la valeur de cette même caractéristique pour l’image de droite. Comme nous possédonsles vérités-terrain pour nos paires d’images, nous connaissons la meilleure mise en correspondance.Lorsque nous calculons la valeur d’une caractéristique pour deux points correspondants, nous utilisonscette correspondance. Nous voulons donc que les deux valeurs de la caractéristique soient semblables,car la procédure de mise en correspondance cherche les points ayant les valeurs les plus semblablespour certaines caractéristiques. Comme nous calculons la différence entre les deux valeurs, plus unevariable est près de 0, plus les valeurs de la caractéristique la composant seront près l’une de l’autre.Cela implique que si les observations ont une faible inertie autour d’un certain axe, la variable liée à cetaxe est un bon indicateur pour la mise en correspondance.
5.1 Traitement informatiqueLes données ont été obtenues à l’aide d’un programme que nous avons développé. Pour ce qui est de
l’analyse en composantes principales, elle a été effectuée à l’aide de Matlab 2009a, et plus principale-ment, de la fonction princomp.
5.2 Résultats brutsMaintenant, comme nous avons analysé quatre paires d’images différentes, et que nous analysions 31
variables, il serait malaisé et lourd de présenter l’entièreté des résultats pour chaque paire d’images. Nousprésenterons donc les résultats importants et démonstratifs, puis nous tirerons des conclusions générales.Notons aussi que, pour chaque paire, nous avons effectué l’analyse en calculant les variables pour unemise en correspondance de gauche à droite et pour une mise en correspondance de droite à gauche.Nous nous limiterons aux résultats pour la correspondance de gauche à droite, car les résultats sont trèssemblables pour l’autre cas.
Le premier élément permettant d’analyser les résultats sont les valeurs des coefficients de corrélationentre les variables originales et les trois premiers axes principaux. Ces valeurs sont présentées aux ta-bleaux 6.1 et 6.2. Comme ces valeurs sont un peu abstraites, nous présentons des graphiques permettantde visualiser les projections des variables en 3D. Nous avons choisi de ne pas mettre les projections 2D,car il y aurait eu trois graphiques pour chaque paire d’images, et comme il y a quatre paires d’images, letexte aurait été inutilement surchargé. Ces images sont présentées à la figure 5.1.
De plus, afin d’avoir une idée de l’importance de chaque axe principal, nous présentons aussi les pour-centages d’inertie expliquée pour les six premiers axes, pour chaque paire d’images. Les pourcentagessont présentés au tableau 5.1.
4
TABLE 5.1: Pourcentages d’inertie expliquée par axe pour 4 paires d’images.Axe Barn1 Sawtooth Cones Teddy
1 36.739 (36.739) 35.884 (35.884) 45.674 (45.674) 53.908 (53.908)2 15.430 (52.169) 14.428 (50.312) 18.769 (64.443) 16.405 (70.313)3 15.132 (67.301) 12.768 (63.080) 12.603 (77.046) 12.461 (82.775)4 6.6813 (73.983) 8.7125 (71.793) 5.3224 (82.369) 3.7673 (86.542)5 5.5405 (79.523) 5.9913 (77.784) 3.7608 (86.130) 3.3872 (89.929)6 4.2182 (83.742) 3.6022 (81.386) 2.9064 (89.036) 2.9841 (92.913)
La première valeur de chaque colonne est le pourcentage d’inertie expliquée par cet axe pour cette paired’images, et la valeur entre parenthèses est la valeur totale, comprenant cet axe.
Plusieurs conclusions peuvent être atteintes avec les données que l’on possède. Avant de signalerces conclusions, il importe de signaler que les conclusions que l’on tire des données présentes ne sontapplicables que pour les paires d’images que l’on a analysées. Bien sûr, certaines généralisations sontpossibles, mais comme une image peut représenter n’importe quelle scène, aucune généralisation nesaurait être parfaite. De plus, de par la procédure d’expérimentation, nous avons dû utiliser des imagespour lesquelles nous avions des vérités-terrain. Or, pour s’assurer que leurs vérités-terrain soient degrande qualité, les auteurs de ces images ont dû créer des images sur lesquelles ils avaient un contrôleabsolu. Ce sont donc des images réelles, mais qui représentent un environnement contrôlé. Il n’y a aucunbruit dans ces images. La validité de nos conclusions ne serait certainement pas la même avec des imagesprises à l’aide d’une caméra réelle, à l’extérieur, avec des changements d’éclairage, par exemple.
5.3 Remarques sur la dépendance linéaireUne première remarque, qui peut être vue comme une conclusion, est que, au cours de la recherche,
une première itération des calculs a été faite sur un ensemble plus grand de variables. En effet, à lapremière itération de l’expérience, nous avions aussi considéré la caractéristique de différence pixel àpixel entre les deux images, pour un certain voisinage. Cette caractéristique est définie comme
PPDiff =n∑
i=1
Ig(i)− Id(i + dispi)
où PPDiff est la valeur courante de la caractéristique, i est un indicateur de l’index du pixel àconsidérer, n est la grandeur du voisinage, Ig et Id sont respectivement les images gauche et de droite,et dispi est la valeur de disparité pour le pixel i à partir de l’image de gauche vers l’image de droite.Cette caractéristique était calculée sur les mêmes grandeurs de voisinage que les autres caractéristiques.En observant les résultats obtenus en ayant ces variables supplémentaires, nous avons constaté que lesvariables de cette famille étaient toujours projetées exactement au même endroit que les variables dela famille de la différence de moyenne sur un voisinage. Cela nous a indiqué que les variables de ces
5
deux familles sont linéairement dépendantes. Les variables de la famille « différence de moyenne » sontdéfinies comme
MoyDiff =1
n
n∑i=1
Ig(i)− 1
n
n∑i=1
Id(i + dispi)
qui, en simplifiant, peut s’écrire
MoyDiff =1
n(
n∑i=1
Ig(i)− Id(i + dispi))
Il est possible de constater que la seule différence entre les deux types de variables est le facteur 1n
, quiest constant pour une grandeur de voisinage. Les deux variables sont donc linéairement dépendantes, cequi cause un problème lors de l’analyse en composantes principales. Nous avons donc décidé de refairel’analyse en éliminant les variables de la famille « différence pixel à pixel ».
5.4 Conclusions individuellesSimilarité du comportement des variables de même famille Au point de vue des conclusions, re-marquons tout d’abord que, pour toutes les paires d’images testées, les caractéristiques similaires (parexemple, la différence de moyenne calculée sur différentes grandeurs de voisinage) ont des valeurs decorrélations similaires par rapport à chaque axe. Autrement dit, elles ont une projection similaire dansles repères créés par les axes principaux. Elles ont donc une influence similaire lors de la création desaxes.
Variables basées sur l’écart-type On remarque aussi que toutes les variables liées à la différenced’écart-type sont extrêmement près l’une de l’autre, et ce, pour toutes les paires d’images testées. Deplus, en observant les coefficients de corrélation pour les variables de ce groupe, on remarque qu’ellessont toujours très fortement corrélées avec le deuxième axe principal, quelle que soit la paire d’imageschoisie. À l’inverse, toutes les autres variables sont peu corrélées avec ce même axe. On conclut doncque les variables liées à la différence d’écart-type sont utiles pour expliquer, en moyenne, 16.25 % del’inertie du nuage de points initial.
Variables basées sur le minimum et le maximum En observant les coefficients de corrélation, il estaussi possible de voir que les variables liées à la différence de minimum et celles liées à la différence demaximum sont toujours opposées par rapport au troisième axe principal. Autrement dit, si une variableliée à la différence de maximum a un coefficient de corrélation négatif par rapport au troisième axeprincipal, la variable liée à la différence de minimum sur un voisinage de même grandeur aura un coef-ficient de corrélation positif. Pour ce qui est des deux paires d’images de 2001 (Barn1 et Sawtooth), lescoefficients de corrélation pour les deux variables sur la même grandeur de voisinage n’ont pas nécessai-rement le même ordre de grandeur. Cependant, pour les deux paires d’images de 2003 (Cones et Teddy),
6
les deux variables opposées ont des coefficients de corrélation qui ont presque la même magnitude. Deplus, on remarque, surtout pour les images de 2003, que ces variables sont celles avec les coefficients decorrélation les plus élevés avec cet axe, et que les autres groupes de variables sont faiblement corrélésavec ce même axe. Pour ce qui est des images de 2001, la différence entre les valeurs de coefficients decorrélation est moins marquée. L’explication la plus plausible que nous ayons trouvé est que les imagesde 2001 possèdent plus de zones où la variation de couleur est petite. Cela implique que la différenceentre les valeurs minimales et maximales du voisinage d’un pixel sera moins grande que dans une imagetrès texturée, comme les deux paires d’images de 2003.
Variables basées sur les différences de gradient Une autre observation est que les variables XGrad-Diff et YGradDiff (différences de valeur de gradient) sont très peu corrélées avec les trois premiers axesprincipaux. En fait, il faut souvent regarder le cinquième ou sixième axe principal avant de trouver unaxe avec lequel ces deux variables ont une forte corrélation. En moyenne, le cinquième axe principal ex-plique 4.67 % de l’inertie des nuages de points initiaux, tandis que le sixième en explique 3.42 %. Ce quel’on peut conclure de cette situation est que, comme XGradDiff et YGradDiff sont faiblement corréléesavec la plupart des premiers axes principaux, et qu’elles sont très corrélées avec seulement un axe, cesvariables n’expliquent que peu d’inertie du nuage initial. Cela implique finalement que les valeurs queprennent ces variables sur les observations sont toutes rapprochées, et donc, dans notre contexte, que lescaractéristiques associées à ces variables sont semblables lorsque l’on a de bonnes correspondances, cequi correspond à l’intuition utilisée par les processus de recherche de correspondances.
5.5 Conclusions généralesIl est possible de tirer trois grands constats des conclusions individuelles énumérées ci-haut. Tout
d’abord, les deux variables basées sur le gradient sont celles qui expliquent le moins d’inertie. Commeon a expliqué plus haut, cela montre que ce sont les deux variables qui sont les plus fiables lors de lamise en correspondance. Cela correspond à la connaissance générale en vision par ordinateur, c’est-à-dire que les caractéristiques basées sur la texture (mesurée entre autres à l’aide du gradient) donnenthabituellement de très bons résultats. Une autre tendance est que les variables basées sur les valeursminimales et maximales dans un voisinage ont une influence très variable sur l’inertie du nuage depoints. On en déduit que ces deux familles de variables ne sont pas très fiables pour effectuer une miseen correspondance. La dernière tendance qui peut être identifiée est que, pour les variables basées surla moyenne et l’écart-type, les projections de ces variables sont en général assez près entre elles. Lesvariables de chaque famille ont donc toutes une influence semblable sur l’inertie du nuage de points.Il serait donc possible de ne choisir qu’une variable par famille pour représenter chaque famille. Celasimplifierait les calculs.
7
6 ConclusionEn résumé, nous avons effectué l’analyse en composantes principales de nuages de points représen-
tant des observations liées à la problématique de la mise en correspondance dans le domaine de la visionpar ordinateur. Les variables de notre problème étaient des caractéristiques calculées sur un voisinage etutilisées afin de mettre en correspondance les pixels de deux images. Nous avons constaté que, comme ilest souvent admis dans le domaine de la vision par ordinateur, les caractéristiques basées sur le gradientde l’image sont celles qui ont la meilleure fidélité lorsque la mise en correspondance est bonne. Cetteconstatation a été faite en considérant que c’était la famille de caractéristiques expliquant le moins d’iner-tie parmi toutes les familles étudiées. De plus, nous avons constaté qu’il serait possible, afin de simplifierles calculs, d’utiliser les caractéristiques basées sur la moyenne et celles basées sur l’écart-type en necalculant qu’une seule grandeur de voisinage. Finalement, nous avons vu que les caractéristiques baséessur les valeurs minimales et maximales d’un voisinage ne sont pas très fiables.
Il serait intéressant de recommencer la procédure en utilisant d’autres caractéristiques plus complexes.Le problème est qu’il faudrait s’assurer que celles-ci sont linéairement indépendantes des caractéristiquesdéjà utilisées. Il serait aussi utile, afin de pouvoir étendre les conclusions à d’autres types d’images, d’ef-fectuer les tests sur d’autres banques d’images. Le problème est qu’il est difficile de trouver des banquesd’images ayant des vérités-terrain de qualité, ce qui est essentiel dans notre procédure. Finalement, ilserait intéressant d’étudier l’influence d’une erreur de mise en correspondance sur les résultats et lesconclusions obtenues. Par exemple, est-ce que la famille de caractéristiques basées sur la moyenne estplus tolérante à une erreur d’un ou deux pixels de disparité que la famille basée sur le gradient ?
8
−5
0
5−8 −6 −4 −2 0 2 4 6 8
−8
−6
−4
−2
0
2
4
6
8
Axe 1
5PMaD
3PMaD
5PMeD 7PMeD
7PMaD
3PMeD 9PMeD
9PMaD
11PMeD
11PMaD
13PMeD1PMeD
15PMeD
3PMiD
13PMaD
15PMaD
5PMiD
YGradD
Axe 2
7PMiD
Projections des variables pour la paire Barn1
XGradD
9PMiD 11PMiD
15PMiD
13PMiD
3PECD 5PECD 7PECD 9PECD 15PECD11PECD13PECDAxe
3
(a) Projection Barn1
−8−6−4−202468
−5
0
5
−8
−6
−4
−2
0
2
4
6
8
13PMiD11PMiD9PMiD 7PMiD
15PMiD
Axe 1
5PMiD
Projections des variables pour la paire Sawtooth
XGradD
YGradD
3PMiD
1PMeD
3PECD 5PECD 7PECD 9PECD 11PECD13PECD15PECD
15PMaD
3PMeD
13PMaD
3PMaD
11PMaD
5PMeD
5PMaD 7PMaD
7PMeD
9PMaD
9PMeD
15PMeD13PMeD
11PMeD
Axe 2
Axe
3
(b) Projections Sawtooth
−8−6
−4−2
02
46
8
−5
0
5
−8
−6
−4
−2
0
2
4
6
8
Axe 1
3PECD 7PECD 5PECD 9PECD 11PECD13PECD15PECD
Projections des variables de la paire Cones
XGradDYGradD
15PMaD11PMaD13PMaD9PMaD
15PMiD
7PMaD
13PMiD11PMiD
5PMaD
9PMiD
3PMaD
1PMeD
7PMiD 5PMiD 3PMiD
Axe 2
3PMeD
15PMeD13PMeD5PMeD 11PMeD9PMeD 7PMeD
Axe
3
(c) Projections Cones
−5
0
5
−5
0
5
−8
−6
−4
−2
0
2
4
6
8
Axe 1
3PECD 5PECD 7PECD 9PECD 11PECD13PECD15PECD
YGradD
Projections des variables de la paire Teddy
XGradD
15PMaD13PMaD
Axe 2
11PMaD
15PMiD13PMiD11PMiD
9PMaD
9PMiD
7PMaD
7PMiD
5PMaD
5PMiD
3PMaD
3PMiD
1PMeD 3PMeD 15PMeD13PMeD5PMeD 11PMeD7PMeD 9PMeD
Axe
3
(d) Projections Teddy
FIGURE 5.1: Projections des variables originales sur l’espace créé par les trois permiers axes principaux,pour chaque paire d’images étudiées.
9
Annexe 1Voici les tableaux montrant les coefficients de corrélation entre les variables originales et les 3 pre-
miers axes principaux trouvés.
TABLE 6.1: Coefficients de corrélation des variables originales et des trois premiers axes principaux pourles paires Barn1 et Sawtooth (ensemble d’images de 2001).
Barn1 SawtoothVariables Facteur 1 Facteur 2 Facteur 3 Facteur 1 Facteur 2 Facteur 31PMoyDiff -0.689 0.288 0.130 0.177 -0.158 0.2283PMoyDiff -0.856 0.341 0.135 0.558 -0.185 0.4885PMoyDiff -0.885 0.353 0.106 0.709 -0.199 0.5167PMoyDiff -0.902 0.345 0.098 0.769 -0.211 0.4959PMoyDiff -0.912 0.321 0.094 0.824 -0.217 0.42411PMoyDiff -0.905 0.287 0.107 0.874 -0.249 0.26613PMoyDiff -0.885 0.242 0.131 0.867 -0.258 0.13115PMoyDiff -0.851 0.197 0.141 0.830 -0.252 0.0423PMinDiff -0.774 0.199 0.324 0.125 0.063 0.5255PMinDiff -0.625 0.039 0.452 0.009 0.192 0.5637PMinDiff -0.485 -0.125 0.556 -0.185 0.348 0.6189PMinDiff -0.421 -0.270 0.609 -0.192 0.442 0.60411PMinDiff -0.400 -0.299 0.628 -0.254 0.449 0.57113PMinDiff -0.323 -0.340 0.585 -0.269 0.423 0.52615PMinDiff -0.209 -0.250 0.446 -0.190 0.318 0.4133PMaxDiff -0.662 0.424 -0.138 0.680 -0.237 0.2545PMaxDiff -0.545 0.475 -0.326 0.723 -0.249 0.1797PMaxDiff -0.187 0.523 -0.502 0.721 -0.297 0.0659PMaxDiff -0.096 0.516 -0.618 0.726 -0.337 -0.11311PMaxDiff -0.064 0.477 -0.543 0.658 -0.323 -0.26313PMaxDiff -0.070 0.366 -0.410 0.566 -0.297 -0.30415PMaxDiff -0.116 0.261 -0.330 0.499 -0.263 -0.2953PECDiff -0.608 -0.492 -0.380 0.600 0.644 -0.1925PECDiff -0.670 -0.536 -0.410 0.663 0.658 -0.1857PECDiff -0.679 -0.565 -0.426 0.695 0.661 -0.1859PECDiff -0.661 -0.586 -0.444 0.720 0.642 -0.19811PECDiff -0.638 -0.603 -0.443 0.749 0.599 -0.22413PECDiff -0.622 -0.604 -0.426 0.752 0.558 -0.24515PECDiff -0.606 -0.593 -0.412 0.748 0.511 -0.261XGradDiff 0.087 0.014 -0.245 0.065 0.173 0.151YGradDiff -0.114 0.066 -0.113 0.033 0.042 0.238
10
TABLE 6.2: Coefficients de corrélation des variables originales et des trois premiers axes principaux pourles paires Cones et Teddy (ensemble d’images de 2003).
Cones TeddyVariables Facteur 1 Facteur 2 Facteur 3 Facteur 1 Facteur 2 Facteur 31PMoyDiff -0.782 0.213 -0.083 0.884 -0.191 0.0123PMoyDiff -0.887 0.237 -0.055 0.929 -0.210 0.0035PMoyDiff -0.925 0.234 -0.025 0.947 -0.216 -0.0077PMoyDiff -0.945 0.229 0.017 0.957 -0.213 -0.0099PMoyDiff -0.954 0.212 0.043 0.964 -0.207 -0.00511PMoyDiff -0.953 0.201 0.058 0.968 -0.201 -0.00313PMoyDiff -0.946 0.193 0.076 0.966 -0.195 -0.00115PMoyDiff -0.933 0.190 0.085 0.961 -0.189 -0.0013PMinDiff -0.768 0.279 -0.259 0.848 -0.207 0.2395PMinDiff -0.738 0.304 -0.326 0.815 -0.223 0.3377PMinDiff -0.693 0.335 -0.413 0.781 -0.172 0.4819PMinDiff -0.627 0.274 -0.507 0.703 -0.195 0.54411PMinDiff -0.583 0.253 -0.556 0.642 -0.170 0.59513PMinDiff -0.511 0.261 -0.534 0.625 -0.161 0.58515PMinDiff -0.385 0.286 -0.526 0.593 -0.181 0.5563PMaxDiff -0.818 0.150 0.192 0.850 -0.199 -0.2305PMaxDiff -0.763 0.055 0.358 0.823 -0.173 -0.3467PMaxDiff -0.675 0.001 0.538 0.763 -0.161 -0.4899PMaxDiff -0.601 -0.040 0.655 0.693 -0.162 -0.60411PMaxDiff -0.534 -0.050 0.676 0.600 -0.161 -0.64713PMaxDiff -0.538 -0.019 0.674 0.554 -0.162 -0.67615PMaxDiff -0.521 -0.034 0.635 0.486 -0.114 -0.6583PECDiff -0.471 -0.808 -0.195 0.572 0.773 0.0085PECDiff -0.488 -0.829 -0.188 0.590 0.790 0.0087PECDiff -0.496 -0.842 -0.169 0.598 0.796 0.0079PECDiff -0.503 -0.845 -0.154 0.602 0.794 0.00611PECDiff -0.508 -0.840 -0.139 0.603 0.789 0.00413PECDiff -0.507 -0.832 -0.128 0.604 0.780 0.00415PECDiff -0.503 -0.823 -0.119 0.604 0.770 0.003XGradDiff -0.058 -0.021 0.131 0.116 0.010 0.256YGradDiff -0.101 0.025 0.083 -0.031 -0.014 0.022
11
Références[1] F. CAILLIEZ et J.-P. PAGES : Introduction à l’analyse des données, chapitre 8, pages 239–244.
SMASH, 1976.
[2] D. SCHARSTEIN et R. SZELISKI : High-accuracy stereo depth maps using structured light. In Com-puter Vision and Pattern Recognition, 2003. Proceedings. 2003 IEEE Computer Society Conferenceon, volume 1, pages I–195–I–202 vol.1, June 2003.
[3] Daniel SCHARSTEIN et Richard SZELISKI : A taxonomy and evaluation of dense two-frame ste-reo correspondence algorithms. International Journal of Computer Vision, 47(1-3):7–42, April2002. ISSN 0920-5691 (Print) 1573-1405 (Online). URL http://vision.middlebury.edu/stereo/taxonomy-IJCV.pdf.
12
Classification et caracterisation des rivieres auQuebec
Youness MIR
Departement de mathematiquesUniversite de Sherbrooke
2500 Boulevard de l’UniversiteSherbrooke (Qc), Canada, J1K 2R1
Resume : Le reseau hydrologique du Quebec se caracterise par son etendue al’echelle de toute la province et compte une centaine de rivieres dont le debit varieconsiderablement sur toute l’annee. Dans ce travail, nous proposons de caracteriseret classifier les rivieres selon leurs debits saisonniers. A fin de resoudre ce problemenous exploiterons la methode d’analyse en composantes principales.
Mots cles : Debits mensuels et saisonniers, analyse en composantes principales.
1. Introduction
Le reseau hydrologique du Quebec est unique au monde et compte une centainede rivieres reparti sur toute la province et trois grands bassins versants : le bassinde Saint-Laurent (673000 km2), le bassin de Baies d’Ungava (518000 km2) et lebassin d’Hudson (492000 km2). La forte consommation de l’eau, l’electricite ainsique plusieurs autres facteurs anthropiques modifie les conditions d’ecoulement d’eaudans les rivieres et par consequent la vie de plusieurs especes aquatiques et semi-aquatiques. Dans ce travail, nous proposerons de classifier et caracteriser les rivieresdu Quebec en tenant compte de plusieurs particularites des debits au moyen de lamethode d’analyse en composantes principales. Nous nous limiterons a analyser lesrivieres du fleuve Saint-Laurent, un des fleuves les plus grands d’Amerique. Notonsque la resolution numerique de ces problemes est faite sur le logiciel de program-mation R, qui est un logiciel libre. Finalement, nous esperons que le travail quenous amorcerons plaira aux specialistes en hydrologie et en ecologie en particulier.
2. Les donnees
Dans ce travail nous avons analyse 76 rivieres du fleuve Saint-Laurent. Lesrivieres etudient au cours de ce travail sont caracterisees par leur ecoulement naturelet dont les debits sont continument mesures sur une periode d’au moins 10 ans. Lesnoms des rivieres et les abreviations sont groupes dans le Tableau 5 et 6. Nousclassifierons ces rivieres au moyen de 10 variables hydrologiques basees sur les debitsmensuels et saisonniers (voir Tableau 4).
1
2
Ces variables hydrologiques peuvent etre groupees en trois categories dont lescaracteristiques sont donnees par A.A. Assani (pour plus de detail voir [1] et [2] ) :
• Les variables relatives aux volumes d’ecoulement mensuels et saisonniers.
Symbole Signification Methode de calcul
HiversCoefficient saisonnier des debitshivernaux
Le rapport entre la moyenne de la somme des debits moyensmensuels de janvier a mars et le debit annuel total
PrintempsCoefficient saisonnier des debitsprintaniers
Le rapport entre la moyenne de la somme des debits moyensmensuels d’avril a juin et le debit annuel total
EteCoefficient saisonnier des debitsestivaux
Le rapport entre la moyenne de la somme des debits moyensmensuels de juillet a septembre et le debit annuel total
AutomneCoefficient saisonnier des debitsautomnaux
Le rapport entre la moyenne de la somme des debits moyensmensuels d’octobre a decembre et le debit annuel total
MaxCoefficient mensuel du debitmoyen mensuel maximum
Le rapport entre le debit mensuel maximumet le debit annuel total
MimCoefficient mensuel du debitmoyen mensuel minimum
Le rapport entre le debit mensuel minimumet le debit annuel total
• Les variables qui caracterisent l’amplitude de la variabilite des debits (letaux de changement).
Symbole Signification Methode de calcul
MaxMinCoefficient d’immodera--tion mensuel
Le rapport entre les debits mensuels maximumet minimum
CVCoefficient de variation Le rapport entre l’ecart type et le debit mensuel
moyen
• Les variables qui caracterisent la periode d’occurrence du debit mensuelmaximum ou minimum.
Symbole Signification Methode de calcul
MminJour julien moyen dudebit mensuel minimum
La moyenne des jours juliens correspondant a la datemediane du debit moyen mensuel minimum
MmaxJour julien moyen dudebit mensuel maximum
La moyenne des jours juliens correspondant a la datemediane du debit moyen mensuel maximum
3. Resultats et discussions
3.1. La matrice de correlation. Avant de proceder a une ACP de notre jeude donnees et comme la matrice de correlation represente les donnees de base surlesquelles on effectue l’ACP, il est important d’examiner ses caracteristiques. Letableau 1 presente les coefficients de correlation entre les variables analysees.
Hiver Printemps Ete Automne CV Mmin Mmax Mim Max MaxMinHiver 1.00 -0.24 0.55 -0.23 -0.49 -0.19 -0.56 0.67 -0.48 -0.65Printemps -0.24 1.00 -0.33 0.92 -0.20 0.06 0.25 -0.23 -0.25 0.05Ete 0.55 -0.33 1.00 -0.20 -0.05 -0.05 -0.37 0.21 -0.03 -0.17Automne -0.23 0.92 -0.20 1.00 -0.11 0.07 0.19 -0.25 -0.17 0.09CV -0.49 -0.20 -0.05 -0.11 1.00 -0.005 0.18 -0.56 0.91 0.80Mmin -0.19 0.06 -0.05 0.07 -0.005 1.00 -0.15 0.09 0.06 0.01Mmax -0.56 0.25 -0.37 0.19 0.18 -0.15 1.00 -0.55 0.11 0.40Mim 0.67 -0.23 0.21 -0.25 -0.56 0.09 -0.55 1.00 -0.47 -0.84Max -0.48 -0.25 -0.03 -0.17 0.91 0.06 0.12 -0.47 1.00 0.79MaxMin -0.65 0.05 -0.17 0.09 0.80 0.01 0.40 -0.84 0.79 1.00
Table 1
3
En regardant le tableau 1 ligne par ligne et colonne par colonne, on remar-que que, certains coefficients sont de tailles interessantes et meme particulierementelevees, d’autres coefficients sont petits et ne depasse pas le seuil de 0.1, en plus,le determinant de la matrice de correlation est egale a 0, 001, on peut constaterdonc que les variables analysees ne sont pas fortement correlees entre elles. Parconsequent, les variables ne sont pas redondantes.
3.2. Interpretation des axes factoriels. Dans le tableau 2 sont groupes lesvaleurs propres, le pourcentage de la variance expliquee associee a chacune desvaleurs propres ainsi que le pourcentage de la variance expliquee accumulee.
V. propres% de la variance
expliquee% de la variance
expliquee accumulee1 4.052 40.52 40.522 2.435 24.35 64.873 1.156 11.56 76.444 1.031 10.31 86.76
5 0.601 6.01 92.776 0.323 3.23 96.007 0.202 2.02 98.038 0.097 0.97 99.009 0.060 0.60 99.60
10 0.039 0.39 100
Table 2. Valeurs propres et variances expliquees
Pour selectionner le nombre d’axes factoriels a retenir je me suis base sur le criterede Kaiser (c.-a-d. retenir que les axes associes a des valeurs propres superieures a 1)qui m’a conduit a retenir 4 composantes principales qui representent presque 87%de l’inertie totale (donc, on est pour expliquer 87% de l’information du tableau).
40.52 24.35 11.56 10.32 6.01 3.23 2.02 0.98 0.6 0.39
% d
'iner
tie
010
2030
40
Eboulis des valeurs propres en %
Figure 1. Eboulis des valeurs propres.
4
●
●
●
●
●
●
●
● ● ●
2 4 6 8 10
01
23
4
Les composantes en fonction des valeurs propres.
Composante
Val
eurs
pro
pres
Figure 2. Les composantes principales versus les valeurs propres.
L’analyse de la figure 2 assure notre choix, on remarque une chute importante apartir du quatrieme axe factoriel.
Chaque nuage de points (variables et individus) est construit en projetant lenuage de points initial sur le plan factoriel defini par deux des 4 axes factorielsretenus. L’examen de ces plans permettra de visualiser les correlations entre lesvariables et determiner les groupes d’individus ayant pris des valeurs proches surcertaines variables.
3.3. Contribution des variables. Dans le Tableau 3 sont groupees les saturationsdes variables sur les quatre premieres composantes principales.
Les coordonnees Les contributionsAxe.1 Axe.2 Axe.3 Axe.4 Axe.1 Axe.2 Axe.3 Axe.4
Hiver -0.84 -0.20 -0.12 0.32 17.426 1.64 1.132 9.8Printemps 0.19 0.90 0.11 0.30 0.90 33.39 1.11 8.6Ete -0.39 -0.45 0.01 0.61 3.84 8.26 0.02 37.45Automne 0.21 0.83 0.17 0.43 1.13 28.37 2.56 19.2CV 0.78 -0.49 0.09 0.17 15.19 9.79 0.79 2.7Mmin 0.03 0.06 0.91 -0.24 0.02 0.15 71.46 6.5Mmax 0.58 0.33 -0.44 -0.27 8.36 4.52 17.23 7.1Mim -0.86 -0.09 0.17 -0.17 18.37 0.33 2.66 2.8Max 0.74 -0.54 0.18 0.13 13.61 11.95 2.98 1.6MaxMin 0.92 -0.20 0.02 0.18 21.13 1.61 0.05 3.1
Table 3. Saturations des variables sur les quatre premiers axes principaux.
On remarque que ce sont les variables MaxMin (saturation positive), Mim etHiver (saturation negative) qui contribuent le plus a la construction de la premierecomposante principale. Ces variables representent le volume d’ecoulement hivernalet mensuel minimum, ainsi que le coefficient d’immoderation. Quant a la deuxieme
5
composante principale, c’est plutot le volume d’ecoulement printanier et automnalqui presente les saturations les plus elevees pour cette composante. La dernierecomposante principale est fortement associee au mois d’occurrence des debits men-suels minimum. Notant aussi qu’on a pas pris en compte la quatrieme composanteprincipale puisque les saturations des variables hydrologiques sur cette dernieredepassent pas le seuil de 0.6 en valeur absolue.
En conclusion, les trois caracteristiques des debits sont bien representees partrois des quatre composantes principales :
• Le volume d’ecoulement par les deux premieres composantes
• La variabilite des debits par la premiere.
• La periode d’occurrence par la troisieme composante principale.
3.4. Contribution des individus. Une analyse du tableau des contributions desindividus a la construction des axes factoriels (voir Tableaux 7 et 8 en Appendice Cet D respectivement) ainsi que les graphes des projections des individus sur les plansfactoriels (voir 7) nous ont conduits aux remarques suivantes. Le premier axe op-pose les rivieres caracterisees par des valeurs elevees du coefficient d’immoderation(MaxMin) et celles caracterisees par des grandes valeurs des coefficients saisonniersdes debits hivernaux (Hivers) et les debits moyens mensuels minimum (Mim). Ladeuxieme composante regroupe les rivieres dont le volume d’ecoulement printanieret automnal est considerablement grand. Quant a la troisieme composante, elleregroupe les rivieres en fonction de la periode d’occurrence des debits mensuelsminimum. L’analyse du tableau de contribution des individus ainsi que leurs co-ordonnees sur chacun des axes principaux nous a permis de construire le tableausuivant :
Les axes principaux Les variables hydrologiques Les rivieres (abreviations)
Premier axe principale MaxminDARPD, YSB, GRO, MRLM, MPMCC, NPON, PACP, MOI, SPARBMAMI, NEIG,MARB, GOD,MIST,BAP
Mim, Hivers
NWS, RRF, CW, ROUGE , PPPAJOL, PNPN, EPSF, PPW, HARSLHREH, NRY, NICO, BPSS, PNPRBARP, MSMS, NSOA
Deuxieme axe principale Printemps, AutomneMOI, CCM, ROM, MIST, CARCIRRF, MAMI, GARC, AGUA, SPARBDARPD, DSD, HARSL, YSB, HREHGRO, NEIG, DON
Troisieme axe principale MmimAJOL, NSJ, MPSU, NWS, BARPBPSS, HREM,NICO, DSD, MOI, CCM
PNPR, LARC, HARSL, NRY, NEIGPNPN, PPW, CW, RRF, CAR205MSM, EPSF, AGUA, MSMS
L’analyse de ce tableau nous ramene a la conclusion suivante, 12 rivieres sont car-acterisees par des valeurs elevees du coefficient d’immoderation, 5 par des grandesvaleurs des coefficients saisonniers hivernaux et mensuels minimums, 6 rivieres,secaracterisent par un volume d’ecoulement printanier et automnal relativement grand,et enfin 4 rivieres par la periode d’occurrence des debits mensuels minimum.
6
●
−1.0 −0.5 0.0 0.5 1.0
−1.
0−
0.5
0.0
0.5
1.0
Variables factor map (PCA)
Dim 1 (40.52%)
Dim
2 (
24.3
5%)
Hiver
Printemps
Ete
Automne
CV
Mmin
Mmax
Mim
Max
MaxMin
(a) Projection des variables sur le premier plan principal (1, 2)
●
−1.0 −0.5 0.0 0.5 1.0
−1.
0−
0.5
0.0
0.5
1.0
Variables factor map (PCA)
Dim 1 (40.52%)
Dim
3 (
11.5
6%)
Hiver
PrintempsEte
AutomneCV
Mmin
Mmax
Mim Max
MaxMin
(b) Projection des variables sur le deuxieme plan principal (1, 3)
On peut aussi remarquer que 3 rivieres sont caracterisees par des valeurs eleveesdu coefficient d’immoderation et du volume d’ecoulement printanier et automnal,
7
●
−1.0 −0.5 0.0 0.5 1.0
−1.
0−
0.5
0.0
0.5
1.0
Variables factor map (PCA)
Dim 2 (24.35%)
Dim
3 (
11.5
6%)
Hiver
PrintempsEte
AutomneCV
Mmin
Mmax
MimMax
MaxMin
(c) Projection des variables sur le troisieme plan principal (2, 3)
●
−1.0 −0.5 0.0 0.5 1.0
−1.
0−
0.5
0.0
0.5
1.0
Variables factor map (PCA)
Dim 2 (24.35%)
Dim
4 (
10.3
2%)
HiverPrintemps
Ete
Automne
CV
Mmin MmaxMim
MaxMaxMin
(d) Projection des variables sur le quatrieme plan principal (2, 4)
6 rivieres par des valeurs elevees du volume d’ecoulement printanier, automnal etmensuel minimum.
8
●
−5 0 5
−2
02
46
8
Individuals factor map (PCA)
Dim 1 (40.52%)
Dim
2 (
24.3
5%)
●
●
●●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●●
●
●
●●
●
●
●
●
●●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●●
●
●
●
●
●
●
●
●●
●
●
●●
●
●
●
●
AGUA
BSTBLBARP
BPSSBAP
CC
CAP
CCM
CARC1
CAR205CW
CPFC
CARC
DARPDDSD
DONEPSF
ECO
ESCOU
EPEMB
ESHDLFSG
GARC
GODGBSP
GRO
HA
HREHHARSL
JCPSGKINO
AJOL
ASCLR2LARC
LPSP
MRLM
MPSUMPM
MSMSMSM
MISTMAMI
MOI
MARBMABMN
NAB
NEIG
NICO
NSOA
NWS
NRYNSJNPON
OUR2PERIPNPNPNPR
PPWPARA
PACPPPP
RRF
RIMO1
ROM
ROUGEROUMA
SAA
SPARB
SUAR TONNTP1
VALVPSM
YSB
(e) Projection des individus sur le premier plan principale (1,2)
●
−6 −4 −2 0 2 4 6
−2
02
4
Individuals factor map (PCA)
Dim 1 (40.52%)
Dim
3 (
11.5
6%)
●
●
●
●●
● ●●
●
●
●
●
●●
●
●
●
●
●
●●
●
●
●
●
● ●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●●
●
●
●
●
●
●
●
●●
●
●
●
● ●●
●
●
●
●
●
●
●
●●●
●
●
●
AGUA
BSTBL
BARPBPSS
BAP CCCAP
CCM
CARC1
CAR205CW
CPFCCARC
DARPD
DSD
DON
EPSF
ECOESCOUEPEMB
ESHDLFSGGARC
GODGBSP GRO
HA
HREH
HARSL
JCPSGKINO
AJOL
ASCLR2
LARC
LPSP
MRLM
MPSU
MPMMSMS
MSM
MISTMAMI
MOI
MARBMABMNNAB
NEIG
NICO
NSOA
NWS
NRY
NSJ
NPON
OUR2PERI
PNPN
PNPR
PPW
PARA PACPPPP
RRF
RIMO1ROM
ROUGE
ROUMASAA
SPARBSUAR TONNTP1VAL
VPSM
YSB
(f) Projection des individus sur le deuxieme plan principale (1,3)
9
●
−2 0 2 4 6 8
−2
02
4
Individuals factor map (PCA)
Dim 2 (24.35%)
Dim
3 (
11.5
6%)
●
●
●
● ●
●● ●
●
●
●
●
●●
●
●
●
●
●
●●
●
●
●
●
●●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●●
●
●
● ●
●
●
●
●
●
●
●
●●
●
●
●
●●●
●
●
●
●
●
●
●
●●●
●
●
●
AGUA
BSTBL
BARPBPSS
BAPCC CAP
CCM
CARC1
CAR205CW
CPFCCARC
DARPD
DSD
DON
EPSF
ECOESCOU EPEMB
ESHDLFSG
GARC
GODGBSPGRO
HA
HREH
HARSL
JCPSGKINO
AJOL
ASCLR2
LARC
LPSP
MRLM
MPSU
MPMMSMS
MSM
MISTMAMI
MOI
MARBMABMNNAB
NEIG
NICO
NSOA
NWS
NRY
NSJ
NPON
OUR2PERI
PNPN
PNPR
PPW
PARAPACPPPP
RRF
RIMO1ROM
ROUGE
ROUMASAA
SPARBSUARTONNTP1 VAL
VPSM
YSB
(g) Projection des individus sur le troisieme plan principale (2,3)
●
−2 0 2 4 6 8
−2
02
4
Individuals factor map (PCA)
Dim 2 (24.35%)
Dim
4 (
10.3
2%)
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●●●
●●
●
AGUA
BSTBL
BARPBPSS
BAPCC
CAP
CCM
CARC1
CAR205CW
CPFCCARC
DARPD
DSD
DONEPSF
ECO
ESCOU
EPEMB
ESHDLFSG
GARCGODGBSP
GRO
HA
HREH
HARSL
JCPSGKINO
AJOL
ASCLR2
LARC
LPSP
MRLM
MPSU
MPM
MSMS
MSM
MISTMAMI
MOI
MARBMABMNNAB
NEIG
NICO
NSOA
NWS
NRY
NSJ
NPONOUR2
PERI
PNPNPNPR
PPW
PARAPACP
PPP RRF
RIMO1
ROM
ROUGEROUMA
SAA
SPARBSUARTONNTP1
VALVPSM
YSB
(h) Projection des individus sur le quatrieme plan principale (2,4)
10
4. Conclusion
Dans ce travail nous avons exploite la methode d’ACP afin de classifier 76 rivieresdont l’ecoulement est naturel en fonction de quelques variables hydrologiques baseesessentiellement sur les debits mensuels et saisonniers.Parmi les variables analysees 6 d’entre elles caracterisent les rivieres du Quebec etrepresentent :
• Le volume d’ecoulement.
• La variabilite des debits.
• La periode d’occurence.Ces caracteristiques jouent un role important dans la survie des especes aqua-
tiques et semi-aquatiques ainsi que dans l’organisation et le fonctionnement dessystemes ecologiques.
References
[1] M. Matteau, A.A Assani, M. Mesfioui, Application of multivariate statistical analysis methodsto the dam hydrologic impact studies, Journal of Hydrology, 371 (2009) 120–128.
[2] A.A Assani, S. Tardif. Classification, caracterisation et facteurs de variabilites spatiales desregimes hydrologiques naturels au Quebec (Canada). Approche eco-geographique, Rev. sci.
Eau, 18(2) (2005) 247–266.
Appendice A : Les donnees
Source des donnees :Ali A. AssaniLaboratoire d’hydro-climatologie et de geomorphologie fluviale,Departement des sciences humaines, Universite du Quebec a Trois-Rivieres,3351 boul. des Forges, C.P. 500, Trois-Rivieres, Quebec G9A 5H7, [email protected]
11
Abre
Hiv
er(
%)
Pri
nte
mps
(%)
Ete
(%)
Auto
mne(%
)H
/P
P/E
E/A
A/H
CV
Mm
inM
max
Mim
(%)
Max(%
)M
ax/M
in
AG
UA
11.1
2792943
50233.9
6341
0.0
22152203
2.2
677.1
008
0.1
11279294
2.5
99592944
1.7
42316785
1.9
84052533
86.3
9105122
710
2.0
56474764
23.3
8326635
11.3
7055838
BST
11.1
823694
6340.3
37852
0.1
76368668
3.5
949.1
006
0.1
11823694
7.3
77204301
0.6
86043081
1.7
66944734
101.4
041257
68
2.6
00279851
33.1
1567164
12.7
3542601
BL
14.3
6781609
9813.6
0.1
46407191
6.7
029.1
006
0.1
43678161
7.3
22645291
0.6
68900804
1.4
20952381
87.7
2519757
68
2.9
55665025
29.2
8297756
9.9
07407407
BA
RP
15.2
5550168
6024.0
56235
0.2
53243016
2.3
788.1
006
0.1
52555017
7.0
92592593
0.7
06542056
1.3
0806846
81.1
8902594
11
83.9
53748601
28.1
6113391
7.1
22641509
BP
SS
16.2
290803
14356.9
4418
0.1
13039935
1.2
701.1
07
0.1
62290803
7.1
49286498
0.7
19589258
1.1
97729423
78.7
4151465
11
84.0
84139413
27.4
8349455
6.7
29323308
BA
P10.2
3544801
21005.4
3131
0.0
48727626
4.3
108.1
07
0.1
0235448
4.0
9919571
1.3
19186561
1.8
06709265
104.9
19107
59
2.4
852845
34.0
0915631
13.6
8421053
CC
8.8
19260651
8175.2
8848
0.1
07877057
7.5
783.1
06
0.0
88192607
4.6
46172154
1.1
20444444
2.1
78121975
112.2
700846
59
2.0
95961752
35.9
0028174
17.1
2830957
CA
P9.9
01234568
14038.6
5337
0.0
70528378
1.9
905.1
07
0.0
99012346
3.5
15625
1.3
30254042
2.1
59600998
95.1
13125
69
2.2
22222222
30.6
1728395
13.7
7777778
CC
M9.4
14289251
162518.9
071
0.0
05792735
2.8
056.1
09
0.0
94142893
3.3
78159851
1.1
68295331
2.6
91408533
76.1
8970015
79
2.2
20143608
25.5
0276486
11.4
8698885
CA
RC
10.1
1500165
109737.9
949
0.0
09217411
1.1
906.1
09
0.1
01150017
3.3
76799007
1.1
30434783
2.5
89901925
74.2
5424003
79
2.2
19201235
24.9
1090127
11.2
2516556
CA
R205
16.8
5407781
14595.8
7423
0.1
1547152
1.2
640.1
07
0.1
68540778
10.0
1683066
0.7
82890736
0.7
56595092
102.2
461702
18
2.2
82538452
31.0
1977511
13.5
9003398
CW
18.2
9236287
2848.1
83166
0.6
42246717
4.4
347.1
05
0.1
82923629
6.9
65874467
0.7
74421897
1.0
13390722
70.1
3586192
18
3.5
34248972
24.4
0731345
6.9
05940594
CP
FC
12.3
7751999
41607.6
8881
0.0
29748156
1.3
987.1
08
0.1
237752
4.1
4519141
1.2
88033674
1.5
13193813
73.8
9516126
69
3.0
9719563
21.6
2405676
6.9
81818182
CA
RC
10.7
9614162
14542.2
3235
0.0
7423992
1.9
588.1
07
0.1
07961416
4.5
12563452
1.0
59139785
1.9
38004689
80.6
0662215
69
2.7
53170787
25.4
7878174
9.2
54341164
DA
RP
D7.2
07207207
8949.3
75
0.0
80533079
1.1
113.1
07
0.0
72072072
4.4
07842158
1.7
99550562
1.7
49213836
141.2
826522
69
1.7
73471585
43.9
1183636
24.7
6038339
DSD
19.6
4596175
1740.8
15768
1.1
28549161
1.5
425.1
05
0.1
96459618
13.1
2655602
0.4
74876847
0.8
16572808
99.4
0317467
11
82.0
07270428
29.5
5587166
14.7
2440945
DO
N12.7
3987207
1773.9
58159
0.7
18160798
2.4
701.1
05
0.1
27398721
6.2
74247492
0.8
98797595
1.3
91910739
90.4
3076033
68
3.3
93745558
27.5
4086709
8.1
15183246
EP
SF
16.1
9571401
3964.0
1171
0.4
08568773
9.7
022.1
05
0.1
6195714
6.9
7794442
0.7
17405063
1.2
33411397
76.4
8662725
18
3.9
82552627
26.5
5035084
6.6
66666667
EC
O9.1
039953
12192.4
4918
0.0
74669127
1.6
329.1
07
0.0
91039953
3.3
08066084
1.2
79850746
2.5
94385286
75.7
6596774
79
2.1
76850764
25.4
4065805
11.6
8690958
ESC
OU
9.8
95023328
8014.1
29666
0.1
23469718
6.4
908.1
06
0.0
98950233
3.8
74952919
1.5
17142857
1.7
19056974
101.7
174199
59
2.2
25894246
32.4
6500778
14.5
8515284
EP
EM
B14.3
6264199
20539.3
966
0.0
69927283
2.9
373.1
07
0.1
4362642
3.3
78339966
1.2
43988685
1.6
56707674
69.7
6965145
79
3.0
87925957
22.8
8599074
7.4
11444142
ESH
DL
10.1
8164146
11098.4
0692
0.0
91739666
1.2
098.1
07
0.1
01816415
6.1
88345865
0.8
1097561
1.9
57040573
90.0
0234718
68
2.3
75311342
27.8
2334002
11.7
1355499
FSG
11.2
2305276
6156.9
70077
0.1
82282074
3.3
777.1
06
0.1
12230528
6.6
89130435
0.7
07692308
1.8
82239382
89.7
6786888
58
2.8
38262377
29.6
2842596
10.4
389313
GA
RC
11.0
065602
62144.7
5617
0.0
17711165
3.5
088.1
08
0.1
10065602
4.8
07582032
0.8
39753879
2.2
50451535
73.1
5284205
69
2.6
83718773
22.8
6130806
8.5
18518519
GO
D9.0
78458227
17293.6
8534
0.0
52495799
3.2
943.1
07
0.0
90784582
4.0
30757098
1.1
93973635
2.2
88793103
105.8
11186
79
2.3
87008413
34.6
3118763
14.5
0819672
GB
SP
10.0
9178653
8571.3
2677
0.1
17738908
7.2
799.1
06
0.1
00917865
4.0
88201161
1.4
96382055
1.6
19784341
97.6
4450422
69
2.7
2993944
31.3
2096896
11.4
7313692
GR
O9.0
09282291
5927.2
20202
0.1
51998441
3.8
995.1
06
0.0
90092823
5.1
509375
1.0
60304838
2.0
32323232
113.3
920943
69
1.4
49978766
35.3
0910635
24.3
5146444
HA
11.9
5286195
4785.4
64789
0.2
49774316
1.9
159.1
06
0.1
1952862
4.0
37383178
1.5
1285347
1.3
6971831
81.0
1974188
59
3.4
3013468
25.9
8905724
7.5
76687117
HR
EH
16.0
7173651
1368.8
62661
1.1
74094156
1.1
659.1
05
0.1
60717365
7.3
77862595
0.6
64412511
1.2
69313305
83.0
5839512
11
83.5
69580962
28.4
5318158
7.9
71014493
HA
RSL
20.2
9660286
1522.4
2226
1.3
33178278
1.1
419.1
05
0.2
02966029
11.0
2471483
0.4
71326165
0.9
48173322
85.3
4306839
18
2.3
62476289
23.9
6964994
10.1
459854
JC
PSG
9.8
08676906
20492.0
6044
0.0
47865743
4.2
812.1
07
0.0
98086769
3.5
1254141
1.2
03302961
2.4
12087912
74.9
5380079
69
2.6
94691458
25.5
9956885
9.5
KIN
O10.1
3933548
25544.0
8034
0.0
39693484
6.4
353.1
07
0.1
01393355
4.3
8028169
1.0
37000974
2.1
71247357
77.0
7144584
69
2.6
36655949
22.2
9367631
8.4
55284553
AJO
L13.4
2975207
9977.8
46154
0.1
34595702
7.4
132.1
06
0.1
34297521
6.3
54485777
0.8
7047619
1.3
46153846
87.6
2562975
12
53.5
81267218
26.1
3636364
7.2
98076923
ASC
10.4
3456911
5261.3
57647
0.1
9832465
2.6
529.1
06
0.1
04345691
5.1
68781726
1.1
47572816
1.6
15686275
96.9
5089485
69
2.7
57999836
28.5
6207546
10.3
5608309
LR
210.9
4284319
9595.3
125
0.1
14043635
8.4
137.1
06
0.1
09428432
5.8
18346253
1.0
45098569
1.5
02840909
97.4
3389358
59
3.0
02176134
26.5
5771195
8.8
46153846
LA
RC
12.7
5537278
6068.0
31201
0.2
10206117
2.8
867.1
06
0.1
27553728
5.1
05316627
1.2
12233169
1.2
66770671
89.1
9484861
19
3.3
36428761
25.7
3626957
7.7
13717694
LP
SP
11.9
9005309
11509.5
4036
0.1
04174908
1.1
048.1
07
0.1
19900531
4.7
3100159
1.3
55603448
1.3
0044843
88.0
7482216
69
2.7
48840648
24.6
9924054
8.9
85330073
MR
LM
8.4
37518172
14222.1
9159
0.0
59326427
2.3
973.1
07
0.0
84375182
3.3
52241715
1.8
72262774
1.8
8835286
116.7
179864
79
1.8
37529802
36.0
5279991
19.6
2025316
12
Abre
Hiv
er(
%)
Pri
nte
mps
(%)
Ete
(%)
Auto
mne(%
)H
/P
P/E
E/A
A/H
CV
Mm
inM
max
Mim
(%)
Max(%
)M
ax/M
in
MP
SU
12.5
5652976
8202.9
03344
0.1
53074213
5.3
588.1
06
0.1
25565298
6.7
1521537
0.8
12437059
1.4
59757442
94.4
0507428
12
82.9
85694509
25.4
7300415
8.5
31684699
MP
M8.5
9274559
19202.2
443
0.0
44748653
4.2
911.1
07
0.0
85927456
4.7
3996004
1.1
06077348
2.2
19769438
108.9
664842
59
1.7
64073598
34.5
6488292
19.5
9378734
MSM
S13.9
3499308
9974.8
88337
0.1
39700743
7.1
402.1
06
0.1
39349931
4.7
40983607
1.0
77738516
1.4
04466501
73.7
7134662
59
3.6
99861687
23.4
7856155
6.3
45794393
MSM
15.3
2290775
6506.5
97941
0.2
35497996
2.7
629.1
06
0.1
53229077
3.7
41821248
1.4
08551069
1.2
38235294
64.0
1923355
59
2.2
44355311
20.4
155212
9.0
96385542
MIS
T7.8
21765639
119154.6
823
0.0
0656438
1.8
152.1
09
0.0
78217656
3.0
89806452
1.2
43.3
36892686
81.3
6666464
79
1.7
2471394
26.0
5863192
15.1
0895884
MA
MI
8.4
90125292
116252.7
014
0.0
07303164
1.5
918.1
09
0.0
84901253
3.5
03720238
1.1
56626506
2.9
06453227
86.3
2970793
79
1.7
66829475
28.5
4109153
16.1
5384615
MO
I8.4
61764995
224539.4
432
0.0
03768498
5.9
583.1
09
0.0
8461765
2.6
36387164
1.5
23659306
2.9
4199536
83.1
5179425
79
1.7
57141455
23.3
6310985
13.2
9608939
MA
RB
7.5
65149747
3555.7
7892
0.2
12756471
1.6
713.1
06
0.0
75651497
3.2
53400823
1.3
22594142
3.0
71979434
89.2
111219
79
1.5
65538701
28.6
8533644
18.3
2298137
MA
BM
N7.8
73457228
13970.9
9099
0.0
56355753
2.4
791.1
07
0.0
78734572
3.6
61818182
1.1
77370031
2.9
45945946
87.4
7364394
69
1.9
90826122
28.8
4569915
14.4
8931116
NA
B11.6
662341
17657.7
9755
0.0
66068455
2.6
727.1
07
0.1
16662341
3.2
39176124
1.3
08580858
2.0
22246941
77.7
7650091
79
2.2
96911498
24.5
2634311
10.6
779661
NE
IG11.1
0814419
4429.1
82692
0.2
50794446
1.7
661.1
06
0.1
11081442
7.4
91.0
90909091
1.1
01762821
119.9
948208
19
2.0
2047174
32.1
317312
15.9
030837
NIC
O17.0
0764111
9054.7
53623
0.1
87831075
4.8
207.1
06
0.1
70076411
7.5
97378277
0.6
21653085
1.2
44927536
74.0
1909605
11
83.7
21962041
25.6
3470545
6.8
87417219
NSO
A15.4
4205706
3555.2
25821
0.4
34348135
8.1
852.1
05
0.1
54420571
7.3
58735096
0.6
75893483
1.3
02007299
85.0
2344261
68
3.6
91440648
29.2
3564635
7.9
19847328
NW
S18.3
3810888
14396.2
50.1
27381151
1.1
302.1
07
0.1
83381089
4.9
20824295
1.0
77102804
1.0
28846154
54.2
0278002
12
85.4
88208067
18.9
9933877
3.4
6184739
NR
Y20.5
8054146
7239.8
48392
0.2
84267575
2.5
468.1
06
0.2
05805415
8.9
12640449
0.5
74286175
0.9
49310873
76.0
2651616
18
2.8
96403921
24.0
4740143
8.3
0250272
NSJ
14.9
4661922
7827.8
57143
0.1
9094139
4.0
996.1
06
0.1
49466192
6.6
11764706
0.8
382643
1.2
07142857
84.9
247012
12
83.7
01067616
27.5
4448399
7.4
42307692
NP
ON
9.0
64420092
12576.6
457
0.0
72073431
1.7
450.1
07
0.0
90644201
4.4
47042254
1.1
23417722
2.2
08245982
109.2
011555
69
2.0
90327485
35.1
555077
16.8
1818182
OU
R2
10.3
1628888
7774.1
13439
0.1
32700519
5.8
584.1
06
0.1
03162889
5.7
58955677
0.8
77697842
1.9
17731221
92.1
6474872
69
1.6
28887717
24.6
7053242
15.1
4563107
PE
RI
9.2
80112168
11745.5
4769
0.0
79009616
1.4
866.1
07
0.0
92801122
4.5
82931727
0.9
2051756
2.5
54296506
80.8
7333088
69
2.2
12680191
24.9
3099067
11.2
6732673
PN
PN
17.0
1130411
11698.1
0373
0.1
4541933
8.0
444.1
06
0.1
70113041
4.7
28813559
1.5
40160643
0.8
0713128
73.9
7363109
18
3.3
91232423
20.9
2638544
6.1
70731707
PN
PR
18.9
2419278
7028.0
40856
0.2
69266972
2.6
101.1
06
0.1
89241928
5.3
15264188
1.4
23001949
0.6
98638132
76.1
6769598
19
2.9
23309157
22.4
2185487
7.6
70025189
PP
W18.6
0631541
6933.1
29808
0.2
68368196
2.5
834.1
06
0.1
86063154
5.4
22750424
1.2
94505495
0.7
65625
73.3
8596163
18
3.2
82941229
24.2
418821
7.3
84196185
PA
RA
8.7
40571718
5663.2
45105
0.1
54338574
3.6
694.1
06
0.0
87405717
3.5
45393258
1.1
86666667
2.7
19361856
81.8
8116829
79
2.2
05742537
27.4
450149
12.4
4252874
PA
CP
8.2
9787234
24223.0
7692
0.0
34256062
7.0
712.1
07
0.0
82978723
3.3
25961964
1.7
03843255
2.1
26602564
101.6
351534
69
2.0
61170213
32.4
4680851
15.7
4193548
PP
P14.4
8643411
2450.5
68562
0.5
9114584
4.1
455.1
05
0.1
44864341
5.9
89553105
0.7
66459075
1.5
0367893
72.8
8806651
58
4.1
76356589
25.8
7209302
6.1
94895592
RR
F19.5
2449568
112678.9
668
0.0
17327542
6.5
029.1
08
0.1
95244957
4.4
34504792
1.5
26829268
0.7
56457565
54.5
7369691
18
3.9
14505283
17.1
2295869
4.3
74233129
RIM
O1
10.1
7570748
15821.9
957
0.0
64313679
2.4
601.1
07
0.1
01757075
5.8
93225806
1.0
43771044
1.5
97633136
111.7
566316
69
2.6
76665389
33.9
3727079
12.6
7893661
RO
M9.1
44943534
142155.0
604
0.0
06433076
2.2
098.1
09
0.0
91449435
2.4
2159013
1.7
45215311
2.5
87434231
82.4
7955911
710
2.0
66174181
23.1
2416858
11.1
9178082
RO
UG
E15.4
4199333
35358.1
295
0.0
43673106
8.0
961.1
07
0.1
54419933
5.3
17299578
0.9
44976077
1.2
88797533
67.4
9808992
68
4.1
50134899
21.1
8711316
5.1
05162524
RO
UM
A13.1
7434211
19507.6
1548
0.0
67534354
2.8
885.1
07
0.1
31743421
4.5
20446097
1.0
92607636
1.5
36828964
69.4
0888398
69
3.2
07236842
20.3
9473684
6.3
58974359
SA
A10.0
7134778
6374.5
19222
0.1
57993841
4.0
347.1
06
0.1
00713478
4.2
48798521
12.3
36933045
77.3
4562346
69
2.6
66840686
25.7
9831202
9.6
73735726
SP
AR
B7.8
78472824
84153.3
651
0.0
09362041
8.9
888.1
08
0.0
78784728
2.8
24306688
1.6
34666667
2.7
49266862
98.3
5569705
79
1.9
4651418
29.2
2659273
15.0
148368
SU
AR
10.6
3192815
7722.0
23592
0.1
37683187
5.6
085.1
06
0.1
06319281
6.0
28780488
0.8
77944325
1.7
77016743
89.2
2853405
58
2.9
97815357
27.0
6529655
9.0
28340081
TO
NN
9.5
87319604
7134.4
23679
0.1
34381136
5.3
091.1
06
0.0
95873196
3.7
26283988
1.1
20135364
2.4
98942918
88.3
3829795
79
1.7
95848873
28.7
8222799
16.0
2708804
TP
19.5
40536743
9768.8
42415
0.0
9766292
1.0
003.1
07
0.0
95405367
7.2
92008197
0.7
91565288
1.8
15905744
112.2
560566
69
2.4
44850358
28.8
0427146
11.7
816092
VA
L7.8
05937211
9556.8
28089
0.0
81679163
1.1
700.1
07
0.0
78059372
3.8
22312925
1.0
2367688
3.2
74053808
83.7
5537075
79
2.0
68057236
27.8
3512494
13.4
595525
VP
SM
11.8
5035389
22530.9
727
0.0
52595838
4.2
838.1
07
0.1
18503539
3.7
23644578
1.3
96424816
1.6
22866894
73.6
6193226
69
3.0
1314459
24.4
6916077
8.1
20805369
YSB
10.0
5933014
10040.4
2998
0.1
00188241
1.0
022.1
07
0.1
00593301
3.9
94648318
1.8
38628057
1.3
53500761
126.9
615747
69
1.8
8708134
39.8
0861244
21.0
9533469
Table
4.
Lis
tede
sdo
nnee
s.
13
Appendice B : Listes des rivieres
RIVIERES NATURELLES Abrevation
AGUANUS (RIVIERE) EN AMONT DE LA RIVIERE DANY AGUABEAURIVAGE (RIVIERE) A SAINTE-ETIENNE BSTBECANCOUR (RIVIERE) A LYSTER BLBECANCOUR (RIVIERE) EN AMONT DE LA RIVIERE PALMER BARPBECANCOUR (RIVIERE) PRES DE SAINT-SYLVERE BPSSBONAVENTURE (RIVIERE) EN AMONT DU PONT BAPCAP CHAT (RIVIERE) A CAP-CHAT CCCASCAPEDIA (PETITE RIVIERE) EN AMONT DU PONT CAPCHAMOUCHOUANE (RIVIERE) A LA CHUTE A MICHEL CCMCHAMOUCHOUANE (RIVIERE) EN AVAL DE LA RIVIERE DU CHEF CARCCHATEAUGUAY (RIVIERE) EN AVAL DE LA ROUTE NO. 205 CAR205COATICOOK (RIVIERE) A WATERVILLE CWCOULONGE (RIVIERE) PRES DE FORT-COULONGE CPFCCROCHE (RIVIERE) EN AVAL DU RUISSEAU CHANGY CARCDARTMOUTH (RIVIERE) EN ANONT DU RUISSEAU DU PAS DE DAME DARPDDAVID (RIVIERE) A SAINT-DAVID DSDDONCASTER (RIVIERE) DONEATON (RIVIERE) PRES DE LA RIVIERE SAINT-FRANCOIS-3 EPSFECORES (RIVIERE AUX) ECOESCOUMAINS (RIVIERE DES) A ESCOUMAINS ESCOUETAMAMIOU (RIVIERE) PRES DE L’EMBOUCHURE EPEMBETCHEMIN (RIVIERE) A SAINT-HENRI-DE-LEVIS ESHDLFAMINE (RIVIERE) A SAINT-GEORGES FSGGATINEAU (RIVIERE) AUX RAPIDES CEIZUR GARCGODBOUT (RIVIERE) GODGOUFFRE (RIVIERE DU) A BAIE-SAINT-PAUL GBSPGRANDE-RIVIERE OUEST (LA) GROHA HA (RIVIERE) HAHALL (RIVIERE) PRES D’EAST HEREFORD HREHHURONS (RIVIERE DES) EN AVAL DU RUISSEAU SAINT-LOUIS-2 HARSLJACQUES-CARTIER (RIVIERE) PRES DE SAINT-GABRIEL JCPSGKINOJEVIS (RIVIERE) A CLERICY KINOL’ASSOMPTION (RIVIERE) A JOLIETTE AJOLL’ASSOMPTION (RIVIERE) A SAINT-COME ASCLOUP (RIVIERE DU) A LA ROUTE NO. 232 LR2LOUP (RIVIERE DU) EN AVAL DU RUISSEAU CARUFEL LARCLOUP (RIVIERE DU) PRES DE SAINT-PAULIN LPSPMADELEINE (RIVIERE) A RIVIERE-LA-MADELEINE MRLMMASKINONGE (RIVIERE) PRES DE SAINTE-URSULE MPSUMATANE (RIVIERE) PRES DE MATANE MPMMATAWIN (RIVIERE) A SAINT-MICHEL-DES-SAINTS MSMSMEKINAK (RIVIERE) PRES DE LA RIVIERE SAINT-MAURICE MSMMISTASSIBI (RIVIERE) MISTMISTASSINI (RIVIERE) EN AMONT DE LA RIVIERE MISTASSIBI MAMIMOISIE (RIVIERE) MOIMONTMORENCY (RIVIERE) EN AMONT DE LA RIVIERE BLANCHE MARBMONTMORENCY (RIVIERE) EN AVAL DU BARRAGE DES MARCHES NATURELLES MABMNNABISIPI (RIVIERE) NABNEIGETTE (RIVIERE) NEIGNICOLET (RIVIERE) EN AVAL DE LA RIVIERE BULSTRODE NICONICOLET SUD-OUEST (RIVIERE) PRES D’ASBESTOS NSOANOIRE (RIVIERE) A WALTHAM-STATION NWSNOIRE (RIVIERE) PRES DE LA RIVIERE YAMASKA NRYNORD (RIVIERE DU) A SAINT-JEROME NSJNOUVELLE (RIVIERE) AU PONT NPONOUELLE (RIVIERE) A LA ROUTE NO. 230 OUR2PERIBONCA (PETITE RIVIERE) PERIPETITE NATION (RIVIERE DE LA) A PORTAGE-DE-LA-NATION PNPNPETITE NATION (RIVIERE DE LA) PRES DE RIPON PNPRPICANOC (RIVIERE) PRES DE WRIGHT PPWPIKAUBA (RIVIERE) EN AMONT DE LA RIVIERE APICA PARAPORTNEUF (RIVIERE) EN AMONT DES CHUTES PHILIAS PACPPORTNEUF (RIVIERE) PRES DE PORTNEUF PPPRICHELIEU (RIVIERE) AUX RAPIDES FRYERS RRFRIMOUSKI (RIVIERE)-1 RIMO1ROMAINE (RIVIERE) ROMROUGE (RIVIERE) ROUGEROUGE (RIVIERE) PRES DE LA MACAZA ROUMA
Table 5. Liste des rivieres.
14
RIVIERES NATURELLES Abrevation
SAINTE-ANNE (RIVIERE) (BRAS DU NORD DE LA) EN AMONT SAASAINT-PAUL (RIVIERE) EN AVAL DE LA RIVIERE BUJEAULT SPARBSUD (RIVIERE DU) A ARTHURVILLE SUARTONNERRE (RIVIERE AU) TONNTROIS PISTOLES (RIVIERE DES)-1 TP1VALIN (RIVIERE) VALVERMILLON (RIVIERE) PRES DE LA RIVIERE SAINT-MAURICE VPSMYORK (RIVIERE) A SUNNY BANK YSB
Table 6. Liste des rivieres.
Appendice C : Coordonnees des individus par rapport aux 5 premiersaxes principaux.
Axe.1 Axe.2 Axe.3 Axe.4 Axe.5AGUA 0.923 1.373 -0.7489 -0.927 1.273BST 0.749 -1.305 0.6027 0.276 -0.860BL -0.716 -0.733 0.3598 0.077 -0.745BARP -1.974 -0.659 1.9869 -0.450 0.034BPSS -2.183 -0.310 1.9605 -0.745 -0.309BAP 1.748 -0.737 -0.2319 -0.202 -0.577CC 2.733 -1.310 -0.1804 0.061 -0.414CAP 1.409 -0.394 -0.1671 -0.452 0.057CCM 1.129 4.410 0.7696 1.330 -0.304CARC1 0.594 2.685 0.2673 0.148 0.147CAR205 0.245 -1.253 -1.2220 1.167 -1.658CW -3.050 -0.876 -1.4594 1.512 -0.127CPFC -1.176 1.229 -0.4450 -0.992 0.227CARC -0.214 0.324 -0.3715 -0.939 0.304DARPD 5.254 -2.539 0.6010 0.652 -0.961DSD -0.771 -2.421 1.6754 3.093 2.364DON -1.489 -1.359 0.4530 1.152 0.500EPSF -2.568 -0.821 -1.2006 0.753 -0.983ECO 0.434 0.434 -0.1559 -1.020 0.775ESCOU 1.734 -0.850 -0.3816 -0.134 -0.133EPEMB -1.453 0.734 -0.2471 -0.997 0.522ESHDL 0.275 -0.445 0.3344 -0.238 -0.552FSG -0.191 -0.801 0.1401 0.025 -0.751GARC -0.464 1.630 -0.3489 -0.713 0.222GOD 2.092 -0.810 0.4189 -0.417 -0.241GBSP 0.932 -0.613 -0.0527 -0.517 -0.079GRO 3.766 -1.527 0.0048 0.510 0.125HA -1.017 -0.130 -0.5793 -0.576 0.295HREH -2.436 -1.870 1.9458 2.088 2.230HARSL -2.510 -2.036 -1.6447 3.975 1.653JCPSG -0.131 0.589 -0.3617 -1.071 0.331KINO -0.430 0.904 -0.4802 -1.110 0.441AJOL -2.734 -1.303 4.1183 0.334 -2.366ASC 0.458 -0.525 -0.1715 -0.437 0.245LR2 0.035 -0.234 -0.5137 -0.649 -0.118LARC -0.852 -0.290 -1.8171 -0.153 -0.480LPSP -0.290 0.116 -0.4041 -0.736 0.300MRLM 3.366 -1.267 0.4525 -0.011 -0.207MPSU -0.770 -0.434 2.1576 -0.683 0.288MPM 3.095 -0.935 -0.2654 0.077 -0.352
15
Axe.1 Axe.2 Axe.3 Axe.4 Axe.5MSMS -1.800 0.341 -0.7116 -0.891 0.123MSM -1.434 0.571 -1.2140 -0.306 1.145MIST 1.908 3.007 0.4785 0.691 0.099MAMI 2.192 2.487 0.5396 0.765 -0.075MOI 2.240 7.348 1.4399 3.492 -0.747MARB 2.093 -0.446 -0.0285 -0.252 1.045MABMN 1.537 -0.028 -0.2578 -0.711 0.340NAB -0.040 0.482 -0.2191 -0.840 0.665NEIG 2.133 -1.508 -1.6000 0.887 -0.608NICO -2.389 -0.255 1.7577 -0.539 0.155NSOA -1.766 -1.137 0.4533 0.593 -0.311NWS -4.808 0.698 2.0395 -1.515 0.114NRY -2.415 -0.565 -1.6429 1.075 -0.829NSJ -1.663 -0.555 2.2531 -0.619 0.109NPON 2.588 -1.072 0.0848 -0.120 -0.285OUR2 1.233 -0.085 -0.5439 -0.312 0.776PERI 0.425 0.347 -0.4551 -0.897 0.574PNPN -2.660 0.081 -1.5624 0.145 -1.098PNPR -1.975 -0.040 -2.2762 0.416 0.046PPW -2.529 -0.445 -1.5166 0.716 -0.944PARA 0.765 -0.035 -0.0432 -0.762 0.793PACP 2.251 -0.423 -0.0059 -0.359 -0.158PPP -2.788 -0.817 0.0830 0.601 0.080RRF -3.783 2.649 -1.4059 0.609 -1.589RIMO1 1.685 -0.939 0.1324 -0.313 -0.535ROM 1.497 4.137 -0.1006 0.479 0.750ROUGE -2.972 0.789 0.2219 -0.739 -0.837ROUMA -1.695 0.960 -0.5950 -1.167 0.475SAA -0.179 0.163 -0.3918 -0.844 0.598SPARB 2.229 1.341 0.4653 0.188 -0.129SUAR -0.528 -0.479 0.0902 -0.292 -0.774TONN 1.545 -0.317 -0.0486 -0.394 0.734TP1 1.368 -0.644 -0.1013 -0.450 -0.095VAL 1.200 0.059 -0.0066 -0.899 0.636VPSM -0.809 0.662 -0.4060 -1.031 0.260YSB 3.793 -1.975 0.2955 0.536 -0.617
Table 7. Coordonnees des individus.
Appendice D : Contribution des individus pour la construction des 5 premiers axes principaux.
Axe.1 Axe.2 Axe.3 Axe.4 Axe.5AGUA 0.27639 1.0e+00 6.4e-01 1.1e+00 3.5488BST 0.18216 9.2e-01 4.1e-01 9.7e-02 1.6187BL 0.16640 2.9e-01 1.5e-01 7.5e-03 1.2135BARP 1.26504 2.3e-01 4.5e+00 2.6e-01 0.0026BPSS 1.54732 5.2e-02 4.4e+00 7.1e-01 0.2090BAP 0.99228 2.9e-01 6.1e-02 5.2e-02 0.7294CC 2.42609 9.3e-01 3.7e-02 4.7e-03 0.3758CAP 0.64473 8.4e-02 3.2e-02 2.6e-01 0.0072CCM 0.41388 1.1e+01 6.7e-01 2.3e+00 0.2024CARC1 0.11462 3.9e+00 8.1e-02 2.8e-02 0.0475CAR205 0.01944 8.5e-01 1.7e+00 1.7e+00 6.0182CW 3.02071 4.1e-01 2.4e+00 2.9e+00 0.0352CPFC 0.44878 8.2e-01 2.3e-01 1.3e+00 0.1127
16
Axe.1 Axe.2 Axe.3 Axe.4 Axe.5CARC 0.01487 5.7e-02 1.6e-01 1.1e+00 0.2026DARPD 8.96412 3.5e+00 4.1e-01 5.4e-01 2.0199DSD 0.19292 3.2e+00 3.2e+00 1.2e+01 12.2280DON 0.71968 1.0e+00 2.3e-01 1.7e+00 0.5482EPSF 2.14105 3.6e-01 1.6e+00 7.2e-01 2.1163ECO 0.06115 1.0e-01 2.8e-02 1.3e+00 1.3149ESCOU 0.97595 3.9e-01 1.7e-01 2.3e-02 0.0385EPEMB 0.68513 2.9e-01 6.9e-02 1.3e+00 0.5970ESHDL 0.02457 1.1e-01 1.3e-01 7.2e-02 0.6662FSG 0.01183 3.5e-01 2.2e-02 8.0e-04 1.2358GARC 0.07004 1.4e+00 1.4e-01 6.5e-01 0.1080GOD 1.42122 3.5e-01 2.0e-01 2.2e-01 0.1274GBSP 0.28196 2.0e-01 3.2e-03 3.4e-01 0.0138GRO 4.60470 1.3e+00 2.6e-05 3.3e-01 0.0343HA 0.33565 9.2e-03 3.8e-01 4.2e-01 0.1905HREH 1.92622 1.9e+00 4.3e+00 5.6e+00 10.8801HARSL 2.04617 2.2e+00 3.1e+00 2.0e+01 5.9765JCPSG 0.00560 1.9e-01 1.5e-01 1.5e+00 0.2403KINO 0.06002 4.4e-01 2.6e-01 1.6e+00 0.4249AJOL 2.42751 9.2e-01 1.9e+01 1.4e-01 12.2475ASC 0.06807 1.5e-01 3.3e-02 2.4e-01 0.1315LR2 0.00039 3.0e-02 3.0e-01 5.4e-01 0.0306LARC 0.23568 4.5e-02 3.8e+00 3.0e-02 0.5050LPSP 0.02722 7.2e-03 1.9e-01 6.9e-01 0.1972MRLM 3.67878 8.7e-01 2.3e-01 1.7e-04 0.0936MPSU 0.19270 1.0e-01 5.3e+00 5.9e-01 0.1815MPM 3.11120 4.7e-01 8.0e-02 7.6e-03 0.2711MSMS 1.05153 6.3e-02 5.8e-01 1.0e+00 0.0333MSM 0.66754 1.8e-01 1.7e+00 1.2e-01 2.8671MIST 1.18223 4.9e+00 2.6e-01 6.1e-01 0.0215MAMI 1.56066 3.3e+00 3.3e-01 7.5e-01 0.0122MOI 1.62877 2.9e+01 2.4e+00 1.6e+01 1.2227MARB 1.42206 1.1e-01 9.2e-04 8.1e-02 2.3893MABMN 0.76743 4.1e-04 7.6e-02 6.5e-01 0.2528NAB 0.00052 1.3e-01 5.5e-02 9.0e-01 0.9677NEIG 1.47664 1.2e+00 2.9e+00 1.0e+00 0.8101NICO 1.85355 3.5e-02 3.5e+00 3.7e-01 0.0524NSOA 1.01272 7.0e-01 2.3e-01 4.5e-01 0.2113NWS 7.50702 2.6e-01 4.7e+00 2.9e+00 0.0283NRY 1.89387 1.7e-01 3.1e+00 1.5e+00 1.5026NSJ 0.89743 1.7e-01 5.8e+00 4.9e-01 0.0262NPON 2.17418 6.2e-01 8.2e-03 1.8e-02 0.1780OUR2 0.49327 3.9e-03 3.4e-01 1.2e-01 1.3169PERI 0.05878 6.5e-02 2.4e-01 1.0e+00 0.7201PNPN 2.29820 3.6e-03 2.8e+00 2.7e-02 2.6400PNPR 1.26688 8.5e-04 5.9e+00 2.2e-01 0.0046PPW 2.07646 1.1e-01 2.6e+00 6.5e-01 1.9504PARA 0.18999 6.5e-04 2.1e-03 7.4e-01 1.3753PACP 1.64525 9.7e-02 3.9e-05 1.6e-01 0.0546PPP 2.52454 3.6e-01 7.8e-03 4.6e-01 0.0139RRF 4.64790 3.8e+00 2.2e+00 4.7e-01 5.5247RIMO1 0.92242 4.8e-01 2.0e-02 1.2e-01 0.6266ROM 0.72757 9.2e+00 1.2e-02 2.9e-01 1.2313ROUGE 2.86848 3.4e-01 5.6e-02 7.0e-01 1.5340ROUMA 0.93305 5.0e-01 4.0e-01 1.7e+00 0.4936SAA 0.01042 1.4e-02 1.7e-01 9.1e-01 0.7838SPARB 1.61340 9.7e-01 2.5e-01 4.5e-02 0.0365SUAR 0.09064 1.2e-01 9.3e-03 1.1e-01 1.3108TONN 0.77494 5.4e-02 2.7e-03 2.0e-01 1.1790TP1 0.60763 2.2e-01 1.2e-02 2.6e-01 0.0199VAL 0.46752 1.9e-03 4.9e-05 1.0e+00 0.8850VPSM 0.21257 2.4e-01 1.9e-01 1.4e+00 0.1475YSB 4.67171 2.1e+00 9.9e-02 3.7e-01 0.8341
Table 8. Contribution des individus.
Segmentation par nuees dynamiques de nuages de points en
plans
Julien PREMONT
Le 3 mars 2010
Departement d’informatique
Universite de Sherbrooke
Sherbrooke (Qc), Canada, J1K 2R1
- Rapport de recherche -
DI, Universite de Sherbrooke Rapport de recherche
Table des matieres
Liste des tableaux 3
Table des figures 3
1 Introduction 4
2 Methode 5
2.1 Voisinages . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.1.1 Choix vorace des voisinages . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.1.2 Nuees dynamiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.1.3 Estimation des plans locaux . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.2 Estimation des plans . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
3 Experimentation 7
3.1 Parametres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
3.2 Mesures . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
3.3 Tests effectues . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
3.3.1 Bruit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
4 Resultats et analyse 9
4.1 Resultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
4.2 Analyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
4.3 Ameliorations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
5 Conclusion 12
References 13
2
DI, Universite de Sherbrooke Rapport de recherche
Liste des tableaux
4.1 Resultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
Table des figures
3.1 Exemples de nuages de points . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
3
DI, Universite de Sherbrooke Rapport de recherche
1 Introduction
A la fin des annees 1990, l’infographie en 3D est apparue dans le monde du divertissement, princi-
palement dans les jeux videos, mais egalement au cinema, dans la publicite et pratiquement partout ou
un ecran est disponible. Toutefois, l’utilisation de la 3D ne se limite pas au monde du divertissement,
bien au contraire. Dans plusieurs secteurs d’activite, il est tres utile d’avoir un modele 3D d’une scene
reelle. En genie civil, par exemple, une maquette 3D virtuelle peut permettre de reperer d’eventuelles er-
reurs de conception avant meme d’entamer la construction, evitant ainsi d’enormes couts de reparations.
De meme, un modele 3D d’une ville ou d’un quartier peut etre d’une grande utilite tant aux archi-
tectes urbanistes qu’aux compagnies de telecommunications qui voudraient positionner leurs antennes
adequatement.
La construction de tels modeles virtuels se fait generalement en deux etapes. D’abord, des donnees
brutes, sous forme d’images ou plus souvent de nuages de points denses, sont acquises a l’aide de
capteurs photographiques aeriens ou terrestres ou de capteurs de distance au laser (Laser Range Sen-
sor). Ensuite, un algorithme est utilise pour analyser ces donnees, c’est-a-dire reconstruire les primitives
geometriques qui composent les objets de la scene et les assembler en un modele 3D.
Les primitives geometriques les plus frequemment rencontrees dans le monde industrialise et urbain
sont les plans, qui peuvent notamment etre des murs, des toits, des tables, des rues. Ainsi, de nombreuses
approches ont ete proposees pour reconstituer des objets faits de surfaces planaires dans des scenes
urbaines ou industrielles (par exemple [1], [2], [6], [7], [8]).
La plupart des methodes de detection de plans proposees recemment se basent sur des variantes en 3D
de la transformee de Hough ([4]) ou sur RANSAC ([3]). Ce n’est pas le cas de la methode ici etudiee,
qui utilise plutot l’algorithme des nuees dynamiques (aussi souvent nomme k-means).
Les details de cette methode sont expliques dans la section 2. La section 3 decrit les tests qui ont
ete effectues, puis la section 4 presente une analyse des resultats. Enfin, une synthese est faite dans la
section 5.
4
DI, Universite de Sherbrooke Rapport de recherche
2 Methode
2.1 Voisinages
La premiere etape est de decomposer le nuage de points en z voisinages locaux composes de h points
chacun. Ces voisinages doivent etre choisis de facon a ce que leur inertie par rapport a leur centre de
gravite soit la plus faible possible. La difficulte ici reside dans le fait que, apres avoir constitue plusieurs
voisinages, il devient possible de voir de petits groupes de points isoles etre jumeles a d’autres points qui
en sont relativement eloignes (et qui appartiennent potentiellement a une autre primitive) pour constituer
un voisinage de taille suffisante, mais qui n’est plus vraiment local.
Malheureusement, selon [5], il n’existe pas de facon generale pour trouver la configuration optimale
de voisinages, mais l’algorithme des nuees dynamiques s’en approche generalement bien. Les deux
possibilites explorees sont une methode vorace et l’algorithme des nuees dynamiques.
2.1.1 Choix vorace des voisinages
Pour constituer le premier voisinage, un point du nuage est choisi aleatoirement et les h− 1 points qui
en sont les plus pres sont trouves. Les points de ce nouveau voisinage sont retires du nuage de points.
Cette procedure est repetee jusqu’a ce que le nuage contienne moins de h points.
2.1.2 Nuees dynamiques
Les voisinages peuvent alternativement etre constitues en utilisant l’algorithme des nuees dynamiques
([5]). Cet algorithme vise a separer les donnees en k groupes dont l’inertie par rapport au centre de
gravite est faible. Il n’est toutefois pas garanti que la configuration optimale soit trouvee. Le nombre de
groupes k (comme la dimensionnalite du probleme) doit etre determine au prealable, faute de quoi le
probleme est NP-complet. L’algorithme des nuees dynamiques fonctionne de la facon suivante :
1. Initialiser les centres de gravite des groupes (aleatoirement ou autrement)
5
DI, Universite de Sherbrooke Rapport de recherche
2. Associer chaque point au groupe dont le centre de gravite en est le plus pres
3. Recalculer le centre de gravite de chaque groupe
4. Repeter les etapes 2 et 3 tant que la composition des groupes change.
Remarque L’algorithme des nuees dynamiques peut sembler approprie pour constituer les voisinages
de points, car l’objectif est de creer des groupes de faible inertie. Toutefois, son utilisation presente
un inconvenient majeur. En effet, le temps de calcul de l’algorithme des nuees dynamiques augmente
exponentiellement avec le nombre de groupes z a former. Puisque dans ce cas-ci, z est plutot grand (h
etant generalement petit), le temps de calcul devient prohibitivement grand.
2.1.3 Estimation des plans locaux
Une fois tous les voisinages constitues, un plan doit etre estime pour chacun. Deux methodes ont
encore une fois ete etudiees ici.
– le plan qui minimise la distance (euclidienne) aux points de chaque voisinage est trouve en utilisant
une regression lineaire
– le plan local est trouve avec l’algorithme RANSAC [3]
Dans les deux cas, z plans sont obtenus, chacun etant defini par son vecteur normal et sa distance de
l’origine (perpendiculairement).
2.2 Estimation des plans
L’algorithme des nuees dynamiques est enfin utilise pour trouver l’equation des n plans qui constituent
le nuage de point a partir des z plans trouves a l’etape precedente.
6
DI, Universite de Sherbrooke Rapport de recherche
3 Experimentation
3.1 Parametres
Il y a quelques parametres desquels depend l’execution de l’algorithme. Les valeurs choisies sont
presentees ici.
– n : Le nombre de plans dans la scene
– 1, 3, 5
– h : Le nombre de points dans le voisinage d’un autre point
– 3, 5, 8, 12, 20, 100
– α : Le niveau de bruit (variance ou ecart-type)
– 0, 1, 5, 10
– V : L’algorithme utilise pour la creation des voisinages
– Vorace
– L : L’algorithme utilise pour l’estimation des plans locaux
– Minimisation des erreurs quadratiques (MEQ)
– RANSAC (RSC)
Puisqu’il est dans cas particulier NP-complet (voir 2.1.2), l’algorithme des nuees dynamiques n’a pas
ete retenu pour creer les voisinages locaux. Seul l’algorithme vorace a donc ete utilise.
3.2 Mesures
La premiere mesure d’erreur utilisee (ξ) est la difference angulaire entre le vecteur normal du plan
estime et celui de la verite-terrain. La seconde est la distance euclidienne (d) moyenne entre les points
du plan estime et la verite-terrain. Cette seconde mesure necessite la generation aleatoire de points ap-
partenant au plan estime.
Bien que les deux precedentes mesures dependent directement de la juste estimation des equations
7
DI, Universite de Sherbrooke Rapport de recherche
des plans, le nombre de plans bien trouves (k) est note comme troisieme mesure, car l’ampleur ou la
petitesse des erreurs importe peu si ne serait-ce qu’un seul des plans n’est pas bien retrouve.
3.3 Tests effectues
Les tests ont ete effectues sur des plans dont les equations ont ete generees aleatoirement. Pour chaque
plan, 10000 points ont ete generes aleatoirement dans une meme region bornee de l’espace.
Les memes tests ont aussi ete effectues en utilisant l’algorithme RANSAC pour estimer les equations
des plans plutot que la methode ici ete etudiee. RANSAC est une methode eprouvee dans le domaine de
l’estimation de primitives et fournit donc une bonne base de comparaison. (Voir [3] pour plus de details
sur RANSAC.)
FIGURE 3.1 – Exemples de nuages de points utilises
3.3.1 Bruit
Le bruit utilise est gaussien. Chaque point du plan non bruite est deplace dans la direction de l’axe des
z d’une valeur obtenue d’une distribution aleatoire gaussienne de moyenne 0 et de variance σ2. Le bruit
est ainsi applique uniquement a l’axe des z, plutot que perpendiculairement au plan, car dans la plupart
8
DI, Universite de Sherbrooke Rapport de recherche
des applications de cette methode, on prend generalement des mesures de profondeur (z) pour differents
points repartis sur une grille reguliere (x et y). Par exemple, si une mesure de profondeur est prise pour
chaque pixel d’une paire d’images stereoscopiques, la position des pixels sera toujours exacte, seule la
profondeur pourra etre bruitee.
4 Resultats et analyse
4.1 Resultats
Le grand nombre de parametres donne lieu a une (petite) explosion combinatoire du nombre de confi-
gurations possibles. Il serait fastidieux de presenter ici exhaustivement les resultats obtenus, alors uni-
quement les configurations les plus interessantes ou significatives sont presentees dans la Table 4.1. Les
tests comparatifs effectues avec RANSAC sont indiques par une valeur de h de RSC.
4.2 Analyse
Le premier constat a faire est que RANSAC donne toujours de meilleurs resultats que la methode
etudiee. En fait, dans tous les tests effectues, RANSAC retrouve avec precision tous les plans, meme en
presence de bruit. Il n’en va pas de meme pour l’algorithme etudie.
Ces resultats montrent que l’algorithme fonctionne en general bien dans les cas simples et ideaux,
mais qu’il n’est guere robuste au bruit. Dans les cas bruites, les plans ne sont jamais tous bien retrouves.
Il arrive par contre souvent que seulement une minorite de plans (1 ou 2) ne soient pas bien estimes.
Dans ces cas, il se produit la situation citee en 2.1 ou les derniers voisinages sont constitues de points
eloignes, appartenant potentiellement a differents plans.
Les resultats montrent egalement que la methode est (non significativement) plus robuste lorsque les
voisinages sont de plus grande taille. En effet, en presence de bruit, un voisinage local de petite taille
pourrait ne pas suivre l’allure generale du plan, mais plutot avoir une forme quelconque dont les axes
9
DI, Universite de Sherbrooke Rapport de recherche
n h α L ξ d k
1 RSC 0 — 0.00903991 1e-005 1
1 5 0 RSC 8.53774e-007 1.0009e-005 1
1 5 0 MEQ 0 1.00016e-005 1
1 RSC 1 — 0.00466886 0.279771 1
1 5 1 MEQ 0.497639 13.1526 1
1 20 1 MEQ 0.0372379 0.976707 1
1 RSC 10 — 0.113135 5.0017 1
1 12 10 MEQ 1.2254 233.928 1
1 100 10 MEQ 0.108338 23.3573 1
3 RSC 0 — 0.00455799 9.9999e-006 3
3 5 0 MEQ 5.69182e-007 1.47151e-005 3
3 8 0 MEQ 9.67683 494.902 2
3 RSC 5 — 0.2306 2.30141 3
3 12 5 MEQ 15.5662 2734.5 1
5 RSC 0 — 0 1e-005 5
5 5 0 RSC 1.02237 15.464 5
5 RSC 10 — 0.276926 3.14161 5
5 100 10 MEQ 14.2977 12974.3 3
5 100 10 RSC 17.2636 7987.65 1
TABLE 4.1 – Resultats obtenus a differents tests
10
DI, Universite de Sherbrooke Rapport de recherche
principaux d’inertie sont completement differents. En d’autres mots, le voisinage pourrait etre constitue
majoritairement de points bruites. L’utilisation d’un plus grand nombre de points reduit donc l’effet du
bruit. Etonnamment, l’utilisation de RANSAC pour estimer les plans locaux, particulierement avec de
grands voisinages, n’a pas donne de meilleurs resultats que la regression lineaire.
Par ailleurs, il est a noter qu’en prenant la plus grande valeur de h possible, il n’y aurait qu’un seul
voisinage qui contiendrait tous les points. L’algorithme serait alors equivalent a RANSAC ou a une
regression lineaire, selon la methode d’estimation des plans locaux choisie.
Enfin, RANSAC bat de vitesse l’algorithme etudie.
4.3 Ameliorations
Les resultats pourraient probablement etre ameliores en utilisant dans les nuees dynamiques la distance
de Mahalanobis, ou du moins une distance plus adaptee que la distance euclidienne habituelle. En effet,
la distance du plan a l’origine a generalement une valeur nettement plus grande que les composantes
du vecteur normal, qu’elles soient dans l’espace XY Z ou θφ, et a donc injustement une trop grande
influence dans l’estimation et la segmentation des plans.
Il serait egalement interessant d’etudier le comportement de l’algorithme en assouplissant la contrainte
de localite des voisinages. Les plans locaux seraient ainsi moins influences par le bruit. Plus precisement,
un voisinage serait alors compose d’un point et de h − 1 autres points parmi ses f plus proches voisins
(f > h), plutot que de directement choisir les h− 1 plus proches voisins. Le risque avec cette approche
est d’avoir des voisinages constitues de points appartenant a differents plans.
Enfin, il pourrait aussi etre interessant d’utiliser le vecteur normal de chaque point, c’est-a-dire de ne
pas retirer du nuage les points deja associes a un voisinage. Autant de plans locaux qu’il y a de points
seraient alors consideres (un echantillonnage pourrait eventuellement etre fait), mais le probleme des
voisinages non locaux (voir 2.1) serait evite.
11
DI, Universite de Sherbrooke Rapport de recherche
5 Conclusion
Une methode d’estimation et de segmentation de plans a partir d’un nuage de points a ete presentee.
La methode decompose le nuage en plusieurs sous-nuages, estime un plan correspondant a chacun, puis
utilise l’algorithme des nuees dynamiques pour estimer les plans qui constituent le nuage global.
Si cette methode fonctionne assez bien dans un cas ideal, la presence de bruit reduit considerablement
son efficacite. L’utilisation de moyennes par l’algorithme des nuees dynamiques pour calculer la position
des centres de gravite dans l’espace explique bien pourquoi le bruit fausse les resultats.
La methode a de plus ete comparee a RANSAC et il a ete montre qu’elle ne presente aucun veritable
avantage (au contraire). Neanmoins, des pistes d’amelioration sont proposees.
12
DI, Universite de Sherbrooke Rapport de recherche
References
[1] Lars Bodum, Jens Overby, Erik Kjems, and Peer Møller Ilsøe. Automatic 3d building reconstruction
from airborne laser scanning and cadastral data using hough transform. Proceedings of the XXth
International Congress for Photogrammetry and Remote Sensing, pages 1–6, 2004.
[2] J. Engels, H. Arefi, and M. Hahn. Generation of roof topologies using plane fitting with ransac. In
ISPRS Congress, page B3a : 119 ff, 2008.
[3] Martin A. Fischler and Robert C. Bolles. Random sample consensus : a paradigm for model fitting
with applications to image analysis and automated cartography. Commun. ACM, 24(6) :381–395,
1981. ISSN 0001-0782. doi : http ://doi.acm.org/10.1145/358669.358692.
[4] P.V.C. Hough. Method and means for recognizing complex patterns. In US Patent, 1962.
[5] J. B. MacQueen. Some methods for classification and analysis of multivariate observations. In
L. M. Le Cam and J. Neyman, editors, Proc. of the fifth Berkeley Symposium on Mathematical
Statistics and Probability, volume 1, pages 281–297. University of California Press, 1967.
[6] Kei Okada, Satoshi Kagami, Masayuki Inaba, and Hirochika Inoue. Plane segment finder : Algo-
rithm, implementation and applications. In ICRA, pages 2120–2125, 2001.
[7] F. Tarsha Kurdi, T. Landes, and P. Grussenmeyer. Hough-transform and extended ransac algorithms
for automatic detection of 3d building roof planes from lidar data. In Workshop on Laser Scanning,
page 407, 2007.
[8] G. Vosselman and S. Dijkman. 3d building model reconstruction from point clouds and ground plans.
International Archives of the Photogrammetry, Remote Sensing and Spatial Information Sciences,
34(3/W4) :37–44, 2001.
13