fabrice rossi télécom paristech -...
TRANSCRIPT
![Page 1: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses](https://reader030.vdocuments.mx/reader030/viewer/2022020114/5b98f41309d3f2210c8d2025/html5/thumbnails/1.jpg)
Analyse exploratoire de données
Fabrice Rossi
Télécom ParisTech
![Page 2: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses](https://reader030.vdocuments.mx/reader030/viewer/2022020114/5b98f41309d3f2210c8d2025/html5/thumbnails/2.jpg)
PlanIntroduction
ExplorationModélisationModèle des données
Analyses univariéesVariables numériques
HistogrammeBoxplot et statistiques
Variables nominales
Analyses multivariéesDiagramme de dispersionMatrice de corrélationDiagramme mosaiqueCoordonnées parallèlesInteraction
2 / 41 F. Rossi
![Page 3: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses](https://reader030.vdocuments.mx/reader030/viewer/2022020114/5b98f41309d3f2210c8d2025/html5/thumbnails/3.jpg)
PlanIntroduction
ExplorationModélisationModèle des données
Analyses univariéesVariables numériques
HistogrammeBoxplot et statistiques
Variables nominales
Analyses multivariéesDiagramme de dispersionMatrice de corrélationDiagramme mosaiqueCoordonnées parallèlesInteraction
3 / 41 F. Rossi Introduction
![Page 4: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses](https://reader030.vdocuments.mx/reader030/viewer/2022020114/5b98f41309d3f2210c8d2025/html5/thumbnails/4.jpg)
Exploiter des données
Que faire d’un paquet de données ?Comment exploiter le contenu d’un entrepôt de données ?
recensement32561personnes15 attributspar personne
Volume classique : milliers à millions de lignes, dizaine àcentaines de colonnesExploration systématique impossible (même pour de petitspaquets de données)
4 / 41 F. Rossi Introduction
![Page 5: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses](https://reader030.vdocuments.mx/reader030/viewer/2022020114/5b98f41309d3f2210c8d2025/html5/thumbnails/5.jpg)
Exploiter des données
Que faire d’un paquet de données ?Comment exploiter le contenu d’un entrepôt de données ?
recensement32561personnes15 attributspar personne
Volume classique : milliers à millions de lignes, dizaine àcentaines de colonnesExploration systématique impossible (même pour de petitspaquets de données)
4 / 41 F. Rossi Introduction
![Page 6: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses](https://reader030.vdocuments.mx/reader030/viewer/2022020114/5b98f41309d3f2210c8d2025/html5/thumbnails/6.jpg)
Exploiter des données
Que faire d’un paquet de données ?Comment exploiter le contenu d’un entrepôt de données ?
recensement32561personnes15 attributspar personne
Volume classique : milliers à millions de lignes, dizaine àcentaines de colonnesExploration systématique impossible (même pour de petitspaquets de données)
4 / 41 F. Rossi Introduction
![Page 7: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses](https://reader030.vdocuments.mx/reader030/viewer/2022020114/5b98f41309d3f2210c8d2025/html5/thumbnails/7.jpg)
Outils d’exploitation
Support informatique et mathématique :• outils d’exploitation des données• but : diminuer la charge cognitive pour l’analyste
Deux grandes classes d’outils :1. exploration
• pas d’idée a priori sur les données• recherche de régularité (dépendances, groupes homogènes,
etc.)
2. modélisation
• idée précise sur les données• construction de modèles prédictifs
outil utilisé : R (http://R-project.org/)
5 / 41 F. Rossi Introduction
![Page 8: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses](https://reader030.vdocuments.mx/reader030/viewer/2022020114/5b98f41309d3f2210c8d2025/html5/thumbnails/8.jpg)
Outils d’exploitation
Support informatique et mathématique :• outils d’exploitation des données• but : diminuer la charge cognitive pour l’analyste
Deux grandes classes d’outils :1. exploration
• pas d’idée a priori sur les données• recherche de régularité (dépendances, groupes homogènes,
etc.)2. modélisation
• idée précise sur les données• construction de modèles prédictifs
outil utilisé : R (http://R-project.org/)
5 / 41 F. Rossi Introduction
![Page 9: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses](https://reader030.vdocuments.mx/reader030/viewer/2022020114/5b98f41309d3f2210c8d2025/html5/thumbnails/9.jpg)
Outils d’exploitation
Support informatique et mathématique :• outils d’exploitation des données• but : diminuer la charge cognitive pour l’analyste
Deux grandes classes d’outils :1. exploration
• pas d’idée a priori sur les données• recherche de régularité (dépendances, groupes homogènes,
etc.)2. modélisation
• idée précise sur les données• construction de modèles prédictifs
outil utilisé : R (http://R-project.org/)
5 / 41 F. Rossi Introduction
![Page 10: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses](https://reader030.vdocuments.mx/reader030/viewer/2022020114/5b98f41309d3f2210c8d2025/html5/thumbnails/10.jpg)
Outils d’exploitation
Support informatique et mathématique :• outils d’exploitation des données• but : diminuer la charge cognitive pour l’analyste
Deux grandes classes d’outils :1. exploration
• pas d’idée a priori sur les données• recherche de régularité (dépendances, groupes homogènes,
etc.)2. modélisation
• idée précise sur les données• construction de modèles prédictifs
outil utilisé : R (http://R-project.org/)
5 / 41 F. Rossi Introduction
![Page 11: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses](https://reader030.vdocuments.mx/reader030/viewer/2022020114/5b98f41309d3f2210c8d2025/html5/thumbnails/11.jpg)
Analyse exploratoireObjectifs :
• obtenir une vision globale d’un jeu de données• découvrir des formes de régularité
Moyens :• représentations visuelles (et interactives) des données• recherche automatique de régularités :
• corrélation et dépendance entre variables• groupes homogènes (classification)• schémas fréquents
020
4060
8010
0
Hei
ght
−6 −4 −2 0 2 4
−20
24
6
PC1
PC
2
6 / 41 F. Rossi Introduction
![Page 12: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses](https://reader030.vdocuments.mx/reader030/viewer/2022020114/5b98f41309d3f2210c8d2025/html5/thumbnails/12.jpg)
Analyse exploratoireObjectifs :
• obtenir une vision globale d’un jeu de données• découvrir des formes de régularité
Moyens :• représentations visuelles (et interactives) des données• recherche automatique de régularités :
• corrélation et dépendance entre variables• groupes homogènes (classification)• schémas fréquents
020
4060
8010
0
Hei
ght
−6 −4 −2 0 2 4
−20
24
6
PC1
PC
2
6 / 41 F. Rossi Introduction
![Page 13: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses](https://reader030.vdocuments.mx/reader030/viewer/2022020114/5b98f41309d3f2210c8d2025/html5/thumbnails/13.jpg)
ModélisationObjectifs :
• inférer des informations inconnues• prédire l’évolution des données
Moyens :• données d’apprentissage :
• connaître l’évolution d’une grandeur dans le passé pourprédire son évolution future (données historiques)
• connaître une propriété de certains objets (par exemple lesalaire de certains clients) pour inférer sa valeur pour lesautres objets
• méthodes d’apprentissage : construire un modèle à partirdes données d’apprentissage
Stratégie :• analyse exploratoire• formulation d’hypothèses• construction de modèles pour valider les hypothèses
7 / 41 F. Rossi Introduction
![Page 14: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses](https://reader030.vdocuments.mx/reader030/viewer/2022020114/5b98f41309d3f2210c8d2025/html5/thumbnails/14.jpg)
ModélisationObjectifs :
• inférer des informations inconnues• prédire l’évolution des données
Moyens :• données d’apprentissage :
• connaître l’évolution d’une grandeur dans le passé pourprédire son évolution future (données historiques)
• connaître une propriété de certains objets (par exemple lesalaire de certains clients) pour inférer sa valeur pour lesautres objets
• méthodes d’apprentissage : construire un modèle à partirdes données d’apprentissage
Stratégie :• analyse exploratoire• formulation d’hypothèses• construction de modèles pour valider les hypothèses
7 / 41 F. Rossi Introduction
![Page 15: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses](https://reader030.vdocuments.mx/reader030/viewer/2022020114/5b98f41309d3f2210c8d2025/html5/thumbnails/15.jpg)
Modèle mathématique
On a N observations, les zi ∈ ZModèle statistique/probabiliste
• il existe une distribution PZ sur Z inconnue• les zi sont des réalisations de variables aléatoires avec
cette distribution• les variables aléatoires sont indépendantes (en général)
En général• Z = ΠP
p=1Zp : P variables pour décrire chaque objet• quand Zp ⊂ R : variable numérique (ou ordonnée)• quand Zp = {a, b, . . .} : variable nominale (un nombre fini
de valeurs possibles non ordonnées)
8 / 41 F. Rossi Introduction
![Page 16: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses](https://reader030.vdocuments.mx/reader030/viewer/2022020114/5b98f41309d3f2210c8d2025/html5/thumbnails/16.jpg)
Modèle mathématique
On a N observations, les zi ∈ ZModèle statistique/probabiliste
• il existe une distribution PZ sur Z inconnue• les zi sont des réalisations de variables aléatoires avec
cette distribution• les variables aléatoires sont indépendantes (en général)
En général• Z = ΠP
p=1Zp : P variables pour décrire chaque objet• quand Zp ⊂ R : variable numérique (ou ordonnée)• quand Zp = {a, b, . . .} : variable nominale (un nombre fini
de valeurs possibles non ordonnées)
8 / 41 F. Rossi Introduction
![Page 17: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses](https://reader030.vdocuments.mx/reader030/viewer/2022020114/5b98f41309d3f2210c8d2025/html5/thumbnails/17.jpg)
PlanIntroduction
ExplorationModélisationModèle des données
Analyses univariéesVariables numériques
HistogrammeBoxplot et statistiques
Variables nominales
Analyses multivariéesDiagramme de dispersionMatrice de corrélationDiagramme mosaiqueCoordonnées parallèlesInteraction
9 / 41 F. Rossi Analyses univariées
![Page 18: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses](https://reader030.vdocuments.mx/reader030/viewer/2022020114/5b98f41309d3f2210c8d2025/html5/thumbnails/18.jpg)
Analyses élémentairesPremière étape d’une analyse exploratoire
• travailler variable par variable• numériquement et graphiquement
Variable numérique• à valeurs dans R• statistiques classiques : moyenne, variance, médiane, etc.• représentations associées : histogramme, boxplot
Variable âge : numérique
Histogram of age
age
Den
sity
0 20 40 60 80 100
0.00
00.
010
0.02
0
10 / 41 F. Rossi Analyses univariées
![Page 19: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses](https://reader030.vdocuments.mx/reader030/viewer/2022020114/5b98f41309d3f2210c8d2025/html5/thumbnails/19.jpg)
Analyses élémentairesPremière étape d’une analyse exploratoire
• travailler variable par variable• numériquement et graphiquement
Variable numérique• à valeurs dans R• statistiques classiques : moyenne, variance, médiane, etc.• représentations associées : histogramme, boxplot
Variable âge : numérique
Histogram of age
age
Den
sity
0 20 40 60 80 100
0.00
00.
010
0.02
0
10 / 41 F. Rossi Analyses univariées
![Page 20: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses](https://reader030.vdocuments.mx/reader030/viewer/2022020114/5b98f41309d3f2210c8d2025/html5/thumbnails/20.jpg)
Analyses élémentairesPremière étape d’une analyse exploratoire
• travailler variable par variable• numériquement et graphiquement
Variable numérique• à valeurs dans R• statistiques classiques : moyenne, variance, médiane, etc.• représentations associées : histogramme, boxplot
Variable âge : numérique
Histogram of age
age
Den
sity
0 20 40 60 80 100
0.00
00.
010
0.02
0
10 / 41 F. Rossi Analyses univariées
![Page 21: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses](https://reader030.vdocuments.mx/reader030/viewer/2022020114/5b98f41309d3f2210c8d2025/html5/thumbnails/21.jpg)
HistogrammeUn histogramme représente une estimation de ladistribution d’une variablePrincipe de construction :
• division de l’intervalle [min, max] en K sous-intervalles(diverses règles pour K , par exemple ∼ log N)
• dénombrement des objets pour lesquels la valeur de lavariable tombe dans chacun des intervalles
• représentation par des barres de surfaces proportionnellesaux décomptes
Attention aux intervalles de longueurs différentes
11 / 41 F. Rossi Analyses univariées
![Page 22: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses](https://reader030.vdocuments.mx/reader030/viewer/2022020114/5b98f41309d3f2210c8d2025/html5/thumbnails/22.jpg)
HistogrammeUn histogramme représente une estimation de ladistribution d’une variablePrincipe de construction :
• division de l’intervalle [min, max] en K sous-intervalles(diverses règles pour K , par exemple ∼ log N)
• dénombrement des objets pour lesquels la valeur de lavariable tombe dans chacun des intervalles
• représentation par des barres de surfaces proportionnellesaux décomptes
Attention aux intervalles de longueurs différentes
Histogram of dummy.unif
dummy.unif
Den
sity
0.0 0.2 0.4 0.6 0.8 1.0
0.0
0.4
0.8
Histogram of dummy.unif
dummy.unif
Fre
quen
cy
0.0 0.2 0.4 0.6 0.8 1.0
050
150
11 / 41 F. Rossi Analyses univariées
![Page 23: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses](https://reader030.vdocuments.mx/reader030/viewer/2022020114/5b98f41309d3f2210c8d2025/html5/thumbnails/23.jpg)
HistogrammeUn histogramme représente une estimation de ladistribution d’une variablePrincipe de construction :
• division de l’intervalle [min, max] en K sous-intervalles(diverses règles pour K , par exemple ∼ log N)
• dénombrement des objets pour lesquels la valeur de lavariable tombe dans chacun des intervalles
• représentation par des barres de surfaces proportionnellesaux décomptes
Attention aux intervalles de longueurs différentes
Histogram of dummy.unif
dummy.unif
Den
sity
0.0 0.2 0.4 0.6 0.8 1.0
0.0
0.4
0.8
Histogram of dummy.unif
dummy.unif
Fre
quen
cy
0.0 0.2 0.4 0.6 0.8 1.0
020
060
0
11 / 41 F. Rossi Analyses univariées
![Page 24: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses](https://reader030.vdocuments.mx/reader030/viewer/2022020114/5b98f41309d3f2210c8d2025/html5/thumbnails/24.jpg)
IntérêtsHistogram of age
age
Den
sity
0 20 40 60 80 100
0.00
00.
010
0.02
0Histogramme des heures travaillées par semaine
Heures
Fre
quen
cy
0 20 40 60 80 100
050
0010
000
1500
0
Âge Temps de travailHistogramme des plus values
Plus values
Fre
quen
cy
0e+00 2e+04 4e+04 6e+04 8e+04 1e+05
050
0015
000
2500
0
Idée générale de ladistribution“irrégularités”distribution complètementatypique
Plus values
12 / 41 F. Rossi Analyses univariées
![Page 25: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses](https://reader030.vdocuments.mx/reader030/viewer/2022020114/5b98f41309d3f2210c8d2025/html5/thumbnails/25.jpg)
IntérêtsHistogram of age
age
Den
sity
0 20 40 60 80 100
0.00
00.
010
0.02
0Histogramme des heures travaillées par semaine
Heures
Fre
quen
cy
0 20 40 60 80 100
050
0010
000
1500
0
Âge Temps de travailHistogramme des plus values
Plus values
Fre
quen
cy
0e+00 2e+04 4e+04 6e+04 8e+04 1e+05
050
0015
000
2500
0
Idée générale de ladistribution
“irrégularités”distribution complètementatypique
Plus values
12 / 41 F. Rossi Analyses univariées
![Page 26: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses](https://reader030.vdocuments.mx/reader030/viewer/2022020114/5b98f41309d3f2210c8d2025/html5/thumbnails/26.jpg)
IntérêtsHistogram of age
age
Den
sity
0 20 40 60 80 100
0.00
00.
010
0.02
0Histogramme des heures travaillées par semaine
Heures
Fre
quen
cy
0 20 40 60 80 100
050
0010
000
1500
0
Âge Temps de travailHistogramme des plus values
Plus values
Fre
quen
cy
0e+00 2e+04 4e+04 6e+04 8e+04 1e+05
050
0015
000
2500
0
Idée générale de ladistribution“irrégularités”
distribution complètementatypique
Plus values
12 / 41 F. Rossi Analyses univariées
![Page 27: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses](https://reader030.vdocuments.mx/reader030/viewer/2022020114/5b98f41309d3f2210c8d2025/html5/thumbnails/27.jpg)
IntérêtsHistogram of age
age
Den
sity
0 20 40 60 80 100
0.00
00.
010
0.02
0Histogramme des heures travaillées par semaine
Heures
Fre
quen
cy
0 20 40 60 80 100
050
0010
000
1500
0
Âge Temps de travailHistogramme des plus values
Plus values
Fre
quen
cy
0e+00 2e+04 4e+04 6e+04 8e+04 1e+05
050
0015
000
2500
0
Idée générale de ladistribution“irrégularités”distribution complètementatypique
Plus values
12 / 41 F. Rossi Analyses univariées
![Page 28: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses](https://reader030.vdocuments.mx/reader030/viewer/2022020114/5b98f41309d3f2210c8d2025/html5/thumbnails/28.jpg)
Limitations
Histogramme des plus values
Plus values
Fre
quen
cy
0e+00 2e+04 4e+04 6e+04 8e+04 1e+05
050
0015
000
2500
0
presque aucune information :• presque toutes les valeurs sont négatives• quelques valeurs très grandes
comparaisons difficiles (cf la suite)
13 / 41 F. Rossi Analyses univariées
![Page 29: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses](https://reader030.vdocuments.mx/reader030/viewer/2022020114/5b98f41309d3f2210c8d2025/html5/thumbnails/29.jpg)
Limitations
Histogramme des plus values
Plus values
Fre
quen
cy
0e+00 2e+04 4e+04 6e+04 8e+04 1e+05
050
0015
000
2500
0
presque aucune information :• presque toutes les valeurs sont négatives• quelques valeurs très grandes
comparaisons difficiles (cf la suite)
13 / 41 F. Rossi Analyses univariées
![Page 30: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses](https://reader030.vdocuments.mx/reader030/viewer/2022020114/5b98f41309d3f2210c8d2025/html5/thumbnails/30.jpg)
Boxplot
a.k.a. boîte à moustaches ou boîte àpattesReprésentation compacte d’unedistribution
• ligne centrale : médiane• ligne basse : premier quartile• ligne haute : troisième quartile• moustaches :
• le max du min et de la médiane - 1.5l’intervalle interquartile
• le min du max et de la médiane + 1.5l’intervalle interquartile
• points atypiques (outliers) : au delàdes moustaches
2040
6080
Âge
14 / 41 F. Rossi Analyses univariées
![Page 31: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses](https://reader030.vdocuments.mx/reader030/viewer/2022020114/5b98f41309d3f2210c8d2025/html5/thumbnails/31.jpg)
Comparaison
Histogram of age
age
Den
sity
0 20 40 60 80 100
0.00
00.
010
0.02
0
2040
6080
Âge
plus d’informationinférence moins précise
plus dépouilléquelques informationstrès précises
15 / 41 F. Rossi Analyses univariées
![Page 32: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses](https://reader030.vdocuments.mx/reader030/viewer/2022020114/5b98f41309d3f2210c8d2025/html5/thumbnails/32.jpg)
Comparaison
Histogram of age
age
Den
sity
0 20 40 60 80 100
0.00
00.
010
0.02
0
2040
6080
Âge
plus d’information
inférence moins précise
plus dépouillé
quelques informationstrès précises
15 / 41 F. Rossi Analyses univariées
![Page 33: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses](https://reader030.vdocuments.mx/reader030/viewer/2022020114/5b98f41309d3f2210c8d2025/html5/thumbnails/33.jpg)
Comparaison
Histogram of age
age
Den
sity
0 20 40 60 80 100
0.00
00.
010
0.02
0
2040
6080
Âge
plus d’informationinférence moins précise
plus dépouilléquelques informationstrès précises
15 / 41 F. Rossi Analyses univariées
![Page 34: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses](https://reader030.vdocuments.mx/reader030/viewer/2022020114/5b98f41309d3f2210c8d2025/html5/thumbnails/34.jpg)
Statistiques
Indicateurs classiques :• tendance : moyenne et médiane• dispersion : écart-type, intervalle interquartile
Histogramme des plus values
Plus values
Fre
quen
cy
0e+00 2e+04 4e+04 6e+04 8e+04 1e+05
050
0015
000
2500
0
Interprétation parfois délicate :• moyenne = 990• médiane = 0• écart-type = 7410• intervalle interquartile = 0• meilleurs choix ici :
• 87 % des personnes ont une plus value nulle, 8.3 % positiveet 4.7 % négative
• puis statistiques sur les deux groupes (par ex., pertemédiane 1887)
16 / 41 F. Rossi Analyses univariées
![Page 35: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses](https://reader030.vdocuments.mx/reader030/viewer/2022020114/5b98f41309d3f2210c8d2025/html5/thumbnails/35.jpg)
Statistiques
Indicateurs classiques :• tendance : moyenne et médiane• dispersion : écart-type, intervalle interquartile
Histogramme des plus values
Plus values
Fre
quen
cy
0e+00 2e+04 4e+04 6e+04 8e+04 1e+05
050
0015
000
2500
0
Interprétation parfois délicate :• moyenne = 990• médiane = 0• écart-type = 7410• intervalle interquartile = 0
• meilleurs choix ici :• 87 % des personnes ont une plus value nulle, 8.3 % positive
et 4.7 % négative• puis statistiques sur les deux groupes (par ex., perte
médiane 1887)
16 / 41 F. Rossi Analyses univariées
![Page 36: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses](https://reader030.vdocuments.mx/reader030/viewer/2022020114/5b98f41309d3f2210c8d2025/html5/thumbnails/36.jpg)
Statistiques
Indicateurs classiques :• tendance : moyenne et médiane• dispersion : écart-type, intervalle interquartile
Histogramme des plus values
Plus values
Fre
quen
cy
0e+00 2e+04 4e+04 6e+04 8e+04 1e+05
050
0015
000
2500
0
Interprétation parfois délicate :• moyenne = 990• médiane = 0• écart-type = 7410• intervalle interquartile = 0• meilleurs choix ici :
• 87 % des personnes ont une plus value nulle, 8.3 % positiveet 4.7 % négative
• puis statistiques sur les deux groupes (par ex., pertemédiane 1887)
16 / 41 F. Rossi Analyses univariées
![Page 37: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses](https://reader030.vdocuments.mx/reader030/viewer/2022020114/5b98f41309d3f2210c8d2025/html5/thumbnails/37.jpg)
Sens des statistiques
La pertinence de la statistiquedépend de la distributionExemple :
• blogs politiques• graphe des liens entre les
blogs (blogroll)• distribution des degrés des
noeuds
Degree distribution
degree
Fre
quen
cy
0 100 200 300 400
020
040
060
0
µ = 27.36, σ = 38.42
m = 13, δ = 33
loi puissance : P(x) ' x−α
sans échelle : la moyenneinforme peu
ici α ' 1.27
17 / 41 F. Rossi Analyses univariées
![Page 38: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses](https://reader030.vdocuments.mx/reader030/viewer/2022020114/5b98f41309d3f2210c8d2025/html5/thumbnails/38.jpg)
Sens des statistiques
La pertinence de la statistiquedépend de la distributionExemple :
• blogs politiques• graphe des liens entre les
blogs (blogroll)• distribution des degrés des
noeuds
0 50 100 150 200 250 300 350
0.00
0.02
0.04
0.06
0.08
0.10
degree
prob
abili
ty
Degree distribution
degree
Fre
quen
cy
0 100 200 300 400
020
040
060
0
µ = 27.36, σ = 38.42
m = 13, δ = 33
loi puissance : P(x) ' x−α
sans échelle : la moyenneinforme peu
ici α ' 1.27
17 / 41 F. Rossi Analyses univariées
![Page 39: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses](https://reader030.vdocuments.mx/reader030/viewer/2022020114/5b98f41309d3f2210c8d2025/html5/thumbnails/39.jpg)
Sens des statistiques
La pertinence de la statistiquedépend de la distributionExemple :
• blogs politiques• graphe des liens entre les
blogs (blogroll)• distribution des degrés des
noeuds
1 2 5 10 20 50 100 200
0.00
10.
005
0.02
00.
050
degree
prob
abili
ty
Degree distribution
degree
Fre
quen
cy
0 100 200 300 400
020
040
060
0
µ = 27.36, σ = 38.42
m = 13, δ = 33
loi puissance : P(x) ' x−α
sans échelle : la moyenneinforme peu
ici α ' 1.27
17 / 41 F. Rossi Analyses univariées
![Page 40: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses](https://reader030.vdocuments.mx/reader030/viewer/2022020114/5b98f41309d3f2210c8d2025/html5/thumbnails/40.jpg)
Sens des statistiques
La pertinence de la statistiquedépend de la distributionExemple :
• blogs politiques• graphe des liens entre les
blogs (blogroll)• distribution des degrés des
noeuds
1 2 5 10 20 50 100 200
0.00
10.
005
0.02
00.
050
degree
prob
abili
ty
Degree distribution
degree
Fre
quen
cy
0 100 200 300 400
020
040
060
0
µ = 27.36, σ = 38.42
m = 13, δ = 33
loi puissance : P(x) ' x−α
sans échelle : la moyenneinforme peu
ici α ' 1.27
17 / 41 F. Rossi Analyses univariées
![Page 41: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses](https://reader030.vdocuments.mx/reader030/viewer/2022020114/5b98f41309d3f2210c8d2025/html5/thumbnails/41.jpg)
Sens des statistiques
La pertinence de la statistiquedépend de la distributionExemple :
• blogs politiques• graphe des liens entre les
blogs (blogroll)• distribution des degrés des
noeuds
1 2 5 10 20 50 100 200
0.00
10.
005
0.02
00.
050
degree
prob
abili
ty
Degree distribution
degree
Fre
quen
cy
0 100 200 300 400
020
040
060
0
µ = 27.36, σ = 38.42
m = 13, δ = 33
loi puissance : P(x) ' x−α
sans échelle : la moyenneinforme peu
ici α ' 1.27
Adapter les statistiquesaux données
17 / 41 F. Rossi Analyses univariées
![Page 42: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses](https://reader030.vdocuments.mx/reader030/viewer/2022020114/5b98f41309d3f2210c8d2025/html5/thumbnails/42.jpg)
Trois points de vue
Histogramme des heures travaillées par semaine
Heures
Fre
quen
cy
0 20 40 60 80 100
050
0010
000
1500
0
Moyenne : 40.44, Écart-type : 12.35
Médiane : 40, Interquartile : 5
Compléments :• 47 % = 40 heures• 29 % > 40 heures• 24 % < 40 heures
18 / 41 F. Rossi Analyses univariées
![Page 43: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses](https://reader030.vdocuments.mx/reader030/viewer/2022020114/5b98f41309d3f2210c8d2025/html5/thumbnails/43.jpg)
Trois points de vue
Histogramme des heures travaillées par semaine
Heures
Fre
quen
cy
0 20 40 60 80 100
050
0010
000
1500
0
Moyenne : 40.44, Écart-type : 12.35
Médiane : 40, Interquartile : 5
Compléments :• 47 % = 40 heures• 29 % > 40 heures• 24 % < 40 heures
18 / 41 F. Rossi Analyses univariées
![Page 44: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses](https://reader030.vdocuments.mx/reader030/viewer/2022020114/5b98f41309d3f2210c8d2025/html5/thumbnails/44.jpg)
Variables nominalesvariable nominale (ou qualitative) : variable à valeurs dansun ensemble fini quelconque (les modalités)quand les modalités sont ordonnées : variable ordinale
représentation par un diagramme à bâtons :• un bâton par modalité• hauteur proportionnelle à la fréquence de la modalité• ordre arbitraire sauf dans la cas ordinal
Female Male
050
0010
000
2000
0
Divorced Married−civ−spouse Never−married Widowed
040
0080
0012
000
Genre Statut marital
19 / 41 F. Rossi Analyses univariées
![Page 45: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses](https://reader030.vdocuments.mx/reader030/viewer/2022020114/5b98f41309d3f2210c8d2025/html5/thumbnails/45.jpg)
Variables nominalesvariable nominale (ou qualitative) : variable à valeurs dansun ensemble fini quelconque (les modalités)quand les modalités sont ordonnées : variable ordinalereprésentation par un diagramme à bâtons :
• un bâton par modalité• hauteur proportionnelle à la fréquence de la modalité• ordre arbitraire sauf dans la cas ordinal
Female Male
050
0010
000
2000
0
Divorced Married−civ−spouse Never−married Widowed
040
0080
0012
000
Genre Statut marital
19 / 41 F. Rossi Analyses univariées
![Page 46: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses](https://reader030.vdocuments.mx/reader030/viewer/2022020114/5b98f41309d3f2210c8d2025/html5/thumbnails/46.jpg)
Variables nominalesvariable nominale (ou qualitative) : variable à valeurs dansun ensemble fini quelconque (les modalités)quand les modalités sont ordonnées : variable ordinalereprésentation par un diagramme à bâtons :
• un bâton par modalité• hauteur proportionnelle à la fréquence de la modalité• ordre arbitraire sauf dans la cas ordinal
Female Male
050
0010
000
2000
0
Divorced Married−civ−spouse Never−married Widowed
040
0080
0012
000
Genre Statut marital
19 / 41 F. Rossi Analyses univariées
![Page 47: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses](https://reader030.vdocuments.mx/reader030/viewer/2022020114/5b98f41309d3f2210c8d2025/html5/thumbnails/47.jpg)
LisibilitéDéséquilibre
? China Ecuador Germany Honduras Iran Jamaica Nicaragua Poland South Vietnam
050
0015
000
2500
0
Grand nombre de modalités
? China Ecuador Germany Honduras Iran Jamaica Nicaragua Poland South Vietnam
010
020
030
040
050
060
0
20 / 41 F. Rossi Analyses univariées
![Page 48: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses](https://reader030.vdocuments.mx/reader030/viewer/2022020114/5b98f41309d3f2210c8d2025/html5/thumbnails/48.jpg)
LisibilitéDéséquilibre
? China Ecuador Germany Honduras Iran Jamaica Nicaragua Poland South Vietnam
050
0015
000
2500
0
Grand nombre de modalités
? China Ecuador Germany Honduras Iran Jamaica Nicaragua Poland South Vietnam
010
020
030
040
050
060
0
20 / 41 F. Rossi Analyses univariées
![Page 49: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses](https://reader030.vdocuments.mx/reader030/viewer/2022020114/5b98f41309d3f2210c8d2025/html5/thumbnails/49.jpg)
Camembert
Armed−ForcesPriv−house−servProtective−serv
Tech−supportFarming−fishingHandlers−cleanersTransport−moving
?
Machine−op−inspct
Other−service
Sales
Adm−clerical Exec−managerial
Craft−repair
Prof−specialty
représentation très classiqueversions “créatives” (3D...)mauvaise solution : lecturedes surfaces et des anglesdifficiles
010
0020
0030
0040
00
Armed
−For
ces
Priv−h
ouse
−ser
v
Prote
ctive
−ser
v
Tech
−sup
port
Farm
ing−f
ishing
Handle
rs−c
leane
rs
Trans
port−
mov
ing ?
Mac
hine−
op−in
spct
Other
−ser
vice
Sales
Adm−c
lerica
l
Exec−
man
ager
ial
Craft−
repa
ir
Prof−
spec
ialty
21 / 41 F. Rossi Analyses univariées
![Page 50: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses](https://reader030.vdocuments.mx/reader030/viewer/2022020114/5b98f41309d3f2210c8d2025/html5/thumbnails/50.jpg)
Camembert
Armed−ForcesPriv−house−servProtective−serv
Tech−supportFarming−fishingHandlers−cleanersTransport−moving
?
Machine−op−inspct
Other−service
Sales
Adm−clerical Exec−managerial
Craft−repair
Prof−specialty
représentation très classiqueversions “créatives” (3D...)mauvaise solution : lecturedes surfaces et des anglesdifficiles
010
0020
0030
0040
00
Armed
−For
ces
Priv−h
ouse
−ser
v
Prote
ctive
−ser
v
Tech
−sup
port
Farm
ing−f
ishing
Handle
rs−c
leane
rs
Trans
port−
mov
ing ?
Mac
hine−
op−in
spct
Other
−ser
vice
Sales
Adm−c
lerica
l
Exec−
man
ager
ial
Craft−
repa
ir
Prof−
spec
ialty
21 / 41 F. Rossi Analyses univariées
![Page 51: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses](https://reader030.vdocuments.mx/reader030/viewer/2022020114/5b98f41309d3f2210c8d2025/html5/thumbnails/51.jpg)
PlanIntroduction
ExplorationModélisationModèle des données
Analyses univariéesVariables numériques
HistogrammeBoxplot et statistiques
Variables nominales
Analyses multivariéesDiagramme de dispersionMatrice de corrélationDiagramme mosaiqueCoordonnées parallèlesInteraction
22 / 41 F. Rossi Analyses multivariées
![Page 52: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses](https://reader030.vdocuments.mx/reader030/viewer/2022020114/5b98f41309d3f2210c8d2025/html5/thumbnails/52.jpg)
Analyses conjointes
Relativement peu d’information dans chaque variableAnalyse croisée nécessaireDifficultés :
• vision humaine limitée (2D ou 3D, formes et couleurs)• beaucoup de combinaisons possibles• variables incompatibles
Solutions :• outils de la visualisation de l’information (interaction)• outils de l’apprentissage automatique (automatisation)
23 / 41 F. Rossi Analyses multivariées
![Page 53: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses](https://reader030.vdocuments.mx/reader030/viewer/2022020114/5b98f41309d3f2210c8d2025/html5/thumbnails/53.jpg)
Diagramme de dispersion
Deux variables numériques : l’une en fonction de l’autrescatter plot
Superposition : alpha blending
24 / 41 F. Rossi Analyses multivariées
![Page 54: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses](https://reader030.vdocuments.mx/reader030/viewer/2022020114/5b98f41309d3f2210c8d2025/html5/thumbnails/54.jpg)
DécorationCompléments du diagramme :
• couleur en fonction d’une autre variable• symbole en fonction d’une autre variable
Assez limité
25 / 41 F. Rossi Analyses multivariées
![Page 55: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses](https://reader030.vdocuments.mx/reader030/viewer/2022020114/5b98f41309d3f2210c8d2025/html5/thumbnails/55.jpg)
Matrice de diagrammes
matrice dediagrammes dedispersion
tous les couples devariables numériques
limités à quelquesvariables (croissancequadratique)
décorations possibles
ici : 7 types de verredécrits par 9 variables
26 / 41 F. Rossi Analyses multivariées
![Page 56: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses](https://reader030.vdocuments.mx/reader030/viewer/2022020114/5b98f41309d3f2210c8d2025/html5/thumbnails/56.jpg)
Corrélations
Recherche de corrélationsReprésentation graphique dela matrice de corrélation :
• rouge : forte corrélationpositive
• bleu : forte corrélationnégative
Ici :• RI corrélé avec Ca• Mg anti-corrélé avec Al• RI anti-corrélé avec Si• Aucun lien entre Al et Si
RI Na Mg Al Si K Ca Ba Fe
Fe
Ba
Ca
K
Si
Al
Mg
Na
RI
27 / 41 F. Rossi Analyses multivariées
![Page 57: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses](https://reader030.vdocuments.mx/reader030/viewer/2022020114/5b98f41309d3f2210c8d2025/html5/thumbnails/57.jpg)
Corrélations
Recherche de corrélationsReprésentation graphique dela matrice de corrélation :
• rouge : forte corrélationpositive
• bleu : forte corrélationnégative
Ici :• RI corrélé avec Ca• Mg anti-corrélé avec Al• RI anti-corrélé avec Si• Aucun lien entre Al et Si
RI Na Mg Al Si K Ca Ba Fe
Fe
Ba
Ca
K
Si
Al
Mg
Na
RI
27 / 41 F. Rossi Analyses multivariées
![Page 58: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses](https://reader030.vdocuments.mx/reader030/viewer/2022020114/5b98f41309d3f2210c8d2025/html5/thumbnails/58.jpg)
Corrélation RI et Ca
1.515 1.520 1.525 1.530
68
1012
1416
Corrélation = 0.811
RI
Ca
28 / 41 F. Rossi Analyses multivariées
![Page 59: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses](https://reader030.vdocuments.mx/reader030/viewer/2022020114/5b98f41309d3f2210c8d2025/html5/thumbnails/59.jpg)
Corrélation RI et Si
1.515 1.520 1.525 1.530
7071
7273
7475
Corrélation = −0.539
RI
Si
29 / 41 F. Rossi Analyses multivariées
![Page 60: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses](https://reader030.vdocuments.mx/reader030/viewer/2022020114/5b98f41309d3f2210c8d2025/html5/thumbnails/60.jpg)
Corrélation Al et Si
0.5 1.0 1.5 2.0 2.5 3.0 3.5
7071
7273
7475
Corrélation = −0.0162
Al
Si
30 / 41 F. Rossi Analyses multivariées
![Page 61: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses](https://reader030.vdocuments.mx/reader030/viewer/2022020114/5b98f41309d3f2210c8d2025/html5/thumbnails/61.jpg)
Corrélation Mg et Al
0 1 2 3 4
0.5
1.0
1.5
2.0
2.5
3.0
3.5
Corrélation = −0.48
Mg
Al
31 / 41 F. Rossi Analyses multivariées
![Page 62: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses](https://reader030.vdocuments.mx/reader030/viewer/2022020114/5b98f41309d3f2210c8d2025/html5/thumbnails/62.jpg)
Mg et AlHistogramme de Mg
Mg
Fre
quen
cy
0 1 2 3 4
020
4060
80
32 / 41 F. Rossi Analyses multivariées
![Page 63: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses](https://reader030.vdocuments.mx/reader030/viewer/2022020114/5b98f41309d3f2210c8d2025/html5/thumbnails/63.jpg)
Mg et AlHistogramme de Mg
Mg
Fre
quen
cy
0 1 2 3 4
020
4060
80Histogramme de Al
Al
Fre
quen
cy
0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5
020
4060
8010
0
32 / 41 F. Rossi Analyses multivariées
![Page 64: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses](https://reader030.vdocuments.mx/reader030/viewer/2022020114/5b98f41309d3f2210c8d2025/html5/thumbnails/64.jpg)
Mg et AlHistogramme de Mg
Mg
Fre
quen
cy
0 1 2 3 4
020
4060
80Histogramme de Al
Al
Fre
quen
cy
0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5
020
4060
8010
0
Histogramme de Al
Al
Fre
quen
cy
0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5
020
4060
8010
0
32 / 41 F. Rossi Analyses multivariées
![Page 65: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses](https://reader030.vdocuments.mx/reader030/viewer/2022020114/5b98f41309d3f2210c8d2025/html5/thumbnails/65.jpg)
Mg et AlHistogramme de Mg
Mg
Fre
quen
cy
0 1 2 3 4
020
4060
80
0 1 2 3 4
0.5
1.0
1.5
2.0
2.5
3.0
3.5
Corrélation = −0.367
Mg
Al
Histogramme de Al
Al
Fre
quen
cy
0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5
020
4060
8010
0
Histogramme de Al
Al
Fre
quen
cy
0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5
020
4060
8010
0
32 / 41 F. Rossi Analyses multivariées
![Page 66: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses](https://reader030.vdocuments.mx/reader030/viewer/2022020114/5b98f41309d3f2210c8d2025/html5/thumbnails/66.jpg)
Mg et AlHistogramme de Mg
Mg
Fre
quen
cy
0 1 2 3 4
020
4060
80
0 1 2 3 4
0.5
1.0
1.5
2.0
2.5
3.0
3.5
Corrélation = −0.48
Mg
Al
Histogramme de Al
Al
Fre
quen
cy
0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5
020
4060
8010
0
Histogramme de Al
Al
Fre
quen
cy
0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5
020
4060
8010
0
32 / 41 F. Rossi Analyses multivariées
![Page 67: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses](https://reader030.vdocuments.mx/reader030/viewer/2022020114/5b98f41309d3f2210c8d2025/html5/thumbnails/67.jpg)
Vision globale
33 / 41 F. Rossi Analyses multivariées
![Page 68: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses](https://reader030.vdocuments.mx/reader030/viewer/2022020114/5b98f41309d3f2210c8d2025/html5/thumbnails/68.jpg)
Vision globale
RI Na Mg Al Si K Ca Ba Fe
Fe
Ba
Ca
K
Si
Al
Mg
Na
RI
34 / 41 F. Rossi Analyses multivariées
![Page 69: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses](https://reader030.vdocuments.mx/reader030/viewer/2022020114/5b98f41309d3f2210c8d2025/html5/thumbnails/69.jpg)
Mosaic plotÉquivalent du scatter plot pour les variables qualitatives
050
0015
000
2500
0
Amer−Indian−Eskimo
Asian−Pac−IslanderBlack
OtherWhite
découpage récursifsurfaceproportionnelle à lafréquence
significativitéplus de 2 variables
adults
gender
ethn
icity
Female MaleAmer−Indian−EskimoAsian−Pac−Islander
Black
Other
White
Female Male
050
0010
000
2000
0
35 / 41 F. Rossi Analyses multivariées
![Page 70: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses](https://reader030.vdocuments.mx/reader030/viewer/2022020114/5b98f41309d3f2210c8d2025/html5/thumbnails/70.jpg)
Mosaic plotÉquivalent du scatter plot pour les variables qualitatives
050
0015
000
2500
0
Amer−Indian−Eskimo
Asian−Pac−IslanderBlack
OtherWhite
découpage récursifsurfaceproportionnelle à lafréquencesignificativité
plus de 2 variables
Sta
ndar
dize
dR
esid
uals
:<
−4
−4:
−2
−2:
00:
22:
4>
4
adults
gender
ethn
icity
Female MaleAmer−Indian−EskimoAsian−Pac−Islander
Black
Other
White
Female Male
050
0010
000
2000
0
35 / 41 F. Rossi Analyses multivariées
![Page 71: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses](https://reader030.vdocuments.mx/reader030/viewer/2022020114/5b98f41309d3f2210c8d2025/html5/thumbnails/71.jpg)
Mosaic plotÉquivalent du scatter plot pour les variables qualitatives
050
0015
000
2500
0
Amer−Indian−Eskimo
Asian−Pac−IslanderBlack
OtherWhite
découpage récursifsurfaceproportionnelle à lafréquencesignificativitéplus de 2 variables
adults
gender
ethn
icity
Female MaleAmer−Indian−EskimoAsian−Pac−Islander
Black
Other
White
<=50K >50K <=50K >50K
Female Male
050
0010
000
2000
0
<=50K >50K
050
0015
000
35 / 41 F. Rossi Analyses multivariées
![Page 72: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses](https://reader030.vdocuments.mx/reader030/viewer/2022020114/5b98f41309d3f2210c8d2025/html5/thumbnails/72.jpg)
Mosaic plotÉquivalent du scatter plot pour les variables qualitatives
050
0015
000
2500
0
Amer−Indian−Eskimo
Asian−Pac−IslanderBlack
OtherWhite
découpage récursifsurfaceproportionnelle à lafréquencesignificativitéplus de 2 variables
Sta
ndar
dize
dR
esid
uals
:<
−4
−4:
−2
−2:
00:
22:
4>
4
adults
gender
ethn
icity
Female MaleAmer−Indian−EskimoAsian−Pac−Islander
Black
Other
White
<=50K >50K <=50K >50K
Female Male
050
0010
000
2000
0
<=50K >50K
050
0015
000
35 / 41 F. Rossi Analyses multivariées
![Page 73: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses](https://reader030.vdocuments.mx/reader030/viewer/2022020114/5b98f41309d3f2210c8d2025/html5/thumbnails/73.jpg)
Coordonnées parallèlesMéthode proposée en 1985 par A. Inselberg
un axe vertical par variableun objet devient une ligne brisée(x1, . . . , xp) est représenté par la ligne brisée passant par(1, x1), (2, x2), . . ., (p, xp)
1 2 3 4 5 6
1x
x 2
x 3
x 6
x 5
x 4
36 / 41 F. Rossi Analyses multivariées
![Page 74: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses](https://reader030.vdocuments.mx/reader030/viewer/2022020114/5b98f41309d3f2210c8d2025/html5/thumbnails/74.jpg)
Données Iris
Sepal.Length
2.0 2.5 3.0 3.5 4.0
●●
●●
●
●
●
●
●
●
●
●●
●
● ●
●
●
●
●
●
●
●
●
●● ●
●●
●●
●●
●
● ●
●
●
●
● ●
● ●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●● ●
●
●
●●
●
●
●●
●●
●●
● ●
●
●●●
●●
●
●
●
●
●● ●
●
●
●
● ●●
●
●
●
●
●
●
●●
●
●
●
●
●
●●
●
● ●
●●
●●
●
●
●
●
●
●
●
● ●
●
●●
●
●●●
●
●●
●
●●●
●
● ●●
●●
●
●
●●
● ●
●
●
●
●
●
●
●
●●
●
● ●
●
●
●
●
●
●
●
●
●●●
●●
●●
●●
●
●●
●
●
●
●●
●●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●● ●
●
●
●●
●
●
●●
●●
●●
● ●
●
●●●
●●
●
●
●
●
●● ●
●
●
●
●●●
●
●
●
●
●
●
●●
●
●
●
●
●
● ●
●
●●
● ●
● ●
●
●
●
●
●
●
●
●●
●
●●
●
●●●
●
●●
●
●●
●
●
●●●
●●
●
●
0.5 1.0 1.5 2.0 2.5
4.5
5.5
6.5
7.5
●●●●
●
●
●
●
●
●
●
●●
●
● ●
●
●
●
●
●
●
●
●
●● ●●●
●●
●●
●
●●
●
●
●
● ●
●●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●● ●
●
●
●●
●
●
●●
●●
●●● ●
●
●●●
●●
●
●
●
●
●●●
●
●
●
●● ●
●
●
●
●
●
●
●●
●
●
●
●
●
●●
●
● ●
●●
● ●
●
●
●
●
●
●
●
●●
●
●●
●
●●●
●
●●
●
●●
●
●
● ●●
●●
●
●
2.0
3.0
4.0
●
●
●●
●
●
● ●
●
●
●
●
●●
●
●
●
●
●●
●
●●
●●
●
●●●
●●
●
●●
●●
●●
●
●●
●
●
●
●
●
●
●
●
●●●
●
●
●●
●
●
●
●
●
●
●
●●
●●
●
●
●
●
●
●
●●
●
●
●●
●
●●
● ●
●
●
●
●
●
●●
●
●
●
●
●● ●
●
●
●
●
●●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●●
●●
●
●
●
●
●
●
●●
●
●
●
●●
●● ●
●
●●
●
●
●
●
●
Sepal.Width●
●
●●
●
●
●●
●
●
●
●
●●
●
●
●
●
●●
●
●●
●●
●
●●
●
●●
●
●●
●●
●●
●
●●
●
●
●
●
●
●
●
●
●●●
●
●
●●
●
●
●
●
●
●
●
●●
●●
●
●
●
●
●
●
●●●
●
●●
●
●●
● ●
●
●
●
●
●
●●
●
●
●
●
●●●
●
●
●
●
●●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●●
●●
●
●
●
●
●
●
●●
●
●
●
●●
● ●●
●
●●
●
●
●
●
●
●
●
●●
●
●
●●
●
●
●
●
●●
●
●
●
●
●●
●
●●
●●
●
●●●
●●
●
●●
●●
●●
●
●●
●
●
●
●
●
●
●
●
●● ●
●
●
●●
●
●
●
●
●
●
●
●●
●●
●
●
●
●
●
●
●●
●
●
●●
●
●●
● ●
●
●
●
●
●
●●
●
●
●
●
●●●
●
●
●
●
●●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●●
●●
●
●
●
●
●
●
●●
●
●
●
●●
● ●●
●
●●
●
●
●
●
●
●●●● ●
●● ●● ● ●●
●● ●
●●●
●●
●●
●
●●
●● ●●●● ●● ●●
● ●●●●
●●●●
●
●●
● ●●
●●
●
●
●●●
●
●
●●
●●
●
●
●●●
●
●
●
●
●●
● ●●
●
●
●●●
●
●
● ●●
●●●
●●
●
●
●●● ●
●
●
●
●
●●
●
●
●
●
●●
●●
●
●●●
●
●●
●
●
●
●
●
●●
●●
●●
●●
●
●
●
●
●●
●
●●
●●
●●
●●
●●
●
●● ●● ●
●●●● ● ●●
●● ●
●●●
●●
●●
●
●●
● ● ●●●● ● ● ●●● ● ●●
●●● ●●
●
●●
● ●●
●●
●
●
●●●
●
●
●●
●●
●
●
●●●
●
●
●
●
●●
● ●●
●
●
●●●
●
●
● ●●
●●●
●●
●
●
● ●●●
●
●
●
●
●●
●
●
●
●
●●
●●
●
● ●●
●
●●
●
●
●
●
●
●●
● ●
●●
●●
●
●
●
●
●●
●
●●
●●
●●
●●
●●
●
Petal.Length
12
34
56
7
●●●●●
●●●●● ●●●
● ●●●●
●●
●●
●
●●● ●●●●● ●● ●●●●
● ●●
●●●●
●
●●●●●
●●●
●
●●●
●
●
●●
●●
●
●
● ●●
●
●
●
●
●●
● ●●
●
●
●●●
●
●
● ●●
●●●
●●
●
●
●● ●●
●
●
●
●
●●
●
●
●
●
●●
●●
●
● ●●
●
●●
●
●
●
●
●
●●
●●
●●
●●
●
●
●
●
●●
●
●●
●●
●●
●●
●●
●
4.5 5.0 5.5 6.0 6.5 7.0 7.5 8.0
0.5
1.5
2.5
●●●● ●
●●
●●●
●●●●
●
●●● ●●
●
●
●
●
● ●
●
●●●●
●
●●●● ●
●● ●
●●●
●
●●
●● ●●
●● ●
●
●
●
●
●
●●
●
●
●
●●
●●
●
●
●
●
●
●
●●
● ●
●
●
●●●
●
●●
●●
●●●●
●
●
●
●●● ●
●
●
●
●
●
●
●●
●●●
●
●●
●●
●●
●
●●
●
●
● ●
●
●
●●●
●
●
●●
●
●●
●●
●●
●
●●
●
●
●
●
●●
●
●
●● ●● ●
●●●●
●●●
●●●
●●● ●●
●
●
●
●
●●
●
●●●●
●
●●● ● ●
●● ●
●●●
●
●●
●● ●●
●●●
●
●
●
●
●
●●
●
●
●
●●
●●
●
●
●
●
●
●
●●
●●
●
●
●●●
●
●●
●●
● ●●●
●
●
●
●●
●●
●
●
●
●
●
●
●●
●●●
●
●●
●●
●●
●
●●
●
●
●●
●
●
●● ●
●
●
●●
●
●●
●●
●●
●
●●
●
●
●
●
●●
●
●
1 2 3 4 5 6 7
●●● ●●
●●●●●●●
●●●
●●● ●●
●
●
●
●
●●
●
●● ●●
●
●●●●●●
● ●●●●
●
●●
●●●●
●● ●
●
●
●
●
●
●●
●
●
●
●●
●●
●
●
●
●
●
●
●●● ●
●
●
●●
●
●
●●●
●
●●●●
●
●
●
●●●●
●
●
●
●
●
●
●●
●●●
●
●●
●●
●●
●
●●
●
●
● ●
●
●
●●●
●
●
●●
●
●●
●●
●●
●
●●
●
●
●
●
●●
●
●
Petal.Width
Anderson's/Fisher's Iris
4+1 variables, 150 objets
37 / 41 F. Rossi Analyses multivariées
![Page 75: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses](https://reader030.vdocuments.mx/reader030/viewer/2022020114/5b98f41309d3f2210c8d2025/html5/thumbnails/75.jpg)
Données Iris
Anderson's/Fisher's Iris
Sepal.Length Sepal.Width Petal.Length Petal.Width
38 / 41 F. Rossi Analyses multivariées
![Page 76: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses](https://reader030.vdocuments.mx/reader030/viewer/2022020114/5b98f41309d3f2210c8d2025/html5/thumbnails/76.jpg)
Données Iris
Anderson's/Fisher's Iris
Sepal.Length Sepal.Width Petal.Length Petal.Width Species
38 / 41 F. Rossi Analyses multivariées
![Page 77: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses](https://reader030.vdocuments.mx/reader030/viewer/2022020114/5b98f41309d3f2210c8d2025/html5/thumbnails/77.jpg)
Attention à l’ordreAnderson's/Fisher's Iris
Sepal.Length Sepal.Width Petal.Length Petal.Width
Les variables Petal sont elles corrélées ?
39 / 41 F. Rossi Analyses multivariées
![Page 78: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses](https://reader030.vdocuments.mx/reader030/viewer/2022020114/5b98f41309d3f2210c8d2025/html5/thumbnails/78.jpg)
Attention à l’ordreAnderson's/Fisher's Iris
Petal.Length Sepal.Length Sepal.Width Petal.Width
Les variables Petal sont elles corrélées ?
39 / 41 F. Rossi Analyses multivariées
![Page 79: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses](https://reader030.vdocuments.mx/reader030/viewer/2022020114/5b98f41309d3f2210c8d2025/html5/thumbnails/79.jpg)
Interaction
problèmes :• surcharge de l’écran• surcharge cognitive
solution par interaction :• zoom• vues multiples• sélection et lien :
• sélection d’une zone (brushing)• affichage des résultats sur toutes les vues (linking)
en R• iplots• ggobi et rggobi
40 / 41 F. Rossi Analyses multivariées
![Page 80: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses](https://reader030.vdocuments.mx/reader030/viewer/2022020114/5b98f41309d3f2210c8d2025/html5/thumbnails/80.jpg)
iplots
41 / 41 F. Rossi Analyses multivariées
![Page 81: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses](https://reader030.vdocuments.mx/reader030/viewer/2022020114/5b98f41309d3f2210c8d2025/html5/thumbnails/81.jpg)
iplots
41 / 41 F. Rossi Analyses multivariées
![Page 82: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses](https://reader030.vdocuments.mx/reader030/viewer/2022020114/5b98f41309d3f2210c8d2025/html5/thumbnails/82.jpg)
iplots
41 / 41 F. Rossi Analyses multivariées
![Page 83: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses](https://reader030.vdocuments.mx/reader030/viewer/2022020114/5b98f41309d3f2210c8d2025/html5/thumbnails/83.jpg)
iplots
41 / 41 F. Rossi Analyses multivariées