quelques rappels utiles pour l’analyse de données multivariées
TRANSCRIPT
Quelques rappels utiles pour l’analyse dedonnées multivariées
Chimiométrie [LCHM1320]
Rappels▶ Eléments de calcul matriciel▶Notion de distances entre objets▶ Visualisation des données et statistiques simples
2020-2021 UCLouvain - LCHM1320 – Chimiométrie - Rappels 2
Eléments de calcul matriciel
2020-2021 UCLouvain - LCHM1320 – Chimiométrie - Rappels 3
Motivation et plan du chapitreMotivation
Quand un outil statistique implique plus de deux variables, il devient très difficile de décrire mathématiquement les méthodes à l’aide de notations mathématiques simples. Les notations matricielles et le calcul matriciel (ou algèbre linéaire) fournissent une approche élégante pour écrire les formules et développements mathématiques liés aux outils de statistique multivariée.
Plan du chapitre▷ Notion de matrice et matrices particulières▷ Opérations sur les matrices▷ Décomposition spectrale d’une matrice▷ Matrice de corrélation et de variance covariance▷ Ecriture de la régression linéaire simple sous forme matricielle
2020-2021 UCLouvain - LCHM1320 – Chimiométrie - Rappels 4
La matrice = l’élément de base du chimiomètre
XTaille: (n x m)
=𝑥!! ⋯ 𝑥!"⋮ ⋱ ⋮𝑥#! ⋯ 𝑥#"
m variables
n observations
11
…
…
Vecteur colonne 𝒙!
j
i
Vecteur ligne 𝒙"Élément matriciel 𝑥"!
2020-2021 UCLouvain - LCHM1320 – Chimiométrie - Rappels 5
Définition de matriceUne matrice A de taille (n x m) est un tableau de nombres rectangulaire formé de n
lignes et m colonnes.
A est une matrice (2 x 3)
aij est l’élément se trouvant à la lignei et à la colonne j de A.
Matrice carrée : n = m Matrice carrée (2 x 2) :
Vecteur colonne (n x 1) Vecteur ligne (1 x m)
2020-2021 UCLouvain - LCHM1320 – Chimiométrie - Rappels 6
𝑨 = 1 4 −13 −2 6
𝑨 =𝑎## 𝑎#$ 𝑎#%𝑎$# 𝑎$$ 𝑎$%
𝐀 = 3 1−2 5
𝑨 =43−2 𝑨 = 2 4 −3
Matrices carrées particulièresMatrice symétrique : aij=aji
Matrice diagonale = matrice carrée telle que aij= 0 (i¹j)
Matrice identité In= matrice carrée (n x n) telle que aii=1 et aij=0 (i¹j)
2020-2021 UCLouvain - LCHM1320 – Chimiométrie - Rappels 7
𝑨 =1 4 −14 −2 6−1 6 3
𝑨 =1 0 00 4 00 0 10
𝑰% =1 0 00 1 00 0 1
Opérations sur les matrices (1)Transposée A’ ou At d’une matrice A : aij’ = aji
Somme de deux matrices de mêmes tailles (m x n)
(A+B)ij =aij+bij
Multiplication d’une matrice par un scalaire
2020-2021 UCLouvain - LCHM1320 – Chimiométrie - Rappels 8
𝑨 = 1 4 −13 −2 6 ⟹ 𝑨& =
1 34 −2−1 6
𝑨 = 1 4 −13 −2 6 , 𝑩 = −2 5 1
−3 1 3 ⟹ 𝑨 + 𝑩 = −1 9 00 −1 9
𝑨 = 1 4 −13 −2 6 ⟹ 3 × 𝑨 = 3 12 −3
9 −6 18
Opérations sur les matrices (2)Multiplication d’une matrice A (m x n) avec B (n x p)
C = A x B est une matrice (m x p)
A : (m x n) B : (n x p)
C : (m x p)
njinjiji
n
kkjikij ba...bababa c +++== å
=2211
1
2020-2021 UCLouvain - LCHM1320 – Chimiométrie - Rappels 9
𝑨 =1 34 −2−1 6
𝑩 = 3 1−2 5
C est (3 x 2)
𝑪 = 𝑨×𝑩 =−3 1616 −6−15 29
Opérations sur les matrices (2)Multiplication matricielle : exemple
𝑨 =1 34 −2−1 6
𝑩 = 3 1−2 5
A x B
Inverse d’une matrice et matrice orthogonaleL’inverse de la matrice carrée A de taille (n x n) est la matrice A-1 de même taille
telle que : A´A-1 = In = A-1´A
Quelques remarques ▷ Rien a été dit sur la méthode à utiliser pour trouver la matrice inverse.▷ Si une matrice n’a pas d’inverse on dit qu’elle est une matrice singulière. C’est le cas quand
une ou plusieurs colonnes de la matrice sont des combinaisons linéaires des autres.▷ Une matrice orthogonale est une matrice telle que A-1 = A’
2020-2021 UCLouvain - LCHM1320 – Chimiométrie - Rappels 11
𝑨 = 1 −2−3 7 ⟹ 𝑨:! = 7 2
3 1car
𝑨×𝑨:! = 1 −2−3 7 × 7 2
3 1 = 𝑨:!× 𝑨 = 7 23 1 × 1 −2
−3 7
Norme▶Norme d’un vecteur x (n x 1): ▷ = la longueur du vecteur dans l’espace. Elle est directement liée au produit scalaire
𝒙 = 𝒙!𝒙 = ∑"#$% 𝑥"&
▶Norme d’une matrice X (n x m) (= norme de Frobenius) :
𝑿 = 2$'"'%$'(')
𝑥"(&
2020-2021 UCLouvain - LCHM1320 – Chimiométrie - Rappels 12
Décomposition spectrale d’une matriceDécomposition en valeurs propres et vecteurs propres
Soit une matrice carrée A de taille (m x m)Il existe une matrice orthogonale P et une matrice diagonale L telles que
A = PL P’P est la matrice des vecteurs propres et L la matrice des valeurs propresExemple
Décomposition en valeurs singulièresSoit une matrice X de taille (n x m)Il existe des matrices orthogonales P (m x m) et Q (n x n) et une matrice bloc diagonale S (n x m) des valeurs singulières telles que
X = QSP’P est la matrice des vecteurs propres de X’X et S comprend les racines carrées des valeurs propres de X’X. On a alors X’X = PS’SP’ = PLP’
2020-2021 UCLouvain - LCHM1320 – Chimiométrie - Rappels 13
𝑨 = 25.5 99 12 = 𝑷𝜦𝑷! = 0.894 −0.447
0.447 0.89430 00 7.5
0.894 0.447−0.447 0.894
Matrice de variance covariance et matrice de corrélation
Soit X une matrice (n x m) comprenant
les valeurs de m variables x1, x2,… xm pour n individus.Exemple : n=150 Iris et m=4 caractéristiques (longsep, largsep…)
On peut définir la matrice (m x m) de variance-covariance de X comprenant les variances des xi sur la diagonale et les covariances hors de la diagonale et la matrice des corrélations.
2020-2021 UCLouvain - LCHM1320 – Chimiométrie - Rappels 14
𝑟(𝒙;, 𝒙<)
cov(𝒙;, 𝒙<)var(𝒙<)
Décomposition spectrale de la matrice de variance covariance
2020-2021 UCLouvain - LCHM1320 – Chimiométrie - Rappels 15
Si on applique une décomposition en valeurs et vecteurs propres à une matrice de variance-covariance, les vecteurs propres donnent les directions des axes de l’ellipsoïde englobant les données et les valeurs propres sont proportionnelles aux racines carrées des longueurs de ses axes.
Exemple : Iris (versicolor)
Rappel de régression linéaire simpleObjectif : Établir une droite pour expliquer une variable Y en fonction d’une
variable X.𝒚 = 𝛽* + 𝛽$𝒙 + 𝝐 avec 𝝐 ~ iN(0,sy.x²)
Méthode d’estimation :Moindres carrés
Droite estimée :
Variances desestimateurs
X
Y
0
1000
2000
3000
4000
5000
6000
7000
8000
0 4 8 12 16 20
2020-2021 UCLouvain - LCHM1320 – Chimiométrie - Rappels 16
>𝒚 = 𝑏* + 𝑏$𝒙 avec 𝑏* = @𝑦 − 𝑏$�̅� 𝑏$ =∑"#$% (𝑥" − �̅�)(𝑦" − @𝑦)
∑"#$% 𝑥" − �̅�&
𝑠+!& = 𝑠,..&
1𝑛 +
�̅�&
(𝑛 − 1)𝑠.&𝑠+"& = 𝑠,..&
1(𝑛 − 1)𝑠.&
Exemple de régression linéaire simple
X
Y
0
4
8
12
16
20
0 1 2 3 4 5
X Y1 42 123 84 16
2020-2021 UCLouvain - LCHM1320 – Chimiométrie - Rappels 17
𝑏$ =∑"#$% (𝑥" − �̅�)(𝑦" − @𝑦)
∑"#$% 𝑥" − �̅� & =165 = 3.2
𝑏* = @𝑦 − 𝑏$�̅� = 10 − 2.5 ∗ 3.2 = 2
�̅� = 2.5 @𝑦 = 10
2"#$
%
𝑥" − �̅� 𝑦" − @𝑦 = 16
2"#$
%
𝑥" − �̅� & = 5
Ecriture matricielle du modèle linéaire simpleModèle générique : y = b0 + b1 x + eModèle pour l’observation i : yi = b0 + b1 xi + ei (i=1…n)
Liste des n équations pour les n observations :
On définit :
Expression matricielle du modèle : Y = Xb + e
2020-2021 UCLouvain - LCHM1320 – Chimiométrie - Rappels 18
𝑦$ = 𝛽* + 𝛽$𝑥$ + 𝜖$𝑦& = 𝛽* + 𝛽$𝑥& + 𝜖&…𝑦% = 𝛽* + 𝛽$𝑥% + 𝜖%
𝒀 =𝑦$𝑦&⋮𝑦%
𝑿 =
11⋮
𝑥$𝑥&⋮
1 𝑥%
𝜷 = 𝛽*𝛽$
𝝐 =
𝜖$𝜖&⋮𝜖%
(n x 1) (n x 2) (2 x 1) (n x 1)
ExempleModèle théorique :
Y = Xb + eExemple :
úúúú
û
ù
êêêê
ë
é
=úû
ùêë
é=
úúúú
û
ù
êêêê
ë
é
=
úúúú
û
ù
êêêê
ë
é
=
ne
ee
bb
!
2
1
1
0 ,,
41312111
,
168124
εβXY
X Y1 42 123 84 16
úúúú
û
ù
êêêê
ë
é
+úû
ùêë
é´
úúúú
û
ù
êêêê
ë
é
=
úúúú
û
ù
êêêê
ë
é
=+=
ne
ee
bb
!
2
1
1
0
41312111
168124
εXβY
410
310
210
110
4163821214
ebbebbebbebb
++=++=++=++=
2020-2021 UCLouvain - LCHM1320 – Chimiométrie - Rappels 19
avec : 𝒀 =𝑦$𝑦&⋮𝑦%
𝑿 =
11⋮
𝑥$𝑥&⋮
1 𝑥%
𝜷 = 𝛽*𝛽$
𝝐 =
𝜖$𝜖&⋮𝜖%
Expression matricielle des estimateurs
úû
ùêë
é=ú
û
ùêë
é´úû
ùêë
é-
-==ú
û
ùêë
é=
úû
ùêë
éSS
=úû
ùêë
é=
úúúú
û
ù
êêêê
ë
é
´úû
ùêë
é=ú
û
ùêë
é-
-=
úû
ùêë
éSSS
=úû
ùêë
é=
úúúú
û
ù
êêêê
ë
é
´úû
ùêë
é=
úúúú
û
ù
êêêê
ë
é
=
úúúú
û
ù
êêêê
ë
é
=
-
-
2.32
11640
2.05.05.05.1
)(
11640
168124
43211111
2.05.05.05.1
)(
3010104
41312111
43211111
41312111
168124
1
1
0
1
2
YX'XX'b
YX'XX'
XX'XY
bb
yxy
xxxn
ii
i
ii
i
Les estimateurs b0 et b1 des paramètres 𝛽= et 𝛽! peuvent se calculer par la formule suivante :
b=(X’X)-1X’Y
2020-2021 UCLouvain - LCHM1320 – Chimiométrie - Rappels 20
Visualisation des données et statistiques simplesSource: cours LCHM1381 (2019-2020)
2020-2021 UCLouvain - LCHM1320 – Chimiométrie - Rappels 21
Visualisation des données et stat de base▶ Permet de rapidement voir et explorer les données,
avant l’analyse mutlivariée
▶ Etapes:
2020-2021 UCLouvain - LCHM1320 – Chimiométrie - Rappels 22
Préparer Visualiser Résumer Interpréter
Préparer unetable des données
Visualiser pargraphiques
Résumer avec chiffres et tables
Tirer des conclusions,documenter
Visualisation: variables quantitatives et qualitatives
2020-2021 UCLouvain - LCHM1320 – Chimiométrie - Rappels 23
Avec variablequantitative
Avec variablequalitative
Variablequantitative
Variablequalitative
Séquentiel (temps)Dot PlotBoxplotHistogramme
Diagramme en barreDiagramme en tarte
Graphe X-Y
Graphe X-Y matriciel
Graphe en points ou box-plot par catégories
Seule
Diagramme en barrepar catégories
Graphe en points ou box-plot par catégories
Préparer Visualiser Résumer Interpréter
Box plot : Définition et construction▶Ordonner les données, couper en 4 groupes de 25% des observations
2020-2021 UCLouvain - LCHM1320 – Chimiométrie - Rappels 24
médiane
75ème percentile
25ème percentile
Maximum (sans outliers)
Minimum (sans outliers)
Outlier (observation < 25th percentile - 1.5 EIQ)
01000
2000
3000
4000
5000
*
•
•
•
•
•
••
•••••
•
•
•••
•
•
•
•
•
•
•
••
••••
••••
•••
•
••
•
•
••••
••
••••
••
•••
••
•
1.5 EIQ
Ecart inter quartiles
1.5 EIQ25%
25%25%
25%
Visualisation de deux variables quantitatives▶ Graphique x-y (simple) ou nuage de points (simple x-y graph, scatterplot)▶ Graphique x-y (multiple) ou graphique matriciel (multiple x-y graph)
2020-2021 UCLouvain - LCHM1320 – Chimiométrie - Rappels 25
Analyse exploratoire: Résumer les données
2020-2021 UCLouvain - LCHM1320 – Chimiométrie - Rappels 26
Préparer Visualiser Résumer Interpréter
Moyenne, médiane,mode,écart-type, EIQ
Table de fréquences
Coefficient de corrélation(Pearson ou autre)
Cramer fCoefficient de correlation des rangs
Table de contingenceCramer f
Avec variablequantitative
Avec variablequalitativeSeule
Variablequantitative
Variablequalitative
Cramer fCoefficient de correlation des rangs
Les indices de position▶ De combien les données varient-elles autour du centre ?
Etendue - Range Ecart inter-quartiles
2020-2021 UCLouvain - LCHM1320 – Chimiométrie - Rappels 27
55 60 655045
Etendue = max(xi) - min(xi) EIQ = q0.75 - q0.25
25% obs 25% 25% 25%Etendue EIQ
q0.25 q0.5 q0.75
55 60 655045
Box Plot
Les indices de position▶Objectif: donner une valeur « centrale » pour un ensemble de donnéesMoyenne arithmétique Médiane Mode
2020-2021 UCLouvain - LCHM1320 – Chimiométrie - Rappels 28
8 9 10 11 12 13 14
• Souvent utilisée • Centre de gravité des données• Sensible aux outliers• Efficace pour données ‘propres’
8 9 10 11 12 13 14
50% of obs. 50% of obs
« milieu » = q0.5=13
• Résistante aux outliers• S’appelle aussi 50ème percentile• Moins efficace pour données ‘propres’• Utile pour distributions asymétriques
Comparer la moyenne et la médiane et essayer d’expliquer les différences
8 9 10 11 12 13 14
valeur (classe) laplus fréquente= 14
• Facile à comprendre • Parfois ambigu • Moins utilisé
>𝒙 =1𝑛@"'#
(
𝑥" = 12
Les indices de dispersionVariance :
▷ Utile pour dérivations mathématiques
Ecart-type (standard deviation) :
▷ Utile pour interprétation (unités de départ)
Erreur-type (standard error) :
▷ précision de l’estimateur de la moyenne
2020-2021 UCLouvain - LCHM1320 – Chimiométrie - Rappels 29
55 60 655045X
55 60 655045
92.72 == ss
nssX /=
𝑠$ =1
𝑛 − 1@"'#
($ =
1𝑛 − 1
@"'#
(
𝑥" − �̅� $
= 62.667
Le coefficient de corrélation▶ Le coefficient de corrélation r de Pearson mesure la relation
linéaire existant entre deux variables quantitatives x et y.▷ Si x1,..xn et y1,.. ,yn sont deux échantillons observés simultanément
sur x et y :
2020-2021 UCLouvain - LCHM1320 – Chimiométrie - Rappels 30
1»r
1-»r
01 <<- r
10 << r
0»r
xx
xx
x
x
x
x x
xx
x
xxx
x
x
x
x
Gaffe !
0»r
0>r
𝑟 =∑EF!# (𝑥E − �̅�)(𝑦E − *𝑦)
∑EF!# 𝑥E − �̅� G ∑EF!
# 𝑦E − *𝑦 G
covariance = $%/$
∑"#$% (𝑥" − �̅�)(𝑦" − @𝑦)
Notion de distances entre objets
2020-2021 UCLouvain - LCHM1320 – Chimiométrie - Rappels 31
Distances EuclidiennesSoient deux objets (vecteurs colonne) x1=(x11, x12, … , x1m)’ et x2=(x21, x22, … , x2m)’
dans Rm.
▶ Distance euclidienne simple :
𝑑 𝒙$, 𝒙& = 2(#$
)𝑥$( − 𝑥&(
& = 𝒙$ − 𝒙& ! 𝒙$ − 𝒙&
Notion de métrique 𝑴 : 𝑑 𝒙$, 𝒙& = 𝒙$ − 𝒙& !𝑴 𝒙$ − 𝒙&=> pour la distance euclidienne simple, 𝑴 = 𝑰)
▶ Distance euclidienne standardisée :
𝑑 𝒙$, 𝒙& = ∑(#$) ."#/.$#$
0#$ = 𝒙$ − 𝒙& !𝑫 𝒙$ − 𝒙& avec 𝑫 = diag(1/𝒔$&, … , 1/𝒔)& )
2020-2021 UCLouvain - LCHM1320 – Chimiométrie - Rappels 32
Distances Euclidiennes▶ Distance de Mahalanobis :
𝑑 𝒙$, 𝒙& = 𝒙$ − 𝒙𝟐 !𝑺/$ 𝒙$ − 𝒙& avec 𝑺 la matrice de variance-covariance des mvariables
▶ Distance Euclidienne généralisée (expression générale des trois distances) :𝑑 𝐱$, 𝒙& = 𝐱$ − 𝐱& !𝐐 𝐱$ − 𝐱& avec 𝐐 une matrice carrée définie positive
2020-2021 UCLouvain - LCHM1320 – Chimiométrie - Rappels 33
Iso-courbes de distances euclidienne (gauche) et de Mahalanobis (droite) depuis l’origine (0,0)
Autres mesures de distance, (dis)similaritéDistance de Manhattan :
𝑑 𝒙$, 𝒙& = ∑(#$) 𝑥$( −𝑥&(
Coefficient de corrélation de Pearson := mesure de similarité
𝑑 𝒙$, 𝒙& = 234(𝒙",𝒙$)49: 𝒙$ 49: 𝒙"
Distance euclidienne (unique)Distance de Manhattan (plusieurs chemins possibles)
2020-2021 UCLouvain - LCHM1320 – Chimiométrie - Rappels 34