quelques rappels utiles pour l’analyse de données multivariées

Quelques rappels utiles pour l’analyse dedonnées multivariées

Chimiométrie [LCHM1320]

Rappels▶ Eléments de calcul matriciel▶Notion de distances entre objets▶ Visualisation des données et statistiques simples

2020-2021 UCLouvain - LCHM1320 – Chimiométrie - Rappels 2

Eléments de calcul matriciel


Motivation et plan du chapitreMotivation

Quand un outil statistique implique plus de deux variables, il devient très difficile de décrire mathématiquement les méthodes à l’aide de notations mathématiques simples. Les notations matricielles et le calcul matriciel (ou algèbre linéaire) fournissent une approche élégante pour écrire les formules et développements mathématiques liés aux outils de statistique multivariée.

Plan du chapitre▷ Notion de matrice et matrices particulières▷ Opérations sur les matrices▷ Décomposition spectrale d’une matrice▷ Matrice de corrélation et de variance covariance▷ Ecriture de la régression linéaire simple sous forme matricielle


La matrice = l’élément de base du chimiomètre

XTaille: (n x m)

=𝑥!! ⋯ 𝑥!"⋮ ⋱ ⋮𝑥#! ⋯ 𝑥#"

m variables

n observations

11

…

…

Vecteur colonne 𝒙!

j

i

Vecteur ligne 𝒙"Élément matriciel 𝑥"!


Définition de matriceUne matrice A de taille (n x m) est un tableau de nombres rectangulaire formé de n

lignes et m colonnes.

A est une matrice (2 x 3)

aij est l’élément se trouvant à la lignei et à la colonne j de A.

Matrice carrée : n = m Matrice carrée (2 x 2) :

Vecteur colonne (n x 1) Vecteur ligne (1 x m)


𝑨 = 1 4 −13 −2 6

𝑨 =𝑎## 𝑎#$ 𝑎#%𝑎$# 𝑎$$ 𝑎$%

𝐀 = 3 1−2 5

𝑨 =43−2 𝑨 = 2 4 −3

Matrices carrées particulièresMatrice symétrique : aij=aji

Matrice diagonale = matrice carrée telle que aij= 0 (i¹j)

Matrice identité In= matrice carrée (n x n) telle que aii=1 et aij=0 (i¹j)


𝑨 =1 4 −14 −2 6−1 6 3

𝑨 =1 0 00 4 00 0 10

𝑰% =1 0 00 1 00 0 1

Opérations sur les matrices (1)Transposée A’ ou At d’une matrice A : aij’ = aji

Somme de deux matrices de mêmes tailles (m x n)

(A+B)ij =aij+bij

Multiplication d’une matrice par un scalaire


𝑨 = 1 4 −13 −2 6 ⟹ 𝑨& =

1 34 −2−1 6

𝑨 = 1 4 −13 −2 6 , 𝑩 = −2 5 1

−3 1 3 ⟹ 𝑨 + 𝑩 = −1 9 00 −1 9

𝑨 = 1 4 −13 −2 6 ⟹ 3 × 𝑨 = 3 12 −3

9 −6 18

Opérations sur les matrices (2)Multiplication d’une matrice A (m x n) avec B (n x p)

C = A x B est une matrice (m x p)

A : (m x n) B : (n x p)

C : (m x p)

njinjiji

n

kkjikij ba...bababa c +++== å

=2211

1


𝑨 =1 34 −2−1 6

𝑩 = 3 1−2 5

C est (3 x 2)

𝑪 = 𝑨×𝑩 =−3 1616 −6−15 29

Opérations sur les matrices (2)Multiplication matricielle : exemple

𝑨 =1 34 −2−1 6

𝑩 = 3 1−2 5

A x B

Inverse d’une matrice et matrice orthogonaleL’inverse de la matrice carrée A de taille (n x n) est la matrice A-1 de même taille

telle que : A´A-1 = In = A-1´A

Quelques remarques ▷ Rien a été dit sur la méthode à utiliser pour trouver la matrice inverse.▷ Si une matrice n’a pas d’inverse on dit qu’elle est une matrice singulière. C’est le cas quand

une ou plusieurs colonnes de la matrice sont des combinaisons linéaires des autres.▷ Une matrice orthogonale est une matrice telle que A-1 = A’


𝑨 = 1 −2−3 7 ⟹ 𝑨:! = 7 2

3 1car

𝑨×𝑨:! = 1 −2−3 7 × 7 2

3 1 = 𝑨:!× 𝑨 = 7 23 1 × 1 −2

−3 7

Norme▶Norme d’un vecteur x (n x 1): ▷ = la longueur du vecteur dans l’espace. Elle est directement liée au produit scalaire

𝒙 = 𝒙!𝒙 = ∑"#$% 𝑥"&

▶Norme d’une matrice X (n x m) (= norme de Frobenius) :

𝑿 = 2$'"'%$'(')

𝑥"(&


Décomposition spectrale d’une matriceDécomposition en valeurs propres et vecteurs propres

Soit une matrice carrée A de taille (m x m)Il existe une matrice orthogonale P et une matrice diagonale L telles que

A = PL P’P est la matrice des vecteurs propres et L la matrice des valeurs propresExemple

Décomposition en valeurs singulièresSoit une matrice X de taille (n x m)Il existe des matrices orthogonales P (m x m) et Q (n x n) et une matrice bloc diagonale S (n x m) des valeurs singulières telles que

X = QSP’P est la matrice des vecteurs propres de X’X et S comprend les racines carrées des valeurs propres de X’X. On a alors X’X = PS’SP’ = PLP’


𝑨 = 25.5 99 12 = 𝑷𝜦𝑷! = 0.894 −0.447

0.447 0.89430 00 7.5

0.894 0.447−0.447 0.894

Matrice de variance covariance et matrice de corrélation

Soit X une matrice (n x m) comprenant

les valeurs de m variables x1, x2,… xm pour n individus.Exemple : n=150 Iris et m=4 caractéristiques (longsep, largsep…)

On peut définir la matrice (m x m) de variance-covariance de X comprenant les variances des xi sur la diagonale et les covariances hors de la diagonale et la matrice des corrélations.


𝑟(𝒙;, 𝒙<)

cov(𝒙;, 𝒙<)var(𝒙<)

Décomposition spectrale de la matrice de variance covariance


Si on applique une décomposition en valeurs et vecteurs propres à une matrice de variance-covariance, les vecteurs propres donnent les directions des axes de l’ellipsoïde englobant les données et les valeurs propres sont proportionnelles aux racines carrées des longueurs de ses axes.

Exemple : Iris (versicolor)

Rappel de régression linéaire simpleObjectif : Établir une droite pour expliquer une variable Y en fonction d’une

variable X.𝒚 = 𝛽* + 𝛽$𝒙 + 𝝐 avec 𝝐 ~ iN(0,sy.x²)

Méthode d’estimation :Moindres carrés

Droite estimée :

Variances desestimateurs

X

Y

0

1000

2000

3000

4000

5000

6000

7000

8000

0 4 8 12 16 20


>𝒚 = 𝑏* + 𝑏$𝒙 avec 𝑏* = @𝑦 − 𝑏$�̅� 𝑏$ =∑"#$% (𝑥" − �̅�)(𝑦" − @𝑦)

∑"#$% 𝑥" − �̅�&

𝑠+!& = 𝑠,..&

1𝑛 +

�̅�&

(𝑛 − 1)𝑠.&𝑠+"& = 𝑠,..&

1(𝑛 − 1)𝑠.&

Exemple de régression linéaire simple

X

Y

0

4

8

12

16

20

0 1 2 3 4 5

X Y1 42 123 84 16


𝑏$ =∑"#$% (𝑥" − �̅�)(𝑦" − @𝑦)

∑"#$% 𝑥" − �̅� & =165 = 3.2

𝑏* = @𝑦 − 𝑏$�̅� = 10 − 2.5 ∗ 3.2 = 2

�̅� = 2.5 @𝑦 = 10

2"#$

%

𝑥" − �̅� 𝑦" − @𝑦 = 16

2"#$

%

𝑥" − �̅� & = 5

Ecriture matricielle du modèle linéaire simpleModèle générique : y = b0 + b1 x + eModèle pour l’observation i : yi = b0 + b1 xi + ei (i=1…n)

Liste des n équations pour les n observations :

On définit :

Expression matricielle du modèle : Y = Xb + e


𝑦$ = 𝛽* + 𝛽$𝑥$ + 𝜖$𝑦& = 𝛽* + 𝛽$𝑥& + 𝜖&…𝑦% = 𝛽* + 𝛽$𝑥% + 𝜖%

𝒀 =𝑦$𝑦&⋮𝑦%

𝑿 =

11⋮

𝑥$𝑥&⋮

1 𝑥%

𝜷 = 𝛽*𝛽$

𝝐 =

𝜖$𝜖&⋮𝜖%

(n x 1) (n x 2) (2 x 1) (n x 1)

ExempleModèle théorique :

Y = Xb + eExemple :

úúúú

û

ù

êêêê

ë

é

=úû

ùêë

é=

úúúú

û

ù

êêêê

ë

é

=

úúúú

û

ù

êêêê

ë

é

=

ne

ee

bb

!

2

1

1

0 ,,

41312111

,

168124

εβXY

X Y1 42 123 84 16

úúúú

û

ù

êêêê

ë

é

+úû

ùêë

é´

úúúú

û

ù

êêêê

ë

é

=

úúúú

û

ù

êêêê

ë

é

=+=

ne

ee

bb

!

2

1

1

0

41312111

168124

εXβY

410

310

210

110

4163821214

ebbebbebbebb

++=++=++=++=


avec : 𝒀 =𝑦$𝑦&⋮𝑦%

𝑿 =

11⋮

𝑥$𝑥&⋮

1 𝑥%

𝜷 = 𝛽*𝛽$

𝝐 =

𝜖$𝜖&⋮𝜖%

Expression matricielle des estimateurs

úû

ùêë

é=ú

û

ùêë

é´úû

ùêë

é-

-==ú

û

ùêë

é=

úû

ùêë

éSS

=úû

ùêë

é=

úúúú

û

ù

êêêê

ë

é

´úû

ùêë

é=ú

û

ùêë

é-

-=

úû

ùêë

éSSS

=úû

ùêë

é=

úúúú

û

ù

êêêê

ë

é

´úû

ùêë

é=

úúúú

û

ù

êêêê

ë

é

=

úúúú

û

ù

êêêê

ë

é

=

-

-

2.32

11640

2.05.05.05.1

)(

11640

168124

43211111

2.05.05.05.1

)(

3010104

41312111

43211111

41312111

168124

1

1

0

1

2

YX'XX'b

YX'XX'

XX'XY

bb

yxy

xxxn

ii

i

ii

i

Les estimateurs b0 et b1 des paramètres 𝛽= et 𝛽! peuvent se calculer par la formule suivante :

b=(X’X)-1X’Y


Visualisation des données et statistiques simplesSource: cours LCHM1381 (2019-2020)


Visualisation des données et stat de base▶ Permet de rapidement voir et explorer les données,

avant l’analyse mutlivariée

▶ Etapes:


Préparer Visualiser Résumer Interpréter

Préparer unetable des données

Visualiser pargraphiques

Résumer avec chiffres et tables

Tirer des conclusions,documenter

Visualisation: variables quantitatives et qualitatives


Avec variablequantitative

Avec variablequalitative

Variablequantitative

Variablequalitative

Séquentiel (temps)Dot PlotBoxplotHistogramme

Diagramme en barreDiagramme en tarte

Graphe X-Y

Graphe X-Y matriciel

Graphe en points ou box-plot par catégories

Seule

Diagramme en barrepar catégories

Graphe en points ou box-plot par catégories


Box plot : Définition et construction▶Ordonner les données, couper en 4 groupes de 25% des observations


médiane

75ème percentile

25ème percentile

Maximum (sans outliers)

Minimum (sans outliers)

Outlier (observation < 25th percentile - 1.5 EIQ)

01000

2000

3000

4000

5000

*

•

•

•

•

•

••

•••••

•

•

•••

•

•

•

•

•

•

•

••

••••

••••

•••

•

••

•

•

••••

••

••••

••

•••

••

•

1.5 EIQ

Ecart inter quartiles

1.5 EIQ25%

25%25%

25%

Visualisation de deux variables quantitatives▶ Graphique x-y (simple) ou nuage de points (simple x-y graph, scatterplot)▶ Graphique x-y (multiple) ou graphique matriciel (multiple x-y graph)


Analyse exploratoire: Résumer les données



Moyenne, médiane,mode,écart-type, EIQ

Table de fréquences

Coefficient de corrélation(Pearson ou autre)

Cramer fCoefficient de correlation des rangs

Table de contingenceCramer f

Avec variablequantitative

Avec variablequalitativeSeule

Variablequantitative

Variablequalitative

Cramer fCoefficient de correlation des rangs

Les indices de position▶ De combien les données varient-elles autour du centre ?

Etendue - Range Ecart inter-quartiles


55 60 655045

Etendue = max(xi) - min(xi) EIQ = q0.75 - q0.25

25% obs 25% 25% 25%Etendue EIQ

q0.25 q0.5 q0.75

55 60 655045

Box Plot

Les indices de position▶Objectif: donner une valeur « centrale » pour un ensemble de donnéesMoyenne arithmétique Médiane Mode


8 9 10 11 12 13 14

• Souvent utilisée • Centre de gravité des données• Sensible aux outliers• Efficace pour données ‘propres’

8 9 10 11 12 13 14

50% of obs. 50% of obs

« milieu » = q0.5=13

• Résistante aux outliers• S’appelle aussi 50ème percentile• Moins efficace pour données ‘propres’• Utile pour distributions asymétriques

Comparer la moyenne et la médiane et essayer d’expliquer les différences

8 9 10 11 12 13 14

valeur (classe) laplus fréquente= 14

• Facile à comprendre • Parfois ambigu • Moins utilisé

>𝒙 =1𝑛@"'#

(

𝑥" = 12

Les indices de dispersionVariance :

▷ Utile pour dérivations mathématiques

Ecart-type (standard deviation) :

▷ Utile pour interprétation (unités de départ)

Erreur-type (standard error) :

▷ précision de l’estimateur de la moyenne


55 60 655045X

55 60 655045

92.72 == ss

nssX /=

𝑠$ =1

𝑛 − 1@"'#

($ =

1𝑛 − 1

@"'#

(

𝑥" − �̅� $

= 62.667

Le coefficient de corrélation▶ Le coefficient de corrélation r de Pearson mesure la relation

linéaire existant entre deux variables quantitatives x et y.▷ Si x1,..xn et y1,.. ,yn sont deux échantillons observés simultanément

sur x et y :


1»r

1-»r

01 <<- r

10 << r

0»r

xx

xx

x

x

x

x x

xx

x

xxx

x

x

x

x

Gaffe !

0»r

0>r

𝑟 =∑EF!# (𝑥E − �̅�)(𝑦E − *𝑦)

∑EF!# 𝑥E − �̅� G ∑EF!

# 𝑦E − *𝑦 G

covariance = $%/$

∑"#$% (𝑥" − �̅�)(𝑦" − @𝑦)

Notion de distances entre objets


Distances EuclidiennesSoient deux objets (vecteurs colonne) x1=(x11, x12, … , x1m)’ et x2=(x21, x22, … , x2m)’

dans Rm.

▶ Distance euclidienne simple :

𝑑 𝒙$, 𝒙& = 2(#$

)𝑥$( − 𝑥&(

& = 𝒙$ − 𝒙& ! 𝒙$ − 𝒙&

Notion de métrique 𝑴 : 𝑑 𝒙$, 𝒙& = 𝒙$ − 𝒙& !𝑴 𝒙$ − 𝒙&=> pour la distance euclidienne simple, 𝑴 = 𝑰)

▶ Distance euclidienne standardisée :

𝑑 𝒙$, 𝒙& = ∑(#$) ."#/.$#$

0#$ = 𝒙$ − 𝒙& !𝑫 𝒙$ − 𝒙& avec 𝑫 = diag(1/𝒔$&, … , 1/𝒔)& )


Distances Euclidiennes▶ Distance de Mahalanobis :

𝑑 𝒙$, 𝒙& = 𝒙$ − 𝒙𝟐 !𝑺/$ 𝒙$ − 𝒙& avec 𝑺 la matrice de variance-covariance des mvariables

▶ Distance Euclidienne généralisée (expression générale des trois distances) :𝑑 𝐱$, 𝒙& = 𝐱$ − 𝐱& !𝐐 𝐱$ − 𝐱& avec 𝐐 une matrice carrée définie positive


Iso-courbes de distances euclidienne (gauche) et de Mahalanobis (droite) depuis l’origine (0,0)

Autres mesures de distance, (dis)similaritéDistance de Manhattan :

𝑑 𝒙$, 𝒙& = ∑(#$) 𝑥$( −𝑥&(

Coefficient de corrélation de Pearson := mesure de similarité

𝑑 𝒙$, 𝒙& = 234(𝒙",𝒙$)49: 𝒙$ 49: 𝒙"

Distance euclidienne (unique)Distance de Manhattan (plusieurs chemins possibles)


quelques rappels utiles pour l’analyse de données multivariées

Documents