analyse et fouille de données - réduction de …atif/lib/exe/fetch.php?media=... ·...
TRANSCRIPT
Analyse et Fouille de DonnéesRéduction de dimensionalité
Jamal [email protected]
Université Paris-Dauphine, M2 ID
2014-2015
Jamal Atif (Université Paris-Dauphine) AFD 2014-2015 1 / 35
Réduction de dimensionalité
vous êtes ici
1 Réduction de dimensionalitéFormalisationAnalyse par Composantes PrincipalesDécomposition en Valeurs SingulièresAnalyse Sémantique LatenteRecommandation
Jamal Atif (Université Paris-Dauphine) AFD 2014-2015 2 / 35
Réduction de dimensionalité Formalisation
Formalisation du problème
Cadre non-supervisé : S = xi, i = 1 . . .N.
I Projection de tout x de Rd sur Rp, (p d)
φA : Rd −→ Rp
x 7−→ φA(x) = Ax
I Critère : minimisation de la distorsion/perte d’information oumaximisation de l’inertie projetée
φA = arg minN∑
j=1
||xk − φA(xk)||22
Jamal Atif (Université Paris-Dauphine) AFD 2014-2015 3 / 35
Réduction de dimensionalité Formalisation
Petit détour en algèbre linéaire
Modèle linéaireSoit le modèle linéaire suivant :
y = Ax + e
avec y ∈ Rd le vecteur observé, A ∈ Rd×p, x ∈ Rp et e ∈ Rd un vecteur bruitdont l’énergie est bornée (||e||2 ≤ ε). Considérons dans un premier temps queA est de rang plein.
Cas d > p Le système a plusieurs solutions. On sélectionne la solution quiminimise l’erreur quadratique :
x∗ = arg min12||Ax− y||22 = A†y
avec A† = (AtA)−1At la pseudo inverse (ou inverse deMoore-Penrose).; Régression linéaire, ACP.
Jamal Atif (Université Paris-Dauphine) AFD 2014-2015 4 / 35
Réduction de dimensionalité Formalisation
Petit détour en algèbre linéaire
Modèle linéaireSoit le modèle linéaire suivant :
y = Ax + e
avec y ∈ Rd le vecteur observé, A ∈ Rd×p, x ∈ Rp et e ∈ Rd un vecteur bruitdont l’énergie est bornée (||e||2 ≤ ε). Considérons dans un premier temps queA est de rang plein.
Cas d > p Le système a plusieurs solutions. On sélectionne la solution quiminimise l’erreur quadratique :
x∗ = arg min12||Ax− y||22 = A†y
avec A† = (AtA)−1At la pseudo inverse (ou inverse deMoore-Penrose).; Régression linéaire, ACP.
Jamal Atif (Université Paris-Dauphine) AFD 2014-2015 4 / 35
Réduction de dimensionalité Formalisation
Petit détour en algèbre linéaire
Modèle linéaireSoit le modèle linéaire suivant :
y = Ax + e
avec y ∈ Rd le vecteur observé, A ∈ Rd×p, x ∈ Rp et e ∈ Rd un vecteur bruitdont l’énergie est bornée (||e||2 ≤ ε). Considérons dans un premier temps queA est de rang plein.
Cas d < p Le système a une infinité de solutions =⇒ nécessité de rajouterune contrainte (régularisation) sur x :
x∗ = arg min Ω(x)
t.q. ||Ax− y||22 ≤ l
Exemple de régularisations :I Ω(x) := ||x||0 = #i, xi 6= 0,I Ω(x) := ||x||1
; Codage parcimonieux/compressive sensing,...Jamal Atif (Université Paris-Dauphine) AFD 2014-2015 5 / 35
Réduction de dimensionalité Formalisation
Petit détour en algèbre linéaire
Modèle linéaireSoit le modèle linéaire suivant :
y = Ax + e
avec y ∈ Rd le vecteur observé, A ∈ Rd×p, x ∈ Rp et e ∈ Rd un vecteur bruitdont l’énergie est bornée (||e||2 ≤ ε). Considérons dans un premier temps queA est de rang plein.
Cas d < p Le système a une infinité de solutions =⇒ nécessité de rajouterune contrainte (régularisation) sur x :
x∗ = arg min Ω(x)
t.q. ||Ax− y||22 ≤ l
Exemple de régularisations :I Ω(x) := ||x||0 = #i, xi 6= 0,I Ω(x) := ||x||1
; Codage parcimonieux/compressive sensing,...Jamal Atif (Université Paris-Dauphine) AFD 2014-2015 5 / 35
Réduction de dimensionalité Analyse par Composantes Principales
Analyse par Composantes Principales, rappels
I Soit S = xi ∈ Rd, i = 1 . . .NI On cherche un nouvel ensemble d’attributs qui sont combinaison linéaire
des attributs d’origine :
φu(xi) = ut(xi − µ)
avec µ l’individu moyen.; Trouver u qui maximise l’inertie/minimise la distorsion, perte
d’information.
Jamal Atif (Université Paris-Dauphine) AFD 2014-2015 6 / 35
Réduction de dimensionalité Analyse par Composantes Principales
Analyse par Composantes Principales, rappels
I Soit S = xi ∈ Rd, i = 1 . . .NI On cherche un nouvel ensemble d’attributs qui sont combinaison linéaire
des attributs d’origine :
φu(xi) = ut(xi − µ)
avec µ l’individu moyen.; Trouver u qui maximise l’inertie/minimise la distorsion, perte
d’information.
Jamal Atif (Université Paris-Dauphine) AFD 2014-2015 6 / 35
Réduction de dimensionalité Analyse par Composantes Principales
Analyse par Composantes Principales, rappels
I Soit S = xi ∈ Rd, i = 1 . . .NI On cherche un nouvel ensemble d’attributs qui sont combinaison linéaire
des attributs d’origine :
φu(xi) = ut(xi − µ)
avec µ l’individu moyen.; Trouver u qui maximise l’inertie/minimise la distorsion, perte
d’information.
Jamal Atif (Université Paris-Dauphine) AFD 2014-2015 6 / 35
Réduction de dimensionalité Analyse par Composantes Principales
Analyse par Composantes Principales, rappels
Axe d’inertie projetée maximale :
u = arg maxu
1N
N∑i=1
ut(xi − µ)(ut(xi − µ)
)t.q. ||u|| = 1
= arg maxu
ut
[1N
N∑i=1
(xi − µ)(xi − µ)t
]u t.q. ||u|| = 1
= arg maxu
utΣu t.q. ||u|| = 1
Solution : u est le vecteur propre de Σ associé à la valeur propre la plusélevée.
Jamal Atif (Université Paris-Dauphine) AFD 2014-2015 7 / 35
Réduction de dimensionalité Analyse par Composantes Principales
Analyse par Composantes Principales, rappels
Axe d’inertie projetée maximale :
u = arg maxu
1N
N∑i=1
ut(xi − µ)(ut(xi − µ)
)t.q. ||u|| = 1
= arg maxu
ut
[1N
N∑i=1
(xi − µ)(xi − µ)t
]u t.q. ||u|| = 1
= arg maxu
utΣu t.q. ||u|| = 1
Solution : u est le vecteur propre de Σ associé à la valeur propre la plusélevée.
Jamal Atif (Université Paris-Dauphine) AFD 2014-2015 7 / 35
Réduction de dimensionalité Analyse par Composantes Principales
Analyse par Composantes Principales, rappels
Axe d’inertie projetée maximale :
u = arg maxu
1N
N∑i=1
ut(xi − µ)(ut(xi − µ)
)t.q. ||u|| = 1
= arg maxu
ut
[1N
N∑i=1
(xi − µ)(xi − µ)t
]u t.q. ||u|| = 1
= arg maxu
utΣu t.q. ||u|| = 1
Solution : u est le vecteur propre de Σ associé à la valeur propre la plusélevée.
Jamal Atif (Université Paris-Dauphine) AFD 2014-2015 7 / 35
Réduction de dimensionalité Analyse par Composantes Principales
Analyse par Composantes Principales, rappels
Axe d’inertie projetée maximale :
u = arg maxu
1N
N∑i=1
ut(xi − µ)(ut(xi − µ)
)t.q. ||u|| = 1
= arg maxu
ut
[1N
N∑i=1
(xi − µ)(xi − µ)t
]u t.q. ||u|| = 1
= arg maxu
utΣu t.q. ||u|| = 1
Solution : u est le vecteur propre de Σ associé à la valeur propre la plusélevée.
Jamal Atif (Université Paris-Dauphine) AFD 2014-2015 7 / 35
Réduction de dimensionalité Analyse par Composantes Principales
Application de l’ACP : EigenfacesM. Turk and A. Pentland, Face Recognition using Eigenfaces, CVPR 1991
But : catégoriser les images de visages
Idée :I Considérer les images comme des vecteurs
=⇒ x
I Trouver par similarité les visages qui se ressemblent (e.g. k-ppv)
=⇒ k = arg mink ||yk − x||22
Jamal Atif (Université Paris-Dauphine) AFD 2014-2015 8 / 35
Réduction de dimensionalité Analyse par Composantes Principales
Application de l’ACP : EigenfacesL’espace des visages
I Les images vues comme des vecteurs de pixels (explosion de ladimension d) :
I Une image 100 × 100 = 104 dimensions (attributs)I Problèmes de temps de calcul et de capacité mémoire
I Un sous ensemble des vecteurs ∈ R104sont des visages
I Modéliser le sous-espace V ⊆ R104des visages
Jamal Atif (Université Paris-Dauphine) AFD 2014-2015 9 / 35
Réduction de dimensionalité Analyse par Composantes Principales
Application de l’ACP : EigenfacesL’espace des visages
Principe Eigenfaces : construire le sous-espace qui capture le maximumd’inertie du nuage des visages.
FIGURE: defaultJamal Atif (Université Paris-Dauphine) AFD 2014-2015 10 / 35
Réduction de dimensionalité Analyse par Composantes Principales
Application de l’ACP : EigenfacesEigenfaces : algorithme
1. Transformer les matrices images en vecteurs puis les centrer.2. Construire la matrice Y des individus centrés (chaque ligne est un
vecteur image).3. Calculer la matrice de covariance Σ = 1
N YYt.4. Calculer les axes factoriels : K vecteurs propres non-triviaux (eigenfaces)
avec valeurs propres les plus élevées. Notons les U = [u1, · · · ,uK]
5. Calculer la projection des vecteurs images sur ces axes factoriels(composantes principales) : ci = Yui
6. Catégoriser les images projetées : zj = cj1u1 + · · ·+ cj
KuK
Jamal Atif (Université Paris-Dauphine) AFD 2014-2015 11 / 35
Réduction de dimensionalité Analyse par Composantes Principales
Application de l’ACP : EigenfacesIllustration
FIGURE: Base d’apprentissage : x1, · · · , xN
Jamal Atif (Université Paris-Dauphine) AFD 2014-2015 12 / 35
Réduction de dimensionalité Analyse par Composantes Principales
Application de l’ACP : EigenfacesIllustration
: Image moyenne
: K premiers axes factoriels
Jamal Atif (Université Paris-Dauphine) AFD 2014-2015 13 / 35
Réduction de dimensionalité Analyse par Composantes Principales
Application de l’ACP : EigenfacesIllustration
FIGURE: Première ligne : K composantes principales. Deuxième ligne : µ+ 3λiui.Troisième ligne : µ− 3λiui
Jamal Atif (Université Paris-Dauphine) AFD 2014-2015 14 / 35
Réduction de dimensionalité Analyse par Composantes Principales
Conclusion sur l’ACP
Une technique générale de réduction de dimensionnalité.
Implémentation
I La matrice de covariance peut être de très grande taille (e.g. 104 × 104)I Mais le nombre d’exemples (individus/images) est 104
; Décomposition en Valeurs Singulières
HypothèsesI L’hypothèse de linéarité n’est pas souvent valide.I Les axes de maximum d’inertie ne constituent pas des caractéristiques
discriminantes.I Une approche purement générative.
Jamal Atif (Université Paris-Dauphine) AFD 2014-2015 15 / 35
Réduction de dimensionalité Décomposition en Valeurs Singulières
Décomposition en Valeurs Singulières, DVS
Toute matrice A, (m× n) peut être décomposée comme suit :
A = UΣVt
I U,m×m : base orthonormaleI Σ,m× n : diagonaleI V,n× n : base orthonormale
Jamal Atif (Université Paris-Dauphine) AFD 2014-2015 16 / 35
Réduction de dimensionalité Décomposition en Valeurs Singulières
Décomposition en Valeurs Singulières, DVS
Exemple (m > n)
A =
...
......
...u1 · · · ur ur+1 · · · um...
......
...
σ1
. . .σr
0. . .
00 · · · · · · · · · · · · 0...
...0 · · · · · · · · · · · · 0
· · · vt1 · · ·
...· · · vt
r · · ·· · · vt
r+1 · · ·...
· · · vtn · · ·
σ1 ≥ · · · ≥ σr > 0 = rang(A),UUt = Im×m,VtV = In×n
Jamal Atif (Université Paris-Dauphine) AFD 2014-2015 17 / 35
Réduction de dimensionalité Décomposition en Valeurs Singulières
Décomposition en Valeurs Singulières, DVSVersion réduite
A = Ur︸︷︷︸m×r
Σr︸︷︷︸r×r
Vtr︸︷︷︸
r×n
A =
...
...u1 · · · ur...
...
σ1
. . .σr
· · · vt
1 · · ·...
· · · vtr · · ·
Espace colonne (span(A) = Ax,∀x ∈ Rn) :
Ax = UΣVtx et prenons y = Vtx
=
...
......
...σ1u1 · · · σrur ur+1 · · · um...
......
...
y
=⇒ span(A) = span(Ur) puisque, u1, · · · ,ur forment une base orthonormalede span(A).
Jamal Atif (Université Paris-Dauphine) AFD 2014-2015 18 / 35
Réduction de dimensionalité Décomposition en Valeurs Singulières
Décomposition en Valeurs Singulières, DVSVersion réduite
A = Ur︸︷︷︸m×r
Σr︸︷︷︸r×r
Vtr︸︷︷︸
r×n
A =
...
...u1 · · · ur...
...
σ1
. . .σr
· · · vt
1 · · ·...
· · · vtr · · ·
Espace colonne (span(A) = Ax,∀x ∈ Rn) :
Ax = UΣVtx et prenons y = Vtx
=
...
......
...σ1u1 · · · σrur ur+1 · · · um...
......
...
y
=⇒ span(A) = span(Ur) puisque, u1, · · · ,ur forment une base orthonormalede span(A).
Jamal Atif (Université Paris-Dauphine) AFD 2014-2015 18 / 35
Réduction de dimensionalité Décomposition en Valeurs Singulières
Décomposition en Valeurs Singulières, DVSVersion réduite
A = Ur︸︷︷︸m×r
Σr︸︷︷︸r×r
Vtr︸︷︷︸
r×n
A =
...
...u1 · · · ur...
...
σ1
. . .σr
· · · vt
1 · · ·...
· · · vtr · · ·
Espace colonne (span(A) = Ax,∀x ∈ Rn) :
Ax = UΣVtx et prenons y = Vtx
=
...
......
...σ1u1 · · · σrur ur+1 · · · um...
......
...
y
=⇒ span(A) = span(Ur) puisque, u1, · · · ,ur forment une base orthonormalede span(A).
Jamal Atif (Université Paris-Dauphine) AFD 2014-2015 18 / 35
Réduction de dimensionalité Décomposition en Valeurs Singulières
Décomposition en Valeurs Singulières, DVSVersion réduite
A = Ur︸︷︷︸m×r
Σr︸︷︷︸r×r
Vtr︸︷︷︸
r×n
A =
...
...u1 · · · ur...
...
σ1
. . .σr
· · · vt
1 · · ·...
· · · vtr · · ·
Espace noyau (x ∈ Ker(A) ⇐⇒ Ax = 0) :
Ax = 0
=⇒ UrΣrVtrx = 0
=⇒ ΣrVtrx = 0
=⇒ Vtrx = 0
; trouver des x orthogonaux à v1, · · · , vr.Puisque V est une base orthogonale, la solution est : vr+1, · · · , vn. Et doncvr+1, · · · , vn est une base orthonormale de Ker(A).
Jamal Atif (Université Paris-Dauphine) AFD 2014-2015 19 / 35
Réduction de dimensionalité Décomposition en Valeurs Singulières
DVS : interprétation géométrique
FIGURE: Diagramme de StrangJamal Atif (Université Paris-Dauphine) AFD 2014-2015 20 / 35
Réduction de dimensionalité Décomposition en Valeurs Singulières
DVS : interprétation géométrique
FIGURE: Diagramme de Strang
Jamal Atif (Université Paris-Dauphine) AFD 2014-2015 21 / 35
Réduction de dimensionalité Décomposition en Valeurs Singulières
DVS : interprétation géométriquePour le cas général, A,n×m
Ax = U Σ Vtx︸︷︷︸rotation dans Rn︸ ︷︷ ︸
changement d’échelle︸ ︷︷ ︸rotation dans Rm
FIGURE: Illustration avec réduction de dimensionalité, crédit Kalman
Jamal Atif (Université Paris-Dauphine) AFD 2014-2015 22 / 35
Réduction de dimensionalité Décomposition en Valeurs Singulières
DVS et ACP
AAt =(UΣVt) (UΣVt)t
= UΣVtVΣtUt
= UΣ2Ut
; décomposition en valeurs propres de la matrice AAt (matrice decovariance) !, U est la matrice de vecteurs propres et Σ2 et la matrice desvaleurs propres de AAt. Les valeurs singulières sont donc les racines carréesdes valeurs propres : σi =
√λi.
AtA =(UΣVt)t (UΣVt)
= VΣtUtUΣVt
= VΣ2Vt
; V est la matrice des vecteurs propre de AtA avec les mêmes valeurspropres.
Jamal Atif (Université Paris-Dauphine) AFD 2014-2015 23 / 35
Réduction de dimensionalité Analyse Sémantique Latente
Analyse Sémantique Latente (LSA)
ObjectifsI En recherche d’information « Information Retrieval »I Permettre l’utilisation de requêtes ne contenant pas exactement les
mêmes mots que les documents, mais des mots de sens proche
IdéeI Passer par un espace intermédiaire dans lequel les termes exprimeraient
davantage les distinctions sémantiques utilesI On projetterait alors les termes des requêtes et des documents dans cet
espace, permettant un meilleur rapprochement
Jamal Atif (Université Paris-Dauphine) AFD 2014-2015 24 / 35
Réduction de dimensionalité Analyse Sémantique Latente
Analyse Sémantique Latente (LSA)
Matrice termes-documents
X = termes
f 11 f 2
1 f 31 · · · f d
1f 21 f 2
2 f 32 · · · f d
2· · · · · · · · · · · · · · ·f 1N f 2
N f 3N · · · f d
N
︸ ︷︷ ︸
Documents
f ji = fréquence d’utilisation du mot i dans le texte j
Modèle vectoriel
Jamal Atif (Université Paris-Dauphine) AFD 2014-2015 25 / 35
Réduction de dimensionalité Analyse Sémantique Latente
Exemple
Jamal Atif (Université Paris-Dauphine) AFD 2014-2015 26 / 35
Réduction de dimensionalité Analyse Sémantique Latente
Exemple
FIGURE: matrice X, termes-documents
ρ(human, user) = −.38, ρ(human, minors) = −.29, ρ la corrélation deSpearman.
Jamal Atif (Université Paris-Dauphine) AFD 2014-2015 27 / 35
Réduction de dimensionalité Analyse Sémantique Latente
Exemple
X = UΣVt
FIGURE: Décomposition en Valeurs Singulières
Jamal Atif (Université Paris-Dauphine) AFD 2014-2015 28 / 35
Réduction de dimensionalité Analyse Sémantique Latente
Intuition derrière la DVS
X =
m1 m2 m3 m4d1 0 1 1 1d2 1 1 1 0
m1 et m4 ne sont pas présents dans le même document, mais sont associés auxmêmes mots. On pourrait en inférer qu’ils sont «liés»...Après DVS plus réduction :
X =
m1 m2 m3 m4d1 ε 1 1 1d2 1 1 1 ε
Jamal Atif (Université Paris-Dauphine) AFD 2014-2015 29 / 35
Réduction de dimensionalité Analyse Sémantique Latente
Exemple
X
FIGURE: Reconstruction de X en deux dimensions
ρ(human, user) = −.94, ρ(human, minors) = −.38Jamal Atif (Université Paris-Dauphine) AFD 2014-2015 30 / 35
Réduction de dimensionalité Recommandation
Recommandations de...films
Données : utilisateurs/ classement de films
X=M
atri
x
Alie
n
Star
War
s
Cas
abla
nca
Tita
nic
id1 1 1 1 0 0id2 3 3 3 0 0id3 4 4 4 0 0id4 5 5 5 0 0id5 0 0 0 4 4id6 0 0 0 5 5id7 0 0 0 2 2
Jamal Atif (Université Paris-Dauphine) AFD 2014-2015 31 / 35
Réduction de dimensionalité Recommandation
Recommandations de...films
Décomposition :
1 1 1 0 03 3 3 0 04 4 4 0 05 5 5 0 00 0 0 4 40 0 0 5 50 0 0 2 2
=
.14 0
.42 0
.56 0
.70 00 .600 .750 .30
[
12.4 00 9.5
] [.58 .58 .58 0 00 0 0 .71 .71
]
Explication ?
Jamal Atif (Université Paris-Dauphine) AFD 2014-2015 32 / 35
Réduction de dimensionalité Recommandation
Recommandations de...films
Exemple 2
X=M
atri
x
Alie
n
Star
War
s
Cas
abla
nca
Tita
nic
id1 1 1 1 0 0id2 3 3 3 0 0id3 4 4 4 0 0id4 5 5 5 0 0id5 0 2 0 4 4id6 0 0 0 5 5id7 0 1 0 2 2
Jamal Atif (Université Paris-Dauphine) AFD 2014-2015 33 / 35
Réduction de dimensionalité Recommandation
Recommandations de...films
Décomposition :
1 1 1 0 03 3 3 0 04 4 4 0 05 5 5 0 00 2 0 4 40 0 0 5 50 1 0 2 2
=
.13 .02 −.01
.41 .07 −.03
.55 .09 .04
.68 .11 −.05
.15 −.59 .65
.07 −.73 −.67
.07 −.29 .32
12.4 0 0
0 9.5 00 0 1.3
.56 .59 .56 .09 .09.12 −.02 .12 −.69 −.69.40 −.80 .40 .09 .09
Jamal Atif (Université Paris-Dauphine) AFD 2014-2015 34 / 35
Réduction de dimensionalité Recommandation
Recommandations de...films
Réduction de dimensionalité :
.13 .02
.41 .07
.55 .09
.68 .11
.15 −.59
.07 −.73
.07 −.29
[
12.4 00 9.5
] [.56 .59 .56 .09 .09.12 −.02 .12 −.69 −.69
]
=
0.93 0.95 0.93 .014 .0142.93 2.99 2.93 .000 .0003.92 4.01 3.92 .026 .0264.84 4.96 4.84 .040 .0400.37 1.21 0.37 4.04 4.040.35 0.65 0.35 4.87 4.870.16 0.57 0.16 1.98 1.98
Interprétation ?
Jamal Atif (Université Paris-Dauphine) AFD 2014-2015 35 / 35