qu’est ce que la discrimination...2019/04/01  · -0.05 0 0.05 0.1 0.15 wavelength (nm )-3000...

40
Une revue des méthodes de discrimination pour la spectrométrie PIR (centrée sur les méthodes linéaires) JM Roger [email protected]

Upload: others

Post on 26-Sep-2020

4 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Qu’est ce que la discrimination...2019/04/01  · -0.05 0 0.05 0.1 0.15 wavelength (nm )-3000 -2500 -2000 -1500 -1000 -500 0 500 1000 1500 2000-3000-2000-1000 0 1000 2000 3000 Sélection

Une revue des méthodes de discriminationpour la spectrométrie PIR

(centrée sur les méthodes linéaires)

JM [email protected]

Page 2: Qu’est ce que la discrimination...2019/04/01  · -0.05 0 0.05 0.1 0.15 wavelength (nm )-3000 -2500 -2000 -1500 -1000 -500 0 500 1000 1500 2000-3000-2000-1000 0 1000 2000 3000 Sélection

Plan

• Qu'est ce que la discrimination ?

• Le modèle de l'analyse discriminante

• Application à la spectrométrie

• Méthodes alternatives

Page 3: Qu’est ce que la discrimination...2019/04/01  · -0.05 0 0.05 0.1 0.15 wavelength (nm )-3000 -2500 -2000 -1500 -1000 -500 0 500 1000 1500 2000-3000-2000-1000 0 1000 2000 3000 Sélection

Les principes del'analyse discriminante

Page 4: Qu’est ce que la discrimination...2019/04/01  · -0.05 0 0.05 0.1 0.15 wavelength (nm )-3000 -2500 -2000 -1500 -1000 -500 0 500 1000 1500 2000-3000-2000-1000 0 1000 2000 3000 Sélection

Qu'est ce que la discrimination?

Affecter un objet à une classe(un groupe), parmi une collection de

classes (de groupes) prédéfinies≠

classification

Page 5: Qu’est ce que la discrimination...2019/04/01  · -0.05 0 0.05 0.1 0.15 wavelength (nm )-3000 -2500 -2000 -1500 -1000 -500 0 500 1000 1500 2000-3000-2000-1000 0 1000 2000 3000 Sélection

La discrimination : un exemple

?

Page 6: Qu’est ce que la discrimination...2019/04/01  · -0.05 0 0.05 0.1 0.15 wavelength (nm )-3000 -2500 -2000 -1500 -1000 -500 0 500 1000 1500 2000-3000-2000-1000 0 1000 2000 3000 Sélection

La discrimination : un autre exemple

?

Page 7: Qu’est ce que la discrimination...2019/04/01  · -0.05 0 0.05 0.1 0.15 wavelength (nm )-3000 -2500 -2000 -1500 -1000 -500 0 500 1000 1500 2000-3000-2000-1000 0 1000 2000 3000 Sélection

Avant tout...… un peu de formalisme

[. . . .. .. . . .. . . .]Base d'apprentissage

p descripteursn individus[1 0 . . . 0

0 . . 1 . 00 . 1 . . 0]+

c degrés

ModèleY=f(X)

y=f x Exemple de test [. . . . ]

y

X Y

x

Page 8: Qu’est ce que la discrimination...2019/04/01  · -0.05 0 0.05 0.1 0.15 wavelength (nm )-3000 -2500 -2000 -1500 -1000 -500 0 500 1000 1500 2000-3000-2000-1000 0 1000 2000 3000 Sélection

Matrice de Confusion

y= yPour chaque individu : ?

ACTU AL CLASSES TotalNumber ofindividuals 14 12 18 21 14 19 98

PREDICTED CLASSES C1 C2 C3 C4 C5 C6C1 10 0 1 0 0 0 11C2 0 12 0 2 0 0 14C3 3 0 15 0 1 1 20C4 0 0 0 18 0 3 21C5 1 0 0 0 13 0 14C6 0 0 2 1 0 15 18

% goodassignmentsError ratio 29% 0% 17% 14% 7% 21% 15% Erreur

Puisque Y contient des degrés d'appartenance, on a directement : Cf= YT Y

Page 9: Qu’est ce que la discrimination...2019/04/01  · -0.05 0 0.05 0.1 0.15 wavelength (nm )-3000 -2500 -2000 -1500 -1000 -500 0 500 1000 1500 2000-3000-2000-1000 0 1000 2000 3000 Sélection

Schéma général desméthodes d'analyse discriminante linéaire

[. . . .

. . . .

. . . .]p variables

X [. . . .

. . . .

. . . .]k dimensions discriminantes

XUSous espace (U)

qui sépareau mieux les classes

[.

.

.]c degrés

d'appartenance

Y

Espace de dimension pSous espacede dimension

k≤p

1ère étape : projection

2ème étape : décisionxTU ?Quelle est la classe la plus proche de 

Page 10: Qu’est ce que la discrimination...2019/04/01  · -0.05 0 0.05 0.1 0.15 wavelength (nm )-3000 -2500 -2000 -1500 -1000 -500 0 500 1000 1500 2000-3000-2000-1000 0 1000 2000 3000 Sélection

Var =

+Var+Var+Var+Var

Var

Variance inter classes (B)

Variance intra classes (W)

Variance totale (T)

La décomposition des variances

Page 11: Qu’est ce que la discrimination...2019/04/01  · -0.05 0 0.05 0.1 0.15 wavelength (nm )-3000 -2500 -2000 -1500 -1000 -500 0 500 1000 1500 2000-3000-2000-1000 0 1000 2000 3000 Sélection

Variances...

• Théorème de Huygens : T = W + B

• Donc, maximiser B relativement à T revient à maximiser :

• B/W « english school » (Fisher, LDA)ou

• B/T « french school » (Benzecri, AFD)

0 1

0 +∞

B/T

B/W

Les 2 sont appelés

Wilk’s LambdaΛ

Deux méthodes équivalentes, car :B/T = ( B/W ) / ( 1 + B/W )

Page 12: Qu’est ce que la discrimination...2019/04/01  · -0.05 0 0.05 0.1 0.15 wavelength (nm )-3000 -2500 -2000 -1500 -1000 -500 0 500 1000 1500 2000-3000-2000-1000 0 1000 2000 3000 Sélection

Le modèle de base de l'Analyse Discriminante(point de vue intuitif)

• On cherche le vecteur u tel que Xu maximise le

ratio B/T

• Une fois trouvé, on projette les données

orthogonalement à u

• On répète le process ...

Page 13: Qu’est ce que la discrimination...2019/04/01  · -0.05 0 0.05 0.1 0.15 wavelength (nm )-3000 -2500 -2000 -1500 -1000 -500 0 500 1000 1500 2000-3000-2000-1000 0 1000 2000 3000 Sélection

Le modèle de base de l'Analyse Discriminante(point de vue mathématique)

• On cherche le vecteur u tel que : B(Xu) / T(Xu) maxi• Or B(Xu) = uTBu et T(Xu) = uTTu• Donc Λ(Xu) = uTBu / uTTu est une fonction de Rp to R

• Maximier Λ(Xu) ⇔ Trouver le zéro de grad(Λ(Xu))

grad(Λ(Xu)) = 2((uTTu)Bu – (uTBu)Tu ) / (uTTu)²

Max(Λ(Xu)) ⇔ (B - λ T)u = 0 ⇔ T-1B u = λu

U contient les (c-1) premiers vecteurs propres de T-1B

Page 14: Qu’est ce que la discrimination...2019/04/01  · -0.05 0 0.05 0.1 0.15 wavelength (nm )-3000 -2500 -2000 -1500 -1000 -500 0 500 1000 1500 2000-3000-2000-1000 0 1000 2000 3000 Sélection

AD

projection

1er effet : description

Le modèle de base de l'Analyse Discriminante(point de vue pratique)

Page 15: Qu’est ce que la discrimination...2019/04/01  · -0.05 0 0.05 0.1 0.15 wavelength (nm )-3000 -2500 -2000 -1500 -1000 -500 0 500 1000 1500 2000-3000-2000-1000 0 1000 2000 3000 Sélection

2nd effet : décision

On calcule un degré d'appartenance sur la base de ladistance aux centres de gravité des classes

On adopte la classe qui présente le degré maxiα i=

e−di

∑j=1

c

e−d j

α i=

1di

∑j=1

c 1d j

ou

di

GAD

projection

Le modèle de base de l'Analyse Discriminante(point de vue pratique)

Page 16: Qu’est ce que la discrimination...2019/04/01  · -0.05 0 0.05 0.1 0.15 wavelength (nm )-3000 -2500 -2000 -1500 -1000 -500 0 500 1000 1500 2000-3000-2000-1000 0 1000 2000 3000 Sélection

 ?→ rejet pour ambiguité

Le modèle de base de l'Analyse Discriminante(point de vue pratique)

Page 17: Qu’est ce que la discrimination...2019/04/01  · -0.05 0 0.05 0.1 0.15 wavelength (nm )-3000 -2500 -2000 -1500 -1000 -500 0 500 1000 1500 2000-3000-2000-1000 0 1000 2000 3000 Sélection

 ?→ rejet en distance

Le modèle de base de l'Analyse Discriminante(point de vue pratique)

Page 18: Qu’est ce que la discrimination...2019/04/01  · -0.05 0 0.05 0.1 0.15 wavelength (nm )-3000 -2500 -2000 -1500 -1000 -500 0 500 1000 1500 2000-3000-2000-1000 0 1000 2000 3000 Sélection

x

xG

G

 ?→ la forme des classes doit être prise en compte

Le modèle de base de l'Analyse Discriminante(point de vue pratique)

Page 19: Qu’est ce que la discrimination...2019/04/01  · -0.05 0 0.05 0.1 0.15 wavelength (nm )-3000 -2500 -2000 -1500 -1000 -500 0 500 1000 1500 2000-3000-2000-1000 0 1000 2000 3000 Sélection

La distance de Mahalonobis

• But : Calculer la distance d'un point à une classe• L'idée : pondérer chaque dimension inversement à la

largeur de la classe• Le formalisme :

Distance Euclidienne : d(x,gi)²=(x-gi)T(x-gi)

Distance de Mahalanobis : d(x,gi)²=(x-gi)T Si-1 (x-gi)

Avec Si la matrice de variance covariance de la classe i

Page 20: Qu’est ce que la discrimination...2019/04/01  · -0.05 0 0.05 0.1 0.15 wavelength (nm )-3000 -2500 -2000 -1500 -1000 -500 0 500 1000 1500 2000-3000-2000-1000 0 1000 2000 3000 Sélection

Application del'analyse discriminante

à la spectrométrie

Page 21: Qu’est ce que la discrimination...2019/04/01  · -0.05 0 0.05 0.1 0.15 wavelength (nm )-3000 -2500 -2000 -1500 -1000 -500 0 500 1000 1500 2000-3000-2000-1000 0 1000 2000 3000 Sélection

Application à la spectrométrie

Les variables spectrales sont très corrélées

Donc, le rang réel des données est très inférieur au rang mathématique

Donc, T n'est pas inversible

L'analyse discriminante ne peut donc pas être appliquée directement

aux données spectrales

Page 22: Qu’est ce que la discrimination...2019/04/01  · -0.05 0 0.05 0.1 0.15 wavelength (nm )-3000 -2500 -2000 -1500 -1000 -500 0 500 1000 1500 2000-3000-2000-1000 0 1000 2000 3000 Sélection

Application à la spectrométrie

• Deux solutions :– Réduire la dimension pour rendre T inversible

• Sélection de variables• Construction de variables latentes

– Appliquer une méthode alternative• PLS2 directe, Multi PLS binaire, SIMCA,

Méthode continuum, ...

Page 23: Qu’est ce que la discrimination...2019/04/01  · -0.05 0 0.05 0.1 0.15 wavelength (nm )-3000 -2500 -2000 -1500 -1000 -500 0 500 1000 1500 2000-3000-2000-1000 0 1000 2000 3000 Sélection

ACP + Analyse Discriminante

PCA-DA• On construit un premier sous espace par

ACP sur X, sur lequel T sera inversible

• On applique l'analyse discriminante sur cet espace

Inconvénient : l'espace de l'ACP n'est pas optimal pour la discrimination

NB : certains programmes le font sans le dire, lorsque la matrice X est mal conditionnée

Page 24: Qu’est ce que la discrimination...2019/04/01  · -0.05 0 0.05 0.1 0.15 wavelength (nm )-3000 -2500 -2000 -1500 -1000 -500 0 500 1000 1500 2000-3000-2000-1000 0 1000 2000 3000 Sélection

PLS2 + Analyse Discriminante

PLS-DA

Page 25: Qu’est ce que la discrimination...2019/04/01  · -0.05 0 0.05 0.1 0.15 wavelength (nm )-3000 -2500 -2000 -1500 -1000 -500 0 500 1000 1500 2000-3000-2000-1000 0 1000 2000 3000 Sélection

PLS2 + Analyse Discriminante

PLS-DA

[. . . .. .. . . .. . . .] [1 0 . . . 0

0 . . 1 . 00 . 1 . . 0]PLS 2X Y

[. . . .. .. . . .. . . .]Scores

Espacediscriminant

Page 26: Qu’est ce que la discrimination...2019/04/01  · -0.05 0 0.05 0.1 0.15 wavelength (nm )-3000 -2500 -2000 -1500 -1000 -500 0 500 1000 1500 2000-3000-2000-1000 0 1000 2000 3000 Sélection

Variables latentes + Analyse Discriminante

exemple sur 3 cépages

-6 0 0 -4 0 0 -2 0 0 0 2 0 0 4 0 0 6 0 0 8 0 0-8 0 0

-6 0 0

-4 0 0

-2 0 0

0

2 0 0

4 0 0

6 0 0

8 0 0

PCA-DA 8 var : Λ=0,82 PLS-DA 8 var : Λ=0,84

3 0 0 4 0 0 5 0 0 6 0 0 7 0 0 8 0 0 9 0 0 1 0 0 0 1 1 0 0 1 2 0 0-0 .2

-0 .1 5

-0 .1

-0 .0 5

0

0 .0 5

0 . 1

0 .1 5

0 . 2

w a ve le n g t h (n m )

3 0 0 4 0 0 5 0 0 6 0 0 7 0 0 8 0 0 9 0 0 1 0 0 0 1 1 0 0 1 2 0 0-0 . 2

-0 .1 5

-0 . 1

-0 .0 5

0

0 . 0 5

0 . 1

0 . 1 5

w a ve le n g t h (n m )

-3 0 0 0 -2 5 0 0 -2 0 0 0 -1 5 0 0 -1 0 0 0 -5 0 0 0 5 0 0 1 0 0 0 1 5 0 0 2 0 0 0-3 0 0 0

-2 0 0 0

-1 0 0 0

0

1 0 0 0

2 0 0 0

3 0 0 0

Page 27: Qu’est ce que la discrimination...2019/04/01  · -0.05 0 0.05 0.1 0.15 wavelength (nm )-3000 -2500 -2000 -1500 -1000 -500 0 500 1000 1500 2000-3000-2000-1000 0 1000 2000 3000 Sélection

Sélection de variables + Analyse Discriminante

Page 28: Qu’est ce que la discrimination...2019/04/01  · -0.05 0 0.05 0.1 0.15 wavelength (nm )-3000 -2500 -2000 -1500 -1000 -500 0 500 1000 1500 2000-3000-2000-1000 0 1000 2000 3000 Sélection

Sélection de variables + Analyse Discriminante

• Méthodes de type « filter »• On applique un filtre φ(xi) sur chaque variable de X et on

ne garde que celles qui sont au dessus d'un seuil• Par analogie avec la régression et le R², on peut employer

le Λ de Wilks

Peut être utile pour « visualiser » les zones d'intérêtN'est pas efficace car ignore la structure des données

Page 29: Qu’est ce que la discrimination...2019/04/01  · -0.05 0 0.05 0.1 0.15 wavelength (nm )-3000 -2500 -2000 -1500 -1000 -500 0 500 1000 1500 2000-3000-2000-1000 0 1000 2000 3000 Sélection

Sélection de variables + Analyse Discriminante

• Méthodes de type « wrapper »– On parcours l'espace des sélections– On soumet le modèle à ces sélections – On cherche celle(s) qui donne le(s)

meilleur(s) résultats

– Différentes heuristiques de parcours• Algorithmes génétiques• Recuit simulé• Descente de gradient• ...

Page 30: Qu’est ce que la discrimination...2019/04/01  · -0.05 0 0.05 0.1 0.15 wavelength (nm )-3000 -2500 -2000 -1500 -1000 -500 0 500 1000 1500 2000-3000-2000-1000 0 1000 2000 3000 Sélection

Sélection de variables + Analyse Discriminante

• Méthodes de type « embedded » : la sélection se fait en même temps que l'optimisation

– Par exemple, Stepwise :

• Introduction pas à pas des variables• Optimisation du Λ de Wilks

Page 31: Qu’est ce que la discrimination...2019/04/01  · -0.05 0 0.05 0.1 0.15 wavelength (nm )-3000 -2500 -2000 -1500 -1000 -500 0 500 1000 1500 2000-3000-2000-1000 0 1000 2000 3000 Sélection

Sélection de variables

adaptée à la spectrométrie

et à la discrimination

Sélection PLS-like Optimisation de la covarianceGarantie de sélection répartie

Page 32: Qu’est ce que la discrimination...2019/04/01  · -0.05 0 0.05 0.1 0.15 wavelength (nm )-3000 -2500 -2000 -1500 -1000 -500 0 500 1000 1500 2000-3000-2000-1000 0 1000 2000 3000 Sélection

Sélection de variables + Analyse Discriminante

exemple sur 3 cépages

-1 5 0 -1 0 0 -5 0 0 5 0 1 0 0-2 0

-1 5

-1 0

-5

0

5

1 0

1 5

2 0

2 5

-6 0 0 -4 0 0 -2 0 0 0 2 0 0 4 0 0 6 0 0 8 0 0-8 0 0

-6 0 0

-4 0 0

-2 0 0

0

2 0 0

4 0 0

6 0 0

8 0 0

3 0 0 4 0 0 5 0 0 6 0 0 7 0 0 8 0 0 9 0 0 1 0 0 0 1 1 0 0 1 2 0 0-1

-0 . 5

0

0 . 5

1

1 . 5

2

w a ve le n g t h (n m )3 0 0 4 0 0 5 0 0 6 0 0 7 0 0 8 0 0 9 0 0 1 0 0 0 1 1 0 0 1 2 0 0

-1

-0 .5

0

0 . 5

1

1 . 5

2

w a ve le n g t h (n m )

Stepwise 7 var : Λ=0,89 CovSel 7 var : Λ=0,81

Page 33: Qu’est ce que la discrimination...2019/04/01  · -0.05 0 0.05 0.1 0.15 wavelength (nm )-3000 -2500 -2000 -1500 -1000 -500 0 500 1000 1500 2000-3000-2000-1000 0 1000 2000 3000 Sélection

Des méthodesalternatives

Page 34: Qu’est ce que la discrimination...2019/04/01  · -0.05 0 0.05 0.1 0.15 wavelength (nm )-3000 -2500 -2000 -1500 -1000 -500 0 500 1000 1500 2000-3000-2000-1000 0 1000 2000 3000 Sélection

Prédiction directe des degrés

d'appartenance par régression linéaire

+ Tire profit de la capacité de la PLS2 à prédire plusieurs réponses

+ Modèle simple

- Ne gère pas (directement) la contrainte de somme, ni de limite (0 – 1)

- Ce qui est prédit n'est pas un degré d'appartenance

À la base de la PLS-DA de « the unscrambler » ?

y=xT B

Page 35: Qu’est ce que la discrimination...2019/04/01  · -0.05 0 0.05 0.1 0.15 wavelength (nm )-3000 -2500 -2000 -1500 -1000 -500 0 500 1000 1500 2000-3000-2000-1000 0 1000 2000 3000 Sélection

Méthodes continuum

à la recherche directe de l'espace discriminant

( ) [ ]+ ∞∈− ,0 ; BIT 1 kk+Vecteurs propres de :

Page 36: Qu’est ce que la discrimination...2019/04/01  · -0.05 0 0.05 0.1 0.15 wavelength (nm )-3000 -2500 -2000 -1500 -1000 -500 0 500 1000 1500 2000-3000-2000-1000 0 1000 2000 3000 Sélection

Méthodes continuum

à la recherche directe de l'espace discriminant

( ) [ ]1,0 ; TB ∈− kkVecteurs propres de :

Page 37: Qu’est ce que la discrimination...2019/04/01  · -0.05 0 0.05 0.1 0.15 wavelength (nm )-3000 -2500 -2000 -1500 -1000 -500 0 500 1000 1500 2000-3000-2000-1000 0 1000 2000 3000 Sélection

Méthodes continuum

FEF-DA

Page 38: Qu’est ce que la discrimination...2019/04/01  · -0.05 0 0.05 0.1 0.15 wavelength (nm )-3000 -2500 -2000 -1500 -1000 -500 0 500 1000 1500 2000-3000-2000-1000 0 1000 2000 3000 Sélection

Méthodes utilisant

un modèle par classe

PLS binaire : chaque classe est discriminée de toutes les autres classesPour un nouvel individu, tous les modèles sont testés,

fournissant autant de degrés d'appartenance

SIMCA : un modèle ACP est calculé pour chaque classeChaque nouvel individu est projeté dans l'espace local de

chaque classe et l'examen des résidus et des qualités de projection détermine le meilleur modèle

Page 39: Qu’est ce que la discrimination...2019/04/01  · -0.05 0 0.05 0.1 0.15 wavelength (nm )-3000 -2500 -2000 -1500 -1000 -500 0 500 1000 1500 2000-3000-2000-1000 0 1000 2000 3000 Sélection

Un autre point de vue,

compatible avec la spectrométrie

S'intéresser aux VP de T-1B ou de W-1B revient à dire que l'on s'intéresse à la variance inter-classes SANS la variance intra-classes

T-1 ou W-1 réalise une « pondération » qui réduit l'effet de ce qui est responsable de la dispersion des classes

En poussant le raisonnement à l'extrême, il suffit d'enlever le sous espace qui porte W, puis de diagonaliser B …

Ce point de vue résonne avec les notions d'espaces utile et nuisible et de hard / soft projections

(thèse de JC Boulet)

Page 40: Qu’est ce que la discrimination...2019/04/01  · -0.05 0 0.05 0.1 0.15 wavelength (nm )-3000 -2500 -2000 -1500 -1000 -500 0 500 1000 1500 2000-3000-2000-1000 0 1000 2000 3000 Sélection

Conclusion

L'analyse discriminante linéaire offre un cadre formel intéressant :

Sous espace discriminant de dimension réduitePossibilité de mettre en oeuvre des règles d'affectation

Son utilisation sur les données spectrales requiert des adaptations

Variables latentes, sélection de variables

Des alternatives pour la construction de l'espace discriminant sont encore recherchées.