un modèle général pour la classification non supervisée sous … · 2013-06-20 · un modèle...

Post on 02-Apr-2020

1 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Un modèle général pour la classificationnon supervisée sous contraintes d’utilisateur

Thi-Bich-Hanh DAO, Khanh-Chuong DUONG,Christel VRAIN

LIFOUniversité d’Orléans

JFPC 2013

DAO, DUONG, VRAIN (LIFO) Un modèle général pour le clustering JFPC 2013 1 / 41

Plan

1 MotivationClassification non superviséeContraintes d’utilisateurMotivation

2 ModèleVariablesContraintesStratégie de recherche

3 ExpérimentationClustering sans contraintes d’utilisateurClustering avec contraintes d’utilisateur

4 Conclusion

DAO, DUONG, VRAIN (LIFO) Un modèle général pour le clustering JFPC 2013 2 / 41

Plan

1 MotivationClassification non superviséeContraintes d’utilisateurMotivation

2 ModèleVariablesContraintesStratégie de recherche

3 ExpérimentationClustering sans contraintes d’utilisateurClustering avec contraintes d’utilisateur

4 Conclusion

DAO, DUONG, VRAIN (LIFO) Un modèle général pour le clustering JFPC 2013 3 / 41

Classification non supervisée

O = {o1, . . . , on

}: n objets. d(oi

, oj

): dissimilarité entre o

i

et o

j

.Tâche: Regrouper n objets en k groupes.Le problème peut être formulé comme un problème d’optimisationavec un critère E :

Minimisation du diamètre maximalMaximisation du séparateur minimalMinimisation de la somme de dissimilaritésMinimisation des moindres carrésMinimisation de l’erreur absolue...

DAO, DUONG, VRAIN (LIFO) Un modèle général pour le clustering JFPC 2013 4 / 41

Classification non supervisée

DAO, DUONG, VRAIN (LIFO) Un modèle général pour le clustering JFPC 2013 5 / 41

Critère: Minimisation du diamètre maximal

DAO, DUONG, VRAIN (LIFO) Un modèle général pour le clustering JFPC 2013 6 / 41

Critère: Maximisation du séparateur minimal

DAO, DUONG, VRAIN (LIFO) Un modèle général pour le clustering JFPC 2013 7 / 41

Critère: Minimisation de la somme de dissimilarités

DAO, DUONG, VRAIN (LIFO) Un modèle général pour le clustering JFPC 2013 8 / 41

Plan

1 MotivationClassification non superviséeContraintes d’utilisateurMotivation

2 ModèleVariablesContraintesStratégie de recherche

3 ExpérimentationClustering sans contraintes d’utilisateurClustering avec contraintes d’utilisateur

4 Conclusion

DAO, DUONG, VRAIN (LIFO) Un modèle général pour le clustering JFPC 2013 9 / 41

Contraintes d’utilisateur

DAO, DUONG, VRAIN (LIFO) Un modèle général pour le clustering JFPC 2013 10 / 41

Contraintes portant sur les clusters

DAO, DUONG, VRAIN (LIFO) Un modèle général pour le clustering JFPC 2013 11 / 41

Contrainte: Diamètre Maximal

DAO, DUONG, VRAIN (LIFO) Un modèle général pour le clustering JFPC 2013 12 / 41

Contrainte: Séparation Minimale

DAO, DUONG, VRAIN (LIFO) Un modèle général pour le clustering JFPC 2013 13 / 41

Contraintes: Must-link et Cannot-link

DAO, DUONG, VRAIN (LIFO) Un modèle général pour le clustering JFPC 2013 14 / 41

Plan

1 MotivationClassification non superviséeContraintes d’utilisateurMotivation

2 ModèleVariablesContraintesStratégie de recherche

3 ExpérimentationClustering sans contraintes d’utilisateurClustering avec contraintes d’utilisateur

4 Conclusion

DAO, DUONG, VRAIN (LIFO) Un modèle général pour le clustering JFPC 2013 15 / 41

Motivation

Ce problème d’optimisation est NP-difficile. Les algorithmesclassiques trouvent un optimum local.Ils doivent être adaptés pour chaque type de contraintes.

DAO, DUONG, VRAIN (LIFO) Un modèle général pour le clustering JFPC 2013 16 / 41

Motivation

Un modèle général qui cherche l’optimum global.Intégration avec des contraintes définies par l’utilisateur.Choix des critères d’optimisation:

minimisation du diamètre maximal.maximisation de la séparation entre les clusters.minimisation de la somme des dissimilarités intracluster.

DAO, DUONG, VRAIN (LIFO) Un modèle général pour le clustering JFPC 2013 17 / 41

Plan

1 MotivationClassification non superviséeContraintes d’utilisateurMotivation

2 ModèleVariablesContraintesStratégie de recherche

3 ExpérimentationClustering sans contraintes d’utilisateurClustering avec contraintes d’utilisateur

4 Conclusion

DAO, DUONG, VRAIN (LIFO) Un modèle général pour le clustering JFPC 2013 18 / 41

Variables : représentants

Chaque groupe est identifié par un représentant.Pour casser la symétrie, le représentant d’un cluster est le pointdu plus petit indice.k variables: I[1], . . . , I[k ] avec le domaine [1, n].8c 2 [1, k ], I[c] est le représentant du cluster c

DAO, DUONG, VRAIN (LIFO) Un modèle général pour le clustering JFPC 2013 19 / 41

Variables : points aux clusters

Pour chaque point, son cluster est donné par l’indice dureprésentant.G[1], . . . ,G[n] avec le domaine [1, n].8i 2 [1, n], G[i] est la valeur du représentant associé.

DAO, DUONG, VRAIN (LIFO) Un modèle général pour le clustering JFPC 2013 20 / 41

Variables du critère à optimiser

D : diamètre maximal.V : somme des dissimilarités intra-cluster.

DAO, DUONG, VRAIN (LIFO) Un modèle général pour le clustering JFPC 2013 21 / 41

Plan

1 MotivationClassification non superviséeContraintes d’utilisateurMotivation

2 ModèleVariablesContraintesStratégie de recherche

3 ExpérimentationClustering sans contraintes d’utilisateurClustering avec contraintes d’utilisateur

4 Conclusion

DAO, DUONG, VRAIN (LIFO) Un modèle général pour le clustering JFPC 2013 22 / 41

Modélisation d’une partition

Le représentant d’un représentant est lui-même:

8c 2 [1, k ], G[I[c]] = I[c]

Le représentant d’un point doit être parmi les représentants:

8i 2 [1, n], #{c | G[i]= I[c]} = 1

Le représentant doit être d’indice minimal:

8i 2 [1, n], G[i] i

Les représentants sont en ordre croissant:

8c < c

0 2 [1, k ], I[c] < I[c0]

Le représentant du premier cluster est le premier point:

G[1] = 1, I[1] = 1

DAO, DUONG, VRAIN (LIFO) Un modèle général pour le clustering JFPC 2013 23 / 41

Contraintes du diamètre maximal

Les contraintes réifiées du diamètre:

8i < j 2 [1, n] : d(i , j) > D ! (G[i] 6= G[j])

minimise D.

DAO, DUONG, VRAIN (LIFO) Un modèle général pour le clustering JFPC 2013 24 / 41

Contrainte de la somme des dissimilarités

Contrainte linéaire de la somme des dissimilarités intra-clusters

V =X

i<j2[1,n]

(G[i] == G[j])d(i , j)2

minimise V .

DAO, DUONG, VRAIN (LIFO) Un modèle général pour le clustering JFPC 2013 25 / 41

Modélisation des contraintes définies par l’utilisateur

Pour les contraintes portant sur les clusters:Capacité minimale ↵ des clusters:

8c 2 [1, k ], #{i | G[i]= I[c]} � ↵

Capacité maximale � des clusters:

8c 2 [1, k ], #{i | G[i]= I[c]} �

Séparation minimale ✓ des clusters:

8i < j 2 [1, n], d(i , j) < ✓ : G[i] = G[j]

Diamètre maximal � des clusters:

8i < j 2 [1, n], d(i , j) > � : G[i] 6= G[j]

DAO, DUONG, VRAIN (LIFO) Un modèle général pour le clustering JFPC 2013 26 / 41

Modélisation des contraintes définies par l’utilisateurGénéralisation de la ✏-contrainte:

#{j | d(i , j) ✏,G[j]=G[i]} � MinPts

Pour les contraintes sur les couples de points:Une contrainte must-link sur i , j :

G[i] = G[j]

Une contrainte cannot-link sur i , j :

G[i] 6= G[j]

DAO, DUONG, VRAIN (LIFO) Un modèle général pour le clustering JFPC 2013 27 / 41

Plan

1 MotivationClassification non superviséeContraintes d’utilisateurMotivation

2 ModèleVariablesContraintesStratégie de recherche

3 ExpérimentationClustering sans contraintes d’utilisateurClustering avec contraintes d’utilisateur

4 Conclusion

DAO, DUONG, VRAIN (LIFO) Un modèle général pour le clustering JFPC 2013 28 / 41

Stratégie de recherche

Ordre de choix des variables: I puis G.Choix des variables de I: I[1] à I[k ]

Choix des variables de G: sur la taille du domaine restant.Choix de valeur pour chaque G[i]: l’indice du représentant le plusproche.

DAO, DUONG, VRAIN (LIFO) Un modèle général pour le clustering JFPC 2013 29 / 41

Amélioration du modèle

Utilisation d’une heuristique fondée sur l’algorithme FPF [F.Gonzalez, 1985] pour réordonner les points.Amélioration des contraintes réifiées du diamètre prenant encompte le diamètre trouvé par FPF.Un filtrage supplémentaire pour la somme de dissimilarités.

DAO, DUONG, VRAIN (LIFO) Un modèle général pour le clustering JFPC 2013 30 / 41

Amélioration de la recherche en réordonnant lespoints

Importance des indices des points.FPF est utilisé pour réordonner les points.

DAO, DUONG, VRAIN (LIFO) Un modèle général pour le clustering JFPC 2013 31 / 41

Amélioration de la recherche en réordonnant lespoints

DAO, DUONG, VRAIN (LIFO) Un modèle général pour le clustering JFPC 2013 32 / 41

Un filtrage supplémentaire pour la somme

V =X

i<j2[1,n]

(G[i] == G[j])d(i , j)2

DAO, DUONG, VRAIN (LIFO) Un modèle général pour le clustering JFPC 2013 33 / 41

Plan

1 MotivationClassification non superviséeContraintes d’utilisateurMotivation

2 ModèleVariablesContraintesStratégie de recherche

3 ExpérimentationClustering sans contraintes d’utilisateurClustering avec contraintes d’utilisateur

4 Conclusion

DAO, DUONG, VRAIN (LIFO) Un modèle général pour le clustering JFPC 2013 34 / 41

Clustering sans contraintes d’utilisateur

Base de données #Objets #Classes Diamètre Séparationiris 150 3 0.1s 0.3sionosphere 351 2 0.8s 7.4ssynthetic control 600 6 24.6s 102.8svehicle 846 4 36.7s 308.6syeast 1484 10 4211.2s > 2 heurs

DAO, DUONG, VRAIN (LIFO) Un modèle général pour le clustering JFPC 2013 35 / 41

Clustering sans contraintes d’utilisateur

30 32 34 36 38 40

0

20

40

60

80

100

n

te

mp

s(s)

Avec le filtrage supplémentaireSans filtrage supplémentaire

Critère de la somme des dissimilarités:

V =X

i<j2[1,n]

(G[i] == G[j])d(i , j)2

DAO, DUONG, VRAIN (LIFO) Un modèle général pour le clustering JFPC 2013 36 / 41

Plan

1 MotivationClassification non superviséeContraintes d’utilisateurMotivation

2 ModèleVariablesContraintesStratégie de recherche

3 ExpérimentationClustering sans contraintes d’utilisateurClustering avec contraintes d’utilisateur

4 Conclusion

DAO, DUONG, VRAIN (LIFO) Un modèle général pour le clustering JFPC 2013 37 / 41

Performance avec contraintes d’utilisateur

0 0.2 0.4 0.6 0.8 1

100

200

300

400

500

#must-link (%)

#noe

uds

sans contrainte de capacitécapacité � 5%n

capacité � 10%n

capacité � 15%n

critère de diamètre + contraintes de Must-link + contrainte de capacité.

DAO, DUONG, VRAIN (LIFO) Un modèle général pour le clustering JFPC 2013 38 / 41

Qualité de la solution

DAO, DUONG, VRAIN (LIFO) Un modèle général pour le clustering JFPC 2013 39 / 41

Conclusion

ConclusionUn modèle générique en PPC pour la classification nonsupervisée avec contraintes d’utilisateur.Un filtrage supplémentaire pour la somme des dissimilarités.Le modèle s’adapte à différents critères de classification.Intégration directe des contraintes d’utilisateur.

PerspectiveAmélioration de l’efficacité.Renforcer la généralité du modèle.

DAO, DUONG, VRAIN (LIFO) Un modèle général pour le clustering JFPC 2013 40 / 41

Amélioration pour le critère du diamètre maximal

D

optimal

D

FPF

2 ⇥ D

optimal

Contrainte de diamètre est modifié:d(i , j) D

FPF

/2:

d(i , j) > D

FPF

:

DAO, DUONG, VRAIN (LIFO) Un modèle général pour le clustering JFPC 2013 41 / 41

top related