classification 2008 2

MTHODES

DE

CLASSIFICATION

Pierre-Louis GONZALEZ

2

MTHODES DE CLASSIFICATION

Objet Oprer des regroupements en classes homognes dun

ensemble dindividus.

Donnes Les donnes se prsentent en gnral sous la forme dun

tableau individus variables.

1. Ayant dfini un critre de distance (dissemblance) ou

dissimilarit (pas ncessairement dingalit triangulaire)

entre les individus, on procde au regroupement des

individus.

2. Ce regroupement ncessite une stratgie de

classification : critre de classification.

3

MTHODES

NON HIERARCHIQUES

Partition en k classes

Exemples : Centres mobiles

Nues dynamiques

Avantages : Permettent la classification densembles volumineux.

Inconvnients : On impose au dpart le nombre de classes.

4

HIRARCHIQUES : suites de partitions embotes

a b c d e

a, b, c, d, eab, c, d, eabc, deabcde

OU

Avantages : La lecture de larbre permet de dterminer le nombre

optimal de classes.

Inconvnients : Coteux en temps de calcul.

5

lments de vocabulaire

classification automatique classification non supervise apprentissage sans professeur

Le terme classification en anglais fait rfrence laffectation dun

individu une classe (existant a priori) dans le cadre de lanalyse

discriminante. Il se traduit en franais par le terme classement.

Lquivalent en anglais de classification automatique est cluster

analysis .

6

lments de vocabulaire

E : ensemble des n objets classer

Dissimilarit : ( ) ( )d i j d j i, ,= ( )d i i, = 0 ( )d i j, 0

Similarit : ( ) ( )s i j s j i, ,= ( )s i j, 0 ( ) ( )s i i s i j, ,

7

I. MTHODES DE PARTITIONNEMENT

1. Considrations combinatoires

Pn k, = nombre de partitions en k classes de n individus

Pn k, = P k Pn k n k +1 1 1, , (rcurrence) (nombre de Stirling de 2me espce)

Ex : P12 5 1 379 400, =

Pn = nombre total de partitions

(nombres de Bell)

Ex : P12 4 213 597=

Ncessit dalgorithmes pour trouver une bonne partition.

Comment dfinir la qualit dune partition ?

8

2. Inertie intra-classe et Inertie inter-classe

n points dans un espace euclidien

( )d i i2 , distance euclidienne

Soit une partition en k classes de poids Pi

g g gk1 2, ... centres de gravit

I I Ik1 2, ... inerties associes

I PIW i i= inertie intra ( )I Pd g gB i i= 2 , inertie inter

I I IB W+ = g = centre de gravit des n individus

g1 g2

gk

g

x x

x

xx

x

xx x

x

x

xx

x

x

x

xx

x

xx

xx

x

xx

xx

xx

xx

x

x

x

x

x

x x

x

x

xx x

x

x

9

Comparaison de deux partitions en k classes : La meilleure est celle

qui a linertie IW la plus faible (ou linertie IB la plus forte).

Remarque : Ce critre ne permet pas de comparer des partitions

nombres diffrents de classe.

3. Mthode des centres mobiles

xx

xx

x

x

xx x

x

xc1

xx

x

x

x x

x

x

x

x

x

x x

x x

x

x

xx

xx

x

xx

x

x x

x

xc2

c3x

1re tape : choix de centres ci et partition associe (les ci sont

choisis au hasard).

La classe Eci est forme de tous les points plus proches de ci

que de tout autre centre.

10

2me tape : calcul des centres de gravit de chaque classe

dfinition dune nouvelle partition.

x x x

x

x

xx

x x

x x x

x

x

x x

x x

x

x

x x

x

x x

x

x

x

xx

x

( )g12

( )g32

( )g22

x

x

+ itrations successives

x

RSULTAT FONDAMENTAL

Linertie intra-classe diminue chaque tape.

Dmonstration :

Soit Egi la classe obtenue en remplaant ci par ( )gi2 centre de

gravit de Eci .

Daprs le thorme de Konig-Huygens, gi ntant pas le centre de

gravit de Egi

( )1 21n

d gE

ii

k

gi

A

A=

, est suprieur linertie intra-classe de la

partition Egi .

11

Il suffit de montrer alors que :

( )1 121 1n

d j g nj E ii

k

i

k

ci

= =

, dEgi2

A )(A, gi

Or, si on considre un point quelconque, il figurera dans le membre

de droite avec son carr de distance au gi qui sera le plus proche de

lui par construction des Egi , tandis que dans le membre de gauche,

il figurera avec sa distance un gi qui ne sera pas forcment le plus

proche de lui, mais qui sera seulement son centre de gravit dans la

partition Eci .

Le nuage tant fini, lalgorithme converge.

Lexprience montre que le nombre ditrations ncessaires est en

gnral faible.

12

EXEMPLE : Mthode des Centres Mobiles

Etape 0

c1 c2

Etape 1

Calcul des centres de gravitdes classes formes l tape

g g

2 1

1 2

'

Etape 2

+ D fin itio n d e n o u v e lle s c lassesau tou r d es cen tres d e g rav it

Etape 3

Calcul des centres de gravitdes classes formes l tapeNouvelle dfinition des classesautour de ces centres

' .2

Choix des centres

Constitution de classes autour des centres c1 et c2Classe 1 : points plus proches de c1 que de c2Classe 2 : points plus proches de c2 que de c1

STABILITE

x xx

xx

xx

x x xx x x

c1c2

x xx

xx

xx

x x xx x x

c1c2

( )g12x x

x

xx

xx

x x xx x x( )g22

( )g13x x

x

xx

x x

x x xx x x

( )g23

FIN de lalgorithme

13

4. Gnralisation : nues dynamiques

Lide est dassocier une classe un reprsentant diffrent de son centre

de gravit.

Par exemple :

un ensemble dindividus (noyau form de q points appels les talons)

une droite une loi de probabilit

Algorithme - Principe

Il faut faire dcrotre le critre U mesurant ladquation entre les

classes et leurs reprsentants.

14

Initialisation Deux possibilits :

1. Soit on se donne au dpart une fonction daffectation qui

gnre une partition ( )Q Q k= 1 ... Q sur E. Les noyaux pour chaque classe sont calculs.

2. Soit on se donne k noyaux.

tape daffectation Pour chaque individu, dterminer la classe laquelle on doit

laffecter (ncessit davoir dfini une distance entre un point et

un noyau, ou un groupe de points).

tape de reprsentation Pour chaque classe dfinie, calculer le nouveau noyau.

15

La convergence vers un minimum local est obtenue si chaque tape fait

dcrotre le critre U.

ARRT DE LALGORITHME quand la dcroissance atteint un seuil fix a

priori.

Pratique de la mthode

Comme la partition finale peut dpendre de linitialisation, on

recommence s fois (exemple : s tirages alatoires de noyaux).

Formes fortes Ensemble dlments ayant toujours t regroups lors de la

partition finale.

16

Exemples :

113

30

38 35 40

5 25 030 8 53 2

4340 35

Premire partition

partition-produit

Deuximepartition

Trois partitions de base en 6 classes :

Partition 1 127 188 229 245 151 60

Partition 2 232 182 213 149 114 110

Partition 3 44 198 325 99 130 204

Ces trois partitions sont ensuite croises entre elles

6 2163 = classes

Groupements stables rangs par effectifs dcroissants :

168 114 110 107 88 83 78 26 22 16

15 14 12 12 12 11 10 7 7 7

7 formes fortes deffectifs importants

c

1000 individus d

17

5. Variantes des mthodes centres mobiles

K-means (Mac Queen 1967)

On effectue un recentrage ds quun objet change de classe.

Isodata (Ball et Hall 1965)

Un certain nombre de contraintes sont imposes pour

empcher la formation de classes deffectifs trop faibles ou de

diamtre trop grand.

18

II. LA CLASSIFICATION HIRARCHIQUE

Elle consiste fournir un ensemble de partitions de E en classes de

moins en moins fines obtenues par regroupements successifs de parties.

edcba

Arbre de classificationou dendrogramme

Dmarche : Cet arbre est obtenu dans la plupart des mthodes de

manire ascendante :

On regroupe dabord les deux individus les plus proches qui

forment un sommet

Il ne reste plus que (n-1) objets et on itre le processus jusqu

un regroupement complet.

Un des problmes consiste dfinir une mesure de dissimilarit entre

classes.

Remarque : Les mthodes descendantes ou algorithmes divisifs

sont pratiquement inutilises.

19

1. Stratgies dagrgation sur dissimilarits

Le problme est de dfinir la dissimilarit entre la runion de deux

lments et un troisime :

( )d a b,c . A chaque solution correspond une ultramtrique diffrente.

x x

xx x

x

x

x

x

A

cd (A, c) ?

a. Le saut minimum

Cette mthode (connue sous le nom de single linkage en

anglais ) consiste crire que :

( ) ( ){ }d a b,c d a c d b,c ( ) inf , ; =

x x

x

xx

xx x x

xx

x

x

x

xx

x

x

x

xx

xx

x

x

x

xx

x x

x

La distance entre parties est donc la plus petite distance entre

lments des deux parties.

20

b. Le diamtre ( complete linkage )

On prend ici comme distances entre parties la plus grande

distance entre deux lments.

( )[ ] ( ) ( )[ ]d a b c d a c d b c , ; sup , , ,=

x x

x

xx

xx x x

xx

x

x

x

xx

x

x

x

xx

xx

x

x

x

xx

x x

x

21

2. Stratgies diverses

saut minimum (plus proche)

diamtre

moyenne des distances

mdiane des distances

distance au centre de gravit.

A

Indice i(A)

Lindice ou niveau dagrgation est le niveau auquel on trouve agrgs

pour la premire fois tous les constituants de A.

22

3. La mthode de Ward pour distance Euclidienne

Si on peut considrer E comme un nuage dun espace Rp, on agrge les

individus qui font le moins varier linertie intra-classe.

A chaque pas, on cherche obtenir un minimum local de linertie intra-

classe ou un maximum de linertie inter-classe.

Lindice de dissimilarit entre deux classes (ou niveau dagrgation de ces

deux classes) est alors gal la perte dinertie inter-classe rsultant de leur

regroupement.

Calculons cette perte dinertie :

gA = centre de gravit de la classe A (poids pA ) gB = centre de gravit de la classe B (poids pB )

gAB = centre de gravit de leur runion gAB = p g p gp pA A B BA B

++

23

Lintertie inter-classe tant la moyenne des carrs des distances des

centres de gravit des classes au centre de gravit total, la variation

dinertie inter-classe, lors du regroupement de A et B est gale :

( ) ( ) ( ) ( )p d g g p d g g p p d g gA A B B A B AB2 2 2, , ,+ +

Elle vaut :

( ) ( ) A B p pp p d g gA BA B A B, ,= + 2

Remarque : Cette mthode entre dans le cadre de la formule de Lance

et Williams gnralise :

( )[ ] ( ) ( ) ( ) ( ) ( ) A B C p p A C p p B C p A Bp p pA C B C CA B C, ;, , ,

= + + + + +

On peut donc utiliser lalgorithme gnral.

On notera que la somme des niveaux dagrgation des diffrents noeuds

de larbre doit tre gale linertie totale du nuage, puisque la somme des

pertes dinertie est gale linertie totale.

Cette mthode est donc complmentaire de lanalyse en composantes

principales et repose sur un critre doptimisation assez naturel.

Elle constitue notre avis la meilleure mthode de classification

hirarchique sur donnes euclidiennes.

Il ne faut pas oublier cependant que le choix de la mtrique dans lespace

des individus conditionne galement les rsultats.

24

III. LA PRATIQUE DE LA CLASSIFICATION

1. Les mthodes mixtes

En prsence dun grand nombre dindividus (>103), il est impossible

dutiliser directement les mthodes de classification hirarchique.

On combine les techniques non hirarchiques et hirarchiques.

Etape 1 : Mthode centres mobiles ou nues dynamiques . On forme par exemple 50 classes.

Etape 2 : Construction dun arbre partir des k classes formes ltape 1. Coupure de larbre en un nombre judicieux de

classes.

Etape 3 : Consolidation de la partition obtenue ltape 2 (mthode de type centres mobiles ).

25

2. Interprtation dune partition

2-1. Utilisation des outils de base de la statistique Pour chaque variable :

Calcul de paramtres caractristiques de chaque classe

(moyenne, cart-type, min, max...)

Reprsentations graphiques : botes moustaches, intervalle de

confiance pour les moyennes.

Analyse de la variance un facteur pour chaque variable (on

peut ainsi classer les variables par ordre de contribution la

cration des classes).

2-2. En liaison avec une analyse factorielle (A.C.P.

dans le cas de variables quantitatives)

On peut reprer les classes formes dans le plan des individus.

Projeter les points moyens reprsentant chaque classe.

Utiliser les valeurs-tests pour chaque classe sur les axes

interprts.

2-3. Les deux approches sont complmentaires, la

premire approche peut tre longue mettre en oeuvre si le nombre

de variables est lev.

26

IV. LA CLASSIFICATION DE DONNES QUALITATIVES

1. Les n individus classer sont dcrits par des variables qualitatives

a. Donnes de prsence - absence

On utilise un des indices de dissimilarit dduit des indices de

similarit proposs qui combinent de diverses manires les quatre

nombres suivants associs un couple dindividus.

a = nombre de caractristiques communes

b = nombre de caractristiques possdes par i et pas par j

c = nombre de caractristiques possdes par j et pas par i

d = nombre de caractristiques que ne possdent ni i, ni j.

Les indices compris entre 0 et 1 sont aisment transformables en

dissimilarit par complmentation 1.

Jaccard aa b c+ +

Dice ou Czekanowski 22a

a b c+ +

Ochia ( ) ( )a

a b a c+ +

Russel et Rao aa b c d+ + +

Rogers et Tanimoto ( )a d

a d b c+

+ + +2

27

b. Individus dcrits par des variables qualitatives m1

m2 ... mp modalits

On utilise la reprsentation disjonctive complte et la

distance du 2 entre lignes du tableau.

( )d i i npn x xpj ij i jj22

2

, =

(Elle traduit le fait que deux individus ayant en commun une

modalit rare sont plus proches que deux individus ayant en

commun une modalit frquente).

On utilise alors la mthode de Ward (puisque la distance du 2 est euclidienne) sur le tableau des distances.

Autre solution : Classification hirarchique sur le tableau des coordonnes factorielles des n individus aprs A.C.M. de X.

Les deux approches sont quivalentes si on utilise tous les

facteurs de lA.C.M. soit m pi , en conservant la normalisation de chaque axe .

28

2. Classification hirarchique des lignes (ou des colonnes) dun tableau de contingence

Elle seffectue avec la mthode de Ward et la distance du 2 entre lignes (ou entre colonnes).

Cette mthode revient regrouper les catgories dune variable

qualitative de la faon suivante : chaque tape, on runit les deux

catgories (en sommant les effectifs) qui font diminuer le moins possible

le 2 puisque linertie totale est ici gale 2

n .

classification 2008 2

Documents