classification 2008 2

28
MÉTHODES DE CLASSIFICATION Pierre-Louis GONZALEZ

Upload: mouradkadiri

Post on 12-Nov-2015

9 views

Category:

Documents


1 download

DESCRIPTION

genie mecanique

TRANSCRIPT

  • MTHODES

    DE

    CLASSIFICATION

    Pierre-Louis GONZALEZ

  • 2

    MTHODES DE CLASSIFICATION

    Objet Oprer des regroupements en classes homognes dun

    ensemble dindividus.

    Donnes Les donnes se prsentent en gnral sous la forme dun

    tableau individus variables.

    1. Ayant dfini un critre de distance (dissemblance) ou

    dissimilarit (pas ncessairement dingalit triangulaire)

    entre les individus, on procde au regroupement des

    individus.

    2. Ce regroupement ncessite une stratgie de

    classification : critre de classification.

  • 3

    MTHODES

    NON HIERARCHIQUES

    Partition en k classes

    Exemples : Centres mobiles

    Nues dynamiques

    Avantages : Permettent la classification densembles volumineux.

    Inconvnients : On impose au dpart le nombre de classes.

  • 4

    HIRARCHIQUES : suites de partitions embotes

    a b c d e

    a, b, c, d, eab, c, d, eabc, deabcde

    OU

    Avantages : La lecture de larbre permet de dterminer le nombre

    optimal de classes.

    Inconvnients : Coteux en temps de calcul.

  • 5

    lments de vocabulaire

    classification automatique classification non supervise apprentissage sans professeur

    Le terme classification en anglais fait rfrence laffectation dun

    individu une classe (existant a priori) dans le cadre de lanalyse

    discriminante. Il se traduit en franais par le terme classement.

    Lquivalent en anglais de classification automatique est cluster

    analysis .

  • 6

    lments de vocabulaire

    E : ensemble des n objets classer

    Dissimilarit : ( ) ( )d i j d j i, ,= ( )d i i, = 0 ( )d i j, 0

    Similarit : ( ) ( )s i j s j i, ,= ( )s i j, 0 ( ) ( )s i i s i j, ,

  • 7

    I. MTHODES DE PARTITIONNEMENT

    1. Considrations combinatoires

    Pn k, = nombre de partitions en k classes de n individus

    Pn k, = P k Pn k n k +1 1 1, , (rcurrence) (nombre de Stirling de 2me espce)

    Ex : P12 5 1 379 400, =

    Pn = nombre total de partitions

    (nombres de Bell)

    Ex : P12 4 213 597=

    Ncessit dalgorithmes pour trouver une bonne partition.

    Comment dfinir la qualit dune partition ?

  • 8

    2. Inertie intra-classe et Inertie inter-classe

    n points dans un espace euclidien

    ( )d i i2 , distance euclidienne

    Soit une partition en k classes de poids Pi

    g g gk1 2, ... centres de gravit

    I I Ik1 2, ... inerties associes

    I PIW i i= inertie intra ( )I Pd g gB i i= 2 , inertie inter

    I I IB W+ = g = centre de gravit des n individus

    g1 g2

    gk

    g

    x x

    x

    xx

    x

    xx x

    x

    x

    xx

    x

    x

    x

    xx

    x

    xx

    xx

    x

    xx

    xx

    xx

    xx

    x

    x

    x

    x

    x

    x x

    x

    x

    xx x

    x

    x

  • 9

    Comparaison de deux partitions en k classes : La meilleure est celle

    qui a linertie IW la plus faible (ou linertie IB la plus forte).

    Remarque : Ce critre ne permet pas de comparer des partitions

    nombres diffrents de classe.

    3. Mthode des centres mobiles

    xx

    xx

    x

    x

    xx x

    x

    xc1

    xx

    x

    x

    x x

    x

    x

    x

    x

    x

    x x

    x x

    x

    x

    xx

    xx

    x

    xx

    x

    x x

    x

    xc2

    c3x

    1re tape : choix de centres ci et partition associe (les ci sont

    choisis au hasard).

    La classe Eci est forme de tous les points plus proches de ci

    que de tout autre centre.

  • 10

    2me tape : calcul des centres de gravit de chaque classe

    dfinition dune nouvelle partition.

    x x x

    x

    x

    xx

    x x

    x x x

    x

    x

    x x

    x x

    x

    x

    x x

    x

    x x

    x

    x

    x

    xx

    x

    ( )g12

    ( )g32

    ( )g22

    x

    x

    + itrations successives

    x

    RSULTAT FONDAMENTAL

    Linertie intra-classe diminue chaque tape.

    Dmonstration :

    Soit Egi la classe obtenue en remplaant ci par ( )gi2 centre de

    gravit de Eci .

    Daprs le thorme de Konig-Huygens, gi ntant pas le centre de

    gravit de Egi

    ( )1 21n

    d gE

    ii

    k

    gi

    A

    A=

    , est suprieur linertie intra-classe de la

    partition Egi .

  • 11

    Il suffit de montrer alors que :

    ( )1 121 1n

    d j g nj E ii

    k

    i

    k

    ci

    = =

    , dEgi2

    A )(A, gi

    Or, si on considre un point quelconque, il figurera dans le membre

    de droite avec son carr de distance au gi qui sera le plus proche de

    lui par construction des Egi , tandis que dans le membre de gauche,

    il figurera avec sa distance un gi qui ne sera pas forcment le plus

    proche de lui, mais qui sera seulement son centre de gravit dans la

    partition Eci .

    Le nuage tant fini, lalgorithme converge.

    Lexprience montre que le nombre ditrations ncessaires est en

    gnral faible.

  • 12

    EXEMPLE : Mthode des Centres Mobiles

    Etape 0

    c1 c2

    Etape 1

    Calcul des centres de gravitdes classes formes l tape

    g g

    2 1

    1 2

    '

    Etape 2

    + D fin itio n d e n o u v e lle s c lassesau tou r d es cen tres d e g rav it

    Etape 3

    Calcul des centres de gravitdes classes formes l tapeNouvelle dfinition des classesautour de ces centres

    ' .2

    Choix des centres

    Constitution de classes autour des centres c1 et c2Classe 1 : points plus proches de c1 que de c2Classe 2 : points plus proches de c2 que de c1

    STABILITE

    x xx

    xx

    xx

    x x xx x x

    c1c2

    x xx

    xx

    xx

    x x xx x x

    c1c2

    ( )g12x x

    x

    xx

    xx

    x x xx x x( )g22

    ( )g13x x

    x

    xx

    x x

    x x xx x x

    ( )g23

    FIN de lalgorithme

  • 13

    4. Gnralisation : nues dynamiques

    Lide est dassocier une classe un reprsentant diffrent de son centre

    de gravit.

    Par exemple :

    un ensemble dindividus (noyau form de q points appels les talons)

    une droite une loi de probabilit

    Algorithme - Principe

    Il faut faire dcrotre le critre U mesurant ladquation entre les

    classes et leurs reprsentants.

  • 14

    Initialisation Deux possibilits :

    1. Soit on se donne au dpart une fonction daffectation qui

    gnre une partition ( )Q Q k= 1 ... Q sur E. Les noyaux pour chaque classe sont calculs.

    2. Soit on se donne k noyaux.

    tape daffectation Pour chaque individu, dterminer la classe laquelle on doit

    laffecter (ncessit davoir dfini une distance entre un point et

    un noyau, ou un groupe de points).

    tape de reprsentation Pour chaque classe dfinie, calculer le nouveau noyau.

  • 15

    La convergence vers un minimum local est obtenue si chaque tape fait

    dcrotre le critre U.

    ARRT DE LALGORITHME quand la dcroissance atteint un seuil fix a

    priori.

    Pratique de la mthode

    Comme la partition finale peut dpendre de linitialisation, on

    recommence s fois (exemple : s tirages alatoires de noyaux).

    Formes fortes Ensemble dlments ayant toujours t regroups lors de la

    partition finale.

  • 16

    Exemples :

    113

    30

    38 35 40

    5 25 030 8 53 2

    4340 35

    Premire partition

    partition-produit

    Deuximepartition

    Trois partitions de base en 6 classes :

    Partition 1 127 188 229 245 151 60

    Partition 2 232 182 213 149 114 110

    Partition 3 44 198 325 99 130 204

    Ces trois partitions sont ensuite croises entre elles

    6 2163 = classes

    Groupements stables rangs par effectifs dcroissants :

    168 114 110 107 88 83 78 26 22 16

    15 14 12 12 12 11 10 7 7 7

    7 formes fortes deffectifs importants

    c

    1000 individus d

  • 17

    5. Variantes des mthodes centres mobiles

    K-means (Mac Queen 1967)

    On effectue un recentrage ds quun objet change de classe.

    Isodata (Ball et Hall 1965)

    Un certain nombre de contraintes sont imposes pour

    empcher la formation de classes deffectifs trop faibles ou de

    diamtre trop grand.

  • 18

    II. LA CLASSIFICATION HIRARCHIQUE

    Elle consiste fournir un ensemble de partitions de E en classes de

    moins en moins fines obtenues par regroupements successifs de parties.

    edcba

    Arbre de classificationou dendrogramme

    Dmarche : Cet arbre est obtenu dans la plupart des mthodes de

    manire ascendante :

    On regroupe dabord les deux individus les plus proches qui

    forment un sommet

    Il ne reste plus que (n-1) objets et on itre le processus jusqu

    un regroupement complet.

    Un des problmes consiste dfinir une mesure de dissimilarit entre

    classes.

    Remarque : Les mthodes descendantes ou algorithmes divisifs

    sont pratiquement inutilises.

  • 19

    1. Stratgies dagrgation sur dissimilarits

    Le problme est de dfinir la dissimilarit entre la runion de deux

    lments et un troisime :

    ( )d a b,c . A chaque solution correspond une ultramtrique diffrente.

    x x

    xx x

    x

    x

    x

    x

    A

    cd (A, c) ?

    a. Le saut minimum

    Cette mthode (connue sous le nom de single linkage en

    anglais ) consiste crire que :

    ( ) ( ){ }d a b,c d a c d b,c ( ) inf , ; =

    x x

    x

    xx

    xx x x

    xx

    x

    x

    x

    xx

    x

    x

    x

    xx

    xx

    x

    x

    x

    xx

    x x

    x

    La distance entre parties est donc la plus petite distance entre

    lments des deux parties.

  • 20

    b. Le diamtre ( complete linkage )

    On prend ici comme distances entre parties la plus grande

    distance entre deux lments.

    ( )[ ] ( ) ( )[ ]d a b c d a c d b c , ; sup , , ,=

    x x

    x

    xx

    xx x x

    xx

    x

    x

    x

    xx

    x

    x

    x

    xx

    xx

    x

    x

    x

    xx

    x x

    x

  • 21

    2. Stratgies diverses

    saut minimum (plus proche)

    diamtre

    moyenne des distances

    mdiane des distances

    distance au centre de gravit.

    A

    Indice i(A)

    Lindice ou niveau dagrgation est le niveau auquel on trouve agrgs

    pour la premire fois tous les constituants de A.

  • 22

    3. La mthode de Ward pour distance Euclidienne

    Si on peut considrer E comme un nuage dun espace Rp, on agrge les

    individus qui font le moins varier linertie intra-classe.

    A chaque pas, on cherche obtenir un minimum local de linertie intra-

    classe ou un maximum de linertie inter-classe.

    Lindice de dissimilarit entre deux classes (ou niveau dagrgation de ces

    deux classes) est alors gal la perte dinertie inter-classe rsultant de leur

    regroupement.

    Calculons cette perte dinertie :

    gA = centre de gravit de la classe A (poids pA ) gB = centre de gravit de la classe B (poids pB )

    gAB = centre de gravit de leur runion gAB = p g p gp pA A B BA B

    ++

  • 23

    Lintertie inter-classe tant la moyenne des carrs des distances des

    centres de gravit des classes au centre de gravit total, la variation

    dinertie inter-classe, lors du regroupement de A et B est gale :

    ( ) ( ) ( ) ( )p d g g p d g g p p d g gA A B B A B AB2 2 2, , ,+ +

    Elle vaut :

    ( ) ( ) A B p pp p d g gA BA B A B, ,= + 2

    Remarque : Cette mthode entre dans le cadre de la formule de Lance

    et Williams gnralise :

    ( )[ ] ( ) ( ) ( ) ( ) ( ) A B C p p A C p p B C p A Bp p pA C B C CA B C, ;, , ,

    = + + + + +

    On peut donc utiliser lalgorithme gnral.

    On notera que la somme des niveaux dagrgation des diffrents noeuds

    de larbre doit tre gale linertie totale du nuage, puisque la somme des

    pertes dinertie est gale linertie totale.

    Cette mthode est donc complmentaire de lanalyse en composantes

    principales et repose sur un critre doptimisation assez naturel.

    Elle constitue notre avis la meilleure mthode de classification

    hirarchique sur donnes euclidiennes.

    Il ne faut pas oublier cependant que le choix de la mtrique dans lespace

    des individus conditionne galement les rsultats.

  • 24

    III. LA PRATIQUE DE LA CLASSIFICATION

    1. Les mthodes mixtes

    En prsence dun grand nombre dindividus (>103), il est impossible

    dutiliser directement les mthodes de classification hirarchique.

    On combine les techniques non hirarchiques et hirarchiques.

    Etape 1 : Mthode centres mobiles ou nues dynamiques . On forme par exemple 50 classes.

    Etape 2 : Construction dun arbre partir des k classes formes ltape 1. Coupure de larbre en un nombre judicieux de

    classes.

    Etape 3 : Consolidation de la partition obtenue ltape 2 (mthode de type centres mobiles ).

  • 25

    2. Interprtation dune partition

    2-1. Utilisation des outils de base de la statistique Pour chaque variable :

    Calcul de paramtres caractristiques de chaque classe

    (moyenne, cart-type, min, max...)

    Reprsentations graphiques : botes moustaches, intervalle de

    confiance pour les moyennes.

    Analyse de la variance un facteur pour chaque variable (on

    peut ainsi classer les variables par ordre de contribution la

    cration des classes).

    2-2. En liaison avec une analyse factorielle (A.C.P.

    dans le cas de variables quantitatives)

    On peut reprer les classes formes dans le plan des individus.

    Projeter les points moyens reprsentant chaque classe.

    Utiliser les valeurs-tests pour chaque classe sur les axes

    interprts.

    2-3. Les deux approches sont complmentaires, la

    premire approche peut tre longue mettre en oeuvre si le nombre

    de variables est lev.

  • 26

    IV. LA CLASSIFICATION DE DONNES QUALITATIVES

    1. Les n individus classer sont dcrits par des variables qualitatives

    a. Donnes de prsence - absence

    On utilise un des indices de dissimilarit dduit des indices de

    similarit proposs qui combinent de diverses manires les quatre

    nombres suivants associs un couple dindividus.

    a = nombre de caractristiques communes

    b = nombre de caractristiques possdes par i et pas par j

    c = nombre de caractristiques possdes par j et pas par i

    d = nombre de caractristiques que ne possdent ni i, ni j.

    Les indices compris entre 0 et 1 sont aisment transformables en

    dissimilarit par complmentation 1.

    Jaccard aa b c+ +

    Dice ou Czekanowski 22a

    a b c+ +

    Ochia ( ) ( )a

    a b a c+ +

    Russel et Rao aa b c d+ + +

    Rogers et Tanimoto ( )a d

    a d b c+

    + + +2

  • 27

    b. Individus dcrits par des variables qualitatives m1

    m2 ... mp modalits

    On utilise la reprsentation disjonctive complte et la

    distance du 2 entre lignes du tableau.

    ( )d i i npn x xpj ij i jj22

    2

    , =

    (Elle traduit le fait que deux individus ayant en commun une

    modalit rare sont plus proches que deux individus ayant en

    commun une modalit frquente).

    On utilise alors la mthode de Ward (puisque la distance du 2 est euclidienne) sur le tableau des distances.

    Autre solution : Classification hirarchique sur le tableau des coordonnes factorielles des n individus aprs A.C.M. de X.

    Les deux approches sont quivalentes si on utilise tous les

    facteurs de lA.C.M. soit m pi , en conservant la normalisation de chaque axe .

  • 28

    2. Classification hirarchique des lignes (ou des colonnes) dun tableau de contingence

    Elle seffectue avec la mthode de Ward et la distance du 2 entre lignes (ou entre colonnes).

    Cette mthode revient regrouper les catgories dune variable

    qualitative de la faon suivante : chaque tape, on runit les deux

    catgories (en sommant les effectifs) qui font diminuer le moins possible

    le 2 puisque linertie totale est ici gale 2

    n .