Download - Apprentissage Arti ciel et fouille de donn eesatif/lib/exe/fetch.php?media=teaching:... · Algorithme C4.5 Jamal Atif, Universit e Paris Dauphine D’apr es C eline Hudelot (ECP),

Apprentissage Artificiel et fouille de donneesArbres de decision

Jamal Atif, Universite Paris DauphineD’apres Celine Hudelot (ECP), d’apres Tan, Steinbach, Kumar

M2R ISI

Universite Paris-Dauphine

2015-2016

Jamal Atif, Universite Paris Dauphine D’apres Celine Hudelot (ECP), d’apres Tan, Steinbach, Kumar (Universite Paris-Dauphine)ISI-3 2015-2016 1 / 73

Introduction

Plan

1 Introduction

2 Arbres de decisionChoix de l’attribut discriminantAlgorithme CARTAlgorithme C4.5


Introduction

Classification

Examiner les caracteristiques d’un objet et lui attribuer une classe (un champparticulier a valeurs discretes).

Etant donnee une collection d’enregistrements (ensembled’apprentissage).

Chaque enregistrement contient un ensemble d’attributs et un de cesattributs est sa classe.

Trouver un modele pour l’attribut classe comme une fonction de lavaleurs des autres attributs

But : permettre d’assigner une classe a des enregistrements inconnus demaniere aussi precise que possible.

Un ensemble de test est utilise pour determiner la precision du modele.


Introduction

Classification : exemple


Arbres de decision

Plan

1 Introduction



Arbres de decision

Arbres de decision

Definition

Ensemble de regles de classification basant leur decision sur des tests associesaux attributs, organises de maniere arborescente.

Motivation

Produire des classifications comprehensibles par l’utilisateur (versus les autresmethodes)


Arbres de decision

Arbres de decision

Principe

Predire la valeur d’un attribut(variable cible ou variable exogene) a partird’un ensemble de valeurs d’attributs (variables predictives ou variablesendogenes).

Une methode simple, supervisee, et tres connue de classification et deprediction.

Un arbre est equivalent a un ensemble de regles de decision : un modelefacile a comprendre.

Un arbre est compose :

de noeuds : classes d’individus de plus en plus fines depuis la racine.d’arcs : predicats de partitionnement de la classe source.


Arbres de decision

Arbres de decision

Un arbre de decision est un arbre au sens informatique.

Les noeuds sont reperes par des positions ∈ {1, ...p}∗, ou p est l’aritemaximale des noeuds.

Les noeuds internes sont les noeuds de decision.

Un noeud de decision est etiquete par un test qui peut etre applique achaque description d’un individu d’une population.

Chaque test examine la valeur d’un unique attribut.

Dans les arbres de decision binaires, on omet les labels des arcs.

Les feuilles sont etiquetees par une classe.


Arbres de decision

Arbres de decision : exemple

Decider si un patient est malade ou bien portant selon sa temperature et s’il ala gorge irritee.

Arbre de decision :

2 classes : malade ; bien portant2 variables : temperature, gorge irritee.


Arbres de decision

Arbres de decision

Vocabulaire

Noeud interne, intermediaire ou test (noeud de decision) : chaque noeudintermediaire est defini par un test construit a partir d’une variable. Letest est applicable a toute description d’une instance et generalement untest sur un seul attribut.

Noeud terminal ou feuille : etiquetes par une classe.

Arcs issus d’un noeud interne : reponses possibles au test du noeud.

Chaque noeud interne ou feuille est repere par sa position (i.e. liste desnumeros des arcs qui permettent d’y acceder en partant de la racine).

Arbre de decision et apprentissage :

Tout arbre de decision definit un classifieur.Le classifier se traduit immediatement en terme de regle de decision.


Arbres de decision



Arbres de decision

Arbres de decision : induction


Arbres de decision


Plusieurs algorithmes

Algorithme de Hunt (methode de base)

CART

ID3, C4.5

SLIQ, SPRINT

...


Arbres de decision


Principe general de construction de l’arbre de decision

Construction de l’arbre en decoupant successivement les donnees en fonctiondes variables predictives.

Soit Dt l’ensemble d’enregistrements (donnees d’apprentissage) qui ameneau noeud t.

Algorithme generique : Segmenter(Dt)

Si tous les enregistrements de Dt appartiennent a la meme classe devariable a predire yt alors t est une feuille labelisee comme ytSi Dt contient des enregistrements appartenant a plusieurs classes :

Pour chaque attribut predictif A, evaluer la qualite de decoupage selon A.Utiliser l’attribut donnant la meilleure decoupe pour decouper l’ensemble dedonnees en sous ensembles.Appliquer la procedure de maniere recursive sur les sous ensembles obtenus.


Arbres de decision


Problemes fondamentaux pour construire l’arbre

1 Choix de l’attribut discriminant.

2 Affectation d’un label a une feuille.

3 Arret de la procedure de segmentation (i.e. profondeur de l’arbre). Si unarbre est trop profond, il est trop complexe et trop adapte a l’ensembled’apprentissage, i.e. pas assez generaliste.

4 Choix des bornes de discretisation (i.e. comment decouper les valeursd’un attribut continu).


Arbres de decision

Arbres de decision : construction

Notations

n(p) = nombre d’individus associes a la position p, i.e. au noeud p.

n(k|p) = nombre d’individus appartenant a la classe k en sachant qu’ilssont associes a la position p.

p(k|p) = n(k|p)n(p) = proportion des individus appartenant a la classe k.

Purete d’un noeud

Un noeud est pur si tous les individus associes appartiennent a la meme classe.


Arbres de decision


Exemple

But : construire un arbre de decision qui classe et determine lescaracteristiques des clients qui consultent leurs comptes sur internet.

Variables :

M : moyenne des montants sur le compteA : age du clientR : lieu de residence du clientE : le client fait des etudes superieures ?I : le client consulte ses comptes sur Internet ?


Arbres de decision


Exemple


Arbres de decision


Construction descendante.

Au debut, tous les individus sont regroupes.

Est-ce que le noeud initial (3, 5) est un noeud terminal ou est-ce qu’onpeut construire un test sur une variable qui permettra de mieuxdiscriminer les individus ?

Quatre constructions possibles suivant les variables Montant (M), Age(A), Residence (R), et Etudes (E).


Arbres de decision


Construction selon la variable Montant (M)


Arbres de decision


Construction selon la variable Age (A)


Arbres de decision


Construction selon la variable Residence (R)


Arbres de decision


Construction selon la variable Etudes (E)


Arbres de decision


Quel test choisir ?

Un test est interessant s’il permet une bonne discrimination.

Sur R, aucune discrimination sur aucune branche : on ne gagne rien avecce test !

Sur A, deux noeuds sur trois sont purs.

Comment ecrire cela de maniere algorithmique et mathematique ?


Arbres de decision


Degre de desordre (melange)

On a besoin de comparer les differents choix possibles.

On introduit des fonctions qui permettent de mesurer le degre de desordredans les differentes classes (purete d’un noeud)

Proprietes des fonctions (degre de melange ou desordre) :

Le minimum est atteint lorsque tous les noeuds sont purs : tous lesexemples ou individus sont dans une meme classe.Le maximum est atteint lorsque les individus sont equirepartis entre lesclasses.

Exemples de fonctions :

Indice de GiniEntropie...


Arbres de decision Choix de l’attribut

Plan

1 Introduction




Choix de l’attribut discrimimant

Comment specifier la condition de test ?

Depend du type d’attribut

NominalOrdinalContinu

Depend du nombre de facon de diviser

Division en 2Division en n.




Attribut nominal

Division multiple : autant de partitions que de valeurs distinctes.

Division binaire : Division des valeurs en deux sous-ensembles ⇒ Trouverle partitionnement optimal.




Attribut ordinal

Division multiple : autant de partitions que de valeurs distinctes.

Division binaire : Division des valeurs en deux sous-ensembles ⇒ Trouverle partitionnement optimal.




Attribut continu

Differentes manieres de discretiser :

Discretisation pour former un attribut ordinal.

Decision binaire




Critere de choix de l’attribut et de la division




On privilegie les noeuds avec des distributions homogenes

Mesure du desordre d’un noeud

Indice de Gini

Entropie

Taux de classification




t = le test (i.e. la variable)

n = le nombre de modalites de t.

i = la fonction pour mesurer le degre de desordre.

Fonction de gain

Gain(p, t) = i(p)−n∑

j=1

Pji(pj)

avec Pj la proportion des individus a la position p qui vont en position pj

On cherche le test qui maximise le gain.




Mesure du desordre : GINI

Pour un noeud t donne :

GINI(t) = 1−∑j

p(j|t)2

avec p(j|t) la frequence relative de la classe j au noeud t.

Maximum : 1− 1nc

quand tous les enregistrements sont distribues demaniere egale parmi toutes les classes.

Minimum : 0.0 quand tous les enregistrements appartiennent a une classe.




Mesure du desordre : GINI

GINI(t) = 1−∑j

p(j|t)2

Exemples




Division basee sur l’indice GINI

Utilise dans les algorithmes CART, SPLIQ et SPRINT

Quand un noeud p est divise en k partitions, la qualite de la division estcalculee par

GINIsplit =

k∑i=1

ni

nGINI(i)

avec

ni nombre d’enregistrements au noeud i.n nombre d’enregistrements au noeud p.




Attributs binaires : indice de Gini




Attributs categoriques : indice de Gini




Attributs continus : indice de Gini

Pour chaque attribut

Trier les attributs par valeurs

Scanner lineairement les valeurs , en calculant l’indice de Gini

Choisir la position qui a le plus petit indice de Gini




Entropie

Entropie a un noeud t :

Entropy(t) = −∑j

p(j|t) log p(j|t)

Mesure de l’homogeneite d’un noeud :

Maximum : log nc quand les enregistrements sont distribues de maniereegal parmi les classes.

Minimum : 0.0 quand tous les enregistrements appartiennent a une classe




Entropie

Entropy(t) = −∑j

p(j|t) log p(j|t)




Retour sur l’exemple

Tester sur la variable Montant (M) : on considere le noeud 0, (3, 5) aveccomme fonction l’entropie.





Gain(0,M) = i(0)− (3

8i(1) +

3

8i(2) +

2

8i(3))

Entropie(1) = −1

3log

1

3− 2

3log

2

3= 0.64

Entropie(2) = −2

3log

2

3− 1

3log

1

3= 0.64

Entropie(3) = −2

2log

2

2= 0

Gain(0,M) = Entropie(0)− 0.48





on considere le noeud 0, (3, 5) avec comme fonction l’entropie.

Choix de l’attribut age (A)




Construction de l’arbre.

Noeud terminal

Lorsque (presque) tous les exemples en ce noeud sont dans la meme classe.

Lorsqu’il n’y a plus d’attributs a tester a ce niveau.

Quelle classe a un noeud terminal ?

Classe majoritaire.

Classe la plus representee si egalite.





Suite de la construction






Quel test choisir ?

Calcul du gain pour chaque test.



Apprentissage des arbres de decision

Idee : rappel

Diviser recursivement et le plus efficacement possible les individus del’ensemble d’apprentissage par des tests definis a l’aide des variables jusqu’aobtenir des sous ensembles d’individus ne contenant presque que des exemplesappartenant a une meme classe.

Trois operations : rappel

1 Decider si un noeud est terminal, i.e. tous les individus sont dans la memeclasse ou il y a moins d’un certain nombre d’erreurs.

2 Selectionner un test associe a un noeud.

3 Affecter une classe a une feuille.

Les differents algorithmes different par ces trois operations.Objectif : construire un arbre avec la plus petite erreur de classificationpossible



Apprentissage des arbres de decision : generalites

Arbre de decision parfait, i.e. tous les exemples sont bien classifies :n’existe pas toujours.

Le meilleur arbre est l’arbre le plus petit parfait.

L’objectif est d’obtenir l’arbre le plus petit possible (facilitant larecherche) tout en etablissant un compromis entre les taux d’erreur surl’ensemble d’apprentissage et sur l’ensemble de test afin de pouvoirgeneraliser.

En pratique : on construit l’arbre en selectionnant les attributs quiminimisent la taille de l’arbre en classant correctement les exemplesd’apprentissage et ensuite on elague certaines branches pour garder unpouvoir de generalisation (quitte a faire augmenter l’erreur sur l’ensembled’apprentissage)..Deux approches :

Eviter une trop grande croissance de l’arbre en arretant sa construction aubon moment.Proceder en deux phases : construire l’arbre completement puis couper lesbranches qui depassent.


Arbres de decision Algorithme CART

Plan

1 Introduction




Algorithme CART

Genere un arbre de decision binaire.

On suppose predefini un ensemble de tests binaires.1 Variables qualitatives a n modalites.

autant de tests binaires que de partitions en deux classes.2n−1 − 1 tests possibles.

2 Variables quantitatives

Une infinite de decoupage selon des seuils.Le meilleur seuil est choisi par un expert ou de maniere automatique.

On dispose d’un echantillon S decoupe en un ensemble d’apprentissage Aet un ensemble de test T .



Algorithme CART

Phase d’expansion

Entree : ensemble d’apprentissage A

On utilise la fonction Gini.

Decider si un noeud est terminal :Un noeud a la position p est terminal si Gini(p) ≤ s0 ou n(p) ≤ n0 ou s0

et n0 sont des parametres a fixer.

Selectionner un test a associer a un noeud :On choisit le test qui maximise ∆(p, t), avec p une position, t un test etPg, Pd la proportion d’elements qui vont sur la position p1,respectivement p2

∆(p, t) = Gini(p)− (Pg ×Gini(p1) + Pd ×Gini(p2))

Affecter une classe a une feuille : on choisit la classe majoritaire

Sortie : un arbre de decision.



Algorithme CART

Phase d’elaguage

Entree : l’arbre de decision obtenu dans la phase d’expansion.

Construction d’une suite d’arbres t0t1...tk.

On calcule pour chaque tj l’erreur apparente sur l’ensemble T

La suite est donnee par :1 t0 est l’arbre obtenu dans la phase d’expansion.2 tk est une feuille.3 A l’etape ti : pour toute position p de ti, on calcule g(p) et on choisit la

position p qui minimise g(p). L’arbre ti+1 est un elague de ti en position p.

Sortie : l’arbre de la suite dont l’erreur apparente est minimale.



Algorithme CART

Fonction g

Calcul de g(p) : soit up le sous-arbre de ti a la position p et

g(p) =∆app(p)

|up| − 1

, ou ∆app(p) =MC(p)−MC(up)

N(p), nombre d’erreurs supplementaires que commet l’arbre sur

l’echantillon lorsqu’on elague a la position p. |up| − 1 mesure le nombre de feuillessupprimees.

|up| taille de l’arbre up

N(p) est le nombre d’exemples de A associes a p.

MC(p) est le nombre d’exemples de A mal classes a p si on elague ti en position p.

MC(up) est le nombre d’exemples de A associes a p de ti mal classes par up

On choisit la position p pour laquelle g(p) est minimale.



Algorithme CART

Processus ieratif

ti+1 est obtenu a partir de ti, auquel on coupe la branche qui permet un gminimal.

Soit t0, ...tk la suite obtenue, tk est reduit a une feuille.

Selection de l’arbre ti dont le nombre d’erreurs calculees sur l’ensemble devalidation est minimal.



Algorithme CART

Exemple d’elagage



Algorithme CART

Exemple d’elagage

Calculs d’erreurs :

t0 : 0 en apprentissage, 12 en test.

t1 : 14 en apprentissage, 1

2 en test.


4 en test.


4 en test.


Arbres de decision Algorithme C4.5

Plan

1 Introduction




Algorithme C4.5

Alternative a l’algorithme CART quand la taille de l’echantillon S ne permetpas le decoupage en A et T .

Phase d’expansion (1/2)

Entree : ensemble d’apprentissage A et ensemble de tests n-aires.

On utilise la fonction Entropie

Decider si un noeud est terminal :Un noeud a la position p est terminal si tous les elements associes a cenoeud sont dans une meme classe ou si on ne peut selectionner aucun test.

Selectionner un test a associer a un noeud :

On envisage seulement les tests qui ont au moins deux branches contenantau moins deux elements (parametres pouvant etre modifies).On choisit le test qui maximise le gain en utilisant la fonction entropie.



Algorithme C4.5

Phase d’expansion (2/2)

La fonction Gain privilegie les attributs ayant un grand nombre de valeurs. On modifiela fonction en consequence :

Gainratio(p, T ) =Gain(p, T )

Splitinfo(p, T )

avec

Splitinfo(p, T ) = −n∑

j=1

P′(j|p)× log(P

′(j|p))

n est l’arite du test T .P

′(j|p) est la proportion d’exemples presentes a p prenant la jieme valeur

(classe) du test T .

Affecter une classe a une feuille :On attribute la classe majoritaire. Si il n’y a pas d’exemples, on attribue la classemajoritaire du pere.

Sortie : un arbre de decision.



Algorithme C4.5

Phase d’elagage

La phase d’elagage est basee sur une heuristique.Ameliorations :

Attributs discrets.

Attributs continus.

Valeurs manquantes.



Conclusion

Conclusion sur les arbres de decision

Algorithme de classification supervisee.

Methode statistique non parametrique

Permet de classer un ensemble d’individus decrits par des variablesqualitatives ou quantitatives

Produit les classes les plus homogenes possibles


Download - Apprentissage Arti ciel et fouille de donn eesatif/lib/exe/fetch.php?media=teaching:... · Algorithme C4.5 Jamal Atif, Universit e Paris Dauphine D’apr es C eline Hudelot (ECP),

Top Related