Apprentissage Artificiel et fouille de donneesArbres de decision
Jamal Atif, Universite Paris DauphineD’apres Celine Hudelot (ECP), d’apres Tan, Steinbach, Kumar
M2R ISI
Universite Paris-Dauphine
2015-2016
Jamal Atif, Universite Paris Dauphine D’apres Celine Hudelot (ECP), d’apres Tan, Steinbach, Kumar (Universite Paris-Dauphine)ISI-3 2015-2016 1 / 73
Introduction
Plan
1 Introduction
2 Arbres de decisionChoix de l’attribut discriminantAlgorithme CARTAlgorithme C4.5
Jamal Atif, Universite Paris Dauphine D’apres Celine Hudelot (ECP), d’apres Tan, Steinbach, Kumar (Universite Paris-Dauphine)ISI-3 2015-2016 2 / 73
Introduction
Classification
Examiner les caracteristiques d’un objet et lui attribuer une classe (un champparticulier a valeurs discretes).
Etant donnee une collection d’enregistrements (ensembled’apprentissage).
Chaque enregistrement contient un ensemble d’attributs et un de cesattributs est sa classe.
Trouver un modele pour l’attribut classe comme une fonction de lavaleurs des autres attributs
But : permettre d’assigner une classe a des enregistrements inconnus demaniere aussi precise que possible.
Un ensemble de test est utilise pour determiner la precision du modele.
Jamal Atif, Universite Paris Dauphine D’apres Celine Hudelot (ECP), d’apres Tan, Steinbach, Kumar (Universite Paris-Dauphine)ISI-3 2015-2016 3 / 73
Introduction
Classification : exemple
Jamal Atif, Universite Paris Dauphine D’apres Celine Hudelot (ECP), d’apres Tan, Steinbach, Kumar (Universite Paris-Dauphine)ISI-3 2015-2016 4 / 73
Arbres de decision
Plan
1 Introduction
2 Arbres de decisionChoix de l’attribut discriminantAlgorithme CARTAlgorithme C4.5
Jamal Atif, Universite Paris Dauphine D’apres Celine Hudelot (ECP), d’apres Tan, Steinbach, Kumar (Universite Paris-Dauphine)ISI-3 2015-2016 5 / 73
Arbres de decision
Arbres de decision
Definition
Ensemble de regles de classification basant leur decision sur des tests associesaux attributs, organises de maniere arborescente.
Motivation
Produire des classifications comprehensibles par l’utilisateur (versus les autresmethodes)
Jamal Atif, Universite Paris Dauphine D’apres Celine Hudelot (ECP), d’apres Tan, Steinbach, Kumar (Universite Paris-Dauphine)ISI-3 2015-2016 6 / 73
Arbres de decision
Arbres de decision
Principe
Predire la valeur d’un attribut(variable cible ou variable exogene) a partird’un ensemble de valeurs d’attributs (variables predictives ou variablesendogenes).
Une methode simple, supervisee, et tres connue de classification et deprediction.
Un arbre est equivalent a un ensemble de regles de decision : un modelefacile a comprendre.
Un arbre est compose :
de noeuds : classes d’individus de plus en plus fines depuis la racine.d’arcs : predicats de partitionnement de la classe source.
Jamal Atif, Universite Paris Dauphine D’apres Celine Hudelot (ECP), d’apres Tan, Steinbach, Kumar (Universite Paris-Dauphine)ISI-3 2015-2016 7 / 73
Arbres de decision
Arbres de decision
Un arbre de decision est un arbre au sens informatique.
Les noeuds sont reperes par des positions ∈ {1, ...p}∗, ou p est l’aritemaximale des noeuds.
Les noeuds internes sont les noeuds de decision.
Un noeud de decision est etiquete par un test qui peut etre applique achaque description d’un individu d’une population.
Chaque test examine la valeur d’un unique attribut.
Dans les arbres de decision binaires, on omet les labels des arcs.
Les feuilles sont etiquetees par une classe.
Jamal Atif, Universite Paris Dauphine D’apres Celine Hudelot (ECP), d’apres Tan, Steinbach, Kumar (Universite Paris-Dauphine)ISI-3 2015-2016 8 / 73
Arbres de decision
Arbres de decision : exemple
Decider si un patient est malade ou bien portant selon sa temperature et s’il ala gorge irritee.
Arbre de decision :
2 classes : malade ; bien portant2 variables : temperature, gorge irritee.
Jamal Atif, Universite Paris Dauphine D’apres Celine Hudelot (ECP), d’apres Tan, Steinbach, Kumar (Universite Paris-Dauphine)ISI-3 2015-2016 9 / 73
Arbres de decision
Arbres de decision
Vocabulaire
Noeud interne, intermediaire ou test (noeud de decision) : chaque noeudintermediaire est defini par un test construit a partir d’une variable. Letest est applicable a toute description d’une instance et generalement untest sur un seul attribut.
Noeud terminal ou feuille : etiquetes par une classe.
Arcs issus d’un noeud interne : reponses possibles au test du noeud.
Chaque noeud interne ou feuille est repere par sa position (i.e. liste desnumeros des arcs qui permettent d’y acceder en partant de la racine).
Arbre de decision et apprentissage :
Tout arbre de decision definit un classifieur.Le classifier se traduit immediatement en terme de regle de decision.
Jamal Atif, Universite Paris Dauphine D’apres Celine Hudelot (ECP), d’apres Tan, Steinbach, Kumar (Universite Paris-Dauphine)ISI-3 2015-2016 10 / 73
Arbres de decision
Arbres de decision : exemple
Jamal Atif, Universite Paris Dauphine D’apres Celine Hudelot (ECP), d’apres Tan, Steinbach, Kumar (Universite Paris-Dauphine)ISI-3 2015-2016 11 / 73
Arbres de decision
Arbres de decision : exemple
Jamal Atif, Universite Paris Dauphine D’apres Celine Hudelot (ECP), d’apres Tan, Steinbach, Kumar (Universite Paris-Dauphine)ISI-3 2015-2016 12 / 73
Arbres de decision
Arbres de decision : exemple
Jamal Atif, Universite Paris Dauphine D’apres Celine Hudelot (ECP), d’apres Tan, Steinbach, Kumar (Universite Paris-Dauphine)ISI-3 2015-2016 13 / 73
Arbres de decision
Arbres de decision : exemple
Jamal Atif, Universite Paris Dauphine D’apres Celine Hudelot (ECP), d’apres Tan, Steinbach, Kumar (Universite Paris-Dauphine)ISI-3 2015-2016 14 / 73
Arbres de decision
Arbres de decision : exemple
Jamal Atif, Universite Paris Dauphine D’apres Celine Hudelot (ECP), d’apres Tan, Steinbach, Kumar (Universite Paris-Dauphine)ISI-3 2015-2016 15 / 73
Arbres de decision
Arbres de decision : exemple
Jamal Atif, Universite Paris Dauphine D’apres Celine Hudelot (ECP), d’apres Tan, Steinbach, Kumar (Universite Paris-Dauphine)ISI-3 2015-2016 16 / 73
Arbres de decision
Arbres de decision : exemple
Jamal Atif, Universite Paris Dauphine D’apres Celine Hudelot (ECP), d’apres Tan, Steinbach, Kumar (Universite Paris-Dauphine)ISI-3 2015-2016 17 / 73
Arbres de decision
Arbres de decision : induction
Jamal Atif, Universite Paris Dauphine D’apres Celine Hudelot (ECP), d’apres Tan, Steinbach, Kumar (Universite Paris-Dauphine)ISI-3 2015-2016 18 / 73
Arbres de decision
Arbres de decision : induction
Plusieurs algorithmes
Algorithme de Hunt (methode de base)
CART
ID3, C4.5
SLIQ, SPRINT
...
Jamal Atif, Universite Paris Dauphine D’apres Celine Hudelot (ECP), d’apres Tan, Steinbach, Kumar (Universite Paris-Dauphine)ISI-3 2015-2016 19 / 73
Arbres de decision
Arbres de decision : induction
Principe general de construction de l’arbre de decision
Construction de l’arbre en decoupant successivement les donnees en fonctiondes variables predictives.
Soit Dt l’ensemble d’enregistrements (donnees d’apprentissage) qui ameneau noeud t.
Algorithme generique : Segmenter(Dt)
Si tous les enregistrements de Dt appartiennent a la meme classe devariable a predire yt alors t est une feuille labelisee comme ytSi Dt contient des enregistrements appartenant a plusieurs classes :
Pour chaque attribut predictif A, evaluer la qualite de decoupage selon A.Utiliser l’attribut donnant la meilleure decoupe pour decouper l’ensemble dedonnees en sous ensembles.Appliquer la procedure de maniere recursive sur les sous ensembles obtenus.
Jamal Atif, Universite Paris Dauphine D’apres Celine Hudelot (ECP), d’apres Tan, Steinbach, Kumar (Universite Paris-Dauphine)ISI-3 2015-2016 20 / 73
Arbres de decision
Arbres de decision : induction
Problemes fondamentaux pour construire l’arbre
1 Choix de l’attribut discriminant.
2 Affectation d’un label a une feuille.
3 Arret de la procedure de segmentation (i.e. profondeur de l’arbre). Si unarbre est trop profond, il est trop complexe et trop adapte a l’ensembled’apprentissage, i.e. pas assez generaliste.
4 Choix des bornes de discretisation (i.e. comment decouper les valeursd’un attribut continu).
Jamal Atif, Universite Paris Dauphine D’apres Celine Hudelot (ECP), d’apres Tan, Steinbach, Kumar (Universite Paris-Dauphine)ISI-3 2015-2016 21 / 73
Arbres de decision
Arbres de decision : construction
Notations
n(p) = nombre d’individus associes a la position p, i.e. au noeud p.
n(k|p) = nombre d’individus appartenant a la classe k en sachant qu’ilssont associes a la position p.
p(k|p) = n(k|p)n(p) = proportion des individus appartenant a la classe k.
Purete d’un noeud
Un noeud est pur si tous les individus associes appartiennent a la meme classe.
Jamal Atif, Universite Paris Dauphine D’apres Celine Hudelot (ECP), d’apres Tan, Steinbach, Kumar (Universite Paris-Dauphine)ISI-3 2015-2016 22 / 73
Arbres de decision
Arbres de decision : construction
Exemple
But : construire un arbre de decision qui classe et determine lescaracteristiques des clients qui consultent leurs comptes sur internet.
Variables :
M : moyenne des montants sur le compteA : age du clientR : lieu de residence du clientE : le client fait des etudes superieures ?I : le client consulte ses comptes sur Internet ?
Jamal Atif, Universite Paris Dauphine D’apres Celine Hudelot (ECP), d’apres Tan, Steinbach, Kumar (Universite Paris-Dauphine)ISI-3 2015-2016 23 / 73
Arbres de decision
Arbres de decision : construction
Exemple
Jamal Atif, Universite Paris Dauphine D’apres Celine Hudelot (ECP), d’apres Tan, Steinbach, Kumar (Universite Paris-Dauphine)ISI-3 2015-2016 24 / 73
Arbres de decision
Arbres de decision : construction
Construction descendante.
Au debut, tous les individus sont regroupes.
Est-ce que le noeud initial (3, 5) est un noeud terminal ou est-ce qu’onpeut construire un test sur une variable qui permettra de mieuxdiscriminer les individus ?
Quatre constructions possibles suivant les variables Montant (M), Age(A), Residence (R), et Etudes (E).
Jamal Atif, Universite Paris Dauphine D’apres Celine Hudelot (ECP), d’apres Tan, Steinbach, Kumar (Universite Paris-Dauphine)ISI-3 2015-2016 25 / 73
Arbres de decision
Arbres de decision : construction
Construction selon la variable Montant (M)
Jamal Atif, Universite Paris Dauphine D’apres Celine Hudelot (ECP), d’apres Tan, Steinbach, Kumar (Universite Paris-Dauphine)ISI-3 2015-2016 26 / 73
Arbres de decision
Arbres de decision : construction
Construction selon la variable Age (A)
Jamal Atif, Universite Paris Dauphine D’apres Celine Hudelot (ECP), d’apres Tan, Steinbach, Kumar (Universite Paris-Dauphine)ISI-3 2015-2016 27 / 73
Arbres de decision
Arbres de decision : construction
Construction selon la variable Residence (R)
Jamal Atif, Universite Paris Dauphine D’apres Celine Hudelot (ECP), d’apres Tan, Steinbach, Kumar (Universite Paris-Dauphine)ISI-3 2015-2016 28 / 73
Arbres de decision
Arbres de decision : construction
Construction selon la variable Etudes (E)
Jamal Atif, Universite Paris Dauphine D’apres Celine Hudelot (ECP), d’apres Tan, Steinbach, Kumar (Universite Paris-Dauphine)ISI-3 2015-2016 29 / 73
Arbres de decision
Arbres de decision : construction
Quel test choisir ?
Un test est interessant s’il permet une bonne discrimination.
Sur R, aucune discrimination sur aucune branche : on ne gagne rien avecce test !
Sur A, deux noeuds sur trois sont purs.
Comment ecrire cela de maniere algorithmique et mathematique ?
Jamal Atif, Universite Paris Dauphine D’apres Celine Hudelot (ECP), d’apres Tan, Steinbach, Kumar (Universite Paris-Dauphine)ISI-3 2015-2016 30 / 73
Arbres de decision
Arbres de decision : construction
Degre de desordre (melange)
On a besoin de comparer les differents choix possibles.
On introduit des fonctions qui permettent de mesurer le degre de desordredans les differentes classes (purete d’un noeud)
Proprietes des fonctions (degre de melange ou desordre) :
Le minimum est atteint lorsque tous les noeuds sont purs : tous lesexemples ou individus sont dans une meme classe.Le maximum est atteint lorsque les individus sont equirepartis entre lesclasses.
Exemples de fonctions :
Indice de GiniEntropie...
Jamal Atif, Universite Paris Dauphine D’apres Celine Hudelot (ECP), d’apres Tan, Steinbach, Kumar (Universite Paris-Dauphine)ISI-3 2015-2016 31 / 73
Arbres de decision Choix de l’attribut
Plan
1 Introduction
2 Arbres de decisionChoix de l’attribut discriminantAlgorithme CARTAlgorithme C4.5
Jamal Atif, Universite Paris Dauphine D’apres Celine Hudelot (ECP), d’apres Tan, Steinbach, Kumar (Universite Paris-Dauphine)ISI-3 2015-2016 32 / 73
Arbres de decision Choix de l’attribut
Choix de l’attribut discrimimant
Comment specifier la condition de test ?
Depend du type d’attribut
NominalOrdinalContinu
Depend du nombre de facon de diviser
Division en 2Division en n.
Jamal Atif, Universite Paris Dauphine D’apres Celine Hudelot (ECP), d’apres Tan, Steinbach, Kumar (Universite Paris-Dauphine)ISI-3 2015-2016 33 / 73
Arbres de decision Choix de l’attribut
Choix de l’attribut discrimimant
Attribut nominal
Division multiple : autant de partitions que de valeurs distinctes.
Division binaire : Division des valeurs en deux sous-ensembles ⇒ Trouverle partitionnement optimal.
Jamal Atif, Universite Paris Dauphine D’apres Celine Hudelot (ECP), d’apres Tan, Steinbach, Kumar (Universite Paris-Dauphine)ISI-3 2015-2016 34 / 73
Arbres de decision Choix de l’attribut
Choix de l’attribut discrimimant
Attribut ordinal
Division multiple : autant de partitions que de valeurs distinctes.
Division binaire : Division des valeurs en deux sous-ensembles ⇒ Trouverle partitionnement optimal.
Jamal Atif, Universite Paris Dauphine D’apres Celine Hudelot (ECP), d’apres Tan, Steinbach, Kumar (Universite Paris-Dauphine)ISI-3 2015-2016 35 / 73
Arbres de decision Choix de l’attribut
Choix de l’attribut discrimimant
Attribut continu
Differentes manieres de discretiser :
Discretisation pour former un attribut ordinal.
Decision binaire
Jamal Atif, Universite Paris Dauphine D’apres Celine Hudelot (ECP), d’apres Tan, Steinbach, Kumar (Universite Paris-Dauphine)ISI-3 2015-2016 36 / 73
Arbres de decision Choix de l’attribut
Choix de l’attribut discrimimant
Critere de choix de l’attribut et de la division
Jamal Atif, Universite Paris Dauphine D’apres Celine Hudelot (ECP), d’apres Tan, Steinbach, Kumar (Universite Paris-Dauphine)ISI-3 2015-2016 37 / 73
Arbres de decision Choix de l’attribut
Choix de l’attribut discrimimant
On privilegie les noeuds avec des distributions homogenes
Mesure du desordre d’un noeud
Indice de Gini
Entropie
Taux de classification
Jamal Atif, Universite Paris Dauphine D’apres Celine Hudelot (ECP), d’apres Tan, Steinbach, Kumar (Universite Paris-Dauphine)ISI-3 2015-2016 38 / 73
Arbres de decision Choix de l’attribut
Choix de l’attribut discrimimant
Jamal Atif, Universite Paris Dauphine D’apres Celine Hudelot (ECP), d’apres Tan, Steinbach, Kumar (Universite Paris-Dauphine)ISI-3 2015-2016 39 / 73
Arbres de decision Choix de l’attribut
Choix de l’attribut discrimimant
t = le test (i.e. la variable)
n = le nombre de modalites de t.
i = la fonction pour mesurer le degre de desordre.
Fonction de gain
Gain(p, t) = i(p)−n∑
j=1
Pji(pj)
avec Pj la proportion des individus a la position p qui vont en position pj
On cherche le test qui maximise le gain.
Jamal Atif, Universite Paris Dauphine D’apres Celine Hudelot (ECP), d’apres Tan, Steinbach, Kumar (Universite Paris-Dauphine)ISI-3 2015-2016 40 / 73
Arbres de decision Choix de l’attribut
Choix de l’attribut discrimimant
Mesure du desordre : GINI
Pour un noeud t donne :
GINI(t) = 1−∑j
p(j|t)2
avec p(j|t) la frequence relative de la classe j au noeud t.
Maximum : 1− 1nc
quand tous les enregistrements sont distribues demaniere egale parmi toutes les classes.
Minimum : 0.0 quand tous les enregistrements appartiennent a une classe.
Jamal Atif, Universite Paris Dauphine D’apres Celine Hudelot (ECP), d’apres Tan, Steinbach, Kumar (Universite Paris-Dauphine)ISI-3 2015-2016 41 / 73
Arbres de decision Choix de l’attribut
Choix de l’attribut discrimimant
Mesure du desordre : GINI
GINI(t) = 1−∑j
p(j|t)2
Exemples
Jamal Atif, Universite Paris Dauphine D’apres Celine Hudelot (ECP), d’apres Tan, Steinbach, Kumar (Universite Paris-Dauphine)ISI-3 2015-2016 42 / 73
Arbres de decision Choix de l’attribut
Choix de l’attribut discrimimant
Division basee sur l’indice GINI
Utilise dans les algorithmes CART, SPLIQ et SPRINT
Quand un noeud p est divise en k partitions, la qualite de la division estcalculee par
GINIsplit =
k∑i=1
ni
nGINI(i)
avec
ni nombre d’enregistrements au noeud i.n nombre d’enregistrements au noeud p.
Jamal Atif, Universite Paris Dauphine D’apres Celine Hudelot (ECP), d’apres Tan, Steinbach, Kumar (Universite Paris-Dauphine)ISI-3 2015-2016 43 / 73
Arbres de decision Choix de l’attribut
Choix de l’attribut discrimimant
Attributs binaires : indice de Gini
Jamal Atif, Universite Paris Dauphine D’apres Celine Hudelot (ECP), d’apres Tan, Steinbach, Kumar (Universite Paris-Dauphine)ISI-3 2015-2016 44 / 73
Arbres de decision Choix de l’attribut
Choix de l’attribut discrimimant
Attributs categoriques : indice de Gini
Jamal Atif, Universite Paris Dauphine D’apres Celine Hudelot (ECP), d’apres Tan, Steinbach, Kumar (Universite Paris-Dauphine)ISI-3 2015-2016 45 / 73
Arbres de decision Choix de l’attribut
Choix de l’attribut discrimimant
Attributs continus : indice de Gini
Pour chaque attribut
Trier les attributs par valeurs
Scanner lineairement les valeurs , en calculant l’indice de Gini
Choisir la position qui a le plus petit indice de Gini
Jamal Atif, Universite Paris Dauphine D’apres Celine Hudelot (ECP), d’apres Tan, Steinbach, Kumar (Universite Paris-Dauphine)ISI-3 2015-2016 46 / 73
Arbres de decision Choix de l’attribut
Choix de l’attribut discrimimant
Entropie
Entropie a un noeud t :
Entropy(t) = −∑j
p(j|t) log p(j|t)
Mesure de l’homogeneite d’un noeud :
Maximum : log nc quand les enregistrements sont distribues de maniereegal parmi les classes.
Minimum : 0.0 quand tous les enregistrements appartiennent a une classe
Jamal Atif, Universite Paris Dauphine D’apres Celine Hudelot (ECP), d’apres Tan, Steinbach, Kumar (Universite Paris-Dauphine)ISI-3 2015-2016 47 / 73
Arbres de decision Choix de l’attribut
Choix de l’attribut discrimimant
Entropie
Entropy(t) = −∑j
p(j|t) log p(j|t)
Jamal Atif, Universite Paris Dauphine D’apres Celine Hudelot (ECP), d’apres Tan, Steinbach, Kumar (Universite Paris-Dauphine)ISI-3 2015-2016 48 / 73
Arbres de decision Choix de l’attribut
Choix de l’attribut discrimimant
Retour sur l’exemple
Tester sur la variable Montant (M) : on considere le noeud 0, (3, 5) aveccomme fonction l’entropie.
Jamal Atif, Universite Paris Dauphine D’apres Celine Hudelot (ECP), d’apres Tan, Steinbach, Kumar (Universite Paris-Dauphine)ISI-3 2015-2016 49 / 73
Arbres de decision Choix de l’attribut
Choix de l’attribut discrimimant
Retour sur l’exemple
Gain(0,M) = i(0)− (3
8i(1) +
3
8i(2) +
2
8i(3))
Entropie(1) = −1
3log
1
3− 2
3log
2
3= 0.64
Entropie(2) = −2
3log
2
3− 1
3log
1
3= 0.64
Entropie(3) = −2
2log
2
2= 0
Gain(0,M) = Entropie(0)− 0.48
Jamal Atif, Universite Paris Dauphine D’apres Celine Hudelot (ECP), d’apres Tan, Steinbach, Kumar (Universite Paris-Dauphine)ISI-3 2015-2016 50 / 73
Arbres de decision Choix de l’attribut
Choix de l’attribut discrimimant
Retour sur l’exemple
on considere le noeud 0, (3, 5) avec comme fonction l’entropie.
Choix de l’attribut age (A)
Jamal Atif, Universite Paris Dauphine D’apres Celine Hudelot (ECP), d’apres Tan, Steinbach, Kumar (Universite Paris-Dauphine)ISI-3 2015-2016 51 / 73
Arbres de decision Choix de l’attribut
Choix de l’attribut discrimimant
Construction de l’arbre.
Noeud terminal
Lorsque (presque) tous les exemples en ce noeud sont dans la meme classe.
Lorsqu’il n’y a plus d’attributs a tester a ce niveau.
Quelle classe a un noeud terminal ?
Classe majoritaire.
Classe la plus representee si egalite.
Jamal Atif, Universite Paris Dauphine D’apres Celine Hudelot (ECP), d’apres Tan, Steinbach, Kumar (Universite Paris-Dauphine)ISI-3 2015-2016 52 / 73
Arbres de decision Choix de l’attribut
Choix de l’attribut discrimimant
Retour sur l’exemple
Jamal Atif, Universite Paris Dauphine D’apres Celine Hudelot (ECP), d’apres Tan, Steinbach, Kumar (Universite Paris-Dauphine)ISI-3 2015-2016 53 / 73
Arbres de decision Choix de l’attribut
Choix de l’attribut discrimimant
Retour sur l’exemple
Suite de la construction
Jamal Atif, Universite Paris Dauphine D’apres Celine Hudelot (ECP), d’apres Tan, Steinbach, Kumar (Universite Paris-Dauphine)ISI-3 2015-2016 54 / 73
Arbres de decision Choix de l’attribut
Choix de l’attribut discrimimant
Retour sur l’exemple
Suite de la construction
Quel test choisir ?
Calcul du gain pour chaque test.
Jamal Atif, Universite Paris Dauphine D’apres Celine Hudelot (ECP), d’apres Tan, Steinbach, Kumar (Universite Paris-Dauphine)ISI-3 2015-2016 55 / 73
Arbres de decision Choix de l’attribut
Choix de l’attribut discrimimant
Retour sur l’exemple
Suite de la construction
Jamal Atif, Universite Paris Dauphine D’apres Celine Hudelot (ECP), d’apres Tan, Steinbach, Kumar (Universite Paris-Dauphine)ISI-3 2015-2016 56 / 73
Arbres de decision Choix de l’attribut
Apprentissage des arbres de decision
Idee : rappel
Diviser recursivement et le plus efficacement possible les individus del’ensemble d’apprentissage par des tests definis a l’aide des variables jusqu’aobtenir des sous ensembles d’individus ne contenant presque que des exemplesappartenant a une meme classe.
Trois operations : rappel
1 Decider si un noeud est terminal, i.e. tous les individus sont dans la memeclasse ou il y a moins d’un certain nombre d’erreurs.
2 Selectionner un test associe a un noeud.
3 Affecter une classe a une feuille.
Les differents algorithmes different par ces trois operations.Objectif : construire un arbre avec la plus petite erreur de classificationpossible
Jamal Atif, Universite Paris Dauphine D’apres Celine Hudelot (ECP), d’apres Tan, Steinbach, Kumar (Universite Paris-Dauphine)ISI-3 2015-2016 57 / 73
Arbres de decision Choix de l’attribut
Apprentissage des arbres de decision : generalites
Arbre de decision parfait, i.e. tous les exemples sont bien classifies :n’existe pas toujours.
Le meilleur arbre est l’arbre le plus petit parfait.
L’objectif est d’obtenir l’arbre le plus petit possible (facilitant larecherche) tout en etablissant un compromis entre les taux d’erreur surl’ensemble d’apprentissage et sur l’ensemble de test afin de pouvoirgeneraliser.
En pratique : on construit l’arbre en selectionnant les attributs quiminimisent la taille de l’arbre en classant correctement les exemplesd’apprentissage et ensuite on elague certaines branches pour garder unpouvoir de generalisation (quitte a faire augmenter l’erreur sur l’ensembled’apprentissage)..Deux approches :
Eviter une trop grande croissance de l’arbre en arretant sa construction aubon moment.Proceder en deux phases : construire l’arbre completement puis couper lesbranches qui depassent.
Jamal Atif, Universite Paris Dauphine D’apres Celine Hudelot (ECP), d’apres Tan, Steinbach, Kumar (Universite Paris-Dauphine)ISI-3 2015-2016 58 / 73
Arbres de decision Algorithme CART
Plan
1 Introduction
2 Arbres de decisionChoix de l’attribut discriminantAlgorithme CARTAlgorithme C4.5
Jamal Atif, Universite Paris Dauphine D’apres Celine Hudelot (ECP), d’apres Tan, Steinbach, Kumar (Universite Paris-Dauphine)ISI-3 2015-2016 59 / 73
Arbres de decision Algorithme CART
Algorithme CART
Genere un arbre de decision binaire.
On suppose predefini un ensemble de tests binaires.1 Variables qualitatives a n modalites.
autant de tests binaires que de partitions en deux classes.2n−1 − 1 tests possibles.
2 Variables quantitatives
Une infinite de decoupage selon des seuils.Le meilleur seuil est choisi par un expert ou de maniere automatique.
On dispose d’un echantillon S decoupe en un ensemble d’apprentissage Aet un ensemble de test T .
Jamal Atif, Universite Paris Dauphine D’apres Celine Hudelot (ECP), d’apres Tan, Steinbach, Kumar (Universite Paris-Dauphine)ISI-3 2015-2016 60 / 73
Arbres de decision Algorithme CART
Algorithme CART
Phase d’expansion
Entree : ensemble d’apprentissage A
On utilise la fonction Gini.
Decider si un noeud est terminal :Un noeud a la position p est terminal si Gini(p) ≤ s0 ou n(p) ≤ n0 ou s0
et n0 sont des parametres a fixer.
Selectionner un test a associer a un noeud :On choisit le test qui maximise ∆(p, t), avec p une position, t un test etPg, Pd la proportion d’elements qui vont sur la position p1,respectivement p2
∆(p, t) = Gini(p)− (Pg ×Gini(p1) + Pd ×Gini(p2))
Affecter une classe a une feuille : on choisit la classe majoritaire
Sortie : un arbre de decision.
Jamal Atif, Universite Paris Dauphine D’apres Celine Hudelot (ECP), d’apres Tan, Steinbach, Kumar (Universite Paris-Dauphine)ISI-3 2015-2016 61 / 73
Arbres de decision Algorithme CART
Algorithme CART
Phase d’elaguage
Entree : l’arbre de decision obtenu dans la phase d’expansion.
Construction d’une suite d’arbres t0t1...tk.
On calcule pour chaque tj l’erreur apparente sur l’ensemble T
La suite est donnee par :1 t0 est l’arbre obtenu dans la phase d’expansion.2 tk est une feuille.3 A l’etape ti : pour toute position p de ti, on calcule g(p) et on choisit la
position p qui minimise g(p). L’arbre ti+1 est un elague de ti en position p.
Sortie : l’arbre de la suite dont l’erreur apparente est minimale.
Jamal Atif, Universite Paris Dauphine D’apres Celine Hudelot (ECP), d’apres Tan, Steinbach, Kumar (Universite Paris-Dauphine)ISI-3 2015-2016 62 / 73
Arbres de decision Algorithme CART
Algorithme CART
Fonction g
Calcul de g(p) : soit up le sous-arbre de ti a la position p et
g(p) =∆app(p)
|up| − 1
, ou ∆app(p) =MC(p)−MC(up)
N(p), nombre d’erreurs supplementaires que commet l’arbre sur
l’echantillon lorsqu’on elague a la position p. |up| − 1 mesure le nombre de feuillessupprimees.
|up| taille de l’arbre up
N(p) est le nombre d’exemples de A associes a p.
MC(p) est le nombre d’exemples de A mal classes a p si on elague ti en position p.
MC(up) est le nombre d’exemples de A associes a p de ti mal classes par up
On choisit la position p pour laquelle g(p) est minimale.
Jamal Atif, Universite Paris Dauphine D’apres Celine Hudelot (ECP), d’apres Tan, Steinbach, Kumar (Universite Paris-Dauphine)ISI-3 2015-2016 63 / 73
Arbres de decision Algorithme CART
Algorithme CART
Processus ieratif
ti+1 est obtenu a partir de ti, auquel on coupe la branche qui permet un gminimal.
Soit t0, ...tk la suite obtenue, tk est reduit a une feuille.
Selection de l’arbre ti dont le nombre d’erreurs calculees sur l’ensemble devalidation est minimal.
Jamal Atif, Universite Paris Dauphine D’apres Celine Hudelot (ECP), d’apres Tan, Steinbach, Kumar (Universite Paris-Dauphine)ISI-3 2015-2016 64 / 73
Arbres de decision Algorithme CART
Algorithme CART
Exemple d’elagage
Jamal Atif, Universite Paris Dauphine D’apres Celine Hudelot (ECP), d’apres Tan, Steinbach, Kumar (Universite Paris-Dauphine)ISI-3 2015-2016 65 / 73
Arbres de decision Algorithme CART
Algorithme CART
Exemple d’elagage
Jamal Atif, Universite Paris Dauphine D’apres Celine Hudelot (ECP), d’apres Tan, Steinbach, Kumar (Universite Paris-Dauphine)ISI-3 2015-2016 66 / 73
Arbres de decision Algorithme CART
Algorithme CART
Exemple d’elagage
Jamal Atif, Universite Paris Dauphine D’apres Celine Hudelot (ECP), d’apres Tan, Steinbach, Kumar (Universite Paris-Dauphine)ISI-3 2015-2016 67 / 73
Arbres de decision Algorithme CART
Algorithme CART
Exemple d’elagage
Calculs d’erreurs :
t0 : 0 en apprentissage, 12 en test.
t1 : 14 en apprentissage, 1
2 en test.
t2 : 12 en apprentissage, 1
4 en test.
t3 : 12 en apprentissage, 1
4 en test.
Jamal Atif, Universite Paris Dauphine D’apres Celine Hudelot (ECP), d’apres Tan, Steinbach, Kumar (Universite Paris-Dauphine)ISI-3 2015-2016 68 / 73
Arbres de decision Algorithme C4.5
Plan
1 Introduction
2 Arbres de decisionChoix de l’attribut discriminantAlgorithme CARTAlgorithme C4.5
Jamal Atif, Universite Paris Dauphine D’apres Celine Hudelot (ECP), d’apres Tan, Steinbach, Kumar (Universite Paris-Dauphine)ISI-3 2015-2016 69 / 73
Arbres de decision Algorithme C4.5
Algorithme C4.5
Alternative a l’algorithme CART quand la taille de l’echantillon S ne permetpas le decoupage en A et T .
Phase d’expansion (1/2)
Entree : ensemble d’apprentissage A et ensemble de tests n-aires.
On utilise la fonction Entropie
Decider si un noeud est terminal :Un noeud a la position p est terminal si tous les elements associes a cenoeud sont dans une meme classe ou si on ne peut selectionner aucun test.
Selectionner un test a associer a un noeud :
On envisage seulement les tests qui ont au moins deux branches contenantau moins deux elements (parametres pouvant etre modifies).On choisit le test qui maximise le gain en utilisant la fonction entropie.
Jamal Atif, Universite Paris Dauphine D’apres Celine Hudelot (ECP), d’apres Tan, Steinbach, Kumar (Universite Paris-Dauphine)ISI-3 2015-2016 70 / 73
Arbres de decision Algorithme C4.5
Algorithme C4.5
Phase d’expansion (2/2)
La fonction Gain privilegie les attributs ayant un grand nombre de valeurs. On modifiela fonction en consequence :
Gainratio(p, T ) =Gain(p, T )
Splitinfo(p, T )
avec
Splitinfo(p, T ) = −n∑
j=1
P′(j|p)× log(P
′(j|p))
n est l’arite du test T .P
′(j|p) est la proportion d’exemples presentes a p prenant la jieme valeur
(classe) du test T .
Affecter une classe a une feuille :On attribute la classe majoritaire. Si il n’y a pas d’exemples, on attribue la classemajoritaire du pere.
Sortie : un arbre de decision.
Jamal Atif, Universite Paris Dauphine D’apres Celine Hudelot (ECP), d’apres Tan, Steinbach, Kumar (Universite Paris-Dauphine)ISI-3 2015-2016 71 / 73
Arbres de decision Algorithme C4.5
Algorithme C4.5
Phase d’elagage
La phase d’elagage est basee sur une heuristique.Ameliorations :
Attributs discrets.
Attributs continus.
Valeurs manquantes.
Jamal Atif, Universite Paris Dauphine D’apres Celine Hudelot (ECP), d’apres Tan, Steinbach, Kumar (Universite Paris-Dauphine)ISI-3 2015-2016 72 / 73
Arbres de decision Algorithme C4.5
Conclusion
Conclusion sur les arbres de decision
Algorithme de classification supervisee.
Methode statistique non parametrique
Permet de classer un ensemble d’individus decrits par des variablesqualitatives ou quantitatives
Produit les classes les plus homogenes possibles
Jamal Atif, Universite Paris Dauphine D’apres Celine Hudelot (ECP), d’apres Tan, Steinbach, Kumar (Universite Paris-Dauphine)ISI-3 2015-2016 73 / 73