sy09 rapport tp4 : analyse discriminante, régression ... sy09 tp4.pdf · les estimateurs des...

16
UNIVERSITÉ DE TECHNOLOGIE DE COMPIÈGNE SY09 Rapport TP4 : Analyse discriminante, régression logistique CUNI Frédéric 15 juin 2015 Objectifs du TP : Le but de ce TP est l’application de l’analyse discriminante dans le cas binaire par le biais de 3 méthodes ainsi que la régression logistique. Cette première permet de construire une règle de décision à partir d’un ensemble d’apprentissage, et de prédire la classe d’appar- tenance des données d’un ensemble de test à partir de cette règle de décision. CUNI Frédéric - P15 1

Upload: vuongduong

Post on 12-Sep-2018

226 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: SY09 Rapport TP4 : Analyse discriminante, régression ... sy09 TP4.pdf · Les estimateurs des paramètres du modèle adl sont ... (on utilisera l’algorithme de Newton-Raphson présenté

UNIVERSITÉ DE TECHNOLOGIE DE COMPIÈGNE

SY09Rapport TP4 : Analyse discriminante,

régression logistique

CUNI Frédéric

15 juin 2015

Objectifs du TP :

Le but de ce TP est l’application de l’analyse discriminante dans le cas binaire par le biaisde 3 méthodes ainsi que la régression logistique. Cette première permet de construire unerègle de décision à partir d’un ensemble d’apprentissage, et de prédire la classe d’appar-tenance des données d’un ensemble de test à partir de cette règle de décision.

CUNI Frédéric - P15 1

Page 2: SY09 Rapport TP4 : Analyse discriminante, régression ... sy09 TP4.pdf · Les estimateurs des paramètres du modèle adl sont ... (on utilisera l’algorithme de Newton-Raphson présenté

1 Analyse discriminante

1.1 Implémentation

On se pose d’étudier et comparer trois modèles d’analyse discriminante dans le cas binaireà savoir deux classes. On distinguera ici 3 méthodes d’application :– l’analyse discriminante quadratique,– l’analyse discriminante linéaire,– le classifieur bayésien naïf.Pour se faire, on programme 3 fonctions relatives aux 3 méthodes citées ci-dessus. Cesfonctions font l’apprentissage des trois modèles d’analyse discriminante et retournent,à partir d’un ensemble d’apprentissage, les estimateurs du maximum de vraisemblancedu modèle en question (proportions, vecteurs de moyennes et matrice de covariance desdeux classes). LE seul changement entre ces différentes méthodes d’analyse est porté surles matrices de variances (

∑1,

∑2).

1.1.1 Analyse discriminante quadratique

La fonction retourne les estimateurs des paramètres du modèle. Pour ce faire, nous rap-pelons les formules correspondantes :π̂k = nk

n

µ̂k = x̂k = 1nk

∑ni=1 zi k xi∑̂

k =Vk = 1nk

∑ni=1 zi k (xi − µ̂k )(xi − µ̂k )t

La fonction est définie en annexe 1.

1.1.2 Analyse discriminante linéaire

Les estimateurs des paramètres du modèle adl sont les suivants : :π̂k = nk

nµ̂k = x̂k = 1

nk

∑ni=1 zi k xi∑̂= 1

n

∑hk=1 nkVk

La fonction est définie en annexe 2.

1.1.3 Classifieur bayésien naïf

Les estimateurs des paramètres du modèle adl sont les suivants : :π̂k = nk

nµ̂k = x̂k = 1

nk

∑ni=1 zi k xi∑̂

k = di ag (V ) = di ag ( 1n

∑ni=1(xi − µ̂)(xi − µ̂)t )

La fonction est définie en annexe 2.

1.1.4 Probabilités a posteriori

Une fonction ad.val (annexe 4) a été créé pour calculer les probabilités a posteriori pourun ensemble de données et effectuer le classement en fonction de ces probabilités. En

CUNI Frédéric - P15 2

Page 3: SY09 Rapport TP4 : Analyse discriminante, régression ... sy09 TP4.pdf · Les estimateurs des paramètres du modèle adl sont ... (on utilisera l’algorithme de Newton-Raphson présenté

fonction du modèle choisi précédemment, on aura des estimateurs différents qui permet-tront de calculer ces probabilités a posteriori et ainsi classifier l’ensemble de test passé enparamètre.Comme nous avons 2 classes, on fait l’hypothèse que ces 2 classes suivent un loi normale :– classe 1 : x ≈ N (µ1,

∑1),

– classe 2 : x ≈ N (µ2,∑

2)Pour se faire , la fonction détermine les fonctions f1(x)et f2(x) ainsi que f (x) =π1 f (x|1)+π2 f (x|2). Cela nous permettra ensuite de calculer les probabilités a posteriori h(1|x) =π1 f1(x)

f (x) eth(2|x) = π2 f2(x)f (x) et de comparer ces probabilités pour classifier la valeur de x en-

trante.

1.2 Test sur des données simulées

Dans cette partie, nous souhaitons comparer les performances des différentes méthodesd’analyse discriminante ci-dessus sur 3 jeux de données. On répète 20 fois le processus deséparation des données en un ensemble d’apprentissage et un ensemble de test, et pourchaque modèle nous calculons le taux d’erreur obtenus sur le classement de l’ensemblede test. Voir Annexe 5.

Synth1-1000Méthode Taux d’erreur

ADQ 2.7ADL 3.2NBA 3.5

Synth2-1000Méthode Taux d’erreur

ADQ 1ADL 1NBA 1.3

Synth3-1000Méthode Taux d’erreur

ADQ 1.2ADL 2.3NBA 1.3

Frontière de décision Synth1-1000 :

Frontière de décision Synth2-1000 :

CUNI Frédéric - P15 3

Page 4: SY09 Rapport TP4 : Analyse discriminante, régression ... sy09 TP4.pdf · Les estimateurs des paramètres du modèle adl sont ... (on utilisera l’algorithme de Newton-Raphson présenté

Frontière de décision Synth3-1000 :

Pour chaque jeux de données, on peut constater que la méthode la plus fiable est l’analysediscriminante quadratique avec un taux d’erreur plus faible que les autres. Les donnéessuivent dans chaque classe une loi normale multivariée, ainsi de part la remarque précé-dente, on peut donc ne plus suggérer l’hypothèse d’indépendance des variables. Ceci estégalement visible sur les frontières de décisions, où l’on voit bien que dans le cas ADQ, lafrontière sépare plus équitablement les 2 classes que les autres modèles. Cependant, pourle jeu de données 2, le taux d’erreur du modèle ADQ et égal au taux d’erreur du modèleADL, ainsi que pour le jeu de données 3, le taux du modèle ADQ est égal au taux d’erreurdu Classifieur bayésien naïf.

2 Régression logistique

Précédemment, nous avons appliquer les méthodes discriminantes linéaires et nous avonsvus que ces méthodes ont l’avantage de fournir des estimations des probabilités a poste-riori d’appartenance aux classes. Ces estimations sont d’autant plus précise que les hypo-thèses portant sur la distribution de données sont vérifiées.Maintenant, plutôt que de faire des hypothèses sur les distributions conditionnelles fk , larégression logistique consiste à estimer directement les probabilités d’appartenance auxclasses.

CUNI Frédéric - P15 4

Page 5: SY09 Rapport TP4 : Analyse discriminante, régression ... sy09 TP4.pdf · Les estimateurs des paramètres du modèle adl sont ... (on utilisera l’algorithme de Newton-Raphson présenté

2.1 Implémentation

On souhaite appliquer le modèle logistique binaire sur les trois jeux de données de l’exer-cice 1. On programmera tout d’abord deux fonctions, l’une permettant de faire l’appren-tissage du modèle (on utilisera l’algorithme de Newton-Raphson présenté en cours), l’autrepermettant d’appliquer le modèle obtenu sur un ensemble de données.

2.1.1 Méthode générale

Pour l’apprentissage des paramètres on utilise la méthode du maximum de vraisemblance.On pose :

P (w1|x) = p(x; w) = exp(w t w)1+exp(w t x) etP (w2|x) = 1−p(x; w) = 1

1+exp(w t x) avec

{1 si Z = w1

0 si Z = w2

La méthode de Newton-Raphson consiste à sélectionner un vecteur de poids initial w (0),puis à calculer une séquence de vecteursw (1),w (2),... en appliquant itérativement la for-mule suivante :w (k+1) = w (q) −H−

(q)1∗∂log L∂w (w (q))

Le gradient de log-vraisemblance s’écrit : ∂log L(w)∂w = W t (t − p), la matrice H−

(q)1 corres-

pondant à la matrice hessienne de la log-vraisemblance calculée en w (q) s’écrit : H−(q)1 =

−X t W X .

Pour palier l’éventuelle probabilité d’un vecteur x null, qui engendrerais un résultat null,on ajoute une ordonnée à l’origine à w (0) pour rajouter de la flexibilité au modèle à chaquevecteur x.

La fonction permettant d’apprendre le modèle est en annexe 6, et la fonction permettantd’évaluer un ensemble de test est en annexe 7.

2.1.2 Régression logistique quadratique

Cette méthode consiste à transformer les données dans un espace plus complexe, dans le-quel les classes peuvent être séparées par un hyperplan. La régression logistique est alorseffectuée dans cet espace.

Dans notre cas, les individus sont décrits par deux variables X 1et X 2, la régression logis-tique quadratique consiste donc à effectuer la régression logistique classique dans l’es-pace correspondant aux variables : X 1, X 2, X 1X 2, (X 1)2, (X 2)2.

Ceci permet d’obtenir un modèle plus flexible et de rendre des données linéairement sé-parable si jamais ce n’est pas le cas.

La fonction permettant d’apprendre le modèle est en annexe 8, et la fonction permettantd’évaluer un ensemble de test est en annexe 9.

CUNI Frédéric - P15 5

Page 6: SY09 Rapport TP4 : Analyse discriminante, régression ... sy09 TP4.pdf · Les estimateurs des paramètres du modèle adl sont ... (on utilisera l’algorithme de Newton-Raphson présenté

2.2 Test sur des données simulées

Dans cette partie, nous souhaitons comparer les performances des deux méthodes de ré-gression logistique ci-dessus sur 3 jeux de données. On répète 20 fois le processus de sé-paration des données en un ensemble d’apprentissage et un ensemble de test, et pourchaque modèle nous calculons le taux d’erreur obtenus sur le classement de l’ensemblede test. Voir Annexe 10.

Synth1-1000Méthode Taux

Classique (intr = 0) 3.7Classique (intr = 1) 2.4

Quadratique intr = 0) 2.8Quadratique intr = 1) 2.6

Synth2-1000Méthode Taux

Classique (intr = 0) 1.2Classique (intr = 1) 1.2

Quadratique intr = 0) 1.1Quadratique intr = 1) 1.1

Synth3-1000Méthode Taux

Classique (intr = 0) 2.4Classique (intr = 1) 1.7

Quadratique intr = 0) 1.3Quadratique intr = 1) 1.3

Frontière de décision Synth1-1000 :

Frontière de décision Synth2-1000 :

Frontière de décision Synth3-1000 :

Pour chaque jeux de données, on peut constater que la méthode la moins fiable est régres-sion logistique classique sans ordonnée à l’origine avec un taux d’erreur plus faible que lesautres. Les autres cas semblent à priori semblables avec un léger avantage au modèle derégression logistique quadratique avec et sans ordonnée à l’origine, disposant d’un tauxd’erreur légèrement plus faible. Ceci est également visible sur les frontières de décisions,

CUNI Frédéric - P15 6

Page 7: SY09 Rapport TP4 : Analyse discriminante, régression ... sy09 TP4.pdf · Les estimateurs des paramètres du modèle adl sont ... (on utilisera l’algorithme de Newton-Raphson présenté

où l’on voit bien que dans le cas de la régression logistique classique sans ordonnée àl’origine, la frontière sépare moins équitablement les 2 classes que les autres modèles.

3 Données réelles

3.1 Données PIMA

On souhaite appliquer les trois modèles d’analyse discriminante et les deux modèles de ré-gression logistique à la prédiction du diabète chez les individus d’une population d’amé-rindiens. On obtient les résultats ci-dessous :

PIMAMéthode Taux

Classique (intr = 0) 30Classique (intr = 1) 29

Quadratique intr = 0) 23Quadratique intr = 1) 22

ADQ 24ADL 22NBA 14

On constate que les taux d’erreur sont relativement élevés comparés aux données simu-lées précédentes. On a une augmentation supérieur à 20% environ pour chaque modèlesd’analyse. Cependant, on peut voir que le classifieur bayésien naïf a le taux d’erreur le plusfaible et ceux de plus de 10%.

3.2 Données breast cancer Wisconsin

On considère à présent un problème de prédiction du niveau de gravité d’une tumeur àpartir de descripteurs physiologiques. On obtient les résultats ci-dessous :

PIMAMéthode Taux

Classique (intr = 0) 12Classique (intr = 1) 3.7

ADQ 4ADL 4NBA 4

Pour ce jeu de données, les taux d’erreur sont de l’ordre des données simulées dans lapremière partie avec le même taux d’erreur pour les modèles d’analyse discriminante et lemodèle de régression linéaire classique avec ordonnée à l’origine. On constate donc quele modèle de régression linéaire classique sans ordonnée à l’origine est le moins fiable surce jeu de données.

CUNI Frédéric - P15 7

Page 8: SY09 Rapport TP4 : Analyse discriminante, régression ... sy09 TP4.pdf · Les estimateurs des paramètres du modèle adl sont ... (on utilisera l’algorithme de Newton-Raphson présenté

Conclusion

Ce TP nous a permis d’appliquer l’analyse discriminante au travers de trois modèles, ainsique la régression linéaire au travers de deux modèles, et évaluer leur fiabilité en calculantles probabilités d’erreurs de répartition des observations générées dans les classes. Appli-qués à des données réelles, on peut ainsi conclure sur le fait que les modèles d’analysediscriminante semblent plus fiable que les modèles de régression logistique.

CUNI Frédéric - P15 8

Page 9: SY09 Rapport TP4 : Analyse discriminante, régression ... sy09 TP4.pdf · Les estimateurs des paramètres du modèle adl sont ... (on utilisera l’algorithme de Newton-Raphson présenté

4 Annexes :

4.1 Annexe 1 : adq.app

4.2 Annexe 2 : adl.app

CUNI Frédéric - P15 9

Page 10: SY09 Rapport TP4 : Analyse discriminante, régression ... sy09 TP4.pdf · Les estimateurs des paramètres du modèle adl sont ... (on utilisera l’algorithme de Newton-Raphson présenté

4.3 Annexe 3 : nba.app

4.4 Annexe 4 : ad.val

CUNI Frédéric - P15 10

Page 11: SY09 Rapport TP4 : Analyse discriminante, régression ... sy09 TP4.pdf · Les estimateurs des paramètres du modèle adl sont ... (on utilisera l’algorithme de Newton-Raphson présenté

4.5 Annexe 5 : Fonction test sur données simulées

CUNI Frédéric - P15 11

Page 12: SY09 Rapport TP4 : Analyse discriminante, régression ... sy09 TP4.pdf · Les estimateurs des paramètres du modèle adl sont ... (on utilisera l’algorithme de Newton-Raphson présenté

4.6 Annexe 6 : Fonction d’apprentissage pour la régression logistique

CUNI Frédéric - P15 12

Page 13: SY09 Rapport TP4 : Analyse discriminante, régression ... sy09 TP4.pdf · Les estimateurs des paramètres du modèle adl sont ... (on utilisera l’algorithme de Newton-Raphson présenté

4.7 Annexe 7 : Fonction d’évaluation d’un ensemble de test

CUNI Frédéric - P15 13

Page 14: SY09 Rapport TP4 : Analyse discriminante, régression ... sy09 TP4.pdf · Les estimateurs des paramètres du modèle adl sont ... (on utilisera l’algorithme de Newton-Raphson présenté

4.8 Annexe 8 :Fonction d’apprentissage pour la régression logistique qua-dratique

CUNI Frédéric - P15 14

Page 15: SY09 Rapport TP4 : Analyse discriminante, régression ... sy09 TP4.pdf · Les estimateurs des paramètres du modèle adl sont ... (on utilisera l’algorithme de Newton-Raphson présenté

4.9 Annexe 9 :Fonction d’évaluation d’un ensemble de test pour la ré-gression logistique quadratique

CUNI Frédéric - P15 15

Page 16: SY09 Rapport TP4 : Analyse discriminante, régression ... sy09 TP4.pdf · Les estimateurs des paramètres du modèle adl sont ... (on utilisera l’algorithme de Newton-Raphson présenté

4.10 Annexe 10 : Fonction test sur données simulées régression logis-tique

CUNI Frédéric - P15 16