sy09 rapport tp4 : analyse discriminante, régression ... sy09 tp4.pdf · les estimateurs des...

UNIVERSITÉ DE TECHNOLOGIE DE COMPIÈGNE

SY09Rapport TP4 : Analyse discriminante,

régression logistique

CUNI Frédéric

15 juin 2015

Objectifs du TP :

Le but de ce TP est l’application de l’analyse discriminante dans le cas binaire par le biaisde 3 méthodes ainsi que la régression logistique. Cette première permet de construire unerègle de décision à partir d’un ensemble d’apprentissage, et de prédire la classe d’appar-tenance des données d’un ensemble de test à partir de cette règle de décision.

CUNI Frédéric - P15 1

1 Analyse discriminante

1.1 Implémentation

On se pose d’étudier et comparer trois modèles d’analyse discriminante dans le cas binaireà savoir deux classes. On distinguera ici 3 méthodes d’application :– l’analyse discriminante quadratique,– l’analyse discriminante linéaire,– le classifieur bayésien naïf.Pour se faire, on programme 3 fonctions relatives aux 3 méthodes citées ci-dessus. Cesfonctions font l’apprentissage des trois modèles d’analyse discriminante et retournent,à partir d’un ensemble d’apprentissage, les estimateurs du maximum de vraisemblancedu modèle en question (proportions, vecteurs de moyennes et matrice de covariance desdeux classes). LE seul changement entre ces différentes méthodes d’analyse est porté surles matrices de variances (

∑1,

∑2).

1.1.1 Analyse discriminante quadratique

La fonction retourne les estimateurs des paramètres du modèle. Pour ce faire, nous rap-pelons les formules correspondantes :π̂k = nk

n

µ̂k = x̂k = 1nk

∑ni=1 zi k xi∑̂

k =Vk = 1nk

∑ni=1 zi k (xi − µ̂k )(xi − µ̂k )t

La fonction est définie en annexe 1.

1.1.2 Analyse discriminante linéaire

Les estimateurs des paramètres du modèle adl sont les suivants : :π̂k = nk

nµ̂k = x̂k = 1

nk

∑ni=1 zi k xi∑̂= 1

n

∑hk=1 nkVk


1.1.3 Classifieur bayésien naïf

Les estimateurs des paramètres du modèle adl sont les suivants : :π̂k = nk

nµ̂k = x̂k = 1

nk

∑ni=1 zi k xi∑̂

k = di ag (V ) = di ag ( 1n

∑ni=1(xi − µ̂)(xi − µ̂)t )


1.1.4 Probabilités a posteriori

Une fonction ad.val (annexe 4) a été créé pour calculer les probabilités a posteriori pourun ensemble de données et effectuer le classement en fonction de ces probabilités. En


fonction du modèle choisi précédemment, on aura des estimateurs différents qui permet-tront de calculer ces probabilités a posteriori et ainsi classifier l’ensemble de test passé enparamètre.Comme nous avons 2 classes, on fait l’hypothèse que ces 2 classes suivent un loi normale :– classe 1 : x ≈ N (µ1,

∑1),

– classe 2 : x ≈ N (µ2,∑

2)Pour se faire , la fonction détermine les fonctions f1(x)et f2(x) ainsi que f (x) =π1 f (x|1)+π2 f (x|2). Cela nous permettra ensuite de calculer les probabilités a posteriori h(1|x) =π1 f1(x)

f (x) eth(2|x) = π2 f2(x)f (x) et de comparer ces probabilités pour classifier la valeur de x en-

trante.

1.2 Test sur des données simulées

Dans cette partie, nous souhaitons comparer les performances des différentes méthodesd’analyse discriminante ci-dessus sur 3 jeux de données. On répète 20 fois le processus deséparation des données en un ensemble d’apprentissage et un ensemble de test, et pourchaque modèle nous calculons le taux d’erreur obtenus sur le classement de l’ensemblede test. Voir Annexe 5.

Synth1-1000Méthode Taux d’erreur

ADQ 2.7ADL 3.2NBA 3.5


ADQ 1ADL 1NBA 1.3


ADQ 1.2ADL 2.3NBA 1.3

Frontière de décision Synth1-1000 :




Pour chaque jeux de données, on peut constater que la méthode la plus fiable est l’analysediscriminante quadratique avec un taux d’erreur plus faible que les autres. Les donnéessuivent dans chaque classe une loi normale multivariée, ainsi de part la remarque précé-dente, on peut donc ne plus suggérer l’hypothèse d’indépendance des variables. Ceci estégalement visible sur les frontières de décisions, où l’on voit bien que dans le cas ADQ, lafrontière sépare plus équitablement les 2 classes que les autres modèles. Cependant, pourle jeu de données 2, le taux d’erreur du modèle ADQ et égal au taux d’erreur du modèleADL, ainsi que pour le jeu de données 3, le taux du modèle ADQ est égal au taux d’erreurdu Classifieur bayésien naïf.

2 Régression logistique

Précédemment, nous avons appliquer les méthodes discriminantes linéaires et nous avonsvus que ces méthodes ont l’avantage de fournir des estimations des probabilités a poste-riori d’appartenance aux classes. Ces estimations sont d’autant plus précise que les hypo-thèses portant sur la distribution de données sont vérifiées.Maintenant, plutôt que de faire des hypothèses sur les distributions conditionnelles fk , larégression logistique consiste à estimer directement les probabilités d’appartenance auxclasses.


2.1 Implémentation

On souhaite appliquer le modèle logistique binaire sur les trois jeux de données de l’exer-cice 1. On programmera tout d’abord deux fonctions, l’une permettant de faire l’appren-tissage du modèle (on utilisera l’algorithme de Newton-Raphson présenté en cours), l’autrepermettant d’appliquer le modèle obtenu sur un ensemble de données.

2.1.1 Méthode générale

Pour l’apprentissage des paramètres on utilise la méthode du maximum de vraisemblance.On pose :

P (w1|x) = p(x; w) = exp(w t w)1+exp(w t x) etP (w2|x) = 1−p(x; w) = 1

1+exp(w t x) avec

{1 si Z = w1

0 si Z = w2

La méthode de Newton-Raphson consiste à sélectionner un vecteur de poids initial w (0),puis à calculer une séquence de vecteursw (1),w (2),... en appliquant itérativement la for-mule suivante :w (k+1) = w (q) −H−

(q)1∗∂log L∂w (w (q))

Le gradient de log-vraisemblance s’écrit : ∂log L(w)∂w = W t (t − p), la matrice H−

(q)1 corres-

pondant à la matrice hessienne de la log-vraisemblance calculée en w (q) s’écrit : H−(q)1 =

−X t W X .

Pour palier l’éventuelle probabilité d’un vecteur x null, qui engendrerais un résultat null,on ajoute une ordonnée à l’origine à w (0) pour rajouter de la flexibilité au modèle à chaquevecteur x.

La fonction permettant d’apprendre le modèle est en annexe 6, et la fonction permettantd’évaluer un ensemble de test est en annexe 7.

2.1.2 Régression logistique quadratique

Cette méthode consiste à transformer les données dans un espace plus complexe, dans le-quel les classes peuvent être séparées par un hyperplan. La régression logistique est alorseffectuée dans cet espace.

Dans notre cas, les individus sont décrits par deux variables X 1et X 2, la régression logis-tique quadratique consiste donc à effectuer la régression logistique classique dans l’es-pace correspondant aux variables : X 1, X 2, X 1X 2, (X 1)2, (X 2)2.

Ceci permet d’obtenir un modèle plus flexible et de rendre des données linéairement sé-parable si jamais ce n’est pas le cas.

La fonction permettant d’apprendre le modèle est en annexe 8, et la fonction permettantd’évaluer un ensemble de test est en annexe 9.


2.2 Test sur des données simulées

Dans cette partie, nous souhaitons comparer les performances des deux méthodes de ré-gression logistique ci-dessus sur 3 jeux de données. On répète 20 fois le processus de sé-paration des données en un ensemble d’apprentissage et un ensemble de test, et pourchaque modèle nous calculons le taux d’erreur obtenus sur le classement de l’ensemblede test. Voir Annexe 10.

Synth1-1000Méthode Taux

Classique (intr = 0) 3.7Classique (intr = 1) 2.4

Quadratique intr = 0) 2.8Quadratique intr = 1) 2.6










Pour chaque jeux de données, on peut constater que la méthode la moins fiable est régres-sion logistique classique sans ordonnée à l’origine avec un taux d’erreur plus faible que lesautres. Les autres cas semblent à priori semblables avec un léger avantage au modèle derégression logistique quadratique avec et sans ordonnée à l’origine, disposant d’un tauxd’erreur légèrement plus faible. Ceci est également visible sur les frontières de décisions,


où l’on voit bien que dans le cas de la régression logistique classique sans ordonnée àl’origine, la frontière sépare moins équitablement les 2 classes que les autres modèles.

3 Données réelles

3.1 Données PIMA

On souhaite appliquer les trois modèles d’analyse discriminante et les deux modèles de ré-gression logistique à la prédiction du diabète chez les individus d’une population d’amé-rindiens. On obtient les résultats ci-dessous :

PIMAMéthode Taux

Classique (intr = 0) 30Classique (intr = 1) 29

Quadratique intr = 0) 23Quadratique intr = 1) 22

ADQ 24ADL 22NBA 14

On constate que les taux d’erreur sont relativement élevés comparés aux données simu-lées précédentes. On a une augmentation supérieur à 20% environ pour chaque modèlesd’analyse. Cependant, on peut voir que le classifieur bayésien naïf a le taux d’erreur le plusfaible et ceux de plus de 10%.

3.2 Données breast cancer Wisconsin

On considère à présent un problème de prédiction du niveau de gravité d’une tumeur àpartir de descripteurs physiologiques. On obtient les résultats ci-dessous :

PIMAMéthode Taux

Classique (intr = 0) 12Classique (intr = 1) 3.7

ADQ 4ADL 4NBA 4

Pour ce jeu de données, les taux d’erreur sont de l’ordre des données simulées dans lapremière partie avec le même taux d’erreur pour les modèles d’analyse discriminante et lemodèle de régression linéaire classique avec ordonnée à l’origine. On constate donc quele modèle de régression linéaire classique sans ordonnée à l’origine est le moins fiable surce jeu de données.


Conclusion

Ce TP nous a permis d’appliquer l’analyse discriminante au travers de trois modèles, ainsique la régression linéaire au travers de deux modèles, et évaluer leur fiabilité en calculantles probabilités d’erreurs de répartition des observations générées dans les classes. Appli-qués à des données réelles, on peut ainsi conclure sur le fait que les modèles d’analysediscriminante semblent plus fiable que les modèles de régression logistique.


4 Annexes :

4.1 Annexe 1 : adq.app

4.2 Annexe 2 : adl.app


4.3 Annexe 3 : nba.app

4.4 Annexe 4 : ad.val


4.5 Annexe 5 : Fonction test sur données simulées


4.6 Annexe 6 : Fonction d’apprentissage pour la régression logistique


4.7 Annexe 7 : Fonction d’évaluation d’un ensemble de test


4.8 Annexe 8 :Fonction d’apprentissage pour la régression logistique qua-dratique


4.9 Annexe 9 :Fonction d’évaluation d’un ensemble de test pour la ré-gression logistique quadratique


4.10 Annexe 10 : Fonction test sur données simulées régression logis-tique


sy09 rapport tp4 : analyse discriminante, régression ... sy09 tp4.pdf · les estimateurs des...

Documents