![Page 1: Introduction à la régression logistiquelepennec/enseignement/DSSP_Orange2/… · Reg. logistique Introduction à la régression logistique Rappels régression MC Objectif Modéliserlavariabled’intérêtY](https://reader030.vdocuments.mx/reader030/viewer/2022020120/5b9589da09d3f2c2678c6f84/html5/thumbnails/1.jpg)
Reg. logistique
Introduction à la régression logistique
Introduction à la régression logistique
A. Fermin et E. Matzner-Løber
![Page 2: Introduction à la régression logistiquelepennec/enseignement/DSSP_Orange2/… · Reg. logistique Introduction à la régression logistique Rappels régression MC Objectif Modéliserlavariabled’intérêtY](https://reader030.vdocuments.mx/reader030/viewer/2022020120/5b9589da09d3f2c2678c6f84/html5/thumbnails/2.jpg)
Reg. logistique
Introduction à la régression logistique
Rappels régression MC
Objectif
Modéliser la variable d’intérêt Y par une fonction des variables(potentiellement) explicatives X
I modéliser la concentration en ozone en fonction des variablesmétéorologiques
I modéliser la hauteur d’un arbre en fonction de son diamètreI ...
![Page 3: Introduction à la régression logistiquelepennec/enseignement/DSSP_Orange2/… · Reg. logistique Introduction à la régression logistique Rappels régression MC Objectif Modéliserlavariabled’intérêtY](https://reader030.vdocuments.mx/reader030/viewer/2022020120/5b9589da09d3f2c2678c6f84/html5/thumbnails/3.jpg)
Reg. logistique
Introduction à la régression logistique
Rappels régression MC
Rappels de la démarche
1. Graphes2. Ecriture du modèle théorique3. Estimation des paramètres4. Analyse des résidus5. Choix de variables6. Modèle(s) final(aux)
![Page 4: Introduction à la régression logistiquelepennec/enseignement/DSSP_Orange2/… · Reg. logistique Introduction à la régression logistique Rappels régression MC Objectif Modéliserlavariabled’intérêtY](https://reader030.vdocuments.mx/reader030/viewer/2022020120/5b9589da09d3f2c2678c6f84/html5/thumbnails/4.jpg)
Reg. logistique
Introduction à la régression logistique
Rappels régression MC
Modélisation
X = (X1, · · · ,Xp) p variables explicativesY variable quantitative à expliquerEcriture du modèles
Y = Xβ + ε
sous les hypothèsesI (H1) le rang de X vaut pI (H2) ε ∼ N (0, σ2I )
sous l’hypothèse de normalité des résidus, on a
Y ∼ N (Xβ, σ2I )
Nous prendrons les notations suivantes : point x , Ex(Y ) = x ′β.
![Page 5: Introduction à la régression logistiquelepennec/enseignement/DSSP_Orange2/… · Reg. logistique Introduction à la régression logistique Rappels régression MC Objectif Modéliserlavariabled’intérêtY](https://reader030.vdocuments.mx/reader030/viewer/2022020120/5b9589da09d3f2c2678c6f84/html5/thumbnails/5.jpg)
Reg. logistique
Introduction à la régression logistique
Rappels régression MC
Estimations
Estimateur de MC, estimateur qui minimise
‖Y − Xβ‖2.
Estimateur du MV, estimateur qui maximise
logL(Y , β, σ2) = −n
2log σ2 − n
2log 2π − 1
2σ2 ‖Y − Xβ‖2.
Estimateur des MCO ou du MV identiques (sauf pour σ2)
![Page 6: Introduction à la régression logistiquelepennec/enseignement/DSSP_Orange2/… · Reg. logistique Introduction à la régression logistique Rappels régression MC Objectif Modéliserlavariabled’intérêtY](https://reader030.vdocuments.mx/reader030/viewer/2022020120/5b9589da09d3f2c2678c6f84/html5/thumbnails/6.jpg)
Reg. logistique
Introduction à la régression logistique
Introduction et rappels
Nouveaux problèmes
I expliquer la présence/absence d’une maladie cardiovasculaire (notée aussi CHD), par l’âge X des patients
I prédire l’état d’une machine outil (fonctionnement/arrêt) enfonction de son ancienneté afin de faire de la maintenanceprédictive par exemple
![Page 7: Introduction à la régression logistiquelepennec/enseignement/DSSP_Orange2/… · Reg. logistique Introduction à la régression logistique Rappels régression MC Objectif Modéliserlavariabled’intérêtY](https://reader030.vdocuments.mx/reader030/viewer/2022020120/5b9589da09d3f2c2678c6f84/html5/thumbnails/7.jpg)
Reg. logistique
Introduction à la régression logistique
Introduction et rappels
Nouveaux problèmes suite
I prédire l’état d’un porcelet (vivant/mort) en post-sevrage dansune station en fonction de la saison (4 modalités), de ladensité (nb d’animaux par case, 3 modalités), race, poidsd’entrée en post-sevrage, gain de poids moyen quotidien prispar l’animal, indice de consommation (quantité d’aliment enkg pour 1kg de croissance)
I analyser les espèce d’Iris : setosa, versicolor et virginica, enfonction de la longueur et largeur des pétales
![Page 8: Introduction à la régression logistiquelepennec/enseignement/DSSP_Orange2/… · Reg. logistique Introduction à la régression logistique Rappels régression MC Objectif Modéliserlavariabled’intérêtY](https://reader030.vdocuments.mx/reader030/viewer/2022020120/5b9589da09d3f2c2678c6f84/html5/thumbnails/8.jpg)
Reg. logistique
Introduction à la régression logistique
Introduction et rappels
Nouveaux problèmes suite
Quelle est la différence entre ces problèmes et ceux que nous avonsdéjà résolus ?
La variable Y est qualitative
![Page 9: Introduction à la régression logistiquelepennec/enseignement/DSSP_Orange2/… · Reg. logistique Introduction à la régression logistique Rappels régression MC Objectif Modéliserlavariabled’intérêtY](https://reader030.vdocuments.mx/reader030/viewer/2022020120/5b9589da09d3f2c2678c6f84/html5/thumbnails/9.jpg)
Reg. logistique
Introduction à la régression logistique
Introduction et rappels
Nouveaux problèmes suite
Quelle est la différence entre ces problèmes et ceux que nous avonsdéjà résolus ?
La variable Y est qualitative
![Page 10: Introduction à la régression logistiquelepennec/enseignement/DSSP_Orange2/… · Reg. logistique Introduction à la régression logistique Rappels régression MC Objectif Modéliserlavariabled’intérêtY](https://reader030.vdocuments.mx/reader030/viewer/2022020120/5b9589da09d3f2c2678c6f84/html5/thumbnails/10.jpg)
Reg. logistique
Introduction à la régression logistique
Les données
Exemple : maladie cardio-vasculaire
Y sain / malade d’une maladie cardio-vasculaire, par l’âge X despatients. n = 100 observations
Id age chd1 20 sain2 23 sain3 24 sain4 25 malade...
...97 64 sain98 64 malade99 65 malade100 69 malade
![Page 11: Introduction à la régression logistiquelepennec/enseignement/DSSP_Orange2/… · Reg. logistique Introduction à la régression logistique Rappels régression MC Objectif Modéliserlavariabled’intérêtY](https://reader030.vdocuments.mx/reader030/viewer/2022020120/5b9589da09d3f2c2678c6f84/html5/thumbnails/11.jpg)
Reg. logistique
Introduction à la régression logistique
Les données
Représentation graphique
● ● ● ● ● ● ● ● ● ●● ● ● ● ●● ● ● ● ●● ● ●● ●●● ●●●● ●● ●● ● ● ●● ● ● ● ●
20 30 40 50 60 70
age
chd
sain
mal
ade
![Page 12: Introduction à la régression logistiquelepennec/enseignement/DSSP_Orange2/… · Reg. logistique Introduction à la régression logistique Rappels régression MC Objectif Modéliserlavariabled’intérêtY](https://reader030.vdocuments.mx/reader030/viewer/2022020120/5b9589da09d3f2c2678c6f84/html5/thumbnails/12.jpg)
Reg. logistique
Introduction à la régression logistique
Les données
Première estimation, découpage en classes d’âge
Age n Absent Présent Proportion[19, 29[ 10 9 1 .10[29, 34[ 15 13 2 .13[34, 39[ 12 9 3 .25[39, 44[ 15 10 5 .33[44, 49[ 13 7 6 .46[49, 54[ 8 3 5 .625[54, 59[ 17 4 13 .76[59, 69[ 10 2 8 .8
![Page 13: Introduction à la régression logistiquelepennec/enseignement/DSSP_Orange2/… · Reg. logistique Introduction à la régression logistique Rappels régression MC Objectif Modéliserlavariabled’intérêtY](https://reader030.vdocuments.mx/reader030/viewer/2022020120/5b9589da09d3f2c2678c6f84/html5/thumbnails/13.jpg)
Reg. logistique
Introduction à la régression logistique
Les données
Représentation graphique
20 30 40 50 60 70 80
0.0
0.2
0.4
0.6
0.8
1.0
Age
Chd
![Page 14: Introduction à la régression logistiquelepennec/enseignement/DSSP_Orange2/… · Reg. logistique Introduction à la régression logistique Rappels régression MC Objectif Modéliserlavariabled’intérêtY](https://reader030.vdocuments.mx/reader030/viewer/2022020120/5b9589da09d3f2c2678c6f84/html5/thumbnails/14.jpg)
Reg. logistique
Introduction à la régression logistique
Les données
pour aller plus loin
On souhaiterait trouver une fonctionI un peu plus régulièreI qui utilise toutes les données (sinon faire des classes qui
varient avec x)pour obtenir par exemple
![Page 15: Introduction à la régression logistiquelepennec/enseignement/DSSP_Orange2/… · Reg. logistique Introduction à la régression logistique Rappels régression MC Objectif Modéliserlavariabled’intérêtY](https://reader030.vdocuments.mx/reader030/viewer/2022020120/5b9589da09d3f2c2678c6f84/html5/thumbnails/15.jpg)
Reg. logistique
Introduction à la régression logistique
Les données
Fonction souhaitée
20 30 40 50 60 70 80
0.0
0.2
0.4
0.6
0.8
1.0
Age
Chd
![Page 16: Introduction à la régression logistiquelepennec/enseignement/DSSP_Orange2/… · Reg. logistique Introduction à la régression logistique Rappels régression MC Objectif Modéliserlavariabled’intérêtY](https://reader030.vdocuments.mx/reader030/viewer/2022020120/5b9589da09d3f2c2678c6f84/html5/thumbnails/16.jpg)
Reg. logistique
Introduction à la régression logistique
Les données
Equation d’une courbe en SUne première façon d’obtenir une courbe en S est de considérer
x → exp(x ′β)
1 + exp(x ′β)
ββββ
====
1020.50
0.0
0.2
0.4
0.6
0.8
1.0
proba
x β
−10 5 0 105
![Page 17: Introduction à la régression logistiquelepennec/enseignement/DSSP_Orange2/… · Reg. logistique Introduction à la régression logistique Rappels régression MC Objectif Modéliserlavariabled’intérêtY](https://reader030.vdocuments.mx/reader030/viewer/2022020120/5b9589da09d3f2c2678c6f84/html5/thumbnails/17.jpg)
Reg. logistique
Introduction à la régression logistique
Modélisation
Y variable binaire
Ici la variable Y prend 2 valeurs, modélisons
(Y |X = x) ∼ B(p(x))
P(Y = 1|X = x) = p(x) et P(Y = 0|X = x) = 1− p(x)
Nous avons donc
Ex(Y ) = p(x)
Varx(Y ) = p(x)(1− p(x)) hétéroscédasticité
![Page 18: Introduction à la régression logistiquelepennec/enseignement/DSSP_Orange2/… · Reg. logistique Introduction à la régression logistique Rappels régression MC Objectif Modéliserlavariabled’intérêtY](https://reader030.vdocuments.mx/reader030/viewer/2022020120/5b9589da09d3f2c2678c6f84/html5/thumbnails/18.jpg)
Reg. logistique
Introduction à la régression logistique
Modélisation
Y variable binaire
Ici la variable Y prend 2 valeurs, modélisons
(Y |X = x) ∼ B(p(x))
P(Y = 1|X = x) = p(x) et P(Y = 0|X = x) = 1− p(x)
Nous avons donc
Ex(Y ) = p(x)
Varx(Y ) = p(x)(1− p(x)) hétéroscédasticité
![Page 19: Introduction à la régression logistiquelepennec/enseignement/DSSP_Orange2/… · Reg. logistique Introduction à la régression logistique Rappels régression MC Objectif Modéliserlavariabled’intérêtY](https://reader030.vdocuments.mx/reader030/viewer/2022020120/5b9589da09d3f2c2678c6f84/html5/thumbnails/19.jpg)
Reg. logistique
Introduction à la régression logistique
Modélisation
Comparaison modèle linéaire
Dans le modèle linéaire
E(Y |x) = x ′β
Quand Y est binaire, on a
E(Y |x) = p(x) à valeurs dans [0, 1]
mais il existe des transformations g (appelées fonctions de lien) tq
g(p(x)) = x ′β
![Page 20: Introduction à la régression logistiquelepennec/enseignement/DSSP_Orange2/… · Reg. logistique Introduction à la régression logistique Rappels régression MC Objectif Modéliserlavariabled’intérêtY](https://reader030.vdocuments.mx/reader030/viewer/2022020120/5b9589da09d3f2c2678c6f84/html5/thumbnails/20.jpg)
Reg. logistique
Introduction à la régression logistique
Modélisation
La fonction « logit »
E(Y |X = x) = p(x) =exp(x ′β)
1 + exp(x ′β)
La fonction « logit » :
p 7→ g(p) = log(p
1− p)
est bijective (dérivable) et nous avons
g(p(x)) = log(p(x)
1− p(x)) = x ′β
![Page 21: Introduction à la régression logistiquelepennec/enseignement/DSSP_Orange2/… · Reg. logistique Introduction à la régression logistique Rappels régression MC Objectif Modéliserlavariabled’intérêtY](https://reader030.vdocuments.mx/reader030/viewer/2022020120/5b9589da09d3f2c2678c6f84/html5/thumbnails/21.jpg)
Reg. logistique
Introduction à la régression logistique
Régression logistique
Définition
1. « Choix » d’une loi pour (Y |X = x) : Bernoulli2. Choix d’une fonction g : fonction logit3. Modéliser E(Y |X = x) = P(Y = 1|X = x) grâce à
g {P(Y = 1|X = x)} = x ′β
Les paramètres β sont inconnus !
![Page 22: Introduction à la régression logistiquelepennec/enseignement/DSSP_Orange2/… · Reg. logistique Introduction à la régression logistique Rappels régression MC Objectif Modéliserlavariabled’intérêtY](https://reader030.vdocuments.mx/reader030/viewer/2022020120/5b9589da09d3f2c2678c6f84/html5/thumbnails/22.jpg)
Reg. logistique
Introduction à la régression logistique
Régression logistique
Estimation de β par MV
DefinitionLa vraisemblance du modèle est définie par :
Ln(y1, . . . , yn, β) =n∏
i=1
P(Y = yi |X = xi )
que nous noterons simplement Ln(β).
![Page 23: Introduction à la régression logistiquelepennec/enseignement/DSSP_Orange2/… · Reg. logistique Introduction à la régression logistique Rappels régression MC Objectif Modéliserlavariabled’intérêtY](https://reader030.vdocuments.mx/reader030/viewer/2022020120/5b9589da09d3f2c2678c6f84/html5/thumbnails/23.jpg)
Reg. logistique
Introduction à la régression logistique
Régression logistique
Ecriture de la vraisemblance
Exprimons la vraisemblance en fonction de β :
Ln(β) =n∏
i=1
P(Y = yi |X = xi ) =n∏
i=1
p(xi )yi (1− p(xi ))1−yi .
En passant au log, on obtient
Ln(β) =n∑
i=1
{yi log(p(xi )) + (1− yi ) log(1− p(xi ))}
après quelques calculs à faire en exercice
=n∑
i=1
{yix ′iβ − log(1 + exp(x ′iβ))}
![Page 24: Introduction à la régression logistiquelepennec/enseignement/DSSP_Orange2/… · Reg. logistique Introduction à la régression logistique Rappels régression MC Objectif Modéliserlavariabled’intérêtY](https://reader030.vdocuments.mx/reader030/viewer/2022020120/5b9589da09d3f2c2678c6f84/html5/thumbnails/24.jpg)
Reg. logistique
Introduction à la régression logistique
Régression logistique
On cherche le maximum
On calcule les dérivées partielles et on les annule pour obtenir leséquations normales :
n∑i=1
[xi (yi − p(xi )] = X ′(Y − Pβ) = 0
Rappels du modèle linéaire
X ′(Y − Xβ) = 0
![Page 25: Introduction à la régression logistiquelepennec/enseignement/DSSP_Orange2/… · Reg. logistique Introduction à la régression logistique Rappels régression MC Objectif Modéliserlavariabled’intérêtY](https://reader030.vdocuments.mx/reader030/viewer/2022020120/5b9589da09d3f2c2678c6f84/html5/thumbnails/25.jpg)
Reg. logistique
Introduction à la régression logistique
Régression logistique
Maximisation de la vraisemblance
Malheureusement...Il n’existe pas de solutions explicites pour maximiser lavraisemblance (on n’aura donc pas d’écriture explicite pour β).
MaisLa vraisemblance possède (généralement) un unique maximum, et ilexiste des algorithmes numériques itératifs permettant d’obtenir cemaximum :
I algorithme de Newton ;I algorithme du score de Fisher.
![Page 26: Introduction à la régression logistiquelepennec/enseignement/DSSP_Orange2/… · Reg. logistique Introduction à la régression logistique Rappels régression MC Objectif Modéliserlavariabled’intérêtY](https://reader030.vdocuments.mx/reader030/viewer/2022020120/5b9589da09d3f2c2678c6f84/html5/thumbnails/26.jpg)
Reg. logistique
Introduction à la régression logistique
Régression logistique
L’exemple du chd
Sur R le modèle logistique s’ajuste avec la fonction glm :
> model <- glm(chd ~ age,data=donnees,family=binomial)> summary(model)Coefficients:
Estimate Std. Error z value Pr(>|z|)(Intercept) -5.30945 1.13365 -4.683 2.82e-06 ***
age 0.11092 0.02406 4.610 4.02e-06 ***–-
Number of Fisher Scoring iterations: 4
I Il est possible de vérifier si l’algorithme itératif a bienconvergé :
> model$converged [1] TRUE
![Page 27: Introduction à la régression logistiquelepennec/enseignement/DSSP_Orange2/… · Reg. logistique Introduction à la régression logistique Rappels régression MC Objectif Modéliserlavariabled’intérêtY](https://reader030.vdocuments.mx/reader030/viewer/2022020120/5b9589da09d3f2c2678c6f84/html5/thumbnails/27.jpg)
Reg. logistique
Introduction à la régression logistique
Régression logistique
Modèle ajusté
P(Y = 1|age) =exp(−5.30945 + 0.11092× age)
1 + exp(−5.30945 + 0.11092× age).
![Page 28: Introduction à la régression logistiquelepennec/enseignement/DSSP_Orange2/… · Reg. logistique Introduction à la régression logistique Rappels régression MC Objectif Modéliserlavariabled’intérêtY](https://reader030.vdocuments.mx/reader030/viewer/2022020120/5b9589da09d3f2c2678c6f84/html5/thumbnails/28.jpg)
Reg. logistique
Introduction à la régression logistique
Régression logistique
Fonction estimée
20 30 40 50 60 70
0.0
0.2
0.4
0.6
0.8
1.0
age
chd
![Page 29: Introduction à la régression logistiquelepennec/enseignement/DSSP_Orange2/… · Reg. logistique Introduction à la régression logistique Rappels régression MC Objectif Modéliserlavariabled’intérêtY](https://reader030.vdocuments.mx/reader030/viewer/2022020120/5b9589da09d3f2c2678c6f84/html5/thumbnails/29.jpg)
Reg. logistique
Introduction à la régression logistique
Régression logistique
Interprétation directe
Quand le coefficient βj associé à la variable Xj estI positif : Xj augmente → p augmenteI négatif : Xj augmente → p diminue
Ici, βage = 0.11, donc la probabilité augmente avec l’âge !
![Page 30: Introduction à la régression logistiquelepennec/enseignement/DSSP_Orange2/… · Reg. logistique Introduction à la régression logistique Rappels régression MC Objectif Modéliserlavariabled’intérêtY](https://reader030.vdocuments.mx/reader030/viewer/2022020120/5b9589da09d3f2c2678c6f84/html5/thumbnails/30.jpg)
Reg. logistique
Introduction à la régression logistique
Régression logistique
Questions ?
I règle d’affectation ?I doit-on découper les variables quantitatives en classes ?I peut-on rajouter des transformations des variables initiales
dans le modèle ?I ....
![Page 31: Introduction à la régression logistiquelepennec/enseignement/DSSP_Orange2/… · Reg. logistique Introduction à la régression logistique Rappels régression MC Objectif Modéliserlavariabled’intérêtY](https://reader030.vdocuments.mx/reader030/viewer/2022020120/5b9589da09d3f2c2678c6f84/html5/thumbnails/31.jpg)
Reg. logistique
Introduction à la régression logistique
Loi des estimateurs
Comportement asymptotique des estimateursI Contrairement au modèle linéaire, on ne connaît pas la loi des
estimateurs βj pour le modèle logistique.I Néanmoins, la théorie du maximum de vraisemblance nous
permet permet d’obtenir la loi limite du vecteur aléatoire β :√n(β − β)
L→ N (0, I(β)−1).
Remarques
I I(β), matrice d’information de Fisher du modèle au point β ;I Cette matrice est inconnue mais possibilité de "bien" l’estimer.I En pratique, on fait l’approximation
√n(β − β)
L≈ N (0, I(β)−1).
![Page 32: Introduction à la régression logistiquelepennec/enseignement/DSSP_Orange2/… · Reg. logistique Introduction à la régression logistique Rappels régression MC Objectif Modéliserlavariabled’intérêtY](https://reader030.vdocuments.mx/reader030/viewer/2022020120/5b9589da09d3f2c2678c6f84/html5/thumbnails/32.jpg)
Reg. logistique
Introduction à la régression logistique
Loi des estimateurs
Comportement asymptotique des estimateursI Contrairement au modèle linéaire, on ne connaît pas la loi des
estimateurs βj pour le modèle logistique.I Néanmoins, la théorie du maximum de vraisemblance nous
permet permet d’obtenir la loi limite du vecteur aléatoire β :√n(β − β)
L→ N (0, I(β)−1).
Remarques
I I(β), matrice d’information de Fisher du modèle au point β ;I Cette matrice est inconnue mais possibilité de "bien" l’estimer.I En pratique, on fait l’approximation
√n(β − β)
L≈ N (0, I(β)−1).
![Page 33: Introduction à la régression logistiquelepennec/enseignement/DSSP_Orange2/… · Reg. logistique Introduction à la régression logistique Rappels régression MC Objectif Modéliserlavariabled’intérêtY](https://reader030.vdocuments.mx/reader030/viewer/2022020120/5b9589da09d3f2c2678c6f84/html5/thumbnails/33.jpg)
Reg. logistique
Introduction à la régression logistique
Loi des estimateurs
Intervalles de confiance et testsLoi de βj
On déduit du théorème précédent
√nβj − βjσj
L≈ N (0, 1),
où σ2j désigne le je terme de la diagonale de I(β).
Applications :
I Intervalle de confiance de niveau 1− α pour βj :[βj − q1−α/2
σj√n
; βj + q1−α/2σj√n
].
I Tests : H0 : βj = 0 contre H1 : βj 6= 0.
![Page 34: Introduction à la régression logistiquelepennec/enseignement/DSSP_Orange2/… · Reg. logistique Introduction à la régression logistique Rappels régression MC Objectif Modéliserlavariabled’intérêtY](https://reader030.vdocuments.mx/reader030/viewer/2022020120/5b9589da09d3f2c2678c6f84/html5/thumbnails/34.jpg)
Reg. logistique
Introduction à la régression logistique
Loi des estimateurs
L’exemple du chdI Le modèle :
logP(chd = 1|age)
1− P(chd = 1|age)= β0 + β1age.
I La sortie R :Estimate Std. Error z value Pr(>|z|)
(Intercept) -5.30945 1.13365 -4.683 2.82e-06 ***age 0.11092 0.02406 4.610 4.02e-06 ***
pc = 4.02e−06, au risque 5%, on rejette l’hypothèseβ1 = 0.
I Intervalle de confiance :> confint(model)
2.5 % 97.5 %(Intercept) -7.72587162 -3.2461547
age 0.06693158 0.1620067
![Page 35: Introduction à la régression logistiquelepennec/enseignement/DSSP_Orange2/… · Reg. logistique Introduction à la régression logistique Rappels régression MC Objectif Modéliserlavariabled’intérêtY](https://reader030.vdocuments.mx/reader030/viewer/2022020120/5b9589da09d3f2c2678c6f84/html5/thumbnails/35.jpg)
Reg. logistique
Introduction à la régression logistique
Loi des estimateurs
L’exemple du chdI Le modèle :
logP(chd = 1|age)
1− P(chd = 1|age)= β0 + β1age.
I La sortie R :Estimate Std. Error z value Pr(>|z|)
(Intercept) -5.30945 1.13365 -4.683 2.82e-06 ***age 0.11092 0.02406 4.610 4.02e-06 ***
pc = 4.02e−06, au risque 5%, on rejette l’hypothèseβ1 = 0.
I Intervalle de confiance :> confint(model)
2.5 % 97.5 %(Intercept) -7.72587162 -3.2461547
age 0.06693158 0.1620067
![Page 36: Introduction à la régression logistiquelepennec/enseignement/DSSP_Orange2/… · Reg. logistique Introduction à la régression logistique Rappels régression MC Objectif Modéliserlavariabled’intérêtY](https://reader030.vdocuments.mx/reader030/viewer/2022020120/5b9589da09d3f2c2678c6f84/html5/thumbnails/36.jpg)
Reg. logistique
Introduction à la régression logistique
Qualité de l’ajustement
Résidus
1. Résidus bruts, variances différentes
ε = yi − pi
2. Résidus de Pearson
εPi =yi − pi√pi (1− pi )
En général, on travaille avec les résidus de déviance
![Page 37: Introduction à la régression logistiquelepennec/enseignement/DSSP_Orange2/… · Reg. logistique Introduction à la régression logistique Rappels régression MC Objectif Modéliserlavariabled’intérêtY](https://reader030.vdocuments.mx/reader030/viewer/2022020120/5b9589da09d3f2c2678c6f84/html5/thumbnails/37.jpg)
Reg. logistique
Introduction à la régression logistique
Qualité de l’ajustement
La déviance
1. Le meilleur modèle en terme d’ajustement est appelé modèlesaturé
2. Déviance
D = 2
[n∑
i=1
(Lsatur«e − L(β))
]≥ 0.
-
Ajustementparfait
0 Déviance
bon moyen mauvais Qualité d’ajustement
![Page 38: Introduction à la régression logistiquelepennec/enseignement/DSSP_Orange2/… · Reg. logistique Introduction à la régression logistique Rappels régression MC Objectif Modéliserlavariabled’intérêtY](https://reader030.vdocuments.mx/reader030/viewer/2022020120/5b9589da09d3f2c2678c6f84/html5/thumbnails/38.jpg)
Reg. logistique
Introduction à la régression logistique
Qualité de l’ajustement
La vraisemblanceRappelons
Ln =∑n
i=1{yi log(p(xi )) + (1− yi ) log(1− p(xi ))}
et donc calculée
Ln(p(xi )) =∑n
i=1{yi log(p(xi )) + (1− yi ) log(1− p(xi ))}
A comparer avec le meilleur modèle possible
Definition (Modèle saturé, 1 observation à chaque Xi .)C’est le modèle qui a pour log-vraisemblance Lsatur«e définie par :
Lsatur«e =n∑
i=1
1{Yi=1} logYi + 1{Yi=0} log(1− Yi ).
![Page 39: Introduction à la régression logistiquelepennec/enseignement/DSSP_Orange2/… · Reg. logistique Introduction à la régression logistique Rappels régression MC Objectif Modéliserlavariabled’intérêtY](https://reader030.vdocuments.mx/reader030/viewer/2022020120/5b9589da09d3f2c2678c6f84/html5/thumbnails/39.jpg)
Reg. logistique
Introduction à la régression logistique
Qualité de l’ajustement
Modèle saturé et régression logistique simpleExemple CHD si on ne garde qu’une observation par âge
20 30 40 50 60 70 80
0.0
0.2
0.4
0.6
0.8
1.0
Age
Chd
![Page 40: Introduction à la régression logistiquelepennec/enseignement/DSSP_Orange2/… · Reg. logistique Introduction à la régression logistique Rappels régression MC Objectif Modéliserlavariabled’intérêtY](https://reader030.vdocuments.mx/reader030/viewer/2022020120/5b9589da09d3f2c2678c6f84/html5/thumbnails/40.jpg)
Reg. logistique
Introduction à la régression logistique
Qualité de l’ajustement
Modèle saturé et régression logistique simple : CHD
20 30 40 50 60 70 80
0.0
0.2
0.4
0.6
0.8
1.0
Age
Chd
Lsatur«e =n∑
i=1
1{Yi=1} log Yi + 1{Yi=0} log(1− Yi ).
![Page 41: Introduction à la régression logistiquelepennec/enseignement/DSSP_Orange2/… · Reg. logistique Introduction à la régression logistique Rappels régression MC Objectif Modéliserlavariabled’intérêtY](https://reader030.vdocuments.mx/reader030/viewer/2022020120/5b9589da09d3f2c2678c6f84/html5/thumbnails/41.jpg)
Reg. logistique
Introduction à la régression logistique
Qualité de l’ajustement
Résidus
1. Résidus de Pearson
εPi =yi − pi√pi (1− pi )
2. Résidus de déviance
εi = signe(yi − pi )
√2(lsatur«e(yi )− l(yi , β))
![Page 42: Introduction à la régression logistiquelepennec/enseignement/DSSP_Orange2/… · Reg. logistique Introduction à la régression logistique Rappels régression MC Objectif Modéliserlavariabled’intérêtY](https://reader030.vdocuments.mx/reader030/viewer/2022020120/5b9589da09d3f2c2678c6f84/html5/thumbnails/42.jpg)
Reg. logistique
Introduction à la régression logistique
Qualité de l’ajustement
Graphique en fonction de pSans répétitions, on observe souvent ce type de graphique :
0.2 0.4 0.6 0.8
−2
−1
01
2
prevision
resid
us
![Page 43: Introduction à la régression logistiquelepennec/enseignement/DSSP_Orange2/… · Reg. logistique Introduction à la régression logistique Rappels régression MC Objectif Modéliserlavariabled’intérêtY](https://reader030.vdocuments.mx/reader030/viewer/2022020120/5b9589da09d3f2c2678c6f84/html5/thumbnails/43.jpg)
Reg. logistique
Introduction à la régression logistique
Qualité de l’ajustement
Index plot
0 20 40 60 80 100
−2
−1
01
2
prevision
resid
us
![Page 44: Introduction à la régression logistiquelepennec/enseignement/DSSP_Orange2/… · Reg. logistique Introduction à la régression logistique Rappels régression MC Objectif Modéliserlavariabled’intérêtY](https://reader030.vdocuments.mx/reader030/viewer/2022020120/5b9589da09d3f2c2678c6f84/html5/thumbnails/44.jpg)
Reg. logistique
Introduction à la régression logistique
Analyse des erreurs
Les erreurs
PPPPPPPPPRéaliséPrévu
OUI NON
OUI TP FNNON FP TN
I Sensibilité TTP = TP/#OUI = TP/(TP + FN)
I Spécificité TTN = TN/#NON = TN/(FP + TN)
I Taux de faux positifs FPR = FP/#Oui = FP/(FP + TN)
I précision (accuracy)ACC = (TP + TN)/(TP + TN + FP + FN)
Courbe ROC : taux de vrais positifs en fonction du taux de fauxpositifs.