Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2016-17
Statistiques non-paramétriques :Ch. 3. Économétrie non-paramétrique 2016-17
M2 CEE
Pr. Philippe Polomé, Université Lumière Lyon 2
2016 – 2017
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2016-17
Estimation de fonction de densité et probabilité
Histogramme
Sommaire
Estimation de fonction de densitéet probabilité
HistogrammeChoisir la bandwidthEstimation d’une densitéconditionnelle
RégressionKernel Local Constant KLCKernel Local Polynomial KLL
ExemplesTest d’hypothèsesQualité de l’ajustementModèles à données de panel
Modèles semiparamétriquesIntroExtensions du modèle linéaireModèles à index unique
Résumé
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2016-17
Estimation de fonction de densité et probabilité
Histogramme
Densités & histogrammes lissés
I On commence par une analyse non-conditionnelleI Une régression est une analyse conditionnelleI Ici on veut la courbe des “y ”
I Possiblement y est multidimensionnelI On va regarder une façon de présenter un histogramme
I de façon graphiqueI en lissant les bords avec un “kernel smoother”
I Smooth : lisserI Kernel : noyauI “Densité par lissage noyau”I ou “densité noyau”
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2016-17
Estimation de fonction de densité et probabilité
Histogramme
HistogrammeI Un histogramme
I est une estimation non-paramétrique de la densité f (x) d’uneva x
I que l’on forme en divisant le support de x en intervalleségalement espacés
I et en calculant la fraction de l’échantillon dans chaqueintervalle
I Dans RI Données DataFrame cps
I Dans package AERI Si vous utilisez le projet “Cours R” du cours de programmation
I vous avez le fichier cps qui est chargé (sur les salaires)I Fonction hist( )
I est un basique de RI pas besoin de charger un package
I hist(cps$wage)
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2016-17
Estimation de fonction de densité et probabilité
Histogramme
Histogramme dans R : personnalisationshist(cps$wage, main="Histogramme du salaire dans cps",xlab="salaire", border="blue", col="green", xlim=c(0,50), las=1,breaks=10)
I breaks est le nombre d’intervallesI Peut changer beaucoup l’aspect
I On y revient + loin
I Mettre les noms d’axes & de couleurs entre “ ”I las sert a changer la présentation des label sur Y (0,1,2,3)I On peut présenter des proba avec “prob=1”
I Plutôt que des fréq. abs.I On peut ajouter une densité lisse par dessus avec
I lines(density(cps$wage))I Cette densité lisse est prédéfinieI On va explorer des méthodes pour la tracer
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2016-17
Estimation de fonction de densité et probabilité
Histogramme
Histogramme dans R ! np2016.r
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2016-17
Estimation de fonction de densité et probabilité
Histogramme
Effet de la bandwidth dans un histogramme ! np2016.rhist(cps$wage, breaks=10)
I breaks est le nombre d’intervallesI Donc de leur largeur, appelé bandwidth
I ExerciceI Ajuster le nombre d’intervallesI Changer la couleur
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2016-17
Estimation de fonction de densité et probabilité
Histogramme
Estimateur Histogramme
I Plus formellement, dans un histogramme,I on veut estimer la densité f (x0) d’une v.a. scalaire continue x
I évaluée en x0
I Si on a un échantillon {xi , i = 1, ...,N},I
l’estimateur histogramme de f (x0) est
fhist (x0) =1N
NX
i=1
1 (x0 � h < xi < x0 + h)
2h
I 2h est la longueur de l’intervalleI base du rectangle
I1 (A) est une fonction indicatrice= 1 si A arrive et 0 sinon
I Donc : on compte le nbr d’obs. autour de x0 dans un rayon h
I C’est un estimateur local car il n’utilise que de l’info locale
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2016-17
Estimation de fonction de densité et probabilité
Histogramme
Densité noyauI Cette procédure amène à une estimation de la densité qui
en escalierI Même si la véritable densité est lisse
I On réécrit l’estimateur Histogramme comme
fhist (x0) =1Nh
NX
i=1
121
✓
|xi � x0|h
< 1◆
I L’estimateur densité noyau DN généralise cette définitionI en remplaçant la fonction 1 (.) par une alternative K (.)
fNOYAU (x0) =1Nh
NX
i=1
K
✓
xi � x0
h
◆
I K (·) est dite “fonction noyau” (kernel)I un “kernel” est simplement une fonction de pondération
I h est appelé largeur de bandeI Paramètre de lissage ou bandwidth
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2016-17
Estimation de fonction de densité et probabilité
Histogramme
Densité noyau
I Un estimateur noyau d’une densitéI est donc une version lisse de son histogramme
I évaluée en chaque point de l’échantillonI au lieu de quelques points comme dans l’histogramme
I Cet estimateur est souvent appelé Rosenblatt–ParzenI Rosenblatt (1956), Parzen (1962)
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2016-17
Estimation de fonction de densité et probabilité
Histogramme
Densité noyau
I La fonction noyau K est positive, intégrable et à valeurs réellesI Souvent sym autour de 0, on note z = x�x0
h
I L’uniforme 121 (|z | < 1) correspond à l’histogramme
I Quadratique 34
�1� z
2�1 (|z | < 1)
I Gaussienne(0, 1) : (2⇡)�1/2exp
��z2/2
�
I Gaussienne�µ,�2� : (2⇡)�1/2
exp
✓�⇣z � µ�
⌘2/2
◆
I Le choix (arbitraire) du noyau est réputé comme peu influentsur l’estimateur
I h, le paramètre de lissage, est plus difficile à choisirI Le + petit le + lisse
I Mais trop petit, il provoque l’apparition de détails artificielssur le graphe
I car trop peu de données entrent dans l’intervalleI Trop grand, la majorité du relief est effacée
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2016-17
Estimation de fonction de densité et probabilité
Histogramme
Kernel smoother : Exemple dans R ! np2016.r
I Charger/installer le package KernSmoothI library("KernSmooth")
I wage_bkde<-bkde(cps$wage, kernel = "normal",bandwidth=1)
I Utiliser la variable “wage” dans le DataFrame cpsI Kernel (noyau K) : normalI Bandwidth : 1 : arbitraire
I plot(wage_bkde, xlab = "wage", ylab="density")I Graphique
I plot(wage_bkde, col=rev(rainbow(400, s = 1, v = 1, start =0, end = max(1,400 - 1)/400, alpha = 1)), xlab = "wage",ylab="density")
I la couleur reflète la valeur de wage pas celle de density
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2016-17
Estimation de fonction de densité et probabilité
Histogramme
Kernel smoother : Exemple 2D ! np2016.rI Densité des observations en bivarié
Ibivariate kernel density estimator bkde2D( )
I cps_bkde<-bkde2D(cbind(cps$experience, log(cps$wage)),bandwidth=c(3.5, 0.5), gridsize=c(200, 200))
I bkde2D ne fonctionne pas tout à fait comme bkdeI Il faut choisir la bandwidth et la taille de la grille sur chacune
des 2 dimensionsI expérience & log(wage)
I image(cps_bkde$x1, cps_bkde$x2, cps_bkde$fhat,col=rev(gray.colors(10, gamma=1)), xlab = "experience",ylab="log(wage)")
I “heatmap” / courbes de niveauI Exercice
I Récupérer les données CPS1988 du même AERI Répéter l’analyse en 1D et 2DI Changer la bandwidth dans chaque cas
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2016-17
Estimation de fonction de densité et probabilité
Histogramme
Interpréter les densités
I Sur le fond, la densité noyau (univariée) est une ligneI que l’on dessineI qui s’ajuste d’une certaine manière au nuage de points
I concrètement : elle représente la fréquence locale en chaquepoint
I On est proche d’une logique de régressionI Il faut conditionnerI Il y a d’autres façons de dessiner
I Splines, “nearest neighbor”, “neural network”...I Dans ce cours, on reste sur le noyau.
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2016-17
Estimation de fonction de densité et probabilité
Choisir la bandwidth
Sommaire
Estimation de fonction de densitéet probabilité
HistogrammeChoisir la bandwidthEstimation d’une densitéconditionnelle
RégressionKernel Local Constant KLCKernel Local Polynomial KLL
ExemplesTest d’hypothèsesQualité de l’ajustementModèles à données de panel
Modèles semiparamétriquesIntroExtensions du modèle linéaireModèles à index unique
Résumé
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2016-17
Estimation de fonction de densité et probabilité
Choisir la bandwidth
Propriétés de l’estimateur noyau univarié
I On vient de voir un exemple bivarié (2D)I La fonction kernel doit se comporter comme une densité
I de moyenne nulleI et de variance finie
Z
K (z) dz = 1Z
zK (z) dz = 0Z
z2K (z) dz = 2 <1
I Le support est généralement �1,+1
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2016-17
Estimation de fonction de densité et probabilité
Choisir la bandwidth
Erreur carrée moyenne (mean square error) MSEI Les fonctions noyau sont svt choisies sur un critère de MSEI Le bias de l’estimateur fNOYAU (x) est
f (x)� f (x)
(on laisse tomber “NOYAU” quand il n’y a pas confusion)I La MSE est
msef (x) = E�
biais2� = var f (x) + biais2
on peut montrer que
biais f (x) t h2
2@f (x)
@x2 2
var f (x) t f (x)
nh
Z
K 2 (z) dz
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2016-17
Estimation de fonction de densité et probabilité
Choisir la bandwidth
Erreur carrée moyenne (mean square error) MSE
I On voit queI La variance diminue avec la bandwidth hI Le biais augmente avec le carré de la bandwidth hI Le biais augmente avec la dérivée 2º de f ()
I il est donc au + fort autour du/des pics de la distribution
I Les propriétés qu’on a vu ont lieu en un pointI On peut intégrer le mse sur z pour obtenir une mse globale
imse f (x) =
Z
mse f (x) dx
I On cherche alors le kernel K et la bandwidth h qui minimisentimse
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2016-17
Estimation de fonction de densité et probabilité
Choisir la bandwidth
Erreur carrée moyenne (mean square error) MSE
I Le Kernel optimal est
Ke (z) =
(
34p
5
�
1� 15z
2� �p
5 z p
5
0 sinon
qu’on appelle kernel d’Epanechnikov du nom de son inventeurI Il se fait que pas mal de kernels ont des propriétés semblables
I donc le kernel est souvent choisi pour des raisons informatiques
I le kernel gaussien est le + souvent choisi
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2016-17
Estimation de fonction de densité et probabilité
Choisir la bandwidth
Choix de bandwidth
I Au contraire du Kernel,I l’optimisation précédente n’amène pas à une bandwidth
utilisable en pratiqueI Mais la bandwidth détermine l’ajustement bien plus que le
kernelI Il est important d’en choisir une appropriée au problème traité
I Il y a 4 grandes approches
1. Heuristique (rule of thumb)2. Plug-in – je ne poursuis pas3. Validation croisée
3.1 par MC3.2 par MV
4. Bootstrap
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2016-17
Estimation de fonction de densité et probabilité
Choisir la bandwidth
Heuristique “référence”
I Le principe est d’utiliser le kernel choisi pour calculer labandwidth optimale
I Comme souvent ce kernel est le kernel gaussienI Ça donne une bandwidth de 1.06�n�1/5
In est la taille d’éch.
I � est l’écart-type de la normale utilisée dans le kernelI en pratique, on prend � l’écart-type de l’échantillon
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2016-17
Estimation de fonction de densité et probabilité
Choisir la bandwidth
Autres méthodes
I Validation croisée par MCI Il est possible d’estimer le imse à partir de l’éch.I Cet imse dépend du bandwidthI On peut alors choisir le bandwidth qui minimise l’imseI Cette approche est la meilleure de celles présentées
I mais est sensible à de petites variations des données(arrondis...)
I Validation croisée par maximum de vraisemblanceI Même idée que la précédente, autre façon d’estimer le imseI Tend à sur-lisser (gommer les variations)
I Par bootstrapI Toujours l’idée d’estimer le imseI Trop exigeante sur le plan calculatoire
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2016-17
Estimation de fonction de densité et probabilité
Choisir la bandwidth
Conclusion
I On pourrait poursuivre avecI Comment estimer une densité discrèteI Comment estimer une multivariée
I Illustration graphique prochaine diaI On va plutôt passer à l’analyse conditionnelle
I Prélude à la régressionI Sur l’estimation d’une densité inconditionnelle
I La comparaison n’est pas tellement “paramétrique” vs. npI car paramétrique est souvent mal spécifié, donc inconsistant
I alors que np ne peut pas être mal spécifiéI mais par contre est assez inefficient
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2016-17
Estimation de fonction de densité et probabilité
Choisir la bandwidth
Estimations de densités multivariées par np dans R !np2016.r
I #### dynamic bivariate density plot avec donnees simuleesI Exécuter le programme
I Sélectionner tout le progrI jusque #### FIN dynamic bivariate density plot simulation
normalesI et “run”I Mettez en grand la fenêtre de sortie + zoom out
I ‘sliders’ and ‘pickers’ qui permettent de changerI kernel function, kernel order, scale factors, azimuthal viewing
direction, number of training, and number of evaluationobservations
I et immédiatement voir l’impactI Idem
I #### dynamic bivariate density plot avec donnees réellesGeyser
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2016-17
Estimation de fonction de densité et probabilité
Estimation d’une densité conditionnelle
Sommaire
Estimation de fonction de densitéet probabilité
HistogrammeChoisir la bandwidthEstimation d’une densitéconditionnelle
RégressionKernel Local Constant KLCKernel Local Polynomial KLL
ExemplesTest d’hypothèsesQualité de l’ajustementModèles à données de panel
Modèles semiparamétriquesIntroExtensions du modèle linéaireModèles à index unique
Résumé
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2016-17
Estimation de fonction de densité et probabilité
Estimation d’une densité conditionnelle
Estimation d’une densité conditionnelle
I La densité conditionnelle est sous-jacente à l’analyse derégression
I Mais est rarement modélisée directementI En np, il est plus clair de passer par cette étape
I Soit f (.) la densité jointe de (X ,Y )I pour rappel Pr {X x ,Y y} =
R x R yf (.) dydx = f (x , y)
I µ (.) la densité marginale de XI µ (.) =
Rf (.) dY
I “integrate Y out”I Pour la suite,
I Y est la variable dépendanteI est expliquée
I X est un régresseurI est explicative
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2016-17
Estimation de fonction de densité et probabilité
Estimation d’une densité conditionnelle
Densité conditionnelle
I La densité conditionnelle est
Pr {Y y |X x} = g (y |x) = f (x , y) /µ (x)
I L’estimateur noyau de cette densité est
g (y |x) = f (x , y) /µ (x)
I ˆµ (x) est l’estimateur noyau univarié vu à la section précédenteI f (x , y) est une extension bivariée de cet estimateurI Il faudrait discuter le choix de bandwidth
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2016-17
Estimation de fonction de densité et probabilité
Estimation d’une densité conditionnelle
Densité conditionnelle : R ! np2016.r
I #### Least-squares cross-validated conditional densityestimation
I Prend un peu de temps, selon la machineI Peu d’output car pas 1 regressionI Plot possible
I on voit un graphique mal orientéI Surtout là pour illustrer une commande interne
I Rarement appelée directementI Exercice
I Changer les parmètres de la normale bivariéeI corrélation élevée, � ou I moyennes non-nullesI variances fort différentes
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2016-17
Estimation de fonction de densité et probabilité
Estimation d’une densité conditionnelle
Régresseurs non-pertinents
I On voit bien que pour estimer une fonction g (.)I conditionnelle à pls régresseursI il faut intégrer pls fois
I pour obtenir la distribution multidim. des régresseurs
I On peut montrer que la convergence de f (.) à f (.)I détériore rapidement lorsque le nombre de variables continue
augmenteI “malédiction de la dimensionalité”
I Il est donc important en npI d’éviter les régresseurs non-pertinentsI Idéalement, ils sont “smoothed out” :
I Pour un x non pertinent, le graphe de y reste le même pourtous les niveaux de x
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2016-17
Estimation de fonction de densité et probabilité
Estimation d’une densité conditionnelle
Régresseurs non-pertinents
I Hall et al. (2004) montre queI Une version de la validation croisée par MC
I assigne automatiquement un fort paramètre de lissage auxrégresseurs non-pertinents
I leur dist. marginale tend à l’uniformeI cela supprime leur contribution à la variance de l’estimateurI et donc montre qu’ils sont indép. de la variable expliquée
I Les variables pertinentes par contre sont lissées de façonusuelle
I Pas vers l’uniformeI Donc choisir la validation croisée par MC
I permet de trier les régresseurs pertinents et non.
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2016-17
Régression
Kernel Local Constant KLC
Sommaire
Estimation de fonction de densitéet probabilité
HistogrammeChoisir la bandwidthEstimation d’une densitéconditionnelle
RégressionKernel Local Constant KLCKernel Local Polynomial KLL
ExemplesTest d’hypothèsesQualité de l’ajustementModèles à données de panel
Modèles semiparamétriquesIntroExtensions du modèle linéaireModèles à index unique
Résumé
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2016-17
Régression
Kernel Local Constant KLC
Cas bivarié
I Cet estimateur de régression est connu aussi sous le nom“Nadaraya–Watson”
I de ceux qui l’ont proposéI On ne prend qu’un régresseur pour commencer
I par simplicité de notation
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2016-17
Régression
Kernel Local Constant KLC
Moyenne conditionnelle g (x)
I Par définition, la moyenne conditionnelle de Y continue est
g (x) =
Z
yg (y |x) dy =
Z
yf (y , x)
f (x)dy =
m (x)
f (x)
où g (y |x) est la densité conditionnelle de la section précédenteet m (x) =
R
yf (y , x) dyI L’estimateur Kernel Local Constant KLC
I est celui défini à la section précédente
g (x) =
Z
yf (y , x)
f (x)dy =
Pni=1 yiK
✓
xi � x
h
◆
Pni=1 K
✓
xi � x
h
◆
I c’est un estimateur consistant de la moyenne conditionnelle
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2016-17
Régression
Kernel Local Constant KLC
Biais et variance
I L’estimateur Kernel Local Constant KLCI souffre de “biais sur les bords”I p.e. on peut calculer dans le cas bivarié que
biais t h2
12g
00(x) +
g0(x) f
0(x)
f (x)
!
2
I Quand on approche du “bord” des donnéesI
f (x)! 0 donc le biais augmenteI Ce problème n’est pas partagé par l’estimateur “polynome
local” de la section suivante car le 2º terme à l’intérieur de laparenthèse disparait dans le cas linéaire
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2016-17
Régression
Kernel Local Constant KLC
Bandwidths : optimale et basée sur données
I La bandwidth optimale de l’estimateur KLCI dépend de quantités inconnues, comme précédemmentI Elle ne peut être calculée dans le cas de régressionI On va donc utiliser une bandwidth basée sur les données
I Deux calculs de bandwidth basés sur les donnéesI Sont populairesI Validation croisée moindres carrés (cfr section précédente)I Minimiser le critère d’information d’Akaike (Hurvich)I On a montré qu’ils sont asymptotiquement équivalents
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2016-17
Régression
Kernel Local Constant KLC
Régresseurs pertinents et non-pertinents
I Il a été montré (cfr sect. densité cond.) queI la validation croisée par MCI mène à un lissage optimal des 2 types de régresseurs
I Les non-pertinents n’ont plus d’effet sur la variance del’estimateur
I La malédiction de la dimensionalitéI implique que les non-pertinents doivent être retirés de la
régressionI afin de réduire le bruit autour des pertinents
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2016-17
Régression
Kernel Local Constant KLC
Effets marginaux avec KLC “� (x)”
I On appelle “effet marginal” ou “réponse”I L’effet de x sur g (x) =
R
yg (y |x) dyI donc sur la moyenne conditionnelle de y
I Par analogie avec le modèle de régression linéaire y = x� + ✏I on appelle cette réponse � (x)
I � (x) =@g (x)
@x=
f (x)m0(x)�m (x) f
0(x)
f 2 (x)
I puisque g (x) =m (x)
f (x)
I donc � (x) =m
0(x)
f (x)� g (x)
f0(x)
f (x)I On remplace par les estimations de ces valeurs
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2016-17
Régression
Kernel Local Constant KLC
Effets marginaux avec KLC “� (x)”
I � (x) =m
0(x)
f (x)� g (x)
f0(x)
f (x)avec
I m (x) =1nh
Pni=1 yiK
✓
xi � x
h
◆
I m0(x) = � 1
nh2
Pni=1 yiK
0✓
xi � x
h
◆
I f (x) =1nh
Pni=1 K
✓
xi � x
h
◆
I f0(x) = � 1
nh2
Pni=1 K
0✓
xi � x
h
◆
I AttentionI L’effet marginal n’est jamais constant comme en régression
linéaireI On verra mieux dans les exemples
I En multivarié (plusieurs régresseurs)I C’est plus compliquéI Mais le fond est le même
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2016-17
Régression
Kernel Local Constant KLC
Conclusion de la sous-section
I On a donc un estimateur de régression npI Kernel Local ConstantI à Validation croisée moindres carrésI pour laquelle
I Les régresseurs non-pertinents disparaissent d’eux mêmesI on peut calculer les effets marginaux
I On va voir un autre estimateur
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2016-17
Régression
Kernel Local Polynomial KLL
Sommaire
Estimation de fonction de densitéet probabilité
HistogrammeChoisir la bandwidthEstimation d’une densitéconditionnelle
RégressionKernel Local Constant KLCKernel Local Polynomial KLL
ExemplesTest d’hypothèsesQualité de l’ajustementModèles à données de panel
Modèles semiparamétriquesIntroExtensions du modèle linéaireModèles à index unique
Résumé
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2016-17
Régression
Kernel Local Polynomial KLL
AnalogieI Le KLC peut être réécrit comme minimisation de
g (x) ⌘ mina
nX
i=1
(yi � a)K
✓
xi � x
h
◆
I On généralise en mettant un polynome à la place de aI Le plus populaire est le linéaire
g (x) ⌘ mina,b
nX
i=1
(yi � a� b (xi � x))2 K
✓
xi � x
h
◆
qui s’interprête en disant qu’autour d’un point x0, la régressionest approx. linéaire
g (x0) t a+ b (x0 � x)
I C’est l’estimateur Kernel Local Polynomial (ou linéaire) KLPou KLL
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2016-17
Régression
Kernel Local Polynomial KLL
PropriétésI Le terme a est alors la moyenne conditionnelle g (x)
I Comme l’intercept dans une régression linéaireI Le terme b est la pente,
I donc l’effet d’un changement marginal de x sur g (x)I c’est-à-dire le � (x) de l’estimateur KLC
I Cet estimateur KLP souffre moins du “biais de bord” que KLCI mais est sujet à des problème de singularité
I lorsqu’il y a localement peu de donnéesI On peut calculer des biais et variances approximés
I comme avec KLCI Les régresseurs non-pertinents
I ne disparaissent pas d’eux-mêmesI ne sont pas “smoothed-out” comme avec KLC
I provoquent une variabilité excessive
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2016-17
Régression
Exemples
Sommaire
Estimation de fonction de densitéet probabilité
HistogrammeChoisir la bandwidthEstimation d’une densitéconditionnelle
RégressionKernel Local Constant KLCKernel Local Polynomial KLL
ExemplesTest d’hypothèsesQualité de l’ajustementModèles à données de panel
Modèles semiparamétriquesIntroExtensions du modèle linéaireModèles à index unique
Résumé
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2016-17
Régression
Exemples
Un exemple simulé bivarié ! np2016.r
I #### Regr. ex. sim. bivarieI Sortie postcript
I Juste pour montrer les optionsI Si ça ne marche pas pour vous, remplacez par pdfI ou exécutez seulement la commande plot
I Les graphes ne sont pas très “smooth”I C’est parce que n est petit (50)
I Les sorties sont assez pauvresI Pas aussi clair que pour lm( )I Sauf les graphiques
I Exercice. Répétez le programme en changeantI la taille d’éch. à 100I la façon de générer y
I p.e. comme la somme ou le ratio de 2 normales pour avoir unedist. bimodale
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2016-17
Régression
Exemples
Ex. Comparaison des méthodes de choix de Bandwidth !np2016.r
I #### Regr. ex. bandwidthI 5 bw
I 2 arbitraires : under & overI 2 cross-validation : Moindres carrés et AICI 1 plug-in
I Plot en 4 tableauxI Regroupe les 2 cv
I ExerciceI séparer le plot des 2 cv en 2 et supprimer le plug-inI Changer les 2 bw arbitraires under et over pour les reserrer
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2016-17
Régression
Exemples
Et le t dans tout ça ?
I Comment voit-on la significativité de l’effet marginal ?I Les graphes mettent des intervales de confiance
I On va voir ça dans le prochain exempleI La section suivante “Test d’hypothèse consistant”
I présente des tests formels (non graphiques)
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2016-17
Régression
Exemples
Ex. Multivariate Mixed-Data Application ! np2016.r
I #### Ex. regr. mixte (cont. & cat)I Part 1 et part 2I Constater graphiquement que la significativité n’est pas
constanteI Puisque l’intervalle de confiance évolue selon x
I ExerciceI Répliquer en changeant la CV ou le kernel (LC au lieu de LL)
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2016-17
Régression
Test d’hypothèses
Sommaire
Estimation de fonction de densitéet probabilité
HistogrammeChoisir la bandwidthEstimation d’une densitéconditionnelle
RégressionKernel Local Constant KLCKernel Local Polynomial KLL
ExemplesTest d’hypothèsesQualité de l’ajustementModèles à données de panel
Modèles semiparamétriquesIntroExtensions du modèle linéaireModèles à index unique
Résumé
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2016-17
Régression
Test d’hypothèses
Intro
I On ne revient pas sur les tests np de la 1º partie du coursI il s’agit de tests en contexte de régression
I Soit tester une spécification paramétriqueI Permet de justifier une approche np
I Soit tester la significativité des régresseurs d’une régression npI l’équivalent des t-stats
I Un régresseur parmi plsI On n’a pas d’équivalent au test F
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2016-17
Régression
Test d’hypothèses
Un test de significativité pour des régressions np
I Il y a pls approchesI On prend ici celle de Racine qui accepte des régresseurs
continus & cat.I On va regarder d’abord cat.
I puis continu
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2016-17
Régression
Test d’hypothèses
Un test de significativité : régresseurs catégoriques
I SoitI z le régr. cat qui peut être non-pertinentI X tous les autres régresseursI L’hyp. nulle est
H0 : E (Y |X , z) = E (Y |X )
presque partoutL’alternative est que l’égalité est en fait 6= (2-tailed)
I Pour simplifier on écritI g (x) = E (Y |x) et m (x , z) = E (Y |X , z)I disons que z prend c valeurs dont la 1º est zéro
I si c = 2, z est une dichotomique, le cas le + fréquentI H0 peut alors s’écrire m (x , z = l) = m (x , z = 0) 8l
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2016-17
Régression
Test d’hypothèses
Un test de significativité : régresseurs catégoriquesI La stat de test est
I =c�1X
l=1
Enh
m (x , z = l)�m (x , z = 0)2io
I Pour la calculerI On prend les valeurs estimées par KLC ou KLL de mI On somme sur toutes les l 6= 0
I et sur toutes les obs.I On voit bien que I � 0
I et que z est non signif. si I est proche de zéroI Il n’y a pas de distribution connue
I Il faut faire du bootstrapI Mis en oeuvre dans npsigtest( )
I On verra dans l’exemple
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2016-17
Régression
Test d’hypothèses
Un test de significativité : régresseurs continus
I H0 est la même,I mais “presque partout”
I car on a en quelque sorte 1 catégories
I Équivalent à@E (y |x , z)
@z= � (z) = 0 presque partout
I La stat de test est I = En
[� (z)]2o
I On calcule son estimation KLC ou KLL In = 1n
Pni=1 � (zi )
2
I Comme dans le cas catégorique, la dist. de In est inconnueI On utilise bootstrap
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2016-17
Régression
Test d’hypothèses
Ex. Multivariate Mixed-Data Application ! np2016.r
I On poursuit l’exemple précédent – part 3I # Part 3 Tests de significativiteI Simple : on passe l’objet bw
I Le packageI distingue le cat et le contI fait le test adéquat
I Pas de test sur plusieurs coef conjointement
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2016-17
Régression
Test d’hypothèses
Tester une spécification paramétrique
I On veut tester si un modèle param. est correct
H0 : E (Y |x) = m (x , �0)
pour presque tous les xpour un certain �0 vecteur (p ⇥ 1) de paramètreset m (x , �) une fonction connue (possiblement non-linéaire(
I En définissantµi = yi �m (xi , �0)
alors on peut écrire
Ho : E (µi |xi ) = 0
pour presque toutes les valeurs possibles de x
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2016-17
Régression
Test d’hypothèses
Tester une spécification paramétrique
I Une idée pour construire la stat de test estI de dire que comme il faut vérifier H0 pour presque tous les xI on pourrait calculer E (µi |xi ) pour chaque x
I prendre le carréI et regarder si la somme de ces carrés ne devient pas trop
grandeI Comme on faisait dans le test du �2
I Comme on ne voit pas plusieurs xI Il faut calculer la somme des carrés indirectementI En utlisant les résidus µi du modèle paramétriqueI Et une technique de bootstrapI La stat calculée se nomme JnI Mis en oeuvre dans npcmstest( )
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2016-17
Régression
Test d’hypothèses
Tester une spécification paramétrique – exemple ! np2016.r
I On poursuit l’exemple précédent – part 4I # 4. Test de specification param.I On prend un modèle linéaire classique du modèle np qu’on a
estimé auparavant
lwage = �0+�1Femme+�2Mari e+�3Educ+�4Exp+�5Tenure
Rem. Tenure = job permament, possiblement CDII Ici, on obtient une p-valeur <5% largement
I R le modèle linéaireI Exercice
I Refaites le test en ajoutant l’exp. quadratique
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2016-17
Régression
Qualité de l’ajustement
Sommaire
Estimation de fonction de densitéet probabilité
HistogrammeChoisir la bandwidthEstimation d’une densitéconditionnelle
RégressionKernel Local Constant KLCKernel Local Polynomial KLL
ExemplesTest d’hypothèsesQualité de l’ajustementModèles à données de panel
Modèles semiparamétriquesIntroExtensions du modèle linéaireModèles à index unique
Résumé
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2016-17
Régression
Qualité de l’ajustement
Qualité de l’ajustement (Goodness-of-Fit)I Essentiellement, une mesure de R2 en np
R2 =[Pn
i=1 (yi � y) (yi � y)]2Pn
i=1 (yi � y)2Pn
i=1 (yi � y)2
yi est la valeur ajustée de yiI donc g (xi )
I 0 R2 1I 1 est un ajustement parfaitI 0 aucun pouvoir prédictif au-delà de la moyenne
inconditionnelleI Dans le cas d’un modèle linéaire
I estimé par MCOI avec un interceptI Cette définition du R2 produit le même chiffre que la définition
classiqueI basée sur les résidus
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2016-17
Régression
Qualité de l’ajustement
Régression np – résumé de l’approche kernel
I D’abord il faut calculer une bwI bw.all<- npregbw
I on peut préciser ici LL ou LC & la cross-validationI Ensuite la régression
I model.np <- npreg(bws=bw.all)I summary(model.np) présente la qualité de l’ajustement
“R-squared”I À ce stade on peut “plot”
I avec les marges d’erreurI Puis les tests
I Significativité des régresseursI Spécification paramétrique
I Si celle-ci n’est pas rejetée, mieux vaut l’utiliser, car +efficiente
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2016-17
Régression
Modèles à données de panel
Sommaire
Estimation de fonction de densitéet probabilité
HistogrammeChoisir la bandwidthEstimation d’une densitéconditionnelle
RégressionKernel Local Constant KLCKernel Local Polynomial KLL
ExemplesTest d’hypothèsesQualité de l’ajustementModèles à données de panel
Modèles semiparamétriquesIntroExtensions du modèle linéaireModèles à index unique
Résumé
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2016-17
Régression
Modèles à données de panel
Rappel
I Un panel est une coupe transversaleI répétée dans le temps tI en principe sur les mêmes i
I sauf attrition, qu’on suppose non-endogèneI Pour simplifier tous les i sont observés T fois
I Lorsque T est grandI chaque série de i peut analysée séparemment en séries temp.
I qu’on ne voit pas pour np
I Donc, on se place en panels courts : n!1 mais T cstI Les données de panel sont notées hyit , xiti
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2016-17
Régression
Modèles à données de panel
Panels non-paramétriques
I Dans le modèle panel linéaire
yit = ↵i + x0it� + ✏it
on pouvait accepter queI ↵i soit la partie constante dans le temps, par i , du terme
d’erreurI qu’elle soit corrélée avec xit (les “effets fixes”)I car on pouvait s’en débarrasser par les estimateurs within ou
différence 1ºI Cette hyp. d’additivité de l’hétérogénéité inobservée
I Fait disparaitre les régresseurs constants dans le tempsI Alors que c’est svt eux qu’on voudrait étudier
I En np, on n’a pas d’hyp. d’additivitéI Un série d’estimateurs ont été proposés
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2016-17
Régression
Modèles à données de panel
Panel dans npI Le package np propose l’estimateur suivantI Soit le modèle np
yit = g (xit) + uit
g (.) est une fonction lisse inconnuex contient q régresseursE (uit |xi1, . . . , xiT ) = 0 exogénéité stricte
I On introduit l’hétérogénéité inobservée constante dans letemps
I par une variable discrète non-ordonnée
�i = i , i = 1, ..., n
ce qui introduit de fait n catégoriesI Ces cat nous rapprochent du contexte de la régression np
I avec un mélange de régresseurs cat. et continus
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2016-17
Régression
Modèles à données de panel
Panel dans np
I Si le “régresseur” catégorique n’est pas significatifI Les pentes sont les mêmes pour tous les régresseursI Cela pointe donc vers un intercept différent par i
I si les moyennes conditionnelles par i sont différentes entre ellesI Par contre, s’il est significatif
I Les pente par i sont différentesI Donc les données de différents i ne sont pas mélangeables
I L’analyse Panel n’est donc pas complètement implémentéedans np
I Car l’endogénéité ne parait pas traitée / éliminée comme aveceffets fixes
I mais np apporte un complément d’analyse
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2016-17
Régression
Modèles à données de panel
Panel dans np – exemple ! np2016.rI #### Ex. regr. panel
I Ex. Répliquer en changeant CV ou kernel (LC / LL)I Panel annuel sur les coûts de 6 cies aériennes US
I 15 ans 1970 à 1984 (cylindré)I airline i traité comme factor non-ordonnéI year t factor ordonnéI log of cost lcost, log output (passagers ⇥ miles), log prix fuel
lpf, “load factor” lf capacité utilisée moyenne de la flotteI BW : petite pour “airline”
I suggère de ne pas mélanger les donnéesI Dans le plot diapo suivante
I On voit un effet marqué par airline (t ↵i )I Mais des pentes plutôt linéairesI Indiquerait donc que les données sont assez homogènes pour
être mélangée
Panel dans np – exemple ! np2016.r
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2016-17
Modèles semiparamétriques
Intro
Sommaire
Estimation de fonction de densitéet probabilité
HistogrammeChoisir la bandwidthEstimation d’une densitéconditionnelle
RégressionKernel Local Constant KLCKernel Local Polynomial KLL
ExemplesTest d’hypothèsesQualité de l’ajustementModèles à données de panel
Modèles semiparamétriquesIntroExtensions du modèle linéaireModèles à index unique
Résumé
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2016-17
Modèles semiparamétriques
Intro
Méthodes semi-paramétriques sp
I Assez populairesI Combinent des éléments des 2 approches
I CompromisI S’appuient sur des paramètres
I Donc inconsistant en cas de fausse spécificationI Utiles lorsque
I La malédiction de la dimensionalité fait que le np nefonctionne pas bien
I On veut utiliser un modèle paramétrique pour seulement unepartie des régresseurs
I ...I Pas une méthodo
I plutôt un cahier de recettes propres à des cas particuliers
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2016-17
Modèles semiparamétriques
Intro
4 cas sp implémentés dans np
I Extensions du modèle linéaireI Modèles partiellement linéaires
I Les splines sont un autre cas partiellement linéaireI Coefficients aléatoires
I Modèles à index uniqueI y dichotomiqueI y inconnu
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2016-17
Modèles semiparamétriques
Extensions du modèle linéaire
Sommaire
Estimation de fonction de densitéet probabilité
HistogrammeChoisir la bandwidthEstimation d’une densitéconditionnelle
RégressionKernel Local Constant KLCKernel Local Polynomial KLL
ExemplesTest d’hypothèsesQualité de l’ajustementModèles à données de panel
Modèles semiparamétriquesIntroExtensions du modèle linéaireModèles à index unique
Résumé
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2016-17
Modèles semiparamétriques
Extensions du modèle linéaire
Modèle partiellement linéaireI Modèle d’apparence simple
I Mais le calcul de bandwidth le rend assez lourdI Bien plus qu’un modèle paramétriqueI Du moins quand on base la bandwidth sur les données
I Un modèle sp linéaire
yi = x0i � + g (zi ) + ui
x et � ont la signification habituelle avec p régresseursI u n’est pas corrélée avec x ou z
I mais peut être hétéroscédastiqueI z comprend q régresseursI g () n’est pas spécifiée
I L’important est d’obtenir un estimateur consistant de �I Puisque quand on l’a, g () est estimée par régression np de
y � x � sur g (x)
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2016-17
Modèles semiparamétriques
Extensions du modèle linéaire
Estimation de �
I Dans le modèle sp linéaire
yi = x0i � + g (zi ) + ui
on prend l’espérance conditionnelle à z
E (yi |zi ) = E (xi |zi )0� + g (zi )
en soustrayant les 2 :
yi � E (yi |zi ) = (xi � E (xi |zi ))0� + g (zi ) + ui
I On ne connait ni E (yi |zi ) ni E (xi |zi )I Mais on peut les estimer par regr. np de façon consistante
I Régression car espérance conditionnelle
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2016-17
Modèles semiparamétriques
Extensions du modèle linéaire
Estimation de �
I Soit E (yi |zi ) et E (xi |zi ) ces estimationsI On écrit
yi = yi � E (yi |zi ) et xi = xi � E (xi |zi )
alors�p.lineaire =
h
X0Xi�1
X0Y
I À présent, on réécrit le modèle sp linéaire
yi � x0i �p.lin = g (zi ) + ✏i
où le ui devient un ✏iI pour souligner qu’au lieu de �, on utilise �p.linI Ce modèle est alors estimé par une des techniques np vues
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2016-17
Modèles semiparamétriques
Extensions du modèle linéaire
Modèle partiellement linéaire – exemple ! np2016.r
I Données Wage 1I Comme précédemment
I ### Modele partiellement lineaireI Commande principale
I npplregbw pour la bwI npplreg(bw) pour la régression
I Bug pour le plot ?I Exercice : au lieu de exper, traiter educ comme non-linéaire
I Exper en quadratiqueI Exercice : traiter educ et exper comme non-linéaires
I Les t-stats ?
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2016-17
Modèles semiparamétriques
Extensions du modèle linéaire
Modèle à coefficients aléatoires
I Coefficients “lissés” ou “variables”8
>
>
>
>
<
>
>
>
>
:
yi = ↵ (zi ) + x0i � (zi ) + ui
=⇣
1 + x0i
⌘
↵ (zi )
� (zi )
!
+ ui
= w0i � (zi ) + ui
I en mots : les coef ↵ et � sont des fonctions de zI non-spécifiées & lisses
I comme ça, on va pouvoir les estimer par np
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2016-17
Modèles semiparamétriques
Extensions du modèle linéaire
Modèle à coefficients aléatoiresI Prémultiplier par wi
I et prendre l’espérance conditionelle à zi
E [wiyi |zi ] = Eh
wiw0
i |zii
� (zi ) + E [wiui |zi ]
� (zi ) sort de l’espérance car il est déjà conditionnel à ziI On se retrouve dans une situation proche du modèle
partiellement linéaireI On peut exprimer � (zi ) comme dans MCO
� (zi ) = (E [wiyi |zi ])�1 Eh
wiw0
i |zii
I Les espérances conditionnelles sur zi peuvent être estimées parnp
I En utilisant l’ensemble de l’échantillon, pas L à L
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2016-17
Modèles semiparamétriques
Extensions du modèle linéaire
Modèle à coefficients aléatoires – exemple ! np2016.r
I Données Wage 1I ### Modele a coefficients aleatoires
I Commande principaleI npscoefbw pour la bwI npscoef(bw,betas=TRUE) pour les coef
I Assez peu d’outputI Comment interprêter les moyennes des coefs aléatoires ?
I ExerciceI Essayer de calculer les t-stats (sans garantie)I
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2016-17
Modèles semiparamétriques
Modèles à index unique
Sommaire
Estimation de fonction de densitéet probabilité
HistogrammeChoisir la bandwidthEstimation d’une densitéconditionnelle
RégressionKernel Local Constant KLCKernel Local Polynomial KLL
ExemplesTest d’hypothèsesQualité de l’ajustementModèles à données de panel
Modèles semiparamétriquesIntroExtensions du modèle linéaireModèles à index unique
Résumé
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2016-17
Modèles semiparamétriques
Modèles à index unique
Index unique / “Single index”
I Modèles de forme
yi = g⇣
X0i �⌘
+ ui
où les notations sont celles du MRLavec q régresseurset E (ui |Xi ) = 0
I X0i � est une forme linéaire (= un index)I dont on ne connait pas les paramètres �
I Lorsque g () estI identité : MRLI La fonction de probabilité Logistique ou normale : Logit /
probit
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2016-17
Modèles semiparamétriques
Modèles à index unique
Single index semi-paramétriques
I On a un modèle semi-paramétrique lorsqueI g (.) est une fonction inconnue, non-spécifiéeI “Semi” car paramètres �
I inconnus égalementI + flexible que paramétrique
I moins susceptible à la malédiction de la dimensionalitéI car x
0i � est de fait un seul régresseur
I On appelle cela une “réduction de la dimensionalité”I Donc convergence + rapide de l’estimation
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2016-17
Modèles semiparamétriques
Modèles à index unique
Identification
I Avant de pouvoir estimer,I il faut que le modèle soit identifiableI c’est-à-dire qu’il ait la capacité de produire une estimation
I et que ce soit de manière uniqueI Plus précisément, si on a 1 obs.
I peut-on théoriquement découvrir les vrais paramètres (oufonction) du modèle de manière unique ?
I Ex. 1. le MRL y = ↵+ X� + ✏, E (✏|x) = 0 est identifiableI ssi X 0X est invertible
I Ex. 2. Modèle probit Pr (↵+ X� + ✏ < 0)I Soit y = 1 ssi ↵+ X� + ✏ < 0, ✏ ⇠ n
�
0,�2�
I Comme (↵+ X� + ✏ < 0) () a (↵+ X� + ✏ < 0) , a > 0,I il résulte que �2 n’est pas identifiableI Probit est partiellement identifiable avec ce type de données
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2016-17
Modèles semiparamétriques
Modèles à index unique
Identification des modèles single-index
I Le MRL comme Probit sont 2 cas particuliers de single indexI On voit donc 2 conditions d’identificationI Il faut aussi que g () ne soit pas une fonction constante
Ig (X�) = c 8X
I Soit 2 constantes � quelconque et � 6= 0, alorsI E (Y |X = x) = g
⇣
x0�⌘
et
I E (Y |X = x) = g⇤⇣
� + �x0�⌘
I sont dites “observationnellement équivalentes”I Même si on connaissait la distribution de (Y ,X )
I On ne pourrait pas distinguer ces 2 modèles (savoir lequel estle bon)
I Il faut donc des restrictions additionnellesI pour identifier � et g ()
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2016-17
Modèles semiparamétriques
Modèles à index unique
Identification des modèles single-index
I La restriction sur � est appelée normalisation de localisation
I Le point glisse sur le supportI Essentiellement la moyenneI Est obtenue en imposant que X ne contienne pas de constante
I (y compris des combinaisons lin. des col. de X )I Sur � : normalisation d’échelle
I Essentiellement la variance, la dispersionI Est obtenu en imposant qu’un des coef. de � soit égal à un
I Il faut aussi queI g () soit différentiable (sans preuve)I un au moins des éléments de X soit une variable continue
I diapo suivante
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2016-17
Modèles semiparamétriques
Modèles à index unique
Single-index à variables catégoriques uniquementI Soit X = (X1,X2) à supports {0, 1} pour les 2 éléments de X
I On normalise le coef de X1 à 1I Normalisation d’échelle
I Le modèle E (Y |X = x) = g⇣
x0�⌘
devientI
E (Y |X = x) = g (x1 + x2�2)
I Supposons que les données soient t.q.(x1, x2) E (Y |X = x) g (x1 + x2�2)
(0, 0) 0 g(0)(1, 0) 0.1 g(1)(0, 1) 0.3 g(�2)(1, 1) 0.4 g(1 + �2)
I Comme on peut choisir à la fois g () et �2I il y a 1 de solutions : pas identifié
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2016-17
Modèles semiparamétriques
Modèles à index unique
2 cas sont traité dans le package np
I Ichimura : y est continuI Klein & Spady : y est une dichotomique
I Intéressant car on n’a pas d’équivalent logit/probit en np
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2016-17
Modèles semiparamétriques
Modèles à index unique
Ichimura : y est continu
I Si on connaissait g ()I On pourrait estimer � par Moindres Carrés Non-Linéaires
� ⌘ arg min�
1n
X
i
Wi (yi � g (x))2
Wi est un poids, sur lequel on ne s’attarde pas iciI À cause de la non-linéarité de g () :
I Il n’y a pas de solution analytiqueI On n’a que des approches numériques
I On ne connait pas g ()I Et on ne peut pas appliquer un estimateur Kernel
I car on ne connait pas �
I Ichimura propose une modification de MC non-lin.I dans laquelle g () est estimé par un kernel modifié
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2016-17
Modèles semiparamétriques
Modèles à index unique
Ichimura – exemple ! np2016.rI Même exemple avec wage1 qu’on a déjà utiliséI ### IchimuraI L’estimateur d’Ichimura est invoqué en 2 étapes comme
toujoursI npindexbw pour la bandwidthI pour les coefficients
I La fonction g () n’est pas dans l’outputI puisqu’on l’estime de façon npI Par contre la commande semble accepter de calculer un
gradientI Exercice : plot du gradient
I Les coefficient sont comparables avec un modèle linéaireI au sens où on peut comparer leur impact relatif
I La méthode est intensive en ordinateurI Avec bcp de données : long
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2016-17
Modèles semiparamétriques
Modèles à index unique
Estimateur de Klein & Spady
I Ici, y est dichotomiqueI Alors g
⇣
x0
i �⌘
= Pr {Y = 1|X = xi}
I Si g () était connue,I alors l’estimation se ferait par max. vraisemblanceI Avant de poursuivre, on va faire un rappel sur MV
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2016-17
Modèles semiparamétriques
Modèles à index unique
Maximum de vraisemblanceI La fonction de densité de probabilité d’une va y
I conditionnellement à des paramètres ✓I est notée f (y |✓)
I Si on a un éch. de n obs. iid de cette vaI Alors, on peut définir la densité jointe de l’éch. comme le
produit des densités de chaque obs.
f (y1, ..., yn|✓) =nY
i=1
f (yi |✓) = L (✓|y)
I Cette densité jointe est appelée fonction de vraisemblance
(likelihood)I Très souvent, on prend le log
ln L (✓|y) =nX
i=1
ln f (yi |✓)
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2016-17
Modèles semiparamétriques
Modèles à index unique
Maximum de vraisemblance
I Il est souvent nécessaire de généraliser pour introduire desrégresseurs
I Soit le MRL yi = xi� + ✏iI On suppose que ✏ est normale
I avec moyenne 0 & variance �2
I Donc yi est normaleI avec moyenne µi = xi� et variance �2
I Donc, les obs. de la va ne sont pas iid
I Elles ont des moyennes différentesI Mais elles restent indépendantesI Et on peut les standardiser pour qu’elles aient la même
moyenneI Ça donne la fonction de vraisemblance
ln L (✓|y ,X ) =P
ln f (yi |xi , ✓) = � 12Pn
i=1
h
ln�2 + ln (2⇡) + (yi � xi�)2 /�2
i
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2016-17
Modèles semiparamétriques
Modèles à index unique
Maximum de vraisemblance : Probit
I Le même MRL avec un seul régresseur + 1 cst
yi = �1 + �2xi + ✏i
où ✏i |xi ⇠ n�
0,�2�
I Context d’un achat important, p.e. une voitureI xi est le revenu de iI yi est la 6= entre la disposition à payer p⇤i , et le prix de la
voiture piI On n’observe pas yi mais seulement si i achète la voiture ou
nonI Soit y⇤
i = 1 lorsque yi = p⇤i � pi > 0I Et donc y⇤
i = 0 sinonI (quels sont ces i qu’on “n’observe pas” acheter ?)
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2016-17
Modèles semiparamétriques
Modèles à index unique
Maximum de vraisemblance : Probit
I La proba d’achat est
Pr {y⇤i = 1|�1,�2,�, xi} = Pr {yi > 0|�1,�2,�, xi}= Pr {�1 + �2xi + ✏i > 0|�1,�2,�, xi}= Pr {✏i > ��1 � �2xi |�1,�2,�, xi}= Pr {✏i/� > (��1 � �2xi ) /�|�1,�2,�, xi}= Pr {zi > (��1 � �2xi ) /�|�1,�2,�, xi}
où zi a une dist. normale standard
I La proba de ne pas acheter est un moins cette proba
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2016-17
Modèles semiparamétriques
Modèles à index unique
Probit : identification par normalisationI Donc la fonction de vraisemblance estY
i=achat
[Pr {ach|�1,�2,�, xi}]⇥Y
i=pas ach
[1� Pr {ach|�1,�2,�, xi}]
I Souvent réécrite commeY
i
[Pr {ach|�1,�2,�, xi}yi ] [1� Pr {ach|�1,�2,�, xi}](1�yi )
I Les paramètres �1,�2,� de ce modèle ne sont pas
identifies :I S’ils sont multipliés par une même constante non-nulle
I le nouveau modèle est observationnellement équivalentI Pr {ach} et la fct de vrais. ne changent pas
I La normalization généralement utilisée est � = 1
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2016-17
Modèles semiparamétriques
Modèles à index unique
Interprétation
I Avec une va discrète, f (yi |✓) est la proba d’observer yiconditionnellement à ✓
I La fct de vraisemblance est la proba d’observer l’éch.I On suppose que l’éch. qu’on a est le + probable
I Sorte de principe de médiocritéI Si on choisit ✓ de sorte à maximiser la fact de vraisemblance
I alors on max la proba de l’éch.I Ce qui correspond bien à l’hyp de médiocrité
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2016-17
Modèles semiparamétriques
Modèles à index unique
Maximum de vraisemblance : notes
I Cette maximisation produit l’estimateur max. de vraisemblance
I Généralement numériquement + simple de max. lalog-vraisemblance
I Comme ln est monotone, c’est le même maxI La condition de 1º ordre de la max
I @ ln L (✓|data) /@✓ = 0I est appelée équation de vraisemblance
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2016-17
Modèles semiparamétriques
Modèles à index unique
Maximum de vraisemblance : propriétésI Si l’hypothèse de distribution est correcte
I dans le probit : ✏i |xi ⇠ n�
0,�2�
I Alors MV a de très bonnes propriétéI
Notation : ✓ estimateur ; ✓0 vraie valeur ; ✓ toute autre valeurI
Consistance : plim ✓ = ✓0
INormalité asymptotique : ✓ ⇠ N
h
✓0, {I (✓0)}�1i
I I (✓0) = �Eh
@2 ln L/@✓0@✓0
0
i
est dite information matrix
IAsymptotiquement efficient
I ✓ atteint la borne de Cramer–Rao pour les estimateursconsistants
IInvariance : l’estimateur de �0 = c (✓0) est c
⇣
✓⌘
I si c (✓) est continue et différentiableI MV n’a que des propriétés asymptotique
I En petits éch. il peut être biaisé/inefficient
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2016-17
Modèles semiparamétriques
Modèles à index unique
Retour à Klein & Spady
I Un estimateur sp pour le cas probitI g
⇣
x0
i �⌘
= Pr {Y = 1|X = xi}
I Si g () était connue,I alors l’estimation se ferait par max. vraisemblance
I p.e. probit, on suppose que g () est la probabilité normale,donc
ln L (�|y , x) =P
i [yi Pr {yi = 1|�, xi}] [(1� yi ) (1� Pr {yi = 1|�, xi})]I g () n’étant pas connue
I on a le même problème qu’avec IchimuraI Klein & Spady proposent un estimateur Kernel modifié
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2016-17
Modèles semiparamétriques
Modèles à index unique
Klein & Spady – exemple ! np2016.rI Données sur le poids à la naissanceI ### Klein & Spady
I C’est longI Matrice de confusion
Prédit0 1
Rée
l
0Logit 119 11K&S 119 11
vrais faux �
1Logit 34 25K&S 22 37
faux vrais �I Léger avantage à K&SI Exercice
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2016-17
Résumé
Régressions np
I On part d’un histogramme lissé par un kernelI Estimateur de la fct de densité d’un va continueI Importance du bandwidth
I Dans quel rayon autour de x0 compte-t-on ?I Minimiser la Integrated MSE - par LS Cross-validation
I Par contre le Kernel optimal est à peu près GaussienI Généralisation à
I va catégoriqueI va multivariée
I Malédiction de la dimensionalité
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2016-17
Résumé
Régressions np
I Ces éléments permettent deI calculer un estimateur kernel de la densité conditionnelleI Une régression est l’espérance de la densité conditionnelle
I conditionnée sur un ou pls régresseursI Estimateur kernel local constantI ou local linéaire
I L’effet marginal @E (y |x) /@xI dépend des niveaux des xet de y
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2016-17
Résumé
Régressions np
I On peut tester la significativité d’un régresseurI Calculer l’équivalent d’un R2
I Tester une spécification param. avec les même régresseursI Si on ne la rejette pas, la préférer car + efficiente
I Il existe une version panelI Resterait à évoquer l’endogénéitéI Les séries temp.I La théorie existe, mais moins des packages