Download - Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2016 …risques-environnement.universite-lyon.fr/IMG/pdf/np_ch3... · 2016. 12. 6. · Statistiques non-paramétriques

Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2016-17

Statistiques non-paramétriques :Ch. 3. Économétrie non-paramétrique 2016-17

M2 CEE

Pr. Philippe Polomé, Université Lumière Lyon 2

2016 – 2017


Estimation de fonction de densité et probabilité

Histogramme

Sommaire

Estimation de fonction de densitéet probabilité

HistogrammeChoisir la bandwidthEstimation d’une densitéconditionnelle

RégressionKernel Local Constant KLCKernel Local Polynomial KLL

ExemplesTest d’hypothèsesQualité de l’ajustementModèles à données de panel

Modèles semiparamétriquesIntroExtensions du modèle linéaireModèles à index unique

Résumé



Histogramme

Densités & histogrammes lissés

I On commence par une analyse non-conditionnelleI Une régression est une analyse conditionnelleI Ici on veut la courbe des “y ”

I Possiblement y est multidimensionnelI On va regarder une façon de présenter un histogramme

I de façon graphiqueI en lissant les bords avec un “kernel smoother”

I Smooth : lisserI Kernel : noyauI “Densité par lissage noyau”I ou “densité noyau”



Histogramme

HistogrammeI Un histogramme

I est une estimation non-paramétrique de la densité f (x) d’uneva x

I que l’on forme en divisant le support de x en intervalleségalement espacés

I et en calculant la fraction de l’échantillon dans chaqueintervalle

I Dans RI Données DataFrame cps

I Dans package AERI Si vous utilisez le projet “Cours R” du cours de programmation

I vous avez le fichier cps qui est chargé (sur les salaires)I Fonction hist( )

I est un basique de RI pas besoin de charger un package

I hist(cps$wage)



Histogramme

Histogramme dans R : personnalisationshist(cps$wage, main="Histogramme du salaire dans cps",xlab="salaire", border="blue", col="green", xlim=c(0,50), las=1,breaks=10)

I breaks est le nombre d’intervallesI Peut changer beaucoup l’aspect

I On y revient + loin

I Mettre les noms d’axes & de couleurs entre “ ”I las sert a changer la présentation des label sur Y (0,1,2,3)I On peut présenter des proba avec “prob=1”

I Plutôt que des fréq. abs.I On peut ajouter une densité lisse par dessus avec

I lines(density(cps$wage))I Cette densité lisse est prédéfinieI On va explorer des méthodes pour la tracer



Histogramme

Histogramme dans R ! np2016.r



Histogramme

Effet de la bandwidth dans un histogramme ! np2016.rhist(cps$wage, breaks=10)

I breaks est le nombre d’intervallesI Donc de leur largeur, appelé bandwidth

I ExerciceI Ajuster le nombre d’intervallesI Changer la couleur



Histogramme

Estimateur Histogramme

I Plus formellement, dans un histogramme,I on veut estimer la densité f (x0) d’une v.a. scalaire continue x

I évaluée en x0

I Si on a un échantillon {xi , i = 1, ...,N},I

l’estimateur histogramme de f (x0) est

fhist (x0) =1N

NX

i=1

1 (x0 � h < xi < x0 + h)

2h

I 2h est la longueur de l’intervalleI base du rectangle

I1 (A) est une fonction indicatrice= 1 si A arrive et 0 sinon

I Donc : on compte le nbr d’obs. autour de x0 dans un rayon h

I C’est un estimateur local car il n’utilise que de l’info locale



Histogramme

Densité noyauI Cette procédure amène à une estimation de la densité qui

en escalierI Même si la véritable densité est lisse

I On réécrit l’estimateur Histogramme comme

fhist (x0) =1Nh

NX

i=1

121

✓

|xi � x0|h

< 1◆

I L’estimateur densité noyau DN généralise cette définitionI en remplaçant la fonction 1 (.) par une alternative K (.)

fNOYAU (x0) =1Nh

NX

i=1

K

✓

xi � x0

h

◆

I K (·) est dite “fonction noyau” (kernel)I un “kernel” est simplement une fonction de pondération

I h est appelé largeur de bandeI Paramètre de lissage ou bandwidth



Histogramme

Densité noyau

I Un estimateur noyau d’une densitéI est donc une version lisse de son histogramme

I évaluée en chaque point de l’échantillonI au lieu de quelques points comme dans l’histogramme

I Cet estimateur est souvent appelé Rosenblatt–ParzenI Rosenblatt (1956), Parzen (1962)



Histogramme

Densité noyau

I La fonction noyau K est positive, intégrable et à valeurs réellesI Souvent sym autour de 0, on note z = x�x0

h

I L’uniforme 121 (|z | < 1) correspond à l’histogramme

I Quadratique 34

�1� z

2�1 (|z | < 1)

I Gaussienne(0, 1) : (2⇡)�1/2exp

��z2/2

�

I Gaussienne�µ,�2� : (2⇡)�1/2

exp

✓�⇣z � µ�

⌘2/2

◆

I Le choix (arbitraire) du noyau est réputé comme peu influentsur l’estimateur

I h, le paramètre de lissage, est plus difficile à choisirI Le + petit le + lisse

I Mais trop petit, il provoque l’apparition de détails artificielssur le graphe

I car trop peu de données entrent dans l’intervalleI Trop grand, la majorité du relief est effacée



Histogramme

Kernel smoother : Exemple dans R ! np2016.r

I Charger/installer le package KernSmoothI library("KernSmooth")

I wage_bkde<-bkde(cps$wage, kernel = "normal",bandwidth=1)

I Utiliser la variable “wage” dans le DataFrame cpsI Kernel (noyau K) : normalI Bandwidth : 1 : arbitraire

I plot(wage_bkde, xlab = "wage", ylab="density")I Graphique

I plot(wage_bkde, col=rev(rainbow(400, s = 1, v = 1, start =0, end = max(1,400 - 1)/400, alpha = 1)), xlab = "wage",ylab="density")

I la couleur reflète la valeur de wage pas celle de density



Histogramme

Kernel smoother : Exemple 2D ! np2016.rI Densité des observations en bivarié

Ibivariate kernel density estimator bkde2D( )

I cps_bkde<-bkde2D(cbind(cps$experience, log(cps$wage)),bandwidth=c(3.5, 0.5), gridsize=c(200, 200))

I bkde2D ne fonctionne pas tout à fait comme bkdeI Il faut choisir la bandwidth et la taille de la grille sur chacune

des 2 dimensionsI expérience & log(wage)

I image(cps_bkde$x1, cps_bkde$x2, cps_bkde$fhat,col=rev(gray.colors(10, gamma=1)), xlab = "experience",ylab="log(wage)")

I “heatmap” / courbes de niveauI Exercice

I Récupérer les données CPS1988 du même AERI Répéter l’analyse en 1D et 2DI Changer la bandwidth dans chaque cas



Histogramme

Interpréter les densités

I Sur le fond, la densité noyau (univariée) est une ligneI que l’on dessineI qui s’ajuste d’une certaine manière au nuage de points

I concrètement : elle représente la fréquence locale en chaquepoint

I On est proche d’une logique de régressionI Il faut conditionnerI Il y a d’autres façons de dessiner

I Splines, “nearest neighbor”, “neural network”...I Dans ce cours, on reste sur le noyau.



Choisir la bandwidth

Sommaire






Résumé




Propriétés de l’estimateur noyau univarié

I On vient de voir un exemple bivarié (2D)I La fonction kernel doit se comporter comme une densité

I de moyenne nulleI et de variance finie

Z

K (z) dz = 1Z

zK (z) dz = 0Z

z2K (z) dz = 2 <1

I Le support est généralement �1,+1




Erreur carrée moyenne (mean square error) MSEI Les fonctions noyau sont svt choisies sur un critère de MSEI Le bias de l’estimateur fNOYAU (x) est

f (x)� f (x)

(on laisse tomber “NOYAU” quand il n’y a pas confusion)I La MSE est

msef (x) = E�

biais2� = var f (x) + biais2

on peut montrer que

biais f (x) t h2

2@f (x)

@x2 2

var f (x) t f (x)

nh

Z

K 2 (z) dz




Erreur carrée moyenne (mean square error) MSE

I On voit queI La variance diminue avec la bandwidth hI Le biais augmente avec le carré de la bandwidth hI Le biais augmente avec la dérivée 2º de f ()

I il est donc au + fort autour du/des pics de la distribution

I Les propriétés qu’on a vu ont lieu en un pointI On peut intégrer le mse sur z pour obtenir une mse globale

imse f (x) =

Z

mse f (x) dx

I On cherche alors le kernel K et la bandwidth h qui minimisentimse




Erreur carrée moyenne (mean square error) MSE

I Le Kernel optimal est

Ke (z) =

(

34p

5

�

1� 15z

2� �p

5 z p

5

0 sinon

qu’on appelle kernel d’Epanechnikov du nom de son inventeurI Il se fait que pas mal de kernels ont des propriétés semblables

I donc le kernel est souvent choisi pour des raisons informatiques

I le kernel gaussien est le + souvent choisi




Choix de bandwidth

I Au contraire du Kernel,I l’optimisation précédente n’amène pas à une bandwidth

utilisable en pratiqueI Mais la bandwidth détermine l’ajustement bien plus que le

kernelI Il est important d’en choisir une appropriée au problème traité

I Il y a 4 grandes approches

1. Heuristique (rule of thumb)2. Plug-in – je ne poursuis pas3. Validation croisée

3.1 par MC3.2 par MV

4. Bootstrap




Heuristique “référence”

I Le principe est d’utiliser le kernel choisi pour calculer labandwidth optimale

I Comme souvent ce kernel est le kernel gaussienI Ça donne une bandwidth de 1.06�n�1/5

In est la taille d’éch.

I � est l’écart-type de la normale utilisée dans le kernelI en pratique, on prend � l’écart-type de l’échantillon




Autres méthodes

I Validation croisée par MCI Il est possible d’estimer le imse à partir de l’éch.I Cet imse dépend du bandwidthI On peut alors choisir le bandwidth qui minimise l’imseI Cette approche est la meilleure de celles présentées

I mais est sensible à de petites variations des données(arrondis...)

I Validation croisée par maximum de vraisemblanceI Même idée que la précédente, autre façon d’estimer le imseI Tend à sur-lisser (gommer les variations)

I Par bootstrapI Toujours l’idée d’estimer le imseI Trop exigeante sur le plan calculatoire




Conclusion

I On pourrait poursuivre avecI Comment estimer une densité discrèteI Comment estimer une multivariée

I Illustration graphique prochaine diaI On va plutôt passer à l’analyse conditionnelle

I Prélude à la régressionI Sur l’estimation d’une densité inconditionnelle

I La comparaison n’est pas tellement “paramétrique” vs. npI car paramétrique est souvent mal spécifié, donc inconsistant

I alors que np ne peut pas être mal spécifiéI mais par contre est assez inefficient




Estimations de densités multivariées par np dans R !np2016.r

I #### dynamic bivariate density plot avec donnees simuleesI Exécuter le programme

I Sélectionner tout le progrI jusque #### FIN dynamic bivariate density plot simulation

normalesI et “run”I Mettez en grand la fenêtre de sortie + zoom out

I ‘sliders’ and ‘pickers’ qui permettent de changerI kernel function, kernel order, scale factors, azimuthal viewing

direction, number of training, and number of evaluationobservations

I et immédiatement voir l’impactI Idem

I #### dynamic bivariate density plot avec donnees réellesGeyser



Estimation d’une densité conditionnelle

Sommaire






Résumé





I La densité conditionnelle est sous-jacente à l’analyse derégression

I Mais est rarement modélisée directementI En np, il est plus clair de passer par cette étape

I Soit f (.) la densité jointe de (X ,Y )I pour rappel Pr {X x ,Y y} =

R x R yf (.) dydx = f (x , y)

I µ (.) la densité marginale de XI µ (.) =

Rf (.) dY

I “integrate Y out”I Pour la suite,

I Y est la variable dépendanteI est expliquée

I X est un régresseurI est explicative




Densité conditionnelle

I La densité conditionnelle est

Pr {Y y |X x} = g (y |x) = f (x , y) /µ (x)

I L’estimateur noyau de cette densité est

g (y |x) = f (x , y) /µ (x)

I ˆµ (x) est l’estimateur noyau univarié vu à la section précédenteI f (x , y) est une extension bivariée de cet estimateurI Il faudrait discuter le choix de bandwidth




Densité conditionnelle : R ! np2016.r

I #### Least-squares cross-validated conditional densityestimation

I Prend un peu de temps, selon la machineI Peu d’output car pas 1 regressionI Plot possible

I on voit un graphique mal orientéI Surtout là pour illustrer une commande interne

I Rarement appelée directementI Exercice

I Changer les parmètres de la normale bivariéeI corrélation élevée, � ou I moyennes non-nullesI variances fort différentes




Régresseurs non-pertinents

I On voit bien que pour estimer une fonction g (.)I conditionnelle à pls régresseursI il faut intégrer pls fois

I pour obtenir la distribution multidim. des régresseurs

I On peut montrer que la convergence de f (.) à f (.)I détériore rapidement lorsque le nombre de variables continue

augmenteI “malédiction de la dimensionalité”

I Il est donc important en npI d’éviter les régresseurs non-pertinentsI Idéalement, ils sont “smoothed out” :

I Pour un x non pertinent, le graphe de y reste le même pourtous les niveaux de x




Régresseurs non-pertinents

I Hall et al. (2004) montre queI Une version de la validation croisée par MC

I assigne automatiquement un fort paramètre de lissage auxrégresseurs non-pertinents

I leur dist. marginale tend à l’uniformeI cela supprime leur contribution à la variance de l’estimateurI et donc montre qu’ils sont indép. de la variable expliquée

I Les variables pertinentes par contre sont lissées de façonusuelle

I Pas vers l’uniformeI Donc choisir la validation croisée par MC

I permet de trier les régresseurs pertinents et non.


Régression

Kernel Local Constant KLC

Sommaire






Résumé


Régression


Cas bivarié

I Cet estimateur de régression est connu aussi sous le nom“Nadaraya–Watson”

I de ceux qui l’ont proposéI On ne prend qu’un régresseur pour commencer

I par simplicité de notation


Régression


Moyenne conditionnelle g (x)

I Par définition, la moyenne conditionnelle de Y continue est

g (x) =

Z

yg (y |x) dy =

Z

yf (y , x)

f (x)dy =

m (x)

f (x)

où g (y |x) est la densité conditionnelle de la section précédenteet m (x) =

R

yf (y , x) dyI L’estimateur Kernel Local Constant KLC

I est celui défini à la section précédente

g (x) =

Z

yf (y , x)

f (x)dy =

Pni=1 yiK

✓

xi � x

h

◆

Pni=1 K

✓

xi � x

h

◆

I c’est un estimateur consistant de la moyenne conditionnelle


Régression


Biais et variance

I L’estimateur Kernel Local Constant KLCI souffre de “biais sur les bords”I p.e. on peut calculer dans le cas bivarié que

biais t h2

12g

00(x) +

g0(x) f

0(x)

f (x)

!

2

I Quand on approche du “bord” des donnéesI

f (x)! 0 donc le biais augmenteI Ce problème n’est pas partagé par l’estimateur “polynome

local” de la section suivante car le 2º terme à l’intérieur de laparenthèse disparait dans le cas linéaire


Régression


Bandwidths : optimale et basée sur données

I La bandwidth optimale de l’estimateur KLCI dépend de quantités inconnues, comme précédemmentI Elle ne peut être calculée dans le cas de régressionI On va donc utiliser une bandwidth basée sur les données

I Deux calculs de bandwidth basés sur les donnéesI Sont populairesI Validation croisée moindres carrés (cfr section précédente)I Minimiser le critère d’information d’Akaike (Hurvich)I On a montré qu’ils sont asymptotiquement équivalents


Régression


Régresseurs pertinents et non-pertinents

I Il a été montré (cfr sect. densité cond.) queI la validation croisée par MCI mène à un lissage optimal des 2 types de régresseurs

I Les non-pertinents n’ont plus d’effet sur la variance del’estimateur

I La malédiction de la dimensionalitéI implique que les non-pertinents doivent être retirés de la

régressionI afin de réduire le bruit autour des pertinents


Régression


Effets marginaux avec KLC “� (x)”

I On appelle “effet marginal” ou “réponse”I L’effet de x sur g (x) =

R

yg (y |x) dyI donc sur la moyenne conditionnelle de y

I Par analogie avec le modèle de régression linéaire y = x� + ✏I on appelle cette réponse � (x)

I � (x) =@g (x)

@x=

f (x)m0(x)�m (x) f

0(x)

f 2 (x)

I puisque g (x) =m (x)

f (x)

I donc � (x) =m

0(x)

f (x)� g (x)

f0(x)

f (x)I On remplace par les estimations de ces valeurs


Régression


Effets marginaux avec KLC “� (x)”

I � (x) =m

0(x)

f (x)� g (x)

f0(x)

f (x)avec

I m (x) =1nh

Pni=1 yiK

✓

xi � x

h

◆

I m0(x) = � 1

nh2

Pni=1 yiK

0✓

xi � x

h

◆

I f (x) =1nh

Pni=1 K

✓

xi � x

h

◆

I f0(x) = � 1

nh2

Pni=1 K

0✓

xi � x

h

◆

I AttentionI L’effet marginal n’est jamais constant comme en régression

linéaireI On verra mieux dans les exemples

I En multivarié (plusieurs régresseurs)I C’est plus compliquéI Mais le fond est le même


Régression


Conclusion de la sous-section

I On a donc un estimateur de régression npI Kernel Local ConstantI à Validation croisée moindres carrésI pour laquelle

I Les régresseurs non-pertinents disparaissent d’eux mêmesI on peut calculer les effets marginaux

I On va voir un autre estimateur


Régression

Kernel Local Polynomial KLL

Sommaire






Résumé


Régression


AnalogieI Le KLC peut être réécrit comme minimisation de

g (x) ⌘ mina

nX

i=1

(yi � a)K

✓

xi � x

h

◆

I On généralise en mettant un polynome à la place de aI Le plus populaire est le linéaire

g (x) ⌘ mina,b

nX

i=1

(yi � a� b (xi � x))2 K

✓

xi � x

h

◆

qui s’interprête en disant qu’autour d’un point x0, la régressionest approx. linéaire

g (x0) t a+ b (x0 � x)

I C’est l’estimateur Kernel Local Polynomial (ou linéaire) KLPou KLL


Régression


PropriétésI Le terme a est alors la moyenne conditionnelle g (x)

I Comme l’intercept dans une régression linéaireI Le terme b est la pente,

I donc l’effet d’un changement marginal de x sur g (x)I c’est-à-dire le � (x) de l’estimateur KLC

I Cet estimateur KLP souffre moins du “biais de bord” que KLCI mais est sujet à des problème de singularité

I lorsqu’il y a localement peu de donnéesI On peut calculer des biais et variances approximés

I comme avec KLCI Les régresseurs non-pertinents

I ne disparaissent pas d’eux-mêmesI ne sont pas “smoothed-out” comme avec KLC

I provoquent une variabilité excessive


Régression

Exemples

Sommaire






Résumé


Régression

Exemples

Un exemple simulé bivarié ! np2016.r

I #### Regr. ex. sim. bivarieI Sortie postcript

I Juste pour montrer les optionsI Si ça ne marche pas pour vous, remplacez par pdfI ou exécutez seulement la commande plot

I Les graphes ne sont pas très “smooth”I C’est parce que n est petit (50)

I Les sorties sont assez pauvresI Pas aussi clair que pour lm( )I Sauf les graphiques

I Exercice. Répétez le programme en changeantI la taille d’éch. à 100I la façon de générer y

I p.e. comme la somme ou le ratio de 2 normales pour avoir unedist. bimodale


Régression

Exemples

Ex. Comparaison des méthodes de choix de Bandwidth !np2016.r

I #### Regr. ex. bandwidthI 5 bw

I 2 arbitraires : under & overI 2 cross-validation : Moindres carrés et AICI 1 plug-in

I Plot en 4 tableauxI Regroupe les 2 cv

I ExerciceI séparer le plot des 2 cv en 2 et supprimer le plug-inI Changer les 2 bw arbitraires under et over pour les reserrer


Régression

Exemples

Et le t dans tout ça ?

I Comment voit-on la significativité de l’effet marginal ?I Les graphes mettent des intervales de confiance

I On va voir ça dans le prochain exempleI La section suivante “Test d’hypothèse consistant”

I présente des tests formels (non graphiques)


Régression

Exemples

Ex. Multivariate Mixed-Data Application ! np2016.r

I #### Ex. regr. mixte (cont. & cat)I Part 1 et part 2I Constater graphiquement que la significativité n’est pas

constanteI Puisque l’intervalle de confiance évolue selon x

I ExerciceI Répliquer en changeant la CV ou le kernel (LC au lieu de LL)


Régression

Test d’hypothèses

Sommaire






Résumé


Régression


Intro

I On ne revient pas sur les tests np de la 1º partie du coursI il s’agit de tests en contexte de régression

I Soit tester une spécification paramétriqueI Permet de justifier une approche np

I Soit tester la significativité des régresseurs d’une régression npI l’équivalent des t-stats

I Un régresseur parmi plsI On n’a pas d’équivalent au test F


Régression


Un test de significativité pour des régressions np

I Il y a pls approchesI On prend ici celle de Racine qui accepte des régresseurs

continus & cat.I On va regarder d’abord cat.

I puis continu


Régression


Un test de significativité : régresseurs catégoriques

I SoitI z le régr. cat qui peut être non-pertinentI X tous les autres régresseursI L’hyp. nulle est

H0 : E (Y |X , z) = E (Y |X )

presque partoutL’alternative est que l’égalité est en fait 6= (2-tailed)

I Pour simplifier on écritI g (x) = E (Y |x) et m (x , z) = E (Y |X , z)I disons que z prend c valeurs dont la 1º est zéro

I si c = 2, z est une dichotomique, le cas le + fréquentI H0 peut alors s’écrire m (x , z = l) = m (x , z = 0) 8l


Régression


Un test de significativité : régresseurs catégoriquesI La stat de test est

I =c�1X

l=1

Enh

m (x , z = l)�m (x , z = 0)2io

I Pour la calculerI On prend les valeurs estimées par KLC ou KLL de mI On somme sur toutes les l 6= 0

I et sur toutes les obs.I On voit bien que I � 0

I et que z est non signif. si I est proche de zéroI Il n’y a pas de distribution connue

I Il faut faire du bootstrapI Mis en oeuvre dans npsigtest( )

I On verra dans l’exemple


Régression


Un test de significativité : régresseurs continus

I H0 est la même,I mais “presque partout”

I car on a en quelque sorte 1 catégories

I Équivalent à@E (y |x , z)

@z= � (z) = 0 presque partout

I La stat de test est I = En

[� (z)]2o

I On calcule son estimation KLC ou KLL In = 1n

Pni=1 � (zi )

2

I Comme dans le cas catégorique, la dist. de In est inconnueI On utilise bootstrap


Régression


Ex. Multivariate Mixed-Data Application ! np2016.r

I On poursuit l’exemple précédent – part 3I # Part 3 Tests de significativiteI Simple : on passe l’objet bw

I Le packageI distingue le cat et le contI fait le test adéquat

I Pas de test sur plusieurs coef conjointement


Régression


Tester une spécification paramétrique

I On veut tester si un modèle param. est correct

H0 : E (Y |x) = m (x , �0)

pour presque tous les xpour un certain �0 vecteur (p ⇥ 1) de paramètreset m (x , �) une fonction connue (possiblement non-linéaire(

I En définissantµi = yi �m (xi , �0)

alors on peut écrire

Ho : E (µi |xi ) = 0

pour presque toutes les valeurs possibles de x


Régression


Tester une spécification paramétrique

I Une idée pour construire la stat de test estI de dire que comme il faut vérifier H0 pour presque tous les xI on pourrait calculer E (µi |xi ) pour chaque x

I prendre le carréI et regarder si la somme de ces carrés ne devient pas trop

grandeI Comme on faisait dans le test du �2

I Comme on ne voit pas plusieurs xI Il faut calculer la somme des carrés indirectementI En utlisant les résidus µi du modèle paramétriqueI Et une technique de bootstrapI La stat calculée se nomme JnI Mis en oeuvre dans npcmstest( )


Régression


Tester une spécification paramétrique – exemple ! np2016.r

I On poursuit l’exemple précédent – part 4I # 4. Test de specification param.I On prend un modèle linéaire classique du modèle np qu’on a

estimé auparavant

lwage = �0+�1Femme+�2Mari e+�3Educ+�4Exp+�5Tenure

Rem. Tenure = job permament, possiblement CDII Ici, on obtient une p-valeur <5% largement

I R le modèle linéaireI Exercice

I Refaites le test en ajoutant l’exp. quadratique


Régression

Qualité de l’ajustement

Sommaire






Résumé


Régression


Qualité de l’ajustement (Goodness-of-Fit)I Essentiellement, une mesure de R2 en np

R2 =[Pn

i=1 (yi � y) (yi � y)]2Pn

i=1 (yi � y)2Pn

i=1 (yi � y)2

yi est la valeur ajustée de yiI donc g (xi )

I 0 R2 1I 1 est un ajustement parfaitI 0 aucun pouvoir prédictif au-delà de la moyenne

inconditionnelleI Dans le cas d’un modèle linéaire

I estimé par MCOI avec un interceptI Cette définition du R2 produit le même chiffre que la définition

classiqueI basée sur les résidus


Régression


Régression np – résumé de l’approche kernel

I D’abord il faut calculer une bwI bw.all<- npregbw

I on peut préciser ici LL ou LC & la cross-validationI Ensuite la régression

I model.np <- npreg(bws=bw.all)I summary(model.np) présente la qualité de l’ajustement

“R-squared”I À ce stade on peut “plot”

I avec les marges d’erreurI Puis les tests

I Significativité des régresseursI Spécification paramétrique

I Si celle-ci n’est pas rejetée, mieux vaut l’utiliser, car +efficiente


Régression

Modèles à données de panel

Sommaire






Résumé


Régression


Rappel

I Un panel est une coupe transversaleI répétée dans le temps tI en principe sur les mêmes i

I sauf attrition, qu’on suppose non-endogèneI Pour simplifier tous les i sont observés T fois

I Lorsque T est grandI chaque série de i peut analysée séparemment en séries temp.

I qu’on ne voit pas pour np

I Donc, on se place en panels courts : n!1 mais T cstI Les données de panel sont notées hyit , xiti


Régression


Panels non-paramétriques

I Dans le modèle panel linéaire

yit = ↵i + x0it� + ✏it

on pouvait accepter queI ↵i soit la partie constante dans le temps, par i , du terme

d’erreurI qu’elle soit corrélée avec xit (les “effets fixes”)I car on pouvait s’en débarrasser par les estimateurs within ou

différence 1ºI Cette hyp. d’additivité de l’hétérogénéité inobservée

I Fait disparaitre les régresseurs constants dans le tempsI Alors que c’est svt eux qu’on voudrait étudier

I En np, on n’a pas d’hyp. d’additivitéI Un série d’estimateurs ont été proposés


Régression


Panel dans npI Le package np propose l’estimateur suivantI Soit le modèle np

yit = g (xit) + uit

g (.) est une fonction lisse inconnuex contient q régresseursE (uit |xi1, . . . , xiT ) = 0 exogénéité stricte

I On introduit l’hétérogénéité inobservée constante dans letemps

I par une variable discrète non-ordonnée

�i = i , i = 1, ..., n

ce qui introduit de fait n catégoriesI Ces cat nous rapprochent du contexte de la régression np

I avec un mélange de régresseurs cat. et continus


Régression


Panel dans np

I Si le “régresseur” catégorique n’est pas significatifI Les pentes sont les mêmes pour tous les régresseursI Cela pointe donc vers un intercept différent par i

I si les moyennes conditionnelles par i sont différentes entre ellesI Par contre, s’il est significatif

I Les pente par i sont différentesI Donc les données de différents i ne sont pas mélangeables

I L’analyse Panel n’est donc pas complètement implémentéedans np

I Car l’endogénéité ne parait pas traitée / éliminée comme aveceffets fixes

I mais np apporte un complément d’analyse


Régression


Panel dans np – exemple ! np2016.rI #### Ex. regr. panel

I Ex. Répliquer en changeant CV ou kernel (LC / LL)I Panel annuel sur les coûts de 6 cies aériennes US

I 15 ans 1970 à 1984 (cylindré)I airline i traité comme factor non-ordonnéI year t factor ordonnéI log of cost lcost, log output (passagers ⇥ miles), log prix fuel

lpf, “load factor” lf capacité utilisée moyenne de la flotteI BW : petite pour “airline”

I suggère de ne pas mélanger les donnéesI Dans le plot diapo suivante

I On voit un effet marqué par airline (t ↵i )I Mais des pentes plutôt linéairesI Indiquerait donc que les données sont assez homogènes pour

être mélangée

Panel dans np – exemple ! np2016.r


Modèles semiparamétriques

Intro

Sommaire






Résumé



Intro

Méthodes semi-paramétriques sp

I Assez populairesI Combinent des éléments des 2 approches

I CompromisI S’appuient sur des paramètres

I Donc inconsistant en cas de fausse spécificationI Utiles lorsque

I La malédiction de la dimensionalité fait que le np nefonctionne pas bien

I On veut utiliser un modèle paramétrique pour seulement unepartie des régresseurs

I ...I Pas une méthodo

I plutôt un cahier de recettes propres à des cas particuliers



Intro

4 cas sp implémentés dans np

I Extensions du modèle linéaireI Modèles partiellement linéaires

I Les splines sont un autre cas partiellement linéaireI Coefficients aléatoires

I Modèles à index uniqueI y dichotomiqueI y inconnu



Extensions du modèle linéaire

Sommaire






Résumé




Modèle partiellement linéaireI Modèle d’apparence simple

I Mais le calcul de bandwidth le rend assez lourdI Bien plus qu’un modèle paramétriqueI Du moins quand on base la bandwidth sur les données

I Un modèle sp linéaire

yi = x0i � + g (zi ) + ui

x et � ont la signification habituelle avec p régresseursI u n’est pas corrélée avec x ou z

I mais peut être hétéroscédastiqueI z comprend q régresseursI g () n’est pas spécifiée

I L’important est d’obtenir un estimateur consistant de �I Puisque quand on l’a, g () est estimée par régression np de

y � x � sur g (x)




Estimation de �

I Dans le modèle sp linéaire

yi = x0i � + g (zi ) + ui

on prend l’espérance conditionnelle à z

E (yi |zi ) = E (xi |zi )0� + g (zi )

en soustrayant les 2 :

yi � E (yi |zi ) = (xi � E (xi |zi ))0� + g (zi ) + ui

I On ne connait ni E (yi |zi ) ni E (xi |zi )I Mais on peut les estimer par regr. np de façon consistante

I Régression car espérance conditionnelle




Estimation de �

I Soit E (yi |zi ) et E (xi |zi ) ces estimationsI On écrit

yi = yi � E (yi |zi ) et xi = xi � E (xi |zi )

alors�p.lineaire =

h

X0Xi�1

X0Y

I À présent, on réécrit le modèle sp linéaire

yi � x0i �p.lin = g (zi ) + ✏i

où le ui devient un ✏iI pour souligner qu’au lieu de �, on utilise �p.linI Ce modèle est alors estimé par une des techniques np vues




Modèle partiellement linéaire – exemple ! np2016.r

I Données Wage 1I Comme précédemment

I ### Modele partiellement lineaireI Commande principale

I npplregbw pour la bwI npplreg(bw) pour la régression

I Bug pour le plot ?I Exercice : au lieu de exper, traiter educ comme non-linéaire

I Exper en quadratiqueI Exercice : traiter educ et exper comme non-linéaires

I Les t-stats ?




Modèle à coefficients aléatoires

I Coefficients “lissés” ou “variables”8

>

>

>

>

<

>

>

>

>

:

yi = ↵ (zi ) + x0i � (zi ) + ui

=⇣

1 + x0i

⌘

↵ (zi )

� (zi )

!

+ ui

= w0i � (zi ) + ui

I en mots : les coef ↵ et � sont des fonctions de zI non-spécifiées & lisses

I comme ça, on va pouvoir les estimer par np




Modèle à coefficients aléatoiresI Prémultiplier par wi

I et prendre l’espérance conditionelle à zi

E [wiyi |zi ] = Eh

wiw0

i |zii

� (zi ) + E [wiui |zi ]

� (zi ) sort de l’espérance car il est déjà conditionnel à ziI On se retrouve dans une situation proche du modèle

partiellement linéaireI On peut exprimer � (zi ) comme dans MCO

� (zi ) = (E [wiyi |zi ])�1 Eh

wiw0

i |zii

I Les espérances conditionnelles sur zi peuvent être estimées parnp

I En utilisant l’ensemble de l’échantillon, pas L à L




Modèle à coefficients aléatoires – exemple ! np2016.r

I Données Wage 1I ### Modele a coefficients aleatoires

I Commande principaleI npscoefbw pour la bwI npscoef(bw,betas=TRUE) pour les coef

I Assez peu d’outputI Comment interprêter les moyennes des coefs aléatoires ?

I ExerciceI Essayer de calculer les t-stats (sans garantie)I



Modèles à index unique

Sommaire






Résumé




Index unique / “Single index”

I Modèles de forme

yi = g⇣

X0i �⌘

+ ui

où les notations sont celles du MRLavec q régresseurset E (ui |Xi ) = 0

I X0i � est une forme linéaire (= un index)I dont on ne connait pas les paramètres �

I Lorsque g () estI identité : MRLI La fonction de probabilité Logistique ou normale : Logit /

probit




Single index semi-paramétriques

I On a un modèle semi-paramétrique lorsqueI g (.) est une fonction inconnue, non-spécifiéeI “Semi” car paramètres �

I inconnus égalementI + flexible que paramétrique

I moins susceptible à la malédiction de la dimensionalitéI car x

0i � est de fait un seul régresseur

I On appelle cela une “réduction de la dimensionalité”I Donc convergence + rapide de l’estimation




Identification

I Avant de pouvoir estimer,I il faut que le modèle soit identifiableI c’est-à-dire qu’il ait la capacité de produire une estimation

I et que ce soit de manière uniqueI Plus précisément, si on a 1 obs.

I peut-on théoriquement découvrir les vrais paramètres (oufonction) du modèle de manière unique ?

I Ex. 1. le MRL y = ↵+ X� + ✏, E (✏|x) = 0 est identifiableI ssi X 0X est invertible

I Ex. 2. Modèle probit Pr (↵+ X� + ✏ < 0)I Soit y = 1 ssi ↵+ X� + ✏ < 0, ✏ ⇠ n

�

0,�2�

I Comme (↵+ X� + ✏ < 0) () a (↵+ X� + ✏ < 0) , a > 0,I il résulte que �2 n’est pas identifiableI Probit est partiellement identifiable avec ce type de données




Identification des modèles single-index

I Le MRL comme Probit sont 2 cas particuliers de single indexI On voit donc 2 conditions d’identificationI Il faut aussi que g () ne soit pas une fonction constante

Ig (X�) = c 8X

I Soit 2 constantes � quelconque et � 6= 0, alorsI E (Y |X = x) = g

⇣

x0�⌘

et

I E (Y |X = x) = g⇤⇣

� + �x0�⌘

I sont dites “observationnellement équivalentes”I Même si on connaissait la distribution de (Y ,X )

I On ne pourrait pas distinguer ces 2 modèles (savoir lequel estle bon)

I Il faut donc des restrictions additionnellesI pour identifier � et g ()




Identification des modèles single-index

I La restriction sur � est appelée normalisation de localisation

I Le point glisse sur le supportI Essentiellement la moyenneI Est obtenue en imposant que X ne contienne pas de constante

I (y compris des combinaisons lin. des col. de X )I Sur � : normalisation d’échelle

I Essentiellement la variance, la dispersionI Est obtenu en imposant qu’un des coef. de � soit égal à un

I Il faut aussi queI g () soit différentiable (sans preuve)I un au moins des éléments de X soit une variable continue

I diapo suivante




Single-index à variables catégoriques uniquementI Soit X = (X1,X2) à supports {0, 1} pour les 2 éléments de X

I On normalise le coef de X1 à 1I Normalisation d’échelle

I Le modèle E (Y |X = x) = g⇣

x0�⌘

devientI

E (Y |X = x) = g (x1 + x2�2)

I Supposons que les données soient t.q.(x1, x2) E (Y |X = x) g (x1 + x2�2)

(0, 0) 0 g(0)(1, 0) 0.1 g(1)(0, 1) 0.3 g(�2)(1, 1) 0.4 g(1 + �2)

I Comme on peut choisir à la fois g () et �2I il y a 1 de solutions : pas identifié




2 cas sont traité dans le package np

I Ichimura : y est continuI Klein & Spady : y est une dichotomique

I Intéressant car on n’a pas d’équivalent logit/probit en np




Ichimura : y est continu

I Si on connaissait g ()I On pourrait estimer � par Moindres Carrés Non-Linéaires

� ⌘ arg min�

1n

X

i

Wi (yi � g (x))2

Wi est un poids, sur lequel on ne s’attarde pas iciI À cause de la non-linéarité de g () :

I Il n’y a pas de solution analytiqueI On n’a que des approches numériques

I On ne connait pas g ()I Et on ne peut pas appliquer un estimateur Kernel

I car on ne connait pas �

I Ichimura propose une modification de MC non-lin.I dans laquelle g () est estimé par un kernel modifié




Ichimura – exemple ! np2016.rI Même exemple avec wage1 qu’on a déjà utiliséI ### IchimuraI L’estimateur d’Ichimura est invoqué en 2 étapes comme

toujoursI npindexbw pour la bandwidthI pour les coefficients

I La fonction g () n’est pas dans l’outputI puisqu’on l’estime de façon npI Par contre la commande semble accepter de calculer un

gradientI Exercice : plot du gradient

I Les coefficient sont comparables avec un modèle linéaireI au sens où on peut comparer leur impact relatif

I La méthode est intensive en ordinateurI Avec bcp de données : long




Estimateur de Klein & Spady

I Ici, y est dichotomiqueI Alors g

⇣

x0

i �⌘

= Pr {Y = 1|X = xi}

I Si g () était connue,I alors l’estimation se ferait par max. vraisemblanceI Avant de poursuivre, on va faire un rappel sur MV




Maximum de vraisemblanceI La fonction de densité de probabilité d’une va y

I conditionnellement à des paramètres ✓I est notée f (y |✓)

I Si on a un éch. de n obs. iid de cette vaI Alors, on peut définir la densité jointe de l’éch. comme le

produit des densités de chaque obs.

f (y1, ..., yn|✓) =nY

i=1

f (yi |✓) = L (✓|y)

I Cette densité jointe est appelée fonction de vraisemblance

(likelihood)I Très souvent, on prend le log

ln L (✓|y) =nX

i=1

ln f (yi |✓)




Maximum de vraisemblance

I Il est souvent nécessaire de généraliser pour introduire desrégresseurs

I Soit le MRL yi = xi� + ✏iI On suppose que ✏ est normale

I avec moyenne 0 & variance �2

I Donc yi est normaleI avec moyenne µi = xi� et variance �2

I Donc, les obs. de la va ne sont pas iid

I Elles ont des moyennes différentesI Mais elles restent indépendantesI Et on peut les standardiser pour qu’elles aient la même

moyenneI Ça donne la fonction de vraisemblance

ln L (✓|y ,X ) =P

ln f (yi |xi , ✓) = � 12Pn

i=1

h

ln�2 + ln (2⇡) + (yi � xi�)2 /�2

i




Maximum de vraisemblance : Probit

I Le même MRL avec un seul régresseur + 1 cst

yi = �1 + �2xi + ✏i

où ✏i |xi ⇠ n�

0,�2�

I Context d’un achat important, p.e. une voitureI xi est le revenu de iI yi est la 6= entre la disposition à payer p⇤i , et le prix de la

voiture piI On n’observe pas yi mais seulement si i achète la voiture ou

nonI Soit y⇤

i = 1 lorsque yi = p⇤i � pi > 0I Et donc y⇤

i = 0 sinonI (quels sont ces i qu’on “n’observe pas” acheter ?)




Maximum de vraisemblance : Probit

I La proba d’achat est

Pr {y⇤i = 1|�1,�2,�, xi} = Pr {yi > 0|�1,�2,�, xi}= Pr {�1 + �2xi + ✏i > 0|�1,�2,�, xi}= Pr {✏i > ��1 � �2xi |�1,�2,�, xi}= Pr {✏i/� > (��1 � �2xi ) /�|�1,�2,�, xi}= Pr {zi > (��1 � �2xi ) /�|�1,�2,�, xi}

où zi a une dist. normale standard

I La proba de ne pas acheter est un moins cette proba




Probit : identification par normalisationI Donc la fonction de vraisemblance estY

i=achat

[Pr {ach|�1,�2,�, xi}]⇥Y

i=pas ach

[1� Pr {ach|�1,�2,�, xi}]

I Souvent réécrite commeY

i

[Pr {ach|�1,�2,�, xi}yi ] [1� Pr {ach|�1,�2,�, xi}](1�yi )

I Les paramètres �1,�2,� de ce modèle ne sont pas

identifies :I S’ils sont multipliés par une même constante non-nulle

I le nouveau modèle est observationnellement équivalentI Pr {ach} et la fct de vrais. ne changent pas

I La normalization généralement utilisée est � = 1




Interprétation

I Avec une va discrète, f (yi |✓) est la proba d’observer yiconditionnellement à ✓

I La fct de vraisemblance est la proba d’observer l’éch.I On suppose que l’éch. qu’on a est le + probable

I Sorte de principe de médiocritéI Si on choisit ✓ de sorte à maximiser la fact de vraisemblance

I alors on max la proba de l’éch.I Ce qui correspond bien à l’hyp de médiocrité




Maximum de vraisemblance : notes

I Cette maximisation produit l’estimateur max. de vraisemblance

I Généralement numériquement + simple de max. lalog-vraisemblance

I Comme ln est monotone, c’est le même maxI La condition de 1º ordre de la max

I @ ln L (✓|data) /@✓ = 0I est appelée équation de vraisemblance




Maximum de vraisemblance : propriétésI Si l’hypothèse de distribution est correcte

I dans le probit : ✏i |xi ⇠ n�

0,�2�

I Alors MV a de très bonnes propriétéI

Notation : ✓ estimateur ; ✓0 vraie valeur ; ✓ toute autre valeurI

Consistance : plim ✓ = ✓0

INormalité asymptotique : ✓ ⇠ N

h

✓0, {I (✓0)}�1i

I I (✓0) = �Eh

@2 ln L/@✓0@✓0

0

i

est dite information matrix

IAsymptotiquement efficient

I ✓ atteint la borne de Cramer–Rao pour les estimateursconsistants

IInvariance : l’estimateur de �0 = c (✓0) est c

⇣

✓⌘

I si c (✓) est continue et différentiableI MV n’a que des propriétés asymptotique

I En petits éch. il peut être biaisé/inefficient




Retour à Klein & Spady

I Un estimateur sp pour le cas probitI g

⇣

x0

i �⌘

= Pr {Y = 1|X = xi}

I Si g () était connue,I alors l’estimation se ferait par max. vraisemblance

I p.e. probit, on suppose que g () est la probabilité normale,donc

ln L (�|y , x) =P

i [yi Pr {yi = 1|�, xi}] [(1� yi ) (1� Pr {yi = 1|�, xi})]I g () n’étant pas connue

I on a le même problème qu’avec IchimuraI Klein & Spady proposent un estimateur Kernel modifié




Klein & Spady – exemple ! np2016.rI Données sur le poids à la naissanceI ### Klein & Spady

I C’est longI Matrice de confusion

Prédit0 1

Rée

l

0Logit 119 11K&S 119 11

vrais faux �

1Logit 34 25K&S 22 37

faux vrais �I Léger avantage à K&SI Exercice


Résumé

Régressions np

I On part d’un histogramme lissé par un kernelI Estimateur de la fct de densité d’un va continueI Importance du bandwidth

I Dans quel rayon autour de x0 compte-t-on ?I Minimiser la Integrated MSE - par LS Cross-validation

I Par contre le Kernel optimal est à peu près GaussienI Généralisation à

I va catégoriqueI va multivariée

I Malédiction de la dimensionalité


Résumé

Régressions np

I Ces éléments permettent deI calculer un estimateur kernel de la densité conditionnelleI Une régression est l’espérance de la densité conditionnelle

I conditionnée sur un ou pls régresseursI Estimateur kernel local constantI ou local linéaire

I L’effet marginal @E (y |x) /@xI dépend des niveaux des xet de y


Résumé

Régressions np

I On peut tester la significativité d’un régresseurI Calculer l’équivalent d’un R2

I Tester une spécification param. avec les même régresseursI Si on ne la rejette pas, la préférer car + efficiente

I Il existe une version panelI Resterait à évoquer l’endogénéitéI Les séries temp.I La théorie existe, mais moins des packages

Download - Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2016 …risques-environnement.universite-lyon.fr/IMG/pdf/np_ch3... · 2016. 12. 6. · Statistiques non-paramétriques

Top Related