Kausalanalyse
Paneldatenkontinuierliche Zielvariablen
2
Warum geht es in den folgenden Sitzungen?
Klausur (60 Minuten)22.07.2008
Ereignisdatenanalyse III16.07.200814
Ereignisdatenanalyse II09.07.200813
Ereignisdatenanalyse I02.07.200812
Paneldatenanalyse kategorialer Zielvariablen III25.06.200811
Paneldatenanalyse kategorialer Zielvariablen II18.06.200810
Paneldatenanalyse kategorialer Zielvariablen I11.06.20089
Paneldatenanalyse kontinuierlicher Zielvariablen III04.06.20088
Paneldatenanalyse kontinuierlicher Zielvariablen II28.05.20087
Paneldatenanalyse kontinuierlicher Zielvariablen I21.05.20086
Analysemöglichkeiten von Paneldaten (trotz Pfingstferien)14.05.2008
Kumulierte Querschnittsdaten II07.05.20085
fällt aus30.04.20084
Kumulierte Querschnittsdaten I23.04.20083
Allgemeines lineares Modell16.04.20082
Einführung und Überblick09.04.20081
ThemaSitzung
Paneldaten: y kontinuierlich
3
Gliederung
1. Paneldaten: Was ist das?2. Vor- und Nachteile von Paneldaten3. Regressionsmodelle für Paneldaten4. Schätzverfahren für Paneldaten5. Vergleich verschiedener Schätzverfahren6. Ausblick
4
Panel-Daten: wiederholte Messung bei den gleichen Untersuchungseinheiten
• hier: n Personen, T Zeitpunkte• pro Person eine Zeitreihe• Dimension der Datenmatrix
– (n ⋅ T) ⋅ V• Datendefinition in Stata
– tsset id jahr
• Anordnung der Personen unwichtig, aber für jede Person ist die zeitliche Anordnung der Befragungen wichtig
• unabhängige Beobachtungen– zwischen den Personen– aber nicht für jede Person
ID Jahr Kids Educ1 1984 0 121 1985 0 12... ... ... ...2 1984 2 92 1985 2 9... ... ... ...3 1984 0 103 1985 1 11... ... ... ...4 1984 1 84 1985 2 8... ... ... ...5 1984 3 135 1985 3 13... ... ... ...6 1984 2 156 1985 2 15... ... ... ...7 1984 0 97 1985 1 10... ... ... ...7 2000 2 13
5
Staat Datum Unfälle GurtCA Jan. 72 40511 0CA Feb. 72 36034 0... ... ... ...MI Jan. 72 37699 0MI Feb. 72 38816 0... ... ... ...
NY Jan. 72 38625 0NY Feb. 72 39539 0... ... ... ...
CO Jan. 72 40676 0CO Feb. 72 39270 0... ... ... ...NJ Jan. 72 36672 0NJ Feb. 72 32699 0... ... ... ...TX Jan. 72 36455 0TX Feb. 72 36690 0... ... ... ...FL Jan. 72 36850 0FL Feb. 72 36284 0... ... ... ...FL Dez. 89 38366 0
MikropanelN>>T
MakropanelT>>N
ID Jahr Kids Educ1 1984 0 121 1985 0 12... ... ... ...2 1984 2 92 1985 2 9... ... ... ...3 1984 0 103 1985 1 11... ... ... ...4 1984 1 84 1985 2 8... ... ... ...5 1984 3 135 1985 3 13... ... ... ...6 1984 2 156 1985 2 15... ... ... ...
3017 1984 0 93017 1985 1 10
... ... ... ...3017 2000 2 13
6
Mikro- versus Makropanel
n kleinUnterschiede modelliert
n großunbeob. Heterogenität
Untersuchungs-einheiten
MakroökonomiePolitologie
MikroökonomieSoziologieVerwendung
DatenlückenPanelmortalitätProbleme
T großexplizit modelliert
T kleinTeile häufig ignoriert
serielleAbhängigkeit
OECD(Makrodaten)
SOEP(Mikrodaten)
TypischeBeispiele
pooled time-series cross-section datapanel dataenglisch
MakropanelMikropanel
7
Vorlesung konzentriert sich auf …
n kleinUnterschiede modelliert
n großunbeob. Heterogenität
Untersuchungs-einheiten
MakroökonomiePolitologie
MikroökonomieSoziologieVerwendung
DatenlückenPanelmortalitätProbleme
T großexplizit modelliert
T kleinTeile häufig ignoriert
serielleAbhängigkeit
OECD(Makrodaten)
SOEP(Mikrodaten)
TypischeBeispiele
pooled time-series cross-section datapanel dataenglisch
MakropanelMikropanel
8
Gliederung
1. Paneldaten: Was ist das?2. Vor- und Nachteile von Paneldaten3. Regressionsmodelle für Paneldaten4. Schätzverfahren für Paneldaten5. Vergleich verschiedener Schätzverfahren6. Ausblick
9
Paneldaten erlauben differenziertere Aussagen über sozialen Wandel
10001000Insgesamt
700(70%)
690(69%)Rest
300(30%)
310(31%)Partei X
t2t1t2
1000700(70%)
300(30%)Insgesamt
690(69%)420270Rest
310(31%)28030Partei X
InsgesamtRestPartei X
t1
Paneldaten erlauben zusätzlich Aussagen über individuelle Veränderungen
Kumulierte Querschnitte erlauben Aussagen über Trends
Wähleranteil gleich, aber hohe Wählerwanderung
Wähleranteil der Partei X ist gleich geblieben
10
Möglichkeiten der Kausalanalyse verbessern sich mit Paneldaten• Kausalanalyse setzt Kenntnis der zeitlichen Abfolge auf
Individualebene voraus• Kausalitätskriterien
– x und y korrelieren miteinander– alle relevanten Drittvariablen sind kontrolliert– theoretisch begründbar, mindestens geht die erklärende Variable
x der zu erklärenden Variablen y zeitlich voraus• Paneldaten: Zustand der Untersuchungseinheit i zum
Zeitpunkt t-1 (und allen vorhergehenden Zeitpunkten) ist bekannt
• keine Erinnerungsprobleme bei Paneldaten: Zustand zum Zeitpunkt t-1 wird zeitnah erfasst und muss nicht retrospektiv erhoben werden (wie etwa bei Querschnittsdaten)
11
Wiederholte Messung ein Problem?• Einerseits: Die statistische Abhängigkeit der
Beobachtungen muss durch geeignete statistische Methoden kontrolliert werden.– N = n ⋅ T Fälle in einer Datei aus Paneldaten ergeben
nicht die gleiche Informationsmenge wie N Fälle in einer Datei aus Querschnittsdaten.
• Andererseits: Die wiederholte Messung pro Untersuchungseinheit bietet zusätzliche Möglichkeiten, unbekannte Drittvariablen zu kontrollieren.– siehe Teil 3: Modelle für Paneldaten– Analyse von Ereignissen und Quasi-Experimenten
(allgemein: Kausalanalyse) präziser
12
Konstanz des Erhebungsinstruments?
• Änderung der Fragen und Antwortvorgaben– neue Fragen– obsolete Fragen– revisionsbedürftige Fragen (z.B. aufgrund von
Erfahrungen aus vorherigen Befragungswellen)• Bedeutungswandel• Lerneffekte
13
Probleme der Repräsentativität größer als bei Querschnittsdaten• Repräsentativität zum Zeitpunkt der Stichprobenziehung
– gleiche Probleme wie bei Querschnittserhebung• Repräsentativität im Längsschnitt bei im Zeitablauf
konstanter Bevölkerungsstruktur– durch Panelmortalität sind die verbleibenden Panelteilnehmer
zunehmend weniger ein repräsentativer Querschnitt der Bevölkerung aus dem Jahr der Stichprobenziehung
• Repräsentativität im Längsschnitt bei im Zeitablauf variabler Bevölkerungsstruktur– wenn sich die Bevölkerung im Zeitablauf verändert, ist das Jahr
der Stichprobenziehung und damit die Panelstichprobe zunehmend weniger repräsentativ für die Bevölkerung im aktuellen Jahr
• Gegenmaßnahmen: Gewichtung, Bevölkerungsdynamik im Panel, rotierende Panel, Ergänzungsstichproben
14
Kosten hoch?• im Jahr der Stichprobenziehung
– Kosten wie bei einer Querschnittserhebung– Stichprobe, Befragung, Datenerfassung, Gewichtung,
Dokumentation• in jedem Folgejahr
– Befragung, Datenerfassung, aber keine neue Stichprobe– Panelpflege (Aktualisierung der Adresskartei, Kontaktpflege,
Incentives usw.)– Längsschnittgewichtung– Dokumentation
• Da aber keine neuen Stichproben gezogen werden müssen, ist ein Panel häufig billiger als eine Serie von Querschnittserhebungen.
15
Gliederung
1. Paneldaten: Was ist das?2. Vor- und Nachteile von Paneldaten3. Regressionsmodelle für Paneldaten4. Schätzverfahren für Paneldaten5. Vergleich verschiedener Schätzverfahren6. Ausblick
16
Zur Erinnerung: Annahmen OLS
Testshen statistiscder Art ),0(~eFehlerterm eilteNormalvertEffizienz allefür ,0)|,(eFehlerterm rteUnkorrelieEffizienz,,1,)|(tizitätHomoskedas
treueErwartungs,,1,0)|(sFehlerterm deskeit UnabhängigrkeitBerechenbaFunktion lineare keine Konstante, keine tätKollineari perfekte Keine
ahrensSchätzverf desArt Parameternin linear ModellInferenz hestatistiscichprobe ZufallsstEinfacheProzessierender Datengener
2
2
110
σ
σ
βββ
NusiuuE
ntuVarniuE
xuxxy
i
si
i
i
ki
ikikit
≠===
==
++++=
i
i
i
xxx
FunktionDefinitionAnnahme
K
K
K
17
Modellierung wiederholter Messungen für Person i• Zerlegung des Fehlerterms in eine personen- und eine
zeitpunktspezifische Komponente
• ui: alle nicht im Modell berücksichtigten zeitkonstanten Eigenschaften der Person i (unbeobachtete Heterogenität)
• eit: Messfehler und sonstige unbekannte zeitpunktspezifische Eigenschaften der Person i(idiosynkratischer Fehler)
• statt Person allgemein: Einheit i (Person, Staat, Firma, ...)
444 3444 21K
44444 344444 21K
partconstant -time
11
partdependent -time
110 )( ijijiitkitkitit uzzexxty ++++++++= γγβββ
18
Problem 1: Autokorrelation• traditionelles Modell:
• es gilt jedoch:
• wegen über alle Zeitpunkte konstantem personen-spezifischen Fehlerterm ui ergibt sich Autokorrelation
• Lösung– Elimination der personenspezifischen Fehlerterme ui
durch geeignete Transformation des Modells– Schätzung der Autokorrelation und FGLS
itkitkitit uxxy ++++= βββ K110
stuu euuisit ≠+= ),(),Corr( 222 σσσ
itiit euu +=
19
Problem 2: personenspezifische Komponente ui• Da ui unbekannt ist, sind weitere vereinfachende
Annahmen notwendig.• Entweder: ui ist unkorreliert mit allen gemessenen
Eigenschaften x und z (unrealistische Annahme für viele Anwendungen)– Wenn das Problem der Autokorrelation nicht existieren würde,
könnte man die Daten wie kumulierte Querschnitte behandeln (pooled OLS).
– Wegen Autokorrelation (s. Problem 1) ist jedoch FGLS notwendig (random effects estimation).
• Oder: ui kann mit allen gemessen Eigenschaften x und zkorrelieren (realistische Annahme für viele Anwendungen)– Elimination der personenspezifischen Fehlerterme ui durch
geeignete Transformation des Modells (first difference or fixedeffects estimation).
20
Problem 3: zeitpunktspezifische Komponente eit• Annahme: verhält sich so „schön“ wie die
Fehlerterme im klassischen Modell für Querschnittsdaten– unkorreliert mit allen xkit (strikte Exogenität)– konstante Varianz– unabhängig zwischen verschiedenen Zeitpunkten
(keine Autokorrelation)• idiosynkratischer (!) Fehler• Autokorrelation der eit aber möglich
– diese Autokorrelation wird häufig bei Paneldatenanalyse ignoriert
21
Gliederung
1. Paneldaten: Was ist das?2. Vor- und Nachteile von Paneldaten3. Regressionsmodelle für Paneldaten4. Schätzverfahren für Paneldaten
a. First differences estimatorb. Fixed effects estimatorc. Random effects estimatord. Stata Besonderheiten
5. Vergleich verschiedener Schätzverfahren6. Ausblick
22
Beispiel: Zahlt sich die Mitgliedschaft in einer Gewerkschaft aus?• Quelle
– F. Vella and M. Verbeek (1998), “Whose Wages Do Unions Raise? A Dynamic Model of Unionism and Wage Rate Determination for Young Men,” Journal of Applied Econometrics 13, 163-183.
• Datei wagepan.dta– n=545 junge Männer– T=8 Panel-Wellen
• Variablen– abhängige Variable y: lwage– zeitveränderliche unabhängige Variable x1it: z.B. union– zeitkonstante unabhängige Variable z1t: z.B. educ– unbekannte zeitkonstante unabhängige Variable ui: z.B.
Produktivität
23
Modell:
• Variablen– y lwage– x1it union (zeitabhängig)– z1i educ (zeitkonstant)– ui Produktivität (zeitkonstant)
• Einkommenstrend– sollte eigentlich kontrolliert werden (Zeitreihe!)– wird zunächst ignoriert, da dadurch weitere Probleme
entstehen– siehe aber Abschnitt 5
itiiitit euzxy ++++= 11110 γββ
24
Elimination der ui durch Berechnung der ersten Differenzen (3 Wellen)
ititit
iiiiii
iiiiii
iiiii
iiiii
iiiii
itiiitit
exyeexxyytteexxyytt
euzxyteuzxyteuzxyteuzxy
Δ+Δ=Δ−+−=−−−+−=−−++++==++++==++++==++++=
11
12112111212
23213112323
11111101
21121102
31131103
11110
allgemein)()()()(
123
Modell
βββ
γββγββγββγββ
25
First differences (FD) estimator• FD = pooled OLS mit „differenzierten“ Daten
– keine Regressionskonstante spezifizieren• pro Person jeweils eine Beobachtung weniger
– Freiheitsgrade entsprechend verringern– geschieht in Stata automatisch
• zeitkonstante z-Variablen entfallen– aber deren Interaktion mit zeitveränderlichen x-Variablen würde nicht
entfallen• Statistische Eigenschaften
– FD unverzerrt und konsistent, wenn x strikt exogen (E(eit|Xit, ui)=0)– FD effizient, wenn Δeit homoskedastisch und unkorreliert
• Probleme– wenn zeitveränderliche x-Variablen im Zeitablauf wenig variieren– keine strikte Exogenität der x-Variablen– mögliche Autokorrelation der Δeit (siehe WO 449)
26
Gliederung
1. Paneldaten: Was ist das?2. Vor- und Nachteile von Paneldaten3. Regressionsmodelle für Paneldaten4. Schätzverfahren für Paneldaten
a. First differences estimatorb. Fixed effects estimatorc. Random effects estimatord. Stata Besonderheiten
5. Vergleich verschiedener Schätzverfahren6. Ausblick
27
Berechnung des arithmetischen Mittels pro Person (3 Wellen)
iiiii
iiiii
iiiii
iiiii
itiiitit
euzxyeuzxyteuzxyteuzxyteuzxy
++++=++++==++++==++++==++++=
11110
11111101
21121102
31131103
11110
Mittelwert123
Modell
γββγββγββγββγββ
28
Elimination der ui durch Berechnung der Abweichung vom Mittelwert
ititit
iiiiii
iiiiii
iiiiii
iiiii
iiiii
iiiii
iiiii
exyeexxyytteexxyytteexxyytteuzxyteuzxyteuzxyteuzxy
&&&&&& +=−+−=−−−+−=−−−+−=−−++++==++++==++++==++++=
11
1111111
2121122
3131133
11111101
21121102
31131103
11110
allgemein)()()()()()(
123
Mittelwert
ββββ
γββγββγββγββ
29
Fixed effects (FE) estimator• FE = pooled OLS mit um personenspezifische Mittelwerte bereinigten Daten
– time-demeaned data– keine Regressionskonstante spezifizieren
• Anzahl Beobachtungen pro Person bleiben erhalten, aber für jeden personenspezifischen Mittelwert entfällt ein Freiheitsgrad– pooled OLS „per Hand“ korrigieren– automatisch mit der xtreg-Prozedur in Stata
• zeitkonstante z-Variablen entfallen– aber deren Interaktion mit zeitveränderlichen x-Variablen würde nicht
entfallen• Statistische Eigenschaften
– FE unverzerrt und konsistent, wenn x strikt exogen (E(eit|Xit, ui)=0)– FE effizient, wenn eit homoskedastisch und unkorreliert
• Probleme– wenn zeitveränderliche x-Variablen im Zeitablauf wenig variieren– keine strikte Exogenität der x-Variablen– mögliche Autokorrelation der eit (siehe WO 467f.)
30
Alternativ: Regression mit Dummies
nnntintnnt
titnt
titnt
iitiitiniit
uezxyni
uezxyiuezxyi
uezxdNdy
δδγβδδδ
δδγβδδδδγβδδδ
γβδδδ
+=+++⋅++⋅+==
+=+++⋅++⋅+===+++⋅++⋅+==
++++++=
1111121
212211121212
11111111211
111121
10
012001
2Modell
K
MM
K
K
K
• n-1 Dummies (d2, d3, …, dN) für jede Untersuchungseinheit (per Hand bei kleinem n und wenigen Dummies, sonst areg-Prozedur)
• Effekt zeitkonstanter Variablen z nicht gleichzeitig schätzbar• gemeinsamer Test aller Dummy-Variablen möglich (uninformativ für
große Fallzahlen, anders aber bei kleinem n)
31
Gliederung
1. Paneldaten: Was ist das?2. Vor- und Nachteile von Paneldaten3. Regressionsmodelle für Paneldaten4. Schätzverfahren für Paneldaten
a. First differences estimatorb. Fixed effects estimatorc. Random effects estimatord. Stata Besonderheiten
5. Vergleich verschiedener Schätzverfahren6. Ausblick
32
Random effects (RE) estimator• Annahme: ui ist unkorreliert mit allen gemessenen
Eigenschaften x und z• Verbleibt das Problem der Autokorrelation der uit = ui + eit• Autokorrelation ist jedoch bekannt und schätzbar (s.
Formel für Corr(uit, uis) weiter oben)• mit diesem Vorwissen kann man OLS Schätzung
verallgemeinern (generalized least squares: GLS bzw. bei Schätzung von Corr(uit, uis): feasible GLS)
• konkret: durch geeignete Transformation der Daten lässt sich (bekannte) Autokorrelation in Zeitreihen eliminieren– für Zeitreihen: Cochrane-Orcutt-, Prais-Winston-Verfahren– Übertragung auf Paneldaten s. Wooldridge (WO 470)
• Transformation erzeugt „quasi-demeaned data“
33
Mathematik: RE estimator
λλλλ
λλλγλβλβλ
σσσλλσσσ
γββ
statt ˆverwendet GLS feasibleusw. ,data demeaned-quasi
)()()()()1(tionTransforma
)(1),(),Corr(nKorrelatio
FehlertermModell
111
111
1110
222
222
11110
iititiitit
ititiiii
iitiit
uee
euuisit
itiit
itiitit
xxxyyyeeuuzz
xxyyT
stuueuu
uzxy
−=−=−+−+−++−+−=−
+−=≠+=
+=+++++=
&&&&&&
K
K
KK
34
Random effects (RE) estimator• Anzahl Beobachtungen pro Person bleiben erhalten• zeitkonstante z-Variablen sind möglich• Statistische Eigenschaften
– RE unverzerrt und konsistent, wenn x und z strikt exogen und wenn ui unkorreliert mit x
– RE effizient, wenn eit homoskedastisch und unkorreliert– RE in diesem Fall sogar effizienter als FE
• Probleme– wenn unbeobachtete Eigenschaften ui mit x oder z korrelieren– keine strikte Exogenität der x und z-Variablen– mögliche Autokorrelation der quasi-demeaned eit
35
Gliederung
1. Paneldaten: Was ist das?2. Vor- und Nachteile von Paneldaten3. Regressionsmodelle für Paneldaten4. Schätzverfahren für Paneldaten
a. First differences estimatorb. Fixed effects estimatorc. Random effects estimatord. Stata Besonderheiten
5. Vergleich verschiedener Schätzverfahren6. Ausblick
36
Andere Symbole
rho
theta
sigma_eσe
sigma_uσu
u_iui
StataVorlesung
)(1 222uee Tσσσλ +−=
stuu euuisit ≠+= ),(),Corr( 222 σσσ
37
Regressionskonstante
• xtreg, areg weisen Konstante aus• Grund: Bereinigung der Werte um
personenspezifische Mittelwerte (time-demeaned data) leicht modifiziert:
• Konstante entspricht damit dem arithmetischen Mittel der ui
tixyxxxxyyyy
k
kkikitkitiitit
und alleüber elGesamtmitt die sind ,+−=+−= &&&&
38
R-Quadrat: Allgemeines• xtreg zeigt drei R-Quadrat-Werte
– within, between, overall• Nur im Fall von FE ist der unter “within” ausgedruckte
Wert (und auch nur dieser) als Anteil erklärter Varianz zuinterpretieren.– entspricht R-Quadrat mit “time-demeaned” data (s. Handout)– misst also den Anteil erklärter Varianz der zeitlichen Variation
von y, der durch die zeitliche Variation der x-Werte erklärtwerden kann
• In allen anderen Fällen haben die ausgedruckten Wertenur die gleichen mathematischen Eigenschaften wie derR-Quadrat-Wert der traditionellen linearen Regression.
39
R-Quadrat: Berechnungsformeln
)demeaned"-time" e,Mittelwert rte,(Absolutwe der Vektor ,,ntenskoeffizieRegressionn geschätzte REoder FEmit der Vektor ˆ
konstante"s"Regression geschätzte REoder FEmit ˆ
ˆ)(ˆˆˆ
auf )( von Regression :Within
ˆˆ
auf von Regression :Between
ˆˆ
auf von Regression :Overall
x
yyy
y
y
wit
witiitit
bi
bii
oit
oitit
itiit
iitit
i
it
xxxβ
βxxβx
βx
βx
&&
&&
&&
α
ααμ
μ
αμ
μ
αμ
μ
−+=+=
−=
+=
+=
40
Gliederung
1. Paneldaten: Was ist das?2. Vor- und Nachteile von Paneldaten3. Regressionsmodelle für Paneldaten4. Schätzverfahren für Paneldaten5. Vergleich verschiedener Schätzverfahren6. Ausblick
41
Beispiel: Zahlt sich die Mitgliedschaft in einer Gewerkschaft aus?• Quelle
– F. Vella and M. Verbeek (1998), “Whose Wages Do Unions Raise? A Dynamic Model of Unionism and Wage Rate Determination for Young Men,” Journal of Applied Econometrics 13, 163-183.
• Datei wagepan.dta– n=545 junge Männer– T=8 Panel-Wellen
• Variablen– abhängige Variable y: lwage– zeitkonstante unabhängige Variablen z: educ, ethnicity (white,
black, hisp)– zeitveränderliche unabhängige Variablen x: union, married, trend
(d81-d87), experience (exper, expersq)
42
SchätzergebnisseKoeff. Std. Koeff. Std. Koeff. Std. Koeff. Std.
Konstante 0.0921 0.0783 0.0236 0.1507 1.4260 0.0183 0.1560 0.0245d81 0.0583 0.0304 0.0405 0.0247 0.1512 0.0219d82 0.0628 0.0332 0.0309 0.0323 0.2530 0.0244 -0.0482 0.0272d83 0.0620 0.0367 0.0203 0.0416 0.3544 0.0292 -0.0479 0.0282d84 0.0905 0.0401 0.0431 0.0513 0.4901 0.0362 -0.0122 0.0298d85 0.1092 0.0434 0.0578 0.0612 0.6175 0.0452 -0.0208 0.0320d86 0.1420 0.0464 0.0919 0.0712 0.7655 0.0561 0.0015 0.0345d87 0.1738 0.0494 0.1349 0.0813 0.9250 0.0688 0.0167 0.0374educ 0.0913 0.0052 0.0919 0.0107 (dropped) (dropped)black -0.1392 0.0236 -0.1394 0.0477 (dropped) (dropped)hisp 0.0160 0.0208 0.0217 0.0426 (dropped) (dropped)exper 0.0672 0.0137 0.1058 0.0154 (dropped) (dropped)expersq -0.0024 0.0008 -0.0047 0.0007 -0.0052 0.0007 -0.0058 0.0022married 0.1083 0.0157 0.0640 0.0168 0.0467 0.0183 0.0381 0.0229union 0.1825 0.0172 0.1061 0.0179 0.0800 0.0193 0.0411 0.0197R² withinR² betweenR² overallR²PersonenBeobachtunge
18.60% 2.86%
18.93%18.30% 8.88%
0.64%
First differences
5454360
Pooled OLS Random Effects Fixed EffectsVariable
18.06%
5454360
5454360 4360
545
17.99%
43
Unterschiede (1/5)Koeff. Std. Koeff. Std. Koeff. Std. Koeff. Std.
Konstante 0.0921 0.0783 0.0236 0.1507 1.4260 0.0183 0.1560 0.0245d81 0.0583 0.0304 0.0405 0.0247 0.1512 0.0219d82 0.0628 0.0332 0.0309 0.0323 0.2530 0.0244 -0.0482 0.0272d83 0.0620 0.0367 0.0203 0.0416 0.3544 0.0292 -0.0479 0.0282d84 0.0905 0.0401 0.0431 0.0513 0.4901 0.0362 -0.0122 0.0298d85 0.1092 0.0434 0.0578 0.0612 0.6175 0.0452 -0.0208 0.0320d86 0.1420 0.0464 0.0919 0.0712 0.7655 0.0561 0.0015 0.0345d87 0.1738 0.0494 0.1349 0.0813 0.9250 0.0688 0.0167 0.0374educ 0.0913 0.0052 0.0919 0.0107 (dropped) (dropped)black -0.1392 0.0236 -0.1394 0.0477 (dropped) (dropped)hisp 0.0160 0.0208 0.0217 0.0426 (dropped) (dropped)exper 0.0672 0.0137 0.1058 0.0154 (dropped) (dropped)expersq -0.0024 0.0008 -0.0047 0.0007 -0.0052 0.0007 -0.0058 0.0022married 0.1083 0.0157 0.0640 0.0168 0.0467 0.0183 0.0381 0.0229union 0.1825 0.0172 0.1061 0.0179 0.0800 0.0193 0.0411 0.0197R² withinR² betweenR² overallR²PersonenBeobachtunge
18.60% 2.86%
18.93%18.30% 8.88%
0.64%
First differences
5454360
Pooled OLS Random Effects Fixed EffectsVariable
18.06%
5454360
5454360 4360
545
17.99%• Standardfehler OLS kleiner als Standardfehler RE• wie bei Zeitreihenanalyse unterschätzt OLS Standardfehler, wenn serielle
Korrelation nicht kontrolliert wird• pooled liefert scheinbar signifikantere Ergebnisse
44
Koeff. Std. Koeff. Std. Koeff. Std. Koeff. Std.Konstante 0.0921 0.0783 0.0236 0.1507 1.4260 0.0183 0.1560 0.0245d81 0.0583 0.0304 0.0405 0.0247 0.1512 0.0219d82 0.0628 0.0332 0.0309 0.0323 0.2530 0.0244 -0.0482 0.0272d83 0.0620 0.0367 0.0203 0.0416 0.3544 0.0292 -0.0479 0.0282d84 0.0905 0.0401 0.0431 0.0513 0.4901 0.0362 -0.0122 0.0298d85 0.1092 0.0434 0.0578 0.0612 0.6175 0.0452 -0.0208 0.0320d86 0.1420 0.0464 0.0919 0.0712 0.7655 0.0561 0.0015 0.0345d87 0.1738 0.0494 0.1349 0.0813 0.9250 0.0688 0.0167 0.0374educ 0.0913 0.0052 0.0919 0.0107 (dropped) (dropped)black -0.1392 0.0236 -0.1394 0.0477 (dropped) (dropped)hisp 0.0160 0.0208 0.0217 0.0426 (dropped) (dropped)exper 0.0672 0.0137 0.1058 0.0154 (dropped) (dropped)expersq -0.0024 0.0008 -0.0047 0.0007 -0.0052 0.0007 -0.0058 0.0022married 0.1083 0.0157 0.0640 0.0168 0.0467 0.0183 0.0381 0.0229union 0.1825 0.0172 0.1061 0.0179 0.0800 0.0193 0.0411 0.0197R² withinR² betweenR² overallR²PersonenBeobachtunge
18.60% 2.86%
18.93%18.30% 8.88%
0.64%
First differences
5454360
Pooled OLS Random Effects Fixed EffectsVariable
18.06%
5454360
5454360 4360
545
17.99%• Standardfehler FE und FD größer als Standardfehler RE• FE nutzt nur zeitliche Variation um den personenspez. Mittelwert, FD nur die
Veränderung zwischen zwei aufeinanderfolgenden Wellen• wenn diese Variation gering ist, können Effekte nur unpräzise geschätzt werden
Unterschiede (2/5)
45
Koeff. Std. Koeff. Std. Koeff. Std. Koeff. Std.Konstante 0.0921 0.0783 0.0236 0.1507 1.4260 0.0183 0.1560 0.0245d81 0.0583 0.0304 0.0405 0.0247 0.1512 0.0219d82 0.0628 0.0332 0.0309 0.0323 0.2530 0.0244 -0.0482 0.0272d83 0.0620 0.0367 0.0203 0.0416 0.3544 0.0292 -0.0479 0.0282d84 0.0905 0.0401 0.0431 0.0513 0.4901 0.0362 -0.0122 0.0298d85 0.1092 0.0434 0.0578 0.0612 0.6175 0.0452 -0.0208 0.0320d86 0.1420 0.0464 0.0919 0.0712 0.7655 0.0561 0.0015 0.0345d87 0.1738 0.0494 0.1349 0.0813 0.9250 0.0688 0.0167 0.0374educ 0.0913 0.0052 0.0919 0.0107 (dropped) (dropped)black -0.1392 0.0236 -0.1394 0.0477 (dropped) (dropped)hisp 0.0160 0.0208 0.0217 0.0426 (dropped) (dropped)exper 0.0672 0.0137 0.1058 0.0154 (dropped) (dropped)expersq -0.0024 0.0008 -0.0047 0.0007 -0.0052 0.0007 -0.0058 0.0022married 0.1083 0.0157 0.0640 0.0168 0.0467 0.0183 0.0381 0.0229union 0.1825 0.0172 0.1061 0.0179 0.0800 0.0193 0.0411 0.0197R² withinR² betweenR² overallR²PersonenBeobachtunge
18.60% 2.86%
18.93%18.30% 8.88%
0.64%
First differences
5454360
Pooled OLS Random Effects Fixed EffectsVariable
18.06%
5454360
5454360 4360
545
17.99%• Heiratseffekt nimmt ab: “marriage premium” sinkt von 10,8% auf 6,4%.• Dass er bei FE weiter sinkt (auf 4,7%), muss damit zusammenhängen, dass die
unbeobachtete Heterogenität und die entsprechende Variable (married) korrelieren.
• Erklärung: Männer, die produktiver sind, sind auch eher verheiratet.
Unterschiede (3/5)
46
Koeff. Std. Koeff. Std. Koeff. Std. Koeff. Std.Konstante 0.0921 0.0783 0.0236 0.1507 1.4260 0.0183 0.1560 0.0245d81 0.0583 0.0304 0.0405 0.0247 0.1512 0.0219d82 0.0628 0.0332 0.0309 0.0323 0.2530 0.0244 -0.0482 0.0272d83 0.0620 0.0367 0.0203 0.0416 0.3544 0.0292 -0.0479 0.0282d84 0.0905 0.0401 0.0431 0.0513 0.4901 0.0362 -0.0122 0.0298d85 0.1092 0.0434 0.0578 0.0612 0.6175 0.0452 -0.0208 0.0320d86 0.1420 0.0464 0.0919 0.0712 0.7655 0.0561 0.0015 0.0345d87 0.1738 0.0494 0.1349 0.0813 0.9250 0.0688 0.0167 0.0374educ 0.0913 0.0052 0.0919 0.0107 (dropped) (dropped)black -0.1392 0.0236 -0.1394 0.0477 (dropped) (dropped)hisp 0.0160 0.0208 0.0217 0.0426 (dropped) (dropped)exper 0.0672 0.0137 0.1058 0.0154 (dropped) (dropped)expersq -0.0024 0.0008 -0.0047 0.0007 -0.0052 0.0007 -0.0058 0.0022married 0.1083 0.0157 0.0640 0.0168 0.0467 0.0183 0.0381 0.0229union 0.1825 0.0172 0.1061 0.0179 0.0800 0.0193 0.0411 0.0197R² withinR² betweenR² overallR²PersonenBeobachtunge
18.60% 2.86%
18.93%18.30% 8.88%
0.64%
First differences
5454360
Pooled OLS Random Effects Fixed EffectsVariable
18.06%
5454360
5454360 4360
545
17.99%• praktische Probleme bei FE und FD
– zeitkonstante unabhängige Variablen (educ, black, hisp)– gleichzeitige Spezifikation eines Trends (d81 usw.) und einer Variablen, die
zwischen den Wellen immer um eine Einheit zunimmt (exper)– Spezifikation des Trends bei FD (siehe d81)
Unterschiede (4/5)
47
Praktische Probleme (1/2)• Effekte zeitkonstanter unabhängiger Variablen
– Bei FE und FD prinzipiell nicht quantifizierbar.– Sie werden aber kontrolliert (genauso wie die unbeobachtete
Heterogenität ui)!• Jahre der Berufserfahrung (exper)
– FE, FD: Es kann nicht gleichzeitig ein Zeittrend (Dummies oder linearer Trend) und der Effekt einer Variablen geschätzt werden, die sich wie ein Trend verhält (siehe WO 464f.).
– Wichtig: exper auch weglassen, sonst lässt Stata andere Variable aus (s. Handout)
• Trend bei FD– statt „differenzierten“ Trenddummies besser Regressions-
konstante und (T-2) „nicht differenzierte“ Dummies verwenden (siehe WO 448)
48
Praktische Probleme (2/2)• Muss man immer alle vier Schätzverfahren verwenden?
– OLS, RE und FE lassen sich leicht umsetzen und Vergleich liefert Informationen über Stabilität der Ergebnisse.
• Kann man die Unterschiede testen?– Pooled OLS vs. Random Effects: Breusch-Pagan Test– Random vs. Fixed Effects: Hausman Test
49
Random effects or pooled OLS?
• Breusch-Pagan Lagrange-Multiplikator-Test
• Hypothesen
• mehr: Greene (2003: Abschnitt 14.4.3)• Stata: xttest0 nach xtreg …, re
0:
),0),Corr(bzw.(0:
21
20
≠
≠==
u
isitu
H
stuuH
σ
σ
50
Fixed or random effects?
Corr = 0(Annahme)
Corr = 0(Annahme)Corr(eis, eit)
ähnlich FET groß
ähnlichpooled OLSui unbedeutend
möglichnicht möglichzeitkonstante x
Corr = 0(Annahme)
Corr ≠ 0(möglich)Corr(ui, xkit)
REFEKriterium
51
Pooled, fixed and random effects OLS
1 groß :2 Fall0 :1 Fall
)(1effects randomusw. )(),(10
effects fixedusw. )(),(1OLS pooledusw. )(),(0
usw. )(),(Allgemein
22
22211
11
1
11
→→<<
+−=⇒−−<<⇒−−=
⇒=−−
λλσσ
σσσλλλλλ
λλ
λλ
T
Txxyyxxyy
xyxxyy
eu
uee
iitiit
iitiit
itit
iitiit
52
Pooled, fixed and random effects OLS
Fall 1: personenspezifische Komponente relativ unwichtig Unterschiede RE und pooled OLS gering
1 groß :2 Fall0 :1 Fall
)(1effects randomusw. )(),(10
effects fixedusw. )(),(1OLS pooledusw. )(),(0
usw. )(),(Allgemein
22
22211
11
1
11
→→<<
+−=⇒−−<<⇒−−=
⇒=−−
λλσσ
σσσλλλλλ
λλ
λλ
T
Txxyyxxyy
xyxxyy
eu
uee
iitiit
iitiit
itit
iitiit
53
Pooled, fixed and random effects OLS
Fall 2: viele Panel-WellenUnterschiede RE und FE gering
1 groß :2 Fall0 :1 Fall
)(1effects randomusw. )(),(10
effects fixedusw. )(),(1OLS pooledusw. )(),(0
usw. )(),(Allgemein
22
22211
11
1
11
→→<<
+−=⇒−−<<⇒−−=
⇒=−−
λλσσ
σσσλλλλλ
λλ
λλ
T
Txxyyxxyy
xyxxyy
eu
uee
iitiit
iitiit
itit
iitiit
54
Unterschiede (5/5)Koeff. Std. Koeff. Std. Koeff. Std. Koeff. Std.
Konstante 0.0921 0.0783 0.0236 0.1507 1.4260 0.0183 0.1560 0.0245d81 0.0583 0.0304 0.0405 0.0247 0.1512 0.0219d82 0.0628 0.0332 0.0309 0.0323 0.2530 0.0244 -0.0482 0.0272d83 0.0620 0.0367 0.0203 0.0416 0.3544 0.0292 -0.0479 0.0282d84 0.0905 0.0401 0.0431 0.0513 0.4901 0.0362 -0.0122 0.0298d85 0.1092 0.0434 0.0578 0.0612 0.6175 0.0452 -0.0208 0.0320d86 0.1420 0.0464 0.0919 0.0712 0.7655 0.0561 0.0015 0.0345d87 0.1738 0.0494 0.1349 0.0813 0.9250 0.0688 0.0167 0.0374educ 0.0913 0.0052 0.0919 0.0107 (dropped) (dropped)black -0.1392 0.0236 -0.1394 0.0477 (dropped) (dropped)hisp 0.0160 0.0208 0.0217 0.0426 (dropped) (dropped)exper 0.0672 0.0137 0.1058 0.0154 (dropped) (dropped)expersq -0.0024 0.0008 -0.0047 0.0007 -0.0052 0.0007 -0.0058 0.0022married 0.1083 0.0157 0.0640 0.0168 0.0467 0.0183 0.0381 0.0229union 0.1825 0.0172 0.1061 0.0179 0.0800 0.0193 0.0411 0.0197R² withinR² betweenR² overallR²PersonenBeobachtunge
18.60% 2.86%
18.93%18.30% 8.88%
0.64%
First differences
5454360
Pooled OLS Random Effects Fixed EffectsVariable
18.06%
5454360
5454360 4360
545
17.99%• RE ist ein “Mittelding” zwischen OLS und FE• λ=.643, näher an 1 als an 0• Unterschiede zwischen RE und FE geringer als zwischen RE und OLS
55
Unterschied RE vs. FE signifikant?• Hausman Test• Hypothesen:
– H0: ui unkorreliert FE und RE konsistent, RE effizienter– H1: ui korreliert FE konsistent, RE inkonsistent
• Grundgedanke: Die Ergebnisse zweier konsistenterSchätzverfahren, von denen eines unter H0 effizienter ist, unterscheiden sich nur zufällig. Vergleiche daher die Differenzen dergeschätzten Regressionskoeffizienten. Erst bei Gültigkeit von H1, wenn das effizientere Schätzverfahren inkonsistente Ergebnisseliefert, werden sie sich in der Summe signifikant unterschieden.
• mehr: Greene (2003: Abschnitt 14.4.4)• Stata: hausman fixed random nachdem vorher die Ergebnisse
von FE unter dem Namen fixed und die Ergebnisse von RE unterdem Namen random gespeichert wurden.
56
Fixed effects or first differences?
• bei T=2 Wellen liefern FE und FD identische Ergebnisse• FE und FD ergeben unverzerrte und konsistente
Schätzungen (wenn die Annahmen gegeben sind)• Unterscheiden sich bezüglich der Effizienz je nach
Autokorrelation der idiosynkratischen Fehlerterme (schwierig zu überprüfen, siehe WO 467-468)
• bei großem T und kleinem n (Beispiel: n=20, T=30) besser FD verwenden
• FE robuster, wenn die Annahme der strikten Exogenitätfür die idiosynkratischen Fehlerterme nicht gegeben ist
• Summa summarum: keine eindeutige Empfehlung, verwende beides, berichte und untersuche Abweichungen
57
Nachträge
• Homepage (ss0603_07_nachtraege.pdf)• diskutiert einige weitere praktische
Probleme des Anwendungsbeispiels
58
Gliederung
1. Paneldaten: Was ist das?2. Vor- und Nachteile von Paneldaten3. Regressionsmodelle für Paneldaten4. Schätzverfahren für Paneldaten5. Vergleich verschiedener Schätzverfahren6. Ausblick
59
Ausblick• Nicht besprochen: Probleme durch Autokorrelation der eit
– Stata: xtregar für AR(1)-Prozeßweiterführende Literatur
• balancierte und unbalancierte Panel– kein Problem für Panel-Schätzungen
• Quasi-Experimente– nicht gemessene Eigenschaften, die die Ziel- von der
Kontrollgruppe unterscheiden, werden durch FD oder FE eliminiert
• ähnliche Datenstrukturen– Paar oder Klumpen-Stichproben korrelieren auch wie Zeitreihen
innerhalb der Paare bzw. Klumpen– Kontrolle des Paar- bzw. Klumpeneffektes mit FD und FE
Zum Schluss
61
Zusammenfassung
• RE vs. OLS: Breusch-Pagan Test• RE vs. FE: Hausman Test
Tests
• Corr(ui, xkit), zeitkonstante x-Variablen• häufig keine eindeutige Empfehlung
Vergleich
• FD: first differences estimation• FE: fixed effects estimation• RE: random effects estimation
Schätzung
• wiederholte Messung bei gleichen PersonenPaneldaten
• unbeobachtete HeterogenitätModelle
• individuelle Veränderungen statt Trends• Kausalanalyse• wiederholte Messung: Problem & Gewinn• Erhebungskonstanz, Repräsentativität, Kosten
Vor- und Nachteile
62
Wichtige Fachausdrücke
strictexogeneity
strikte Exogenität
feasible GLSverallgemeinerte KQ-SchätzungautocorrelationAutokorrelation
FD, FE, RE estimator?unobserved
heterogeneityunbeobachtete Heterogenität
differenced,time-demeaned,quasi-demeaned
data
?panel dataPanel-Daten
EnglischDeutschEnglischDeutsch
63
Weiterführende Literatur• Wooldridge (2003)
– Große Teile von Kapitel 13 (WO 438-460) betrachten den einfachen Fall eines Panels mit zwei Wellen. Dabei wird der FD Schätzer eingeführt (FD: first differences estimator).
– Kapitel 14 (WO 461-475) betrachtet Panel mit mehr als zwei Wellen. Dabei werden der FE und der RE Schätzer betrachtet (FE: fixed effects estimator, RE: random effects estimator)
• Wooldridge ist als erste Einführung zu verstehen. Weiterführende Fragen (z.B. weitere Gründe für Autokorrelation, Heteroskedaszität, Tests für Modellvergleiche) findet man hier:– Greene, William H. (2003): Econometric Analysis. 5. Auflage.
New Jersey: Prentice Hall– Wooldridge, J.M. (2002): Econometric Analysis of Cross Section
and Panel Data. Cambridge, MA: MIT Press
64
Stata-Befehle
Regression mit Dummies für jede Einheit idareg y x1 x2, absorb(id)
Regression mit fixed und random effects und anschließendem Hausman Test
xtreg y x1 x2, feestimates store fixedxtreg y x1 x2, reestimates store randomhausman fixed random
Regression mit random effects und anschließendem Breusch-Pagan Test
xtreg y x1 x2, rexttest0
Regression mit fixed effectsRegression mit random effectsRegression mit random effects, λ-Parameter
xtreg y x1 x2, fextreg y x1 x2, rextreg y x1 x2, re theta
Regression ohne Regressionskonstantereg y x1 x2, noconstant
Beschreibung der Paneldatenxtdes
Deklaration der Panelstrukturtsset id t