analyse zeitabhängiger daten - eswf.uni-koeln.deeswf.uni-koeln.de/lehre/07/02/ss0702_05.pdf · –...
TRANSCRIPT
1
Analysezeitabhängiger Daten
Kumulierte (gepoolte) Querschnittsdaten I
2
Warum geht es in den folgenden Sitzungen?
Kumulierte Querschnitte (Trend-, Kohortenanalyse)
Pfingstferien06.06.07
Kumulierte Querschnittsdaten I18.04.07
Zusammenfassung, Klausurvorbereitung11.07.07
noch offen04.07.07
Ereignisdaten II27.06.07
Ereignisdaten I20.06.07
Paneldaten kategorialer Zielvariablen I13.06.07
Paneldaten kategorialer Zielvariablen I30.05.07
Paneldaten kontinuierlicher Zielvariablen II23.05.07
Paneldaten kontinuierlicher Zielvariablen I16.05.07
Zeitreihenanalyse II09.05.07
Zeitreihenanalyse I02.05.07
Kumulierte Querschnittsdaten II25.04.07
Schätzverfahren für Regressionsmodelle11.04.07
Einführung04.04.07
VorlesungDatum
3
Gliederung
1. Kumulierte Querschnittsdaten: Was ist das?
2. Anwendungsmöglichkeiten im Überblick3. Beispiel 1: Determinanten von
Erwerbseinkommen 1978-854. Beispiel 2: Umwelteffekte auf
Immobilienpreise
4
Durchschnittliche Kinderzahl US-amerikanischer Frauen 1972-84
• Datentyp: Zeitreihe• Makrodaten• basiert (wie viele
Zeitreihen) auf einer Serie von Querschnitten
• Quelle: General SocialSurvey (GSS)
• deutsches Pendant: ALLBUS
3.033.21
2.80 2.80 2.82
2.402.24
01
23
mea
n of
kid
s
72 74 76 78 80 82 84
5
Kumulierte Querschnitte und Zeitreihen
Id Jahr Kids Educ1 72 0 182 72 5 9... ... ... ...
157 74 1 12158 74 2 18... ... ... ...
330 76 3 12331 76 2 12... ... ... ...
482 78 1 20483 78 3 12... ... ... ...
625 80 0 17626 80 1 12... ... ... ...
767 82 3 12768 82 2 12... ... ... ...
953 84 2 12954 84 3 12... ... ... ...
1129 84 2 12
Jahr Kinderzahl72 3.0374 3.2176 2.8078 2.8080 2.8282 2.4084 2.24
KumulierteQuerschnitte
1972-841972: n=1561974: n=1731976: n=1521978: n=1431980: n=1421982: n=1861984: n=177
Zeitreihe
6
Möglichkeiten der Differenzierung
Id Jahr Kids Educ1 72 0 182 72 5 9... ... ... ...
157 74 1 12158 74 2 18... ... ... ...
330 76 3 12331 76 2 12... ... ... ...
482 78 1 20483 78 3 12... ... ... ...
625 80 0 17626 80 1 12... ... ... ...
767 82 3 12768 82 2 12... ... ... ...
953 84 2 12954 84 3 12... ... ... ...
1129 84 2 12
KumulierteQuerschnitte
1972-841972: n=1561974: n=1731976: n=1521978: n=1431980: n=1421982: n=1861984: n=177
Im Gegensatz zu Zeitreihen (Makro-daten) bieten kumulierte Quer-schnitte Möglich-keiten der Differen-zierung (z.B. nach Ausbildung und anderen Individual-merkmalen)
7
Eigenschaften kumulierter Querschnitte
• unterschiedliche Stichproben– Person 1 aus 1972 ≠ Person
157 aus 1974• Anordnung wegen der
besseren Lesbarkeit, aber eigentlich unwichtig
• unabhängige Beobachtungen– innerhalb eines Querschnitts– zwischen den Jahren
• Dimension der Datenmatrix– (N1 + N2 + … + NT) ⋅ V
• typisches Beispiel– kumulierter ALLBUS
Id Jahr Kids Educ1 72 0 182 72 5 9... ... ... ...
157 74 1 12158 74 2 18... ... ... ...
330 76 3 12331 76 2 12... ... ... ...
482 78 1 20483 78 3 12... ... ... ...
625 80 0 17626 80 1 12... ... ... ...
767 82 3 12768 82 2 12... ... ... ...
953 84 2 12954 84 3 12... ... ... ...
1129 84 2 12
8
Nicht verwechseln mit kumulierten Zeitreihen
• Zeitreihen aus N unterschiedlichen Staaten
• Anordnung der Staaten unwichtig, aber innerhalb der Staaten ist die zeitliche Anordnung wichtig
• unabhängige Beobachtungen– zwischen den Staaten– aber nicht innerhalb der Staaten
(Zeitreihe!)• Dimension der Datenmatrix
– N ⋅ T ⋅ V
Staat Datum Unfälle GurtCA Jan. 72 40511 0CA Feb. 72 36034 0... ... ... ...MI Jan. 72 37699 0MI Feb. 72 38816 0... ... ... ...NY Jan. 72 38625 0NY Feb. 72 39539 0... ... ... ...
CO Jan. 72 40676 0CO Feb. 72 39270 0... ... ... ...NJ Jan. 72 36672 0NJ Feb. 72 32699 0... ... ... ...TX Jan. 72 36455 0TX Feb. 72 36690 0... ... ... ...FL Jan. 72 36850 0FL Feb. 72 36284 0... ... ... ...FL Dez. 89 38366 0
9
Nicht verwechseln mit Panel-Daten
• N Personen werden zu T Zeitpunkten befragt
• pro Person eine Zeitreihe• Anordnung der Personen
unwichtig, aber für jede Person ist die zeitliche Anordnung der Befragungen wichtig
• unabhängige Beobachtungen– zwischen den Personen– aber nicht für jede Person
(Zeitreihe!)• Dimension der Datenmatrix
– N ⋅ T ⋅ V
ID Jahr Kids Educ1 1984 0 121 1985 0 12... ... ... ...2 1984 2 92 1985 2 9... ... ... ...3 1984 0 103 1985 1 11... ... ... ...4 1984 1 84 1985 2 8... ... ... ...5 1984 3 135 1985 3 13... ... ... ...6 1984 2 156 1985 2 15... ... ... ...7 1984 0 97 1985 1 10... ... ... ...7 2000 2 13
10
Aber ähnliche Datenstruktur bei ländervergleichenden Untersuchungen
• typisches Beispiel– European Social Survey
• unterschiedliche Stichproben– Person 1 aus Land D ≠ Person
3002 aus Land NL• Anordnung wegen der
besseren Lesbarkeit, aber eigentlich unwichtig
• unabhängige Beobachtungen– innerhalb eines Querschnitts– zwischen den Ländern
• Dimension der Datenmatrix– (N1 + N2 + … + NL) ⋅ V
ID Land Kids Educ1 D 0 122 D 3 12... ... ... ...
3002 NL 1 93003 NL 2 11
... ... ... ...5989 GB 0 105990 GB 1 11
... ... ... ...9122 SP 1 89123 SP 2 8
... ... ... ...11158 SWE 3 811159 SWE 3 13
... ... ... ...15234 B 2 1515235 B 3 9
... ... ... ...20123 I 0 920123 I 1 10
... ... ... ...23678 I 2 13
11
Gliederung
1. Kumulierte Querschnittsdaten: Was ist das?
2. Anwendungsmöglichkeiten im Überblick3. Beispiel 1: Determinanten von
Erwerbseinkommen 1978-854. Beispiel 2: Umwelteffekte auf
Immobilienpreise
12
Überblick
• Erhöhung der Präzision gegenüber einfachen Querschnitten
• Trendanalysen mit Kontrollvariablen• Analyse des sozialen Wandels• Verbesserte Möglichkeiten der
Kausalanalyse• Kohortenanalyse (nächste Vorlesung)
13
Erhöhung der Präzision gegenüber einfachen Querschnitten• Determinanten der Erwerbseinkommen• Daten: Current Population Survey (US-
amerikanischer Mikrozensus)• Bildungsrendite
–– 1978: 5,2% (t=7,19, n=550)– 1985: 7,7% (t=9,49, n=534)– 1978 + 1985: 6,9% (t=12,08, n=1084)
educwage ⋅+= 10)ln( ββ
14
Trendanalysen mit Kontrollvariablen
3.0263.2082.8032.8042.817
2.4032.237
01
23
me
an o
f kid
s
72 74 76 78 80 82 84
Durchschnittliche Kinderzahl
0.0830.0580.0460.049
0.070
0.199
0.068
0.0
5.1
.15
.2m
ean
of b
lack
72 74 76 78 80 82 84
Anteil Afro-Amerikaner1
23
unk
orri
gier
t/ko
rrigi
ert
70 75 80 85var1
unkorrigiert korrigiert
Durchschnittliche Anzahl Kinder
Korrelation Black-Kids0,1434
15
Analyse des sozialen Wandels
• Determinanten der Erwerbseinkommen• Daten: Current Population Survey (US-
amerikanischer Mikrozensus)• Bildungsrendite
–– 1978: 5,2% (t=7,19, n=550)– 1985: 7,7% (t=9,49, n=534)
• Die Bildungsrendite hat sich zwischen 1978 und 1985 signifikant um 2,5 Prozentpunkte erhöht(t=2,30)
educwage ⋅+= 10)ln( ββ
16
Möglichkeiten der Kausalanalyse
• Müllverbrennungsanlage in North Andover (MA)– Beginn der öffentlichen Diskussion nach 1978– Baubeginn 1981– Inbetriebnahme 1985
• Effekt auf die örtlichen Immobilienpreise?• Daten über Hausverkäufe nach Baubeginn (1981)
– zeigen geringere Immobilienpreise für Häuser in der Nähe der Anlage.
• Beeinflusst Anlage Häuserpreise negativ?– Alternativerklärung: Häuser in der Nähe der Anlage verkaufen
sich aus anderen Gründen billiger.• Querschnittsdaten
– Alternativerklärung: Selektion– Kumulierte Querschnitte: Kontrolle der Vorbedingungen
17
Gliederung
1. Kumulierte Querschnittsdaten: Was ist das?
2. Anwendungsmöglichkeiten im Überblick3. Beispiel 1: Determinanten von
Erwerbseinkommen 1978-854. Beispiel 2: Umwelteffekte auf
Immobilienpreise
18
Determinanten der Erwerbseinkommen
• Daten: Current Population Survey (US-amerikanischer Mikrozensus)
• kumulierte Querschnittsdaten (CPS78_85.dta)– 1978: n=550– 1985: n=534
• Analyse s. Handout– getrennt für jedes Jahr– Reproduktion der getrennten Analysen in einem
Modell mit Interaktionseffekten• Gibt es signifikante Unterschiede zwischen 1978
und 1985?
19
Wie getrennte Schätzergebnisse reproduzieren?• Beispiele
– Gruppe A, Gruppe B, Gruppe C, …, Gruppe G– Land A, Land B, Land C, …– Zeitpunkt 1, Zeitpunkt 2, Zeitpunkt 3, …
• Getrennt– Selektion der entsprechenden Fälle– Stata: by group: …<Kommando>…
• Gemeinsam– Dummies für g-1 Gruppen (Niveauunterschiede)– Interaktion jedes Gruppendummies mit jeder unabhängigen
Variablen (Effektunterschiede)• Niveaus und Effekte in allen Gruppen gleich?
– Test auf Strukturunterschiede zwischen Gruppen
20
Chow-Test für Strukturunterschiede zwischen Gruppen (Beispiel: g=2)
• Vergleich: Summe der SSRs aus getrennten Schätzungen versus SSR aus Schätzung mit kumulierten (gepoolten) Daten
• Modell mit Dummies & Interaktionen → Alternative• Gemeinsamer Test der Signifikanz aller
Gruppendummies und Interaktionseffekte durch lineare Restriktionen
• identisch mit Chow-Test
49,7311
)11(2108496,12654,120
)96,12654,120(18,2811
)1(2)(
21
21
=+
+⋅−×
++−
=
++⋅−
×+
+−=
kkn
SSRSSRSSRSSRSSR
F p
21
Anwendung auf kumulierte Querschnitte aus verschiedenen Jahren• Gruppe = Zeitpunkt• Lässt sich am besten mit dem Kommando test in
Stata umsetzen.
• Da in den meisten Fällen von zeitlichen Trends auszugehen ist, sollten die Unterschiede in den Konstanten (d.h. die Effekte der Dummies) nicht getestet werden.
• Der Test sollte auf die Interaktionseffekte beschränkt werden.
22
Exkurs: Deflationierung von y• Es ist häufig sinnvoll, ökonomische Größen für
Zeitvergleiche zu deflationieren• Beispiel Realeinkommen für CPS78_85.dta
– Preisindex 1978: 65,2, 1985: 107,6- 95% gestiegen
– Einkommen aus 1985 in Preisen von 1978- rwage85 = wage85 * (65,2 / 107,6) = wage85 / 1,95- ln(rwage85) = ln(wage85) – ln(1,95)
• Bei Betrachtung logarithmierter y-Variablen ist eigentlich die Deflationierung nicht nötig, da sie sich nur auf die Regressionskonstante für das jeweilige Jahr auswirkt.
• Achtung: Schätzung mit ln(y) statt y liefert anderes R²und andere β − unabhängig von Deflationierung!
23
Gliederung
1. Kumulierte Querschnittsdaten: Was ist das?
2. Anwendungsmöglichkeiten im Überblick3. Beispiel 1: Determinanten von
Erwerbseinkommen 1978-854. Beispiel 2: Umwelteffekte auf
Immobilienpreise
24
Umwelteffekte auf Immobilienpreise• Müllverbrennungsanlage in North Andover (MA)
– Beginn der öffentlichen Diskussion nach 1978– Baubeginn 1981– Inbetriebnahme 1985
• Daten: kumulierte Querschnitte (kielmc.dta)– Hausverkäufe in 1978 (n=179)– Hausverkäufe in 1981 (n=142)
• Untersuchungsdesign– „Experimental“gruppe: Häuser in der Nähe der Anlage– Kontrollgruppe: alle anderen Häuser– keine Randomisierung (daher: Quasi-Experiment)– aber Kontrolle der (unterschiedlichen) Eigenschaften der Häuser in
beiden Gruppen möglich, wenn entsprechende Informationen mit erfasst werden
• Baujahr, Größe (Fläche, Zimmer), … (→ Querschnittsdaten)• räumliche Lage?• → kumulierte Querschnitte
25
Analyseergebnisse• naives Modell für 1981
– Der Effekt von nearinc (obwohl signifikant) ist kein sinnvolles Maß. Häuser in der Nähe der Anlage verkaufen sich aus anderen Gründen einfach billiger (um 30.688,27$).
• zum Vergleich: gleiches Modell für 1978– Auch im Jahr 1978, also vor dem Ereignis, verkaufen sich
Häuser in Nähe billiger (um 18.824,37$).• richtiges Modell (difference-in-differences estimator)
– Wenn die Anlage einen Einfluss hat, dann muss der Preisunterschied zugenommen haben. Was er auch tut, wie der Interaktionseffekt zeigt (nämlich um 11.863,90$).
• Kontrolle der Strukturunterschiede zwischen den Stichproben– Da die Stichprobe 1981 nicht die gleichen Häuser enthält wie die
78er Stichprobe, sollte man deren unterschiedliche Zusammensetzung kontrollieren (z.B. nach Baujahr der Häuser). Hier wird der Interaktionseffekt auch signifikant.
26
Zum Schluss
27
Zusammenfassung
• Chow-TestTest
unabhängige Stichproben aus verschiedenen Zeitpunkten (oder Ländern)
kumulierte Querschnitte
• Dummies (Zeitpunkte, Länder)• Interaktionen (Strukturunterschiede)
Modelle
• höhere Fallzahlen• Trends• Strukturunterschiede• sozialer Wandel• Quasi-Experimente
Analyse-möglichkeiten
28
Wichtige Fachausdrücke
Chow TestChow-Test
pooled cross-sections
kumulierte Querschnitte
EnglischDeutschEnglischDeutsch
29
Weiterführende Literatur
• Wooldridge (2003)– Seite 427-438 in Kapitel 13.– Der Chow-Test für Gruppenunterschiede wird
bereits in Kapitel 7 (WO 237-240) eingeführt.
30
Stata-Befehle
nach jedem Regressionsbefehl können mit dem Test-Kommando Parametergruppen mithilfe linearer Restriktionen getestest werden (hier z.B. die Hypothese, dass die Effekte von x1 und x2 gemeinsam Null sind)
test x3 x4
multiple Regression von y auf x1, x2, x3 und x4reg y x1 x2 x2 x3 x4
wie vorher, mit dem bysort-Befehl wird jedoch die Datei gleichzeitig nach group sortiert
bysort group: reg y x
Schätzung getrennter Regressionsmodelle für jede Gruppe (Voraussetzung: Datei nach Gruppierungs-variablen sortiert)
by group: reg y x