analyse zeitabhängiger daten - eswf.uni-koeln.deeswf.uni-koeln.de/lehre/07/02/ss0702_05.pdf · –...

1

Analysezeitabhängiger Daten

Kumulierte (gepoolte) Querschnittsdaten I

2

Warum geht es in den folgenden Sitzungen?

Kumulierte Querschnitte (Trend-, Kohortenanalyse)

Pfingstferien06.06.07

Kumulierte Querschnittsdaten I18.04.07

Zusammenfassung, Klausurvorbereitung11.07.07

noch offen04.07.07

Ereignisdaten II27.06.07

Ereignisdaten I20.06.07

Paneldaten kategorialer Zielvariablen I13.06.07

Paneldaten kategorialer Zielvariablen I30.05.07

Paneldaten kontinuierlicher Zielvariablen II23.05.07

Paneldaten kontinuierlicher Zielvariablen I16.05.07

Zeitreihenanalyse II09.05.07

Zeitreihenanalyse I02.05.07

Kumulierte Querschnittsdaten II25.04.07

Schätzverfahren für Regressionsmodelle11.04.07

Einführung04.04.07

VorlesungDatum

3

Gliederung

1. Kumulierte Querschnittsdaten: Was ist das?

2. Anwendungsmöglichkeiten im Überblick3. Beispiel 1: Determinanten von

Erwerbseinkommen 1978-854. Beispiel 2: Umwelteffekte auf

Immobilienpreise

4

Durchschnittliche Kinderzahl US-amerikanischer Frauen 1972-84

• Datentyp: Zeitreihe• Makrodaten• basiert (wie viele

Zeitreihen) auf einer Serie von Querschnitten

• Quelle: General SocialSurvey (GSS)

• deutsches Pendant: ALLBUS

3.033.21

2.80 2.80 2.82

2.402.24

01

23

mea

n of

kid

s

72 74 76 78 80 82 84

5

Kumulierte Querschnitte und Zeitreihen

Id Jahr Kids Educ1 72 0 182 72 5 9... ... ... ...

157 74 1 12158 74 2 18... ... ... ...

330 76 3 12331 76 2 12... ... ... ...

482 78 1 20483 78 3 12... ... ... ...

625 80 0 17626 80 1 12... ... ... ...

767 82 3 12768 82 2 12... ... ... ...

953 84 2 12954 84 3 12... ... ... ...

1129 84 2 12

Jahr Kinderzahl72 3.0374 3.2176 2.8078 2.8080 2.8282 2.4084 2.24

KumulierteQuerschnitte

1972-841972: n=1561974: n=1731976: n=1521978: n=1431980: n=1421982: n=1861984: n=177

Zeitreihe

6

Möglichkeiten der Differenzierung

Id Jahr Kids Educ1 72 0 182 72 5 9... ... ... ...

157 74 1 12158 74 2 18... ... ... ...

330 76 3 12331 76 2 12... ... ... ...

482 78 1 20483 78 3 12... ... ... ...

625 80 0 17626 80 1 12... ... ... ...

767 82 3 12768 82 2 12... ... ... ...

953 84 2 12954 84 3 12... ... ... ...

1129 84 2 12

KumulierteQuerschnitte

1972-841972: n=1561974: n=1731976: n=1521978: n=1431980: n=1421982: n=1861984: n=177

Im Gegensatz zu Zeitreihen (Makro-daten) bieten kumulierte Quer-schnitte Möglich-keiten der Differen-zierung (z.B. nach Ausbildung und anderen Individual-merkmalen)

7

Eigenschaften kumulierter Querschnitte

• unterschiedliche Stichproben– Person 1 aus 1972 ≠ Person

157 aus 1974• Anordnung wegen der

besseren Lesbarkeit, aber eigentlich unwichtig

• unabhängige Beobachtungen– innerhalb eines Querschnitts– zwischen den Jahren

• Dimension der Datenmatrix– (N1 + N2 + … + NT) ⋅ V

• typisches Beispiel– kumulierter ALLBUS

Id Jahr Kids Educ1 72 0 182 72 5 9... ... ... ...

157 74 1 12158 74 2 18... ... ... ...

330 76 3 12331 76 2 12... ... ... ...

482 78 1 20483 78 3 12... ... ... ...

625 80 0 17626 80 1 12... ... ... ...

767 82 3 12768 82 2 12... ... ... ...

953 84 2 12954 84 3 12... ... ... ...

1129 84 2 12

8

Nicht verwechseln mit kumulierten Zeitreihen

• Zeitreihen aus N unterschiedlichen Staaten

• Anordnung der Staaten unwichtig, aber innerhalb der Staaten ist die zeitliche Anordnung wichtig

• unabhängige Beobachtungen– zwischen den Staaten– aber nicht innerhalb der Staaten

(Zeitreihe!)• Dimension der Datenmatrix

– N ⋅ T ⋅ V

Staat Datum Unfälle GurtCA Jan. 72 40511 0CA Feb. 72 36034 0... ... ... ...MI Jan. 72 37699 0MI Feb. 72 38816 0... ... ... ...NY Jan. 72 38625 0NY Feb. 72 39539 0... ... ... ...

CO Jan. 72 40676 0CO Feb. 72 39270 0... ... ... ...NJ Jan. 72 36672 0NJ Feb. 72 32699 0... ... ... ...TX Jan. 72 36455 0TX Feb. 72 36690 0... ... ... ...FL Jan. 72 36850 0FL Feb. 72 36284 0... ... ... ...FL Dez. 89 38366 0

9

Nicht verwechseln mit Panel-Daten

• N Personen werden zu T Zeitpunkten befragt

• pro Person eine Zeitreihe• Anordnung der Personen

unwichtig, aber für jede Person ist die zeitliche Anordnung der Befragungen wichtig

• unabhängige Beobachtungen– zwischen den Personen– aber nicht für jede Person

(Zeitreihe!)• Dimension der Datenmatrix

– N ⋅ T ⋅ V

ID Jahr Kids Educ1 1984 0 121 1985 0 12... ... ... ...2 1984 2 92 1985 2 9... ... ... ...3 1984 0 103 1985 1 11... ... ... ...4 1984 1 84 1985 2 8... ... ... ...5 1984 3 135 1985 3 13... ... ... ...6 1984 2 156 1985 2 15... ... ... ...7 1984 0 97 1985 1 10... ... ... ...7 2000 2 13

10

Aber ähnliche Datenstruktur bei ländervergleichenden Untersuchungen

• typisches Beispiel– European Social Survey

• unterschiedliche Stichproben– Person 1 aus Land D ≠ Person

3002 aus Land NL• Anordnung wegen der

besseren Lesbarkeit, aber eigentlich unwichtig

• unabhängige Beobachtungen– innerhalb eines Querschnitts– zwischen den Ländern

• Dimension der Datenmatrix– (N1 + N2 + … + NL) ⋅ V

ID Land Kids Educ1 D 0 122 D 3 12... ... ... ...

3002 NL 1 93003 NL 2 11

... ... ... ...5989 GB 0 105990 GB 1 11

... ... ... ...9122 SP 1 89123 SP 2 8

... ... ... ...11158 SWE 3 811159 SWE 3 13

... ... ... ...15234 B 2 1515235 B 3 9

... ... ... ...20123 I 0 920123 I 1 10

... ... ... ...23678 I 2 13

11

Gliederung




Immobilienpreise

12

Überblick

• Erhöhung der Präzision gegenüber einfachen Querschnitten

• Trendanalysen mit Kontrollvariablen• Analyse des sozialen Wandels• Verbesserte Möglichkeiten der

Kausalanalyse• Kohortenanalyse (nächste Vorlesung)

13

Erhöhung der Präzision gegenüber einfachen Querschnitten• Determinanten der Erwerbseinkommen• Daten: Current Population Survey (US-

amerikanischer Mikrozensus)• Bildungsrendite

–– 1978: 5,2% (t=7,19, n=550)– 1985: 7,7% (t=9,49, n=534)– 1978 + 1985: 6,9% (t=12,08, n=1084)

educwage ⋅+= 10)ln( ββ

14

Trendanalysen mit Kontrollvariablen

3.0263.2082.8032.8042.817

2.4032.237

01

23

me

an o

f kid

s

72 74 76 78 80 82 84

Durchschnittliche Kinderzahl

0.0830.0580.0460.049

0.070

0.199

0.068

0.0

5.1

.15

.2m

ean

of b

lack

72 74 76 78 80 82 84

Anteil Afro-Amerikaner1

23

unk

orri

gier

t/ko

rrigi

ert

70 75 80 85var1

unkorrigiert korrigiert

Durchschnittliche Anzahl Kinder

Korrelation Black-Kids0,1434

15

Analyse des sozialen Wandels

• Determinanten der Erwerbseinkommen• Daten: Current Population Survey (US-

amerikanischer Mikrozensus)• Bildungsrendite

–– 1978: 5,2% (t=7,19, n=550)– 1985: 7,7% (t=9,49, n=534)

• Die Bildungsrendite hat sich zwischen 1978 und 1985 signifikant um 2,5 Prozentpunkte erhöht(t=2,30)

educwage ⋅+= 10)ln( ββ

16

Möglichkeiten der Kausalanalyse

• Müllverbrennungsanlage in North Andover (MA)– Beginn der öffentlichen Diskussion nach 1978– Baubeginn 1981– Inbetriebnahme 1985

• Effekt auf die örtlichen Immobilienpreise?• Daten über Hausverkäufe nach Baubeginn (1981)

– zeigen geringere Immobilienpreise für Häuser in der Nähe der Anlage.

• Beeinflusst Anlage Häuserpreise negativ?– Alternativerklärung: Häuser in der Nähe der Anlage verkaufen

sich aus anderen Gründen billiger.• Querschnittsdaten

– Alternativerklärung: Selektion– Kumulierte Querschnitte: Kontrolle der Vorbedingungen

17

Gliederung




Immobilienpreise

18

Determinanten der Erwerbseinkommen

• Daten: Current Population Survey (US-amerikanischer Mikrozensus)

• kumulierte Querschnittsdaten (CPS78_85.dta)– 1978: n=550– 1985: n=534

• Analyse s. Handout– getrennt für jedes Jahr– Reproduktion der getrennten Analysen in einem

Modell mit Interaktionseffekten• Gibt es signifikante Unterschiede zwischen 1978

und 1985?

19

Wie getrennte Schätzergebnisse reproduzieren?• Beispiele

– Gruppe A, Gruppe B, Gruppe C, …, Gruppe G– Land A, Land B, Land C, …– Zeitpunkt 1, Zeitpunkt 2, Zeitpunkt 3, …

• Getrennt– Selektion der entsprechenden Fälle– Stata: by group: …<Kommando>…

• Gemeinsam– Dummies für g-1 Gruppen (Niveauunterschiede)– Interaktion jedes Gruppendummies mit jeder unabhängigen

Variablen (Effektunterschiede)• Niveaus und Effekte in allen Gruppen gleich?

– Test auf Strukturunterschiede zwischen Gruppen

20

Chow-Test für Strukturunterschiede zwischen Gruppen (Beispiel: g=2)

• Vergleich: Summe der SSRs aus getrennten Schätzungen versus SSR aus Schätzung mit kumulierten (gepoolten) Daten

• Modell mit Dummies & Interaktionen → Alternative• Gemeinsamer Test der Signifikanz aller

Gruppendummies und Interaktionseffekte durch lineare Restriktionen

• identisch mit Chow-Test

49,7311

)11(2108496,12654,120

)96,12654,120(18,2811

)1(2)(

21

21

=+

+⋅−×

++−

=

++⋅−

×+

+−=

kkn

SSRSSRSSRSSRSSR

F p

21

Anwendung auf kumulierte Querschnitte aus verschiedenen Jahren• Gruppe = Zeitpunkt• Lässt sich am besten mit dem Kommando test in

Stata umsetzen.

• Da in den meisten Fällen von zeitlichen Trends auszugehen ist, sollten die Unterschiede in den Konstanten (d.h. die Effekte der Dummies) nicht getestet werden.

• Der Test sollte auf die Interaktionseffekte beschränkt werden.

22

Exkurs: Deflationierung von y• Es ist häufig sinnvoll, ökonomische Größen für

Zeitvergleiche zu deflationieren• Beispiel Realeinkommen für CPS78_85.dta

– Preisindex 1978: 65,2, 1985: 107,6- 95% gestiegen

– Einkommen aus 1985 in Preisen von 1978- rwage85 = wage85 * (65,2 / 107,6) = wage85 / 1,95- ln(rwage85) = ln(wage85) – ln(1,95)

• Bei Betrachtung logarithmierter y-Variablen ist eigentlich die Deflationierung nicht nötig, da sie sich nur auf die Regressionskonstante für das jeweilige Jahr auswirkt.

• Achtung: Schätzung mit ln(y) statt y liefert anderes R²und andere β − unabhängig von Deflationierung!

23

Gliederung




Immobilienpreise

24

Umwelteffekte auf Immobilienpreise• Müllverbrennungsanlage in North Andover (MA)

– Beginn der öffentlichen Diskussion nach 1978– Baubeginn 1981– Inbetriebnahme 1985

• Daten: kumulierte Querschnitte (kielmc.dta)– Hausverkäufe in 1978 (n=179)– Hausverkäufe in 1981 (n=142)

• Untersuchungsdesign– „Experimental“gruppe: Häuser in der Nähe der Anlage– Kontrollgruppe: alle anderen Häuser– keine Randomisierung (daher: Quasi-Experiment)– aber Kontrolle der (unterschiedlichen) Eigenschaften der Häuser in

beiden Gruppen möglich, wenn entsprechende Informationen mit erfasst werden

• Baujahr, Größe (Fläche, Zimmer), … (→ Querschnittsdaten)• räumliche Lage?• → kumulierte Querschnitte

25

Analyseergebnisse• naives Modell für 1981

– Der Effekt von nearinc (obwohl signifikant) ist kein sinnvolles Maß. Häuser in der Nähe der Anlage verkaufen sich aus anderen Gründen einfach billiger (um 30.688,27$).

• zum Vergleich: gleiches Modell für 1978– Auch im Jahr 1978, also vor dem Ereignis, verkaufen sich

Häuser in Nähe billiger (um 18.824,37$).• richtiges Modell (difference-in-differences estimator)

– Wenn die Anlage einen Einfluss hat, dann muss der Preisunterschied zugenommen haben. Was er auch tut, wie der Interaktionseffekt zeigt (nämlich um 11.863,90$).

• Kontrolle der Strukturunterschiede zwischen den Stichproben– Da die Stichprobe 1981 nicht die gleichen Häuser enthält wie die

78er Stichprobe, sollte man deren unterschiedliche Zusammensetzung kontrollieren (z.B. nach Baujahr der Häuser). Hier wird der Interaktionseffekt auch signifikant.

26

Zum Schluss

27

Zusammenfassung

• Chow-TestTest

unabhängige Stichproben aus verschiedenen Zeitpunkten (oder Ländern)

kumulierte Querschnitte

• Dummies (Zeitpunkte, Länder)• Interaktionen (Strukturunterschiede)

Modelle

• höhere Fallzahlen• Trends• Strukturunterschiede• sozialer Wandel• Quasi-Experimente

Analyse-möglichkeiten

28

Wichtige Fachausdrücke

Chow TestChow-Test

pooled cross-sections

kumulierte Querschnitte

EnglischDeutschEnglischDeutsch

29

Weiterführende Literatur

• Wooldridge (2003)– Seite 427-438 in Kapitel 13.– Der Chow-Test für Gruppenunterschiede wird

bereits in Kapitel 7 (WO 237-240) eingeführt.

30

Stata-Befehle

nach jedem Regressionsbefehl können mit dem Test-Kommando Parametergruppen mithilfe linearer Restriktionen getestest werden (hier z.B. die Hypothese, dass die Effekte von x1 und x2 gemeinsam Null sind)

test x3 x4

multiple Regression von y auf x1, x2, x3 und x4reg y x1 x2 x2 x3 x4

wie vorher, mit dem bysort-Befehl wird jedoch die Datei gleichzeitig nach group sortiert

bysort group: reg y x

Schätzung getrennter Regressionsmodelle für jede Gruppe (Voraussetzung: Datei nach Gruppierungs-variablen sortiert)

by group: reg y x

analyse zeitabhängiger daten - eswf.uni-koeln.deeswf.uni-koeln.de/lehre/07/02/ss0702_05.pdf · –...

Documents