stanisław cichocki natalia nehrebecka 05.05... · 2016. 5. 6. · natalia nehrebecka . 2 . 3 . 4...

36
1 Stanisław Cichocki Natalia Nehrebecka

Upload: others

Post on 28-Aug-2020

3 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Stanisław Cichocki Natalia Nehrebecka 05.05... · 2016. 5. 6. · Natalia Nehrebecka . 2 . 3 . 4 1. Wprowadzenie do danych panelowych a) Charakterystyka danych panelowych b) Zalety

1

Stanisław Cichocki

Natalia Nehrebecka

Page 2: Stanisław Cichocki Natalia Nehrebecka 05.05... · 2016. 5. 6. · Natalia Nehrebecka . 2 . 3 . 4 1. Wprowadzenie do danych panelowych a) Charakterystyka danych panelowych b) Zalety

2

Page 3: Stanisław Cichocki Natalia Nehrebecka 05.05... · 2016. 5. 6. · Natalia Nehrebecka . 2 . 3 . 4 1. Wprowadzenie do danych panelowych a) Charakterystyka danych panelowych b) Zalety

3

Page 4: Stanisław Cichocki Natalia Nehrebecka 05.05... · 2016. 5. 6. · Natalia Nehrebecka . 2 . 3 . 4 1. Wprowadzenie do danych panelowych a) Charakterystyka danych panelowych b) Zalety

4

1. Wprowadzenie do danych panelowych a) Charakterystyka danych panelowych

b) Zalety i ograniczenia

2. Modele ekonometryczne danych panelowych a) Model efektów nieobserwowalnych

b) Model efektów losowych

c) Model efektów stałych

d) Modele z dwukierunkowym komponentem błędu

3. Testy a) Test istotności efektów stałych i losowych

b) Test Hausmana

Page 5: Stanisław Cichocki Natalia Nehrebecka 05.05... · 2016. 5. 6. · Natalia Nehrebecka . 2 . 3 . 4 1. Wprowadzenie do danych panelowych a) Charakterystyka danych panelowych b) Zalety

5

1. Wprowadzenie do danych panelowych a) Charakterystyka danych panelowych

b) Zalety i ograniczenia

2. Modele ekonometryczne danych panelowych a) Model efektów nieobserwowalnych

b) Model efektów losowych

c) Model efektów stałych

d) Modele z dwukierunkowym komponentem błędu

3. Testy a) Test istotności efektów stałych i losowych

b) Test Hausmana

Page 6: Stanisław Cichocki Natalia Nehrebecka 05.05... · 2016. 5. 6. · Natalia Nehrebecka . 2 . 3 . 4 1. Wprowadzenie do danych panelowych a) Charakterystyka danych panelowych b) Zalety

6

Dane statystyczne dzieli się na trzy główne grupy:

Szeregi czasowe

Dane przekrojowe

Dane panelowe ◦ Dzielone są na dwie kategorie:

◦ Dane „połączone” (𝑝𝑜𝑜𝑙𝑒𝑑 𝑑𝑎𝑡𝑎)

◦ Dane panelowe (właściwe)

Panel / longitudinal data

Page 7: Stanisław Cichocki Natalia Nehrebecka 05.05... · 2016. 5. 6. · Natalia Nehrebecka . 2 . 3 . 4 1. Wprowadzenie do danych panelowych a) Charakterystyka danych panelowych b) Zalety

7

Dane „połączone” (𝑝𝑜𝑜𝑙𝑒𝑑 𝑑𝑎𝑡𝑎)

Dane z kilku okresów czasu dotyczące różnych prób przekrojowych

Dane „połączone” to taki rodzaj danych, w którym nie rozróżniamy kolejnych jednostek badania.

Korzyści: zwiększenie liczby stopni swobody z 𝑁 na 𝑁𝑇 (𝑁 – liczba obserwacji, 𝑇 – liczba okresów)

Page 8: Stanisław Cichocki Natalia Nehrebecka 05.05... · 2016. 5. 6. · Natalia Nehrebecka . 2 . 3 . 4 1. Wprowadzenie do danych panelowych a) Charakterystyka danych panelowych b) Zalety

8

Page 9: Stanisław Cichocki Natalia Nehrebecka 05.05... · 2016. 5. 6. · Natalia Nehrebecka . 2 . 3 . 4 1. Wprowadzenie do danych panelowych a) Charakterystyka danych panelowych b) Zalety

9

Dane panelowe właściwe

◦ Dane panelowe mają cechy zarówno próby przekrojowej, jak i szeregu czasowego.

◦ Zawierają one szereg obserwacji dla danej próby przekrojowej.

◦ Każda obserwacja przypisana jest jednej konkretnie jednostce badania za pomocą

zmiennej, która identyfikuje tę jednostkę.

◦ Jednostki badania mogą być różnych rozmiarów: np. kraj, firma, rodzina, poszczególne

osoby.

◦ W danych panelowych występuje także zmienna wskazująca na okres, w którym dana

obserwacja była zebrana (kwartał, rok, itd.).

Page 10: Stanisław Cichocki Natalia Nehrebecka 05.05... · 2016. 5. 6. · Natalia Nehrebecka . 2 . 3 . 4 1. Wprowadzenie do danych panelowych a) Charakterystyka danych panelowych b) Zalety

10

Page 11: Stanisław Cichocki Natalia Nehrebecka 05.05... · 2016. 5. 6. · Natalia Nehrebecka . 2 . 3 . 4 1. Wprowadzenie do danych panelowych a) Charakterystyka danych panelowych b) Zalety

11

. 𝑥𝑡𝑠𝑒𝑡 𝑐𝑜𝑢𝑛𝑡𝑟𝑦 𝑦𝑒𝑎𝑟

panel variable: country (strongly balanced)

time variable: year, 1990 to 1999

delta: 1 unit

Page 12: Stanisław Cichocki Natalia Nehrebecka 05.05... · 2016. 5. 6. · Natalia Nehrebecka . 2 . 3 . 4 1. Wprowadzenie do danych panelowych a) Charakterystyka danych panelowych b) Zalety

12

𝒙𝒕𝒅𝒆𝒔

country: 1, 2, ..., 7 n = 7

year: 1990, 1991, ..., 1999 T = 10

Delta(year) = 1 unit

Span(year) = 10 periods

(country*year uniquely identifies each observation)

Distribution of T_i: min 5% 25% 50% 75% 95% max

10 10 10 10 10 10 10

Freq. Percent Cum. | Pattern

---------------------------+------------

7 100.00 100.00 | 1111111111

---------------------------+------------

7 100.00 | XXXXXXXXXX

Page 13: Stanisław Cichocki Natalia Nehrebecka 05.05... · 2016. 5. 6. · Natalia Nehrebecka . 2 . 3 . 4 1. Wprowadzenie do danych panelowych a) Charakterystyka danych panelowych b) Zalety

13

. 𝑥𝑡𝑠𝑒𝑡 𝑖𝑑𝑐𝑜𝑑𝑒 𝑦𝑒𝑎𝑟

panel variable: idcode (unbalanced)

time variable: year, 68 to 88, but with gaps

delta: 1 unit

Page 14: Stanisław Cichocki Natalia Nehrebecka 05.05... · 2016. 5. 6. · Natalia Nehrebecka . 2 . 3 . 4 1. Wprowadzenie do danych panelowych a) Charakterystyka danych panelowych b) Zalety

14

𝒙𝒕𝒅𝒆𝒔 idcode: 1, 2, ..., 5159 n = 4709

year: 68, 69, ..., 88 T = 15

Delta(year) = 1 unit

Span(year) = 21 periods

(idcode*year uniquely identifies each observation)

Distribution of T_i: min 5% 25% 50% 75% 95% max

1 1 3 5 9 13 15

Freq. Percent Cum. | Pattern

---------------------------+-----------------------

136 2.89 2.89 | 1....................

114 2.42 5.31 | ....................1

89 1.89 7.20 | .................1.11

87 1.85 9.05 | ...................11

86 1.83 10.87 | 111111.1.11.1.11.1.11

61 1.30 12.17 | ..............11.1.11

56 1.19 13.36 | 11...................

54 1.15 14.50 | ...............1.1.11

54 1.15 15.65 | .......1.11.1.11.1.11

3972 84.35 100.00 | (other patterns)

---------------------------+-----------------------

4709 100.00 | XXXXXX.X.XX.X.XX.X.XX

Page 15: Stanisław Cichocki Natalia Nehrebecka 05.05... · 2016. 5. 6. · Natalia Nehrebecka . 2 . 3 . 4 1. Wprowadzenie do danych panelowych a) Charakterystyka danych panelowych b) Zalety

15

1. Wprowadzenie do danych panelowych a) Charakterystyka danych panelowych

b) Zalety i ograniczenia

2. Modele ekonometryczne danych panelowych a) Model efektów nieobserwowalnych

b) Model efektów losowych

c) Model efektów stałych

d) Modele z dwukierunkowym komponentem błędu

3. Testy a) Test istotności efektów stałych i losowych

b) Test Hausmana

Page 16: Stanisław Cichocki Natalia Nehrebecka 05.05... · 2016. 5. 6. · Natalia Nehrebecka . 2 . 3 . 4 1. Wprowadzenie do danych panelowych a) Charakterystyka danych panelowych b) Zalety

16

. 𝑥𝑡𝑠𝑒𝑡 𝑐𝑜𝑢𝑛𝑡𝑟𝑦 𝑦𝑒𝑎𝑟

panel variable: country (strongly balanced)

time variable: year, 1990 to 1999

delta: 1 unit

Page 17: Stanisław Cichocki Natalia Nehrebecka 05.05... · 2016. 5. 6. · Natalia Nehrebecka . 2 . 3 . 4 1. Wprowadzenie do danych panelowych a) Charakterystyka danych panelowych b) Zalety

17

Page 18: Stanisław Cichocki Natalia Nehrebecka 05.05... · 2016. 5. 6. · Natalia Nehrebecka . 2 . 3 . 4 1. Wprowadzenie do danych panelowych a) Charakterystyka danych panelowych b) Zalety

18

Page 19: Stanisław Cichocki Natalia Nehrebecka 05.05... · 2016. 5. 6. · Natalia Nehrebecka . 2 . 3 . 4 1. Wprowadzenie do danych panelowych a) Charakterystyka danych panelowych b) Zalety

19

Kontrolowanie heterogeniczności jednostek badania ◦ 𝐻𝑒𝑡𝑒𝑟𝑜𝑔𝑒𝑛𝑒𝑖𝑡𝑦 𝑎𝑐𝑟𝑜𝑠𝑠 𝑐𝑜𝑢𝑛𝑡𝑟𝑖𝑒𝑠

Page 20: Stanisław Cichocki Natalia Nehrebecka 05.05... · 2016. 5. 6. · Natalia Nehrebecka . 2 . 3 . 4 1. Wprowadzenie do danych panelowych a) Charakterystyka danych panelowych b) Zalety

20

Kontrolowanie heterogeniczności jednostek badania ◦ 𝐻𝑒𝑡𝑒𝑟𝑜𝑔𝑒𝑛𝑒𝑖𝑡𝑦 𝑎𝑐𝑟𝑜𝑠𝑠 𝑦𝑒𝑎𝑟𝑠

Page 21: Stanisław Cichocki Natalia Nehrebecka 05.05... · 2016. 5. 6. · Natalia Nehrebecka . 2 . 3 . 4 1. Wprowadzenie do danych panelowych a) Charakterystyka danych panelowych b) Zalety

21

Kontrolowanie heterogeniczności jednostek badania

Dane panelowe mają większą moc informacyjną, większą różnorodność, mniejszą współliniowość między zmiennymi, więcej stopni swobody oraz większą efektywność.

Dane panelowe są bardziej odpowiednie do badania dynamiki dostosowań.

Dane panelowe bardziej nadają się do identyfikowania i mierzenia efektów, które w oczywisty sposób nie są możliwe do analizy za pomocą prób przekrojowych i szeregów czasowych.

Page 22: Stanisław Cichocki Natalia Nehrebecka 05.05... · 2016. 5. 6. · Natalia Nehrebecka . 2 . 3 . 4 1. Wprowadzenie do danych panelowych a) Charakterystyka danych panelowych b) Zalety

22

Projekt kwestionariusza oraz proces zbierania danych ◦ Niewystarczająca liczba jednostek, którymi badacz jest zainteresowany.

◦ Brak odpowiedzi – brak współpracy respondenta lub błędy ankietera.

◦ Częstość przeprowadzania wywiadów.

Błędy pomiarowe

Problemy związane z selekcją jednostek ◦ Brak odpowiedzi – związany z odmową przystąpienia do badania, nieobecnością

respondenta w domu, itd.

◦ „Wycieranie” panelu (𝒂𝒕𝒕𝒓𝒊𝒕𝒊𝒐𝒏) – jest to trwałe „wypadanie” jednostek objętych badaniem z takich powodów jak: śmierć, przeprowadzka, dłuższy wyjazd (np. na studia).

Page 23: Stanisław Cichocki Natalia Nehrebecka 05.05... · 2016. 5. 6. · Natalia Nehrebecka . 2 . 3 . 4 1. Wprowadzenie do danych panelowych a) Charakterystyka danych panelowych b) Zalety

23

Page 24: Stanisław Cichocki Natalia Nehrebecka 05.05... · 2016. 5. 6. · Natalia Nehrebecka . 2 . 3 . 4 1. Wprowadzenie do danych panelowych a) Charakterystyka danych panelowych b) Zalety

24

1. Wprowadzenie do danych panelowych a) Charakterystyka danych panelowych

b) Zalety i ograniczenia

2. Modele ekonometryczne danych panelowych a) Model efektów nieobserwowalnych

b) Model efektów losowych

c) Model efektów stałych

d) Modele z dwukierunkowym komponentem błędu

3. Testy a) Test istotności efektów stałych i losowych

b) Test Hausmana

Page 25: Stanisław Cichocki Natalia Nehrebecka 05.05... · 2016. 5. 6. · Natalia Nehrebecka . 2 . 3 . 4 1. Wprowadzenie do danych panelowych a) Charakterystyka danych panelowych b) Zalety

Liniowy model efektów nieobserwowalnych dla danych panelowych składających się z 𝑁 jednostek i T okresów możemy zapisać następująco:

• Poznane przez nas modele będą różnić się koncepcją traktowania efektu indywidualnego

25

𝑖 - indeks obserwacji,

𝑡 - indeks czasu,

𝑦𝑖𝑡 - zmienna objaśniana dla 𝑖-tej jednostki w czasie 𝑡,

𝑥𝑖𝑡 - wektor obserwacji zmiennych objaśniających dla 𝑖-tej jednostki w

czasie 𝑡,

𝛽 - wektor parametrów,

𝑢𝑖 - efekt indywidualny dla 𝑖-tej jednostki,

𝜀𝑖𝑡 - błąd czysto losowy dla 𝑖-tej jednostki w czasie 𝑡,

𝜐𝑖𝑡 - łączny błąd losowy dla 𝑖-tej jednostki w czasie 𝑡

𝑦𝑖𝑡 = 𝐱𝐢𝐭𝛃 + 𝑢𝑖 + 𝜀𝑖𝑡

𝝊𝒊𝒕

Page 26: Stanisław Cichocki Natalia Nehrebecka 05.05... · 2016. 5. 6. · Natalia Nehrebecka . 2 . 3 . 4 1. Wprowadzenie do danych panelowych a) Charakterystyka danych panelowych b) Zalety

Model z jednokierunkowym komponentem błędu (𝒐𝒏𝒆 𝒘𝒂𝒚 𝒆𝒓𝒓𝒐𝒓 𝒄𝒐𝒎𝒑𝒐𝒏𝒆𝒏𝒕 𝒎𝒐𝒅𝒆𝒍)

𝜐𝑖𝑡 = 𝑢𝑖 + 𝜀𝑖𝑡

Model z dwukierunkowym komponentem błędu (𝒕𝒘𝒐 𝒘𝒂𝒚 𝒆𝒓𝒓𝒐𝒓 𝒄𝒐𝒎𝒑𝒐𝒏𝒆𝒏𝒕 𝒎𝒐𝒅𝒆𝒍)

𝜐𝑖𝑡 = 𝑢𝑖 + 𝜆𝑡 + 𝜀𝑖𝑡

26

𝑢𝑖 - efekt indywidualny dla 𝑖-tej jednostki,

𝜀𝑖𝑡 - błąd czysto losowy dla 𝑖-tej jednostki w czasie 𝑡

𝜐𝑖𝑡 - łączny błąd losowy dla 𝑖-tej jednostki w czasie 𝑡

𝜆𝑡 - efekt czasowy

Page 27: Stanisław Cichocki Natalia Nehrebecka 05.05... · 2016. 5. 6. · Natalia Nehrebecka . 2 . 3 . 4 1. Wprowadzenie do danych panelowych a) Charakterystyka danych panelowych b) Zalety

27

1. Wprowadzenie do danych panelowych a) Charakterystyka danych panelowych

b) Zalety i ograniczenia

2. Modele ekonometryczne danych panelowych a) Model efektów nieobserwowalnych

b) Model efektów losowych

c) Model efektów stałych

d) Modele z dwukierunkowym komponentem błędu

3. Testy a) Test istotności efektów stałych i losowych

b) Test Hausmana

Page 28: Stanisław Cichocki Natalia Nehrebecka 05.05... · 2016. 5. 6. · Natalia Nehrebecka . 2 . 3 . 4 1. Wprowadzenie do danych panelowych a) Charakterystyka danych panelowych b) Zalety

28

Regresja typu pooled (𝑃𝑜𝑜𝑙𝑒𝑑 𝑂𝑟𝑑𝑖𝑛𝑎𝑟𝑦 𝐿𝑒𝑎𝑠𝑡 𝑆𝑞𝑢𝑎𝑟𝑒), to regresja na danych, które nie rozróżniają jednostek badania i okresów czasu.

Zapominamy, iż dane mają wymiar przekrojowo-czasowy i estymujemy wszystkie obserwacje łącznie za pomocą metody najmniejszych kwadratów.

Regresja ta nie wykorzystuje struktury danych panelowych – nie bierze pod uwagę heterogeniczności jednostek badania.

Wykorzystując metodę pooled regresion zakłada się, iż wszystkie obserwacje pochodzą z jednego okresu czasu, w wyniku czego w równaniu panelowym pojawia się łączny błąd losowy 𝜐𝑖𝑡 ) odpowiadający sumie 𝜀𝑖𝑡 oraz 𝑢𝑖)

𝑦𝑖𝑡 = 𝒙𝒊𝒕𝜷 + 𝜐𝑖𝑡 , 𝜐𝑖𝑡 = 𝑢𝑖 + 𝜀𝑖𝑡

Page 29: Stanisław Cichocki Natalia Nehrebecka 05.05... · 2016. 5. 6. · Natalia Nehrebecka . 2 . 3 . 4 1. Wprowadzenie do danych panelowych a) Charakterystyka danych panelowych b) Zalety

29

Page 30: Stanisław Cichocki Natalia Nehrebecka 05.05... · 2016. 5. 6. · Natalia Nehrebecka . 2 . 3 . 4 1. Wprowadzenie do danych panelowych a) Charakterystyka danych panelowych b) Zalety

30

Aby otrzymany estymator był estymatorem zgodnym, gdy:

𝐸 𝑣𝑖𝑡 = 0, 𝐶𝑜𝑣 𝑣𝑖𝑡 , 𝑥𝑖𝑡 = 0

◦ zakładamy, że błąd czysto losowy 𝜀𝑖𝑡 ma wartość oczekiwaną równą zero i jest nieskorelowany ze zmiennymi objaśniającymi:

𝐸 𝜀𝑖𝑡 = 0, 𝐶𝑜𝑣 𝜀𝑖𝑡 , 𝑥𝑖𝑡 = 0

◦ musi być spełniony warunek braku korelacji pomiędzy efektami indywidualnymi a zmiennymi objaśniającymi:

𝐸 𝑢𝑖 = 0, 𝑪𝒐𝒗 𝒖𝒊, 𝒙𝒊𝒕 = 𝟎

Page 31: Stanisław Cichocki Natalia Nehrebecka 05.05... · 2016. 5. 6. · Natalia Nehrebecka . 2 . 3 . 4 1. Wprowadzenie do danych panelowych a) Charakterystyka danych panelowych b) Zalety

31

Estymator MNK jest estymatorem nieobciążonym, jeśli

𝐸 𝜀𝑖𝑡|𝑿 = 0

𝐸 𝑢𝑖|𝑿 = 0

Page 32: Stanisław Cichocki Natalia Nehrebecka 05.05... · 2016. 5. 6. · Natalia Nehrebecka . 2 . 3 . 4 1. Wprowadzenie do danych panelowych a) Charakterystyka danych panelowych b) Zalety

32

Otrzymany estymator MNK (przy powyższych założeniach) będzie estymatorem zgodnym, lecz nieefektywnym.

◦ Na podstawie twierdzenia Gaussa-Markowa estymator MNK jest efektywny, jeśli błąd

losowy jest homoskedastyczny i nieskorelowany. Sformułowano założenia o tym że:

𝑉𝑎𝑟 𝒖 𝑿) = 𝜎𝑢

2𝑰

𝑉𝑎𝑟 𝜺 𝑿) = 𝜎𝜀2𝑰

𝐶𝑜𝑣 𝒖, 𝜺 | 𝑿 = 0

𝜺 = 𝜀11 … 𝜀1𝑇 … 𝜀𝑁1 … 𝜀𝑁𝑇 ; 𝐮 = 𝑢1 … 𝑢𝑁

◦ Czy założenie te implikują homoskedastyczność i brak autokorelacji łącznego błędu losowego 𝑣𝑖𝑡?

Page 33: Stanisław Cichocki Natalia Nehrebecka 05.05... · 2016. 5. 6. · Natalia Nehrebecka . 2 . 3 . 4 1. Wprowadzenie do danych panelowych a) Charakterystyka danych panelowych b) Zalety

33

Przy tych założeniach wariancja błędu łącznego wynosi: ◦ Dla uproszczenie zapisu pomijamy warunkowanie względem 𝑿

𝑉𝑎𝑟 𝜐𝑖𝑡 = 𝑉𝑎𝑟 𝑢𝑖 + 𝜀𝑖𝑡 = 𝑉𝑎𝑟 𝑢𝑖 + 𝑉𝑎𝑟 𝜀𝑖𝑡 + 2𝐶𝑜𝑣 𝑢𝑖 , 𝜀𝑖𝑡

= 𝜎𝑢2 + 𝜎𝜀

2

Dla 𝑡 ≠ 𝑠, kowariancja między 𝜐𝑖𝑡 i 𝜐𝑖𝑠 jest równa

𝑪𝒐𝒗(𝝊𝐢𝐭 , 𝝊𝐢𝐬) = 𝝈𝒖𝟐

Dla 𝑖 ≠ 𝑗, kowariancja między 𝜐𝑖𝑡 i 𝜐jt jest równa

𝐶𝑜𝑣(𝜐𝑖𝑡 , 𝜐jt) = 0

W rezultacie macierz wariancji-kowariancji błędu losowego nie jest sferyczna!

Page 34: Stanisław Cichocki Natalia Nehrebecka 05.05... · 2016. 5. 6. · Natalia Nehrebecka . 2 . 3 . 4 1. Wprowadzenie do danych panelowych a) Charakterystyka danych panelowych b) Zalety

34

Przy spełnieniu założeń 𝐸 𝑢𝑖 = 0, 𝐶𝑜𝑣 𝑢𝑖 , 𝑥𝑖𝑡 = 0 oraz w związku z występowaniem korelacji pomiędzy łącznymi błędami losowymi można stwierdzić, że oszacowany estymator parametrów modelu pooled regresion będzie zgodny, lecz nieefektywny.

Powinno się w tym wypadku użyć estymatora warstwowego. ◦ W związku z tym wnioskowanie statystyczne przeprowadza się na podstawie estymacji, w

której wykorzystano macierz odporną wariancji-kowariancji.

Page 35: Stanisław Cichocki Natalia Nehrebecka 05.05... · 2016. 5. 6. · Natalia Nehrebecka . 2 . 3 . 4 1. Wprowadzenie do danych panelowych a) Charakterystyka danych panelowych b) Zalety

1. Czym różni się panel od próby przekrojowo-czasowej?

2. Zapisać liniowy model efektów nieobserwowalnych i zinterpretować jego elementy.

35

Page 36: Stanisław Cichocki Natalia Nehrebecka 05.05... · 2016. 5. 6. · Natalia Nehrebecka . 2 . 3 . 4 1. Wprowadzenie do danych panelowych a) Charakterystyka danych panelowych b) Zalety

Dziękuję za uwagę

36