struttura dei dati panel variabile dipendente osservata in n unità in t occasioni k variabili...
TRANSCRIPT
Struttura dei dati panel
it
kit
it
x
y
Variabile dipendente osservata in N unità in T occasioni
K variabili indipendenti osservate in N unità in T occasioni
Residuo pertinente all’unità i e all’occasione t
Di solito “incolloniamo” i dati:
nt
n
n
t
t
kntntnt
knnn
knnn
tktt
k
k
tktt
k
k
nt
n
n
t
t
xxx
xxx
xxx
xxx
xxx
xxx
xxx
xxx
xxx
X
y
y
y
y
y
y
y
y
y
Y
2
1
2
22
21
1
12
11
21
22221
11211
22212
22222122
21221121
12111
12212112
11211111
2
1
2
22
21
1
12
11
.
.
.
.
....
.
.
.
.
.
.
.
Unità 1
Unità n
Var.1 Var.k
Occasione 1
Occasione 2
Occasione t
0
10
20
30
40
50
60
0 5 10 15 20 25
Reddito
Co
nsu
mi
Vediamo un esempio:
C=1.5+4.12 R
C=10+0.45 R
C=20+0.45 R
C=30+0.45 R
C=40+0.45 R
Stessa “pendenza” diverse “intercette”!!!!
In altri termini la elasticità del consumo rispetto al reddito sono le stesse per tutti gli individui, ciò che cambia è il “punto di partenza, cioè il consumo che corrisponde ad un reddito 0
I dati sezionali “nascondono” questo fatto:Sottostimano il “punto di partenza” (l’intercetta) Sovrastimano l’elasticità (la pendenza)
Vi è Distorsione: essa distorsione si annulla solo se l’intercetta per ogni individuo è la STESSA
Cioè una stima sezionale ipotizza un MODELLO di comportamento in cui la parte non spiegata della relazione (l’intercetta) è la stessa per tutti gli individui
Cioè nega l’ETEROGENEITA’ tra individui
1) E’ venuta alla luce una ipotesi del modello che non era stata esplicitata: l’omogeneità tra le parti non osservate di ciascun individuo.
2) Solo una certa configurazione dei dati (osservazioni in più occasioni) consente di esplicitare ed affrontare l’eterogeneità
3) Il modo in cui rappresentiamo con dati (simboli) il fenomeno (modello) hanno una influenza diretta sulle leggi che regolano il linguaggio (la tecnica ) e quindi sulle conclusioni
4) Dobbiamo sempre occuparci del processo che ha generato i dati che può non essere neutrale per il modello
Casistica di non neutralità delle misure.
Consideriamo un collettivo di unità statistiche, il DGP ha tra le sue caratteristiche più importanti la relazione (se c’è) che lega le misure effettuate sulle diverse unità. La casistica possibile è ampia, tra le assunzioni più comuni:
1. Indipendenza (nota e utile, tuttavia un DGP poco verosimile: ad es: imprese di uno stesso settore, pazienti di una stessa città….)
2. Di solito misure ripetute relative ad una stessa unità sono più “simili” di quelle tra unità diverse
3. Di solito misure vicine nel tempo e nello spazio tendono ad essere più simili di quelle più lontane
Un problema dei dati sezionali: l’eterogeneità non osservata
• Molte caratteristiche individuali non sono osservate, alcune sono anche non osservabili (es. Capacità imprenditoriale, entusiasmo, propensione al rischio)
• Queste variano tra gli individui e sono denominate “eterogeneità non osservata”
• Se queste caratteristiche sono correlate con la variabile di interesse e/o con le variabili osservate, allora la stima dei coefficienti è DISTORTA
• DISTORSIONE DA VARIABILE OMESSA.
• I dati di panel consentono di correggere questo BIAS
(digressione sulle variabili omesse)Supponiamo che il modello “vero” sia (in forma vettoriale):
2211 XXy
Se ignoriamo X2
22.1122'1
1'1111
'1
1'1122
'1
1'111
'1
1'111
PXXXXbE
sarà
XXXXXXXyXXXb
La matrice P contiene le pendenze OLS di X2 su X1. Ad esempio nella relazione
)(
),(
:
*
**
prezzoVar
redditoprezzoCovbE
redditoilignorando
prezzoredditosia
redditoprezzoconsumo
Sulla matrice di var-covar il discorso è più complesso:
1'2
1'222
'12
12.1
11
'2
1'222
1'11
22.1
1'11
21
1)(
)(
)(
XXXXXXbVarbVar
cioè
XXXXIMcon
MXXbVar
XXbVar
Con due variabili:
)(1
)(
)(
212
1221211
2
2.1
2
111111
2
1
xxcorrelrconrs
bVar
xxscons
bVar i
Distorsione nella stima sia sui coefficienti che sulla Var
Dobbiamo specificare la forma della eterogeneità, ciò implica ipotesi sulla
matrice di varianza-covarianza, cioè sulla struttura dei residui del modello
In generale le varianze dei (residui) del modello non saranno omoschedastichesaranno caratterizzate da diverse componenti che vanno “scorporate” in modoottenere stime corrette.
Questo tipologia di modelli è detta “a componenti di varianza”.
Naturalmente si avranno diversi tipi di modelli a seconda delle ipotesi sulle componenti di varianza che potranno essere, in prima istanza, di tipo deterministico o stocastico
Un discorso analogo vale anche per la Covarianza che, però, definisce modelliDiversi, in gran parte legati alla analisi di serie storiche
Un esempio Costi e produzione di 6 imprese per 4 anni:
I DATI
Costi (Y) Produzione (X) impresa t=1 t=2 t=3 t=4 t=1 t=2 t=3 t=4
1 3,5 4,3 4,6 5,8 214 419 588 1025 2 3,9 5,5 8,1 16,4 696 811 1640 2506 3 19,0 26,0 32,4 44,7 3202 4802 5821 9275 4 35,2 51,1 61,0 77,9 5668 7612 10206 13702 5 33,2 40,0 43,1 57,7 6000 8222 8484 10004 6 73,1 98,8 138,9 191,6 11796 15551 27218 30958
LOGARITMI:
Costi (Y) Produzione (X) impresa t=1 t=2 t=3 t=4 t=1 t=2 t=3 t=4
1 1,25 1,45 1,52 1,77 5,37 6,04 6,38 6,93 2 1,35 1,71 2,10 2,80 6,55 6,70 7,40 7,83 3 2,95 3,26 3,48 3,80 8,07 8,48 8,67 9,14 4 3,56 3,93 4,11 4,36 8,64 8,94 9,23 9,53 5 3,50 3,69 3,76 4,06 8,70 9,01 9,05 9,21 6 4,29 4,59 4,93 5,26 9,38 9,65 10,21 10,34
Adattiamo un modello lineare: ln(Y)=a+bln(X)+
OLS: a=-4.18 b=0.89 Var=0.04 r²=0.98
4 5 6 7 8 9 10 11 12 130
1
2
3
4
5
6
7
Impr.1
Impr.2
Impr.3
Impr.4
Impr.5
Impr.6
Stima
Abbiamo una PRIMA stima del modello quindi possiamo stimare i residui
E dai residui Varianze individuali e correlazioni
Ovviamente dobbiamo ipotizzare una “forma” per Varianze e Covarianze
IPOTESI:Per le varianze individuali: Costanti nel tempoPer le correlazioni: processo AR(1)
• Sotto queste ipotesi la stima è possibile mediando (rispetto al tempo) i quadrati dei residui per ogni individuo
• Calcolando l’autocorrelazione con lag=1
T
eT
tit
i
1
2
2
ˆ
T
tti
T
ttiti
e
ee
2
2,
21,,
ˆ
ˆˆ
tititi xye ,,,ˆ
Consideriamo i residui per per ciascuna impresa:y x y* e Var correl
t=1 1,25 5,37 0,65 -0,60t=2 1,45 6,04 1,23 -0,22t=3 1,52 6,38 1,53 0,01t=4 1,77 6,93 2,02 0,25 0,13 0,99t=1 1,35 6,55 1,68 0,33t=2 1,71 6,70 1,81 0,10t=3 2,10 7,40 2,43 0,33t=4 2,80 7,83 2,81 0,01 0,03 -0,95t=1 2,95 8,07 3,02 0,07t=2 3,26 8,48 3,38 0,12t=3 3,48 8,67 3,54 0,06t=4 3,80 9,14 3,96 0,16 0,00 -0,92t=1 3,56 8,64 3,52 -0,04t=2 3,93 8,94 3,78 -0,15t=3 4,11 9,23 4,04 -0,07t=4 4,36 9,53 4,30 -0,06 0,00 -0,62t=1 3,50 8,70 3,57 0,07t=2 3,69 9,01 3,84 0,15t=3 3,76 9,05 3,88 0,12t=4 4,06 9,21 4,02 -0,04 0,01 -0,25t=1 4,29 9,38 4,17 -0,12t=2 4,59 9,65 4,41 -0,18t=3 4,93 10,21 4,90 -0,03t=4 5,26 10,34 5,01 -0,25 0,01 -0,95
Scopriamo che le varianze per impresa sono diverse cioè c’è eteroschedasticità:(significatività test F per l’uguaglianza delle varianze)
impresa1 impresa2 impresa3 impresa4 impresa5 impresa6 overall
impresa1 1,000 0,225 0,006 0,007 0,039 0,050 0,083
impresa2 0,225 1,000 0,060 0,069 0,307 0,369 0,828
impresa3 0,006 0,060 1,000 0,934 0,317 0,262 0,029
impresa4 0,007 0,069 0,934 1,000 0,356 0,295 0,034
impresa5 0,039 0,307 0,317 0,356 1,000 0,894 0,176
impresa6 0,050 0,369 0,262 0,295 0,894 1,000 0,220
impresa1 0,99
impresa2 -0,95
impresa3 -0,92
impresa4 -0,62
impresa5 -0,25
impresa6 -0,95
E che le autocorrelazioni tra i residui della stessa impresa sono MOLTO diverse da 0
Infatti se utilizziamo GLS (con stima elementare della matrice Var/covar)(varianze residui sulla diagonale e AR1 nei blocchi di impresa)
0,05 0,83 0,69 0,48 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
0,83 0,05 0,83 0,69 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
0,69 0,83 0,05 0,83 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
0,48 0,69 0,83 0,05 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0,39 0,99 0,98 0,96 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0,99 0,39 0,99 0,98 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0,98 0,99 0,39 0,99 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0,96 0,98 0,99 0,39 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0,13 0,98 0,96 0,92 0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0,98 0,13 0,98 0,96 0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0,96 0,98 0,13 0,98 0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0,92 0,96 0,98 0,13 0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0 0,11 0,96 0,92 0,84 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0 0,96 0,11 0,96 0,92 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0 0,92 0,96 0,11 0,96 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0 0,84 0,92 0,96 0,11 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0,05 0,82 0,68 0,46 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0,82 0,05 0,82 0,68 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0,68 0,82 0,05 0,82 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0,46 0,68 0,82 0,05 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0,18 1,00 1,00 1,00
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1,00 0,18 1,00 1,00
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1,00 1,00 0,18 1,00
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1,00 1,00 1,00 0,18
Otteniamo stime diverse per i coefficienti:a= -5.91 b=1.10
NB. Non è stima FGLS! Dimostra solo che i residui non sono omoschedastici e incorrelati
Avvertenze sulla notazione:
D’ora in poi i simboli utilizzati nella notazione indicheranno VETTORI/MATRICI
Per i residui, in generale
il simbolo u indicherà residui OMOSCHEDASTICI e INCORRELATI
Il simbolo indicherà un residuo “composto” da u e una componente ETEROSCHEDASTICA e/o correlata, DETERMINISTICA o STOCASTICA
),...,,( 21 kitititit xxxfy
A questo punto dobbiamo modificare il modello semplice: Formuliamo una ipotesi di dipendenza:
ititit xy '0
itiit u
Errore “Composto”Componente individualeDeterministica o stocasticaCostante nel tempo
),0(~ 2uit Nu
Variabiliesplicative
Sviluppiamo un modello: (a componenti di varianza)
Diversi modi per specificare l’errore
(ce ne sono altri…)
itiit u
it i t itu
EffettoIndividuale
Errorecasuale
Effettotemporale
Effetto individuale
• Effetti FISSI: li sono constanti e vengono trattati come una intercetta
• Effetti CASUALI: li sono estrazioni da una distribuzione di probabilità data e diventano componenti stocastiche dell’errore, cioè i li hanno una “loro” varianza
Due possibilità di trattamento (due dgp):
ititiit uxy '0
)(' 10 itiitit uxy
Il Modello “zero” nessun effetto
• Si suppone che non vi sia eterogeneità o che l’eterogeneità sia stata eliminata in qualche modo: li sono constanti tra gli individui e identificano una UNICA intercetta.
• Le procedure di stima possibili si differenziano per il trattamento “preliminare dei dati:
• OLS “usuale” sui dati non trattati : • OLS sugli scarti per ciascun individuo (stima within)• OLS sulle medie (nel tempo) di ciascun individuo (stima
between)• Altri trattamenti (ad. Es. Sulle variazioni nel tempo)
Attenzione agli indici: Omoschedaticità e incorrelazione estesa a tutti gli individui, tutti i tempi e tutte le esplicative (irrealistico)
Pooled regression
storjiperxxCov
tixVar
xE
xy
jsitjsit
itit
itit
ititit
0),|,(
,)|(
0)|(
'
2
0
Prima strategia :OLS “usuale”
Attenzione agli indici nelle ipotesi sulla varianza/covarianza:
Per la Var si ipotizza che i residui siano omoschedastici per ogni individuo e per ogni occasione
Per la Covar si suppone pari a 0 in ogni individuo e in ogni occasione
Naturalmente se c’è effetto individualeSi ottiene stima distorta
ititiit xy '0
ititit
iititit
iiiititit
wxy
uxy
xExy
'
'
)|('
0
0
0
Modello “vero”
Modello stimato
Con (ci torneremo)
ititit uxy '0
Si ha:
Quindi il residuo stimato non è ed ha una componente u che si “ripete” nel tempo per lo stesso individuo, quindi è ETEROSCHEDASTCO e CORRELATO (nel tempo sullo stesso individuo)
0)|( iti xE
In questo caso i i vengono eliminati e con essi la distorsione nella stima, ma non abbiamo stime per le intercette individuali.
Quindi avremo problemi, ad esempio in termini di previsione.
...
...)(
iitiiiiitiiit
iitiitiit
uuuuma
xxyy
Seconda strategia : stimatore within:OLS sugli scarti dalla media calcolata in t per ciascun i
Stessi problemi del modello OLS “usuale per quanto riguarda la distorsione,
In più forte perdita di dati, quindi perdita di efficienza
... iii xy
Terza strategia : stimatore betweenOLS sulle media calcolata in t per ciascun i
ititit
tiititititiit
tiitittiitit
uxy
xy
xxxyyy
'
' 1,
1,1,
Altre strategie: stimatore alle differenze primeOLS sulle variazioni t per ciascun i
i i vengono eliminati e con essi la distorsione nella stima,
ma non è una strategia raccomandabile, ad esempio elimina tutte le variabili esplicative “time invariant”
Cioè modifica la specificazione del modello
Effetti FISSI
Abbiamo visto che alcune strategie eliminano le distorsoni ma, quantomeno, non forniscono una stima delle intercette individuali
Occupiamoci, ora, esplicitamente della stima dei i
cominciando dal caso in cui essi siano deterministici, cioè costanti nel tempo e variabili tra gli individui
Stima delle intercette individuali: Least Square Dummy Variables (LSDV)
I metodi di eliminazione non stimano i li,cioè non forniscono una misura delle caratteristiche non osservate.
Se si è interessati alla stima dei li è necessario adottare un altro stimatore.:
nt
n
n
t
t
kntnt
knn
knn
tkt
k
k
tkt
k
k
nt
n
n
t
t
xx
xx
xx
xx
xx
xx
xx
xx
xx
X
y
y
y
y
y
y
y
y
y
Y
2
1
2
22
21
1
12
11
2
222
112
222
22222
21221
121
12212
11211
2
1
2
22
21
1
12
11
.
.100
.100
.100
....
.010
.010
.010
.001
.001
.001
.
Riassumendo: EFFETTI FISSI4 stimatori
ititiit
iii
itiitiit
ititit
uxyLSDV
xybetween
uxxyywithin
xypooled
0
0
)(
Stimatore "overall"
y = 3,4975x + 6,2438
R2 = 0,8331
0
10
20
30
40
50
60
70
0 2 4 6 8 10 12 14 16 18
x
y
Stimatore "overall" RESIDUI
-20
-15
-10
-5
0
5
10
15
20
0 2 4 6 8 10 12 14 16 18
x
y r
es
idu
o ind1
ind2
ind3
ind4
Stimatore "within"
y = 0,7691x + 7E-16
R2 = 0,5272
-5
-4
-3
-2
-1
0
1
2
3
4
5
-5 -4 -3 -2 -1 0 1 2 3 4 5
x
y
Stimatore "within" RESIDUI
-4
-3
-2
-1
0
1
2
3
4
-5 -4 -3 -2 -1 0 1 2 3 4 5
x
y
Stimatore "beetween"
y = 4,1195x + 1,5372
R2 = 0,9927
0
10
20
30
40
50
60
0 2 4 6 8 10 12 14
x
y
Stimatore "LSDV"
0
10
20
30
40
50
60
0 2 4 6 8 10 12 14 16 18
x
y
Y= 10,6+0,77 X +10,6 ind2 +21,6 ind3 +32,7 ind4r²=0,99
Stimatore "LSDV residui"
-4
-3
-2
-1
0
1
2
3
4
0 2 4 6 8 10 12 14 16 18
x
y
Pooled 3.4974
Within 0.7691
Between 4.1195
LSDV 0.7691
I coefficienti della X
2 considerazioni: 1. LSDV=Within per quanto riguarda le “pendenze2. Overall = media ponderata (within e between)
Abbiamo visto che 3 delle strategie proposte hanno diversi limiti, tuttavia esse rimangono importanti perché forniscono la base per test inferenziali sul modello LSDV
Infatti collegati a ciascuna strategia è possibile ottenere una valutazione dell’errore di stima fondata sulle ipotesi di ciascuna strategia
Tali quantità si prestano ad un insieme di test, sostanzialmente ispirati dallo schema di Analisi della varianza.
Esempio e test di ipotesi
Procedimento:1 calcolo RSS per il modello within
2. Calcolo RSS per il modello “totale”
3 Trovo per differenza RSS between
NB. Dati lievemente diversi Rispetto all’esempio precedente
I DATI
impresa t=1 t=2 t=3 t=4 t=1 t=2 t=3 t=41 3,2 4,3 4,6 5,8 214 419 588 10252 3,9 5,5 8,1 11 696 811 1640 25063 19 26 32 41 3202 4802 5821 92754 35 51 61 78 5668 7612 10206 137025 33 40 43 58 6000 8222 8484 100046 73 99 139 192 11796 15551 27218 30958
LOGARITMI:
impresa t=1 t=2 t=3 t=4 t=1 t=2 t=3 t=41 1,2 1,5 1,5 1,8 5,37 6,04 6,38 6,932 1,4 1,7 2,1 2,4 6,55 6,7 7,4 7,833 3 3,3 3,5 3,7 8,07 8,48 8,67 9,144 3,6 3,9 4,1 4,4 8,64 8,94 9,23 9,535 3,5 3,7 3,8 4,1 8,7 9,01 9,05 9,216 4,3 4,6 4,9 5,3 9,38 9,65 10,21 10,34
MEDIE PER INDIVIDUO:
impresa Y X1 1,5 6,22 1,9 7,13 3,4 8,64 4 9,15 3,8 96 4,8 9,9Totale 3,2 8,3
Costi (Y) Produzione (X)
Y X
Stima within: incolonniamo i dati: Stima within: a -3,79E-16
b 0,676531
Dati Media di impresaScarti impresa RSS within= 0,266
impresa
Occas. Y X Y X Y X
Residui Residui^2
1 1 1,15 5,37 1,47 6,18 -0,32 -0,81 0,23 0,051 2 1,45 6,04 1,47 6,18 -0,02 -0,14 0,07 0,011 3 1,52 6,38 1,47 6,18 0,05 0,20 -0,09 0,011 4 1,77 6,93 1,47 6,18 0,30 0,75 -0,21 0,042 1 1,35 6,55 1,89 7,12 -0,54 -0,57 -0,15 0,022 2 1,71 6,7 1,89 7,12 -0,18 -0,42 0,11 0,012 3 2,1 7,4 1,89 7,12 0,21 0,28 0,02 0,002 4 2,39 7,83 1,89 7,12 0,50 0,71 0,02 0,003 1 2,95 8,07 3,35 8,59 -0,40 -0,52 -0,05 0,003 2 3,26 8,48 3,35 8,59 -0,09 -0,11 -0,02 0,003 3 3,48 8,67 3,35 8,59 0,13 0,08 0,07 0,013 4 3,72 9,14 3,35 8,59 0,37 0,55 0,00 0,004 1 3,56 8,64 3,99 9,09 -0,43 -0,44 -0,13 0,024 2 3,93 8,94 3,99 9,09 -0,06 -0,15 0,04 0,004 3 4,11 9,23 3,99 9,09 0,12 0,15 0,02 0,004 4 4,36 9,53 3,99 9,09 0,37 0,45 0,07 0,005 1 3,5 8,7 3,75 8,99 -0,25 -0,29 -0,05 0,005 2 3,69 9,01 3,75 8,99 -0,06 0,02 -0,07 0,015 3 3,76 9,05 3,75 8,99 0,01 0,06 -0,03 0,005 4 4,06 9,21 3,75 8,99 0,31 0,22 0,16 0,036 1 4,29 9,38 4,77 9,90 -0,48 -0,51 -0,13 0,026 2 4,59 9,65 4,77 9,90 -0,18 -0,24 -0,01 0,006 3 4,93 10,21 4,77 9,90 0,16 0,32 -0,05 0,006 4 5,26 10,34 4,77 9,90 0,49 0,45 0,19 0,04
Stima “Overall”: incolonniamo i dati: Stima within: a 1,85E-17
b 0,8884514
Datimedia "totale"
Scarti impresa RSS within= 1,013
impresa
Occas. Y X Y X Y X
Residui Residui^2
1 1 1,15 5,37 3,20 8,31 -2,05 -2,94 0,56 0,311 2 1,45 6,04 3,20 8,31 -1,75 -2,27 0,26 0,071 3 1,52 6,38 3,20 8,31 -1,68 -1,93 0,03 0,001 4 1,77 6,93 3,20 8,31 -1,43 -1,38 -0,21 0,042 1 1,35 6,55 3,20 8,31 -1,85 -1,76 -0,29 0,082 2 1,71 6,7 3,20 8,31 -1,49 -1,61 -0,06 0,002 3 2,1 7,4 3,20 8,31 -1,10 -0,91 -0,29 0,092 4 2,39 7,83 3,20 8,31 -0,81 -0,48 -0,39 0,153 1 2,95 8,07 3,20 8,31 -0,25 -0,24 -0,04 0,003 2 3,26 8,48 3,20 8,31 0,06 0,17 -0,09 0,013 3 3,48 8,67 3,20 8,31 0,28 0,36 -0,04 0,003 4 3,72 9,14 3,20 8,31 0,52 0,83 -0,22 0,054 1 3,56 8,64 3,20 8,31 0,36 0,33 0,06 0,004 2 3,93 8,94 3,20 8,31 0,73 0,63 0,17 0,034 3 4,11 9,23 3,20 8,31 0,91 0,92 0,09 0,014 4 4,36 9,53 3,20 8,31 1,16 1,22 0,07 0,015 1 3,5 8,7 3,20 8,31 0,30 0,39 -0,05 0,005 2 3,69 9,01 3,20 8,31 0,49 0,70 -0,14 0,025 3 3,76 9,05 3,20 8,31 0,56 0,74 -0,10 0,015 4 4,06 9,21 3,20 8,31 0,86 0,90 0,06 0,006 1 4,29 9,38 3,20 8,31 1,09 1,07 0,14 0,026 2 4,59 9,65 3,20 8,31 1,39 1,34 0,20 0,046 3 4,93 10,21 3,20 8,31 1,73 1,90 0,04 0,006 4 5,26 10,34 3,20 8,31 2,06 2,03 0,25 0,06
2
4
6
013,13
747,02
266,01
K
T
N
avendo
SD
SDDD
SD
T
wTb
w
Definiamo 3 stime corrette di RSS secondo tre ipotesi di modello
Dev. within
Dev. «spiegata» - between
Dev. Totale
Divise per gli opportuni gradi di libertà si otterranno tre stime della Varianza:
Vw = Varianza withinVb = Varianza beetwenVt = Varianza totale
6211
6214
6211
621
6213
....:
....:
....:
....
....:
datoH
H
H
H
Rapportando le Varianze (test F), possiamo «testare» 3 ipotesi :
6211
6214
6211
621
6213
....:
....:
)381,0(13,1)1(/2
1/234
....:
)479,0(08,11/1
1/121
....
....:
)472,0(12,11/1
11/133
datoH
H
KTNS
NSSF
H
KNNTS
KNSSF
H
KNNTS
KNSSF
I test (F)
Il TEST dice che né le PENDENZE né le intercette sono significativamente diverse
Costi e produzione (log per anno)
0
1
2
3
4
5
6
5 6 7 8 9 10 11
ln(produzione)
ln(c
ost
i)
impresa 1
impresa 2
impresa 3
impresa 4
impresa 5
impresa 6
S1 0,266126693 N= 6S2 0,746846584 T= 4S3 1,012973278 K= 2
NUM GDLNUM DEN GDLDEN VALORE Signif.F3 0,746846584 15 0,266126693 6 1,122542914 0,474252428F1 0,480719891 10 0,266126693 6 1,08381437 0,482236631F4 0,266126693 5 0,746846584 16 1,140268211 0,379585972
Stima intercette variabili – Effetti fissi Matrici:
Y matrice X costi dummy 1 dummy 2 dummy 3 dummy 4 dummy 5 dummy 6 prod 1,15 1 0 0 0 0 0 5,37 1,45 1 0 0 0 0 0 6,04 1,52 1 0 0 0 0 0 6,38 1,77 1 0 0 0 0 0 6,93 1,35 0 1 0 0 0 0 6,55 1,71 0 1 0 0 0 0 6,70 2,10 0 1 0 0 0 0 7,40 2,39 0 1 0 0 0 0 7,83 2,95 0 0 1 0 0 0 8,07 3,26 0 0 1 0 0 0 8,48 3,48 0 0 1 0 0 0 8,67 3,72 0 0 1 0 0 0 9,14 3,56 0 0 0 1 0 0 8,64 3,93 0 0 0 1 0 0 8,94 4,11 0 0 0 1 0 0 9,23 4,36 0 0 0 1 0 0 9,53 3,50 0 0 0 0 1 0 8,70 3,69 0 0 0 0 1 0 9,01 3,76 0 0 0 0 1 0 9,05 4,06 0 0 0 0 1 0 9,21 4,29 0 0 0 0 0 1 9,38 4,59 0 0 0 0 0 1 9,65 4,93 0 0 0 0 0 1 10,21 5,26 0 0 0 0 0 1 10,34
x'x 4 0 0 0 0 0 24,71 0 4 0 0 0 0 28,47 0 0 4 0 0 0 34,35 0 0 0 4 0 0 36,34 0 0 0 0 4 0 35,97 0 0 0 0 0 4 39,58
24,71 28,47 34,35 36,34 35,97 39,58 1699,72
x'x-1 9,43 10,58 12,77 13,50 13,37 14,71 -1,49 10,58 12,44 14,71 15,56 15,40 16,94 -1,71 12,77 14,71 17,99 18,77 18,58 20,44 -2,07 13,50 15,56 18,77 20,10 19,65 21,62 -2,19 13,37 15,40 18,58 19,65 19,71 21,41 -2,16 14,71 16,94 20,44 21,62 21,41 23,80 -2,38 -1,49 -1,71 -2,07 -2,19 -2,16 -2,38 0,24
x'y (x'x)-1x'Y 5,89 -2,694 a1 7,55 -2,912 a2
13,40 -2,440 a3 15,96 -2,134 a4 15,01 -2,311 a5 19,07 -1,904 a6 676,78 0,674 beta
DIAGNOSTICA: impresa
(i) Tempo
(t) Costi
osservati Costi
stimati Ai beta prod residuo residuo
^2 1 1 1,149 0,925 -2,694 0,674 5,366 0,224 0,050 1 2 1,452 1,378 -2,694 0,674 6,038 0,074 0,006 1 3 1,523 1,606 -2,694 0,674 6,377 -0,084 0,007 1 4 1,766 1,981 -2,694 0,674 6,932 -0,215 0,046 2 1 1,350 1,502 -2,912 0,674 6,545 -0,151 0,023 2 2 1,711 1,605 -2,912 0,674 6,698 0,106 0,011 2 3 2,095 2,080 -2,912 0,674 7,402 0,016 0,000 2 4 2,395 2,365 -2,912 0,674 7,826 0,029 0,001 3 1 2,946 3,003 -2,440 0,674 8,072 -0,056 0,003 3 2 3,260 3,276 -2,440 0,674 8,477 -0,016 0,000 3 3 3,480 3,406 -2,440 0,674 8,669 0,074 0,005 3 4 3,718 3,720 -2,440 0,674 9,135 -0,002 0,000 4 1 3,562 3,693 -2,134 0,674 8,643 -0,131 0,017 4 2 3,934 3,892 -2,134 0,674 8,937 0,042 0,002 4 3 4,112 4,090 -2,134 0,674 9,231 0,022 0,000 4 4 4,355 4,288 -2,134 0,674 9,525 0,067 0,004 5 1 3,501 3,555 -2,311 0,674 8,700 -0,054 0,003 5 2 3,690 3,767 -2,311 0,674 9,015 -0,078 0,006 5 3 3,764 3,789 -2,311 0,674 9,046 -0,025 0,001 5 4 4,056 3,900 -2,311 0,674 9,211 0,156 0,024 6 1 4,291 4,418 -1,904 0,674 9,376 -0,127 0,016 6 2 4,594 4,605 -1,904 0,674 9,652 -0,011 0,000 6 3 4,934 4,982 -1,904 0,674 10,212 -0,048 0,002 6 4 5,255 5,069 -1,904 0,674 10,340 0,186 0,035
RSS= 0,2640619 gdl= NT-N-K 17 S^2 0,0155331
Lo SQM dei coefficienti è la radice della diagonale di S^2 (X’X)-1 Matrice di var-covar dei coefficienti
0,147 0,164 0,198 0,210 0,208 0,228 -0,023 0,164 0,193 0,228 0,242 0,239 0,263 -0,027 0,198 0,228 0,280 0,292 0,289 0,318 -0,032 0,210 0,242 0,292 0,312 0,305 0,336 -0,034 0,208 0,239 0,289 0,305 0,306 0,333 -0,034 0,228 0,263 0,318 0,336 0,333 0,370 -0,037
-0,023 -0,027 -0,032 -0,034 -0,034 -0,037 0,004 SQM dei coefficienti a1 0,383 a2 0,440 a3 0,529 a4 0,559 a5 0,553 a6 0,608 beta 0,061
Calcolo di R2 per il modello con intercette variabili:
992375,034,24694,280/2640,01
/12
2222
R
yNyeR ii
Per il modello con unica intercetta:
970686,0632,34/633,42)888,0(
/22
22
R
TTR yyxx
TEST PER LA SIGNIFICATIVITA’ DELLE INTERCETTE USUALE test t:
coeff. sqm test t a1 -2,694 0,383 -7,037 a2 -2,912 0,440 -6,624 a3 -2,440 0,529 -4,615 a4 -2,134 0,559 -3,820 a5 -2,311 0,553 -4,177 a6 -1,904 0,608 -3,130
beta 0,674 0,061 11,030
IL TEST DICE CHE LE INTERCETTE SONO SIGNIFICATIVAMENTE DIVERSE DA 0 MA E’ PIU’ APPROPRIATO VALUTARE SE TUTTE LE INTERCETTE SONO DIVERSE DA UN QUALCHE VALORE FISSATO (INTERCETTA COMUNE) VALUTIAMO L’INCREMENTO DI VARIANZA SPIEGATA TRA IL MODELLO CON UNICA INTERCETTA (r) E QUELLO NON RISTRETTO (6 INTERCETTE)
)00016,0(708,917/)9924,01(
5/)9707,09924,0(
)/()1(
)1/()(
)17,5(
2
22
),1(
F
KNNTR
NRRF
u
puKNNTN
L’INCREMENTO DI SPIEGAZIONE E’ SIGNIFICATIVO
valori previsti e osservati
0,000
1,000
2,000
3,000
4,000
5,000
6,000
5,000 6,000 7,000 8,000 9,000 10,000 11,000
Costi osservati stime I.V. stime Pooled
INFATTI i.v. PREVEDE “MEGLIO”
INSE impr. 1 impr. 2 impr. 3 impr. 4 impr. 5 impr. 6 anno 2 anno 3 anno 4 prod
1 0 0 0 0 0 0 0 0 5,37 1 0 0 0 0 0 1 0 0 6,04 1 0 0 0 0 0 0 1 0 6,38 1 0 0 0 0 0 0 0 1 6,93 0 1 0 0 0 0 0 0 0 6,55 0 1 0 0 0 0 1 0 0 6,70 0 1 0 0 0 0 0 1 0 7,40 0 1 0 0 0 0 0 0 1 7,83 0 0 1 0 0 0 0 0 0 8,07 0 0 1 0 0 0 1 0 0 8,48 0 0 1 0 0 0 0 1 0 8,67 0 0 1 0 0 0 0 0 1 9,14 0 0 0 1 0 0 0 0 0 8,64 0 0 0 1 0 0 1 0 0 8,94 0 0 0 1 0 0 0 1 0 9,23 0 0 0 1 0 0 0 0 1 9,53 0 0 0 0 1 0 0 0 0 8,70 0 0 0 0 1 0 1 0 0 9,01 0 0 0 0 1 0 0 1 0 9,05 0 0 0 0 1 0 0 0 1 9,21 0 0 0 0 0 1 0 0 0 9,38 0 0 0 0 0 1 1 0 0 9,65 0 0 0 0 0 1 0 1 0 10,21 0 0 0 0 0 1 0 0 1 10,34
INSERIAMO UN EFFETTO VARIABILE NEL TEMPO E COSTANTE TRA GLI INDIVIDUI:
itittiit xy
La matrice X si modifica così (vanno inseriti T-1 effetti tempo per evitare perfetta col linearità e quindi i coeff vanno letti come contrasti rispetti a t=1)
COEFF -0,035 a1 0,197 a2 1,374 a3 1,917 a4 1,696 a5 2,536 a6 0,238 t2 0,380 t3 0,587 t4 0,195 beta
RSS= 0,12248064 gdl= NT-N-K 17 S^2 0,00720474
VAR/COVAR COEFFICIENTI 0,458 0,532 0,650 0,690 0,683 0,755 0,027 0,056 0,083 -0,081 0,532 0,622 0,758 0,804 0,796 0,881 0,032 0,065 0,097 -0,094 0,650 0,758 0,928 0,984 0,973 1,077 0,039 0,080 0,119 -0,115 0,690 0,804 0,984 1,046 1,033 1,143 0,042 0,085 0,126 -0,122 0,683 0,796 0,973 1,033 1,024 1,131 0,041 0,084 0,125 -0,121 0,755 0,881 1,077 1,143 1,131 1,253 0,046 0,093 0,138 -0,133 0,027 0,032 0,039 0,042 0,041 0,046 0,004 0,005 0,006 -0,005 0,056 0,065 0,080 0,085 0,084 0,093 0,005 0,010 0,012 -0,010 0,083 0,097 0,119 0,126 0,125 0,138 0,006 0,012 0,018 -0,015 -0,081 -0,094 -0,115 -0,122 -0,121 -0,133 -0,005 -0,010 -0,015 0,014
E quindi... coeff. sqm test t a1 -0,035 0,677 -0,051 a2 0,197 0,788 0,250 a3 1,374 0,964 1,425 a4 1,917 1,023 1,874 a5 1,696 1,012 1,677 a6 2,536 1,119 2,266 t2 0,238 0,065 3,683 t3 0,380 0,097 3,899 t4 0,587 0,134 4,381 beta 0,195 0,119 1,635
R2= 0,996463
Migliore del precedente??? In generale SI’
valori assoluti dei residui
-0,1
0
0,1
0,2
0,3
0,4
0,5
0,6
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
osservazioni (i,t)
residuo ti
residuo ai
residuo pooled
Ma se volessi stimare i valori medi….
Per impresa
Residui calcolati sui valori medi per impresa
-0,3
-0,25
-0,2
-0,15
-0,1
-0,05
0
0,05
0,1
0,15
0,2
1 2 3 4 5 6
impresa
resi
du
i residuo ti
residuo ai
residuo pooled
TOGLIENDO IL “POOLED”
zoom sui Residui calcolati sui valori medi per impresa
-2E-11
-1,5E-11
-1E-11
-5E-12
0
5E-12
1 2 3 4 5 6
impresa
resi
du
i
residuo ti
residuo ai
I TEMPI FANNO PEGGIORARE LA STIMA
Valori medi per anno…….
valori assoluti residui
-0,1
-0,08
-0,06
-0,04
-0,02
0
0,02
0,04
0,06
0,08
1 2 3 4
anni
resi
du
i residuo ti
residuo ai
residuo pooled
QUI, OVVIAMENTE, SONO LE INTERCETTE VARIABILI CHE PREVEDONO PEGGIO