il modello di regressione lineare multipla con regressori...

29
Universit` a di Pavia Il modello di regressione lineare multipla con regressori stocastici Eduardo Rossi

Upload: lammien

Post on 15-Feb-2019

226 views

Category:

Documents


0 download

TRANSCRIPT

Universita di Pavia

Il modello di regressione lineare multiplacon regressori stocastici

Eduardo Rossi

Il valore atteso condizionale

Modellare l’esperimento casuale bivariato nel quale le variabili casuali

(Y, X) sono rivelate all’osservatore in modo sequenziale, prima X

dopo Y . Se E(Y ) rappresenta la previsione di Y prima che

l’esperimento cominci, allora E[Y |x] potrebbe essere definito come la

previsione di Y dopo il verificarsi dell’evento {X = x}. Prima

dell’osservazione di X l’osservatore puo assegnare una distribuzione

alle previsioni condizionali di Y , che saranno formulate dopo

l’osservazione della realizzazione di X . Questo significa trattare

E[Y |X ] come una v.c.

Eduardo Rossi c© - Econometria 08 2

Il valore atteso condizionale

Se X e Y sono v.c. continue, la media di Y condizionata a X = x si

definisce

E[Y |X = x] =

∫yf(y|X = x)dy

come la media di una v.c. con densita di probabilita f(y|X = x).

Se E|g(Y )| < ∞, allora la media di g(Y ) condizionata a X = x

E[g(Y )|X = x] =

∫g(y)f(y|X = x)dy

La media condizionale di E[g(Y )|X = x] e una variabile casuale,

possiamo indicarla con h(X).

Eduardo Rossi c© - Econometria 08 3

Il valore atteso condizionale

g(y, x) ≡ [y − E(Y |X = x)]2

allora

E[g(Y, X)|X = x]

e detta varianza condizionale di Y condizionata a X , V ar[Y |X ].

Eduardo Rossi c© - Econometria 08 4

La legge dei valori attesi iterati

Siano Y e X v.c. definite sulle stesso spazio probabilizzato.

1. Se E|Y | < ∞, allora

EX [EY |X(Y |X)] = E[Y ] La legge dei valori attesi iterati

Eduardo Rossi c© - Econometria 08 5

La legge dei valori attesi iterati

Infatti,

E[Y ] =

∞∫

−∞

∞∫

−∞

yfY X(y, x)dxdy

=

∞∫

−∞

∞∫

−∞

yfY |X(y|x)fX(x)dxdy

=

∞∫

−∞

∞∫

−∞

yfY |X(y|x)dy

fX(x)dx

=

∞∫

−∞

EY |X [Y |X ]fX(x)dx

= EX [EY |X [Y |X ]]

Eduardo Rossi c© - Econometria 08 6

Il valore atteso condizionale

2. Se h(X) e limitata e E|g(Y )| < ∞, allora

E[h(X)g(Y )|X ] = h(X)E[g(Y )|X ]

E[h(X)g(Y )] = E{h(X)E[g(Y )|X ]}

Eduardo Rossi c© - Econometria 08 7

Il valore atteso condizionale

3. La legge dei valori attesi iterati nella sua formulazione generale

dice che:

EY,X [h(Y, X)] = EX{EY |X [h(Y, X)]}

Se EY,X{[Y − g(X)]2} < ∞, allora

EY,X{[Y − g(X)]2} = EX{EY |X [Y − g(X)]2}

= EX{EY |X [Y − E(Y |X) + E(Y |X) − g(X)]2}

= EX [V ar(Y |X)] + EX{[g(X) − E(Y |X)]2}

Se V ar(Y ) esiste e si pone g(x) = E(Y ), ∀x allora

V ar(Y ) = EX [V ar(Y |X)] + V arX [E(Y |X)]

dove V arX [E(Y |X)] = EX [E(Y |X) − E(Y )]2

Eduardo Rossi c© - Econometria 08 8

Il valore atteso condizionale

Siano X, Y, W v.c. definite sullo stesso spazio probabilizzato e si

indichi con fW |X(w|x) la densita di W condizionata a X = x. Allora

E[E(Y |X, W )|X = x] =

∫E(Y |X = x, W = w)fW |X(w|x)dw

= E(Y |X = x)

e quindi E[E(Y |X, W )|X ] = E(Y |X).

Eduardo Rossi c© - Econometria 08 9

Funzione di regressione

La media condizionale, E[Y |X ], e anche denominata funzione di

regressione, descrive come varia la media di Y al variare di X . E’

quindi funzione delle realizzazioni di X .

Se la funzione di regressione e lineare in X si dice retta di

regressione:

E[Y |X ] = β1 + β2X

E[Y ] = EX [E[Y |X ]] = E[β1 + β2X ] = β1 + β2EX [X ]

da cui

β1 = µy − β2µx

dove

µy ≡ E[Y ]

µx ≡ E[X ]

Eduardo Rossi c© - Econometria 08 10

Retta di regressione

Cov[Y, X] = E[(Y − µy)(X − µx)]

= EX [E[(Y − µy)(X − µx)|X ]]

= EX [(X − µx)E[(Y − µy)|X ]]

= EX [(X − µx)(β1 + β2X − µy)]

= β1EX [(X − µx)] + β2EX [(X − µx)X ] − µxEX [(X − µx)]

= β2EX [X2] − β2µ2x

= β2V ar[X ]

quindi

β2 =Cov[Y, X]

V ar[X ]

β1 = µy −Cov[Y, X]

V ar[X ]µx

Eduardo Rossi c© - Econometria 08 11

Indipendenza in media

La variabile aleatoria Y e detta indipendente in media dalla X se e

soltanto se la sua funzione di regressione non dipende da X

E[Y |X ] = E[Y ]

Se Y e indipendente in media da X allora Y e X hanno covarianza

nulla.

Eduardo Rossi c© - Econometria 08 12

Correlazione e regressione

• Analisi di Correlazione: valutare il grado di associazione

lineare fra due variabili

• Analisi di Regressione: studio della dipendenza di una

variabile (la variabile dipendente) da una o piu variabili

esplicative per stimare o predire il valore medio della dipendente

in funzione di valori noti o fissi (in campioni ripetuti) delle

variabili indipendenti

Eduardo Rossi c© - Econometria 08 13

Regressori stocastici

Survey di redditi familiari : Un campione di famiglie e estratto

casualmente ed i loro redditi e spese per varie categorie di beni e

servizi sono registrati.

Un econometrico puo, per esempio, regredire le spese per

l’alimentazione sul reddito disponibile, la composizione familiare, il

numero dei bambini, il livello d’istruzione, ecc.

In questo modello i dati non sono sperimentali ed i regressori non

possono essere descritti come fissi in campioni ripetuti. Se estraiamo

un nuovo campione di famiglie, una nuova y ed una nuova X sono

selezionate casualmente ogni volta.

Eduardo Rossi c© - Econometria 08 14

Media condizionale

Perche la media condizionale di Y dato X?

La media condizionale e una funzione ottimale per la previsione.

Una misura di accuratezza previsiva e il Mean Squared Error (MSE)

(Errore qudratico medio):

E[(yt − m(X))2]

e la media (o aspettativa) dell’errore di previsione al quadrato.

La media condizionale e una funzione di previsione ottimale (nel

senso del MSE) relativamente a tutte le altre funzioni delle variabili

condizionanti.

Eduardo Rossi c© - Econometria 08 15

Media condizionale e Minimo MSE

Supponiamo che i primi due momenti condizionali di yt dato X

esistano. La media condizionale della variabile casuale yt date le

variabili casuali in X, E[yt|X], e una funzione di previsione di yt dato

X con il minimo MSE.

Prova. Indichiamo con

µt(X) ≡ E[yt|X]

E[(yt − mt(X))2|X] = E[(yt − µt(X) + µt(X) − mt(X))2|X]

= V ar[yt|X] + (µt(X) − mt(X))2

perche

E[(µt(X) − mt(X))(yt − µt(X))|X] = (µt(X) − mt(X))E[(yt − µt(X))|X]

= (µt(X) − mt(X)) · 0

Eduardo Rossi c© - Econometria 08 16

Media condizionale e Minimo MSE

Il MSE e quindi pari a:

E[(yt − mt(X))2] = E[V ar[yt|X]] + E[(µt(X) − mt(X))2]

minimizzato quando

E[(yt − mt(X))2] = E[V ar[yt|X]]

cioe

E[(µt(X) − mt(X))2] = 0

mt(X) = µt(X) ≡ E[yt|X]

Eduardo Rossi c© - Econometria 08 17

Media condizionale e Minimo MSE

Attenzione: La media condizionale non e necessariamente una

funzione lineare, ne lo sono le funzioni di previsione che la dominano

in termini di MSE.

Eduardo Rossi c© - Econometria 08 18

MRLM - Assunzioni

1. La media condizionale e lineare:

E[yt|xt] = x′tβ

2. Campionamento casuale. Per ogni istante (unita) t un nuovo

vettore (yt, x′t) e estratto dalla popolazione in modo indipendente.

Eduardo Rossi c© - Econometria 08 19

MRLM - Assunzioni

La conoscenza di xs per ogni s 6= t non puo aiutare nella previsione

di yt.: (yt,xt) sono estratti in modo indipendente, questo significa:

E[yt|x1, . . . ,xt, . . . ,xN ] = x′tβ t = 1, . . . , N

e

E[yt|x1, . . . ,xt, . . . ,xN , y1, . . . , yt−1, yt+1, . . . , yN ] = x′tβ

Eduardo Rossi c© - Econometria 08 20

MRLM - Assunzioni

3. Il rango di X e K.

4. Il termine di disturbo

E[ε|X] = 0

E[εε′|X] = σ2IN

In modo non condizionale, per la legge delle aspettative iterate:

E{E[ε|X]} = E[ε] = 0

E{E[εε′|X]} = E[εε′] = σ2IN

Eduardo Rossi c© - Econometria 08 21

Proprieta stimatore OLS

Le proprieta statistiche dello stimatore OLS dipendono dalle

assunzioni sul processo che genera i dati.

Questa dipendenza contrasta con le proprieta geometriche che non

richiedono assunzioni.

Le assunzioni statistiche potrebbero venire meno. Si possono

effettuare dei controlli diagnostici per valutare l’evidenza contro le

assunzioni.

Eduardo Rossi c© - Econometria 08 22

Proprieta stimatore OLS

Non distorsione

β = (X′X)−1X′y = β + (X′X)−1X′ε

E[β|X] = β + (X′X)−1X′E[ε|X] = β + (X′X)−1X′ · 0 = β

Lo stimatore OLS e condizionalmente non distorto, ma anche non

condizionatamente (per la legge delle aspettative iterate):

E{E[β|X]} = E[β] = β

Eduardo Rossi c© - Econometria 08 23

Proprieta stimatore OLS

inoltre,

E[Xβ |X

]= Xβ

E[y − Xβ |X

]= 0

infatti

E[y − Xβ |X

]= E [y|X] − E

[Xβ |X

]

= Xβ − XE[β|X]

= Xβ − Xβ = 0

Eduardo Rossi c© - Econometria 08 24

Proprieta stimatore OLS

Varianza dello stimatore OLS:

V ar[β|X] = E[(β − β)(β − β)′|X]

= E[(X′X)−1X′εε′X(X′X)−1|X]

= (X′X)−1X′E[εε′|X]X(X′X)−1

= σ2(X′X)−1

La matrice di covarianza misura quanto informatico e il campione per

i parametri. La varianza non condizionale

V ar[β] = E{V ar[β|X]} = σ2E[(X′X)−1]

Se viene ripetuto l’esperimento casuale con estrazioni casuali di X, la

distribuzione di β e descritta da V ar[β].

Eduardo Rossi c© - Econometria 08 25

I residui

ǫ = y − Xβ = (IN − PX)y

ǫ = MXy

= MX(Xβ + ǫ)

= MXXβ + MXǫ

= MXǫ

Sebbene i residui siano stime di variabili non correlate per assunzione

risultano correlati

E[ǫǫ′|X] = E[MXǫǫ′M′X |X] = σ2MX

la distribuzione e singolare, la matrice di varianza-covarianza e

singolare con rango N −K. Questa e la conseguenza dell’ortogonalita

con X.

Eduardo Rossi c© - Econometria 08 26

Stima della varianza dell’errore

E[ε2t |X] = σ2

Per la legge delle aspettative iterate:

E{E[ε2t |X]} = E[ε2

t ] = σ2

Stimatore non distorto:

s2 =ǫ′ǫ

N − K

Per dimostrare la correttezza usiamo le seguenti proprieta della

traccia

a = tr(a) a ∈ R

tr(AB) = tr(BA)

Eduardo Rossi c© - Econometria 08 27

Stima della varianza dell’errore

E[s2|X] =E[ǫ′Mǫ|X]

N − k

=E[tr(ǫ′Mǫ)|X]

N − K

=E[tr(Mǫǫ′)|X]

N − K=

tr[E(Mǫǫ′|X)]

N − K

=tr[ME(ǫǫ′|X)]

N − K

=tr(Mσ2IN )

N − K=

tr(σ2M)

N − K= σ2 tr(M)

N − K= σ2 N − K

N − K

= σ2

Eduardo Rossi c© - Econometria 08 28

Stima della varianza dell’errore

Non condizionatamente:

E

[ǫ′ǫ

N − K

]= σ2

s2 e corretto solo nel caso di disturbi omoschedastici (E[ǫǫ′] = σ2IN ).

Teorema di Gauss-Markov

β e fra gli stimatori corretti quello con la varianza condizionale piu

piccola (nel senso delle matrici semidefinite positive).

Eduardo Rossi c© - Econometria 08 29