capitolo 6 il modello di regressione · 2014-03-10 · variabili che spiegano y e la forma lineare...

45
Capitolo 6 IL MODELLO DI REGRESSIONE 6.1 Introduzione In questo capitolo conclusivo generalizziamo quanto esposto nell’ultimo capitolo del Volume I. In particolare affrontiamo da un punto di vista pro- babilistico il problema di grande rilevanza pratica riguardante l’esistenza di una relazione fra una data variabile (variabile endogena o dipendente) ed una o più altre variabili (variabili esplicative o indipendenti ). Il legame è del tipo cause- effetto che supponiamo di tipo unidirezionale: sono le variabili esplicative che causano quella dipendente, ma non è ammesso, logicamente, il vicever- sa. Questa problematica è il primo passo di una disciplina abbastanza impor- tante e complessa che va sotto il nome di Econometria. Da un punto di vista formale, se indichiamo con Y la variabile dipen- dente e con X 1 , X 2 , ..., X k le k variabili esplicative che entrano nel problema si suppone che sia Y = f(X 1 , X 2 , ..., X k ; β) (1) ove f( ) è una qualche funzione nota a meno del vettore di parametri β. Più precisamente: X 1 , X 2 , ..., X k sono le cause Y è l’effetto β è un vettore di parametri incogniti f( ) è una funzione nota Se si escludono fenomeni di tipo fisico, ed anche in quell’ambito la cosa è discutibile, è ben difficile sostenere che fra cause ed effetto vi sia una per- fetta relazione matematica. Di solito su Y, oltre alle k variabili esplicative (X 1 , X 2 , ..., X k ) individuate, esercitano la loro influenza tutta una serie di mi- cro-cause (compresi gli inevitabili errori di misurazione dei fenomeni) di difficile o impossibile osservazione che sintetizziamo sotto la voce caso. Da

Upload: others

Post on 02-Aug-2020

4 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Capitolo 6 IL MODELLO DI REGRESSIONE · 2014-03-10 · variabili che spiegano Y e la forma lineare del modello è corretta; (2) la variabile X è deterministica, nel senso che al

Capitolo 6

IL MODELLO DI REGRESSIONE

6.1 Introduzione

In questo capitolo conclusivo generalizziamo quanto esposto nell’ultimocapitolo del Volume I. In particolare affrontiamo da un punto di vista pro-babilistico il problema di grande rilevanza pratica riguardante l’esistenza diuna relazione fra una data variabile (variabile endogena o dipendente) ed una opiù altre variabili (variabili esplicative o indipendenti). Il legame è del tipo cause-effetto che supponiamo di tipo unidirezionale: sono le variabili esplicativeche causano quella dipendente, ma non è ammesso, logicamente, il vicever-sa. Questa problematica è il primo passo di una disciplina abbastanza impor-tante e complessa che va sotto il nome di Econometria.

Da un punto di vista formale, se indichiamo con Y la variabile dipen-dente e con X

1, X

2, ..., X

k le k variabili esplicative che entrano nel problema

si suppone che sia

Y = f(X1, X

2, ..., X

k; β) (1)

ove f( ) è una qualche funzione nota a meno del vettore di parametri β. Piùprecisamente:

X1, X

2, ..., X

k sono le cause

Y è l’effettoβ è un vettore di parametri incognitif( ) è una funzione nota

Se si escludono fenomeni di tipo fisico, ed anche in quell’ambito la cosaè discutibile, è ben difficile sostenere che fra cause ed effetto vi sia una per-fetta relazione matematica. Di solito su Y, oltre alle k variabili esplicative(X

1, X

2, ..., X

k) individuate, esercitano la loro influenza tutta una serie di mi-

cro-cause (compresi gli inevitabili errori di misurazione dei fenomeni) didifficile o impossibile osservazione che sintetizziamo sotto la voce caso. Da

Page 2: Capitolo 6 IL MODELLO DI REGRESSIONE · 2014-03-10 · variabili che spiegano Y e la forma lineare del modello è corretta; (2) la variabile X è deterministica, nel senso che al

Capitolo 6218

un punto di vista statistico queste micro-cause possono essere rappresentateda una variabile casuale non osservabile, che chiamiamo errore o scarto, eche indichiamo con e. Un modo molto semplice per includere in Yl’influenza di e è quello di sommare questa variabile casuale nella (1) otte-nendo il modello di regressione

Y = f(X1, X2, ..., Xk; β) + e (2)

Nella (2) Y è essa stessa una variabile casuale visto che è una funzionedell’errore casuale e. Nel seguito supporremo che il carattere descrivente Yè un fenomeno continuo, l’estensione al caso discreto non viene qui pre-sentata.

Esempio 1Indichiamo con R il reddito individuale di un certo insieme di soggetti, con C i relativi

consumi, dalla teoria economica sappiamo che ha senso scrivere

C = f(R) + e

In altri termini, con questa relazione diciamo che i consumi individuali sono una qualchefunzione del reddito individuale a cui si somma una variabile scarto che può essere identifi-cata con i diversi gusti, la diversa religione, errori di misurazione ecc.

Indichiamo con D la domanda di un dato bene, P il prezzo unitario di quel bene, R ilreddito del consumatore, P

c il prezzo unitario di un bene complementare, P

s il prezzo unita-

rio di un bene sostitutivo, sappiamo dalla teoria economica che ha senso la relazione seguen-te

D = f(P, R, Pc , Ps

) + e

Indichiamo con CA il consumo di carburante e con CI la cilindrata di date autovettu-re, ha senso scrivere la relazione seguente

CA = f(CI) + e.

Nella (2), per procedere oltre, esplicitiamo la forma funzionale di f( ) equindi ci poniamo così in un ambito parametrico (le uniche incognite sonoi parametri β presenti nel modello). Si potrebbe anche utilizzare un ap-proccio più complesso, che in questa sede non viene presentato, in cui laforma funzionale f( ) è essa stessa incognita (caso non parametrico) e da sti-mare. Per semplificare ancora gli sviluppi ed i risultati teorici, nel seguitosupporremo che f( ) sia lineare e di conseguenza parleremo di modello diregressione lineare.

Nel caso in cui vi sia una sola variabile esplicativa ed f( ) è lineare si parla

Page 3: Capitolo 6 IL MODELLO DI REGRESSIONE · 2014-03-10 · variabili che spiegano Y e la forma lineare del modello è corretta; (2) la variabile X è deterministica, nel senso che al

Il modello di regressione lineare 219

di regressione lineare semplice, se le variabili esplicative sono più di una si parla diregressione lineare multipla. Tratteremo in modo diffuso della regressione linea-re semplice avvertendo che, almeno da un punto di vista concettuale, tuttociò che viene detto per questo caso vale per quello, più interessante da unpunto di vista applicativo, multiplo. La scelta di analizzare e presentare inmodo dettagliato il modello di regressione lineare semplice è che in tal ca-so molti sviluppi formali si semplificano ed i relativi calcoli applicativi pos-sono essere eseguiti anche con una semplice calcolatrice tascabile. D’altrolato, almeno concettualmente, faremo vedere come questi sviluppi si gene-ralizzano al caso multiplo e presenteremo in tal senso anche qualche appli-cazione a fenomeni reali.

6.2 La costruzione del modello di regressione

La costruzione di un modello, ed in particolare quello di regressione,consiste in una serie di passaggi, di stadi, logici e formali molto complessiche rendono l’operazione abbastanza delicata. Vediamo di ripercorrerne,sinteticamente le tappe più rilevanti:

(1) in primo luogo è necessario individuare il fenomeno su cui si vuolecostruire il modello;

(2) tenendo conto della teoria o di pezzi di teoria già esistenti si indivi-duano la variabile dipendente Y e quelle esplicative (X

1, X

2, ..., X

k),

quindi si raccolgono informazioni statistiche su (Y; X1, X

2, ..., X

k);

(3) utilizzando la teoria già esistente o lavori che già hanno affrontato, intempi o contesti differenti, la stessa problematica ed i relativi risultatiottenuti si formula il modello di regressione esplicitando la formafunzionale f( );

(4) si stimano i parametri incogniti del modello formulato con un meto-do di stima che porti, quanto meno, a stimatori consistenti;

(5) si verifica che il modello formulato e stimato sia “accettabile” sotto-ponendolo ad una serie di test;

(6) se il modello viene “accettato” si usa a fini interpretativi, previsivi, de-scrittivi, di controllo ecc. Se il modello non viene ritenuto idoneo arappresentare il fenomeno in studio si ritorna al punto (1) per riper-correre il ciclo e terminarlo fino a che il modello non viene accetta-to.

Nella figura che segue sono riportate le tappe dello schema logico per lacostruzione di un modello.

Come si può arguire da quanto abbiamo detto schematicamente qui so-pra, le fasi più delicate nell’elaborazione di un modello sono la sua formu-

Page 4: Capitolo 6 IL MODELLO DI REGRESSIONE · 2014-03-10 · variabili che spiegano Y e la forma lineare del modello è corretta; (2) la variabile X è deterministica, nel senso che al

Capitolo 6220

lazione - identificazione e la sua verifica. Infatti, un modello elaborato peruno o più degli scopi sopra accennati può non superare la fase di verifica(fallimento del modello). In tal caso è necessario cercare di scoprire gli o-stacoli che lo rendono non utilizzabile e rimuoverli. In generale, i motivipiù frequenti per cui un modello fallisce sono dovute ad una o più delleseguenti cause:

(i) la teorizzazione che è stata utilizzata per formulare il modello non reggealla prova dei fatti ed il modello elaborato non si adatta alla realtà osser-vata. È molto difficile individuare una tale fonte di errore. Ogni model-lo, per quanto complesso, è una semplificazione della realtà e di solito siassume che sia valido per quella realtà fino a prova contraria;

(ii) la teorizzazione è corretta ma la formulazione-identificazione del mo-dello è errata. Così, se utilizziamo un modello lineare, mentre in realtà lerelazioni sono non lineari i risultati che si ottengono sono scadenti;

(iii) i dati a disposizione, in qualità o in quantità, oppure il metodo di stimanon sono idonei.

6.3 Il modello di regressione lineare semplice

Poniamo ora la nostra attenzione al caso di un modello di regressionelineare semplice. In altri termini, supponiamo che per i fenomeni che si

Page 5: Capitolo 6 IL MODELLO DI REGRESSIONE · 2014-03-10 · variabili che spiegano Y e la forma lineare del modello è corretta; (2) la variabile X è deterministica, nel senso che al

Il modello di regressione lineare 221

stanno studiando si può ritenere valido un modello di regressione linearesemplice e quindi che sia

Y = βo + β

1 X + e (3)

con: Y la variabile dipendente che descrive il fenomeno di interesse, Xl’unica variabile esplicativa (causa) di Y, e la variabile casuale scarto non os-servabile, β

o e β1 due parametri incogniti e da stimare.

Osserviamo che nella (3), βo + β

1 X rappresenta l’equazione di una retta

ove βo è la relativa intercetta mentre β

1 è il coefficiente angolare. Per poter

procedere alla stima dei parametri incogniti del modello (3) è necessario:

(a) avere informazioni sulle due variabili osservabili Y ed X,(b) formulare delle ipotesi sulla variabile casuale scarto non osservabile e.

A tale proposito supponiamo di disporre di un campione casuale di n cop-pie estratte da (X, Y) ottenendo la seguente rilevazione statistica:

(x1, y

1), (x

2, y

2), ..., (x

n, y

n).

Naturalmente, queste n coppie di osservazioni possono essere analizzatecon gli strumenti della statistica descrittiva di cui abbiamo parlato nei capi-toli iniziali ed in particolare possono dare luogo ad una distribuzione difrequenza doppia ed ai relativi indici descrittivi ivi presentati.

Se il modello (3) è vero, e tale lo riteniamo fino a prova contraria, allorasarà vero per ogni coppia di osservazioni ottenendo

y1 = β

o + β

1 x

1 + e

1

y2 = β

o + β

1 x

2 + e

2

........................

yn = β

o + β

1 x

n + e

n

ove e1 è la variabile casuale scarto non osservabile associata alla prima osser-

vazione campionaria, e2 è la variabile casuale scarto non osservabile associata

alla seconda osservazione campionaria, ..., en è la variabile casuale scarto non

osservabile associata alla n-esima osservazione campionaria. Ovviamente, le ncoppie di osservazioni potrebbero anche costituire una serie storica doppiaosservata in n tempi diversi sulla stessa unità di rilevazione in tal caso ancheei, i=1,2,...,n, risulta ordinata nel tempo

Page 6: Capitolo 6 IL MODELLO DI REGRESSIONE · 2014-03-10 · variabili che spiegano Y e la forma lineare del modello è corretta; (2) la variabile X è deterministica, nel senso che al

Capitolo 6222

Esempio 2Nel caso del consumo in funzione del reddito, il modello di regressione lineare diviene

C = βo + β

1R + e

ed avendo a disposizione le n coppie di osservazioni (ci, ri) avremo:

ci = β

o + β

1 ri + e

ii=1,2, ..., n

Se le n coppie di osservazioni (ci, r

i) sono state ottenute intervistando n individui a caso di

una data popolazione allora queste sono scambiabili e le informazioni contenute nella rile-vazione doppia sono equivalenti a quella della distribuzione di frequenza doppia ad essaassociata. Se le n coppie di osservazioni si riferiscono sempre alla stessa unità di rilevazione(lo stesso individuo, oppure la stessa regione, oppure lo stesso paese) osservata in n tempi di-versi, di solito equispaziati, allora si ha una serie storica doppia le cui coppie di rilevazioninon sono scambiabili pena la perdita di informazioni sull’evoluzione temporale del fenomeno.

Una volta formulato il modello e ottenute le n coppie di osservazioni ènecessario stimare i parametri incogniti. Per poter far questo bisogna for-mulare le ipotesi classiche del modello di regressione:

(1) il modello è perfettamente specificato, nel senso che non vi sono altrevariabili che spiegano Y e la forma lineare del modello è corretta;

(2) la variabile X è deterministica, nel senso che al variare del campionevariano i valori assunti da e

i ma le x

i sono sempre le stesse;

(3) E(ei) = 0 per i = 1,2,.., n.

In altri termini, le n variabili casuali scarto ei valgono in media tutte zero

e quindi, in media, non esercitano alcuna influenza su Y;(4) var(e

i) = σ

2 per i=1,2,..., n.

In altri termini, le n variabili casuali scarto hanno tutte la stessa variabili-tà (ipotesi dell’omoschedasticità);

(5) cov(ei, e

j) = 0 per i≠j=1,2,...,n.

In altri termini, fra variabili casuali scarto relative ad osservazioni diver-se non esistono legami lineari (ipotesi dell’incorrelazione);

(6) ei~N(0, σ

2), i=1,2,...,n, e sono indipendenti fra di loro.

In altri termini, le variabili casuali scarto si distribuiscono come norma-li indipendenti tutte con la stessa media pari a zero e la stessa varianzaσ

2 (ipotesi di normalità, questa ipotesi include le ipotesi (3)-(5)).

Da quanto è stato detto fino ad ora rileviamo che in complesso i parame-

Page 7: Capitolo 6 IL MODELLO DI REGRESSIONE · 2014-03-10 · variabili che spiegano Y e la forma lineare del modello è corretta; (2) la variabile X è deterministica, nel senso che al

Il modello di regressione lineare 223

tri da stimare sono tre e precisamente βo, β

1, σ

2.

Se il modello di regressione lineare fosse stato multiplo, per esempiocon le tre variabili esplicative X, Z, V, avremmo dovuto avere n quadrupledi informazioni (y

i, x

i, z

i, v

i), i=1,2,...,n, e per ciascuna di esse sarebbe risultato

yi = β

o + β

1 x

i + β

2 z

i + β

3 v

i + e

i  (4)

In tal caso le ipotesi classiche fatte continuerebbero a valere con l’aggiuntadell’ulteriore ipotesi che fra le x

i, z

i, v

i non vi siano legami lineari, mentre i

parametri da stimare crescerebbero, in questo caso sarebbero cinque e pre-cisamente: β

o , β

1 , β

2 , β

3 , σ

2.

Ritornando al caso semplice, tenuto conto dell’ipotesi (3) si ha immedia-tamente

E(Yi) = β

o + β

1 x

i, i=1,2,...,n

questo vuol dire che Y, in media, è una funzione lineare della X, inoltre te-nuto conto contemporaneamente dell’ipotesi (2) risulta

var(Yi) = var(e

i) = σ

2, i=1,2,...,n

che per l’ipotesi (6) implica

Yi ~ N[β

o + β

1 xi, σ

2], i=1,2,...,n

cioè le Yi sono normali indipendenti. Considerazioni analoghe valgono per

il caso multiplo.

6.4 La stima dei parametri del modello

Dato il modello di regressione lineare semplice, utilizzando le n infor-mazioni campionarie, stimiamo in primo luogo i due parametri β

o e β

1. Per

far questo utilizziamo il già visto Metodo dei Minimi Quadrati.Per capire come opera logicamente questo metodo di stima nel caso del

modello di regressione consideriamo la rappresentazione grafica a scatterdelle coppie di valori osservati (x

i, y

i), i=1,2,...,n. In altri termini, riportiamo

su un sistema di assi cartesiani le n coppie di punti osservati, si otterrà unarappresentazione tipo quella riportata nella figura seguente. Il problema chesi vuole affrontare è di adattare agli n punti la retta “ottimale” il che equivale a

Page 8: Capitolo 6 IL MODELLO DI REGRESSIONE · 2014-03-10 · variabili che spiegano Y e la forma lineare del modello è corretta; (2) la variabile X è deterministica, nel senso che al

Capitolo 6224

scegliere la coppia di parametri ottimali (βo, β

1) che descrivono tale retta.

Come è ben noto, in n punti passano infinite rette e quella “ottimale” deveessere scelta secondo una qualche funzione obiettivo.

Il metodo dei minimi quadrati, in sigla OLS (Ordinary Least Squares),sceglie, fra le infinite rette possibili, quella che minimizza la somma dei quadra-

ti degli scarti.

Questo vuol dire che nel metodo dei minimi quadrati il criterio obietti-vo per la scelta della retta “ottimale” è la minimizzazione della somma deiquadrati degli scarti. Traduciamo quanto detto qui sopra in espressioni alge-briche in modo da poter ottenere delle formule operative per le stime deidue parametri della retta in questione. Dalla relazione ipotizzata

yi = β

o + β

1 x

i + e

i, i=1,2,...,n

si ricavano gli n scarti:

ei = y

i - β

o - β

1 x

i, i=1,2,...,n

e quindi la somma dei loro quadrati:

∑=

n

1i

2ie = ∑

=

−−n

1i

2i1oi )xy( ββ

e fra le infinite coppie (βo, β

1) e quindi fra le infinite corrispondenti rette

possibili scegliamo quella che minimizza l’ultima espressione:

Page 9: Capitolo 6 IL MODELLO DI REGRESSIONE · 2014-03-10 · variabili che spiegano Y e la forma lineare del modello è corretta; (2) la variabile X è deterministica, nel senso che al

Il modello di regressione lineare 225

Quella per cui risulta

∑=

n

1i

2ie = 2

i1oi

n

1i

)xy( ββ −−∑=

= minimo(βo, β

1)

La soluzione del problema di minimo per ottenere le stime di βo e β

1 è

prettamente matematico ed in questo caso ha una soluzione piuttosto sem-plice. Infatti, per trovare questo minimo basta considerare le derivate primedi ∑ 2

ie rispetto alle due incognite βo e β

1, uguagliarle a zero, risolvere i l

relativo sistema di equazioni lineari. Più precisamente:

2i1oi

n

1io

)xy( βββ

−−∂

∂ ∑=

= 2 )1)(xy( i1oi

n

1i

−−−∑=

ββ =

= -2 )xy( i1oi

n

1i

ββ −−∑=

= 0

2i1oi

n

1i1

)xy( βββ

−−∂

∂ ∑=

= 2 )x)(xy( ii1oi

n

1i

−−−∑=

ββ =

= -2 )xy( i1oi

n

1i

ββ −−∑=

xi = 0.

Da cui, dividendo ambo i membri delle due equazioni per -2, deriviamo i lseguente sistema lineare nelle due incognite β

o e β

1:

=−−

=−−

=

=

0x)xy(

0)xy(

ii1oi

n

1i

i1oi

n

1i

ββ

ββ

che posto

x = ∑=

n

1in1

xi

y = ∑=

n

1in1

yi

mxy = ∑

=

n

1in1

xi y

im

2x = ∑

=

n

1in1

x 2i

Page 10: Capitolo 6 IL MODELLO DI REGRESSIONE · 2014-03-10 · variabili che spiegano Y e la forma lineare del modello è corretta; (2) la variabile X è deterministica, nel senso che al

Capitolo 6226

può essere scritto

=−−

=−−

0mnxnmn

0xnnyn

x211xy

1o

ββ

ββ

Dividendo ambo i membri delle due equazioni per n, ricavando βo dalla

prima equazione e sostituendolo nella seconda si può scrivere

=−−

−=

x211xy

1o

mx)xy(m

xˆy

ββ

ββ

PostoS

xy = m

xy - yx : covarianza campionaria di (X, Y)

S 2x = m

2x - x

2 : varianza campionaria di X

si ottiene

=

−=2x1xy

10

SS

xy

β

ββ

Risolvendo rispetto ai due parametri incogniti si ha infine che:

Le stime dei minimi quadrati dei parametri della retta di regressione sono

1β = 2x

xy

S

S, oβ = y - xˆ1β

L’equazione della retta di regressione che minimizza la somma dei quadratidegli scarti è data da

y = xˆˆ1ï ββ +

Osserviamo che:(a) la retta di regressione passa sempre per il punto medio ( x , y ), infatti

sostituendo al posto di oβ , per xx = si ottiene

Page 11: Capitolo 6 IL MODELLO DI REGRESSIONE · 2014-03-10 · variabili che spiegano Y e la forma lineare del modello è corretta; (2) la variabile X è deterministica, nel senso che al

Il modello di regressione lineare 227

xˆˆ1ï ββ + =( ) yxˆxˆy 11 =+− ββ

(b) in corrispondenza di ciascuna xi osservata è possibile individuare la rela-

tiva yi stimata, che indichiamo con iy , situata sulla retta di regressione:

iy = i10 xˆˆ ββ + i=1,2,..,n

(c) dai valori osservati yi e da quelli stimati iy possiamo derivare gli scarti

stimati, che indichiamo con ie , dati da

ie = yi - iy i=1,2,..,n

(d) se ricordiamo che una delle proprietà della media aritmetica è quella diminimizzare la somma dei quadrati degli scarti ci rendiamo subito contoche la retta di regressione stimata con il metodo dei minimi quadrati èproprio una stima in media ed è presumibile che le stime così ottenuteabbiano le stesse proprietà della stima della media;

(e) una conseguenza di quanto detto al punto (d) è che la somma degli scartistimati è sempre nulla: la somma degli scarti positivi è pari alla sommadegli scarti negativi. La dimostrazione formale di questa affermazione èsemplice, infatti

i

n

1i

e∑=

= )yy( ii

n

1i

−∑=

= ( )[ ]∑=

+−n

1ii1oi xˆˆy ββ =

∑=

n

1iiy - ∑

=

n

1ioβ - i

n

1i1 xˆ∑

=

β = ∑=

n

1iiy - ( )∑

=

−n

1i1 xˆy β - 1β ∑

=

n

1iix =

Page 12: Capitolo 6 IL MODELLO DI REGRESSIONE · 2014-03-10 · variabili che spiegano Y e la forma lineare del modello è corretta; (2) la variabile X è deterministica, nel senso che al

Capitolo 6228

= n y - ( ) 0xˆnxˆnynynxˆnxˆnyn 1111 =−+−=−− ββββ

che dimostra quanto affermato. Graficamente si ha una situazione similea quella riportata nella figura seguente

Una immediata implicazione di questa uguaglianza è che

∑=

n

1iiy = ∑

=

n

1iiy

e dividendo ambo i membri per n segue immediatamente che la mediacampionaria delle y

i è esattamente uguale alla media campionaria delle

iy ;

(f) le stime oβ e 1β sono funzioni delle sole osservazioni campionarie equindi al variare del campione variano e descrivono due variabili casuali.

Le proprietà di oβ e 1β sono derivate dal comportamento di tali v.c.

Esempio 3Su 7 autovetture a gasolio, scelte a caso da un dato parco macchine, è stato verificato il

consumo, per miglia, prima di un determinato intervento (variabile X) e dopo l’intervento(variabile Y) ottenendo le 7 coppie di risultati seguenti

(17.2; 18.3) (21.6; 20.8) (19.5; 20.9) (19.1; 21.2)

(22.9; 22.7) (18.7; 18.6) (20.3; 21.9)

si vuole verificare se fra X ed Y esiste il legame lineare :Y = β

o + β

1 X + e

In questo caso notiamo che il legame logico è del tipo X “causa” Y, infatti Y è ottenuto

Page 13: Capitolo 6 IL MODELLO DI REGRESSIONE · 2014-03-10 · variabili che spiegano Y e la forma lineare del modello è corretta; (2) la variabile X è deterministica, nel senso che al

Il modello di regressione lineare 229

“dopo” X. Inoltre, se costruiamo la rappresentazione a scatter (X, Y) otteniamo la figurache segue

Da questo grafico deduciamo che il legame lineare ipotizzato è abbastanza plausibile vistoche le sette coppie di osservazioni tendono a disporsi lungo una retta crescente. Per quantoriguarda la stima di β

o e β

1 con il metodo dei minimi quadrati, i calcoli possono essere or-

ganizzati come nella tabella seguente. A partire dalle 7 coppie di osservazioni (xi, y

i), ripor-

tate nelle prime due colonne della tabella, deriviamo le 2ix e x

i y

i riportate nella terza e quar-ta colonna rispettivamente.

x i yi2ix x

i yi iy ie = yi- iy

17.20 18.30 95.840 14.760 18.60094 -0.30094521.60 20.80 66.560 49.280 22.07043 -1.27043319.50 20.90 80.250 07.550 20.41454 0.48546019.10 21.20 64.810 04.920 20.09913 1.10086822.00 22.70 84.000 99.400 22.38584 0.31416118.70 18.60 49.690 47.820 19.78372 -1.18372320.30 21.90 12.090 44.570 21.04536 0.854645

138.40 144.40 2753.240 2868.300 144.39996 0.000033

Dalla tabella deriviamo immediatamente:

x = 74.138

= 19.771429 y = 74.144

= 20.62857

m2x

= 724.2753

= 393.32001 mxy =

73.2868

= 409.75715

Page 14: Capitolo 6 IL MODELLO DI REGRESSIONE · 2014-03-10 · variabili che spiegano Y e la forma lineare del modello è corretta; (2) la variabile X è deterministica, nel senso che al

Capitolo 6230

2xS = m2x -

2x = 2.4106 Sxy = m

xy - yx = 1.9008

che ci permettono di ottenere le stime cercate

1β = 2x

xy

S

S= 0.78852 oβ = y - 1β x = 5.0384

Una volta ottenute le stime dei due parametri deriviamo le stime della variabile dipendente

iy = oβ + 1β xi:

11o1 xˆˆy ββ += = 5.0384 + (0.78852)17.20 = 18.600944

21o2 xˆˆy ββ += = 5.0384 + (0.78852)21.6 = 22.070432...................................................................................................

71o7 xˆˆy ββ += = 5.0384 + (0.78852)20.3 = 21.045356

Ottenuti i valori stimati iy (penultima colonna della tabella sopra riportata) deriviamo lestime dei residui ie = y

i - iy riportate nell’ultima colonna della citata tabella. Osservia-mo, infine, che teoricamente dovrebbe risultare

∑ iy = ∑ iy ; ∑ ie = 0

1 2 3 4 5 6 718

19

20

21

22

23

Y Y^

In pratica, per gli arrotondamenti che necessariamente devono essere fatti, queste uguaglian-ze quasi mai sono verificate in modo esatto come si nota anche dalla tabella sopra riportataove le dette uguaglianze sono solo praticamente confermate, sono cioè vere a meno di appros-simazioni trascurabili.

Nel grafico qui sopra riportato abbiamo messo a confronto i valori osservati della va-riabile dipendente Y con quelli ottenuti con il modello lineare. Vediamo che il modello ipo-

Page 15: Capitolo 6 IL MODELLO DI REGRESSIONE · 2014-03-10 · variabili che spiegano Y e la forma lineare del modello è corretta; (2) la variabile X è deterministica, nel senso che al

Il modello di regressione lineare 231

tizzato riesce a cogliere in modo accettabile il fenomeno preso in considerazione.Nella figura seguente abbiamo riportato il diagramma a scatter fra i due fenomeni os-

servati con la relativa retta di regressione adattata e l’indicazione dell’ampiezza dei residuistimati oltre che del relativo segno.

18

19

20

21

22

23

17 18 19 20 21 22 23

Y

X

Nell’esempio sopra riportato abbiamo mostrato in dettaglio come si puòprocedere per costruire le stime dei minimi quadrati dei due parametri β

o e

β1 nel modello di regressione lineare semplice e come sia possibile con

semplici strumenti grafici verificare, in prima approssimazione, la bontà delmodello ipotizzato. In pratica, i calcoli sopra riportati ed i relativi graficinon vengono fatti manualmente, ma si utilizzano in modo sistematico glistrumenti che vengono forniti dalla tecnologia. La diffusione e l’utilizzointensivo dei computers (hardware) e dei relativi programmi di calcolo (sof-tware) permettono di effettuare queste elaborazioni in modo preciso e ve-loce. Naturalmente l’utilizzatore deve sapere cosa l’elaboratore sta calcolan-do e come i risultati vanno interpretati. Tutto questo è ancora più rilevantequando il modello utilizzato è di regressione multipla (le variabili esplicativesono più di una) e le relative elaborazioni bisogna necessariamente effet-tuarle con tali strumenti avanzati. Teniamo conto che nelle pratiche applica-zioni molto spesso il modello è di tipo multiplo. In questo caso la proce-dura di stima è una semplice generalizzazione di quella vista ma, ripetiamo, icalcoli diventano molto più lunghi e complessi e quindi non eseguibili senon con gli strumenti informatici ormai largamente disponibili.

Per rimanere nel concreto, supponiamo che il modello di cui vogliamostimare i parametri sia il seguente

yi = β

o + β

1 x

i + β

2 z

i + β3 v

i + e

i, i=1,2,..,n

in questo caso è necessario risolvere il seguente problema di minimo

Page 16: Capitolo 6 IL MODELLO DI REGRESSIONE · 2014-03-10 · variabili che spiegano Y e la forma lineare del modello è corretta; (2) la variabile X è deterministica, nel senso che al

Capitolo 6232

∑=

n

1i

2ie = 2

i3i2i1oi

n

1i

)vzxy( ββββ −−−−∑=

= minimo(βo, β

1, β

2, β

3)

che si ottiene risolvendo rispetto a (βo, β

1, β

2, β

3) il seguente sistema non o-

mogeneo di quattro equazioni lineari che ammetterà, sotto l’ipotesi che frale tre variabili esplicative non vi siano perfetti legami lineari, una ed una so-la soluzione. Tale soluzione la daremo in forma esplicita nelle pagine suc-cessive quando riscriveremo il modello di regressione in termini di matricie vettori.

=−−−−−=∂

=−−−−−=∂

=−−−−−=∂

=−−−−−=∂

∑∑

∑∑

∑∑

∑∑

==

==

==

==

0v)vzxy(2e

0z)vzxy(2e

0x)vzxy(2e

0)vzxy(2e

i

n

1ii3i2i10i

n

1i

2i

3

i

n

1ii3i2i10i

n

1i

2i

2

n

1iii3i2i10i

n

1i

2i

1

n

1ii3i2i10i

n

1i

2i

0

βββββ

βββββ

βββββ

βββββ

Nell’esempio che segue stimeremo un modello di regressione con trevariabili esplicative e ne commenteremo i relativi risultati.

Esempio 4Nella tabella seguente riportiamo i tassi relativi ai Nati vivi (NV), Matrimo-

nialità (MTR), Mortalità (MRT), in Cerca di prima occupazione (CPO) rela-tivi al 1993 per le venti regioni italiane:

NV MTR MRT CPO NV ePiemonte 7.5 4.9 11.4 2.507 8.024250 - 0.524250Valle d'Aosta 7.4 4.8 10.1 1.201 8.094782 - 0.694782Lombardia 8.4 4.7 9.0 1.739 8.341146 0.058853Trentino-Alto A. 10.5 5.2 9.0 0.879 9.181734 1.318266Veneto 8.2 5.0 9.1 1.495 8.847956 - 0.647956Friuli-Ven. Giu. 7.2 4.4 12.5 1.581 6.582482 0.617518Liguria 6.5 4.7 13.8 3.055 6.915501 - 0.415501

Page 17: Capitolo 6 IL MODELLO DI REGRESSIONE · 2014-03-10 · variabili che spiegano Y e la forma lineare del modello è corretta; (2) la variabile X è deterministica, nel senso che al

Il modello di regressione lineare 233

Emilia-Romagna 7.1 4.4 11.4 1.503 6.938589 0.161411Toscana 7.0 4.6 11.5 2.468 7.413622 - 0.413622Umbria 7.9 5.0 11.2 2.927 8.336814 - 0.436813Marche 8.2 4.7 10.2 2.199 8.001959 0.198041Lazio 9.7 4.9 8.9 4.835 9.162971 0.537028Abruzzo 9.4 4.8 9.8 3.955 8.556788 0.843211Molise 9.2 4.9 10.3 5.622 8.800165 0.399834Campania 13.4 6.3 7.8 11.030 13.01526 0.384737Puglia 11.7 6.1 7.5 7.281 12.23962 - 0.539623Basilicata 9.4 5.5 8.3 7.199 10.81801 - 1.418008Calabria 10.9 5.4 8.0 9.527 11.03327 - 0.133274Sicilia 12.4 5.7 9.1 8.389 11.08948 1.310516Sardegna 9.3 5.0 8.1 7.006 9.905586 - 0.605586Italia 9.4 5.1 9.5 4.602 9.400000 0.000000

Le variabili sopra riportate sono state ottenute tramite le seguenti:

NV = 1993nelmediaepopolazion

1993nelvivinatinumero× 1000

MTR = 1993nelmediaepopolazion

1993nelmatrimoninumero× 1000

MRT = 1993nelmediaepopolazion

1993nelmortinumero× 1000

CPO = 1993nelepopolazion

1993neleoccupazion1cercan °°× 100

Osserviamo che utilizziamo dati relativi e non assoluti visto che vogliamo capire se esisteun legame fra NV (l’effetto) e MTR, MRT, CPO (le cause) e questo ha senso solo se elimi-niamo la diversa numerosità di popolazione esistente fra le diverse regioni italiane. Per ifenomeni in studio ipotizziamo che il seguente modello lineare

NV = βo + β

1MTR + β

2MRT + β

3CPO + e

sia idoneo a spiegare il fenomeno Nati vivi per le diverse regioni italiane. Da un punto divista logico ci attendiamo che:

Page 18: Capitolo 6 IL MODELLO DI REGRESSIONE · 2014-03-10 · variabili che spiegano Y e la forma lineare del modello è corretta; (2) la variabile X è deterministica, nel senso che al

Capitolo 6234

(a) fra Matrimoni e Nati vivi vi sia un legame lineare positivo (questo ci fa attendereun β

1>0) visto che è logico supporre un aumento del tasso di natalità in corrispondenza

dell’aumento del tasso di matrimonialità;(b) il legame sia negativo fra Morti e Nati vivi (valore atteso di β

2 < 0) dato che in una

popolazione sviluppata, come quella italiana, la mortalità è alta perché la popolazione èpiù vecchia e quindi la natalità è più bassa;

(c) siamo molto scettici a ipotizzare un legame diretto ed immediato fra in Cerca di primaoccupazione e Nati vivi anche se non può essere escluso del tutto dato che chi è giovane enon ha un lavoro difficilmente si sposa e mette al mondo figli (valore atteso β

3 > 0). In

margine, notiamo la forte dicotomia che esiste fra le regioni del centro-nord e quelle del sud.I legami a coppie (NV, MTR), (NV, MRT), (NV, CPO) sono riportati negli scatterseguenti

5

8

10

13

15

4.0 4.5 5.0 5.5 6.0 6.5

NV

MTR

5

8

10

13

15

0 25 50 75 100 125

NV

CPO

che confermano le ipotesi fatte, in particolare emerge un legame lineare non marginale fraNV e CPO.

Le stime dei quattro parametri con il metodo dei minimi quadrati sono rispettivamente:

oβ = 2.1456; 1β = 1.9073; 2β = - 0.3331; 3β = 0.0131

5

8

10

13

15

5 8 10 13 15

NV

MRT

Page 19: Capitolo 6 IL MODELLO DI REGRESSIONE · 2014-03-10 · variabili che spiegano Y e la forma lineare del modello è corretta; (2) la variabile X è deterministica, nel senso che al

Il modello di regressione lineare 235

ed il segno dei valori stimati è quello atteso. Queste stime ci hanno permesso di ottenere ivalori stimati di NV tramite la seguente

VN = 2.1456 + 1.9073 MTR - 0.3331MRT + 0.0131CPO

ed i relativi residui stimati e . I valori di VN e di e sono riportati nelle ultime due co-lonne della tabella. Nella figura che segue abbiamo riportato i grafici dei valori osservati estimati della variabile dipendente NV, per le 20 regioni ed il relativo scatter. I risultatisembrano complessivamente accettabili.

5 10 15 206

7

8

9

10

11

12

13

14

NV

NV

5

8

10

13

15

5 8 10 13 15

NV

NV

Una volta stimati i parametri βi del modello di regressione è necessario

stimare anche σ 2, la varianza comune delle variabili casuali e

i. Ricordiamo,

infatti, che per ipotesi si ha:σ

2 = var(e

i) = var(Y

i), i=1,2,...,n

Con

Page 20: Capitolo 6 IL MODELLO DI REGRESSIONE · 2014-03-10 · variabili che spiegano Y e la forma lineare del modello è corretta; (2) la variabile X è deterministica, nel senso che al

Capitolo 6236

ei = Y

i - E(Y

i), i=1,2,...,n

e sembra ovvio che la stima di questo parametro debba essere fatta a partiredagli scarti stimati

ie  = yi - iy , i=1,2,...,n

che conferma come iy , e quindi iβ , siano delle stime in media. Comeabbiamo già mostrato per la stima della varianza in generale uno stimatorenon distorto e consistente è data dalla somma dei quadrati degli scarti dallamedia stimata diviso per i gradi di libertà (che in quel contesto erano n-1).Nel caso del modello di regressione lineare semplice, y

i = β

o + β

1 x

i + ei , la

somma degli scarti dalla media stimata è data da

2ii

n

1i

)yy( −∑=

= 2i

n

1i

e∑=

mentre i relativi gradi di libertà sono n-2 dato che per ottenere gli ie è ne-cessario prima stimare i due parametri incogniti β

o e β

1. In definitiva:

Una stima accettabile di σ 2 nel caso del modello di regressione lineare

semplice è data da

s 2 = 2

i

n

1i

e2n1 ∑

=−.

Con ragionamenti del tutto simili si ottiene la stima di σ 2 nel caso di mo-

dello di regressione lineare multiplo. Così per il modello di regressionelineare definito nella (4) la stima di σ

2 è data da

s 2 = 2

i

n

1i

e4n

1 ∑=−

Esempio 5La stima di σ

2 nel caso visto nell’esempio 3 è data da

Page 21: Capitolo 6 IL MODELLO DI REGRESSIONE · 2014-03-10 · variabili che spiegano Y e la forma lineare del modello è corretta; (2) la variabile X è deterministica, nel senso che al

Il modello di regressione lineare 237

s 2 =

5382467.5

= 1.076493

La stima di σ2 nel caso visto nell’esempio 4 è data da

s 2 =

1661101.9

= 0.600688.

6.5 Proprietà delle stime dei minimi quadrati

Nel paragrafo precedente abbiamo visto come è possibile stimare i pa-rametri del modello di regressione lineare utilizzando il metodo dei mini-mi quadrati. Le stime ottenute sono delle stime in media e quindi dovreb-bero possedere le stesse proprietà che gode la classica stima della media:non distorsione e consistenza. Qui di seguito dimostriamo in modo formalequeste proprietà delle stime dei minimi quadrati per il caso del modello diregressione lineare semplice. Ricordiamo che è

Yi = β

o + β

1 x

i + ei

Inoltre

nSxy = )YY)(xx( ii

n

1i

−−∑=

=

)xx( i

n

1i

−∑=

Yi - )xx(Y i

n

1i

−∑=

= )xx( i

n

1i

−∑=

Yi,

n S 2x = )xx( i

n

1i

−∑=

2 = )xx)(xx( ii

n

1i

−−∑=

= )xx( i

n

1i

−∑=

xi

ove si è tenuto conto che la somma degli scarti dalla propria media è sem-pre identicamente nulla. In tal modo avremo

Page 22: Capitolo 6 IL MODELLO DI REGRESSIONE · 2014-03-10 · variabili che spiegano Y e la forma lineare del modello è corretta; (2) la variabile X è deterministica, nel senso che al

Capitolo 6238

1β = 2x

xy

S

S=

2i

n

1i

ii

n

1i

)xx(

)YY)(xx(

−−

=

= = 2x

ii

n

1i

nS

Y)xx( −∑= =

= 2x

ii1oi

n

1i

nS

)exâ)(âxx( ++−∑= =

= βo 2

x

i

n

1i

nS

)xx( −∑= + β

1 2x

ii

n

1i

nS

x)xx( −∑= +

2x

ii

n

1i

nS

e)xx( −∑= =

= β1 +

2x

in

1i nS

)xx( −∑=

ei = β

1 + ∑

=

n

1i

w1i e

i

Allo stesso modo risulta

oβ = Y - 1β x = βo + β

1 x + ∑=

n

1in1

ei - xe

nS

)xx(i2

x

in

1i1

−+∑

=

β =

= βo + ∑

=

n

1in1

ei -

2x

in

1i nS

)xx(x

−∑=

ei = β

o +

−−∑

=2x

in

1i nS

x)xx(n1

ei =

= βo + ∑

=

n

1i

woi e

i

ove si è posto

w1i =

2x

i

nS

)xx( −, w

oi =

−−

2x

i

nS

x)xx(n1

= 2x

ix2

nS

)xxm( −.

Da queste espressioni deduciamo che le due stime sono pari ai rispettiviparametri incogniti più una combinazione lineare delle variabili casuali e

i.

Inoltre, da queste relazioni, tenendo conto che le xi sono deterministiche

mentre le ei sono variabili casuali incorrelate e con media zero, risulta im-

Page 23: Capitolo 6 IL MODELLO DI REGRESSIONE · 2014-03-10 · variabili che spiegano Y e la forma lineare del modello è corretta; (2) la variabile X è deterministica, nel senso che al

Il modello di regressione lineare 239

mediatamente:

E( oβ ) = βo +

−−∑

=2x

in

1i S

x)xx(1

n1

E(ei) = β

o

E( 1β ) = β1 +

2x

in

1i nS

)xx( −∑=

- E(ei) = β

1

e quindi queste stime sono non distorte.Ricordando quanto detto per le combinazioni di variabili casuali incorrelatecon varianza costante si ha

var( oβ ) = 2

2x

in

1i2 S

x)xx(1

n

1

−−∑

=

var(ei ) =

=

−−

−+∑

=2x

i4x

22i

n

1i2 S

x)xx(2

S

x)xx(1

n

2 =

= σ 2

+∑∑==

2x

i

n

1i4x

2i

n

1i

2

2 S

)xx(x

2S

)xx(x

nn

1=

= σ 2

+

4x

2x

2

2 S

nSxn

n

1= σ

2

+

2x

2

S

x1

n1

= σ 2

2x

x2

nSm

ove si è tenuto conto che S 2x = m

2x - x

2; allo stesso modo

var( 1β ) = 2

2x

in

1i nS

)xx(

−∑=

var(ei ) = σ 2

4x

2

2i

n

1i Sn

)xx( −∑=

=

= σ 2

4x

2

2x

Sn

nS= σ

2

2xnS

1

e quindi queste stime sono consistenti.

Page 24: Capitolo 6 IL MODELLO DI REGRESSIONE · 2014-03-10 · variabili che spiegano Y e la forma lineare del modello è corretta; (2) la variabile X è deterministica, nel senso che al

Capitolo 6240

Si può ancora dimostrare (Teorema di Gauss-Markov) che le stime dei mi-nimi quadrati, oltre ad essere non distorte, consistenti e lineari nelle e

i, sono

quelle che hanno la varianza minima fra tutte le stime non distorte e linearinelle e

i. In sigla si dice che tali stime sono BLUE (Best Linear Unbiased E-

stimates). Con una procedura simile, anche se un pò più elaborata, si puòdimostrare che anche s

2 è non distorta e consistente per σ

2.

Dalle espressioni di var( oβ ) e var( 1β ) vediamo che queste sono funzione

del parametro incognito σ 2 che può essere stimato con s

2. Ciò vuol dire

che le stime delle varianze dei parametri stimati, che indichiamo rispettiva-mente con s 2

oβe s 2

1β, sono date rispettivamente da

2os β = s

2

2x

x2

nSm

, 21s β = s

2

2xnS

1

che essendo funzione solo dei dati osservati possono essere calcolate nu-mericamente.

Nel caso del modello di regressione multipla le stime che si ottengonosono ancora BLUE, ma gli sviluppi formali sono più complessi. In tal casoil calcolo numerico viene fatto solo tramite computer utilizzandol’appropriato software.

Esempio 6Nel caso dell’esempio 3 le stime di s 2

oβe s 2

1β sono rispettivamente

s 2oβ= 25.0918, s 2

1β= 0.0638

Nel caso dell’esempio 4 le stime s 2iβ sono rispettivamente

2os β = 16.0851, 2

1s β = 0.4232,

22s β = 0.0227, 2

3s β = 0.00009304.

6.6 La verifica del modello di regressione

Una volta che il modello è stato identificato e stimato è necessario pro-cedere alla sua verifica. In altri termini è necessario stabilire se si adatta inmodo soddisfacente ai dati osservati. Da un punto di vista analitico questoimplica verificare se, con i dati che si hanno a disposizione, effettivamentetutte le variabili esplicative, o solo alcune di queste, si possono statistica-mente considerare cause della variabile dipendente. Questa verifica può es-

Page 25: Capitolo 6 IL MODELLO DI REGRESSIONE · 2014-03-10 · variabili che spiegano Y e la forma lineare del modello è corretta; (2) la variabile X è deterministica, nel senso che al

Il modello di regressione lineare 241

sere eseguita utilizzando strumenti diversi. Qui di seguito ne analizzeremosolo tre: test sui parametri stimati, un indice di accostamento globale delmodello ai dati osservati, alcune analisi sui residui.

Perché un modello sia considerato accettabile e quindi idoneo ad essereutilizzato è necessario che superi tutte le verifiche di cui tratteremo nel se-guito. Se qualcuna di tali verifiche non è superata è necessario riformulare i lmodello, integrando eventualmente le osservazioni di cui si dispone.

TEST SUI PARAMETRI DEL MODELLOConsideriamo per il momento il caso del modello di regressione lineare

semplice

yi = β

o + β1 x

i + e

i

e la relativa stima

iy = oβ + 1β xi

si vuole sottoporre a test

Ho: β

o = 0 verso H

1: β

o ≠ 0

OppureH

o: β

1 = 0 verso H

1: β

1 ≠ 0

È immediato capire che se si dovesse accettare, per esempio, l’ipotesi Ho: β

1

= 0 vorrebbe dire che la variabile X non esercita alcuna influenza su Y equindi il modello va riformulato scegliendo altre variabili esplicative piùidonee a spiegare il fenomeno Y. Da un punto di vista intuitivo siamo por-

tati a rifiutare Ho se il valore stimato | 1β | è grande e lontano da zero, vice-

versa siamo portati ad accettare Ho se | 1β | è piccolo e vicino a zero. Per sta-

bilire fino a che punto detto valore è grande o piccolo è necessario cono-

scere, al variare del campione, la distribuzione probabilistica di 1β o di unasua trasformazione monotona di modo che sia pivotale (cioè indipendentedai parametri incogniti). È a questo fine che si introduce l’ipotesi di norma-lità: le variabili casuali scarto e

i si suppongono indipendenti fra di loro e di-

stribuite come una normale con media zero e varianza costante. Tenendo

conto di questa ipotesi e del fatto che sia 1β che oβ sono delle combina-zioni lineari delle e

i, per una delle proprietà della normale si ha immediata-

mente

Page 26: Capitolo 6 IL MODELLO DI REGRESSIONE · 2014-03-10 · variabili che spiegano Y e la forma lineare del modello è corretta; (2) la variabile X è deterministica, nel senso che al

Capitolo 6242

1β ~ N

2x

2

1S

1n

β

oβ ~ N

2x

x22

oS

mn

β

Come si può notare da queste due espressioni la distribuzione delle stime

1β e oβ , al variare del campione, è simile (a meno di una costante moltipli-cativa della varianza) a quella della media campionaria x sotto l’ipotesi dinormalità:

X ~ N

n;

2σµ ,

questo ci porta a costruire una statistica test simile a quella utilizzata per lamedia. In definitiva, la statistica test per

Ho: β

o = 0 verso H

1: β

o ≠ 0

è data da

toc

= os|ˆ| o

β

β=

x2

xo

m

Ssn|ˆ|β

.

Si rifiuta Ho al livello α se risulta

toc > t

(n-2; α/2).

Allo stesso modo la statistica test per

Ho: β

1 = 0 verso H

1: β

1 ≠ 0

è data da

t1c

= s

|ˆ|

1

1

β

β=

sn|ˆ| 1β S

x .

Si rifiuta Ho al livello α se

Page 27: Capitolo 6 IL MODELLO DI REGRESSIONE · 2014-03-10 · variabili che spiegano Y e la forma lineare del modello è corretta; (2) la variabile X è deterministica, nel senso che al

Il modello di regressione lineare 243

t1c > t(n-2; α/2).

Ovviamente, per i test unilaterali del tipo Ho: β

1=0 verso H

1: β

1>0 si pro-

cede con una tecnica simile a quella già vista nel capitolo relativo alla teoriadel test.

Nel caso di modello di regressione lineare multiplo la logica del test suiparametri è esattamente la stessa, ma non sono più valide le formule cheabbiamo appena visto. In tal caso, la verifica di

Ho: β

i = 0 verso H

1: β

i ≠ 0, i = 0, 1, ...,k

implica una statistica test del tipo

tic =

is

|ˆ| i

β

β=

sn|ˆ| iβ δ

ix , i = 0, 1, ...,k

ove δix è una complicata quantità positiva funzione dei valori osservati sulle

variabili esplicative calcolabile numericamente (tramite elaboratori) ma nonfacilmente esplicitabile in modo formale.

In questo caso, se le variabili esplicative del modello sono k, si rifiuteràH

o al livello α se risulta

tic > t

(n-k-1; α/2)i=0,1,...,k.

Esempio 7Riprendiamo il caso riportato nell’esempio 3 e costruiamo i test per

Ho: β

i = 0 verso H1: β

i ≠ 0, i =0, 1

Abbiamo già visto che è

oβ = 5.0384, 1β = 0.7885, s 2oβ= 25.0918, s 2

1β= 0.0638

e quindi risulta

toc =

0918.25

0384.5= 1.006 e t

1c = 0638.0

7885.0= 3.12

ed essendo t(5;2.5%)

= 2.571, al livello α =5%, non si può rifiutare l’ipotesi Ho per i =0, vi-ceversa possiamo rifiutarla per i =1. Questo vuol dire che il modello di regressione va rifor-

Page 28: Capitolo 6 IL MODELLO DI REGRESSIONE · 2014-03-10 · variabili che spiegano Y e la forma lineare del modello è corretta; (2) la variabile X è deterministica, nel senso che al

Capitolo 6244

mulato nel seguenteY = β

1 X + e

In tal caso si otterrà 1β = 1.0417907 e s 21β

= 0.00039175 che implicano

t1c =

00039175.0

0417907.1= 52.63

e rifiutiamo ancora l’ipotesi Ho che β

1 sia pari a zero. In definitiva, il modello di regressione

privo di intercetta potrebbe essere quello idoneo per descrivere il fenomeno Y in funzione di X.Osserviamo che un modello di regressione accettabile deve avere almeno 15 gradi di libertàcon g = n-k-1. In questo caso i gradi di libertà sono solo cinque e di conseguenza i risultatisono molto instabili.

Riprendiamo ora l’esempio 4, abbiamo visto che le variabili esplicative sono tre e risul-ta:

oβ = 2.1456; 1β = 1.9073; 2β = - 0.3331; 3β = 0.0131

s 2oβ= 16.0851; s 2

1β= 0.4232; s 2

2β= 0.0227; s 2

3β= 0.00009304

da queste ricaviamo

toc =

0851.16

1456.2= 0.53, t

1c =

4232.0

9073.1= 2.93,

t2c =

0227.0

3331.0= 2.21, t

3c =

00009304.0

0131.0= 1.36

ricordando che è n = 20, al livello α = 5%, avremo t(16;2.5%)

= 2.12 pertanto non possiamorifiutare H

o: β

i = 0 per i=0, 3. In altri termini, sia l’intercetta β

o che β

3 , il coefficiente di

COP, non sono statisticamente diversi da zero al livello del 5%. Tenuto conto di questi ri-sultati riformuliamo il modello

NV =β1 MTR + β

2 MRT + e

e stimiamone i relativi parametri ottenendo:

1β = 2.4871; 2β = - 0.3548

s 21β

= 0.019418; s 22β

= 0.005014risulta

Page 29: Capitolo 6 IL MODELLO DI REGRESSIONE · 2014-03-10 · variabili che spiegano Y e la forma lineare del modello è corretta; (2) la variabile X è deterministica, nel senso che al

Il modello di regressione lineare 245

t1c =

019418.0

4871.2= 17.85; t

2c =

005014.0

3548.0= 5.01

mentre è t(18; 2.5%)

= 2.101 ed in entrambi i casi si può rifiutare l’ipotesi Ho e affermare che

entrambi i parametri sono da considerarsi statisticamente diversi da zero. Da questo secon-do caso possiamo trarre alcune utili considerazioni:(a) dato che è

corr(NV; CPO) = 0.804

si poteva a priori pensare che effettivamente la variabile CPO avesse una qualche in-fluenza su NV, da quanto è emerso in questa analisi tale legame è di tipo spurio es-sendo evidentemente già conglobato in MTR;

(b) l’esclusione di una variabile nel modello di regressione può portare a risultati molto diversinella stima dei parametri, infatti la stima di β

1 dal caso di tre variabili esplicative al

caso di due variabili esplicative passa, rispettivamente, da 1.9073 a 2.4871(c) in termini di accostamento globale l’esclusione o l’inclusione della variabile non significa-

tiva CPO non crea grandi differenze, come si può verificare controllando il grafico se-guente costruito con β

o = β

1 = 0 e quello visto nell’esempio 4 in cui erano presenti tutti

e quattro i parametri.

5 10 15 206

7

8

9

10

11

12

13

14

NV

NV

MISURA DELLA BONTÀ DI ADATTAMENTODefiniamo ora uno strumento che ci permetta di misurare

l’accostamento tra i dati osservati e quelli stimati e quindi di stabilire se glo-balmente il modello di regressione stimato descrive in modo accettabile leosservazioni che si hanno a disposizione. In altre parole, vogliamo calcolareun indice che ci indica fino a che punto il modello di regressione linearestimato, nella sua globalità, approssima i dati osservati.

Consideriamo, per il momento, il caso della regressione lineare sempli-ce. In questo contesto la situazione ottimale si ha quando tutte le n coppie

Page 30: Capitolo 6 IL MODELLO DI REGRESSIONE · 2014-03-10 · variabili che spiegano Y e la forma lineare del modello è corretta; (2) la variabile X è deterministica, nel senso che al

Capitolo 6246

(xi, y

i) osservate sono allineate lungo una retta che, ovviamente, coincide con

quella di regressione per cui i relativi residui osservati ie sono tutti identi-camente nulli. Viceversa il caso peggiore si ha quando tutte le n coppie os-servate (x

i, y

i) sono disperse nel piano (X, Y) e risulta del tutto irrealistica

l’approssimazione con una retta. Le due situazioni qui richiamate sonoschematizzate nelle figure seguenti

1) Caso ottimale 2) Caso peggiore

Nelle pratiche applicazioni ben difficilmente si hanno situazioni estre-me come quelle sopra illustrate e sorge la necessità di misurare fino a chepunto si è vicini al caso ottimale o a quello peggiore. A tale scopo si co-struisce un indice di correlazione multipla, che si indica con R

2, e misura

l’intensità del legame lineare esistente fra la variabile dipendente Y e quelleesplicative X

1, X

2, ..., X

k. Prima di definire questo nuovo indice dimostriamo

che è sempre

( ) 0yye ii

n

1i

=−∑=

Infatti,

( )=−∑=

yye ii

n

1i

∑=

−−n

1iiii )yy)(yy( =

∑=

−−+−−n

1i1oi1oi1oi )xˆˆxˆˆ)(xˆˆy( ββββββ =

= 1β ∑=

−−−n

1iii1oi )xx)(xˆˆy( ββ =

Page 31: Capitolo 6 IL MODELLO DI REGRESSIONE · 2014-03-10 · variabili che spiegano Y e la forma lineare del modello è corretta; (2) la variabile X è deterministica, nel senso che al

Il modello di regressione lineare 247

1β ( )∑=

++−−−n

1ii1oi

2i1ioii xxˆxˆxyxˆxˆxy ββββ =

−∑

=

n

1iii1 yxâ oβ ∑

=

n

1iix - 1β ∑

=

n

1i

2ix - ∑

=

n

1iiyx + n oβ x + 1β

∑=

n

1iixx =

= ( )21ox21oxy1 xˆnxˆnyxnmˆnxˆnmnˆ βββββ ++−−− =

= 1β n [mxy - yx - 1β (m

2x - x

2) ] = 1β n (S

xy - 1β S 2

x ) =

= 1β n

− 2

x2x

xyxy S

S

SS = 0

Tenendo conto di questo risultato si ha immediatamente

∑=

−n

1i

2i )yy( = ∑

=

−+−n

1i

2iii )yyyy( = [ ]∑

=

−+n

1i

2ii )yy(e =

[ ]∑=

−+−+n

1iii

2i

2i )yy(e2)yy(e = ∑

=

n

1i

2ie + ∑

=

−n

1i

2i )yy(

Se dividiamo il primo e l’ultimo membro di quest’ultima uguaglianza per nsi ottiene

∑=

−n

1i

2i )yy(

n1

= ∑=

n

1i

2ie

n1

+ ∑=

−n

1i

2i )yy(

n1

o equivalentemente

S 2y = S 2

e + S 2y

In altri termini:

Se il modello di regressione è lineare ed è stimato con il metodo dei mi-nimi quadrati, allora la varianza stimata (stima distorta) delle y osservate è

sempre uguale alla varianza dei residui stimati più la varianza del-le y interpolate.

Page 32: Capitolo 6 IL MODELLO DI REGRESSIONE · 2014-03-10 · variabili che spiegano Y e la forma lineare del modello è corretta; (2) la variabile X è deterministica, nel senso che al

Capitolo 6248

Se dividiamo ambo i membri dell’ultima uguaglianza per 2yS si ottiene

1 = 2y

2e

SS

+ 2y

2y

S

S

Siamo ora in condizione di dare la seguente definizione:

L’indice R2 è dato da

R2 = 2

y

2y

S

S= 1 - 2

y

2e

SS

e misura la percentuale della variabilità di Y spiegata dal modello di regres-sione adattato ad Y.

Da quanto abbiamo appena detto è facile verificare che è sempre

0 ≤ R2 ≤ 1

Per meglio illustrare il significato di questo indice, analizziamo i due casiestremi: R

2 = 0 ed R

2 = 1.

Caso di R2 = 0.

R2 = 0 è equivalente a S 2

y = 0, cioè

2i

n

1i

)yy(n1

−∑=

= 0

che equivale a

( yy1 − ) = ( yy 2 − ) = ... = ( yyn − )= 0

da cui infine

1y = 2y = ... = ny = y .

In altri termini, nel caso di R2 = 0 tutti i valori interpolati sono uguali fra di

loro e coincidono con la propria media. Nel caso della regressione linearesemplice si ha una situazione come quella schematizzata nella figura seguen-

Page 33: Capitolo 6 IL MODELLO DI REGRESSIONE · 2014-03-10 · variabili che spiegano Y e la forma lineare del modello è corretta; (2) la variabile X è deterministica, nel senso che al

Il modello di regressione lineare 249

te

y-

Quanto detto si verifica se e solo se risulta 1β = 0 e quindi oβ = y , maquesto vuol dire che al variare di X la Y, in media, non varia. In altri termini,in un caso del genere la variabile esplicativa X non esercita, in media, alcunainfluenza su Y per cui il modello considerato non è accettabile e va rifor-mulato. Queste considerazioni possono essere estese al caso multiplo con k≥ 2 variabili esplicative. Infatti, si può dimostrare che R

2 = 0 è equivalente a

1β = 2β = .... = kβ = 0 e quindi o β = y . Questo vuol dire che, in media,nessuna delle k variabili esplicative X

1, X

2, ..., X

k esercita una influenza su Y,

di conseguenza il modello utilizzato è inaccettabile e va riformulato.È anche possibile elaborare un test delle ipotesi che permetta di stabili-

re se R2 è significativamente diverso da zero. Più precisamente, supponen-

do che le v.c. scarto ei siano tutte indipendenti e distribuite normalmente, le

ipotesi che vengono sottoposte a test sono

Ho: β

1 = β

2 = ... = β

k = 0

H1: almeno uno dei β

i ≠ 0,

in tal caso si può dimostrare che la statistica test ottimale è data da

Fc =

)1kn/()R1(

k/R2

2

−−−=

2e

2y

S

S

k)1kn( −−

che, sotto Ho, si distribuisce come una v.c. F

(k; n-k-1). Questo vuol dire che:

Page 34: Capitolo 6 IL MODELLO DI REGRESSIONE · 2014-03-10 · variabili che spiegano Y e la forma lineare del modello è corretta; (2) la variabile X è deterministica, nel senso che al

Capitolo 6250

Si rigetta, al livello α, l’ipotesi Ho se risulta

Fc > F

(α; k; n-k-1)

ove F(α; k; n-k-1)

è tale che P{F(k; n-k-1)

> F(α; k; n-k-1)

} = α e si ricava, come già sap-piamo, dalle tavole della v.c. F di Fisher riportate in appendice.

Caso di R2 = 1

R2 = 1 è equivalente a S 2

e = 0 che a sua volta è equivalente a

2i

n

1i

e∑=

= 0.

Questo si verifica se e solo se risulta 1e = 2e = ... = ne = 0. In definitiva, si ha

R2 = 1 se e solo se tutti i residui osservati sono identicamente nulli ma que-

sto è equivalente a dire che tutte le y osservate sono coincidenti con quelleteoriche e quindi risulta y

i = iy per i =1, 2, ...,n. In altri termini, le y

i osservate

sono tutte allineate lungo una retta che coincide necessariamente con quelladi regressione. Graficamente si ha una situazione come quella descritta nellafigura seguente

y = + xβ βο 1^^^

Questo risultato vale, con identica interpretazione, anche quando si hanno k≥ 2 variabili esplicative.

Nelle pratiche applicazioni molto difficilmente si otterrà uno dei casi

Page 35: Capitolo 6 IL MODELLO DI REGRESSIONE · 2014-03-10 · variabili che spiegano Y e la forma lineare del modello è corretta; (2) la variabile X è deterministica, nel senso che al

Il modello di regressione lineare 251

limite sopra illustrati, ma si avranno valori di R2 interni all'intervallo [0; 1].

Tali valori limite sono utili per meglio interpretare questo indice: più R2 èvicino ad uno più il modello è globalmente accettabile, più R

2 è vicino a

zero più il modello globalmente è da rifiutare. Per esempio, se in una dataapplicazione risulta R

2 = 0.86 vuol dire che l’86% della varianza di Y è spie-

gato dal modello di regressione lineare, mentre il restante 14% è spiegatodai residui.Esempio 8

Riprendiamo l’esempio 7, abbiamo visto che il modello da prendere in considerazione è

Y = β1 X + e

in tal caso si ottiene R2 = 0.592. Questo vuol dire che il 59.2% della variabilità di Y è

spiegato dal modello di regressione utilizzato, mentre il restante 40.8% è dovuto ai residui.Riprendiamo l’esempio 7, siamo arrivati alla conclusione che abbia senso il modello

NV = β1 MTR + β

2 MRT + e

in tal caso si ottiene R2 = 0.846. In altri termini, la variabilità di NV è spiegata per

l’84.6% dal modello suddetto, mentre il restante 15.4% è spiegato dai residui e quindi dafattori accidentali.

Facciamo ora vedere che R2 è una generalizzazione del coefficiente di

correlazione già analizzato. Più precisamente mostriamo che nel caso dellaregressione lineare semplice R

2 coincide con la correlazione stimata al qua-

drato:

R2 = r

2 =

2y

2x

2xy

SS

S

Partendo dalla definizione di R2 si ha

R2 = 2

y

2y

S

S,

ma nel caso della regressione semplice, tenendo conto delle espressioni di

iy , y e 1β si ha sempre

Page 36: Capitolo 6 IL MODELLO DI REGRESSIONE · 2014-03-10 · variabili che spiegano Y e la forma lineare del modello è corretta; (2) la variabile X è deterministica, nel senso che al

Capitolo 6252

S 2y = 2

i

n

1i

)yy(n1

−∑=

= 21oi1o

n

1i

)xxˆ(n1

ββββ −−+∑=

=

2i

n

1i

21 )xx(n1ˆ −∑

=

β = 21β S 2

x = 4x

2xy

S

SS 2x = 2

x

2xy

S

S

Sostituendo quest’ultima nella formula di R2 si ottiene il risultato cercato.

ANALISI DEI RESIDUIUn terzo modo per stabilire se il modello adattato ai dati può essere ac-

cettato e quindi utilizzato, oppure va rifiutato e quindi riformulato è quellodi analizzare i residui stimati. Se nei residui stimati vi è ancora una qualchestruttura è evidente che il modello selezionato non riesce a catturare com-pletamente l’evoluzione del fenomeno e quindi va riformulato, ristimato eritestato. Se le n osservazioni di cui si dispone sono relative a serie storiche,oppure posseggono un qualche altro ordinamento naturale, un modo di ve-rificare se nei residui vi è una qualche struttura è quello di costruire i duegrafici come qui di seguito indicato.

Primo graficoIn un sistema di assi cartesiani si riportano le coppie di punti (i, ie ) se

nei residui stimati vi è una qualche ulteriore struttura questa dovrebbe e-mergere dal relativo grafico. Nella figura che segue è riportato il tipico casoin cui fra i residui esiste una ulteriore struttura che il modello non è riusci-to a catturare. Infatti, in questo grafico a residui positivi tendono a susse-guirsi residui positivi ed a quelli negativi ancora residui negativi.

Secondo graficoIn un sistema di assi cartesiani si rappresentano le coppie ( ie , 1ie − ), se nei

residui vi è una qualche struttura dovrebbe emergere dal grafico ed il relati-vo modello dovrebbe essere riformulato. Nella figura che segue viene ri-

Page 37: Capitolo 6 IL MODELLO DI REGRESSIONE · 2014-03-10 · variabili che spiegano Y e la forma lineare del modello è corretta; (2) la variabile X è deterministica, nel senso che al

Il modello di regressione lineare 253

portato il tipico caso in cui fra i residui esiste una ulteriore struttura di cuiè necessario tener conto.

In questo caso si può notare come la maggior parte dei punti siano concen-trati nel primo e nel terzo quadrante.

Se le osservazioni di cui si dispone non posseggono un ordinamentonaturale, un modo per verificare se nei residui vi è una qualche ulteriorestruttura è quella di costruire uno scatter rappresentando le n coppie di os-servazioni ( ie , y

i). Se il modello utilizzato non è idoneo a rappresentare la

variabile dipendente Y, nello scatter sopra citato deve essere visibile unaqualche struttura.

Le due figure qui sopra riportate si riferiscono agli scatter ( ie , NVi) e

( ie , yi) connessi alle stime dei modelli di regressione degli esempi 7 ed 8.

Come si può notare, in questi non si intravedono strutture apparenti equindi i modelli utilizzati possono essere considerati idonei per rappresen-

18

19

20

21

22

23

-2 -1 0 1 2RESID6

8

10

12

14

-2 -1 0 1 2RESID

Page 38: Capitolo 6 IL MODELLO DI REGRESSIONE · 2014-03-10 · variabili che spiegano Y e la forma lineare del modello è corretta; (2) la variabile X è deterministica, nel senso che al

Capitolo 6254

tare i fenomeni in studio.

6.7 Modello di regressione non lineare

Le analisi che abbiamo fatto nei paragrafi precedenti sono relative al casoin cui la relazione esistente fra la variabile dipendente Y e quelle esplicative(X1, X2, ..., Xk) sia di tipo lineare. Molto spesso, considerazioni teoriche, e-videnze empiriche o entrambe portano a formulare modelli non lineari. Inquesti casi è necessario distinguere fra tre situazioni alternative, qui di segui-to sommariamente illustrate, che implicano soluzioni diverse.

MODELLI NON LINEARI NELLE ESPLICATIVEQuesto è il caso più semplice da affrontare dato che la stima dei suoi

parametri e la relativa verifica non si discosta sostanzialmente da quello li-neare già conosciuto. Per essere più chiari supponiamo che sia

Y = βo + β

1 e

X + β

2 V

2 + a

ove a è la variabile casuale scarto o residuo. Come si può notare, questomodello è lineare nei parametri incogniti, ma è non lineare nelle due varia-bili esplicative X e V. D’altra parte, se poniamo

eX = X*, V 2 = V*

cioè lavoriamo sull’esponenziale della variabile X e sui quadrati della varia-bile V, otteniamo il nuovo modello

Y = βo + β

1X* + β

2V* + a

che risulta lineare nei parametri e nelle nuove variabili esplicative X*, V* etutto quanto illustrato per il modello lineare continua a valere per questoparticolare modello non lineare.

MODELLI NON LINEARI MA LINEARIZZABILIIn molti casi un modello non lineare nei parametri può essere ricondot-

to a quello lineare con una semplice trasformazione monotona. In tal modoi risultati illustrati nelle pagine precedenti valgono per il modello trasfor-mato e dato che la trasformazione è di tipo monotona, è sempre possibilerisalire al modello originario. Qui di seguito presentiamo tre modelli nonlineari nei parametri incogniti e la relativa trasformazione monotona che l iriconduce al caso lineare:

Page 39: Capitolo 6 IL MODELLO DI REGRESSIONE · 2014-03-10 · variabili che spiegano Y e la forma lineare del modello è corretta; (2) la variabile X è deterministica, nel senso che al

Il modello di regressione lineare 255

Y = βo e

(β1 X + β2 V) a

Y = βo X

β1 V β2 a

Y = aX

1

1o ++ ββ

ove con a abbiamo indicato la variabile casuale residuo ed Y è strettamentepositiva. Questi modelli possono essere ricondotti facilmente alla formalineare, rispettivamente, con le trasformazioni seguenti:

log(Y) = log(βo) + β

1 X + β

2 V + log(a)

log(Y) = log(βo) + β

1 log(X) + β2 log(V)+ log(a)

Y1

= βo+β

1 X+a .

MODELLI NON LINEARIZZABILIEsistono molti modelli di regressione non lineari e non linearizzabili

con semplici trasformazioni monotone. Così, se è

Y = βo + X

β1 + Vβ2 + a

il modello è non lineare nei parametri e non è facilmente linearizzabile. Intal caso per procedere è necessario utilizzare una stima non lineare dei mi-nimi quadrati dato che bisogna minimizzare l’espressione seguente

[ ]2n

1ioi

2 1 - V - X - y∑=

βββ = min(βo, β

1, β

2).

Esistono algoritmi numerici abbastanza affidabili all’interno di pacchettiapplicativi per computer che permettono di ottenere le relative stime. In talcaso, però, alcuni degli strumenti di verifica del modello che abbiamo quiillustrato non sono più validi.

Esempio 9Nella tabella seguente sono riportate le variabili Capitale (CAP), Lavoro (LAV) e

Fatturato (FT) riguardanti la produzione di beni di abbigliamento osservati annualmente

Page 40: Capitolo 6 IL MODELLO DI REGRESSIONE · 2014-03-10 · variabili che spiegano Y e la forma lineare del modello è corretta; (2) la variabile X è deterministica, nel senso che al

Capitolo 6256

dal 1980 al 2000 in Italia. I dati sono espressi a prezzi costanti.

CAP LAV FT3915220 22061.4 13413944048943 22059.0 13518684166672 22181.8 13603994275791 22319.9 13772204388399 22400.6 14152094496368 22595.6 14573064605069 22783.9 14941164719635 22895.6 15387144847538 22131.2 15994734981877 22202.0 16454035122586 23425.6 16778855260057 23608.4 17012105386359 23457.2 17141495470796 22749.8 16990005551208 22529.2 17365055644872 22528.3 17872785744835 22600.2 18068155846054 22691.5 18434265955667 22925.7 18768076075031 23111.5 19070646209550 23454.3 1962649

Nella figura seguente sono riportate le tre variabili citate dopo averle trasformate in numeriindici a base fissa per renderli confrontabili

90

100

110

120

130

140

150

160

80 82 84 86 88 90 92 94 96 98 00

cap

lav

ft

Possiamo osservare che il capitale ed il fatturato crescono entrambi ad un tasso elevato, men-tre il lavoro oscilla e rimane sostanzialmente immutato nel periodo considerato. Ai dati os-

Page 41: Capitolo 6 IL MODELLO DI REGRESSIONE · 2014-03-10 · variabili che spiegano Y e la forma lineare del modello è corretta; (2) la variabile X è deterministica, nel senso che al

Il modello di regressione lineare 257

servati si vuole adattare una funzione di produzione non lineare del tipo

t)1(

ttot eLAVCAPFT 11 += −βββ

questo è un modello non lineare né linearizzabile nei due parametri 1o e ββ e per poterlostimare utilizziamo il metodo non lineare dei minimi quadrati. I risultati della stima sonoriportati nella tabella che segue

Stima coeff Errore ST tc Prob.

oβ 0.7312250.100128 7.302883

0.0000

1β 0.848242 0.025076 33.82630 0.0000

2R 0.987024 Media di FT 1633042.0

S.E. 23101.32 S.D. di FT 197661.0SSR 1.01E+10

Come si può notare, la stima di entrambi i parametri è da considerare buona ed il valore diR2 è molto elevato il che porterebbe a considerare il modello stimato accettabile. Se si conside-ra come il modello adatta i dati e l’andamento dei residui stimati si ottiene la figura segue-

tete

-60000

-40000

-20000

0

20000

40000

60000

1200000

1400000

1600000

1800000

2000000

80 82 84 86 88 90 92 94 96 98 00

Osservati Stimati

residui

Come si può notare, nei residui è presente una componente ciclica che rende il modello pocoaccettabile. Per catturare questo aspetto del fenomeno si è considerato il modello seguente

++=

+=

−−

t2t21t1t

t)1(

ttot aeee

eLAVCAPFT

11

φφ

β ββ

Page 42: Capitolo 6 IL MODELLO DI REGRESSIONE · 2014-03-10 · variabili che spiegano Y e la forma lineare del modello è corretta; (2) la variabile X è deterministica, nel senso che al

Capitolo 6258

Ove at è la nuova variabile casuale errore. In questo caso la stima non lineare dei minimiquadrati fornisce i risultati riportati nella tabella che segue

Coefficienti Std. Error t -Statistica

Prob.

oβ 0.654055 0.127621 5.124958 0.0001

1β 0.868796 0.035754 24.29893 0.0000

1φ 1.090955 0.202491 5.387668 0.0001

2φ -0.576220 0.186839 -3.084048 0.0076

2R 0.995371 Media FT 166319.0

S.E. 13607.83 S.D. di FT 182575.7SSR 2.78E+09

Tutti i parametri stimati sono statisticamente diversi da zero e l’indice 2R è molto elevatoe questo ci porta a concludere che questo modello potrebbe essere preferibile a quello precedente-mente utilizzato. Se consideriamo il grafico che mostra come il modello stimato adatta idati ed i relativi residui otteniamo la figura seguente che si porta a concludere che questosecondo modello è effettivamente migliore di quello stimato precedentemente.

-40000

-20000

0

20000

40000

1200000

1400000

1600000

1800000

2000000

82 84 86 88 90 92 94 96 98 00

Osservati Interpolati

residui

6.8 Modello di regressione in forma matriciale

Il modello di regressione lineare può essere più facilmente ed utilmenteriscritto utilizzando la notazione matriciale. Per vedere come questo si puòottenere consideriamo il caso in cui vi sono due sole variabili esplicative: la

Page 43: Capitolo 6 IL MODELLO DI REGRESSIONE · 2014-03-10 · variabili che spiegano Y e la forma lineare del modello è corretta; (2) la variabile X è deterministica, nel senso che al

Il modello di regressione lineare 259

X e la V. In tal modo le n osservazioni soddisfano le n relazioni:y

1 = βo + β

1 x1 + β

2 v1 + e

1

y2 = β

o + β

1 x2 + β

2 v2 + e

2

.....................................................

yn = β

o + β

1 xn + β

2 vn + e

n

che in forma matriciale possono essere anche scritte nel modo seguente

n

2

1

y

...

...

y

y

=

2

1

o

nn

22

11

vx1

.........

.........

vx1

vx1

β

β

β

+

n

2

1

e

...

...

e

e

y = X β + e

dove y, X, β, e, sono, rispettivamente, il vettore delle y, la matrice delle varia-bili esplicative X, il vettore dei parametri β ed il vettore dei residui e. In altritermini:

Il modello di regressione lineare si può sempre scrivere nel modo seguen-te

y = X β + e

con l’avvertenza che y ed e sono due vettori di n elementi, la matrice X ha nrighe e (k+1) colonne, mentre il vettore β ha (k+1) coefficienti incogniti dastimare.

Per le ipotesi fatte sul modello di regressione (X è deterministica men-tre E(e) = 0 ) risulta immediatamente

E(y) = X β.

Indichiamo con A-1 l’inversa di una matrice quadrata, cioè quella per cui si

ha IAA =−1 , ove I indica la matrice identica composta da tutti uno sulla

Page 44: Capitolo 6 IL MODELLO DI REGRESSIONE · 2014-03-10 · variabili che spiegano Y e la forma lineare del modello è corretta; (2) la variabile X è deterministica, nel senso che al

Capitolo 6260

diagonale principale e zero altrove, e con A' la trasposta di una matricequalsiasi. Premoltiplicando ambo i membri dell’ultima espressione per X' siottiene

X'E(y) = (X'X)β

da cui, essendo (X'X) quadrata ed invertibile per le ipotesi fatte sul model-lo di regressione lineare, si ricava la soluzione

β = (X'X)-1X'E(y)

Se al posto di E(y), che è incognito, sostituiamo una stima, in particolare ivalori osservati y, si ottiene la stima del vettore dei parametri incogniti:

â = (X'X)-1X'y

questa, per costruzione, è una stima in media e quindi minimizza la sommadei quadrati degli scarti ed ha tutte le proprietà della stima della media. Inparticolare è facile verificare che â è non distorta per β. Infatti, ricordandoche y = Xβ + e si ha

â = (X'X)-1X'y = (X'X)

-1X'[Xβ + e] =

= (X'X)-1(X'X)β + (X'X)

-1X'e = β + (X'X)

-1X'e

e tenuto conto che E(e) = 0 ed X è deterministica si ricava

E( â ) = β + (X'X)-1X'E(e) = β

che generalizza quanto abbiamo visto nel caso di regressione lineare sem-plice (teorema di Gauss-Markov). Allo stesso modo si ha che:

- il vettore delle y stimate è dato da: y = X â

- il vettore degli scarti stimati è dato da: e = y - y

- la stima non distorta di σ 2 è data da: s

2 =

1kn

ˆ'ˆ

−−

ee

- il coefficiente di correlazione multipla è:

Page 45: Capitolo 6 IL MODELLO DI REGRESSIONE · 2014-03-10 · variabili che spiegano Y e la forma lineare del modello è corretta; (2) la variabile X è deterministica, nel senso che al

Il modello di regressione lineare 261

R2 =

)()'()ˆ()'ˆ(

yyyyyyyy

−−

−−= 1 -

)()'(

ˆ'ˆ

yyyy

ee

−−

ove con y si è indicato il vettore che ha tutti gli elementi uguali e pari allamedia campionaria y .

Con una procedura simile è facile verificare che la matrice delle varian-ze e covarianze di â è data da

var( â )= σ 2(X'X)

-1.

La generalizzazione degli altri risultati illustrati nei paragrafi precedenti siottiene con procedimenti simili ricorrendo a noti risultati di algebra linea-re.