6. modelli statistici: analisi della regressione...
TRANSCRIPT
MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.1
6. ANALISI DELLA REGRESSIONE LINEARE
6. Modelli statistici: analisi della regressione
lineare
BIOSTATISTICA
Marta Blangiardo, Imperial College, London
Department of Epidemiology and Public Health
MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.2
6. ANALISI DELLA REGRESSIONE LINEARE
MODELLO STATISTICORappresentazione seplificata, analogica e
necessaria della realtà
Semplificazione della realtà: il modello di un bacino idrologico, di un aereoplano, del flusso finanziario di un Paese ottenutiriproducendo gli aspetti “essenziali” e eliminando quelli ritenuti “superficiali”.
Analogia della realtà: il modello è unariproduzione della realtà
Rappresentazione necessaria della realtà: anche se è semplificato il modello ènecessario per capire la realtà tramite lo studio di relazioni semplici e di maggioreintellegibilità
MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.3
6. ANALISI DELLA REGRESSIONE LINEARE
La specificazione di un modello consistenell’esplicitare un legame tra i fenomeni diinteresse:
Y = f(X1, X2,…,Xp)Dove Y è la variabile da spiegare, mentreX1, X2,…,Xp sono le variabili scelte per spiegare Y tramite la funzione f(.)
Inoltre non è quasi mai plausibile ipotizzareun legame deterministico quindi dobbiamoaggiungere un errore:
Y = f(X1, X2,…,Xp) + εεεε
dove εεεε è una variabile casuale e riassume la nostra ignoranza circa la vera relazione traY e X. Per questo motivo la chiameremovariabile errore.
MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.4
6. ANALISI DELLA REGRESSIONE LINEARE
In alcuni contesti la specificazione dellarelazione funzionale risulta immediata dallanatura del problema:
1) Se Y è il peso ed X è l’altezza di unapersona adulta la prima relazione daspecificare è quella proporzionale(maggiore il peso, maggiore l’altezza e viceversa) Y= ββββX+ εεεε
2) Se Y è il peso di una mattonellarettangolare per la quale X 1 e X2 sonorispettivamente la lunghezza e la larghezza, allora una relazione funzionale può esserespecificata mediante Y= ββββX1X2+ εεεε
Entrambe le specificazioni evidenziano un parametro ββββ che deve essere determinatoper poter utilizzare il modello specificato
MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.5
6. ANALISI DELLA REGRESSIONE LINEARE
Modelli
statistici
Non lineari
Multivariati
(più di una X
e più di una Y)
Semplici (una X e una Y)
Multipli (più diuna X ma una Y)
Lineari
MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.6
6. ANALISI DELLA REGRESSIONE LINEARE
TerminologiaY = f(X1, X2,…,Xp)
Y: variabile dipendenteX1,…,Xp: variabili esplicative
εεεε: variabile casuale errore
NOTA: il legame statistico implicato dalmodello non è simmetrico. Sono le variabiliesplicative a “determinare” la variabiledipendente e NON viceversa.
X: precipitazione giornaliera di un bacinoidrograficoY: livello del fiume che si origina dal bacinoRelazione: X Y ma NON Y X
X: dose di concime somministrato in un campo di granoY: resa di grano in quel terrenoRelazione: X Y ma NON Y X
MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.7
6. ANALISI DELLA REGRESSIONE LINEARE
Modello di regressione lineare
Il termine REGRESSIONE derivadall’applicazione svolta dal biologo Galton che nel 1886 esaminò altezze dei figli (Y) in funzione delle altezze dei genitori (X) in Inghilterra e notò una relazione funzionaletra le due variabili: più alti i genitori, più alti i figli e viceversa.Tuttavia ai genitori che si collocavano agliestremi (molto bassi o molto alti) non corrispondevano figli altrettanto estremi, ovvero Galton osservò che l’altezza dei figlisi spostava verso la media e quindiconcluse che questo costituiva unaregression towards mediocrity e la relazionefunzionale fu chiamata “modello diregressione”.
MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.8
6. ANALISI DELLA REGRESSIONE LINEARE
Oggi il termine regressione è divenutosignificato di “relazione funzionale travariabili ottenuta con metodi statistici” e la frase “regredire Y su (X1,…,Xp)” significaricercare una relazione statistica del tipo:
Y = f(X1, X2,…,Xp) + εεεε
Il modello di regressione semplice èspecificato dalla relazione:
yi = f(xi;ββββ) + εεεεi
La funzione f(xi;ββββ) può essere di primo grado, ad esempio:
yi = b0 + b1xi + εεεεi
Oppure di grado superiore al primo, ad esempio di secondo grado:
yi = b0 + b1xi + b2xi2 + εεεεi
MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.9
6. ANALISI DELLA REGRESSIONE LINEARE
X = velocità di un autoveicolo
Y = spazio difrenata
Modello di regressione lineare sempliceyi = ββββ0 + ββββ1xi + εεεεi
Identifica una retta, nota come la retta diregressione:ββββ0: intercetta, il valore di Yi quando xi=0ββββ1: pendenza, di quanto cambia Yi quandoxi incrementa di un’unitàεεεεi: l’errore che si commette nellaspiegazione dellavariabile yi tramite unafunzione lineare di xi
X
Y
MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.10
6. ANALISI DELLA REGRESSIONE LINEARE
X
Y
Che relazione c’è tra X e Y?
X
Y
X
Y
Covarianopositivamente
Covarianonegativamente
Non covariano
MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.11
6. ANALISI DELLA REGRESSIONE LINEARE
La covarianza misura l’attitudine a covariare di due caratteri
6
3
-3
-2
1
-1
-4
Y-Y
24
21
15
16
19
17
14
Y
3
1
-3
-1
5
0
-5
X-X
2010
015
520
214
912
316
1818
(X-X)(Y-Y)X
Cov(X,Y) =
Σi=1(x – x )(y – y )n
n-1
x =15 y =18
Cov(X,Y) = 20+0+5+2+9+3+18
7-1= 9.5
MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.12
6. ANALISI DELLA REGRESSIONE LINEARE
Cov(X,Y) =
Σi=1(x – x )(y – y )n
n-1
Cov(X,Y)> 0
X
Y
Cov(X,Y)= 0 Cov(X,Y)< 0
X
Y
X
Y
MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.13
6. ANALISI DELLA REGRESSIONE LINEARE
0
5
10
15
20
25
30
9 11 13 15 17 19 21X
Y
2418
2116
1512
1614
1920
1715
1410
YX
Cov(X,Y)=9.5 > 0
MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.14
6. ANALISI DELLA REGRESSIONE LINEARE
ρρρρ =Cov(X,Y)
sd(X) . sd(Y)
Deviazionestandard
Deviazionestandard
COVARIANZA
E’ utile costruire una misura STANDARDIZZATA che esprima quanto I due caratteri covariano
COEFFICIENTE DI CORRELAZIONE
-1 1
Cov(X,Y)=0Cov(X,Y)=
sd(X) . sd(Y)NON c’è
correlazione PERFETTA
CorrelazionePOSITIVA
0Cov(X,Y)=
- sd(X) . sd(Y)
PERFETTA
CorrelazioneNEGATIVA
MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.15
6. ANALISI DELLA REGRESSIONE LINEARE
X
Y
ββββ1111>0
x x+1
1
X
Y
1
ββββ1111<0
x x+1
X
Y
x x+1
1
ββββ1111=0
yi = ββββ0 + ββββ1xi + εεεεi yi = ββββ0 - ββββ1xi + εεεεi
yi = ββββ0 + εεεεi
yi = ββββ0 + ββββ1xi + εεεεi
Modello di regressione lineare semplice
MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.16
6. ANALISI DELLA REGRESSIONE LINEARE
Per un insieme di punti possono passareinfinite rette!
Come scegliere la retta “migliore”?
X
Y
Metodo dei Minimi Quadrati
MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.17
6. ANALISI DELLA REGRESSIONE LINEARE
xˆˆy 10 β+β=
iε
X
Y
ŷi
yi
L’idea dei minimi quadrati è quella discegliere la retta che minimizza la sommadegli scarti dalla retta di regressione
Scarti: εεεεi = yi - ŷi
RSS=Σi εεεεi2 = Σi (yi - ŷi)2 = Σi (yi - ββββ0 – ββββ1xi)2
MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.18
6. ANALISI DELLA REGRESSIONE LINEARE
Si può dimostrare che i parametri cheminimizzano la somma degli scarti dallamedia al quadrato sono i seguenti:
dove
1
))((Y)Cov(X, ;)(
1
1)(
;1
;1
n
1i
1
2
−
−−=−
−=
==
∑∑
∑∑
=
= n
yyxxxx
nXVar
yn
yxn
x
iin
ii
ii
xˆyˆ
)X(Var)Y,X(Cov
)xx(
)yy)(xx(ˆ
10
n
1i
2i
n
1iii
1
β−=β
=−
−−=β∑∑
=
=
MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.19
6. ANALISI DELLA REGRESSIONE LINEARE
Coefficiente dicorrelazione
ββββ1?
ρρρρ =Cov(X,Y)
sd(X) . sd(Y)ββββ1111 =
Cov(X,Y)
Var(X)
ρρρρ = ββββ1
sd(X)
sd(Y)
1) Ricavo ρρρρ da ββββ1
2) Ricavo ββββ1111 da ρρρρ
ββββ1111 = ρρρρsd(Y)
sd(X)
MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.20
6. ANALISI DELLA REGRESSIONE LINEARE
Dalla popolazione di camelie estraiamo un campione di 15 foglie della varietà cordiformesui quali misuriamo la variabile X (peso vivo) e Y (peso secco). Otteniamo i seguenti valori:
2.2747.910
3.3088.879
4.34011.160
1.9485.295
3.7158.421
5.34012.232
2.2125.422
2.5129.900
5.27712.441
3.2918.424
4.26910.296
4.80912.476
2.9558.459
3.1307.267
3.8169.705
YX
Trovare la retta di regressione dei minimiquadrati che spiega Y in funzione di X
MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.21
6. ANALISI DELLA REGRESSIONE LINEARE
Dal campione si calcolano le seguentiquantità
x = 9.2191 y = 3.5464
s2x = 5.2140 s2
y = 1.1949
n=15
X
0
1
2
3
4
5
6
0 2 4 6 8 10 12 14
Y
MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.22
6. ANALISI DELLA REGRESSIONE LINEARE
Per ottenere i parametri della retta diregressione si devono usare le formuleseguenti:
ββββ1111 =Cov(X,Y)
Var(X) ββββ0000 = y – ββββ1x
Cov(X,Y) =(9.705 – 9.2191) . (3.816 – 3.5464) + …
+ (12.441 – 9.2191) . (5.277 – 3.5464)
15-1
Cov(X,Y) = 2.2324
Var(X) = 5.2140
ββββ1111 = 2.2324 / 5.2140 = 0.4282
ββββ0000 = 3.5464 – 0.4282 . 9.2191= - 0.4009
MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.23
6. ANALISI DELLA REGRESSIONE LINEARE
X
0
1
2
3
4
5
6
0 2 4 6 8 10 12 14
Y
La retta di regressione che minimizza i quadrati degli scarti dalla media è la
seguente:y = β= β= β= β0 + ββββ1 1 1 1 x
y = - 0.4009 + 0.4282 . x
Per disegnarla mi servono due punti
1) Quando y = 0
2) Quando x = 10
0 = - 0.4009 + 0.4282 . x
x = 0.4009 / 0.4282 = 0.9363
y = - 0.4009 + 0.4282 . 10
y = - 0.4009 + 4.282
= 3.8807
MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.24
6. ANALISI DELLA REGRESSIONE LINEARE
Punto 1 :
x=-0.4009, y=0
Punto 2 :
x=10, y=3.8807
X
0
1
2
3
4
5
6
-1 1 3 5 7 9 11 13
Y
MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.25
6. ANALISI DELLA REGRESSIONE LINEARE
y = β= β= β= β0 + ββββ1 1 1 1 x
Come interpretare i due coefficienti del modello di regressione?
Intercetta:
•valore che assume y quando x=0
•punto nel quale la rettaincorcia l’asse delle y
Pendenza:
•indica di quanto varia y al variare di un’unità di x
•Il segno indica il verso dell’inclinazione
MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.26
6. ANALISI DELLA REGRESSIONE LINEARE
Assunzioni del modello di regressione
yi = ββββ0 + ββββ1xi + εεεεi
1. I dati sperimentali siano un campionecasuale estratto da una popolazione diunità x,y per i quali vige la relazione
tenendo conto di eventuali cause accidentali
Nel ipotizzare un modello di regressionestiamo assumendo che:
MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.27
6. ANALISI DELLA REGRESSIONE LINEARE
2. Fissato un valore di X abbiamo unapopolazione di valori di Y distribuitinormalmente con media situata sullaretta di regressione
Assunzioni del modello di regressione
Y
Xx1 x2 x3
ββββ0+ββββ1x1
ββββ0+ββββ1x2
ββββ0+ββββ1x3
Normaleper Y quandoX=x1
Normaleper Y quandoX=x2
Normaleper Y quandoX=x3
Y|X=x1 ~ N(β0+β1x1,σ2)Y|X=x2 ~ N(β0+β1x2,σ2)Y|X=x3 ~ N(β0+β1x3,σ2)
MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.28
6. ANALISI DELLA REGRESSIONE LINEARE
Y|X=xi ~ N(β0+β1xi, σ2 )
3. La varianza rimane la stessaindipendentemente da X
Omoschedasticità
Var(yi) = σσσσ2
Assunzioni del modello di regressione
MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.29
6. ANALISI DELLA REGRESSIONE LINEARE
Assunzioni del modello di regressione
Scarti (Residui):
εεεεi = yi – (ββββ0+ββββ1x i)
yi = ββββ0 + ββββ1xi + εεεεi
εεεεi ~ N(0,σσσσ2) Stessa variabilità di Y
εεεεi
0
Assunzione rispettata
εεεεi
0
Assunzione violata
MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.30
6. ANALISI DELLA REGRESSIONE LINEARE
CAMPIONE
PARAMETRIUNIVERSO
STIMATORI
Siamo interessati a valutare l’esistenza di unarelazione tra peso vivo e peso secco nella
popolazione delle camelie tramite un modellodi regressione.
Dalla popolazione di camelie estraiamo un campione di 15 foglie della varietà
cordiforme sui quali misuriamo il peso vivo e il peso secco.
MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.31
6. ANALISI DELLA REGRESSIONE LINEARE
La retta di regressione dei minimiquadrati è la seguente:
y = - 0.4009 + 0.4282 . x
Come valutiamo se la relazione tra le due variabili è significativa o no?
CAMPIONE STIMATORI
Facciamo INFERENZA sui parametridella retta di regressione.
MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.32
6. ANALISI DELLA REGRESSIONE LINEARE
Media campionariaββββ0
ΒΒΒΒ0 ~ T(ββββ0000,σσσσ2ββββ0
)
POPOLAZIONE BERSAGLIO
Tutti i possibili campioni
MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.33
6. ANALISI DELLA REGRESSIONE LINEARE
Media campionariaββββ1
ΒΒΒΒ1 ~ T(ββββ1111,σσσσ2ββββ1
)
POPOLAZIONE BERSAGLIO
Tutti i possibili campioni
MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.34
6. ANALISI DELLA REGRESSIONE LINEARE
Usiamo β0 e β1 per stimare i veri valori deiparametri β0 e β1.
β0 T(ββββ0000,σσσσ2ββββ0
)
Test del T diStudent
Ipotesi nulla:
H0: β0 = 0 La retta di regressione passaper il punto di coordinate (0,0)
ββββ0000 = y – ββββ1x
Dal campione:
Stima campionaria
Deviazione standard campionarias
1
n+
(x)2
Dev(x)se(ββββ0) =
MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.35
6. ANALISI DELLA REGRESSIONE LINEARE
Usiamo β0 e β1 per stimare i veri valori deiparametri β0 e β1.
β1 T(ββββ1111,σσσσ2ββββ1
)
Test del T diStudent
Ipotesi nulla:
H1: β1 = 0 La retta di regressione ha pendeza 0
Dal campione:
Stima campionaria
Deviazione standard campionaria
ββββ1111 =Cov(x,y)
Var(x)
s
Dev(x)se(ββββ1) =
MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.36
6. ANALISI DELLA REGRESSIONE LINEARE
L’errore standard di entrambi i parametri èfunzione di s
s =(n-1) s2
y (1 – ρρρρ2xy)
n-2
I valori empirici per il test T di student sono
β1
β1-0
es(β1)=
β1-0
s
Dev(x)
tg=
n-2
β0
β0-0
es(β0)=
β0-0
n-2
tg=
s1
n+
(x)2
Dev(x)
MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.37
6. ANALISI DELLA REGRESSIONE LINEARE
P-value=0.03
ββββ0 = 0
P-Value: probabilità di ottenere un risultato campionario altrettanto o piùestremo di quello osservato, se H 0 èvera
P-value = Pr ( B 0 >ββββ0 sotto H 0)
Più piccolo è il valore del p-value,
1) più “estremo” è ilvalore osservato
2) Più bassal’evidenza che i datisiano coerenti con la distribuzione sotto
l’ipotesi nulla
ββββ0 ββββ0
P-value=0.25
MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.38
6. ANALISI DELLA REGRESSIONE LINEARE
P-value=0.03
ββββ0
3. CONFRONTO TRA MEDIE DI DUE CAMPIONI INDIPENDENTI
ββββ0 = 0
PROBLEMA: l’ipotesi è bidirezionale
P-value = Pr ( B 0 >ββββ0 sotto H 0)
H0: ββββ0000 = 0 H1: ββββ0 = 0vs
Unidirezionale
Bidirezionale
2*P-value
-ββββ0
P-value=0.03
P-value=0.06
MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.39
6. ANALISI DELLA REGRESSIONE LINEARE
P-value=0.03
ββββ1 = 0
P-Value: probabilità di ottenere un risultato campionario altrettanto o piùestremo di quello osservato, se H 0 èvera
P-value = Pr ( B 1 >ββββ1 sotto H 0)
Più piccolo è il valore del p-value,
1) più “estremo” è ilvalore osservato
2) Più bassal’evidenza che i datisiano coerenti con la distribuzione sotto
l’ipotesi nulla
ββββ1 ββββ1
P-value=0.25
MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.40
6. ANALISI DELLA REGRESSIONE LINEARE
P-value=0.03
ββββ1
3. CONFRONTO TRA MEDIE DI DUE CAMPIONI INDIPENDENTI
ββββ1 = 0
PROBLEMA: l’ipotesi è bidirezionale
P-value = Pr ( B 1 >ββββ1 sotto H 0)
H0: ββββ1111 = 0 H1: ββββ1 = 0vs
Unidirezionale
Bidirezionale
2*P-value
-ββββ1
P-value=0.03
P-value=0.06
MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.41
6. ANALISI DELLA REGRESSIONE LINEARE
2.2747.910
3.3088.879
4.34011.160
1.9485.295
3.7158.421
5.34012.232
2.2125.422
2.5129.900
5.27712.441
3.2918.424
4.26910.296
4.80912.476
2.9558.459
3.1307.267
3.8169.705
YX
Siamo interessati a valutare l’esistenza di unarelazione tra peso vivo e peso secco nella
popolazione delle camelie tramite un modellodi regressione.
Campione
n=15
MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.42
6. ANALISI DELLA REGRESSIONE LINEARE
69.6
1ˆ1
21
=
β=β)es
tg
Dal campione otteniamo le seguentiinformazioni
Misura divariabilità
Stimatore
5464.3 =
=∑
n
yy i
i
2191.9 =
=∑
n
xx i
i
4009.0
ˆˆ10
−=β−=β xy
4282.0
),(ˆ21
=
=βxs
yxCov
1773.1 1
)( 2
=−
−=∑
n
yys i
i
y
Deviazione standard
2140.5 1
)( 2
2
=−
−=∑
n
xxs i
i
x
Varianza
722.2
)(1 22
0
=
+=βxDev
x
nses
Errore standard
Errore standard
064.0
2
1
=
=βxDev
ses
14.0
1ˆ0
20
−=
β=β)es
tg
5465.0 2
)1()1( 22
=−
ρ−−=
n
sns xyy
MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.43
6. ANALISI DELLA REGRESSIONE LINEARE
P-value( ββββ0) = Pr ( B0 >ββββ0 sotto H 0)
2*P-value( ββββ0) >2*0.4 che trovo sulletavole
Non ho sufficiente evidenza per rifiutare H0
Concludo che ββββ0 non è significativamentediverso da 0
MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.44
6. ANALISI DELLA REGRESSIONE LINEARE
P-value( ββββ1) = Pr ( B1>ββββ1 sotto H 0)
2*P-value( ββββ1) < 2*0.0005
Rifiuto H0
Concludo che ββββ1 è significativamentediverso da 0
MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.45
6. ANALISI DELLA REGRESSIONE LINEARE
Punto 1 :
x=-0.4009, y=0
Punto 2 :
x=10, y=3.8807
X
0
1
2
3
4
5
6
-1 1 3 5 7 9 11 13
Y
MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.46
6. ANALISI DELLA REGRESSIONE LINEARE
Se concludo che ββββ1=0
Il modello di regressione lineare non è adatto ad interpretare la relazione
tra X e Y.
C’è un modo per valutare analiticamentela bontà di adattamento del modello?
H0: il modello non si adatta ai dati
MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.47
6. ANALISI DELLA REGRESSIONE LINEARE
y
yi
xi
Devianza totale:
Σi (yi – y)2DevTOT=
yi-y
MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.48
6. ANALISI DELLA REGRESSIONE LINEARE
Devianza totale =
= (3.816-3.5464)2 + (3.130-3.5464)2 +...
...+ (2.512-3.5464)2 + (5.277-3.5464)2 =
= 16.7289
ΣΣΣΣ (yi – y )2i
2.2747.910
3.3088.879
4.34011.160
1.9485.295
3.7158.421
5.34012.232
2.2125.422
2.5129.900
5.27712.441
3.2918.424
4.26910.296
4.80912.476
2.9558.459
3.1307.267
3.8169.705
YX
Campione
n=15
y = 3.5464
MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.49
6. ANALISI DELLA REGRESSIONE LINEARE
y
yi = ββββ0 + ββββ1 xi
xi
Devianza RESIDUA:
Σi (yi – yi)2DevR=
yi-yi
Quanta parte della variabilità totale èresidua?
yi
MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.50
6. ANALISI DELLA REGRESSIONE LINEARE
Devianza residua =
= (3.816-3.754)2 + (3.130-2.711)2 +...
...+ (2.512-3.838)2 + (5.277-4.926)2 =
= 3.3472
ΣΣΣΣ (yi – yi )2i
5.277
2.512
2.212
5.340
3.715
1.948
4.340
3.308
2.274
3.291
4.269
4.809
2.955
3.130
3.816
Y
2.9867.910
3.4018.879
4.37711.160
1.8665.295
3.2058.421
4.83612.232
1.9215.422
3.8389.900
4.92612.441
3.2068.424
4.00710.296
4.94112.476
3.2218.459
2.7117.267
3.7549.705
YX yi = ββββ0 + ββββ1 xi
-0.4007 + 0.4282 . 9.705 = 3.754
.
.
.
.
.
.
.
-0.4007 + 0.4282 . 12.441 = 4.836
MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.51
6. ANALISI DELLA REGRESSIONE LINEARE
y
yi = ββββ0 + ββββ1 xi
xi
Devianza SPIEGATA dal modello :
Σi (yi – y)2DevS=
Quanta parte della variabilità totale èspiegata dal modello di regressione?
yi
yi - y
MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.52
6. ANALISI DELLA REGRESSIONE LINEARE
Devianza spiegata =
= (3.754-3.5464)2 + (2.711-2.5464)2 +...
...+ (3.838-3.5464)2 + (4.926-3.5464)2 =
= 13.3817
ΣΣΣΣ (yi – y )2i
5.277
2.512
2.212
5.340
3.715
1.948
4.340
3.308
2.274
3.291
4.269
4.809
2.955
3.130
3.816
Y
2.9867.910
3.4018.879
4.37711.160
1.8665.295
3.2058.421
4.83612.232
1.9215.422
3.8389.900
4.92612.441
3.2068.424
4.00710.296
4.94112.476
3.2218.459
2.7117.267
3.7549.705
YX yi = ββββ0 + ββββ1 xi
y = 3.5464
MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.53
6. ANALISI DELLA REGRESSIONE LINEARE
Spiegata dal modello
13.3817 +
Residua 3.3472 =
Fonti di variabilità devianza
Totale 16.7289
k-1 = 1
n-k = 13
Gradi di libertà
n-1=14
13.3817
0.2575
varianza
F1, 13 =Varianza spiegata
Varianza residua
13.3817
0.2575= = 51.97
MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.54
6. ANALISI DELLA REGRESSIONE LINEARE
Distribuzione F 1,13
51.97
Valore empirico
rifiutiamo H 0 ovvero la relazione tra le due variabili è ben spiegata da un modello di regressione lineare
p < 0.05
4.6672
0.95 0.05
Valore tabulato
Area di accettazioneArea di rifiuto
MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.55
6. ANALISI DELLA REGRESSIONE LINEARE
Esercizio di riepilogo
Si vuole valutare la relazione tra peso allanascita e settimane di gestazione in UK. A tal fine si estrae un campione di 26 bambini nati a University College Hospital di Londra, della stessa razza e dello stessogenere. I dati sono I seguenti:
X: 42 41 39 40 40 40 39 39 41 42 41 43 43 41 38 37 38 43 35 37 35 38 40 42 39 34
Y: 3.180 2.780 3.630 3.900 3.310 2.896 2.780 3.800 3.900 4.020 4.180 3.460 4.400 3.800 2.990 3.160 2.720 3.560 2.640 2.400 2.320 2.910 3.200 3.800 3.560 2.538
Stimare i parametri della retta di regressionedei minimi quadrati.