associazione e correlazione quando osservo le distribuzioni di due variabili quantitative [x] ed [y]...
TRANSCRIPT
![Page 1: ASSOCIAZIONE E CORRELAZIONE Quando osservo le distribuzioni di due variabili quantitative [x] ed [y] e la distribuzione congiunta, affermo che le due variabili](https://reader035.vdocuments.mx/reader035/viewer/2022062512/5542eb4f497959361e8bf27d/html5/thumbnails/1.jpg)
ASSOCIAZIONE E CORRELAZIONE
Quando osservo le distribuzioni di due variabili quantitative [x] ed [y] e la distribuzione congiunta, affermo che le due variabili sono associate se esiste un legame funzionale tra le variabili: mi attendo che i valori medi delle variabili, espresse in un medesimo soggetto, varino in modo concorde.
![Page 2: ASSOCIAZIONE E CORRELAZIONE Quando osservo le distribuzioni di due variabili quantitative [x] ed [y] e la distribuzione congiunta, affermo che le due variabili](https://reader035.vdocuments.mx/reader035/viewer/2022062512/5542eb4f497959361e8bf27d/html5/thumbnails/2.jpg)
studio la relazione tra indice di affollamento delle città e la mortalità infantile.
Studio la relazione peso e altezza di individui di una popolazione;
Studio le variabili di un censimento di una popolazione.
per esempio …
Il tasso di mortalità infantile (morti nel primo anno di vita) su 10.000 nati vivi «decresce quando il numero di abitanti/stanza (indice di affollamento) decresce» In altri termini «la mortalità infantile cresce con l'indice di affollamento».Come concludo ? Esiste …
a) relazione di causa effetto.b) associazione (generica).c) correlazione (mutua influenza).
![Page 3: ASSOCIAZIONE E CORRELAZIONE Quando osservo le distribuzioni di due variabili quantitative [x] ed [y] e la distribuzione congiunta, affermo che le due variabili](https://reader035.vdocuments.mx/reader035/viewer/2022062512/5542eb4f497959361e8bf27d/html5/thumbnails/3.jpg)
Variabile descrizione State State medage Median ageRegion Census region
[Ne Nc South West]
death Number of deaths
Pop Population marriage Number of marriages
Poplt5 Pop, < 5 year divorce Number of divorcespop5_17 Pop, 5 to 17
yearspcturban % urban population
Pop18p Pop, 18 and older drate Death RatePop65p Pop, 65 and older medages
qMedian age squared
popurban Urban population
1980 Census data by state
Esempio: uno studio di popolazione
![Page 4: ASSOCIAZIONE E CORRELAZIONE Quando osservo le distribuzioni di due variabili quantitative [x] ed [y] e la distribuzione congiunta, affermo che le due variabili](https://reader035.vdocuments.mx/reader035/viewer/2022062512/5542eb4f497959361e8bf27d/html5/thumbnails/4.jpg)
. regress l_death l_divorce Source | SS df MS Number of obs = 50-------------+----------------------------- F(1,48)= 276.77 Model | 9.53072756 1 9.53072756 Prob > F = 0.0000 Residual | 1.65291656 48 .034435762 R-squared = 0.8522-------------+------------------------ Adj R-squared=0.8491 Total | 11.1836441 49 .228237635 Root MSE = .18557
----------------------------------------------------------------- l_death | Coef. Std.Err. t P>|t| [95% Conf. Interval]---------+-------------------------------------------------------l_divorce| 1.019959 .06131 16.64 0.000 .8966892 1.143229 _cons | .1082678 .25746 0.42 0.676 -.4093902 .6259257-------------------------------------------------------------------------
Regressione di log10(death) su log10(divorce)
![Page 5: ASSOCIAZIONE E CORRELAZIONE Quando osservo le distribuzioni di due variabili quantitative [x] ed [y] e la distribuzione congiunta, affermo che le due variabili](https://reader035.vdocuments.mx/reader035/viewer/2022062512/5542eb4f497959361e8bf27d/html5/thumbnails/5.jpg)
Log(death)= 0.25 + 1.02*log(divorce)
Regressione di log10(death) su log10(divorce)l_death= 0.25 + 1.02 l_divorce
l_divorce3 3.5 4 4.5 5 5.5
3
3.5
4
4.5
5
5.5
LOG10(divorzi)
LOG
10(d
ece
ssi)
![Page 6: ASSOCIAZIONE E CORRELAZIONE Quando osservo le distribuzioni di due variabili quantitative [x] ed [y] e la distribuzione congiunta, affermo che le due variabili](https://reader035.vdocuments.mx/reader035/viewer/2022062512/5542eb4f497959361e8bf27d/html5/thumbnails/6.jpg)
relazione causa-effetto | associazione
Tra due o più variabili quantitative rolevate nel medesimo soggetto possono esistere tre tipi di relazione:
1. relazione tra causa ed effetto (criteri di Bradford Hill).2. associazione statistica (generica)3. correlazione (mutua influenza).
(due variabili vengono dette associate quando la distribuzione dell'una influenza la distribuzione dell'altra).
![Page 7: ASSOCIAZIONE E CORRELAZIONE Quando osservo le distribuzioni di due variabili quantitative [x] ed [y] e la distribuzione congiunta, affermo che le due variabili](https://reader035.vdocuments.mx/reader035/viewer/2022062512/5542eb4f497959361e8bf27d/html5/thumbnails/7.jpg)
I cinque criteri di causalità che derivano dalla proposta dello statistico inglese Sir Austin Bradford Hill (1965) ed elaborati in un ampio studio riguardante l'effetto del fumo nell'uomo
![Page 8: ASSOCIAZIONE E CORRELAZIONE Quando osservo le distribuzioni di due variabili quantitative [x] ed [y] e la distribuzione congiunta, affermo che le due variabili](https://reader035.vdocuments.mx/reader035/viewer/2022062512/5542eb4f497959361e8bf27d/html5/thumbnails/8.jpg)
nota bene: l'associazione statistica non implica l'esistenza di una relazione di causa effetto.
È stato osservata una forte associazione tra il numero di
divorzi e la quantità di tabacco importata in Inghilterra
negli anni 50'.
Da questa osservazione si potrebbe indurre
che: “il tabacco è causa di discordia familiare” ovvero
che “coloro che divorziano di consolano fumando”.
Più semplicemente si deve concludere che
tra tabacco e numero di divorzi esiste una relazione in
quanto entrambe dipendono dallo sviluppo economico.
![Page 9: ASSOCIAZIONE E CORRELAZIONE Quando osservo le distribuzioni di due variabili quantitative [x] ed [y] e la distribuzione congiunta, affermo che le due variabili](https://reader035.vdocuments.mx/reader035/viewer/2022062512/5542eb4f497959361e8bf27d/html5/thumbnails/9.jpg)
terminologia della regressione lineare
Data una coppia di variabili casuali quantitative {x} e {y}.
Siano noti.
il diagramma di dispersione {x,y}.
La media, la deviazione standard di {x} ed {y} e la covarianza.
Siano di interesse.
La previsione del valore di {y} , noto il valore di {x}.
La previsione del valore di {x} , noto il valore di {y}.
L’errore di previsione del valore di {y}, noto il valore di {x}.
L'errore di previsione del valore di {x}, noto il valore di {y}.
![Page 10: ASSOCIAZIONE E CORRELAZIONE Quando osservo le distribuzioni di due variabili quantitative [x] ed [y] e la distribuzione congiunta, affermo che le due variabili](https://reader035.vdocuments.mx/reader035/viewer/2022062512/5542eb4f497959361e8bf27d/html5/thumbnails/10.jpg)
l'attesa condizionale
t
ylr yl
-3 -2 -1 0 .5 1 1.5 2 2.5 3
0
.2
.4
.6
.8
1
I punti sperimentali che suggeriscono le due relazioni
I punti osservati [coppie (xi,yi) per i=1,n] in esperimento di verifica della relazione teorica non giacciono usualmente sulla curva, ed oscillano in modo diverso per ogni fissato valore di xi.
t
tr t
-3 -2 -1 0 1 2 3
-3
-2
-1
0
1
2
3
4
relazione linearerelazione non lineare
a) uguale variabilità dei valori yi nei disti valori di xi, omoscedasticità
b) variabilità non uniforme dei valori yi nei distinti valori di xi , eteroscedasticità
![Page 11: ASSOCIAZIONE E CORRELAZIONE Quando osservo le distribuzioni di due variabili quantitative [x] ed [y] e la distribuzione congiunta, affermo che le due variabili](https://reader035.vdocuments.mx/reader035/viewer/2022062512/5542eb4f497959361e8bf27d/html5/thumbnails/11.jpg)
Modello di regressione ad effetti fissi
Il primo contesto (gli effetti fissi) ipotizza che la variabile indipendente {x} sia osservata senza errore: ad esempio, il numero di ore lavorate, il tempo passato a studiare, i mesi trascorsi dopo una operazione.
In questo caso si può affermare che {y|x} sia distribuita nello stesso modo di {y} e che il valore atteso di E{y|x} sia funzione di parametri da determinare con i metodi qui descritti.
2 2
{y | x} x 23,1- 0,51 x
{y | x} x x 23,1- 0,51 x 0, 014 x
{y | x} a exp(- x )
Esempi:
![Page 12: ASSOCIAZIONE E CORRELAZIONE Quando osservo le distribuzioni di due variabili quantitative [x] ed [y] e la distribuzione congiunta, affermo che le due variabili](https://reader035.vdocuments.mx/reader035/viewer/2022062512/5542eb4f497959361e8bf27d/html5/thumbnails/12.jpg)
Per semplicità scegliamo una relazione lineare
La scelta di una relazione lineare semplifica enormemente i calcoli è molto rilevante scientificamente presuppone una relazione presuppone una varianza costante (omoscedaticità)
Il modello matematico lineare vale molte volte come prima approssimazione di fenomeni con andamento "curvilineo"
![Page 13: ASSOCIAZIONE E CORRELAZIONE Quando osservo le distribuzioni di due variabili quantitative [x] ed [y] e la distribuzione congiunta, affermo che le due variabili](https://reader035.vdocuments.mx/reader035/viewer/2022062512/5542eb4f497959361e8bf27d/html5/thumbnails/13.jpg)
Abbreviazioni usate nella lezione
Σxi Somma dei valori di {x} ΣxΣyi Somma dei valori di {y} ΣyΣxi
2 Somma dei quadrati dei valori di x ΣxxΣyi
2 Somma dei quadrati dei valori di y ΣyyΣxiyi Somma dei prodotti dei valori di x ed yΣxy[x,x] devianza della variabile {x}. Σxx- (Σx)(Σx)/n[y,y] devianza della variabile {y}. Σyy- (Σy)(Σy)/n[x,y] codevianza delle variabili {x} ed {y}. Σxy- (Σx)(Σy)/n
[,] devianza residua intorno alla regressione.
[y,y] – b·[x,x]
![Page 14: ASSOCIAZIONE E CORRELAZIONE Quando osservo le distribuzioni di due variabili quantitative [x] ed [y] e la distribuzione congiunta, affermo che le due variabili](https://reader035.vdocuments.mx/reader035/viewer/2022062512/5542eb4f497959361e8bf27d/html5/thumbnails/14.jpg)
modello ad effetti fissi Un campione estratto da una popolazione di coppie {y,x}
di valori si può immaginare come un esperimento in cui si sono realizzate n coppie di osservazioni.
{y1 ,x1 } { y2 ,x2 } {yN ,xN }.
dove {x1,x2,xN} sono valori prefissati e quindi rilevati senza errore casuale e {y1,y2,. . .,yN} sono valori costituiti da una parte deterministica e da una parte casuale.
yi = α + β xi + εi.
![Page 15: ASSOCIAZIONE E CORRELAZIONE Quando osservo le distribuzioni di due variabili quantitative [x] ed [y] e la distribuzione congiunta, affermo che le due variabili](https://reader035.vdocuments.mx/reader035/viewer/2022062512/5542eb4f497959361e8bf27d/html5/thumbnails/15.jpg)
Varianza intorno alla regressione
Il modello ad effetti fissi richiede la stima della sola distribuzione di {y|x} e la stima del valore dei parametri di regressione {α,β}. Questa si ottiene dal metodo dei minimi quadrati
2 2i
2i i
var ianza di ... ~ N (0, )
y ~ N ([ + x ], )
La parte casuale sia distribuita in modo gaussiano N(0,σ2) indipenden-temente dalla variabile {x}, campionata senza errore.
Allora possiamo affermare che {yi} = [yi|xi] è distribuita identicamente con la stessa
![Page 16: ASSOCIAZIONE E CORRELAZIONE Quando osservo le distribuzioni di due variabili quantitative [x] ed [y] e la distribuzione congiunta, affermo che le due variabili](https://reader035.vdocuments.mx/reader035/viewer/2022062512/5542eb4f497959361e8bf27d/html5/thumbnails/16.jpg)
metodo dei minimi
quadrati
Soluzione: traccia la retta per la quale la somma delle distanze dei punti osservati dalla retta è minima.
2N
i i1(y - ) y
2N
i i1(y -[ x ]) =f( , )
Tale luogo è il minimo della funzione f(a, b) si ottiene cercando i valori più opportuni di a e di b. Calcoli semplici mostreranno che α e β possono essere stimati da
ˆa = y - b x
N
i i1N
i i1
[(y - y) (x - x)] CODEVIANZAˆ b DEVIANZA [(x - x) (x - x)]
drate=-.008097+.00056medage
Median age25.00 30.00 35.00
0
.005
.01
.015
Un problema classico della matematica propone di tracciare la retta interpolante i punti che sembrano allinearsi intorno ad una retta?
![Page 17: ASSOCIAZIONE E CORRELAZIONE Quando osservo le distribuzioni di due variabili quantitative [x] ed [y] e la distribuzione congiunta, affermo che le due variabili](https://reader035.vdocuments.mx/reader035/viewer/2022062512/5542eb4f497959361e8bf27d/html5/thumbnails/17.jpg)
Codevianza e covarianza
In analogia con quanto visto per la varianza cam-pionaria, si definisce un indice detto covarianza dato dal rapporto tra codevianza e numerosità (n) del campione diminuita di un'unità
Tale somma è positiva se le coppie di scarti concordi
(+,+ o -,-) prevalgono su quelle di scarti discordi, negativa in caso contrario, e nulla se coppie concordi e discordi si
equivalgono.
( )( )XY i iC x x y y i i
XY i i
x yC x y
n
( )( )
( 1)i i
XY
x x y ys
n
( 1)XY
XY
Cs
n
La somma dei prodotti degli scarti prende il nome di codevianza
=[x,y]
![Page 18: ASSOCIAZIONE E CORRELAZIONE Quando osservo le distribuzioni di due variabili quantitative [x] ed [y] e la distribuzione congiunta, affermo che le due variabili](https://reader035.vdocuments.mx/reader035/viewer/2022062512/5542eb4f497959361e8bf27d/html5/thumbnails/18.jpg)
indici di covariazione:
Il rapporto tra la covarianza e il prodotto delle deviazioni standard (sx e sy) delle variabili x e y è detto coefficiente di correlazione lineare:
Il coefficiente di correlazione lineare può assumere valori compresi tra -1 e +1.
xyxy x y
x y
C [x,y]r s s s
D D [x,x] [y,y]
![Page 19: ASSOCIAZIONE E CORRELAZIONE Quando osservo le distribuzioni di due variabili quantitative [x] ed [y] e la distribuzione congiunta, affermo che le due variabili](https://reader035.vdocuments.mx/reader035/viewer/2022062512/5542eb4f497959361e8bf27d/html5/thumbnails/19.jpg)
metodo dei minimi quadratiLEMMA: La media aritmetica è il valore che rende minimo la somma degli scarti quadratici di un insieme di punti da un singolo punto.
2N
i1(y - )z yz
2 2N N
i i1 1(y - ) (y - y) z
2N
i1(y -y y- )z
2N
i1[(y -y) (y- )]z
N 2 2i i1
[(y -y) 2(y -y)(y- ) (y- ) ]z z N 2 2
i i1 i=1 1(y -y) 2 (y -y)(y- ) (y- )
N N
iz z
N N N2 2i i1 i=1 i=1
2
[(y -y) + 2(y- z) (y -y)+ (y- z)
devianza nullo termine 0
n×(y- z)
yz
è minima per
La somma
Per assurdo ipotizzo che esista uno z per cui
cvd
Dimostrazione:
![Page 20: ASSOCIAZIONE E CORRELAZIONE Quando osservo le distribuzioni di due variabili quantitative [x] ed [y] e la distribuzione congiunta, affermo che le due variabili](https://reader035.vdocuments.mx/reader035/viewer/2022062512/5542eb4f497959361e8bf27d/html5/thumbnails/20.jpg)
metodo dei minimi quadrati2 2N N
i i i i1 1(y - ) (y -[ x ]) =f( , ) y
pensando si conoscere β ottengo che f(a, β) è minima riordinando i termini: N 2
i i1( [y - x ] - ) =f( , )
i
N N N
i i i ii=1 i=1 i=1
1 1 1a= [y -βx ] = y - βx = y - β x
N N N
ovvero a è la media della variabile
i iy - x
i iy=y- (x x) è forma alternativa della retta di regressione che mette in evidenza come la retta di regressione passi per il baricentro della nuvola di punti
(y,x)
i i(y ,x )
La relazione
![Page 21: ASSOCIAZIONE E CORRELAZIONE Quando osservo le distribuzioni di due variabili quantitative [x] ed [y] e la distribuzione congiunta, affermo che le due variabili](https://reader035.vdocuments.mx/reader035/viewer/2022062512/5542eb4f497959361e8bf27d/html5/thumbnails/21.jpg)
trovata la stima di , occorre stimare , sfruttando il risultato precedente, la somma delle distanze quadratiche tra retta e punti
= minima>zero
2N N2
i i i i1 1
(y - ) (y - y - b[x - x]) f(a,b) yN
2 2 2i i i i
1
{(y -y) -2b(y -y)(x - x) b (x - x) } 2= [yy]- 2b [x,y] + b [xx]
2 22[x,y] [x,y]
[y,y] 2b[x,y] b [x,x][x,x] [x,x]
2 2[x,y] [x,y][y,y] [x,x] b-
[x,x] [x,x]
N
i i12N
i1
(y - y) (x - x)[x,y]ˆ b [x,x] (x - x)
da cui
sommo e sottraggo la stessa quantità
![Page 22: ASSOCIAZIONE E CORRELAZIONE Quando osservo le distribuzioni di due variabili quantitative [x] ed [y] e la distribuzione congiunta, affermo che le due variabili](https://reader035.vdocuments.mx/reader035/viewer/2022062512/5542eb4f497959361e8bf27d/html5/thumbnails/22.jpg)
simboli abbreviatiΣxi Somma dei valori di {x} ΣxΣyi Somma dei valori di {y} ΣyΣxi
2 Somma dei quadrati dei valori di x ΣxxΣyi
2 Somma dei quadrati dei valori di y ΣyyΣxiyi Somma dei prodotti dei valori di x ed yΣxy[x,x] devianza della variabile {x}. Σxx- (Σx)(Σx)/n[y,y] devianza della variabile {y}. Σyy- (Σy)(Σy)/n[x,y] codevianza delle variabili {x} ed {y}. Σxy- (Σx)(Σy)/n
[, ] devianza residua intorno alla regressione.
[y,y] – b·[x,x]
[ , ] [y,y] 2 [x,y][x,x] { b- }
[x,x]
2[x,y][x,x]= + -
residua totale
nulla spiegata
![Page 23: ASSOCIAZIONE E CORRELAZIONE Quando osservo le distribuzioni di due variabili quantitative [x] ed [y] e la distribuzione congiunta, affermo che le due variabili](https://reader035.vdocuments.mx/reader035/viewer/2022062512/5542eb4f497959361e8bf27d/html5/thumbnails/23.jpg)
errore campionario di regressione
N
i i1(y -y) (x -x)ˆvar(b) var( )
[xx]
i i i i i(y - y)(x - x) y (x - x) - y (x - x)
i i y (x -x)ˆvar(b) var( )[xx]
N2
i i21
1 (x -x) var(y )
[xx]
N2 2
i RES21
1 (x - x)
[xx]
2RESˆvar(b)
dev(x)
Sia σ2RES è la varianza
residua
osservo che
quando parlo di effetti fissi, {xi} non hanno varianza.
Dato che le yi sono omoscedastiche var(yi) = σ2
RES
e semplificando
2RESˆs.e(b)
dev(x)
da cui
calcolo
2RES
Devianza residuaN-2
N
i i1(x -x) y
var( )[x,x]
![Page 24: ASSOCIAZIONE E CORRELAZIONE Quando osservo le distribuzioni di due variabili quantitative [x] ed [y] e la distribuzione congiunta, affermo che le due variabili](https://reader035.vdocuments.mx/reader035/viewer/2022062512/5542eb4f497959361e8bf27d/html5/thumbnails/24.jpg)
varianza campionaria di una regressione
la varianza di a si calcola tramite la sua stima
ˆ ˆˆvar(a)=var(y-bx)=var(y)+var(bx)
2 2 22 2RES RES
RES
1 xx
n dev(x) n dev(x)
2 ˆ=var(y)+x var(b)
ERRORE CAMPIONARIO DI UNA REGRESSIONE
sostituisco a σ2 la sua stima 2
2RESdevianza
sn
2 2res res
2i
ˆe.s.(b) = =dev(x)(x -x)
2 2 2 2res res
res2 2i i
x 1 xe.s.(a) = + = +
n n(x -x) (x -x)
con n-2 g.d.l.
il test t-student per b sarà
il test t-student pera sarà
n 2,1 / 2
b 0t
e.s.(b)
n 2,1 / 2
a 0t
e.s.(a)
![Page 25: ASSOCIAZIONE E CORRELAZIONE Quando osservo le distribuzioni di due variabili quantitative [x] ed [y] e la distribuzione congiunta, affermo che le due variabili](https://reader035.vdocuments.mx/reader035/viewer/2022062512/5542eb4f497959361e8bf27d/html5/thumbnails/25.jpg)
Esempiol_death= 0.25 + 1.02 l_divorce
l_divorce3 3.5 4 4.5 5 5.5
3
3.5
4
4.5
5
5.5
LOG10(divorzi)
LOG
10(d
ece
ssi)
![Page 26: ASSOCIAZIONE E CORRELAZIONE Quando osservo le distribuzioni di due variabili quantitative [x] ed [y] e la distribuzione congiunta, affermo che le due variabili](https://reader035.vdocuments.mx/reader035/viewer/2022062512/5542eb4f497959361e8bf27d/html5/thumbnails/26.jpg)
LIMITI DI CONFIDENZA DELLA RETTA
0 0 0E[y(x )] a b x y b (x - x )
dato un valore x0 , la stima migliore del valore medio di y0 dato x sarà:
0ˆvarianza di (y) = var (y) + (x - x) var(b)2
20(x -x)1={ + }
n [x,x]
220
res(x - x )1
{ + }sn [x,x]
La cui stima
20
0 (1- /2),n-2 res(x -x)1
y t s + n [xx]
che generano due iperboli intorno alla retta con un punto di massimo avvicinamento alla retta in corrispondenza del baricentro della nuvola di punti originari.
i limiti di confidenza a livello (1-α) sono
![Page 27: ASSOCIAZIONE E CORRELAZIONE Quando osservo le distribuzioni di due variabili quantitative [x] ed [y] e la distribuzione congiunta, affermo che le due variabili](https://reader035.vdocuments.mx/reader035/viewer/2022062512/5542eb4f497959361e8bf27d/html5/thumbnails/27.jpg)
predizione di un valore singolo [xi ,yi]
Dato yi = a + b xi , alle oscillazioni casuali della retta si
deve aggiungere l'errore individuale i iˆˆ ˆy = y + e
i
22i
ˆˆvar(y )=var(y)+var(e)
(x -x)1={ + +1}σ
n [ , ]x x
alle iperboli di confidenza si aggiunge una quantità in più ed in meno, in modo tale da amplificare la regione di incertezza.
![Page 28: ASSOCIAZIONE E CORRELAZIONE Quando osservo le distribuzioni di due variabili quantitative [x] ed [y] e la distribuzione congiunta, affermo che le due variabili](https://reader035.vdocuments.mx/reader035/viewer/2022062512/5542eb4f497959361e8bf27d/html5/thumbnails/28.jpg)
Esempio
peso alla nascita ed aumento di peso (% del peso iniziale) di 32 neonati nei primi 70 giorni di vita.
![Page 29: ASSOCIAZIONE E CORRELAZIONE Quando osservo le distribuzioni di due variabili quantitative [x] ed [y] e la distribuzione congiunta, affermo che le due variabili](https://reader035.vdocuments.mx/reader035/viewer/2022062512/5542eb4f497959361e8bf27d/html5/thumbnails/29.jpg)
item
peso (oz)
aumentoitem
peso (oz)
aumentoitem
peso (oz)
aumento
1 72 68 12 118 42 23 142 532 112 63 13 128 48 24 132 503 111 66 14 128 50 25 87 1114 107 72 15 123 69 26 123 595 119 52 16 116 59 27 133 766 92 75 17 125 27 28 106 727 126 76 18 126 60 29 103 908 80 118 19 122 71 30 118 689 81 120 20 126 88 31 114 93
10 84 114 21 127 63 32 94 9111 115 29 22 86 88
n = 32 Sxx= 409880Sx =3676 Syy= 179761Sy =2281 Sxy= 264032[x,x]=409880 - (3676)2 / 32 =10.262,00[y,y]= 179761 - (2281) 2 / 32 = 17 168,47[y,y]=264032 - (3676) (2 281) / 32= -8 869,75
1 oncia= 28.349 grammi
![Page 30: ASSOCIAZIONE E CORRELAZIONE Quando osservo le distribuzioni di due variabili quantitative [x] ed [y] e la distribuzione congiunta, affermo che le due variabili](https://reader035.vdocuments.mx/reader035/viewer/2022062512/5542eb4f497959361e8bf27d/html5/thumbnails/30.jpg)
Regressione di y su x
by|x = (-8 869,75) / (10 262,00) = -0,8643
y = 71,28 - 0,8643 ( x - 111,75) retta
[d,d] = (17 168,47)- [(-8 869,75) 2]/(10262,00)= 9502,08 dev.res.
s2RES = (9502,08)/(32-2) = 316,74
var.res.
var(by|x) = (316,74) / (10 262,00) = 0,030865
es (by|x)= sqrt(0,030865)=0,1757
ty|x = (0,8643)/(0,1757) = -4,92 con 30 gdl (p<0,001)
![Page 31: ASSOCIAZIONE E CORRELAZIONE Quando osservo le distribuzioni di due variabili quantitative [x] ed [y] e la distribuzione congiunta, affermo che le due variabili](https://reader035.vdocuments.mx/reader035/viewer/2022062512/5542eb4f497959361e8bf27d/html5/thumbnails/31.jpg)
Regressione di y su x
bx|y = -8 869,75/17 168,47 = -0,5166
x = 111,75 - 0,5166 ( y - 71,28) retta di regressione r =( -0,8643 )( -0,5166 ) = 0,668 intervallo di confidenza nel punto x=90
21 (90 - 71,28)var( y[90] ) = 316,74 { + } = 25,08
32 10.262
y(90) = 71,28 - 0,8643 (90 - 111,75) = 90,08
t(0,975;30) = 2.042
C.I.[y(90)] = [90,08+(2,042)(5,016); 90,08+(2,042)(5,016)] =
[79,84;100,32 ]
![Page 32: ASSOCIAZIONE E CORRELAZIONE Quando osservo le distribuzioni di due variabili quantitative [x] ed [y] e la distribuzione congiunta, affermo che le due variabili](https://reader035.vdocuments.mx/reader035/viewer/2022062512/5542eb4f497959361e8bf27d/html5/thumbnails/32.jpg)
gain_100= 167.87-.86433b_weight
_R
esi
d
weight at birth in oz60 80 100 120 140
-40
-20
0
20
40
gain_100= 167.87-.86433b_weight
weight at birth in oz60 80 100 120 140
0
50
100
150
regress gain_100 b_weight Source | SS df MS Number of obs = 32---------+------------------------------ F( 1, 30) = 24.20 Model | 7666.38716 1 7666.38716 Prob > F = 0.0000Residual | 9502.08159 30 316.736053 R-squared = 0.4465---------+------------------------------ Adj R-squared = 0.4281 Total | 17168.4688 31 553.821573 Root MSE = 17.797----------------------------------------------------------------------gain_100 | Coef. Std. Err. t P>|t| [95% Conf.Interval]---------+-----------------------------------------------------------b_weight | -.8643296 .1756842 -4.920 0.000 -1.223125 -.5055345 _cons | 167.8701 19.88319 8.443 0.000 127.2632 208.477----------------------------------------------------------------------
![Page 33: ASSOCIAZIONE E CORRELAZIONE Quando osservo le distribuzioni di due variabili quantitative [x] ed [y] e la distribuzione congiunta, affermo che le due variabili](https://reader035.vdocuments.mx/reader035/viewer/2022062512/5542eb4f497959361e8bf27d/html5/thumbnails/33.jpg)
la correlazionequando esiste una associazione tra due variabili {x} ed {y} continue ed entrambe casuali , si suole definire un indice che misura il grado di interdipendenza : coefficiente di correlazione
r = oscilla in { -1 e +1}r = +1 correlazione massima concorder= 0 correlazione assente r = -1 correlazione massima discorder > 0 correlazione presente : al crescere di x cresce yr < 0 correlazione presente : al crescere di x decresce y
nota bene : quando {y} è costante => r = indefinito
quando {x} è costante => r = indefinito
[x,y]
[x,x] [y,y]r
[y|x] [x|y]
[x,y][x,y] r = b *b =
[x,x] [y,y]
![Page 34: ASSOCIAZIONE E CORRELAZIONE Quando osservo le distribuzioni di due variabili quantitative [x] ed [y] e la distribuzione congiunta, affermo che le due variabili](https://reader035.vdocuments.mx/reader035/viewer/2022062512/5542eb4f497959361e8bf27d/html5/thumbnails/34.jpg)
COME APPARE LA CORRELAZIONE: gli esempi qui riportati si riferiscono alla correlazione tra i valori di uricemia rilevati, in differenti condizioni, con due metodi di misura (X e Y) su un campione di 100 soggetti anziani.
0
2
4
6
8
10
12
14
0 2 4 6 8 10 12 14
Metodo X (mg/dl)
Me
tod
o Y
(m
g/d
l) r = 0.861
0
2
4
6
8
10
12
14
0 2 4 6 8 10 12 14
Metodo X (mg/dl)
M
eto
do
Y (
mg
/dl) r = 0.0695
0
2
4
6
8
10
12
14
0 2 4 6 8 10 12 14
Metodo X (mg/dl)
Me
tod
o Y
(m
g/d
l) r = 0.661
0
2
4
6
8
10
12
14
0 2 4 6 8 10 12 14
Metodo X (mg/dl)
M
eto
do
Y (
mg
/dl) r = 0.290
![Page 35: ASSOCIAZIONE E CORRELAZIONE Quando osservo le distribuzioni di due variabili quantitative [x] ed [y] e la distribuzione congiunta, affermo che le due variabili](https://reader035.vdocuments.mx/reader035/viewer/2022062512/5542eb4f497959361e8bf27d/html5/thumbnails/35.jpg)
var1= 6.02381+.246535var2
var20 5 10 15
0
5
10
15
var2= 5.148+.342253var1
var15 10 15
0
5
10
15
.2465352
.3422529
0
2
4
6
8
10
12
14
0 2 4 6 8 10 12 14
Metodo X (mg/dl)
M
eto
do
Y (
mg
/dl) r = 0.0695
![Page 36: ASSOCIAZIONE E CORRELAZIONE Quando osservo le distribuzioni di due variabili quantitative [x] ed [y] e la distribuzione congiunta, affermo che le due variabili](https://reader035.vdocuments.mx/reader035/viewer/2022062512/5542eb4f497959361e8bf27d/html5/thumbnails/36.jpg)
regressione inversa in molti problemi, quando entrambe le variabili {x} ed {y} sono dotate di errore, si può prevedere sia y dalla conoscenza di x , sia x dalla conoscenza di y e le variabili {x} ed {y} sono correlate.
E{y|x} = α + β x = μy + bx (x - μx) E[x|y] = α' + β' x = μ x + by' (y - μy)
stimate da :E{y|x} = a + b x = ymedio + b (x - xmedio) E[x|y] = a’+ b’y = xmedio + b' (y - ymedio)
• b(x|y) è il coefficiente di regressione di x su y• b(y|x) è il coefficiente di regressione di y su x generalmente b(y|x) b(y|x)
![Page 37: ASSOCIAZIONE E CORRELAZIONE Quando osservo le distribuzioni di due variabili quantitative [x] ed [y] e la distribuzione congiunta, affermo che le due variabili](https://reader035.vdocuments.mx/reader035/viewer/2022062512/5542eb4f497959361e8bf27d/html5/thumbnails/37.jpg)
La FORZA e il TIPO dell'ASSOCIAZIONE Il coefficiente di correlazione è positivo se la retta giace nei quadranti I e III, negativo in caso contrario. Se i punti si allineano perfettamente su una retta parallela ad uno dei due assi, il coefficiente di correlazione è indeterminato.
Variabile X
Var
iab
ile
Y
r = 0.99
X
Y
III
III IV
Variabile X
Va
ria
bil
e Y
r = 0.99
X
Y
Variabile X
Va
ria
bil
e Y
r = 0.99
X
Y
Variabile X
Va
ria
bil
e Y
r = -0.99
X
Y
![Page 38: ASSOCIAZIONE E CORRELAZIONE Quando osservo le distribuzioni di due variabili quantitative [x] ed [y] e la distribuzione congiunta, affermo che le due variabili](https://reader035.vdocuments.mx/reader035/viewer/2022062512/5542eb4f497959361e8bf27d/html5/thumbnails/38.jpg)
La FORZA e il TIPO dell'ASSOCIAZIONE Il coefficiente di correlazione lineare è indice di quanto i punti si allineano su di una retta: vi possono essere associazioni anche forti, ma di tipo non lineare per le quali il coefficiente di correlazione è prossimo a 0.
Variabile X
Va
ria
bil
e Y
r = -0.194
X
Y
Variabile X
Va
ria
bil
e Y
r = -0.084
X
Y
Variabile X
Va
ria
bil
e Y
r = -0.158
Variabile X
Var
iab
ile
Y
r = -
X
Y
var2= .000192-.040941var1
var1-4 -2 0 2
-2
0
2
4
var1=-.000192-.040974var2
var2-2 0 2 4
-4
-2
0
2
![Page 39: ASSOCIAZIONE E CORRELAZIONE Quando osservo le distribuzioni di due variabili quantitative [x] ed [y] e la distribuzione congiunta, affermo che le due variabili](https://reader035.vdocuments.mx/reader035/viewer/2022062512/5542eb4f497959361e8bf27d/html5/thumbnails/39.jpg)
osservazioni ricordando che la devianza spiegata dalla regressione e:
2 2 22[x,y] [x,y] [y,y] [x,y]
[y,y]=[y,y] r[x,x] [x,x] [y,y] [x,x] [y,y]
la devianza residua della regressione è : 2[x,y]
[d,d]=[y,y]- =[y,y] (1-r)[x,x]
il coefficiente di regressione b(y|x) = [x,y]/
[x,x]
definito s(x) = sqrt{ [x,x]/( n-1) }
s(y) = sqrt{ [y,y] /(n-1) }
si ha b(y|x) = r [ s(y) / s(x) ]
Analogamente b(x|y) = r s(x)/s( y)