relazioni tra 2 fenomeni quantitativi statistica a – k (60 ore) marco riani [email protected]
TRANSCRIPT
RELAZIONI TRA 2 RELAZIONI TRA 2 FENOMENI QUANTITATIVIFENOMENI QUANTITATIVI
STATISTICA A – K (60 ore) STATISTICA A – K (60 ore)
Marco RianiMarco Riani
http://www.riani.it
RELAZIONI TRA 2 FENOMENI RELAZIONI TRA 2 FENOMENI QUANTITATIVIQUANTITATIVI
• Vi è una relazione tra le variabili oggetto di studio?
• Di quanto variano i valori d’una variabile quando cambiano i valori dell’altra?
• CORRELAZIONE
• REGRESSIONE
X = NUMERO DI DIPENDENTIX = NUMERO DI DIPENDENTIY = FATTURATO (in milioni di euro)Y = FATTURATO (in milioni di euro)
Supermercato xi yi
A 10 1,9
B 18 3,1
C 20 3,2
D 8 1,5
E 30 6,2
F 12 2,8
G 14 2,3
Tot. 112 21,0
M(X) = 16M(Y) = 3,0
DIAGRAMMA DI DISPERSIONE (SCATTER)DIAGRAMMA DI DISPERSIONE (SCATTER)
0
1
2
3
4
5
6
7
0 5 10 15 20 25 30 35
numero di dipendenti
fatt
ura
to
III
IIIIV
M(X) = 16
M(Y) = 3,0
G (14 2,3)
E (30 6,2)
DIAGRAMMA DI DISPERSIONE (SCATTER)DIAGRAMMA DI DISPERSIONE (SCATTER)
0
1
2
3
4
5
6
7
0 5 10 15 20 25 30 35
numero di dipendenti
fatt
ura
to
III
IIIIV
• Punti in I e III relazione diretta
• Punti in II e IV relazione inversa
• Punti si distribuiscono casualmente in tutti i quadranti all’incirca nella stessa proporzione nessuna relazione lineare tra le due variabili
• I quadranti in cui compare la maggioranza dei punti indicano il tipo di relazione
• L’osservazione della “nuvola” di punti nel diagramma di dispersione fornisce una prima idea sulla relazione eventualmente esistente tra i due fenomeni.
X = NUMERO DI DIPENDENTIX = NUMERO DI DIPENDENTIY = FATTURATO (in milioni di euro)Y = FATTURATO (in milioni di euro)
Supermercato xi yi (xi – Mx) (yi – My)
A 10 1,9 - 6 - 1,1
B 18 3,1 + 2 + 0,1
C 20 3,2 + 4 + 0,2
D 8 1,5 - 8 - 1,5
E 30 6,2 + 14 + 3,2
F 12 2,8 - 4 - 0,2
G 14 2,3 - 2 - 0,7
Tot. 112 21,0 0 0
M(X) = 16M(Y) = 3,0
COVARIANZACOVARIANZA
• = MEDIA ARITMETICA DEI PRODOTTI DEGLI SCOSTAMENTI
• COV(X,Y) >0 RELAZIONE DIRETTA• COV(X,Y) <0 RELAZIONE INVERSA• COV(X,Y) =0 X, Y INCORRELATE
n
iyixi MyMx
nYXCOV
1))((
1),(
X = NUMERO DI DIPENDENTIX = NUMERO DI DIPENDENTIY = FATTURATO (in milioni di euro)Y = FATTURATO (in milioni di euro)
Supermercato xi yi (xi – Mx) (yi – My) (xi-Mx)(yi-My)
A 10 1,9 - 6 - 1,1 6,6
B 18 3,1 + 2 + 0,1 0,2
C 20 3,2 + 4 + 0,2 0,8
D 8 1,5 - 8 - 1,5 12
E 30 6,2 + 14 + 3,2 44,8
F 12 2,8 - 4 - 0,2 0,8
G 14 2,3 - 2 - 0,7 1,4
Tot. 112 21,0 0 0 66,6
M(X) = 16M(Y) = 3,0
COV(X,Y)=66,6/7=9,514
n
iyixi MyMx
nYXCOV
1))((
1),(
Osservazione: per ottenere la covarianza è sufficiente Osservazione: per ottenere la covarianza è sufficiente calcolare solo gli scostamenti di una variabile, calcolare solo gli scostamenti di una variabile,
moltiplicandoli per i valori dell'altra variabile (p. 153)moltiplicandoli per i valori dell'altra variabile (p. 153)
X = NUMERO DI DIPENDENTIX = NUMERO DI DIPENDENTIY = FATTURATO (in milioni di euro)Y = FATTURATO (in milioni di euro)
Supermercato
xi yi (xi – Mx) (yi – My) (xi-Mx)
(yi-My)
(xi-Mx) yi (yi – My) xi
A 10 1,9 - 6 - 1,1 6,6 -11,4 -11B 18 3,1 + 2 + 0,1 0,2 6,2 1,8C 20 3,2 + 4 + 0,2 0,8 12,8 4D 8 1,5 - 8 - 1,5 12 -12 -12E 30 6,2 + 14 + 3,2 44,8 86,8 96F 12 2,8 - 4 - 0,2 0,8 -11,2 -2,4G 14 2,3 - 2 - 0,7 1,4 -4,6 -9,8
Tot. 112 21 0 0 66,6 66,6 66,6M(X) = 16M(Y) = 3,0
COV(X,Y)=66,6/7=9,514
Osservazione: può essere ottenuta anche in funzione Osservazione: può essere ottenuta anche in funzione dei dati originari (p.154)dei dati originari (p.154)
Supermercato
xi yi xiyi
A 10 1,9 19B 18 3,1 55,8C 20 3,2 64D 8 1,5 12E 30 6,2 186F 12 2,8 33,6G 14 2,3 32,2
Tot. 112 21 402,6
COV(X,Y) = 402,6/7-16*3=9,514
M(X) = 16M(Y) = 3,0
Proprietà della covarianzaProprietà della covarianza
• E’ ESPRESSA NEL PRODOTTO DELLE UNITA’ DI MISURA DI X E DI Y
• COV(X,X)=VAR(X)
• E’ scale equivariant
Proprietà della covarianzaProprietà della covarianza
Proprietà della covarianzaProprietà della covarianza
• max | COV (X, Y) | =
= [VAR(X) VAR(Y)]1/2=
= σ(X) σ(Y)
DimostrazioneDimostrazione
• var(tX-Y)>0• t2 var(X) -2t cov(X,Y) + var(Y) >0• h(t) è una funzione quadratica in t. Se
h(t)>0 le radici non sono reali• Δ<0 implica che• 4 [cov(X,Y)]2 -4 var(X) var(Y) <0• [cov(X,Y)]2 < var(X) var(Y) • |cov(X,Y)| < σ(X) σ(Y)
Come ovviare ai difetti della COV?Come ovviare ai difetti della COV?
• La covarianza ha il difetto di risentire dell'unità di misura e dell'ordine di grandezza dei due fenomeni originari essendo espressa in termini del prodotto delle unità di misura di X e Y
• I valori che essa può assumere non sono compresi in un intervallo di interpretazione immediata,
RICHIAMO SCOSTAMENTI RICHIAMO SCOSTAMENTI STANDARDIZZATISTANDARDIZZATI
(p. 125)(p. 125)
• Proprietà:• Mz = 0z = 1• puri numeri confronto tra fenomeni
diversi
Mx
z ii
COEFFICIENTE DI COEFFICIENTE DI CORRELAZIONE CORRELAZIONE rrxyxy
• (media dei prodotti degli scostamenti standardizzati è un numero puro)
n
i y
yi
x
xixy
MyMx
nr
1
)()(1
SCOSTAMENTI STANDARDIZZATISCOSTAMENTI STANDARDIZZATI
Supermercato
xi yi (xi – Mx)/σx (yi – My)/σy (xi – Mx) (yi –
My)/(σx σy)
A 10 1,9 -0,87 -0,77 0,67B 18 3,1 0,29 0,07 0,02C 20 3,2 0,58 0,14 0,08D 8 1,5 -1,15 -1,05 1,21E 30 6,2 2,02 2,24 4,53F 12 2,8 -0,58 -0,14 0,08G 14 2,3 -0,29 -0,49 0,14
Tot. 112 21,0 0 0 6,73
• rxy=6,73/7=0,961
n
i y
yi
x
xixy
MyMx
nr
1
)()(1
Supermercato
xi yi (xi – Mx) (yi –
My)/σx σy
A 10 1,9 0,67B 18 3,1 0,02C 20 3,2 0,08D 8 1,5 1,21E 30 6,2 4,53F 12 2,8 0,08G 14 2,3 0,14
Tot. 112 21,0 6,73
Formule di calcolo alternative (p. 157)Formule di calcolo alternative (p. 157)
)()(
),(
YX
YXCOVrxy
n
i y
yi
x
xixy
MyMx
nr
1
)()(1
)()(
),(
YVARXVAR
YXCOVrxy
Formule di calcolo alternative:Formule di calcolo alternative:
2/1
1 1
22
1
)()(1
))((1
)()(
),(
n
i
n
iyixi
n
iyixi
xy
MyMxn
MyMxn
YVARXVAR
YXCOVr
Interpretazione di rInterpretazione di r
• rxy = -1 perfetta relazione lineare inversa tra X ed Y (cioè quando yi = a + bxi, con b < 0 e a numero qualsiasi)
• rxy = 0 X ed Y sono incorrelate(non vi è tra loro un legame lineare; non si
esclude però l’eventuale esistenza d’una relazione non lineare, ad esempio parabolica o sinusoidale)
rxy = +1 perfetta relazione lineare diretta tra X ed Y (cioè quando yi = a + bxi, con b > 0 e a numero qualsiasi)
Punti in situazioni estreme e Punti in situazioni estreme e rrxyxy
Esemplificazione di dati con diverso valore Esemplificazione di dati con diverso valore del coefficiente di correlazione lineare del coefficiente di correlazione lineare
|r|rxyxy |= 1 se e solo c’è |= 1 se e solo c’è perfetta perfetta
relazione lineare relazione lineare tra tra X X ed ed YY• Se Y = a+|b| X
)()(
),(
YX
YXCOVrxy
)||()(
)||,(, XbaX
XbaXCOVr bxax
)()(||
),(||, XXb
XXCOVbr bxax
1)(||
)(||, XVARb
XVARbr bxax
EsempioEsempio:: 7 supermercati 7 supermercatiSuper-mercat
o
(xi – Mx) (yi – My) (xi-Mx)*
(yi-My)
(xi-Mx)2 (yi-My)
2
A - 6 - 1,1 6,6 36 1,21
B + 2 + 0,1 0,2 4 0,01
C + 4 + 0,2 0,8 16 0,04
D - 8 - 1,5 12 64 2,25
E + 14 + 3,2 44,8 196 10,24
F - 4 - 0,2 0,8 16 0,04
G - 2 - 0,7 1,4 4 0,49
Tot. 0 0 66,6 336 14,28
COV(X,Y) = 66,6/7=9,514
VAR(X) = 336/7 = 48 VAR(Y) = 14,28/7=2,04
895,9040,248 Y)COV(X,max
961,0895,9
514,9
)var()var(
),cov(
YX
YXrxy
EsempioEsempio:: 7 supermercati (continua) 7 supermercati (continua)Super-
mercato(xi-Mx)(yi-My) (xi-Mx)
2 (yi-My)2
A 6,6 36 1,21
B 0,2 4 0,01
C 0,8 16 0,04
D 12 64 2,25
E 44,8 196 10,24
F 0,8 16 0,04
G 1,4 4 0,49
Tot. 66,6 336 14,28
COV(X,Y) = 66,6/7=9,514
VAR(X) = 336/7 = 48 VAR(Y) = 14,28/7=2,04
895,9040,248 Y)COV(X,max
961,0895,9
514,9
28,14336
6,66
xyr
Caratteristiche di rCaratteristiche di r
• Dato che rxy = ryx, il coefficiente di correlazione è una misura simmetrica in X ed Y interdipendenza tra le due variabili.
• In esso non si assume una variabile come antecedente e l’altra come conseguente, ma si valuta semplicemente il legame vicendevole tra X ed Y.
Proprietà di Proprietà di rrxy xy (p. 160)(p. 160)
• è invariante in senso forte (cioè presenta lo stesso valore numerico) per trasformazioni lineari crescenti di una o di entrambe le variabili
Proprietà di Proprietà di rrxyxy
• Proprietà di invarianza per trasformazioni lineari: il coefficiente di correlazione lineare rimane invariato effettuando una trasformazione lineare crescente di una o di entrambe le variabili.
se si cambia l’origine del sistema di misurazione e/o l’unità di misura in cui sono espresse le variabili, il valore del coefficiente di correlazione non varia.
Applicazione della precedente proprietàApplicazione della precedente proprietà
• Si ottiene il medesimo valore di rxy anche effettuando il calcolo sui n.i. a base fissa
Esemplificazione di dati con diverso valore del Esemplificazione di dati con diverso valore del coefficiente di correlazione lineare, in presenza di coefficiente di correlazione lineare, in presenza di dati contaminati indicati con il simbolo * (p. 162)dati contaminati indicati con il simbolo * (p. 162)
Es: 6 famiglie, ammontare della spesa annua (in Es: 6 famiglie, ammontare della spesa annua (in euro) per l’acquisto di due generi di largo euro) per l’acquisto di due generi di largo
consumo: latte fresco e biscotti.consumo: latte fresco e biscotti.
• (i) rxy? (ii) commento (iii) diagramma di dispersione (iv) concordanza tra rxy e diagramma di dispersione (v) Perché rxy invece della retta di regressione?
Famiglia
Spesa annua per l’acquisto di latte fresco (€)
Spesa annua per l’acquisto di biscotti (€)
A 105 65
B 190 130
C 80 160
D 120 90
E 240 220
F 60 50
M(x)= 132.5
M(y)=119.2
CORRELAZIONE FRA DUE S.S.CORRELAZIONE FRA DUE S.S.
• Esempio: X = numero di extracomunitari iscritti al collocamento, Y = numero di discount
• Calcolare e commentare rXY tra le variabili originarie, i NI a base fissa, le variazioni percentuali a base fissa, i NI a base mobile, le variazioni percentuali a base mobile
Anni X Y
1993 72.644 600
1994 85.993 1.300
1995 96.287 1.930
1996 136.942 2.328
1997 140.100 2.523