04 test ipotesi
DESCRIPTION
ÂTRANSCRIPT
Stefano Salvadori, IFC-CNR
Test di ipotesi Statistica inferenziale
Esempio:
Si è interessati all’età media di una certa popolazione, nello specifico si vuol rispondere alla domanda: L’età media della popolazione è 30 anni?
Evidenza campionaria
10n
27x
Cosa si sa (o si assume che sia)
5.4;~ NX
Stefano Salvadori, IFC-CNR
Test di ipotesi Statistica inferenziale
Formulazione ipotesi
00 : H Ipotesi NULLA
01 : H Ipotesi ALTERNATIVA
Stefano Salvadori, IFC-CNR
Test di ipotesi Statistica inferenziale
Calcolo p-value
pveraHevidenzaP )|( 0
Se p è “piccola” allora si rifiuta l’ipotesi nulla e si dice che il test è
STATISTICAMENTE SIGNIFICATIVO
Stefano Salvadori, IFC-CNR
Test di ipotesi Statistica inferenziale
Livello di significatività di un test
Valore di probabilità sotto il quale si rifiuta l’ipotesi nulla (di solito è fissato a 0.05) Si indica con
05.0p
05.0p
Si rifiuta l’ipotesi nulla
Non si rifiuta l’ipotesi nulla
ad un livello di significatività 05.0
Stefano Salvadori, IFC-CNR
Test di ipotesi Statistica inferenziale
Come calcolare il p-value
Statistica Test =
Statistica di interesse – Valore ipotizzato
Errore Standard Statistica di interesse
Distribuzione di probabilità della Statistica Test
+
Stefano Salvadori, IFC-CNR
Test di ipotesi Statistica inferenziale
Come calcolare il p-value
nella distribuzione di probabilità della statistica test vengono individuate due regioni: la regione di rifiuto e la regione di non rifiuto
0HSpecificata (e quindi ) e fissato il livello di significatività 1H
Stefano Salvadori, IFC-CNR
Test di ipotesi Statistica inferenziale
Come calcolare il p-value
Il valore della statistica test cade nella regione di rifiuto
p
Il valore della statistica test cade nella regione di non rifiuto
p
Stefano Salvadori, IFC-CNR
Test di ipotesi Statistica inferenziale
Esempio:
10n
27x
5.4;~ NX
30:0 H
30:1 H
1;0~0 Nn
X
Fissiamo il livello di significatività 05.0
Test Z su singolo campione
Stefano Salvadori, IFC-CNR
Test di ipotesi Statistica inferenziale
30:0 H
30:1 H 1;0~0 N
n
X
05.0
11.2105.4
30270
n
X
Il valore della statistica test cade nella regione di rifiuto
05.0p Il test è statisticamente significativo
Si rifiuta 0H Ovvero si rifiuta l’ipotesi che la popolazione
abbia età media 30 anni
Stefano Salvadori, IFC-CNR
Test di ipotesi Statistica inferenziale
Esempio:
10n
27x
?
30:0 H
30:1 H
910 ~ tt
ns
Xn
Fissiamo il livello di significatività 05.0
Test t su singolo campione 1.4s
Stefano Salvadori, IFC-CNR
Test di ipotesi Statistica inferenziale
30:0 H
30:1 H1
0 ~
nt
ns
X 05.0
31.2101.4
30270
ns
X
Il valore della statistica test cade nella regione di rifiuto
05.0p Il test è statisticamente significativo
Si rifiuta 0H Ovvero si rifiuta l’ipotesi che la popolazione
abbia età media 30 anni
Per un t9 la regione di non rifiuto è compresa tra i valori -2.26 e 2.26
Stefano Salvadori, IFC-CNR
Test di ipotesi Statistica inferenziale
Esempio:
Si è interessati all’età media di una certa popolazione, nello specifico si vuol rispondere alla domanda: L’età media della popolazione è minore di 30 anni?
Evidenza campionaria
10n
27x
? 1.4s
Stefano Salvadori, IFC-CNR
Test di ipotesi Statistica inferenziale
Esempio:
10n
27x
?
30:0 H
30:1 H
910 ~ tt
ns
Xn
Fissiamo il livello di significatività 05.0
1.4s
In questo caso, nella distribuzione, la regione di rifiuto è quella individuata dall’intervallo che va da al percentile
Test t su singolo campione (a una coda)
Stefano Salvadori, IFC-CNR
Test di ipotesi Statistica inferenziale
30:0 H
30:1 H1
0 ~
nt
ns
X 05.0
31.2101.4
30270
ns
X
Il valore della statistica test cade nella regione di rifiuto
05.0p Il test è statisticamente significativo
Si rifiuta 0H Ovvero si rifiuta l’ipotesi che la popolazione
abbia età maggiore o uguale di 30 anni
Per un t9 la regione di rifiuto rappresentata dai valori inferiori a -1.83
Stefano Salvadori, IFC-CNR
Test di ipotesi Statistica inferenziale
Esempio:
Si è interessati all’età media di una certa popolazione, nello specifico si vuol rispondere alla domanda: L’età media della popolazione è maggiore di 30 anni?
Evidenza campionaria
10n
27x
? 1.4s
Stefano Salvadori, IFC-CNR
Test di ipotesi Statistica inferenziale
Esempio:
10n
27x
?
30:0 H
30:1 H
910 ~ tt
ns
Xn
Fissiamo il livello di significatività 05.0
Test t su singolo campione (a due code) 1.4s
In questo caso, nella distribuzione, la regione di rifiuto è quella individuata dall’intervallo che va dal percentile a 1
Stefano Salvadori, IFC-CNR
Test di ipotesi Statistica inferenziale
30:0 H
30:1 H1
0 ~
nt
ns
X 05.0
31.2101.4
30270
ns
X
Il valore della statistica test cade nella regione di non rifiuto
05.0p Il test non è statisticamente significativo
Non si rifiuta 0H Ovvero non si rifiuta l’ipotesi che la popolazione
abbia età minore o uguale di 30 anni
Per un t9 la regione di rifiuto rappresentata dai valori maggiori di 1.83
Stefano Salvadori, IFC-CNR
Test di ipotesi Statistica inferenziale
Esempio:
In un campione di 16 fumatori è stato rilevato un valore medio dell’indice di danno polmonare pari a 17.5
In un campione di 9 non fumatori è stato rilevato un valore medio dell’indice di danno polmonare pari a 12.4
Domanda:
Il fumo influisce sul danno polmonare?
ovvero
Le medie delle due popolazioni da cui i campioni sono stati estratti sono significativamente diverse?
Stefano Salvadori, IFC-CNR
Test di ipotesi Statistica inferenziale
Se
• I due campioni sono indipendenti • Le due popolazioni sono normali • C’è omoscedasticità
2
21
2
02121
21~
11
nn
p
t
nns
xx
Test t per due campioni indipendenti
Stefano Salvadori, IFC-CNR
Test di ipotesi Statistica inferenziale
Esempio: 161 n
5.171 x
Fissiamo il livello di significatività 05.0
5.41 s
92 n
4.122 x
8.42 s
2
21
2
21
21~
11
nn
p
t
nns
xx
210 : H
211 : H
0: 210 H
0: 210 H
Stefano Salvadori, IFC-CNR
Test di ipotesi Statistica inferenziale
Esempio: 161 n
5.171 x
5.41 s
92 n
4.122 x
8.42 s
0: 210 H
0: 211 H
05.0
2.21
2916
8.4195.4116
2
11 22
21
2
22
2
112
nn
snsnsp
Stefano Salvadori, IFC-CNR
Test di ipotesi Statistica inferenziale
Esempio: 161 n
5.171 x
5.41 s
92 n
4.122 x
8.42 s
65.2
9
1
16
12.21
4.125.17
11
21
2
21
nns
xx
p
0: 210 H
0: 211 H
05.0
Per un t23 la regione di non rifiuto è compresa tra i valori -2.07 e 2.07
Il valore della statistica test cade nella regione di rifiuto
05.0p Il test è statisticamente significativo
Si rifiuta 0H Ovvero si rifiuta l’ipotesi che le medie delle due
popolazioni siano tra loro uguali
Stefano Salvadori, IFC-CNR
Test di ipotesi Statistica inferenziale
Esempio:
In un campione di 16 fumatori è stato rilevato un valore medio dell’indice di danno polmonare pari a 17.5
In un campione di 9 non fumatori è stato rilevato un valore medio dell’indice di danno polmonare pari a 12.4
Domanda:
Il fumo incrementa il danno polmonare?
ovvero
La media della popolazione dei fumatori è maggiore della media della popolazione dei non fumatori?
Stefano Salvadori, IFC-CNR
Test di ipotesi Statistica inferenziale
Se
• I due campioni sono indipendenti • Le due popolazioni sono normali • C’è omoscedasticità
2
21
2
02121
21~
11
nn
p
t
nns
xx
Test t per due campioni indipendenti (test a due code)
Stefano Salvadori, IFC-CNR
Test di ipotesi Statistica inferenziale
Esempio: 161 n
5.171 x
5.41 s
92 n
4.122 x
8.42 s
210 : H
211 : H
0: 210 H
0: 210 H
Fissiamo il livello di significatività 05.0In questo caso, nella distribuzione, la regione di rifiuto è quella individuata dall’intervallo che va dal percentile a 1
Stefano Salvadori, IFC-CNR
Test di ipotesi Statistica inferenziale
Esempio: 161 n
5.171 x
5.41 s
92 n
4.122 x
8.42 s
65.2
9
1
16
12.21
4.125.17
11
21
2
21
nns
xx
p
0: 210 H
0: 211 H
05.0
Per un t23 la regione di rifiuto è rappresentata dai valori maggiori di 1.71
Il valore della statistica test cade nella regione di rifiuto
05.0p Il test è statisticamente significativo
Si rifiuta 0H
Ovvero si rifiuta l’ipotesi che la media della popolazione dei fumatori sia minore o uguale della media della popolazione dei non fumatori
Stefano Salvadori, IFC-CNR
Test di ipotesi Statistica inferenziale
Esempio:
In un campione di 16 fumatori è stato rilevato un valore medio dell’indice di danno polmonare pari a 17.5
In un campione di 9 non fumatori è stato rilevato un valore medio dell’indice di danno polmonare pari a 12.4
Domanda:
Il fumo è protettivo per il danno polmonare?
ovvero
La media della popolazione dei fumatori è minore della media della popolazione dei non fumatori?
Stefano Salvadori, IFC-CNR
Test di ipotesi Statistica inferenziale
Se
• I due campioni sono indipendenti • Le due popolazioni sono normali • C’è omoscedasticità
2
21
2
02121
21~
11
nn
p
t
nns
xx
Test t per due campioni indipendenti (test a due code)
Stefano Salvadori, IFC-CNR
Test di ipotesi Statistica inferenziale
Esempio: 161 n
5.171 x
5.41 s
92 n
4.122 x
8.42 s
210 : H
211 : H
0: 210 H
0: 210 H
Fissiamo il livello di significatività 05.0In questo caso, nella distribuzione, la regione di rifiuto è quella individuata dall’intervallo che va da al percentile
Stefano Salvadori, IFC-CNR
Test di ipotesi Statistica inferenziale
Esempio: 161 n
5.171 x
5.41 s
92 n
4.122 x
8.42 s
65.2
9
1
16
12.21
4.125.17
11
21
2
21
nns
xx
p
0: 210 H
0: 211 H
05.0
Per un t23 la regione di rifiuto è rappresentata dai valori minori di -1.71
Il valore della statistica test cade nella regione di non rifiuto
05.0p Il test non è statisticamente significativo
Non si rifiuta 0H
Ovvero non si rifiuta l’ipotesi che la media della popolazione dei fumatori sia maggiore o uguale della media della popolazione dei non fumatori
Stefano Salvadori, IFC-CNR
Test di ipotesi Statistica inferenziale
Esempio:
Per un campione di 9 individui sono riportati i pesi prima e dopo una dieta sperimentale
Domanda:
La dieta ha avuto effetto?
Prima Dopo
117.3 83.3
111.4 85.9
98.6 75.8
104.3 82.9
105.4 82.3
100.4 77.7
81.7 62.7
89.5 69.0
78.2 63.9
Stefano Salvadori, IFC-CNR
Test di ipotesi Statistica inferenziale
Esempio:
Per un campione di 9 individui sono riportati i pesi prima e dopo una dieta sperimentale
Dal confronto delle evidenze rilevate su due campioni indipendenti, all’analisi della differenza tra coppie di osservazioni
Prima Dopo
117.3 83.3
111.4 85.9
98.6 75.8
104.3 82.9
105.4 82.3
100.4 77.7
81.7 62.7
89.5 69.0
78.2 63.9
Test per dati APPAIATI
Stefano Salvadori, IFC-CNR
Test di ipotesi Statistica inferenziale
i=1, …, n id i-esima differenza per l’i-esima coppia di osservazioni
d differenza media campionaria
0d differenza media ipotizzata nella popolazione
n
ss d
d deviazione standard delle differenze campionarie
n numero di differenze
Stefano Salvadori, IFC-CNR
Test di ipotesi Statistica inferenziale
Se le n differenze campionarie rappresentano un campione estratto da una popolazione normale di differenze
1~0
n
d
dt
s
d
Test t per dati appaiati (test a due code)
Stefano Salvadori, IFC-CNR
Test di ipotesi Statistica inferenziale
Esempio: Prima Dopo di di2
117.3 83.3 34.0 1156
111.4 85.9 25.5 650.25
98.6 75.8 22.8 519.84
104.3 82.9 21.4 457.96
105.4 82.3 23.1 533.61
100.4 77.7 22.7 515.29
81.7 62.7 19.0 361
89.5 69.0 20.5 420.25
78.2 63.9 14.3 204.49
9n
6.229
3.203
9
3.1434
n
dd
i
3.28
72
3.20369.48189
11
2222
2
nn
ddn
n
dds
iii
d
Stefano Salvadori, IFC-CNR
Test di ipotesi Statistica inferenziale
Esempio: Prima Dopo di di2
117.3 83.3 34.0 1156
111.4 85.9 25.5 650.25
98.6 75.8 22.8 519.84
104.3 82.9 21.4 457.96
105.4 82.3 23.1 533.61
100.4 77.7 22.7 515.29
81.7 62.7 19.0 361
89.5 69.0 20.5 420.25
78.2 63.9 14.3 204.49
0:0 dH
0:1 dH 1~0
n
d
dt
s
d
Fissiamo il livello di significatività 05.0
Stefano Salvadori, IFC-CNR
Test di ipotesi Statistica inferenziale
Esempio: Prima Dopo di di2
117.3 83.3 34.0 1156
111.4 85.9 25.5 650.25
98.6 75.8 22.8 519.84
104.3 82.9 21.4 457.96
105.4 82.3 23.1 533.61
100.4 77.7 22.7 515.29
81.7 62.7 19.0 361
89.5 69.0 20.5 420.25
78.2 63.9 14.3 204.49
0:0 dH
0:1 dH
74.1293.28
6.220
d
d
s
d
05.06.22d
3.282 ds
Per un t8 la regione di non rifiuto è compresa tra i valori -2.31 e 2.31
Il valore della statistica test cade nella regione di rifiuto
05.0p Il test è statisticamente significativo
Si rifiuta 0H Ovvero si rifiuta l’ipotesi che la media delle differenze
sia zero ovvero che la dieta non abbia effetto
Stefano Salvadori, IFC-CNR
Test di ipotesi Statistica inferenziale
Esempio:
Per un campione di 9 individui sono riportati i pesi prima e dopo una dieta sperimentale
Domanda:
La dieta ha avuto effetto nella riduzione del peso?
Prima Dopo
117.3 83.3
111.4 85.9
98.6 75.8
104.3 82.9
105.4 82.3
100.4 77.7
81.7 62.7
89.5 69.0
78.2 63.9
Stefano Salvadori, IFC-CNR
Test di ipotesi Statistica inferenziale
Se le n differenze campionarie rappresentano un campione estratto da una popolazione normale di differenze
1~0
n
d
dt
s
d
Test t per dati appaiati (test a una coda)
Stefano Salvadori, IFC-CNR
Test di ipotesi Statistica inferenziale
Esempio:
9n
6.229
3.203
9
)3.14(34
n
dd
i
3.28
72
3.20369.48189
11
2222
2
nn
ddn
n
dds
iii
d
Prima Dopo di di2
117.3 83.3 -34.0 1156
111.4 85.9 -25.5 650.25
98.6 75.8 -22.8 519.84
104.3 82.9 -21.4 457.96
105.4 82.3 -23.1 533.61
100.4 77.7 -22.7 515.29
81.7 62.7 -19.0 361
89.5 69.0 -20.5 420.25
78.2 63.9 -14.3 204.49
Stefano Salvadori, IFC-CNR
Test di ipotesi Statistica inferenziale
Esempio:
0:0 dH
0:1 dH 1~0
n
d
dt
s
d
Prima Dopo di di2
117.3 83.3 -34.0 1156
111.4 85.9 -25.5 650.25
98.6 75.8 -22.8 519.84
104.3 82.9 -21.4 457.96
105.4 82.3 -23.1 533.61
100.4 77.7 -22.7 515.29
81.7 62.7 -19.0 361
89.5 69.0 -20.5 420.25
78.2 63.9 -14.3 204.49
Fissiamo il livello di significatività 05.0In questo caso, nella distribuzione, la regione di rifiuto è quella individuata dall’intervallo che va da al percentile
Stefano Salvadori, IFC-CNR
Test di ipotesi Statistica inferenziale
Esempio:
0:0 dH
0:1 dH
74.1293.28
6.220
d
d
s
d
05.06.22d
3.282 ds
Per un t8 la regione di rifiuto è rappresentata dai valori minori di -1.86
Il valore della statistica test cade nella regione di rifiuto
05.0p Il test è statisticamente significativo
Si rifiuta 0H
Ovvero si rifiuta l’ipotesi che la media delle differenze sia maggiore o uguale a zero ovvero che la dieta abbia incrementato o lasciato invariato il peso
Prima Dopo di di2
117.3 83.3 -34.0 1156
111.4 85.9 -25.5 650.25
98.6 75.8 -22.8 519.84
104.3 82.9 -21.4 457.96
105.4 82.3 -23.1 533.61
100.4 77.7 -22.7 515.29
81.7 62.7 -19.0 361
89.5 69.0 -20.5 420.25
78.2 63.9 -14.3 204.49
Stefano Salvadori, IFC-CNR
Test di ipotesi Statistica inferenziale
Esempio:
Per un campione di 9 individui sono riportati i pesi prima e dopo una dieta sperimentale
Domanda:
La dieta ha avuto effetto nell’incremento del peso?
Prima Dopo
117.3 83.3
111.4 85.9
98.6 75.8
104.3 82.9
105.4 82.3
100.4 77.7
81.7 62.7
89.5 69.0
78.2 63.9
Stefano Salvadori, IFC-CNR
Test di ipotesi Statistica inferenziale
Se le n differenze campionarie rappresentano un campione estratto da una popolazione normale di differenze
1~0
n
d
dt
s
d
Test t per dati appaiati (test a una coda)
Stefano Salvadori, IFC-CNR
Test di ipotesi Statistica inferenziale
Esempio:
9n
6.229
3.203
9
)3.14(34
n
dd
i
3.28
72
3.20369.48189
11
2222
2
nn
ddn
n
dds
iii
d
Prima Dopo di di2
117.3 83.3 -34.0 1156
111.4 85.9 -25.5 650.25
98.6 75.8 -22.8 519.84
104.3 82.9 -21.4 457.96
105.4 82.3 -23.1 533.61
100.4 77.7 -22.7 515.29
81.7 62.7 -19.0 361
89.5 69.0 -20.5 420.25
78.2 63.9 -14.3 204.49
Stefano Salvadori, IFC-CNR
Test di ipotesi Statistica inferenziale
Esempio:
0:0 dH
0:1 dH 1~0
n
d
dt
s
d
Prima Dopo di di2
117.3 83.3 -34.0 1156
111.4 85.9 -25.5 650.25
98.6 75.8 -22.8 519.84
104.3 82.9 -21.4 457.96
105.4 82.3 -23.1 533.61
100.4 77.7 -22.7 515.29
81.7 62.7 -19.0 361
89.5 69.0 -20.5 420.25
78.2 63.9 -14.3 204.49
Fissiamo il livello di significatività 05.0In questo caso, nella distribuzione, la regione di rifiuto è quella individuata dall’intervallo che va dal percentile a 1
Stefano Salvadori, IFC-CNR
Test di ipotesi Statistica inferenziale
Esempio:
0:0 dH
0:1 dH
74.1293.28
6.220
d
d
s
d
05.06.22d
3.282 ds
Per un t8 la regione di rifiuto è rappresentata dai valori maggiori di 1.86
Il valore della statistica test cade nella regione di non rifiuto
05.0p Il test non è statisticamente significativo
Non si rifiuta 0H
Ovvero non si rifiuta l’ipotesi che la media delle differenze sia minore o uguale a zero ovvero che la dieta abbia ridotto o lasciato invariato il peso
Prima Dopo di di2
117.3 83.3 -34.0 1156
111.4 85.9 -25.5 650.25
98.6 75.8 -22.8 519.84
104.3 82.9 -21.4 457.96
105.4 82.3 -23.1 533.61
100.4 77.7 -22.7 515.29
81.7 62.7 -19.0 361
89.5 69.0 -20.5 420.25
78.2 63.9 -14.3 204.49
Stefano Salvadori, IFC-CNR
Test di ipotesi Statistica inferenziale
Esempio:
In un ospedale, per 90 giorni, è stato rilevato il numero di ricoveri di pronto soccorso. È plausibile pensare che i ricoveri di pronto soccorso seguano una distribuzione di Poisson con λ=3?
Numero
ricoveri
Giorni con
numero di
ricoveri
0 5
1 14
2 15
3 23
4 16
5 9
6 3
7 3
8 1
9 1
10 0
Totale 90
Stefano Salvadori, IFC-CNR
Definizioni
Bontà di adattamento: confronto tra una distribuzione campionaria e una distribuzione teorica che si assume possa descrivere la popolazione dalla quale proviene il campione
Frequenze attese: numero di unità del campione che ci aspetteremmo di osservare per i diversi valori (modalità) della variabile di interesse se una qualche ipotesi nulla sulla variabile di interesse fosse vera
Statistica inferenziale
Frequenze osservate: numero di unità del campione che assume i diversi valori (modalità) della variabile di interesse
Stefano Salvadori, IFC-CNR
Test di ipotesi Statistica inferenziale
i=1, …, k iO Frequenza osservata per il “gruppo” i-esimo
i=1, …, k iE Frequenza attesa per il “gruppo” i-esimo
2
1
2
~ rk
k
i i
ii
E
EO
Test chi-quadrato per la bontà di adattamento
r Numero di vincoli imposti per il confronto tra le frequenze
Stefano Salvadori, IFC-CNR
Test di ipotesi Statistica inferenziale
i
ii
E
EO2
Numero
ricoveri
Giorni con
numero di
ricoveri
Frequenze
relative
attese
Frequenze
attese
0 5 0.050 4.48 0.060
1 14 0.149 13.44 0.023
2 15 0.224 20.16 1.322
3 23 0.224 20.16 0.399
4 16 0.168 15.12 0.051
5 9 0.101 9.07 0.001
6 3 0.050 4.54 0.521
7 3 0.022 1.94 0.573
8 1 0.008 0.73
9 1 2 0.003 0.24 1.05 0.872
10 0 0.001 0.07
Totale 90 90.0 3.822
Stefano Salvadori, IFC-CNR
Test di ipotesi Statistica inferenziale
Esempio:
:0H
:1H
La distribuzione teorica è quella ipotizzata
La distribuzione teorica non è quella ipotizzata
Fissiamo il livello di significatività 05.0
2
8
1
2
~
k
i i
ii
E
EO
Stefano Salvadori, IFC-CNR
Test di ipotesi Statistica inferenziale
0 5 10 15 20 25
0.0
00
.02
0.0
40
.06
0.0
80
.10
Chi-Squared Distribution: df = 8
2
De
nsity
Come calcolare il p-value
Nella distribuzione la regione di rifiuto è quella individuata dall’intervallo che va dal percentile a
2
rk1
Il percentile che separa le due regioni è detto anche valore critico
1
Stefano Salvadori, IFC-CNR
Test di ipotesi Statistica inferenziale
Come calcolare il p-value
Il valore della statistica test cade nella regione di rifiuto ovvero il valore della statistica test è maggiore o uguale del valore critico
p
Il valore della statistica test cade nella regione di non rifiuto ovvero il valore della statistica test è minore del valore critico
p
Stefano Salvadori, IFC-CNR
Test di ipotesi Statistica inferenziale
Esempio:
05.0
Per un il valore critico è 15.507
Il valore della statistica test è minore del valore critico
05.0p Il test non è statisticamente significativo
Non si rifiuta 0H Ovvero non si rifiuta l’ipotesi che la distribuzione
teorica sia quella ipotizzata (Poisson con λ=3)
:0H
:1H
La distribuzione teorica è quella ipotizzata
La distribuzione teorica non è quella ipotizzata
Numero
ricoveri
Giorni con
numero di
ricoveri
Frequenze
relative
attese
Frequenze
attese
0 5 0.050 4.48 0.060
1 14 0.149 13.44 0.023
2 15 0.224 20.16 1.322
3 23 0.224 20.16 0.399
4 16 0.168 15.12 0.051
5 9 0.101 9.07 0.001
6 3 0.050 4.54 0.521
7 3 0.022 1.94 0.573
8 1 0.008 0.73
9 1 2 0.003 0.24 1.05 0.872
10 0 0.001 0.07
Totale 90 90.0 3.822
i
ii
E
EO2
822.3
9
1
2
i i
ii
E
EO2
8
Stefano Salvadori, IFC-CNR
Test di ipotesi Statistica inferenziale
Esempio:
C’è associazione tra HIV ed HPV?
Positivo
sintomatico
Positivo
asintomaticoNegativo Totale
Positivo 23 4 10 37
Negativo 10 14 35 59
Totale 33 18 45 96
HPV
HIV
I livelli di una variabile si distribuiscono in maniera diversa nei livelli dell’altra variabile?
ovvero
Stefano Salvadori, IFC-CNR
Statistica inferenziale
Livelli del criterio di classificazione A
1 2 3 … c Totale 1 n11 n12 n13 … n1c n1.
2 n21 n22 n23 … n2c n2.
. . . . … . .
. . . . … . .
. . . . … . . r nr1 nr2 nr3 … nrc nr.
Totale n.1 n.2 n.3 … n.c n
Tabella di contingenza
Livelli del criterio di classificazione B
Definizioni
Stefano Salvadori, IFC-CNR
Test di ipotesi Statistica inferenziale
Se i due criteri di classificazione (variabili) sono indipendenti allora la probabilità che una delle n unità appartenga alla generica cella i,j è data da
n
n
n
n ji ..
Se i due criteri di classificazione (variabili) sono indipendenti allora la frequenza attesa nella generica cella i,j è data da
n
nnn
n
n
n
n jiji ....
Livelli del criterio di classificazione A
1 2 3 … c Totale
1 n11 n12 n13 … n1c n1.
2 n21 n22 n23 … n2c n2.
. . . . … . .
. . . . … . .
. . . . … . .r nr1 nr2 nr3 … nrc nr.
Totale n.1 n.2 n.3 … n.c n
Livelli del criterio di classificazione B
Stefano Salvadori, IFC-CNR
Test di ipotesi Statistica inferenziale
i=1, …, r j=1, …, c jiO , Frequenza osservata nella generica cella i,j
jiE ,
2
11
1 ,
2
,,
1
~
cr
c
j ji
jijir
i E
EO
Test chi-quadrato per l’indipendenza
r Numero di righe della tabella di contingenza
i=1, …, r j=1, …, c
Frequenza attesa nella generica cella i,j
c Numero di colonne della tabella di contingenza
Stefano Salvadori, IFC-CNR
Test di ipotesi Statistica inferenziale
Positivo
sintomatico
Positivo
asintomaticoNegativo Totale
Positivo 12.7 6.9 17.3 37
Negativo 20.3 11.1 27.7 59
Totale 33 18 45 96
HIV
HPV
Positivo
sintomatico
Positivo
asintomaticoNegativo Totale
Positivo 23 4 10 37
Negativo 10 14 35 59
Totale 33 18 45 96
HPV
HIVFrequenze osservate
Frequenze attese
Stefano Salvadori, IFC-CNR
Test di ipotesi Statistica inferenziale
Positivo
sintomatico
Positivo
asintomaticoNegativo Totale
Positivo 12.7 6.9 17.3 37
Negativo 20.3 11.1 27.7 59
Totale 33 18 45 96
HIV
HPV
Positivo
sintomatico
Positivo
asintomaticoNegativo Totale
Positivo 23 4 10 37
Negativo 10 14 35 59
Totale 33 18 45 96
HPV
HIV
Frequenze osservate Frequenze attese
Positivo
sintomatico
Positivo
asintomaticoNegativo Totale
Positivo 8.3 1.2 3.1
Negativo 5.2 0.8 2.0
Totale 20.6
HPV
ji
jiji
E
EO
,
2
,,
Stefano Salvadori, IFC-CNR
Test di ipotesi Statistica inferenziale
Esempio:
:0H
:1H
Le due variabili sono indipendenti (non c’è associazione)
Le due variabili non sono indipendenti (c’è associazione)
Fissiamo il livello di significatività 05.0
2
2
2
1312
3
1 ,
2
,,2
1
~
j ji
jiji
i E
EO
Stefano Salvadori, IFC-CNR
Test di ipotesi Statistica inferenziale
Esempio:
:0H
:1H
Non c’è associazione
C’è associazione
05.0
6.20
3
1 ,
2
,,2
1
j ji
jiji
i E
EO
Positivo
sintomatico
Positivo
asintomaticoNegativo Totale
Positivo 12.7 6.9 17.3 37
Negativo 20.3 11.1 27.7 59
Totale 33 18 45 96
HIV
HPV
Positivo
sintomatico
Positivo
asintomaticoNegativo Totale
Positivo 23 4 10 37
Negativo 10 14 35 59
Totale 33 18 45 96
HPV
HIV
Frequenze osservate Frequenze attese
Positivo
sintomatico
Positivo
asintomaticoNegativo Totale
Positivo 8.3 1.2 3.1
Negativo 5.2 0.8 2.0
Totale 20.6
HPV
ji
jiji
E
EO
,
2
,,
Per un il valore critico è 5.991
Il valore della statistica test è maggiore del valore critico
05.0p Il test è statisticamente significativo
Si rifiuta 0H
2
2
Ovvero si rifiuta l’ipotesi di assenza di associazione (indipendenza)
Stefano Salvadori, IFC-CNR
Test di ipotesi Statistica inferenziale
Esempio:
C’è associazione tra Facoltà e conoscenza delle malattie?
I livelli di una variabile si distribuiscono in maniera diversa nei livelli dell’altra variabile?
ovvero
Buona Scarsa Totale
Medicina 3 4 7
Altra 1 15 16
Totale 4 19 23
Conoscenza malattie
Facoltà
Stefano Salvadori, IFC-CNR
Test di ipotesi Statistica inferenziale
Frequenze osservate Frequenze attese
ji
jiji
E
EO
,
2
,,
Buona Scarsa Totale
Medicina 3 4 7
Altra 1 15 16
Totale 4 19 23
Conoscenza malattie
Facoltà
Buona Scarsa Totale
Medicina 1.2 5.8 7
Altra 2.8 13.2 16
Totale 4 19 23
Conoscenza malattie
Facoltà
Buona Scarsa Totale
Medicina 2.6 0.5
Altra 1.1 0.2
Totale 4.5
Conoscenza malattie
Facoltà
05.0
Valore critico = 3.841
2
1
05.0p
Stefano Salvadori, IFC-CNR
Test di ipotesi Statistica inferenziale
Esempio:
C’è associazione tra Facoltà e conoscenza delle malattie?
I livelli di una variabile si distribuiscono in maniera diversa nei livelli dell’altra variabile?
ovvero
Buona Scarsa Totale
Medicina 3 4 7
Altra 2 15 17
Totale 5 19 24
Conoscenza malattie
Facoltà
Stefano Salvadori, IFC-CNR
Test di ipotesi Statistica inferenziale
Frequenze osservate Frequenze attese
ji
jiji
E
EO
,
2
,, 05.0
Valore critico = 3.841
2
1
05.0p
Buona Scarsa Totale
Medicina 3 4 7
Altra 2 15 17
Totale 5 19 24
Conoscenza malattie
Facoltà
Buona Scarsa Totale
Medicina 1.5 5.5 7
Altra 3.5 13.5 17
Totale 5 19 24
Conoscenza malattie
Facoltà
Buona Scarsa Totale
Medicina 1.6 0.4
Altra 0.7 0.2
Totale 2.9
Conoscenza malattie
Facoltà
Stefano Salvadori PhD, IFC-CNR
Caso delle frequenze attese piccole
• in tabelle di contingenza con più di 1 gdl una frequenza attesa minima di 1 è accettabile se non più del 20% delle celle hanno frequenze attese non inferiori a 5. • in tabelle di contingenza 2x2 (1 gdl) il test non dovrebbe essere usato se n<20 • in tabelle di contingenza 2x2 il test non dovrebbe essere usato se 20<n<40 e c’è almeno una frequenza attesa inferiore a 5 • se n≥40 una sola frequenza attesa con numerosità non più piccola di 1 può essere tollerata
W.G. Cochran “Some methods for strengthening the common tests”, Biometrics, 15(1959), 440-468
2
2
Test di ipotesi Statistica inferenziale
Stefano Salvadori, IFC-CNR
Test di ipotesi Statistica inferenziale
2
11
1 ,
2
,,
1
~5.0
cr
c
j ji
jijir
i E
EO
Correzione di Yates (per la continuità)
Possibile svantaggio: Maggiore conservatività del test e quindi minor potenza
Stefano Salvadori, IFC-CNR
Test di ipotesi Statistica inferenziale
Frequenze osservate Frequenze attese
ji
jiji
E
EO
,
2
,, 5.0
Buona Scarsa Totale
Medicina 3 4 7
Altra 1 15 16
Totale 4 19 23
Conoscenza malattie
Facoltà
Buona Scarsa Totale
Medicina 1.2 5.8 7
Altra 2.8 13.2 16
Totale 4 19 23
Conoscenza malattie
Facoltà
05.0
Valore critico = 3.841
2
1
05.0p
Buona Scarsa Totale
Medicina 1.4 0.3
Altra 0.6 0.1
Totale 2.4
Conoscenza malattie
Facoltà
Stefano Salvadori, IFC-CNR
Test di ipotesi Statistica inferenziale
Test
Rifiuto H0
Non rifiuto H0
Realtà
H0 Vera H0 Falsa
Stefano Salvadori, IFC-CNR
Test di ipotesi Statistica inferenziale
Test
Realtà
Rifiuto H0
Non rifiuto H0
H0 Vera H0 Falsa
Errore I tipo
Probabilità di rifiutare quando è vera 0H
Stefano Salvadori, IFC-CNR
Test di ipotesi Statistica inferenziale
Test
Realtà
Rifiuto H0
Non rifiuto H0
H0 Vera H0 Falsa
Errore I tipo
Probabilità NON di rifiutare quando è falsa 0H
Errore II tipo
Stefano Salvadori, IFC-CNR
Test di ipotesi Statistica inferenziale
Test
Realtà
Rifiuto H0
Non rifiuto H0
H0 Vera H0 Falsa
Errore I tipo
1 POTENZA del test = Probabilità di rifiutare quando è falsa 0H
Errore II tipo
Stefano Salvadori, IFC-CNR
Test di ipotesi Statistica inferenziale
n
xZ
0
Poniamo: 830 871 8 50n 05.0
Media della distribuzione di Z per H0
050
8
838300
n
Media della distribuzione di Z per H1
54.350
8
838701
n
Stefano Salvadori, IFC-CNR
Test di ipotesi Statistica inferenziale
n
xZ
0
Poniamo:
Media della distribuzione di Z per H0
050
8
838300
n
Media della distribuzione di Z per H1
830 851 8 50n 05.0
77.150
8
838501
n
Stefano Salvadori, IFC-CNR
Test di ipotesi Statistica inferenziale
n
xZ
0
Poniamo:
Media della distribuzione di Z per H0
050
8
838300
n
Media della distribuzione di Z per H1
830 851 7 50n 05.0
02.250
7
838501
n