5. test per proporzioni: confronto tra campioni e associazione · 6. test per proporzioni 1. un...
TRANSCRIPT
MARTA BLANGIARDO – TEST PER PROPORZION - 6.1
6. TEST PER PROPORZIONI
5. Test per proporzioni: confronto tra campioni e
associazione
BIOSTATISTICA
Marta Blangiardo, Imperial College, London
Department of Epidemiology and Public Health
MARTA BLANGIARDO – TEST PER PROPORZION - 6.2
6. TEST PER PROPORZIONI
1. Un solo campione: metodo esatto e approssimazione alla Normale
3. Test per la bontà di adattamento di una distribuzione di probabilità ad una distribuzione empirica: il caso di probabilità stimata
2. Confronto tra due o più proporzionila variabile casuale chi quadro
4. Test per la bontà di adattamento di una distribuzione di probabilità ad una distribuzione empirica: il caso di probabilità teorica
MARTA BLANGIARDO – TEST PER PROPORZION - 6.3
6. TEST PER PROPORZIONI
1. Un solo campione: metodo esatto e approssimazione alla Normale
• Dalla teoria mendelianadell’ereditarietà ci si aspetta checerti incroci di varietà di baccelliproducano baccelli gialli o verdi in rapporto di 3:1.
• In un particolare esperimento siottengono 17 baccelli gialli e 5 verdi.
• Possiamo concludere chel’esperimento supporta la teoria?
MARTA BLANGIARDO – TEST PER PROPORZION - 6.4
6. TEST PER PROPORZIONI
L’esperimento produce solo due possibili risultati: giallo o verde
Estraiamo un campione di n=22 incroci. Siamo interessati a valutarese la proporzione di baccelli verdi e
gialli riscontrata nel campioneriflette la teoria mendeliana
H0 : p verde = ¼ = 0.25
MARTA BLANGIARDO – TEST PER PROPORZION - 6.5
6. TEST PER PROPORZIONI
Dati campionari:
x (numero baccelli verdi) = 5
n = 22
Che valori può assumere X?
La variabile di interesse (numero dibaccelli verdi) è quantitativa discreta
X = 0,1,2,3,…,n
i = baccello verde SUCCESSO
i =baccello giallo INSUCCESSO
Il nostro interesse è sulla proporzionedi SUCCESSI
MARTA BLANGIARDO – TEST PER PROPORZION - 6.6
6. TEST PER PROPORZIONI
Variabile casuale binomiale
• X: numero di successi in un datonumero di prove n indipendenti
• Il risultato di ogni prova è S o I
• La probabilità di S (p) è la stessa in tutte le prove
• Contiamo il numero di successi in n prove
X ~ Binom(n,p)
successi
10
15
20
25
30
35
1 2 3 4 5 6 7 8 9 10
MARTA BLANGIARDO – TEST PER PROPORZION - 6.7
6. TEST PER PROPORZIONI
X ~ Binom(n,p)
µµµµx = np
σσσσx2 = np(1-p)
P(X=x) = n
x px(1-p)n-x
x = 0,1,2,….,n
Media e Varianza
n=12, p=0.3 n=12, p=0.8
MARTA BLANGIARDO – TEST PER PROPORZION - 6.8
6. TEST PER PROPORZIONI
P(X=x) = n
x px(1-p)n-x
Numerositàcampionaria
Coefficientebinomiale
Probabilità disuccesso
n!
x! (n-x)! =
n*n-1*n-2*…2*1
(x*x-1*…*2*1) [(n-x)*(n-x-1)*… *2*1]
Fattoriale
5!
2! (5-2)! =
5
2 =
5*4*3*2*1
(2*1) ((5-2)(5-3)(5-4))
n
0 = 1
n
n = 1
Proprietà del fattoriale
MARTA BLANGIARDO – TEST PER PROPORZION - 6.9
6. TEST PER PROPORZIONI
L’ipotesi è che pverde=0.25
P(X=x) = 22
x 0.25x(1-0.25)22-x
Successo
MARTA BLANGIARDO – TEST PER PROPORZION - 6.10
6. TEST PER PROPORZIONI
P(X=5) = 22
5 0.255(1-0.25)22-5= 0.193
Distribuzione esatta:
dal campione ho n=22 e x=5
Quanto è estremo il valore osservato nelladistribuzione
X ~ Binom(22,0.25)P(X≤5) = P(X=0)+P(X=1)+P(X=2)+P(X=3)+P(X=4)
+P(X=5)= 0.4956
Pvalue=2*0.4956=0.9912
H0 : p verde = ¼ = 0.25
Evidenza a supportodell’ipotesi nulla
MARTA BLANGIARDO – TEST PER PROPORZION - 6.11
6. TEST PER PROPORZIONI
P(X=20)= 22
20 0.2520(1-0.25)22-20=1.18e-10
Se nel campione avessi osservato
x=20
Quanto è estremo il valore osservato nelladistribuzione
X ~ Binom(22,0.25)P(X≥20) = P(X=21)+P(X=22) =
1.21986e-10
Pvalue=2* 1.21986e-10 =2.43972e-10
RIFIUTO H0 : p verde = ¼ = 0.25
Non sufficienteevidenza a supportodell’ipotesi nulla
MARTA BLANGIARDO – TEST PER PROPORZION - 6.12
6. TEST PER PROPORZIONI
Quando n è abbastanza grande (>40)
possiamo approssimare la distribuzionebinomiale a quella normale
X ~ Binom(200,0.2)
In questo caso si possono utilizzare I valori tabulati per
1) intervalli di confidenza
2) test d’ipotesi
MARTA BLANGIARDO – TEST PER PROPORZION - 6.13
6. TEST PER PROPORZIONI
n.successin.provep =
Dal campione ottengo
Posso calcolare lo standard error campionario
p(1-p)n
se( p) =
Non conosco p ma posso stimarlausando p
p(1-p)n
se( p) =
E ottenere l’intervallo di confidenza
Pr {{{{ p - 1.96 se(p) ≤≤≤≤ p ≤≤≤≤ p + 1.96 se( p) }}}} = 0.95
95%
99%
Pr {{{{ p – 2.57 se(p) ≤≤≤≤ p ≤≤≤≤ p + 2.57se( p) }}}} = 0.99
MARTA BLANGIARDO – TEST PER PROPORZION - 6.14
6. TEST PER PROPORZIONI
• Un gruppo di medici ha studiato l’effettodell’utilizzo di cravatte strette sul flusso disangue che arriva alla testa. Il loro interesse èvalutare come questo fatto influenzi la capacitàdel cervello di rispondere a stimoli visivi. Su un campione di 250 uomini d’affari si èottenuto che in 167 casi la cravatta troppostretta influenza l’abilità del cervello.
Dal campione:
n=250
x=167
p=?
p=167/250 = 0.668
Per calcolarel’intervallo diconfidenza mi serve l’errorestandard chestimo:
p(1-p)n
se( p) =
n>40 approssimo alla Normale
Pr {{{{ 0.668 - 1.96 * 0.03 ≤≤≤≤ p ≤≤≤≤ 0.668 + 1.96 * 0.03 }}}} = 0.95
=0.03
IC = {{{{0.6092-0.7268 }}}}
MARTA BLANGIARDO – TEST PER PROPORZION - 6.15
6. TEST PER PROPORZIONI
Dal campione:
n=250
x=167
p=?
p=167/250 = 0.668
IC = {{{{0.6092-0.7268 }}}}
p
Possiamo concludere che ripetendol’esperimento 100 volte in 95 casi il p della popolazione è compresonell’intervallo {{{{0.6092-0.7268 }}}}.
In 5 casi su 100 sbaglio stimando p con p.
MARTA BLANGIARDO – TEST PER PROPORZION - 6.16
6. TEST PER PROPORZIONI
n.successin.provep =
Dal campione ottengo
p(1-p)n
se( p) =
Ipotesi nulla:
H0: p=p 0
p – p0
se(p)~ N(0,1)
P-value (1 coda) =
Pr ( z >zp sotto H 0)
zp=
P-value (2 code)=
2*Pr ( z >zp sotto H 0)
MARTA BLANGIARDO – TEST PER PROPORZION - 6.17
6. TEST PER PROPORZIONI
Dal campione:
n=250
x=167
p=167/250 = 0.668
H0: p = 0.5 Per standardizzarep devo stimarel’errore standard
p(1-p)n
se( p) = =0.03
p – p0
se(p)zp= = 5.6
Dalla stessa popolazione di uomini d’affarivoglio valutare se l’ipotesi che la proporzionedi uomini con cravatta troppo stretta è 0.5
Pr ( z >zp sotto H 0) = Pr(z>5.6 sotto H 0)
Il test è a due code quindi
P-value (2 code)= 2*Pr ( z >5.6 sotto H 0)
MARTA BLANGIARDO – TEST PER PROPORZION - 6.18
6. TEST PER PROPORZIONI
Distribuzione normale
standardizzata
0.81330.81060.80780.80510.80230.79950.79670.79390.79100.78810.8
0.78520.78230.77940.77640.77340.77040.76730.76420.76110.75800.7
0.75490.75170.74860.74540.74220.73890.73570.73240.72910.72570.6
0.72240.71900.71570.71230.70880.70540.70190.69850.69500.69150.5
0.68790.68440.68080.67720.67360.67000.66640.66280.65910.65540.4
0.65170.64800.64430.64060.63680.63310.62930.62550.62170.61790.3
0.61410.61030.60640.60260.59870.59480.59100.58710.58320.57930.2
0.57530.57140.56750.56360.55960.55570.55170.54780.54380.53980.1
0.53590.53190.52790.52390.51990.51600.51200.50800.50400.50000.0
9876543210
=1-DISTRIB.NORM.ST(5.6)=0
Excel
1.00001.00001.00001.00001.00001.00001.00001.00001.00001.00005.6
1.00001.00001.00001.00001.00001.00001.00001.00001.00001.00005.5
1.00001.00001.00001.00001.00001.00001.00001.00001.00001.00005.4
1.00001.00001.00001.00001.00001.00001.00001.00001.00001.00005.3
1.00001.00001.00001.00001.00001.00001.00001.00001.00001.00005.2
1.00001.00001.00001.00001.00001.00001.00001.00001.00001.00005.1
1.00001.00001.00001.00001.00001.00001.00001.00001.00001.00005.0
……..
Pr(z >zp) = 1-Pr(z<zp) = 0
Tavole
Concludiamo che c’è evidenza contro H0
P-value 2 code2*0=0
P-value 2 code2*0=0
MARTA BLANGIARDO – TEST PER PROPORZION - 6.19
6. TEST PER PROPORZIONI
2. Confronto tra due o piùproporzioni: la variabile casuale chi quadro
In una sperimentazione clinica tesa a valutare l’effetto di un nuovo farmaco nel trattamento dell’infarto miocardico acuto, 80 pazienti sono stati assegnati casualmente al gruppo trattato con il farmaco in studio o al placebo
Dopo 28 giorni dall’episodio di infarto (e dall’inizio dello specifico trattamento) 10 dei 40 pazienti trattati con il farmaco sono deceduti, contro 15 decessi verificatisi nei 40 pazienti trattati con placebo
Questa sperimentazione offre sufficienti evidenze che il nuovo farmaco sia efficace nel trattamento dell’infarto
acuto?
MARTA BLANGIARDO – TEST PER PROPORZION - 6.20
6. TEST PER PROPORZIONI
p1 = 10 / 40 = = 0.250
p2 = 15 / 40 = = 0.375
E1. In una sperimentazione clinica tesa a valutare l’effetto di un nuovo farmaco nel trattamento dell’infarto miocardico acuto, 80 pazienti sono stati assegnati casualmente al gruppo trattato con il farmaco in studio o al placebo
Dopo 28 giorni dall’episodio di infarto (e dall’inizio dello specifico trattamento) 10 dei 40 pazienti trattati con il farmaco sono deceduti, contro 15 decessi verificatisi nei 40 pazienti trattati con placebo
Pazienti trattati con il farmaco
Pazienti di controllo
totale
totale
8040 40
25
55
10 15
30 25
deceduti
vivi
6. CONFRONTO TRA PROPORZIONI DI DUE O PIÙ CAMPIONI INDIPENDENTI
Tabella di contingenza 2 X 2
Questa sperimentazione offre sufficienti evidenze che il nuovo farmaco sia efficace nel trattamento
dell’infarto acuto?
MARTA BLANGIARDO – TEST PER PROPORZION - 6.21
6. TEST PER PROPORZIONI6. CONFRONTO TRA PROPORZIONI DI DUE O PIÙ CAMPIONI INDIPENDENTI
Pazienti trattati con il farmaco
Pazienti di controllo
totale
totale
8040 40
25
55
10 15
30 25
deceduti
vivi
Tabella di contingenza 2 X 2
p = 25 / 80 = = 0.3125
p1 = 10 / 40 = = 0.250
p2 = 15 / 40 = = 0.375
Ci si aspetta che la mortalità nei due gruppi differisca per effetto del caso (errore di campionamento) in
assenza del quale:
p1 = p2 = p = 0.3125
MARTA BLANGIARDO – TEST PER PROPORZION - 6.22
6. TEST PER PROPORZIONI6. CONFRONTO TRA PROPORZIONI DI DUE O PIÙ CAMPIONI INDIPENDENTI
Pazienti trattati con il farmaco
Pazienti di controllo
totale
totale
8040 40
25
55
10 15
30 25
deceduti
vivi
Tabella di contingenza 2 X 2
p = 25 / 80 = = 0.3125
p1 = 10 / 40 = = 0.250
p2 = 15 / 40 = = 0.375
H0sotto:
ππππ1 ππππ2 ππππ= =
MARTA BLANGIARDO – TEST PER PROPORZION - 6.23
6. TEST PER PROPORZIONI6. CONFRONTO TRA PROPORZIONI DI DUE O PIÙ CAMPIONI INDIPENDENTI
Pazienti trattati con il farmaco
Pazienti di controllo
totale
totale
8040 40
25
55
10 15
30 25
deceduti
vivi
Tabella di contingenza 2 X 2
p = 25 / 80 = = 0.3125
p1 = 10 / 40 = = 0.250
p2 = 15 / 40 = = 0.375
12.5
Pazienti trattati con il farmaco
Pazienti di controllo
totale
totale
8040 40
25
55
deceduti
vivi
Quanti pazienti trattati con il farmaco sarebbero morti se fossero sottoposti alla stessa mortalitàdell’intero gruppo sperimentale? 40 . 0.3125 =
MARTA BLANGIARDO – TEST PER PROPORZION - 6.24
6. TEST PER PROPORZIONI6. CONFRONTO TRA PROPORZIONI DI DUE O PIÙ CAMPIONI INDIPENDENTI
Pazienti trattati con il farmaco
Pazienti di controllo
totale
totale
8040 40
25
55
10 15
30 25
deceduti
vivi
Tabella di contingenza 2 X 2
p = 25 / 80 = = 0.3125
p1 = 10 / 40 = = 0.250
p2 = 15 / 40 = = 0.375
Quanti pazienti trattati con placebo sarebbero morti se fossero sottoposti alla stessa mortalitàdell’intero gruppo sperimentale?
deceduti
vivi
40 . 0.3125 =
12.5
Pazienti trattati con il farmaco
Pazienti di controllo
totale
totale
8040 40
25
55
MARTA BLANGIARDO – TEST PER PROPORZION - 6.25
6. TEST PER PROPORZIONI6. CONFRONTO TRA PROPORZIONI DI DUE O PIÙ CAMPIONI INDIPENDENTI
Pazienti trattati con il farmaco
Pazienti di controllo
totale
totale
8040 40
25
55
10 15
30 25
deceduti
vivi
Tabella di contingenza 2 X 2Dati
osservati
deceduti
vivi
12.5
Pazienti trattati con il farmaco
Pazienti di controllo
totale
totale
8040 40
25
55
Tabella di contingenza 2 X 2Dati
attesi
12.5
27.527.5
χχχχ2= ΣΣΣΣi
(Oi - Ei)2
Eig
Test del
chi-quadrato
MARTA BLANGIARDO – TEST PER PROPORZION - 6.26
6. TEST PER PROPORZIONI6. CONFRONTO TRA PROPORZIONI DI DUE O PIÙ CAMPIONI INDIPENDENTI
Pazienti trattati con il farmaco
Pazienti di controllo
totale
totale
8040 40
25
55
10 15
30 25
deceduti
vivi
Dati osservati
Datiattesi
deceduti
vivi
12.5
Pazienti trattati con il farmaco
Pazienti di controllo
totale
totale
8040 40
25
55
12.5
27.527.5
χχχχ2= ΣΣΣΣi
(Oi - Ei)2
Eig
(15-12.5)2
12.5++
(30-27.5)2
27.5(25-27.5)2
27.5+ + = 1.45
(10-12.5)2
12.5= +
MARTA BLANGIARDO – TEST PER PROPORZION - 6.27
6. TEST PER PROPORZIONI
Distribuzione chi-quadrato
16.8114.4412.59
15.0912.8311.07
13.2811.149.49
11.349.347.81
9.217.385.99
6.635.023.84
0.010.0250.05
6
5
4
3
2
1
gdl
Chi quadro
…
…
…7.847.23
6.626.06
5.394.88
4.103.66
2.772.41
1.321.07
0.250.3
…
…
…
MARTA BLANGIARDO – TEST PER PROPORZION - 6.28
6. TEST PER PROPORZIONI
Valore empirico: χχχχ2=
11.45
6. CONFRONTO TRA PROPORZIONI DI DUE O PIÙ CAMPIONI INDIPENDENTI
Dovremmo accettare l’ipotesi nulla (p > 0.05): le due proporzioni non differiscono significativamente
Questa sperimentazione non offre sufficienti evidenze che il nuovo farmaco sia efficace nel
trattamento dell’infarto acuto
Perché 1 grado di libertà?
P-value =
0.2 < Pr(χχχχ22>1.45 sotto H0) < 0.25
> 0.05
MARTA BLANGIARDO – TEST PER PROPORZION - 6.29
6. TEST PER PROPORZIONI
Pazienti trattati con il farmaco
Pazienti di controllo
totale
totale
8040 40
25
55
10 15
30 25
deceduti
vivi
Dati osservati
Se si fissano i totali di riga e di colonna (marginali) mi basta inserire il valore diuna cella e le altre le trovo per differenza
Pazienti trattati con il farmaco
Pazienti di controllo
totale
totale
8040 40
25
55
deceduti
vivi
10
40-10=30 40-15=25
25-10=15
Quindi ho solo 1 grado di libertà
MARTA BLANGIARDO – TEST PER PROPORZION - 6.30
6. TEST PER PROPORZIONI
In una sperimentazione clinica tesa a valutare l’effetto di due nuovi farmaci (A e B) nel trattamento dell’infarto miocardico acuto, 90 pazienti furono assegnati casualmente al gruppo trattato con il farmaco A, al gruppo trattato con i l farmaco B o al placebo
Dopo 28 giorni dall’episodio di infarto (e dall’inizio dello specifico trattamento) 10 dei 30 pazienti trattati con il farmaco A, 5 dei 30 pazienti trattati con il farmaco B e 15 dei 30 pazienti trattati con placebo sono deceduti
6. CONFRONTO TRA PROPORZIONI DI DUE O PIÙ CAMPIONI INDIPENDENTI
deceduti
vivi
Tabella di contingenza 2 X 3
Questa sperimentazione offre sufficienti evidenze che i diversi trattamenti determinino diversi
effetti sulla sopravvivenza?
FarmacoA
totale
totale
9030 30
30
60
FarmacoB
Placebo
30
10 15
20 15
5
25
pA = 10 / 30 = = 0.333
pP = 15 / 30 = = 0.5
pB = 5 / 30 = = 0.167
MARTA BLANGIARDO – TEST PER PROPORZION - 6.31
6. TEST PER PROPORZIONI6. CONFRONTO TRA PROPORZIONI DI DUE O PIÙ CAMPIONI INDIPENDENTI
deceduti
vivi
Tabella di contingenza 2 X 3
FarmacoA
totale
totale
9030 30
30
60
FarmacoB
Placebo
30
10 15
20 15
5
25
pA = 10 / 30 = = 0.333
pP = 15 / 30 = = 0.500
pB = 5 / 30 = = 0.167
ππππA =
H0sotto:
ππππB ππππ= ππππp=
30/90=0.333
MARTA BLANGIARDO – TEST PER PROPORZION - 6.32
6. TEST PER PROPORZIONI6. CONFRONTO TRA PROPORZIONI DI DUE O PIÙ CAMPIONI INDIPENDENTI
deceduti
vivi
FarmacoA
totale
totale
9030 30
30
60
FarmacoB
Placebo
30
10 15
20 15
5
25
pA = 10 / 30 = 0.333
pP = 15 / 30 = 0.500
pB = 5 / 30 = 0.167
p = 30 / 90 = 0.333
Dati osservati
10
0.333 . 30 =
10
0.333 . 30 =
10
0.333 . 30 =
deceduti
vivi
FarmacoA
totale
totale
9030 30
30
60
FarmacoB
Placebo
30
Dati attesi sotto H 0
202020
MARTA BLANGIARDO – TEST PER PROPORZION - 6.33
6. TEST PER PROPORZIONI6. CONFRONTO TRA PROPORZIONI DI DUE O PIÙ CAMPIONI INDIPENDENTI
deceduti
vivi
FarmacoA
totale
totale
9030 30
30
60
FarmacoB
Placebo
30
10 15
20 15
5
25
Dati osservati
10 10 10deceduti
vivi
FarmacoA
totale
totale
9030 30
30
60
FarmacoB
Placebo
30
202020
Dati
attesi
= 6.11(Oi - Ei)2
Eig
χχχχ2= ΣΣΣΣi
2
MARTA BLANGIARDO – TEST PER PROPORZION - 6.34
6. TEST PER PROPORZIONI
Valore empirico: χχχχ2=
26.11
6. CONFRONTO TRA PROPORZIONI DI DUE O PIÙ CAMPIONI INDIPENDENTI
Dovremmo rigettare l’ipotesi nulla (p < 0.05): le tre proporzioni
differiscono significativamente
Questa sperimentazione offre sufficienti evidenze che il diverso trattamento determina diverse
mortalità nei pazienti con infarto acuto
Perché 2 gradi di libertà?
P-value =
0.025< Pr(χχχχ22222>6.11 sotto H 0) < 0.05
< 0.05
MARTA BLANGIARDO – TEST PER PROPORZION - 6.35
6. TEST PER PROPORZIONI
deceduti
vivi
FarmacoA
totale
totale
9030 30
30
60
FarmacoB
Placebo
30
10 15
20 15
5
25
Dati osservati
In questo caso una cella non è sufficiente per ottenere tutte le altre per differenza. Neservono 2
deceduti
vivi
FarmacoA
totale
totale
9030 30
30
60
FarmacoB
Placebo
30
10 30-10-5=15
30-10=20 30-15=15
5
30-5=25
Dati osservati
Quindi ho 2 gradi di libertà
In generale i gdl si ottengono come
(n.righe-1)*(n.colonne-1)
MARTA BLANGIARDO – TEST PER PROPORZION - 6.36
6. TEST PER PROPORZIONI
ESERCIZIO di RIEPILOGO 1
In una popolazione di bambini in etàprescolare si vuole verificare se la percentuale di bambini affetti da dislessiaè pari al 10%. Per questo motivo si estrae un campione di 200 bambini e si ottiene che quelli dislessici sono 40. Saggiare l’ipotesi nulla
Si vuole verificare se l’effetto di tre diete èequivalente nel ridurre il peso in una popolazione di bambini. A tal fine si estraggono 3 campioni di 20, 30 e 40 bambini e si assegna loro rispettivamente la dieta A, B e C. Definiamo che la dieta ha effetto se riduce il peso di almeno 5 Kg. Il numero di riduzioni di peso nei tre campioni è rispettivamente 10, 12 e 18
ESERCIZIO di RIEPILOGO 2
MARTA BLANGIARDO – TEST PER PROPORZION - 6.37
6. TEST PER PROPORZIONI
MARTA BLANGIARDO – TEST PER PROPORZION - 6.38
6. TEST PER PROPORZIONI
Si vuole verificare se l’effetto di tre diete èequivalente nel ridurre il peso in una popolazione di bambini. A tal fine si estraggono 3 campioni di 20, 30 e 40 bambini e si assegna loro rispettivamente la dieta A, B e C. Definiamo che la dieta ha effetto se riduce il peso di almeno 5 Kg. Il numero di riduzioni di peso nei tre campioni è rispettivamente 10, 12 e 18
ESERCIZIO di RIEPILOGO 2
MARTA BLANGIARDO – TEST PER PROPORZION - 6.39
6. TEST PER PROPORZIONI
3. Test per la bontà di adattamento di una distribuzione di probabilità ad una distribuzione empirica: il caso di probabilità teorica
Baccelli giallie rugosi
Baccelli verdi e lisci
9/163/163/161/16
Lisci e gialli (LG)
Rugosi e gialli (RG)
Lisci e verdi (LV)
Rugosi e verdi (RV)
Dalla teoria mendeliana:
MARTA BLANGIARDO – TEST PER PROPORZION - 6.40
6. TEST PER PROPORZIONI
9/163/163/161/16
Lisci e gialli (LG)
Rugosi e gialli (RG)
Lisci e verdi (LV)
Rugosi e verdi (RV)
Distribuzione teorica
Da un campione di 160 incroci si ottengonoi seguenti risultati:
9327328
Lisci e gialli (LG)
Rugosi e gialli (RG)
Lisci e verdi (LV)
Rugosi e verdi (RV)
N=160
I dati supportano la teoria mendeliana?
MARTA BLANGIARDO – TEST PER PROPORZION - 6.41
6. TEST PER PROPORZIONI
Vogliamo testare la seguente ipotesi
H0: p1=1/16, p2=3/16, p3=3/16, p4=9/16
Se H0 è vera:
90303010
LGRGLVRV
160. 116
=10 160.3
16=30 160. 9
16=90160.
3
16=30
Utilizziamo nuovamentre la statistica chi quadrato
χχχχ2= ΣΣΣΣi
(Oi - Ei)2
Eig
Test del
chi-quadrato
MARTA BLANGIARDO – TEST PER PROPORZION - 6.42
6. TEST PER PROPORZIONI
(32-30)2
30++
(27-30)2
30(93-90)2
90+ + = 0.93
(8-10)2
10= +
9327328
Lisci e gialli (LG)
Rugosi e gialli (RG)
Lisci e verdi (LV)
Rugosi e verdi (RV)
90303010
LGRGLVRV
Valori attesi sotto H0
Valori osservati
χχχχ32
I gradi di libertà sono ncat-1
(nel nostro caso 4-1=3)
MARTA BLANGIARDO – TEST PER PROPORZION - 6.43
6. TEST PER PROPORZIONI
Distribuzione chi-quadrato
4.57023.82763.07012.20416
3.65552.99992.34251.61035
2.75282.19471.64881.06364
1.86921.42371.00520.58443
1.02170.71330.44630.21072
0.27500.14850.06420.01581
0.60.70.80.9gdl
Il Pvalue è compreso tra questi due valori
P-value = Pr( χχχχ22223>0.93 sotto H 0) ≈ 0.85
> 0.05
Non abbiamo abbastanza evidenza per rifiutare H 0
MARTA BLANGIARDO – TEST PER PROPORZION - 6.44
6. TEST PER PROPORZIONI
4. Test per la bontà di adattamento di una distribuzione di probabilità ad una distribuzione empirica: il caso di probabilità stimata
Stima dei parametri della popolazionepartendo dai dati campionari
Assunzioni sulla forma delladistribuzione dei parametri
E’ utile verificare tali assunzioni valutandoquanto i valori osservati si discostano dalla
distribuzione teorica
Confronto tramite chi quadrato dellefrequenze osservate e attese sotto la
distribuzione teorica
MARTA BLANGIARDO – TEST PER PROPORZION - 6.45
6. TEST PER PROPORZIONI
Strategia:
1) Scelta della distribuzione di probabilitàadatta a descrivere il fenomeno in studio
2) Calcolo delle probabilità associate aivalori che la variabile in studio assume nel
campione
3) Calcolo delle frequenze attese πi.O
4) Valutazione tramite chi quadrato dellediscrepanze tra frequenze osservate (Oi)
ed attese πi.O
χχχχ2= ΣΣΣΣ (Oi – ππππi O)2
ππππi Og
MARTA BLANGIARDO – TEST PER PROPORZION - 6.46
6. TEST PER PROPORZIONI
Verifica dell’adattamento ad unadistribuzione Binomiale
Sono stati raccolti i dati relativi al numerodi figlie femmine in 103 famiglie di 4 figli. Il rapporto tra maschi e femmine è atteso di½:½.
Variabile casualedicotomica
Successo : figlia femmina
Variabile casuale teorica: Binomiale
X~Binom(n,p) X~Binom(4,0.5)
1) Scelta della distribuzione di probabilitàadatta a descrivere il fenomeno in studio
MARTA BLANGIARDO – TEST PER PROPORZION - 6.47
6. TEST PER PROPORZIONI
2) Sappiamo che πi=0.5 sotto H0
0
5
10
15
20
25
30
35
40
45
50
1 2 3 4 5
Osservati
11
19
44
24
5
Oi
0
1
2
3
4
X
Valori osservati nel campione
MARTA BLANGIARDO – TEST PER PROPORZION - 6.48
6. TEST PER PROPORZIONI
11
19
44
24
5
Oi
(1/2)4. (1/2)0 = 0.0625
4 . (1/2)3. (1/2)1 = 0.25
6. (1/2)2. (1/2)2 = 0.375
4. (1/2)1. (1/2)3 = 0.25
(1/2)4=0.0625
πi
0
1
2
3
4
X
3) Calcolo delle probabilità associate aivalori che la variabile in studio assume
nel campione
P(X=x) = 4
x 0.5x(1-0.5)4-x
MARTA BLANGIARDO – TEST PER PROPORZION - 6.49
6. TEST PER PROPORZIONI
4) Calcolo delle frequenze attese πi.O
11
19
44
24
5
Oi
(1/2)4. (1/2)0 = 0.0625
4 . (1/2)3. (1/2)1 = 0.25
6. (1/2)2. (1/2)2 = 0.375
4. (1/2)1. (1/2)3 = 0.25
(1/2)4=0.0625
πi
0.0625.103=6.44
0.25.103=25.75
0.375.103=38.62
0. 25.103=25.75
0.0625.103=6.44
πi.O
0
1
2
3
4
X
0
5
10
15
20
25
30
35
40
45
50
1 2 3 4 5
OsservatiAttesi
MARTA BLANGIARDO – TEST PER PROPORZION - 6.50
6. TEST PER PROPORZIONI
5) Valutazione tramite chi quadrato dellediscrepanze tra frequenze osservate (Oi)
ed attese πi.O
(24-25.75)2
25.75++
(44-38.62)2
38.62
(11-6.44)2
6.44+ = 6.191
(5-6.44)2
6.44=
(19-25.75)2
25.75+
χχχχ2= ΣΣΣΣ (Oi – ππππi O)2
ππππi Og
P-value = Pr( χχχχ22224>6.191 sotto H 0) ≈ 0.18
> 0.05
Il numero di gdl è ncat-1 = 5 - 1 = 4
Da excel:
=DISTRIB.CHI(6.191,4)
MARTA BLANGIARDO – TEST PER PROPORZION - 6.51
6. TEST PER PROPORZIONI
Possiamo concludere che la differenza tra la distribuzioneosservata e quella teorica(Binomiale di parametro 0.5 in 4 prove) non è significativa
MARTA BLANGIARDO – TEST PER PROPORZION - 6.52
6. TEST PER PROPORZIONI
Verifica dell’adattamento ad unadistribuzione Poisson
Si desidera conoscere la distribuzione diuna variante rara di una certa pianta in unadeterminata regione. Per fare cio’ la regione viene suddivisa in aree di ugualegrandezza e si conta il numero di elementidella variante in studio.
Variabile casualediscreta, ma NON dicotomica
EventoRARO
Variabile casuale teorica: Poisson
X~Poisson(λ)
1) Scelta della distribuzione di probabilitàadatta a descrivere il fenomeno in studio
MARTA BLANGIARDO – TEST PER PROPORZION - 6.53
6. TEST PER PROPORZIONI
Distribuzione Poisson
X~Poisson(λ)
Caratterizzata daun parametro
E(X) = λ
Var(X) = λ
E(X)=5
Var(X)=5
E(X)=3
Var(X)=3
X~Poisson(3)X~Poisson(5)
Distribuzone usataper gli eventi rari
MARTA BLANGIARDO – TEST PER PROPORZION - 6.54
6. TEST PER PROPORZIONI
2) Non conosciamo i valori di πi nellapopolazione: dobbiamo stimarli
13
0
13
34
39
Oi
0
1
2
>3
X
Valori osservati nel campione
0
5
10
15
20
25
30
35
40
45
0 1 2 3Osservati
MARTA BLANGIARDO – TEST PER PROPORZION - 6.55
6. TEST PER PROPORZIONI
2) Non conosciamo i valori di πi nellapopolazione: dobbiamo stimarli
Una stima di λ è
x (media campionaria):
ΣxiOi
ΣOix =
x = 39 . 0 + 34 . 1 + 13 . 2 + 1 . 3 = 0.7241
87
X~Poisson(0.7241)
MARTA BLANGIARDO – TEST PER PROPORZION - 6.56
6. TEST PER PROPORZIONI
e-0.7241.(0.7241)3/6=0.030613
0
13
34
39
Oi
1-0.4847- 0.3510-0.1271-0.0306 = 0.0065
e-0.7241.(0.7241)2/2=0.1271
e-0.7241.(0.7241)1 = 0.3510
e-0.7241=0.4847
πi
0
1
2
>3
X
3) Calcolo delle probabilità associate aivalori che la variabile in studio assume
nel campione
X~Poisson(0.7241)
P(X=x) = λλλλx e-λλλλ
x!
0.72410 e-0.7241
0!=1
MARTA BLANGIARDO – TEST PER PROPORZION - 6.57
6. TEST PER PROPORZIONI
4) Calcolo delle frequenze attese πi.O
0
1
13
34
39
Oi
1-0.4847- 0.3510-0.1271-0.0306 = 0.0065
e-0.7241.
(0.7241)3/6=0.0306
e-0.7241.
(0.7241)2/2=0.1271
e-0.7241.(0.7241)1 = 0.3510
e-0.7241=0.4847
πi
0.0625. 87=0.54
0.0306. 87=2.66
0.1271. 87=11.06
0.3510. 87=30.54
0.4847.87=42.17
πi.O
0
1
2
3
>3
X
0
5
10
15
20
25
30
35
40
45
0 1 2 3 >3OsservatiAttesi
MARTA BLANGIARDO – TEST PER PROPORZION - 6.58
6. TEST PER PROPORZIONI
5) Valutazione tramite chi quadrato dellediscrepanze tra frequenze osservate (Oi) ed attese πi.n (o pi.n se i parametri sono
ignoti nella popolazione)
(34-30.54)2
30.54++
(13-11.06)2
11.06
(0-0.54)2
0.54+ = 2.5095
(39-42.17)2
42.17=
(1-2.66)2
2.66+
χχχχ2= ΣΣΣΣ (Oi – ππππi O)2
ππππi Og
P-value = Pr( χχχχ22223>2.5094 sotto H 0) ≈ 0.47
> 0.05
Il numero di gdl è n.cat-2 = 5 - 2 = 3
Da excel:
=DISTRIB.CHI(2.5094,3)
MARTA BLANGIARDO – TEST PER PROPORZION - 6.59
6. TEST PER PROPORZIONI
Possiamo concludere che la differenza tra la distribuzioneosservata e quella teorica(Poisson di parametro 0.7241) non è significativa
PROBLEMA: come mai abiamo usatoun chi quadro con 3 gradi di libertà?
Il numero di gdl è n.cat-2 = 5 - 2 = 3
???
MARTA BLANGIARDO – TEST PER PROPORZION - 6.60
6. TEST PER PROPORZIONI
Abbiamo visto precedentemente che i gradi di libertà erano calcolati come
•N.obs-1 (nel caso della T di Student)
•N.cat-1
•(n.righe-1)(n.col-1)
Nel caso del chi quadro
In questo caso abbiamo un ulteriore vincolodato dal fatto che DOBBIAMO stimare λtramite i dati campionari (y). Quindi:
1. ΣOi=O
2. ΣxiOi= y
ΣOi
gdl = n.cat - 2
Una regola universale: il numero di gradi di libertà èsempre uguale al numero di osservazioni MENO il
numero di relazioni tra le osservazioni che abbiamo la necessità di ottenere
MARTA BLANGIARDO – TEST PER PROPORZION - 6.61
6. TEST PER PROPORZIONI
Verifica dell’adattamento ad unadistribuzione Normale
In un campione di piante da fiore vienemisurata la lunghezza della corolla (in mm); si desidera conoscere la sua distribuzione.
Variabile casualecontinua
Ci si aspettasimmetrianelladistribuzione
Variabile casuale teorica: Normale
X~N(µ,σ2)
1) Scelta della distribuzione di probabilitàadatta a descrivere il fenomeno in studio
2
2
2
)(
22
1)( σ
µ−−⋅
πσ=
x
exf
MARTA BLANGIARDO – TEST PER PROPORZION - 6.62
6. TEST PER PROPORZIONI
X~N(µ,σ2)2
2
2
)(
22
1)( σ
µ−−⋅
πσ=
x
exf
Standardizzazione
Z~N(0,1)2
2
2
1)(
z
ezf−
⋅π
=
Per standardizzare devo stimare µ e σ2 dalcampione:
µ ΣxiOi
ΣOix =
σ2Σ(xi-x)2Oi
(ΣOi)-1s2 =
= 67.45
= 8.6136
MARTA BLANGIARDO – TEST PER PROPORZION - 6.63
6. TEST PER PROPORZIONI
Distribuzione normale standardizzata
0
1
z
Verifica dell’adattamento ad unadistribuzione Normale
1. Suddividere l’intero campo di variazionein intervalli. E’ conveniente che il valorecentrale sia un numero intero.
2. Calcolare la frequenza osservata in ogniclasse
73
70
67
64
61
(xa+xb)/2
2768.5-|71.5
8
42
18
5
Oi
59.5-|62.5
62.5-|65.5
65.5-|68.5
71.5-|74.5
xa -| xb
MARTA BLANGIARDO – TEST PER PROPORZION - 6.64
6. TEST PER PROPORZIONI
3. Standardizzare usando l’estremosuperiore di ogni classe
8
27
42
18
5
Oi
73
70
67
64
61
(xa+xb)/2
1.3868.5-|71.5
oo
0.36
-0.66
-1.69
z
59.5-|62.5
62.5-|65.5
65.5-|68.5
71.5-|74.5
xa -| xb
2
2
2
1)(
z
ezf−
⋅π
=
62.5-67.45
2.93
MARTA BLANGIARDO – TEST PER PROPORZION - 6.65
6. TEST PER PROPORZIONI
4. Determinare la funzione cumulata I corrispondenza dei limiti superiori di ogniclasse (per l’ultima classe porre=1)
oo
1.38
0.36
-0.66
-1.69
z
8
27
42
18
5
Oi
73
70
67
64
61
(xa+xb)/2
0.912668.5-|71.5
1.0000
0.6406
0.2546
0.0455
Fi
59.5-|62.5
62.5-|65.5
65.5-|68.5
71.5-|74.5
xa -| xb
Usando le tavole
MARTA BLANGIARDO – TEST PER PROPORZION - 6.66
6. TEST PER PROPORZIONI
5. Per differenze determinare le frequenzeattese relative πi
1.0000
0.9126
0.6406
0.2546
0.0455
Fi
oo
1.38
0.36
-0.66
-1.69
z
8
27
42
18
5
Oi
73
70
67
64
61
(xa+xb)/2
0.275668.5-|71.5
0.0838
0.3860
0.2091
0.0455
πi
59.5-|62.5
62.5-|65.5
65.5-|68.5
71.5-|74.5
xa -| xb
Fi – Fi-1
MARTA BLANGIARDO – TEST PER PROPORZION - 6.67
6. TEST PER PROPORZIONI
6. Calcolare le frequenze attese πiO
0.0838
0.2756
0.3860
0.2091
0.0455
πi
1.0000
0.9126
0.6406
0.2546
0.0455
Fi
oo
1.38
0.36
-0.66
-1.69
z
8
27
42
18
5
Oi
73
70
67
64
61
(xa+xb)/2
27.5668.5-|71.5
8.38
38.60
20.91
4.55
πiO
59.5-|62.5
62.5-|65.5
65.5-|68.5
71.5-|74.5
xa -| xb20
MARTA BLANGIARDO – TEST PER PROPORZION - 6.68
6. TEST PER PROPORZIONI
(18-20.91)2
20.91++
(42-38.60)2
38.60
(8-8.38)2
8.38+ = 0.777
(5-4.55)2
4.55=
(27-27.56)2
27.56+
χχχχ2= ΣΣΣΣ (Oi – ππππi O)2
ππππi Og
Il numero di gdl è n.cat-3 = 5 - 3 = 2
Da excel:
=DISTRIB.CHI(2.5094,2)
6. Confrontare le frequenze osservate e attese tramite il chi quadro
P-value = Pr( χχχχ22222>0.777 sotto H 0) ≈ 0.67
> 0.05
MARTA BLANGIARDO – TEST PER PROPORZION - 6.69
6. TEST PER PROPORZIONI
Possiamo concludere che la differenza tra la distribuzioneosservata e quella teorica(Normale di parametri µ=67.45 e σ=2.93) non è significativa