old.iss.itold.iss.it/binary/publ/cont/pag1_321rapporto84_20.pdf · nominali, scale ordinali, scale...

319

Upload: lenga

Post on 18-Feb-2019

270 views

Category:

Documents


0 download

TRANSCRIPT

6

Un disegno dell'inchiesta con il relativo piano di campionamen-

to (quando l'inchiesta campionaria), se correttamente formulati,

contengono gi le scelte per le tecniche statistiche da utilizzare

nella fase descrittiva e per quelle relative alle stime e ai testa di

ipo~esi da applicare quando si intenda giungere ad una decisione.

L'indagine statistica risulta determinata, per quanto riguarda

l'analisi dei dati, nel momento in cui programmata: resta soltanto

da raccogliere i dati.

Il contributo dello statistico nella programmazione di una

inchiesta quindi quello di mettere a disposizione dell 'Opera:tore

gli aspetti tecnici della teoria statistica, ~nendogli una chiara e

quanto pi preci sa possibile programmazione del l inchiesta. Impone

cio all'operatore di spiegare chiaramente perch si appresta a

realizzare 1 1 inchiesta, a giustificare la scelta .delle variabili che

vuole rilevare ed eventualmente confrontare, a dimensionare l'inchie-

sta e a difendere la sua richiesta che le inferenze desumibili dallo

studio siano sufficientemente precise e che i risulati siano perti-

nenti alle domande che si posto.

La dettagliata descrizione dell'inchiesta e dei suoi obiettivi

pu essere raggiunta mettendo per iscritto le caratteristiche dell'in-

chiesta stessa {cio con la stesura di un protocollo formale):

l) definizione degli obiettivi che si vogliono raggiungere (pochi: ta-

l.ora inchieste concepite. come "multipurpose" non danno alcun ri-

sultato valido};

2) formalizzazione dell'inchiesta {variabili da raccogliere, fattori

di rischio allo studio, definizione della popolazione bersaglio e

campionabile, dimensione del Campione o della popolazione);

3) definizione del metodo di analisi dei risultati e degli strumenti

di raccolta, registrazione e codifica.

Gli obiettivi devono essere chiari e specifici evitando sia

vaghezza e ambiguit sia eccessiva ambizione (tenendo quindi sempre

presente la fattibilit dell'inchiesta rispetto alle ipotesi formula-

te).

Altri punti importanti sono: definire l'ordine di priorit de-

gli obiettivi stessi e la popolazione sulla quale si intende fare

l'inferenza.

' l

7

Nella scelta delle variabili importante definirle chiaramente

in relazione al ruolo che ognuna deve avere ai fini del raggiungimento

degli obiettivi dell'inchiesta.

I risultati forniti da un esperimento o dal! 'osservazione dei

fenomeni chiaramente sempre diversi l'uno dall'altro, risentono non

solo della condizione sperimentale (dose di un farmaco, classi di et,

sesso, mansione) cui appartengono, ma anche di vari,azioni di fattori

non controllati o non controllabili che tendono a mascherare gli ef-

fetti considerati e quindi comportano un errore.

Sono distinguibili tre tipi fondamenta~! di errore:

1) errori grossolani;

2) errori sistematici;

j) errori casuali.

Nei capitoli seguenti si discuteranno strategie atte ad af-

frontare questi tipi di errore.

Alla luce di quanto detto, si pu ora iniziare l'esame delle

pi comuni tecniche di statistica descrittiva. Per una discussione

pi approfondita del ruolo della statistica nella pianificazione di

studi e indagini si rinvia a G.A. Maccacaro (in Biometria, a cura

di Salvi e Chiandotto, Piccin 1978, pagg. XIX- XXVII).

1.2. SCALE DI MISURA

Il processo di osservazione scientifica sempre seguito da un

processo di classificazione che consiste $emplicemente nel raggruppare

le ~ifestazionidei. fen~ni ~eco0do una o pi caratteristiche e nel deidere quali di esse devono considerarsi uguali e quali divers~. Per

poter far ci evidente che prima stata fatta una scelta della sca-

la di misura e unit di misura. Ma la classificazione non fatta sol-

tanto secondo la scala di misura, ma anche secondo l'ampiezza di va-

riabilit. Infatti 1 1 insieme di tutte le possibili osservazioni (ad

ognuna delle quali associato un valore) viene considerato discreto

se costituito da un numero finito o da un numero infinito, ma nume-

rabile di unit; viene invece considerato continuo se costituito da

un numero infinito e non numerabile di-unit.

8

E' utile in primo luogo distinguere tra due tipi di osservazio-

ni, le qualitative e le quantitative. Le prime sono quelle non carat-

terizzate da una grandezza numerica, ad esempio: il sesso, la mansio-

ne, morte o sopravvivenza, la residenza. Le seconde, invece, sono ca-

ratterizzate da grandezze numeriche, es.: numero di batteri trovato in

campioni d 'acqua, numero di globuli rossi per cc di sangue, misure di

funzionalit respiratoria, valori di piombemia.

Per ci che riguarda l'operazione di classificazione delle uni-

t di osservazione secondo una scala di misura si tende generalmente a

distinguere quattro diversi livelli di misurazione: si parla di scale

nominali, scale ordinali, scale di intervallo e scale razionali o di

rapporto. La misura , quindi, il processo di "mappatura" o di asse-

gnazione di numeri ad oggett~ o osservazioni (corrispondenza a codifi-

ca). Il tipo di misura funzione delle regole sotto le quali i numeri

vengono assegnati. Le operazioni e le relazioni usate nell'ottenere

valori -definiscono e limitano le manipolazioni e le operazioni che so-

no permesse nel maneggiare i valori stessi; le manipolazioni e le ope-

razioni, infatti, devono essere quella della struttura numerica a cui

la misura isomorfa.

1.2.1. Scala nominale o classificatoria

E' il pi semplice livello di misurazione. La raccolta dei dati

relativi alle scale nominali consiste nell'effettuare conteggi, cio . . - . . nel r1conoscere la presenza o assenza di una modalit discreta (carat-. teristica) di una variabile,

DEFINIZIONE. Numeri o altri simboli vengono usati semplicemente per

identificare i gruppi a cui i vari oggetti appartengono (codifica);

vedi esempio. Tali numeri o simboli costituiscono una scala nominale.

PROPRIETA' FORMALI. Le classi definite (modalit) devono essere mutua-

mente esclusive in quanto ciascuna osservazione deve appartenere solo

ad una delle possibili categorie. L'unica relazione valida la rela-

zione di equivalenza del tipo cio: A=B oppure A#B. Questa relazione

gode della propriet riflessiva, simmetrica e transitiva. Infatti

9

. riflessiva in quanto A=A; simmetrica dato che se A=B anche B=A ed

transitiva poich se A=B e A=C anche B=C.

OPERAZIONI AMMISSIBILI. La scala invariante rispetto a trasformazio-

ni del tipo "1 a 1", ad es. chiamare "a" tutti i "b" e viceversa.

ESEMPIO. Classificazione di una popolazione in base al gruppo sangui-

gno (sistema ABO):

A

B

AB

o

1.2.2. Scala ordinale o per ranghi

DEFINIZIONE. Gli oggetti appartenenti ad una categoria in una scala

ordinale non differiscono semplicemente dagli oggetti di altre catego-

rie ma possibile stabilire una relazione tra di essi del tipo pi

grande, pi preferito, pi difficile etc

E' possibile stabilire l'ammontare del carattere posseduto, ma non

possibile esprimere il rapporto fra quantit, cio non possibile

esprimere: A + B = C e A/B = C/O.

PROPRIETA' FORMALI. Per le scale ordinali oltre alla relazione di

equivalenza, vale anche la relaZione di "maggiore di" (A>B), tale re-

lazione ovviamente non riflessiva, antisimmetrica (se: A> B,

allora: BB e B>C, si ha: A>C).

' OPERAZIONI AMMISSIBILI. Una scala ordinale invariante rispetto a

trasformazioni monotone, cio trasformazioni che non cambiano l'ordine

delle classi.

ESEMPIO. Valutazione radiologica della silicosi:

a) non segni

b) minimi segni

c) 1/1P

d) 1/2P

e) 2/2P

1

2

3

4

5

9

B

7

6

5

f) 2/3P

g) 3/3P

h) x/xP

i) ABC

1.2.3. Scala intervallare

10

6

7

8

9

4

3

2

1

DEFINZIONE. E' la prima scala quantitativa. Ha tut~e le caratteristi-

che della scala ordinale ed in pi vi definita la distanza tra due

numeri. Una scala intervallare car~tterizzata da una comune e co-

stante unit di misura che assegna UN NUMERO REALE ad ogni coppia di

oggetti in un insieme ordinato.

In una scala intervallare il rapporto tra due intervalli. indipen-

dente dall'unit di misura e dal punto zero, mentre dipendente da

essi il rapportO fra due punti.

PROPRIETA' FORMALI. Le distanze nella scala sono isomorfe alla strut-

tura dell'aritmetica. Possono essere associati numeri alle posizioni

degli oggetti in una scala intervallare, in modo tale che le opera-

zioni dell'aritmetica possano essere effettuate sulle differenze tra

questi numeri.

OPERAZIONI AMMISSI.BILI. La .scala intervallare invariante rispetto

a trasformazini del tipo: y = ax+b.

ESEMPIO. Misura della temperatura.

I gradi centigradi e quelli Fahrenheit rappresentano misure interval-

lari della temperatura: sono diversi l'unit di misura ed il punto o, ma il rapporto tra le differenze di lettura di due temperature in una

scala uguale al rapporto tra la differenza delle letture delle stes-

se temperature nell'altra scala. Infatti i rapporti fra due distanze

della scala sono indipendenti dalle unit di misura.

3oc - 10C 10C - oc = 2 =

la legge di trasformazione del tipo:

86"'F - 50"'F soF - 32"F

l C= 59 ( F- 32).

11

1.2.4. Scala di rapporti

DEFINIZIONE. Ha tutte le caratteristiche di una scala intervallare ed

ha un punto zero vero come origine. I rapporti tra due punti della

scala sono indipendenti dall'unit di misura. PU essere discreta o

continua. E' quella definita comunemente quantitativa.

PROPRIE'!' A' FORMALI. Le operazioni e le relazioni che danno luogo a

valori numerici in una scala di rapporti sono tali che la scala iso-

morfa alla struttura dell'aritmetica. Cio le operazioni aritmetiche

sono permesse per i valori numerici assegnati agli oggetti stessi.

OPERAZIONI AMMISSIBILI. I numeri associati ad una scala di rapporti

.sono veri numeri con uno zero vero, solo l'unit di misura arbitra-

ria. La scala razionale invariarite rispetto a trasformazioni del

tipo: y = ax. I rapporti tra due numeri qualsiasi, in altre parole, sono conserva-

ti quando i valori della scala sono tutti moltiplic.ati per una co-

stante positiva, il che corrisponde al cambiamento di unit di misura.

ESEMPIO. Statura di un individuo espressa in centimetri. (cm) o in

pollici (inch).

65 inch 1 inch "" 65 c

165.1 cm 2.54 cm

La legge di trasformazione del tipo:

Y"" ax infatti: cm= inch Z.54.

12

1. 3 o ANALISI DESCRITTIVA DEI DATI

L'informazione numerica contenuta in un insieme di dati pu es-

sere descritta abbastanza sinteticamente con la costruzione e rappre-

sentazione grafica di un distribuzione di frequenza. Sostanzialmente

una distribuzione di frequenza una tabella che indica il numero del-

le osservazioni o frequenze per ogni valore della variabile compreso

in un certo ambito di variabilit.

Per variabili i cui valori sono classificati secondo una scala

discreta {nominale o ordinale), si pu tabulare la frequenza in cor-

rispondenza di ogni categoria considerata, eventualmente raggruppando

le categorie secondo un criterio logico se esistono problemi di nume-

rosit nelle categorie.

Per variabili i cui valori sono invece classificati secondo

una scala continua (intervallare o di rapporti) chiaro che occorre

formare opportune classi suddividendo l'intervallo di variabilit in

intervalli di classe e. calcolare la frequenza delle misure in ciascun

intervallo. Di fatto ogni volta che si conduce una misurazione con uno

strumento noi stessi suddividiamo l'intervallo di variabilit in in-

tervalli di classe" tanto pi piccoli, quanto pi grande il potere di

risolUzione dello strument-o e viceversa. L'intervallo di classe di una

distribuzione di frequenza ,deve, per tale motivo, essere sicuramente

pi ampio del potere di risoluzione dello strumento. Le distribuzioni

di frequenza cos costruite possono essere rappresentate visivamente

tramite istogrammi. Per convenzione si riportano i valOri della varia-

bile sull'asse Orizzontale e le frequenze di ogni valore o di ogni

classe su quello verticale.

Se la variabile discreta e non raggruppata in classi, le

frequenze sono rappresentate con linee verticali; se e raggruppata in classi, con rettangoli la cui base coincide con gli intervalli di

classe. Se l'ampiezza dell'intervallo uguale in tutte le classi le

frequenze sono proporzionali sia alle aree che alle altezze del ret-

tangolo, altrimenti lo sono alle aree e non alle altezze.

Questo tipo di rappresentazione offre la possibilit di co-

gliere tendenze e confronti _spesso pi facilmente di un esame detta-

gliato dei corrispondenti dati numerici o di una distribuzione di

b

13

frequenza fornita in forma di tabella. Il passaggio dai dati tabulati

alle distribuzioni di frequenza in forma di tabelle e in forma grafica

comporta d'altra parte una perdita di dettaglio ed ovvio che per fa-

re esami critici e confronti validi bisogner fare riferimento ai dati

numerici di partenza.

La frequenza in una distribuzioqe, e in un istogramma si pu

esprimere non solo come valore assoluto ma anche come frequenza rela-

tiva (p'ercentuale sulla frequenza totale": n/N).

Nella frequenza cumulativa invece si considera la frequenza

relativa delle osservazioni che hanno valori minori o uguali al valore

considerato.

Esistono, inoltre, altri tipi di rappresentazioni grafiche riassuntive dei dati di partenza (diagrammi a barre, circolari, linea-

ri, piramidi delle et) che non riportiamo in questa sede, ma la cui

conoscenza e costruzione facilita molto la descrizione visiva di un

fenomeno.

In modo pi sintetico 1 1 informazione pu essere espressa me-

diante singole misure che si dividono in due grandi categorie: misure

di tandenza centrale (esse danno un'idea di dove l'insieme delle os-

servazioni si colloca nell'ambito di tutti i valori possibili) e mi-

sure di dispersione (che danno, invece, un'idea di quanto le osser-

vazioni siano diverse fra loro). Al fine di ccll-atteriz'zare una di-

stribuzione di frequenza dei dati indispensabile considerare entram-

bi i tipi di misure.

Pu infatti accadere di incontrare 2 distribuzioni con medie

uguali e deviazioni standard diverse o viceversa, come si evidenzia

dalla Fig. 1.1 (le procedure di calcolo della deviazione standard ver-

ranno introdotte nel par. 1.3.2).

ESEMPIO: Controllo della precisione di uno spirometro eseguito sui

valori di prove simulate in giorn~ diversi, segnale di 4 l. i

4 3.78 4.08 4.06

4.04 4.10 ,. giorno 3.96 2. giorno 3.60 3.96 4.44

4 4.02

x = 4.0067

s 1 = 0.0002187 s = 0.04676

14

x = 4.0

5 Z= 0.0832

s = 0.2884

Esistono, inoltre, misure di asimmetria e di concentrazione (skewness

e curtosi), che .caratterizzano la forma delle distribuzioni, esse sono

misure relative in quanto fanno riferimento alla curva normale o di

Gauss.

1.3.1. Misure di tendenza centrale

Vengono sotto definite le pi usate:

MEDIA ARITMETICA. E' data dalla somma di tutte le osservazioni divisa

per il numero di osservazioni:

)C. '

LA MEDIANA. E' l'osservazione di mezzo, quando le osservazioni sono

disposte in ordine crescente o decrescente di grandezza; molto uti-

le nei casi in cui si ha a che fare con una distribuzione molto asim-. . . metrica, poich la presenza di pochi valori molto alti o molto bassi

influenza la media, rendendola poco descrittiva dell'insieme dei da-

ti.

LA MODA. Valore della variabile per il quale la curva di frequenza

raggiunge un picco, ovvero il valore Poco usata in statistica analitica.

che ricorre pi 'frequentemente;

ESEMPIO. giorni di assenza dal~avoro per malattia di 19 lavoratori:

1, 10, 8, 6, 7, 6, 38, 2, 4, 1, 3, BO, 6, 4, 2, 5, 4, 6, 3. .. . Ordinandt! dal valore pi piccolo a quello pi grande: t

1, 1, 2, 2, 3, 3, 4, 4, 4, 5, 6, 6, 6, 6, 7, 8, 10, 38, so. Media aritmetica: 10.32

Mediana

Moda

5

6 \

15

Distribuzione di frequenza assoluta, relativa e cumulativa.

N. giorni

1

2

3

4

5

6

7

8

10

38

80

f. assoluta

2

2

2

3

1

4

1

1

1

1

1

19

Raggruppando in classi si ha:

1-5

6-10

11-15

) 15

f. assoluta

10

7

2

19

f. relativa

10.53

10.53

10.53

15.79

5.26

21.05

5.26

5.26

5.26

5.26

5.26

100.00

f. relativa

52.63

36.84

10.53

100.00

f. cumulativa

10.53

21.06

31.59

47.38

52.64

73.69

78.95

84.21

89.47

94.73

100.00

f. cumulativa

52.63

89.47

89.47

100.00

MEDIA GEOMETRICA. Molto usata nelle ricerche di microbiologia, sierOT

logia e chimica clinica dove le distribuzioni possono avere marcate

asimmetrie positive dovute al crescere degli intervalli fra i passi-

bili valori. Il valore alto della variabile incide proporzionalmente

in misura minore se si usa la media geometrica:

"...-------, x.,: '{>

16

Il logaritmo della media geometrica corrisponde alla media aritmetica

dei logaritmi dei dati:

ESEMPIO. In una serie di valori del tipo:

1 2 4 6 16 32 64 128 256 512 1024

x= (1+2+4+ + 1024)/11 = 2047/11 = 186.09

Med. "" 32

Hr-----~ >( .. = v~ 2 ..... 1024 = 32.

ESEMPIO. I 115 valori relativi a dati di polverosit in una miniera

presentano il valore minimo di 0.04 e il valore massimo di 9.07 con

una distribuzione fortemente asimmetrica e media pari a 1.13 mg/mc.

essa infatti risente dei pochi valori molto alti, la mediana inve-

ce: 0,71 mg/mc.

4D "l .. t l ft A "' ... " ".l

..... ..... .... t ' " 1t .. o

o 5 IO """1.'"'.

La media geometrica uguale a 0.63 mg/mc ed sicuramente pi rappre-

sentativa come misura di tendenza centrale.

Come si pu notare dagli esempi la media geometrica molto vicina

alla mediana o coincide con essa.

l '

l l

17

1.3.2. Misure di dispersione

Esse svolgono un ruolo importante nella descrizione sintetica

di una serie di dati, ed anche nella metodologia dell'inferenza stati-

stica che sar sviluppata pi avanti. Le pi usate sono:

INTERVALLO DI VARIAZIONE. E 1 dato dalla differenza fra il valore

massimo e il valore minimo, e fornisce un'informazione sulla gamma di

valori su cui si distribuisce la variabile. Questo indice ovviamente

influenzato dai valori estremi, che sono pi soggetti a errore casuale

e sistematico o addirittura grossolano e quindi possono differire in

maniera rilevante anche in due studi condotti in condizioni simili.

Inoltre, l'intervallo di variazione non fornisce notizie sul modo in

cui i dati sono disposti nella regione centrale della distribuzione.

DISTANZA INTERQUARTILE. E' un indice che viene calcolato dopo avere

ordinato i dati in ordine crescente, si individua un quartile infe-

riore (primo quartile) 1 cio il valore al di sotto del quale cade

1/4 (25%) delle osservazioni, ed un quartile superiore (terzo quarti-

le), valore al di sopra del quale cade 1/4 (25%) delle osservazioni.

I due quartili individuano la ragione entro cui si trova la met (il

50%) dei dati; la differenza tra i valori del quartile superiore e

del quartile inferiore la distanza interquartile. E' un indice e-.

stensibile alla sequenza delle osservazioni e non risente molto del~

l'effetto di valori estremi. E' interessante notare che il 2 quartile

la mediana, valore al di sotto e al di sopra del quale cadono il 50%

delle osservazioni.

DEviANZA. Se si ha una serie di misure x1

, x2

, . , xn' la distan-

za di ogni xi dalla media aritmetica, (x1

- Xl, rappresenta una misura della dispersione dei dati: queste distanze (deviazioni) crescono in-

fatti al crescere della dispersione dei dati intorno alla media. La

media di queste deviazioni sempre nulla per la Propriet Centrale

della Media (la somma algebrica di tutte le deviazioni della media

uguale a zero) quindi si utilizzano i loro quadrati e si calcola la

devianza: ~

Dx = f;1

(x- i

18

Ai fini dell'effettuazione dei calcoli, si utilizza di solito la far-

mula: ~ ~ t ~

.D x z. l ( f;, x') ' t ..-x;.) (;I(~+Xt+"'~ = x, ' (x, .. x, .. ~-t "-

.....

~

Z.x z cio si eleva al quadrato la somma dei dati (, , .... ) , la si divide .. , per il numero dei dati stessi e si ottiene ' 1'

.

19

La variabilit risulta, dunque, assente, in quanto l'unica osservazio-

ne disponibile non pu ovviamente differire da se stessa. se, invece,

si considera l'osservazione come un campione di Una popolazione pi

ampia si verifica:

2 s = (50 - 50)

2

1 - 1

o indeterminato =-=

o Un'osservazione sola, !~fatti, non pu fornire nessuna informazione

sulla variabilit della popolazione di provenienza.

DEVIAZIONE STANDARD. La varianza espressa in termini di quadrati .

dell'unit di misura originaria: per ritornare ad essa se ne estrae la

radice quadrata.

ESEMPIO. I dati

DS = s "" " relativi ad un campione di 307 sogget~i sottoposti a

prove spirometriche per la determinazione del VEMS sono rappresentati

sinteticamente dalla distribuzione di frequenza riportata nel grafico

schematizzato qui di seguito.

Le misure sono di tipo continuo ed espresse in cc; la media aritmetica

3135 cc, i valori massimo e minimo sono rispettivamente 5140 e 270

(intervallo di variazione 4870}. La distanza interquartile vale 415,la

devianza 125337.600, la varianza 409.600 e la deviazione standard 640.

o

. ~ . ' n -.:

'"" '"""'' '... "''J'l1:11 'l XJ.J.1'C11o$:lSI ~:C: '&ll'ISIJ*l'-2. l S.'CJI: J'l:l'i.1'1:t.~

' '''"**~~~~ '*''''''*'~, ~ s '"'''~,,~rJs~~~Y

.J Jt.'S.j.Q11$J:S11.S.iSJJ. ~ ~1 IJtta~'ili~S~~~~sss,s J ' 5~~1*CSJ,'fS.Sit.S~JIJ$Ss-J

-' .

20

COEFFICIENTE DI VARIAZIONE. E' un indice di variabilit relativo. in

quanto espresSo dal rapporto tra il valore di un indice assoluto di

variabilit (la deviazione standard) ed il valore medio della ~tessa

distribuzione {comunemente lo si esprime in percento):

CV= s

o 100 x

L'uso di questo indice di dispersione pu essere necessario nel caso

in cui si debbano confrontare le variabilit relative a distribuzioni

che:

1) sono espresse in unit di misura diverse;

2) hanno medie diverse;

Il coefficiente di variazione, molto usato in chimica clinica, non ha

dimensione fisica, e si dice essere un numero puro.

ESEMPIO. Si abbia una serie di misure di glicemia, con un valore medio

di 100 mg/dl e con una s=S, e una serie di misure di calcemia, con un

valore medio di 10 mg/dl e s=S. Si evidenzia che nonostante gli indici

di variabilit assoluti siano identici i CV sono molto diversi:

5 cv: .. = -- 100 = 5% ~ 100

; 5 CVca = -- 100 = 50%

IO

un CV del 50% ben diverso da uno del 5%! Questo significa che la

variabilit proporzionale della glicemia inferiore a quello della

calcemia.

Ognuno degli indici fin qui considerati pu essere calcolato anche se

non si dispone di dati disaggregati ma di distribuzioni di frequenza.

Le formule di calcolo relative sono riportate in tutti i testi di Sta-

tistica. In tal caso si possono introdurre nei calcoli errori dovuti

al fatto che si attribuiscono a tutte le osservazioni di una classe

il valore centrale della classe stessa, se la distribuzione asimme-

trica.

21

2. DISTRIBUZIONI DI PROBABILITA'

2.1. DEFINIZIONI DI PROBABILITA'

Si ricorre utilmente a modelli probabilistici quando si consi-

derano esperimenti il cui risultato non sia determinabile a priori in modo univoco. La probabilit una quantit numerica intesa a rappre-

sentare l'intensit della aspettativa di ogni particolare risultato .

ESEMPIO. Gi prima di aver determinato il gruppo sanguigno di un sog-

getto, la conoscenza della popolazione da cui egli proviene consente

di formulare previsioni probabilisticqe su quale sar il suo gruppo,

assumendo randomizzazione.

Lanciando in aria una moneta Si pu ottenere Testa (T) oppure

Croce (C}; se si ripete la prova pi volte si pu ottenere la seguen-

te successione: CCTCTTCTCCCTTTTCTC.

Sequenze di questo tipo sono chiamate serie casuali: ogni posizione

della sequenza un esperimento o prova ed ogni risultato un evento.

Le principali definizioni di probabilit possono essere cosi

sch~camente riassunte:

Definizione "classica" (probabilit matematica); la probabilit

di un evento data dal rapporto fra il numero di risultati della

prova in cui l'evento si verifica e il numero complessivo di risul-

tati possibili.

ESEMPIO: nel lancio di un dado, la probabilit del risultato "4"

uguale a 1/6 (ovvero 0.17 o 17't) perch il dado ha 6 facce e su

una sola compare il "4".

Definizione "frequentista": la probabilit di un evento data

dall~ sua frequenza media osservata in una serie illimitata di ri-

petizioni di una prova.

ESEMPIO: immaginiamo di lanciare una moneta innumerevoli volte: ci

accorgeremo che all'aumentare del numero delle volte la frequenza

22

relativa dell'evento Testa (T), oppure dell'evento croce (C), ten-

der al valore: 1/2. E' quindi ragionevole assegnare all'evento T

nel lancio di una moneta (regolare e simmetrica) la probabilit di

1/2.

Definizine "soggettiva'': la probabilit di un evento rappresenta il

grado soggettivo di fiducia accordato al verificarsi dell'evento

stesso. Si tratta dell'espressione sintetica, in forma -numerica

di una nostra valutazione anche molto complessa. Si pu descrivere

il meccanismo nel caso della scommessa: la probabilit dell'evento

~ data dal rapporto fra la cifra c~e accettiamo di puntare sull'e-

vento e la cifra che guadagnetemo in caso di successo. Nel caso di

1:1 p=l/2; se 1:3 pcl/4, etc.

ESEMPIO: se ci viene proposta una scommessa in cui puntiamo 1000

lire sul "4", sapendo che in caso di successo ne incassiamo 6000

(vincita: incasso- posta), e noi riteniamo tale situazione ugual-

mente accettabile per il giocatore o per il banco, vuol dire che

(i-n base ad una serie di informazioni di cui disponiamo) , attri-

buiamo a quel risultato una probabilit proprio di 1000/6000, cio

1/6. E' verosimile che se l'incasso fosse 5000 lire, preferiremmo

essere il banco, e se fosse 7000 lire, preferiremmo essere giocato-

re.

Deriva da queste definizioni che il ragionamento probabilist~o

di tipo matematico pu essere applicato solo a fenomeni di cui si co-

noscano sufficientemente bene i meccanismi per postulare l'equiproba-

bilit degli eventi che ne sono alla base e per conoscere tutti i pqs-

sibili risultati, come il gioco dei dadi e delle carte, la segretazio-

ne degli omozigoti recessivi nell'incrocio di due eterozigoti, la fre-

quenza di mani di bridge dello stesso seme.

La definizione "frequentista11 ha un pi vasto campo di applica-

zione, in quanto riferibile a fenomeni di cui si possono ignorare i

meccanismi, purch sia pensabile la loro ripetizione in una sequenza

sufficientemente lunga di prove analoghe.

23

La definizione di proQabilit "soggettiva" ha un'applicabilit

ancora pi vasta, perch non richiede ne' una conoscenza dei meccani-

smi elementari dei fenomeni, ne' una loro ripetibilit, ma solo di

sintetizzare tutte le informazioni che si hanno e, a quella luce, cer-

care di immaginare in quali condizioni ci si sentirebbe ugualmente

tranquilli nel ruolo del giocatore e del banco. Fenomeni che possono

essere affrontati anche in questi termini sono i risulati di una con-

sultazione elettorale (ad es. quanti voti prenderanno i Democratici

nello Stato del New York alle elezioni presidenziali di un determinato

anno, alla luce dei problemi locali, dei problemi degli USA in genere

e della situazione internazionale}, l'esito di un incontro di calcio

(come si concluder un campionato di calcio alla luce dei risultati

del campionato dell'anno preceden'te, degli acquisti di giocatori fatti

dalle varie squadre, delle condizioni psico-fisiche dei giocatori,

della presenza/assenza di alcuni elementi nelle varie partite), la

sorte di una vicenda individuale (riuscir ognuno di noi prima della

fine del mese ad ottenere un aumento di stipendio; riuscir Tizio a

trovare una casa; riuscir Caio a partire per una vacanza con la per-

sona amata, etc.), lo stabilire quale probabilit esiste che omero sia

stato un personaggio storico. Considerazioni frequentiste entrano, co-

me naturale, in un modello soggettivo.

In una situazione relativamente semplice, come il lancio del

dado, tutte e tre le definizioni erano applicabili e, come si vi-

sto, si arrivava a conclusioni analoghe, anche se per strade diverse.

In un modello probabilistico, dunque, si considera l'insieme

dei possibili risulta.ti di una prova, e si definiscono quelli fra di

loro che rappresentano il "successo". La probabilit dell'evento

data dalla somma delle probabilit dei risultati che implicano il ve-

rificarsi del successo:

ESEMPIO, nel lancio del dado se si definisce come successo "uscita di

un numero pari 11 , la probabilit di tale evento sar la somma delle

probabilit associate a "2", "4" e "6", cio 1/6 + 1/6 + 1/6 "" 1/2.

(come meglio spiegato nel par. 2.1.1.).

24

2.1.1. cenni di calcolo delle probabilit

Questo paragrafo stato inserito solo per un veloce richiamo

al calcolo delle probabilit, ma, per una trattazione esauriente, si

raccomanda la lettura di 'Statistica Medica', P.Arm!tage, 1975, Fel-

trinelli, pagg. 53-60.

Gettando Un dado, a priori, si possono considerare possibili

i 6 risultati espressi dai numeri da 1 a 6; chiaro che, eseguita la

prova, uno ed uno solo di questi deve realizzarsi. Questi 6 risultati

vengono chiamati eventi elementari (o semplici) e ad ognuno di essi

vitme assegnata una particolare probabilit sulla base di considera-

zioni matematiche, frequentiate o sO;ggettive. Quindi, indipendentemen-

te dalla teoria delle probabilit seguita, una volta assegnate delle

misure di probabilit a determinati eventi, possibile che la proba-

bilit di tutti gli altri eventi venga calcolata semplicemente per

via matematica (calcolo delle probabilit). Dal punto di vista mate-

matico una distribuZi!';:me di probabilit una funzione definita sul-

l' insieme di tutti i possibili risultati di una prova e con valo;-i

che vanno da O a 1.

Esistono 3 regole fondamentali nel calcolo delle probabilit.

1) La probabilit d1 ogni evento (evento=uscita del numero 6) com-

presa tra zero e uno; 1 1 evento impossibile (evento=uscita del nu-

mero 8) ba probabilit zero, mentre l'evento certo (evento=uscita

di uno qualsiasi dei numeri tra 1 e 6) ha probabilit uno.

2) Quando si assegna una distribuzione di probabilit si sottintende

una certa quantit di informazione sulla prova in questione. Ora,

mentre le probabilit degli eventi non cambiano, pu verificarsi

che gli stati di informazione evolvano via via che si generano di-

verse distribuzioni di probabilit.

Infatti la probabilit di un evento pu essere subordinata (modi-

ficata oppure no) dal fatto che si verificato un altro evento;

ed essa si chiama probabilit condizionata: quale la probabili-

t di A dato che si verificato B (Pr{A)\B).

Se A e B sono eventi indipendenti chiaro che la probabilit di

A non cambia:

25

Pr (A\8) = Pr (A) eventi indipendenti Se sono dipendenti:

Pr (A\8) = Pr (A e B)

Pr (B)

cio: la probabilit di A dato B uguale alla probabilit che si

verifichino sia A che B diviso la probabilit di B .

3) vengono chiamate probabilit composte quelle probabilit assegnate

ad eventi composti, cio a combinazioni di eventi come A e B oppure

A o B.

Pr (A e B) = probabilit che A e B si verifichino contemporaneamen-

te.

Se A e B sono mutuamente esclusivi: Pr (A e B) = O

Se A e B sono indipendenti:

Pr (A e B)= Pr (A)Pr (B)

Se non sono disgiunti:

Pr {A e B) = Pr (AiB) Pr (B)

Pr (A o B) = probabilit che si verifichi A o B oppure tutti e due. Se A e B sono mutuamente esclusivi:

Pr (A e B) = Pr (A) + Pr (B) Se non lo sono:

Pr (A o B) = Pr (A) + Pr (B) - Pr (A e B)

2.2. VARIABILI CASUALI

Definita una variabile, supponiamo "somma dei punteggi di due

dati lanciati contemporaneamente", possiamo studiare la probabilit

associata ai diversi valori che essa pu assumere.

La relazione per cui si assegna una certa probabilit ad ogni

valore che la variabile pu assumere rappresenta la distribuzione di

probabiit della variabile. La seguente tabella mostra la distribu-

zione di probabilit della variabile "somma dei punteggi di due dadi

lanciati contemporaneamente".

26 l l

DADO- l Dl\DO 2 SOMMA Dl\DO l DADO 2 SCMMA

l l 2 4 l 5

l 2 3 4 2 6

l 3 4 4 3 7

l 4 5 4 4 8

l 5 6 4 5 9

l 6 7 4 6 IO

2 l 3 5. l 6

2 2 . 4 5 2 7

2 3 5 5 3 8

2 4 6 5 4 9

2 5 7 5 5 IO i '~ 2 6 8 5 6 Il

3 l 4 6 l 7

3 2 5 6 2 8

3 3 6 6 3 9

3 4 7 6 4 IO

3 5 8 6 5 Il

3 6 9 6 6 12

EVENTO PROBABILITA' PROBABILITA 1 C~OSTO CUMULATIVA

(somma dei punteggi)

"2" 1/36 1/36

"3" 2/36 3/36

"4" 3/36 6/36

"5" 4/36 10/36

"6" 5/36 15/36

"7" . 6/36 21/36

"8" 5/36 26/36

"9" 4/36 30/36

"lO" 3/36 33/36

"11" 2/36 35/36

"12" 1/36 36/36

27

una variabile casuale una variabile ai cui valori associata

una probabilit.

ESEMPIO. Il punteggio "2" compare una volta in 36 possibili risultati

(probabilit: 1/36); il punteggio "6" (evento composto) compare 5 vol-

te (probabilit: 5/36); punteggi uguali o minori di 6 (evento compo-

sto di eventi composti) compaiono 15 volte (probabilit cumulativa:

15/36). Il punteggio "l" non compare mai {probabilit: Q); punteggi u-

guali o minori di 12 compaiono 36 volte (probabilit cumulativa:

36/36 = 1).

-A !;!Copo di esercizio si provi a costruire la distribuizione

di probabilit della variabile "prodotto dei punteggi di due dadi lan-

ciati contemporaneamente", completando la tabella seguente:

DADO 1

1

1

1

1

EVENTO COMPOSTO

(prodot.dei punteggi)

"2"

"3"

"4"

DADO 2

1

2

3

4

PR.BABILITA 1

1/36

2/36

2/36

....

. . . .

PRODOI'TO

1

2

3

PROBABILITA' CUMULATIVA

1/36

3/36

5/36

. ...

Analogamente a quanto visto per le distribuzioni di frequenza,

una distribuzione di probabilit pu essere descritta graficamente,

su un piano cartesiano, riportando sull'asse delle ascisse i valori

della variabile e sull'asse delle ordinate le probabilit o le proba-

bilit cumulative.

28

ESEMPIO. Riferendosi ai dati della tabella precedente, si ottengono i

grafici riportati nella fig. 2.1 e nella fig. 2.2.

Le variabili casuali sono dette "discrete" se, come nell'esem-

pio dei dadi sono indiv!duabili 2a 3, n. risultati distinti. Al

Umite, si pu anche avere un numero infinito di risultati distinti,

ad es. numeri interi divisibili per 7.

Le variabili casuali sono dette "continue" se possono assumere

qualsiasi valore compreso in un dato intervallo, ad es. tutti i va-

lori di statura compresi fra cm. 150.00000 e cm. 200.00000 In

questi casi, la distribuzione di probabilit viene costruita non sulla

base di tutti i singoli risultati, ma attraverso una funzione che as-

segna probabilit ad intervalli di valori della variabile. Cosi, nel

caso della statura, si pu valutare quale sia la probabilit di osser-

vare un soggetto di statura compresa fra cm. 169,5 e cm. 170,5, oppure

fra 169.99 e 170.01, etc. {il _che corrisponde a ciO che si fa misuran-

do). L'ampiezza degli intervalli pu diminuire al crescere della sen-

sibilit dello strumento usato. Se si costruiscono intervalli molto

stretti, in base a misurazioni molto precise, ad es. con 10 cifre si-gnificative, la probabilit che i soggetti cadano in simili intervalli

piuttosto bassa, tendente a O al diminuire dell'ampiezza dell'inter-

vallo. In conclusione anche quando la variabile misurata per sua na-

tura continua (come nel caso della statura), vengono di fatto utiliz-

zate misure di intervalli di questa variabile, e ad esse si assegnano

valori definiti di probabilit.

Nell'esame delle variabili casuali si introducono delle gran-

dezze che forniscono sinteticamente un'informazione sul comportamento

delle variabili, in termini di probabilit. Si tratta delle stesse

grandezze usate per descrivere le distribuzioni di frequenza, alle

quali viene ora assegnato un significato pi complesso.

La media aritmetica rappresenta il valore "atteso" di una va-

riabile casuale. In termini intuitivi, nel caso di una distribuzione

di probabilit gaussiana rappresenta il parametro di tendenza centra-

le, cio quel valore che rit~niamo pi probabile trovare quando effet-

29

tuiamo una prova (misura) , in quanto coincide anche con la moda (oltre

che con la mediana).

Meno intuitivo il caso di una distribuzione non gaussiana. L'attesa,

in generale, quel valore tale per cui, chiamati ad attribuire un

valore all'oscuro e giudicati in base all'entit dello scostamento dal

valore "vero", se usiamo la media, vinciamo.

Il valore medio di una variabile casuale discreta si calcola,

se x una variabile che assume valori x1

, x2

,

t P1

, P2

, P3 :

E (xl ... Z: >l'- 9''-'

ESEMPIO: Valore medio del lancio di un dado:

0.167 l = 0.167

0.167. 2 - 0.333 0.167 3 = 0.501

0.167. 4 = 0.668 0.167. 5 = 0,835 0.167. 6 = !,002 1.000 3.510

. . . . x n con probabili-

30

Nel caso di una variabile casuale continua la procedura non

cambia se non per il fatto che, data la natura dei dati si deve far '

ricorso al calcolo infinitesimale:

"' E (x) = /__ >< ... La varianza, che fornisce informazioni sulla dispersione di una

distribuzione, cio sulla distanza media dei valori della variabile

dalla loro media, consente di effettuare valutazioni sulla probabilit

associata a tal:1. valori nel caso di una gaussiana. La radice quadrata

della v,arianza la deviazione standard.

La varianza di una variabile aleatoria definita da:

2 E (x-E (x) )

sviluppo della formula vista nel paragrafo 1.3.2.

2 .. - 2/ s =t::. {x. - x) n '- , La distinzione tra il denominatore n e n-1 nel caso di una di-

stribuzione di probabilit diventa inutile dato che n effettivamente

infinito.

Nel caso di distribuzioni continue:

1.;"' t ()'" (>

31

d. gaussiana paramet~ir e l"

d. binomiale parametri n e !t

d. poissoniana parametro >.

d. log.normale parametri rrit e l>,.

Si riporteranno, infine, la distribuzione di probabilit dei

' valori della statistica t di Student e del Jt.

2.3. DISTRIBUZIONE BINOMIALE

La distribuzione binomiale si riferisce a variabili con due so-

li possibili valori (eventi dicotomici), del tipo "presente/assente".

Se in una popolazione costituita.da n elementi, n1 presentano una cer-

ta caratteristica C, e n2

non la presentano (n1

+ n2

=n), la probabi-

lit di osservare un elemento con C alla prima estrazione oppure sem-

pre, se consideriamo la reintroduzione, :

e la probabilit di trovare r elementi con c in n osservazioni data

da o

( ~) r n-r [ ] r p(r) "" r P (1-p) ""nl/r! (n-r) l p . (l-p) n-r

ESEMPIO:

La probabilit di ottenere 11 testa" lanciando una moneta p-0.5.

Qual-~ la probabilit, in 10 lanci, di ottenere O, 1, 2, 3, 4, S, 6,

7, 8, 9 e 10 teste? (In altre parole, calcolare la distribuzione di

probabilit della variabile "numero di teste in 10 lanci di moneta").

Si applica la formula suindicata; nel primo caso r=1, nel secondo

r==2 etc. n sempre uguale a 10, p e 1-p sono uguali a 0.5. L'espres-

sione nl significa "n fattoriale", cio n (n-1) (n-2)... 2 1.

Eseguendo i calcoli, si trova la seguente distribuzione di probabili-

t:

o l

2

3

p

0.001

0.010

0.044

0.117

r

4

5

6

7

32

p

0.205

0.246

0.205

0.117

r

8

9

IO

p

0.044

0.010

0.001

Se p c 1-p = 0.5, come nell'esempio considerato, la distribu-zione binomiale simmetrica. Se p) 0.5 oppure p< 0.5, la distribu-

zione asimmetrica, ma tende alla simmetria al crescere di n.

Applicazioni della distribuzione binomiale verranno esaminate

nel cap.S sui test statistici. Per ora consideriamo solo le procedure

per calcolare media e varianza. Queste misure sono i parameti della

binomiale quando la si pu approssimare ad una gaussiana, cio quan-

do pn>5 e/o p ";l! (l -p).

Questa distribuzione, dato un particolare n, simmetrica se

p = 1/2 e se, dato un particolare valore di p, cresce il valore di n. Media: jA = E(x) = z-x:~f..:."" np

't. L 2 2 varianza: l= E(x-E(x)) = E(x -r> = np(l-i'p) Nell'esempio prec~~dente,f

33

"numero di tumori pol.monari comparsi in un tempo in una popolazione",

"nUDlero di pezzi difettosi prodotti in un tempo in un'industria".

In ognuna di queste situazioni il modello contempla degli eventi di-

stribuiti a caso con densit per unit di lungl)ezza (area, volume

0 tempo); il numero di eventi trovati in un certo spazio di osser-

vazione (superficie, volume o tempo) seguir la distribuzione di Pois-

son con parametro oppure A

' " t

Nella distribuzione di Poisson, la probabilit di trovare r

eventi in 00 prove data da: , -r

p(r} = r e /rl dove: e la base dei logaritmi naturali,,.. , la me-dia, uguale a np.

La varianza di una distribuzione di Poisson uguale alla me-

dia.

ESEMPIO: In una popolazione un tipo di tumore ha un'incidenza di

1/tci5 per anno. In un gruppo di addetti a una lavorazione, costituito

da 1. 000 persone, compaiono due casi di questo tumore in 10 anni. Ci

si chiede qual la probabilit di osservare 2 eventi dove se ne

aspetterebbero (1/105 ) 104 = 0.1 (104 dato dal prodotto di 1.000 persone per 10 anni; si tratta pertanto di 10.000 persone anno).

2 ~O.i. p(2) = 0.1 e /21 = 0.0045 Analogamente a quanto visto per la distribuzione binomiale, si

possono costruire distribuzioni di probabilit basate sulla poissonia-

na per calcolare le probabilit associate alla com~arsa di 1,2, DQ

eventi in un certo spazio di osservazione.

2. 5. LA DISTRIBUZIONE NORMALE

La distribuzione normale, o di Gauss, descrive il comportamen-

to di vriabili casuali continue sulle quali operano contemporaneamen-

te diverse fonti di variazioni, ciascuna con eguale influenza, positi-

va o negativa e operanti indipendentemente l'una dall'altra.

34

Segue la distribuzione normale la variabile "misure ripetute di

una stessa grandezza": se si misura uno stesso individuo unit con lo

stesso strumento e lo stesso metodo molte volte consecutive, i dati si

disporranno intorno alla loro media secondo una curva detta "a campa-

na", dove la probabilit di un valore decresce simmetricamente allon-

tanandosi dalla media verso i valori alti e verso i valori bassi. La

deviazione standard rappresenta nella distribuzione normale l~ distan-

za fra la media e il punto di flesso della curva, come mostrato nella

figura 2.3. Media e deviazione standard rappresentano i parametri del-

la distribuzione.

La distribuzione normale seguita da diverse variabili di in-

teresse biologico, per esempio le variabili antropometriche, come la

statura, che SOno l.rifluenzat contenlporaneamerite da fattori genetici,

ambientali, alimentari etc., tendono a distribuirsi nelle popolazioni

secondo la curva di Gauss.

Dato che la distribuzione normale si riferisce a variabili con-

tinue, le probabilit vengono riferite a intervalli di valori della

variabile. La probabilit associata ad es. allo intervallo compreso

fra i valori x1

e x2

si calcola come differenza fra 1 e la somma

delle probabilit associate agli intervalli da - oo a x1

e da x2

a

+00 (vedi fig. 2.4); cio:

Queste vengono ricavate attraverso la formula:

Nella pratica, sono disponibili tavole che forniscono diretta-

mente tali valori, Per utilizzare queste tavole, occorre in primo luo-

go trasformare la variabile originaria x nella sua "deviata normale

standardizzata":

35

dover la media e ()' la deviazione standard della distribuzione.

La trasformazione consiste in una traslazione dell'asse y e nel cam-

biamento della scala di misura, per cui la nuova variabile z ha media

o e deviazione standard 1. Le tavole della distribuzione normale so-

no riportate in Appendice (tavola 1).

La fig. 2.3 mostra una distribuzione normale relativa a una

variabile x e alla sua deviata normale standardizzata z.

ESEMPIO

Si ha una distribuzione normale con media 110 e deviazione

standard 12. Qual' la probabifit di trovare un valore maggiore di

130?

Si calcola il valore di z corrispondente a x= 130:

z = (130-110)/12 = 20/12 = 1.67

In base alle tavole, se z = 1.67, la probabilit di un valore maggiore o uguale p = 0.048.

Se la domanda fosse stata: qual' la probabilit di trovare un valore

compreso fra 125 e 130 (vedi fig. 2.5), si sarebbero calcolati i valo-

ri di z corrispondenti ai due valori:

z 130 == 1.67

z 125 = 1.25

La probabilit associata all'intervallo da-~ a 125 :

1 - 0.106 = 0.894;

e quella associata all'intervallo da 130 a+~ : 0.048.

Quindi la probabilit' che z cada tra 1.25 e 1.67 :

p(125,130) = 1- (0.896 + 0.048) == 0.058

Dal punto di vista operativo, utilizzando la Tavola 1 allegata;

quando i 2 valori si trovano entrambi a destra o a sinistra della me-

dia, si pu direttamente fare la sottrazione delle probabilit asso-

ciate ai valori di z.

p(130) = 0.048; p(125) = 0.106

36

la _probabilit di trovare valori compresi tra 125 e 130 di 0.058,

cio del 5.8%.

p(125-130) 0.106- 0.048. 0.058

, ESEMPIO

A partire dalla distribuzione dell 1 esempio precedente, qual

la probabilit di trovare un valore compreso fra 100 e 120? (Vedi

fig. 2.6).

z100 = -0.83 p (100) 0.203

0.83 p(120) 0.203

p(100-120) 1- (0.203 + 0.203) 0.594

La probabilit dei val.ori compresi fra 100 e 120 di 0.594, cio del

59.4%.

Osservando le tavole si nota che nella regione compresa fra la

media e +1 deviazione standard (z = 1) compreso il 34.1 + 34.1 =

= 68.2% della distribuzione. Fra la media e + 2 deviazioni standard compreso il 95.4% delle osservazioni, fra la media e + 3 deviazioni standard il 99.8%.

La conoscenza della distribuzione normale permette di calcolare

la probabilit di valori appartenenti a distribuzioni in accordo con

essa. E' ad esempio molto importante che diverse "statistiche", come

il valer medio aritmetico di un gruppo di dati, la proporzione di sog-

getti con una caratteristica, il coefficiente di regressione e altre,

seguano la distribuzione normale, anche se le variabili originarie cui

37

esse si riferiscono non la seguono. Le applicazioni di questo fatto

risulteranno chiare nel cap.3 sulla stima dei parametri e nel cap. 5

sui test statistici,

~ 2.6. DISTRIBUZIONE DI l

Abbiamo visto che z la deviata standardizzata corrispondente

alla variabile x trasformata, cio:

e che ad essa associata una distribuzione di probabilit tabulata

nella Tavola 1.

Consideriamo ora la variabile casuale:

osserveremo che essa sempre non negativa e che segue una distribu-<

zione comunemente chiauiata 'X.. con un grado di libert (1 gl), tabulata nella prima riga della Tavola 4.

L'attesa (il valore medio) di questa distribuzione :

e la varianza : 2.

Siano x1

e x2

due osservazioni indipendenti della variabiJ.e

casuale x; possiamo considerare una seconda variabile casuale:

'Xt =(x,.,..)~ ("-t~)' t ~' + ~<

t Questa variabile segue una distribuzione nota come 7( con 2 gl,

a t necessariamente non negativa e tabulata nella 2 riga della Tavola 4.

c La variabile?( la somma di 2 osservazioni indipendenti quindi

L il suo valore medio :

38

Nello stesso modo per un campione di n osservazioni indipenden-

ti:

con:'E-(X1n.) =n, la variabile segue una

t distribuzione X.. con n gl.

. 2 La distribuzione di X. con 1 gl presenta una forte asimmetria

positiva. L'asimmetria tende a diminuire nelle curve con un n~ero via

via maggiore di gl, e le curve si avvicinano alla distribuzione no~&-

le.

La varianza, in generale, 2 gl.

2. 1. LA DISTRIBUZIONE t DI STUDENT

2 Le distribuzicmi _!, come quelle del X , formano una famiglia i

cui elementi sono contraddistinti dal valore dei gradi di libert

(gl) o

La variabile .! si ottiene quando, data una variabile x con di-stribuzione normale, media t" e varianza incognita, si usa la trasfor-ma'zione:

dove s una stima (ottenuta dal campione in esame} della deviazione

standard G' (incognita) della popolazione, indipendente da x. La forma della distribuzione sempre simmetrica e differisce

dalla curva normale per una pi accentuata concavit in corrispondenza

dei punti di flesso.

La variabile t segue una distribuzione simile a quella di z a

condizione che il numero dei gl sia sufficientemente grande, dato che

in questo caso s una buona stima di ~. per effetto del campionamen-

te.

Per gl comunque superiori a 30, t si avvicina molto alla di-

stribuzione normale standardizzata (z) .

Per gl =o" OC i valori tabulati coincidono con quelli della di-

stribuzione z.

p(>') "fy.

~

'Yl'

'W.

'fy.

~

o " .. c; FIG'-' .... H

IO 12 x

Ol~rAt&""l.to..,e; ... f'otoe,.#fi,&\LI r~>o"

b iO,+ 2 0,?> e ~,, - ' .. ~ 0,1 i o

- -1

39

p(x.)

!!'o/ ~~o !P/Y.

24jl1>$ ""'"""""T'hl ... di Pllo~l.~r~r.. ~

Variabile originaria, x

_, o 1 3

fiGU .... 2.3 La Pl,.iA.I.&U~""'- HOA.rtA.Uio

40

x2 x x Figuro 2.

41

3. POPOLAZIONE E CAMPIONE

3.1. PREMESSA

Una popolazione viene intesa come l'insieme di tutte le possibili

osservazioni relative ad una variabile; me~tre un campione uno dei possi-

bili sottoinsiemi delle possibili osservazioni di individui della popola-

zione come si evidenzia dalla fig. 3.1.

Per gli aspetti tecnici della procedura di campionamento (tipi di

campioni, numerosit etc.) si rimanda al paragrafo 3.2. Qui si vogliono

sottolineare i seguenti 2 punti:

l) il diverso ruolo della procedura di campionamento nella interpretazione

dei risultati a seconda che si segue una impostazione "frequentista" o

una "soggetti va" ;

2) la distinzione tra un campionamento effettivo e uno simulato.

Per quanto riguarda il primo punto secondo la concezione "soggetti-

va" le informazioni disponibili a priori sul fenomeno in esame hanno un

ruolo essenziale sia nella progettazione dell'indagine sia nella interpre-

tazione dei risultati. Infatti un buon piano di campionamento deve essere

definito in relazione sia al fenomeno in esame sia alle informazioni su di

esso disponibili e non bisogna affidarsi semplicemente ad una casualizza-

zione generale.

Le informazioni non sperimentali giocano, inoltre, un ruolo essen-

ziale nella interpretazione dei risultati e questo ruolo tanto pi grande

quanto pi conosciuto il fenomeno. Solo nel caso in cui quest'ultimo

sconosciuto si accetta una conclusione induttiva in cui, cio, il grosso

della informazione disponibile rappresentata dal campione in esame.

Nella concezione frequentista, invece, se si accetta un ruolo delle

informazi~ni a priori nell'impostazione dell'indagine, esse non giocano

pi alcun ruolo nella interpretazione dei risultati, almeno da un punto di

vista puramente matematico (risultati, livelli di significativit). I ri-

sultati ottenuti dal campione vengono estesi alla popolazione {da cui . .

42

tratto il campione stesso) e la loro attendibilit basata solo su di un

corretto piano di campionamento e sull'errore campionario comunque sempre

associato ad ogni misura effettuata su un campione di osservazioni.

Anche nella metodologia di tale scuola, comunque, vengono fatte del-

le scelte, non esplicitate, che equivalgono ad opzioni soggettive e che,

consentono di risolvere problemi, dal punto di vista matematico, che altri-

menti resterebbero senza soluzioni (indeterminati).

Un esempio di tali scelte l'affermazione: "Due eventi de~lo stesso

tipo in identiche condizioni per tutte le circostanze rilevanti sono'

uguali' ed hanno quindi necessariamente la stessa probabilit'".

E' evidente che questa una scelta che rende possibile la tratta-

zione con matematica elementare dei dati, infatti due eventi distinti sono

sempre diversi tra loro per infinite circostanze ed essi sono egualmente

probabili (per noi) se e poich giudichiamo che le differenze riscontrabili

fra di loro non influiscono sul nostro giudizio. (Rif. bibl. De Finetti B.

Teoria della probabilit. Sintesi introduttiva con appendice critica. Tori-

no, G. Einaudi 1970) .

In entrambe le impostazioni, comunque, l'aumentare della numerosit

del campione migliora il procesSo di conoscenza della popolazione di

partenza.

Per quanto riguarda il secondo punto c' da osservare che spesso

nelle applicazioni della statistica medica le "popolazioni" sono definite

in modo del tutto astratto come ad esempio "la popolazione degli infortuni

sul lavoro" e spesso non esiste nessuna reale "estrazione" di un campione

da tale popolazione. In realt quando lavoriamo sui dati ricavati da 6

operai infortunati sul lavoro noi non abbiamo estratto nessun campione, ma

abbiamo eseguito una osservazione e questa viene considerata come un

campione delle infinite osservazioni a priori possibili di "numero di

operai infortunati sul lavoro".

,Anche questa scelta (considerare campione random una osservazione)

motivata dal fatto di semplificare le procedure di calcolo e di poter

applicare la teoria probabilistica.

Sintetizzando: il campionamento pu essere:

Effettivo Tecniche per studiare una popolazione REALE considerando solo

una data proporzione dei suoi individui (campioni random, stra-

tificati, etc.).

43

Trattamento dei dati relativi ad una popolazione unica anche se

non bene definita COME SE tali dati di riferissero ad una prova

aell 'interno di un gran numero di PROVE RIPEI'UTE per poter fru.!_

re delle procedure di calcolo offerte dalla teoria campionaria.

I paragrafi che seguono cercheranno di chiarire gli aspetti tecnici

della procedura di campionamento, i principi su cui si basa la teoria cam-

tr~ia e come essa venga utilizzata nelle procedure di stima intervallare.

fi, .

~3.2. INCHIESTE E CAMPIONl\MENrO 1. Perch fare un'inchiesta?

Avete una domanda a cui rispondere e non c' !lOdo migliore per ottenere

l'informazione. Un'inchiesta comporta roolto lavoro e non dovrebbe mai

essere usata quando l'informazione puO essere meglio ottenuta altri-

menti.

2. Quali sono i due tipi di inchiesta?

~l.

a. censimento - ogni elemento della popolazione viene incluso.

b. Inchiesta campionaria - solo una porzione della popol. azione bersa-

glio viene selezionata.

cosa si intende per campionamento?

Una procedura mediante la quale alcuni membri di una popolazione vengono

selezionati come rappresentativi dell'intera popolazione. L'obiettivo

di fare osservazioni o misure su questi membri e trarre conclusioni ri-

guardanti l'intera popolazione.

Il campionamento non la mera selezione e indagine di una porzione dei

membri di una poPJlazione come un sostitutivo per tutti i membri. E', in-

vece, l'applicazione della teoria delle probabilit per acquisire un di-

mostrabile grado di affidabilit o protezione, e fare ci al minimo co-

sto.

44

4. Quali sono i vantaggi del campionamento?

a. Vantaggio principale - Ci permette di conoscere qualcosa di una

grande popolazione con bassi costi e in minor tempo.

b. Consente una misura dell'entit dell'errore introdotto con il no-

stro processo di campio~amenta.

E' vero che o~ni stima ottenuta da un campione soggetta ad errore.

Comunque, anche vero che usualmente ogni stima ottenuta da un'in-

tera popolazione anche soggetta a errori (di misura o mancate ri-

sposte.

c. Usualmente permette di ottenere un'informazione pi accurata.

Con pochi affidabili investigatori addestrati che lavorano su un

campione della popolazione, appropriamente selezionato, noi'possiamo

usualmente ottenere un'informazione pi accurata di quanto sarebbe

possibile con un pi grande numero di investigatori meno addestrati

che lavorassero su tutti gli individui della popolazione. L' espe-

rienza ha mostrato che con sufficienti risorse concentrate su un

relativamente pi piccolo campione l'aumento dell'errore campionario

dovuto alla limitatezza del campione pu essere pi che compensato

dalla riduzione di altre sorgenti di errore come la mancata risposta

o cattive misure.

d. Fornisce informazioni altrimenti impossibili da ottenere.

S. Quali sono i criteri per un buon piano di campionamento?

a. Il pi alto grado di precisione per i fondi disponibili (efficienza)

b.. Specificare 1 1 entit dell'errore campionario che siete disposti ad

. accettare (vedi paragrafi seguenti) in modo tale che sia possibile

in seguito calcolare l'errore campionario. Questo possibile solo

quando il campione progettato secondo definite procedure statisti-

che.

c. Considerare la grandezza degli errori per altre cause e provvedere

per essi.

d. Lo schema del campionamento deve essere attuabile. La teoria del

campionamento e la pratica devono essere compatibili.

45

6. cosa determina la dimensione del campione?

La dimensione del campione deve essere sufficiente per realizzare lo

scopo ma non dovrebbe essere pi grande del necessario o diventa !nu-

ti! e.

I seguenti criteri determinano la dimensione del campione:

a. Il livello di confidenza e la precisione desiderata

b. La variabilit della caratteristica"nella popolazione bersaglio -

se sconosciuta, dovete assumere la pi grande variabilit compatibi-

le con il fenomeno in esame.

c. La numerosit della popolazione bersaglio.

La seguente formula pu essere usata nella determinazione della grandez-

za del campione, qualora si sia interessati ad una variabile del tip:>

presente/assente:

n "" t2pq

d2

dove n = prima stima della dimensione del campione

Quindi --'n'----nf= l + n

N

dove

t = livello di confidenza (per il 95% usate

1.96; vedi par. seg.

d= precisione (.05 o .10 usualmente)

p = proporzione di individui nella popolazione

bersaglio oon le caratteristiche da misura-

re (se sconosciuto porre p= 0.5}.

q = l - p

= dimensione finale del campione

= dimensione della popolazione bersaglio

Quindi nf deve essere verificato per vedere se consistente oon le ri-

sorse disponibili per ottenere il campione. Questo richiede una previ-

sione dei costi, del lavoro, del tempo e dei materiali necessari per

ottenere la dimensione del campione proposta. Talvolta succede che nf

deve essere drasticamente ridotto. Se ci avviene, deve essere presa una

difficile decisione - se procedere con una pi piccola dimensione del

campione, riducendo cosi la precisione, o ahbanadonare il lavoro finch

si rendapo disponibili pi risorse.

Se la variabile di tipo continuo si stimano le dimensioni del campione

in funzione della grandezza dell 1 errore standard accettabile: {)~ < ~ oppure: 1'\. > 2.0"'1./t.'l..

46

per altre procedure (ad es. differenze fra medie) si rimanda ad Armita-

ge, pagg. 184-186.

7. Quali sono i tre tipi base di campioni?

a. Il campionamento probabilistico l 'uso della teoria statistica per

progettare un '.indagine sperimentale. E' questo un modo di campionare

non viziato e ci permette di trarre valide conclusioni sulla

popolazione da cui il nostro campione stato estratto.

b. Il campionamento soggettivo (valutazione) la selezione di un cam-

pione basata su valutazioni e sulla conoscenza del materiale (qual-

cuno che sa) Questo tipo di campionamento viziato ed general-

mente usato quando non c' tempo per definire un campione probabi-

listico.

c. Il campionamento conveniente l 'uso di un campione che a portata

di mano ed viziato. Inchieste di argomento politico realizzate

per strada sono campioni convenienti. Inchieste telefoniche possono

essere campioni coilvenienti poich qualcuno pu non avere il tele-

fono mentre altri possono avere numeri telefonici non segnati.

8. Quali metodi probabilistici vengono frequentemente usati nella selezione

di campioni?

a. Campionamento random semplice - questo metodo d ad ogni membro

della popolazione una uquale probabilit di essere incluoo nel cam-

pione. Non c' controllo della distribuzione del campione e qualche

campione potr avere una cattiva distribuzione geografica (non vi-

ziato ma non rappresentativo}.

Perci, il pi delle volte non tanto desiderabile e possono essere

esequite alcune variazioni e miglioramenti per aumentare la preci-

sione del campione. n principio del campionamento random semplice la base di tutte le buone tecniche di campionamento e viene uti-

lizzato in molte tecniche pi specializzate.

b. Campionamento sistematico - questa tecnica spesso usata quando gli

elementi possono essere ordinati o elencati in qualche modo. E'

assicurata una buona distribuzione geografica (secondo la densit)

ed un facile metodo da applicare. Questo metodo probabilmente

il pi popolare tra coloro che si interessano di sanit pubblica.

i

l

c.

47

va fatta attenzione alla eventuale esistenza di ciclicit nella

popolazione coerenti con il passo di selezione.

campionamento stratificato - la popolazione viene classificata in a-

deguate sub-popolazioni o strati. Ciascuno strato dovrebbe essere o-

mogeneo all 1 interno ed eterogeneo con gli altri strati. Ciascun

sottogruppo pi accuratamente rappresentato e l'errore campionario

ridotto. Stime separate possono essere richieste da ciascuno stra-

to dovute a differenti problemi di campo oppure possono essere con-

siderati campioni proporzionali da ciascuno strato. Questo metodo

viene usato frequentemente nelle inchieste sullo stato immunit~io,

inchieste ambientali, etc.

d. campionamento a multistadi - necessario per inchieste su grande sca-

la dove una lista delle unit del campione finale sarebbe troppo

grande. Un esempio la selezione di unit di abitazioni in una

grande area metropolitana.

e. Campionamento a multifasi - usato per ottenere informazioni supple-

mentari. Alcune informazioni vengono acquis te da un sub-campione.

Un esempio una inchiesta sullo stato immunitario per cui utile

acquisire ulteriori informazioni in un sub-campione.

f. Campionamento per area - un metodo a griglia usato, ad es., per

il conteggio di mosche, etc.

9. guali materiali sono necessari nella programmazione di un'inchiesta cam-

pionaria?

a. Mappe di tutte le aree dell'inchiesta con strade ben definite, aree

senza case, aree di negozi ed, altri dettagli utili.

b. Dati completi dal censimento pi recente per avere un'idea di ci che ci aspetta riguardo le abitazJ.oni, l'educazione, etc. (se di-

sponibile}.

c. Buona conoscenza di ogni cambiamento che pu essere avvenuto dal-

l'ultimo censimento.

48

Molto di ci che necessario pu essere difficile da ottenere, in tal

caso necessario un lavoro di campo preliminare (per esempio, si

possono contare le abitazioni nell'area d 1 inchiesta, se tale dato non

disponibile).

10 . Quali sono le migliori tecniche da usare nel raccogliere dati in una

!richiesta?

a. Inchiesta con intervista o con questionario.

b. Inchiesta osservazionale - Siete limitati a ci che potete vedere.

c. Inchiesta con intervista ed osservazione - Il metodo pi popolare

usato per scopi di sanit pubblica.

d. Inchiesta osservazionale sperimentale - L 1 ambiente viene , trattato

finchi non Viene rggii.mto un effetto osservabile - usato estensi-

v'ainente in agricoltura.

11. Come deve essere realizzata una buona scheda per un'inchiesta?

a. Dovrebbe essere la pi semplice possibile e facile da codificare.

b. Porre alcune domande preliminari per mettere l'intervistato a suo

agio

c. Raccogliere 1 1 informazione necessaria e non dilungarsi troppo.

d. Tre tipi di domande sono frequentemente usate:

(l) Scelta multipla - sono date molte differenti risposte e solo una

accettabile. Sono variazioni ~o schema vero/Falso" e la gra-

duazione di giudizio.

(2) eompietamento della frase o risposta libera - La risposta viene

scritta come viene data dal rispondente. Le variazioni sono del

tipo "riempi lo spazio bianco" o "completa la frase".

(3) Domande filtro - Programmate per filtrare le necessarie informa-

zioni. Sono di due tipi: (i) Domande sondaggio- Se l'intervistato risponde ad una doman-

da in un certo modo, si richiedono altre informazioni.

(ii) Intensit di opinione - Si tenta di misurare le emozioni di

una persona: a una particolare risposta si richiede il per-

ch di tale atteggiamento.

'

49

12 come possibile ottenere informazioni accurate usando la tecnica del-

l' intervista?

a. Le domande devono essere verificate sul campo per assicurarsi cQe

l'intervistato le capisca - deve essere usata la terminologia loca-

le.

b. Eliminando per quanto possibile domande dolorose o imbarazzanti.

c. Ponendo le domande allo stesso ~odo'ogni volta.

d. Permettendo all'intervistato una uguale possibilit di dite si o no.

e. Analizzando periodicamente i risultati rispetto all'accora-

tezza includendo elementi conosciuti o provando su elementi non co-

nosciuti.

f. Randomizzando l'assegnazione delle aree per eliminare l'errore dovu-

to agli intervistatori.

13. Chi dovrebbe essere usato come intervistatore?

Personale addestrato. Esperti nel campo rappresentano l'ideale ma altri

possono essere addestrati in modo intensivo per un breve periodo cosi

che possano fare un lavoro adeguato. Gli intervistatori devono essere

posti sotto il pieno controllo del coordinatore dell'inchiesta. Nella

. maggior parte delle inchieste necessario un lavoro serale (per i ri-

' chiami) e qQesto il problema pi rilevante quando vengoAO usati dei

volontari

14. Come i risultati possono essere al meglio tabulati e analizzati?

a. Tabulazione manuale - per numero limitato di schede (fino a 100)

b. Tabulazione meccanica - per grandi numeri di schede precodificate

o schede perforate.

c. L'interpretazione dei dati usualmente semplice in quanto la mag-

gior parte di essi viene interpretata nella forma di proporzioni o

percentuali.

Talvolta potete desiderare fare analisi pi sofisticate, etc.,

in tal caso avrete bisogno probabilmente di uno statistico per que-

sti pi complicati tipi di analisi.

50

15. gua:le procedura sistematica dovrebbe essere eseguita nel pianificare e

realizzare una inchiesta campionaria?

a. Definendo lo scopo e le necessit per una inchiesta.

b. Definendo la popolazione bersaglio.

c. Decidendo la dimensione del campione e il metodo di campionamento da

usare.

d. Selezionaodo il campione.

e. Sviluppando, provando sul campo e revisionando il questionario.

f. Addestrando gli intervistatori a condurre il lavoro sul campo.

g. Verificando tutte le schede dell'intervista rispetto alla codifica-

zione appropriata.

h. Tabulando e analizzando i risultati.

i. Usando i ri~ultati ottenuti. Essi non sono la fine del lavoro ma por-

tano alla fine del lavoro.

16. Quali sono alcuni dei comuni difetti trovati in molte inchieste?

'

a. L'uso dei metodi di campionamento non probabil.istici - Questi meto-

di non corretti sono usualmente meno impegnativi da applicare e pos-

sono essere frequentemente di valore pratico sebbene l'accuratezza

discutibile. Questi sono i metodi usati quasi esclusivalente da

organizzazioni per ricerche di mercato e da coloro che sondano gli

orientamenti elettorali nella popolazione.

b. L'uso di domande dolorose o imbarazzanti.

c. L'uso d1 domande fuorvianti o ambigue.

d. Incapacit a mantenere vivo l'interesse o a stabilire un rapporto

con l'intervistato.

e. Procedure di controllo difettose o limitate - Una persona dovrebbe

avere la piena responsabilit per l'indagine.

f. Tabulazioni e/o analisi poco accurate o superficiali.

g. Risultati non usati.

'

51

3,3. Stime intervallari

Si consideri il campione l formato da n elementi estratti a caso da

' una popolazione ben definita con media/"' e varianza 1r; da questo campione - ' si otterr una media x 4 e una varianza S 1 (stime puntuali) che possono diffe-

rire daJ- e ~~(cio essere affette da un errore) per 2 ordini di motivi:

1) il campione non rappresentativo della popolazione ed pertanto

affetto da una distorsione;

2) il campione non distorto, ma operano variazioni casuali.

Supponiamo di riuscire a scegliere campioni rappresentativi della

popolazione in base a quanto detto nel paragrafo precedente e consideriamo

il campione 2

ch'essi dar

sempre di

' e !l'" oltre n elementi. - 2 I valori di Xz. e Sz differiscono an-

in quanto le stime dei 2 parametri

cambiano da campione a campione se si ripete il campionamento all'interno

della stessa popolazione con il reinserimento degli elementi via via con-

siderati.

I valori della statistica X ricavati da tutti i possibili campioni

di n elementi della popolazione saranno distribuiti intorno ad un valore

centrale, con una certa dispersione intorno ad esso. Si dimostra che que-

sta distribuzione, nel caso di X, normale, anche se la variabile di par-

tenza non lo e che: E(i)=f', cio che la media della distribuzione delle

medie campionarie coincide r:::on la media delle misure individuali della

popolazione.

In :nodo analoqo (cio con il campionamento ripetuto) c;i oossono

:ostruire le distribuzioni di frequenza della statistica 'S2.o di una propor-

zione o ancora di un tasso.

Si definisce 'lnd proporzione il rapporto p=r/n, cio la frequenza

.Jsservata di rilievi positivi (r) sull'intera serie (n) di osservazioni,

1n altre parole assa la fr~quenza relativa delle osservazioni che pre-

_:entano la caratteristica in esame; vedi par. 2.3

.Oi definisce tasso, invece, il rapporto fra il numero di soqgetti

.. ~e a.cquista.no la caratteristica in F"same in un intervallo di tempo, e

-L ~)rodotto della DOpolazione "a rischio" di sperimentare l'evento ~er

~l tempo di osservazione (per 1m .'lpprofondimento si Jedano i camuni testi

li ~pidAmiologia).

52

E' importante conoscere la distribuzione campionaria delle statisti-

che dato che esse permettono di calcolare il grado di incertezza che il

solo fatto di lavorare su di un campione conferisce al parametro in studio.

Si gi detto che il parametro allo studio ha anche una sua disper-

sione intorno alla media e questa variabilit sar:

a). tanto pi. grande quanto pi grande la variabilit della variabile

originaria {cio tanto pi grande a-1 ); b) tanto pi piccola quanto pi grande la numerosi t, n, del campione

fino a divenire zero quando la numerosit del campione coincide con la

numerosit della ~polazione.

ESEMPIO .Distri~zione campionaria di x

' ' !4----

SE(il=Jk

E' chiaro quindi che la teoria campionaria permette di trarre infe-

renze riguardanti i parametri veri della popolazione senza limitarsi ad un

unico valore del parametro registrato su un singolo campione.

Il parametro vero della popolazione pu essere molto vicino a quel-

lo stimato (calcolato) sul campione oppure pu essere totalmente diverso.

53

Questo conc~tto pu essere espresso in termini di: "probabilit" che

il parametro vero giaccia in un dato intervallo (intervallo di confidenza)

centrato sul parametro stimato". Se questa probabilit aumenta, quindi di-

minuisce la probabilitA di c~nmettere un errore nel fare questa affermazio-

ne, gli estremi dell'intervallo di confidenza (limiti di confidenza) si di-latano, rendendo meno informativo il dato; quindi necessario trovare un

comnromesso nPr cui si abbiano intervalli ragionevolmente ristrett" ~l!f lf/- l. con una

probabilit4 eli errore accettabile. Questa probabilit d'e::rore viene defi-

nita "o4." e f:t.ssata a un livello prestabilito, ad Qs. ~'\ 0 1\. Un intervallo di confidenza cui associata una probabilit d'errore J ,. o os ad ese .

rl\ mp1.o, ----un interVAllo ri.s,Petto al quale riteniamo di sbagliarE! non pi di 5 volte

su 100 se affermiamo che eso contiene il parametro da stimare.

I paragrafi chrJ S(l(juono trattano alcuni metodi per il calcolo del-

l'intervallo di confidenza di alcuni dei parametri pi usati.

3.3.1. stima intervallare di una media

Se la distribuzione della variabile originaria x normale e di essa

si conosce 17'"1.la stima intervallare di/"' data da:

Se~~ 0.05 allora~

1 due valori, cosl calcolati, rappresentano i due estremi delt'in-

tervall..o di confidenza al 95\1 esSi sono siliJlletrici rispetto a )(. e, dato

che (j'- e n sono noti, possono essere calcolati a partire dai dati di un

campione. A questo intervallo associata una probabilit di , 0 95 (95 ,)

di comprendere )l".

Se della distribuzione

intervallare di fA- data da: di x non si conosce a'f invece, la stima

54

ad eso:

pero\= 0.05 e gl = 19 t = 2.093 e

x + 2.073 . =tln N.B. gl=Y = n-1

ESEMPIO

Si abbia una serie di osseryazioni relative all'et di 61 addetti

ad una particolare lavorazione:

x "" 38.08 anni

s = 9.6

x + t - IOO,o .:otS . (w;

38.08 + 2.00 . 9.6/ '{61;

.. 35.62 38.08 + 2.46 =,40.54

3.3.2. Stima intervallare di una varianza

Sia *io?.. la stima puntuale della varianza in un campione casuale di

dimensione n; fissato il livello di confidenza voluto DI., i limiti fidu-

cia!! della varianza sono dati da:

lim.sup . : lim.inf.:("'~i) ~'1.. 7\~-, -

'"

56

Se si hanno r soggetti con la caratteristica in esame su un totale

di n soggetti/

p= n r

l - p = n - r

n

La stima intervallae di 7r data da:

Stima al 95% (l-p)

n

Stima al 99% p + 2. 57~ {l-p) - n

Ad es. la stima intervallare della proporzione 28/200 data da:

0.14 + 1.96 0.14 x 0.86

200 (0.09- 0.19, cio 9%- 19%}.

e la stima al 99% data da 0.14 + 2.576

{0.08- 0.20, cio 8%- 20%}.

3.3.4. Stima intervallare di un tasso

a) CAMPIONI PICCOLI

0.14 x 0.86 200

I limiti degli intervalli di confidenza al 90%, 95%, 99% e 99.9%

riferiti al verificarsi di eventi rari, del tipo di quelli discussi a

proposito dei tassi di incidenza, sono stati calcolati impiegando la di-

stribuzione di Poisson, e tabulati (Tavola 3 ter). L'uso di queste tavole

57

se\.plice: si supponga di aver osservato 30 casi di un tipo di tumore

in una popolazione di un -6

milione di persone, in un anno. Il tasso d'in-

cidenza 30 x 10 per anno.

al 95%, (Allegato) 20.241 -

La stima intervallare ad -6

42. 827 x 10 per anno;

pi ampia, avendo come limiti 17.767 e 47,210

b) CAMPIONI GRANDI

essa associata,

la stima al 99%

I limi ti fiducia!! presentati nella tabella allegata sono stati

calcolati per numeri di eventi osservati non superiori a 200. Per numero-

sit (n) maggiori si suggerisce l'uso di una formula approssimata:

stima al 95%

Stima al 99%

( 1.96 +-v 1.962

+ 4nY /4

2 + 4n,)2 /4 ( 2.576 :!:.V 2.576

Analogamente a quanto avviene nelle tavole per piccoli campioni (Tavola 3

ter) queste formule operano sul numeratore del tasso, ad es. l'intervallo

di confidenza associato a un tasso di incidenza di 500 casi in 40.000 per-

sone seguite per un anno (cio 12.5 x 10-3 per anno) pu essere stimato

calcolando in primo luogo:

limiti fiduciali di 500:

al 95% (1.96 +Vl.962

+ 2ooo'f /4 = 545.79 e 458.05

al 99% ( 2.576 + {2.5762

+ 2oo;y /4 = 561.01 e 445.62

e successivamente rapportando questi limiti al denominatore del tasso

t {40.000 persone per un anno): ' .

(13.64 x 10-3 x anno 14.02 x 10-3 x anno

11.45 x 10-3 x anno -3 11.14 x 10 x anno.

l

l N

~

" ~ 6 ... z. A

58

FIG. 3.1

c A n p l o N A n s

1 l

59

4. TEST STATISTICI E VERIFICA DI IPOTESI

4.1. DISTRIBUZIONE CAMPIONARIA

Associata ad ogni possibile risultato di un esperimento o ad

ogni possibile insieme di risultati la corrispondente probabilit

di occorrenza sotto una definita ipotesi, la distribuzione di pro-

babilit che si ottiene viene designata come:

DISTRIBUZIONE CAMPIONARIA

Tenendo conto della interpretazione della probabilit come

rapporto limite tra il numero di volte che si ottiene un certo risul-

tato e il numero delle prove (occasioni in cui esso pu verificarsi)

(il numero delle prove tende all'infinito), la distribuzione campio-

naria ha a che fare con il numero delle volte che ci si aspetta di

ottenere certi risultati se si effettuano moltissimi esperimenti.

In realt il ricercatore non ottiene mai una distribuzione cam-

pionaria, dal momento che realizza un solo esperimento o pochi espe-

rimenti; la conoscenza della distribuzione campionaria permette di

determinare la probabilit associata all'occorrenza del risultato di

.:ruello specifico esperimento.

La distribuzione campionaria si pu ottenere con procedimenti

.natematici deduttivi o attraverso processi di simulazione.

un approccio intuitivo alla distribuzione campionaria mostra-

co nella Fig. 4.1. Una serie di popolazioni differiscono per la pro-

[lorzione di individui che presentano la caratteristica 'x:' (ad .::s. ;Jn

:arattere controllato _?a un gene). Da ognuna di queste popolazioni

..ii pu immaginare di estrarre ripetutamente campioni 1 e misurare L n

cgnuno di essi . la proporzione di soggetti con la caratteristica in

'Same.

I :!"isultati :lell' 8same di questi campioni possono istribuir-

'1., .>d es . come.mostrato nella figura: se la proporzione di sogget-

60

ti con la caratteristica 'x' 0.4 (40%) nella popolazione, la maggior

parte dei campioni si disporranno into;"llo a quel valore e, in quanti-

t mdnori, wostreranno valori piU alti o pi bassi.

Quando si dispone dei risultati di un unico processo di campio-

namento, ad es. '0.3', ci si chiede da quale popolazione sia pi vero-

simile che tale campione provenga, date le possibili popolazioni ipo-

tizzate, con uri ragionamento analogo a quello precedente.

Nei para9rafi seguenti si esaminano alcuni esempi di distribu-

zioni campionarie, e se ne discutono le implicazioni.

4.2. ESEMPIO DI DISTRIBUZIONE CAMPIONARlA (CASO DISCRETO)

'Dalla distribuzione binomiale possibile calcolare quale la

probabilit di ottenere r volte testa su n lanci di una moneta, es-

sendo p la probabilit di avere testa in un lancio e q == 1 - p la

probabilit di avere croce, mediante la formula:

f(.r) = l~) r 1"\- r

f' 'j

Considerando l'esperimento:

Serie di 10 lanci di una moneta

Se p= q= 0.5 e l'esperimento condotto in modo adeguato, la

distribuzione campionaria la seguente:

61

Numero delle volte (r) in cui si ottiene testa probabilit

in 10 lanci (n = IO) p

o 0.001 l 0.010

2 0.044 '

3 0.117

4 a. 2os 5 0.246

6 0.205

7 o. 117 8 0.044

9 o. 010 IO 0.001

p = 1.000

Il ricercatore che ha programmato di condurre l 'esperimento

"Serie di 10 lanci di una moneta", ha uno scopo (ipotesi da verifica-

re) e si preoccupa di definire le corrette modalit di conduzione

dell'esperimento.

Sulla base del risultato dell'esperimento dovr prendere delle

decisioni.

Il ricercatore deve verificare se la moneta buona {p= 0.50),

oppure no, (p f O. 50) 1

e sa che non pu rischiare di sbagliare pi -ii

i:anto nel l 'affermare, .mlla base del risultato dell'esperimento, sia

che la moneta non buona, sia che la moneta buona, in quanto per

ogni errore doVr pagare un costo definito,

i::gli sa che le teorie statistiche (della stima o della valuta-

zione delle ipotesi) forniscono soluzioni nella forma di asserzioni

Jefinite che hanno 'ma conosciuta e controllabile ;>robabilit di es-

sere sb?-gliate.

' ,,

'i: "

l .,1 i

l

l ' '

62

4.3. I MOMENTI DELLA VERIFICA DELLE IPOTESI

l) Assumere i requisiti essenziali (scelta del modello e formulazione_

di ipotesi univoca);

2) ottenere (o assumere) la distribuizone campionaria della statisti-

ca rilevante;

3) scegliere il livello di significativit;

4) osservare la regione in cui cade la statistica;

5) decidere.

1) Assumere i requisiti essenziali

Il ricercatore deve dare per scontata o assumere 1 1 esistenza

di certi requisiti relativi all'universo al quale si riferiranno le

future generalizzazioni, e ai procedimenti adottati per la scelta del

campione.

Tali requisiti possono essere divisi in due classi:

A) Quelli della cui e'sistenza il ricercatore relativamente certo o

che comunque disposto a dare per scontato, tenendo conto della

correttezza della procedura sperimentale.

I requisiti di questa, classe costituiscono il MODELLO.

B) Quelli la cui esistenza relativamente dubbia.

I requisiti di questa classe costituiscono le IPOTESI.

Il test statistic? da usare deve essere appropriato al modello

e per un solo requisito la esistenza deve essere dubbia.

RISPETTO AL TEST STATISTICO

TU'ITI I REQUISITI HANNO LA STESSA IMPORI'ANZA

Nella realt, normalmente il ricercatore considera il requisito

costituente l'ipotesi, falso e quindi da rigettare, mentre

l'ipotesi alternativa l'ipotesi della ricerca (che si vuole di-

mostrare essere vera).

63

Chiameremo H0

(Ipotesi nulla) l' IPorESI E H1

l'alternativa (Ipo-

tesi alternativa)

2) ottenere (o assumere) la distribuzione caseionaria

Noto il modello e l'ipotesi nulla (H ) (cio l'insieme dei re-o

quisiti che il ricercatore assume) e qu2ndi scelto il test statistico

che compatibile con il modello, la statistica che possibile rica-

vare dai dati sperimentali ammette una distribuzione campionaria

teorica che indica le probabilit associate ai possibili valori che la

statistica stessa pu assumere, dato il modello e nell'ipotesi H . o

3) scegliere il livello di significativ