statistica descrittiva semplice - didatticaweb

26
Statistica descrittiva semplice In presenza di una serie di osservazioni x 1 ,...x n , le quantita' descrittive piu' importanti sono - numerosita' = quanti sono i dati, spesso denotata con n , - media = somma dei dati, divisa per n, denotata x , - varianza, denotata s 2 , = 1 n " 1 ( x i " x ) 2 i=1 n # - mediana = un valore tale che uguali numeri di osservazioni siano inferiori e superiori a questo valore, considerando tutte le osservazioni - moda = il valore piu' frequente tra le osservazioni. Nel rappresentare la distribuzione dei dati in un istogramma, e' importante avere una definizione chiara e utile delle classi utilizzate, possibilmente di uguale lunghezza, e di indicare chiaramente se l'asse verticale indica numerosita', percentuali o densita'. Esercizi 1) Calcolare media, varianza, deviazione standard, mediana e moda delle seguenti osservazioni: 5,3,3,1,6,4,7,4,2 2) Calcolare media, varianza, deviazione standard, mediana e moda delle seguenti osservazioni: 1,7,8,4,7,2 3) Rappresentare la distribuzione delle seguenti osservazioni in un istogramma: 1,3,5,1,2,5,3,4,4,2,5,1,3,5 4) Rappresentare la distribuzione delle seguenti osservazioni in un istogramma, indicando esplicitamente la scelta delle classi utilizzate: 0.927, 0.543, 0.301, 0.655, 0.443, 0.653, 0.589, 0.658, 0.495, 0.940, 0.968, 0.296, 0.429, 0.721, 0.397, 0.510, 0.753, 0.019, 0.930, 0.899 5) Avete appena calcolato media e varianza per 100 numeri, con risultati media = 30 e varianza = 35, quando vi accorgete che uno dei numeri che avete usato per il calcolo era sbagliato; avete usato il valore 21, mentre quello giusto era 27. E' possibile ricalcolare media e varianza giusta, senza rifare tutti i conti? Se si, fatelo... 6) In un’indagine svolta presso un ospedale in cui si vuole indagare sul motivo principale di insoddisfazione dei pazienti si ottengono i seguenti risultati. Tabella della distribuzione di frequenza del motivi principale di insoddisfazione dei pazienti Motivo di insoddisfazione codice frequenza assoluta Problemi con altri pazienti 1 13 Scarsa prontezza degli infermieri a rispondere a un segnale di chiamata 2 71 Risposte inadeguate alle domande poste dai pazienti 3 38 Ritardi nella formulazione degli esiti degli esami 4 34 Noia 5 28 Inadeguatezza del servizio mensa 6 117 Mancanze di gentilezza da parte dello staff 7 62 Altro 8 21 Totale 384 Quali delle seguenti affermazioni sono false? a) Il seguente diagramma a torta della distribuzione percentuale è corretto.

Upload: others

Post on 16-Apr-2022

19 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Statistica descrittiva semplice - DidatticaWEB

Statist ica descrittiva semplice In presenza di una serie di osservazioni x1,...xn , le quantita' descrittive piu' importanti sono - numerosita' = quanti sono i dati, spesso denotata con n , - media = somma dei dati, divisa per n, denotata

!

x , - varianza, denotata s2, =

!

1n "1

(xi " x )2i=1

n

#

- mediana = un valore tale che uguali numeri di osservazioni siano inferiori e superiori a questo valore, considerando tutte le osservazioni - moda = il valore piu' frequente tra le osservazioni. Nel rappresentare la distribuzione dei dati in un istogramma, e' importante avere una definizione chiara e utile delle classi utilizzate, possibilmente di uguale lunghezza, e di indicare chiaramente se l'asse verticale indica numerosita', percentuali o densita'. Esercizi 1) Calcolare media, varianza, deviazione standard, mediana e moda delle seguenti osservazioni: 5,3,3,1,6,4,7,4,2 2) Calcolare media, varianza, deviazione standard, mediana e moda delle seguenti osservazioni: 1,7,8,4,7,2 3) Rappresentare la distribuzione delle seguenti osservazioni in un istogramma: 1,3,5,1,2,5,3,4,4,2,5,1,3,5 4) Rappresentare la distribuzione delle seguenti osservazioni in un istogramma, indicando esplicitamente la scelta delle classi utilizzate: 0.927, 0.543, 0.301, 0.655, 0.443, 0.653, 0.589, 0.658, 0.495, 0.940, 0.968, 0.296, 0.429, 0.721, 0.397, 0.510, 0.753, 0.019, 0.930, 0.899 5) Avete appena calcolato media e varianza per 100 numeri, con risultati media = 30 e varianza = 35, quando vi accorgete che uno dei numeri che avete usato per il calcolo era sbagliato; avete usato il valore 21, mentre quello giusto era 27. E' possibile ricalcolare media e varianza giusta, senza rifare tutti i conti? Se si, fatelo... 6) In un’indagine svolta presso un ospedale in cui si vuole indagare sul motivo principale di insoddisfazione dei pazienti si ottengono i seguenti risultati. Tabella della distribuzione di f requenza del motivi principale di insoddisfazione dei pazienti

Motivo di insoddisfazione codice frequenza assoluta

Problemi con altri pazienti 1 13 Scarsa prontezza degli infermieri a rispondere a un segnale di chiamata 2 71 Risposte inadeguate alle domande poste dai pazienti 3 38 Ritardi nella formulazione degli esiti degli esami 4 34 Noia 5 28 Inadeguatezza del servizio mensa 6 117 Mancanze di gentilezza da parte dello staff 7 62 Altro 8 21 Totale 384 Quali delle seguenti affermazioni sono false? a) Il seguente diagramma a torta della distribuzione percentuale è corretto.

Page 2: Statistica descrittiva semplice - DidatticaWEB

diagramma a torta della distribuzione percentuale

3%19%

10%

9%7%

31%

16%5% 1

2

3

4

5

6

7

8

b) Più del 25% dei pazienti lamenta lentezza o ritardi (codici: 2 ,4). c) Piu' di 50% dei pazienti lamenta problemi di relazione con il personale ospedaliero (cod: 2, 3, 7). d) Migliorando il servizio mensa si otterrebbe il risultato più soddisfacente. 7) La seguente tabella riporta i dati relativi al contenuto di catrame e di nicotina di 12 marche di sigarette. Marca catrame (mg) nicotina (mg) Alpine 14,1 0,86 Benson & Hedges 16,0 1,06 Bull Durham 29,8 2,03 Camel Lights 8,0 0,67 Carlton 4,1 0,40 Chesterfield 15,0 1,04 Golden Lights 8,8 0,76 Kent 12,4 0,95 Kool 16,6 1,12 L & M 14,9 1,02 Lark Lights 13,7 1,01 Marlboro 15,1 0,90 Quale delle seguenti affermazioni è falsa? a) la distribuzione cumulata del contenuto di catrame per i dati raggruppati in classi è data dalla tabella seguente. Classi frequenze cumulate <5 1 5|-10 3 10|-15 7 15|-20 11 20|-25 11 25|-30 12 b) Il valore della mediana del contenuto di catrame è 16. c) Il valore della mediana per il contenuto di nicotina è 1. d) Il seguente diagramma a barre rappresenta la distribuzione di frequenze assolute del contenuto di catrame per i dati raggruppati in classi.

Page 3: Statistica descrittiva semplice - DidatticaWEB

8) Ci sono due gruppi di numeri. Il primo contiene 5 numeri e la media aritmetica di questi e' 15. Il secondo gruppo contiene 10 numeri e la media di questi e' 12. Si vuole adesso un'unica media dei 15 numeri. Questa vale a) 15 b) 13 c) Bisogna avere tutti i numeri per calcolarne la media. 9) Un ricercatore aveva dei dati importanti (conteggi di animali classificati per due criteri) riassunti in una tabella 2x3. Purtroppo, per un errore di digitazione al computer tutti i dati all'interno della tabella spariscono, rimangono solo le somme marginali, in questo modo: ? ? ? 60 ? ? ? 30 15 45 30 90 Quanti dati mancanti deve come minimo recuperare per poter completare la tabella?

Page 4: Statistica descrittiva semplice - DidatticaWEB

Combinatoria semplice Per contare quante istanze ci sono di oggetti che soddisfanno una certa definizione, ci vuole ordine, attenzione e logica piu' che formule. La cosa piu' importante e' di immaginare un sistema (un elenco, un albero, dei quadretti), che almeno in teoria, possa rappresentare le varie possibilita'. Comunque, le formule piu' fondamentali sono

!

n!= n " (n #1) " ..." 2 "1nk$

% & '

( ) =

n!k!(n # k)!

con la convenzione 0! = 1. La prima, n!, conta quante permutazioni ci sono di n oggetti distinguibili. La seconda, il coefficiente binomiale di ordine (n,k), conta in quanti modi differenti si possono scegliere k oggetti da n oggetti distinguibili o, in linguaggio insiemistico, quanti sottoinsiemi differenti di k oggetti ci sono, partendo da un insieme di n oggetti. Un modo fondamentale di calcolare probabilita' in situazioni dove i diversi esiti di un esperimento sono ritenuti equiprobabili (carte, dadi, monete equilibrate, ecc...) e' di ritenere che la probabilita' che una data proprieta' si manifesti nell'esito dell'esperimento sia il rapporto tra quanti esiti possibili hanno la proprieta' (detti esiti favorevoli) e quanti siano gli eventi possibili. Esempio: qual e' la probabilita' che estraendo 5 carte da un mazzo di 52 carte sia abbia solo carte di un solo seme?

Risposta:

!

4 "

135#

$ %

&

' (

525

#

$ %

&

' (

= 0.002

Il 4 rappresenta ognuno dei quattro semi possibili, il numeratore quante mani differenti di 5 carte ci siano di un particolare seme e il denominatore quante mani differenti di 5 carte sia possibile estrarre da un mazzo di 53 carte ( ≈ 2598960 mani possibili...) Esercizi 10) Calcolare la probabilita' che, scegliendo 5 carte da un mazzo di 52 carte, tutti e quattro i semi siano rappresentati. 11) Un bambino ha 5 schede con le 5 lettere MELMA stampate una lettera su ogni scheda. Riordinando le schede e mettendole in fila, quante parole (espressioni, perche' non badiamo al senso...) differenti si possono ottenere? 12) Considerando 2 lanci di dado, qual e' la probabilita' che i risultati siano non-decrescenti? 13) Mischiando bene un mazzo di carte, qual'e' la probabilita' che poi si trovi l'asso di picche come prima carta? 14) Su una scacchiera (8x8) vuota, un cavallo sta in un angolo. In quante caselle differenti puo' trovarsi dopo una mossa? Dopo due mosse successive?

Page 5: Statistica descrittiva semplice - DidatticaWEB

Formalismo P Il modo matematico di rappresentare probabilita' e' di considerare un insieme Ω (contenente tutti gli esiti possibili di un esperimento), i suoi sotto insiemi, detti eventi, e una funzione P che a ogni sotto insieme assegna un valore tra 0 e 1. Si scrive P(A) per la probabilita' dell'evento A (l'evento corrisponde agli esiti favorevoli nella definizione combinatoria). La proprieta' piu' importante di P e' la sua additivita'. Per esempio, se A e B sono due eventi disgiunti (senza parti comuni) e A∪B la loro unione, allora P(A∪B) = P(A)+P(B). Inoltre, vale che P(Ω)=1. In genere, e' importante capire il linguaggio insiemistico (unione,intersezione, complemento) per esprimere nuovi eventi in base a eventi gia' definiti. Le formule piu' utili che si possono creare con un po' di linguaggio insiemistico e usando l'additivita' come sopra sono, per esempio: P(AC) = 1 -P(A) P(A∪B) = P(A)+P(B)-P(A∩B) P((A∪B)C) = P(AC∩BC) (detto regola di DeMorgan) Un concetto importante e' la probabilita' di un evento A condizionato ad un altro B, P(A|B) = P(A∩B)/P(B). La definizione dice solo che si "restringe" il calcolo a esiti in A che soddisfanno anche B, in relazione a tutti gli esiti che stanno in B. Percio', oltre a chiamare questa quantita' "probabilita' di A condizionato a B", si puo' anche dire "probabilita' che succeda A sapendo (supponendo) che e' successo B". Se per due eventi A e B, vale che P(A|B) = P(A) oppure P(B|A) = P(B) (cosa che pero' logicamente equivalente alla prima...), si dice che A e B sono (stocasticamente) indipendenti e allora vale anche P(A∩B) = P(A)P(B) (questo pure logicamente equivalente alle due formule sopra). Le probabilita' condizionate sono protagoniste di due formule importanti:

!

P(A) = P(A | Ei)P(Ei)i=1

K

"

dove i sotto insiemi E1,...,EK costituiscono una partizione di Ω, cioe' la loro unione e' Ω e le loro intersezioni sono vuote, cioe' costituiscono una "decomposizione in casi separati". Questa formula e' detta "formula delle probabilita' totali".

!

P(B | A) =P(A |B)P(B)

P(A)

detta formula di Bayes, permette di valutare "le probabilita' delle cause" o di scambiare causa e effetto oppure ordine temporale di fenomeni. Tipicamente, il denominatore si calcola suddividendo in vari casi. In casi semplici basta considerare i due casi B e "non-B" (rappresentata dal complemento di B,

!

BC ) e la formula diventa

!

P(B | A) =P(A |B)P(B)

P(A |B)P(B) + P(A |BC )P(BC )

Esercizi 15) Dimostrare che se P(A)=0.8 e P(B)=0.7, l'intersezione di A e B non puo' essere vuota. 16) Ci sono due urne, di nome U1 e U2. Nella prima ci sono 3 palline bianche e una rossa, nella seconda solo palline rosse. Supponiamo di scegliere a caso un'urna, senza guardare qual e' e senza guardarci dentro (dunque P(U1)=P(U2)=1/2...) e di estrarre una pallina dall'urna scelta. Calcolare la probabilita' che la pallina estratta sia rossa. 17) Siamo nella stessa situazione del problema 16). Se la pallina estratta risulta rossa, qual e' la probabilita' che l'urna scelta sia U1?

Page 6: Statistica descrittiva semplice - DidatticaWEB

18) Una popolazione e' composta di 60% femmine e 40 % maschi. Dei maschi, 65% ha capelli scuri; delle femmine, 40% ha capelli scuri. Quale percentuale di coloro che hanno capelli scuri e' costituita da maschi? A) 40% B) 52% C) 65% 19) Dimostrare che se si hanno tre eventi A, B e C e vale che A∩(B∪C) =∅ e anche B∩C =∅, allora vale che P(A∪B∪C)=P(A)+P(B)+P(C).

Page 7: Statistica descrittiva semplice - DidatticaWEB

Variabil i aleatorie, distribuzioni di probabilita', valori attesi e varianze Nel linguaggio statistico e probabilistico, il concetto di variabile aleatoria e' fondamentale, Non solo rappresenta un esito di un dato esperimento, misurazione, ecc, ma tramite la sua distribuzione di probabilita' contiene anche l'informazione utile su valori possibili e loro probabilita'. Inoltre l'uso di un simbolo (tipicamente X, Y, Z,...) per l'esito non meglio definito di un esperimento permette di esprimere facilmente le probabilita' di vari eventi associati all'esperimento (per esempio P(X≤2) oppure P(1<X≤2)...) e anche di definire nuove variabili aleatorie in base a quelle gia' definite (per esempio S = X+Y, oppure M = max(X,Y),...). Esistono regole precise per come calcolare la distribuzione di probabilita' delle nuove variabili. Per motivi di metodologia di calcolo, si distinguono due tipi fondamentali di variabili aleatorie, quelle discrete e quelle continue, secondo i valori possibili delle variabili. Per il primo tipo, i valori possibili sono discreti, cioe' un numero finito o al massimo denumerabile (come tutti gli interi...) di valori distinti, per il secondo tipo i valori possibili sono un intervallo della retta reale, anche del tipo [0,∞) oppure (-∞,∞). Per il primo tipo, i calcoli avranno la forma di somme, per il secondo tipo, di integrali. In entrambi i casi, e' utile definire due caratteristiche di una variabile aleatoria (in realta' della sua distribuzione), i l valore atteso E(X) e la varianza Var(X) (e anche la radice quadrata della varianza, detta deviazione standard di X e denotata SD(X)). Il valore atteso e' un valore centrale della distribuzione e la varianza una misura della dispersione attorno al valore atteso. Nel caso discreto. se una variabile X ha valori possibili x1, x2,..., con relative probabilita' p1, p2,..., il valore atteso e' la somma di "valori per probabilita'"

!

E(X) = xi pii"

e la varianza puo' essere calcolata come

!

E X " E(X)( )2( ) = E(X 2) " E(X)( )2 dove, semplicemente,

!

E(X 2) = xi2pi

i"

Nel caso continuo, la distribuzione di probabilita' non e' piu' espressa come singoli valori e loro probabilita', ma tramite una densita' di probabilita' f(x) che bisogna integrare su intervalli per trovare la probabilita' assegnata a questi intervalli. Dunque, avremo

!

P(X " a) = f (x)dx#$

a

%

(come funzione di a, F(a) = P(X≤a) e' chiamata la funzione di ripartizione, mentre la funzione f(x) e' chiamata la densita' di probabilita'. Con un po' di analisi e' facile passare da l'una all'altra. la densita' e' la derivata della funzione di ripartizione e la funzione di ripartizione e' una primitiva della densita'. Il vantaggio di calcolare la funzione di ripartizione sta nel fatto che per un qualsiasi intervallo [A,B] vale, nel caso continuo, che P(A≤X≤B) = F(B)-F(A). Inoltre, nella ricerca della distribuzione di una nuova variabile aleatoria definita a partire da una variabile X, per esempio Y = X2, per trovare la distribuzione di probabilita' della nuova variabile, basta iniziare con la funzione di ripartizione di Y,

!

P(Y " a) = P(X 2 " a) = P(# a " X " a)

Page 8: Statistica descrittiva semplice - DidatticaWEB

e notare che quest'ultima espressione si puo' calcolare usando la funzione di ripartizione di X. Vale anche

!

E(X) = xf (x)dx"#

#

$

e

!

E(X 2) = x 2 f (x)dx"#

#

$

La definizione di varianza rimane, a parte questo, uguale. Una trasformazione fondamentale di una v.a. X e' la trasformazione lineare, cioe' del tipo Y = a + bX, con a e b costanti. Si puo' allora verificare che vale sempre E(Y) = E(a + bX) = a + bE(X) e Var(Y) = Var(a + bX) = b2Var(X). Quando si ha a che fare con piu' di una variabile aleatoria, come per esempio nel caso di misurazioni ripetute o campionamento, denotando, per le variabili con, per esempio, X1, X2, ...,Xn, si dice che le variabili sono indipendenti se eventi del tipo {Xi ≤a} e {Xk≤b} sono indipendenti, cioe' se vale P(Xi ≤a, Xk≤b) = P(Xi ≤a)P(Xk≤b). L'assunzione di indipendenza per delle variabili vuole dire che ognuna potra' esprimere la sua variabilita', secondo la sua distribuzione di probabilita', senza essere influenzata (pensate a probabilita' condizionate...) dai valori assunti dalle altre variabili. L'indipendenza di v.a. semplifica molto i calcoli in certe circostanze. Tra le trasformazioni piu' importanti che si possono considerare con piu' di una v.a., sono le espressioni lineari, del tipo Z = aX + bY, con a e b due costanti. Esistono varie regole e vari modi per calcolare valori attesi e distribuzioni relative a trasformazioni di piu' variabili. Le piu' importanti sono (qui espresse per due variabili, ma si puo' fare anche per piu' di due...) E(X+Y) = E(X) + E(Y) e Var(X + Y) = Var(X) + Var(Y) + 2Cov(X,Y) Quest'ultima quantita', la covarianza tra X e Y, puo' essere definita come E(XY)-E(X)E(Y) e, cosa importantissima, vale 0 se X e Y sono indipendenti. Dunque, per X1, X2, ...,Xn indipendenti, vale Var(X1+X2+...+Xn) = Var(X1)+.. .+Var(Xn). Il calcolo di distribuzioni di probabilita' per somme e altre trasformazioni di piu' variabili necessita di un certa quantita' di analisi. Esistono comunque vari risultati noti per i tipi piu' comuni di distribuzioni.

Page 9: Statistica descrittiva semplice - DidatticaWEB

Esercizi 20) Sia X una v.a. con valori {1,2,3} e con relative probabilita' {1/4, 1/2, 1/4}. Calcolare valore P(X>1), P(1.5≤X≤2.5), E(X) e SD(X). 21) Sia X una v.a. con distribuzione uniforme, cioe' con probabilita' uguali per tutti i valori possibili, sugli interi 1,2,..,6. Calcolare E(X) e Var(X). 22) Siano X e Y due v.a. indipendenti con la stessa distribuzione che assegna probabilita' {1/4, 1/2, 1/4} ai valori {1,2,3}. Trovare la distribuzione di S = X+Y e E(S) e Var(S). 23) Sia una v.a. X con densita' di probabilita' f(x) = 2x per 0≤x≤1 e f(x)=0 altrove. calcolare funzione di ripartizione e valore atteso di X. 24) Si dice che la v.a. X ha distribuzione uniforme sull'intervallo [0,1] se la sua densita' di probabilita' vale f(x) =1 per 0≤x≤1 e f(x)=0 altrove. Calcolare valore atteso e varianza di X. 24) Siano X1,...,X12 v.a. indipendenti, tutte con distribuzione uniforme su [0,1], e sia Y = X1+...+X12. Calcolare E(Y) e Var(Y). 25) Supponiamo di avere calcolato la media e la deviazione standard di una serie di misure, misurate in centimetri, con risultato media = 15.1 cm e sd= 3.3 cm. Dovete adesso mandare questi risultati a uncollega americano, che pero' vuole i risultati in pollici (1 inch = 2.54 cm). Come diventano?

Page 10: Statistica descrittiva semplice - DidatticaWEB

Distr discrete note (Bin, Po, Geom) Le distribuzioni discrete piu' comuni sono connesse con situazioni tipo: la distribuzione binomiale e' quella di una v.a. che conta il numero di "successi" X in una serie di n esperimenti "binari", cioe' con solo due risultati possibili, denominati "successo" e "fallimento", assumendo che gli esperimenti sono indipendenti e che la probabilita' di successo, p, e' sempre la stessa in tutti gli esperiementi. Si usa scrivere X ~ Bin(n,p). I valori possibili in questa distribuzione sono gli interi {0,1,,...,n} e le probabilita' associate sono

!

P(X = k) =nk"

# $ %

& ' pk (1( p)n(k, k = 0,...,n

e si sa che E(X) = np e Var(X)=np(1-p). Nelle immagini seguenti si vedono le forme delle probabilita' di vari casi di distribuzione binomiale, al variare di n e di p...

Page 11: Statistica descrittiva semplice - DidatticaWEB

La distribuzione Geometrica di parametro p (X ~ Geom(p)) sorge se si considera una serie, potenzialmente infinita, di esperimenti binari come sopra (il risultato di un singolo esperimento, con 1 per successo e 0 per fallimento, e' spesso chiamato una variabile Bernoulliana) e si denota con X la v.a. che indica "quanto bisogna aspettare per avere il primo successo", tipicamente definito come il numero di ordine dell'esperimento dove per primo avviene un successo. Dunque i valori possibili sono {1,2,...} e le probabilita' associate sono

!

P(X = k) = (1" p)k"1 p, k =1,2,... e si sa che E(X) = 1/p e Var(X) = (1-p)/p2. I calcoli con questa distribuzione sono semplificati grazie alla relazione con la serie geometrica. La distribuzione di Poisson sorge, tra l'altro, come approssimazione piu' comoda da calcolare per la distribuzione Bin(n,p), quando n e' "grande" e p "piccolo". Denotando con λ il valore di np, si ha

!

P(X = k) " e#$$k

k!, k = 0,1,...

e si scopre che questa approssimazione e' anche una distribuzione di probabilita' per fatti suoi, cioe' si somma a 1 per ogni λ > 0 (basta riconoscere la serie di MacLaurin della funzione esponenziale...). Si sceglie spesso la distribuzione di Poisson (X ~ Po(λ)) come modello per una situazione dove si conta il numero di eventi di un certo tipo (morti, incidenti stradali, numero di insetti su una foglia, ecc...), dove non c'e' un limite superiore naturale, ma dove il risultato di solito varia attorno a un valore tipo (λ, appunto...). Si sa che E(X) = λ e Var(X) = λ. Per la binomiale e la Poisson, ci sono dei risultati semplici per la diostribuzione di somme di variabili indipendenti: X e Y indipendenti, X ~ Bin(n,p) e Y ~ Bin(m,p) -> X+Y ~ Bin(n+m,p); se invece le "p" delle due distribuzioni sono differenti, la distribuzione della somma non e' semplice da esprimere... X e Y indipendenti, X ~ Po(λ) e Y ~ Po(µ) -> X+Y ~ Po(λ+µ) Se invece abbiamo due variabili indipendenti Geom(p), la distribuzione della somma e' di un tipo detto Negativo Binomiale o di Pascal, pero' meno semplice della Geometrica stessa. Esercizi 26) Si lancia una moneta bilanciata (p=1/2) 6 volte e si registra X = il numero di "Testa" complessivo. Calcolare P(X≥3). 27) Siano X1, X2, ...,Xn v.a. indipendenti con distribuzione uniforme su [0,1]. Si definisce X = numero di queste variabili con valore ≤ 1/3. Qual e' la distribuzione di X? 28) Sia X una v.a. con distribuzione geometrica con parametro p. Dimostrare che P(X>k) = (1-p)k. 29) Sia X una v.a. con distribuzione di Poisson con valore atteso λ=2. Calcolare P(X≤2).

Page 12: Statistica descrittiva semplice - DidatticaWEB

Distribuzioni continue note (N, Exp, U) Ci sono molte distribuzioni continue note, poiche' e' facile ottenere nuove forme con trasformazioni. In un libro di Statistica si potranno incontrare, oltre alla distribuzione Normale, Esponenziale e Uniforme, che tratteremo qui, di cui la distribuzione Normale occupa una posizione particolarmente centrale, anche distribuzioni Gamma, di Weibull, di Cauchy, F di Fisher, ecc... La distribuzione Uniforme su un intervallo [a,b] modelizza la scelta di un numero a caso tra a e b (X~U[a,b]). Il fatto che tutti i numeri devono avere le stesse possibilita' di essere scelti viene reso con una densita' di probabilita' costante su tutto l'intervallo, f(x) = 1/(b-a) per a≤x≤b, f(x) = 0 altrove. Vale E(X) = (a+b)/2 e Var(X)=(b-a)2/12. La probabilita' di osservare un risultato in un certo sottointervallo di [a,b] e' semplicemente il rapporto tra lunghezze del sottointervallo considerato e tutto l'intervallo [a,b]. La distribuzione Esponenziale di parametro λ (X~Exp(λ)) e' un modello semplice per la durata di un fenomeno (abbiamo sempre X≥0...). La sua densita' e' f(x) = λe-λx per x≥0, f(x)=0 altrove. Questa densita' e' facile da integrare e la funzione di ripartizione F(a) = 1 - e-λa per a≥0, E(X) = 1/λ e Var(X) = 1/λ2. La distribuzione Normale e' basata sulla forma chiamata Normale standard o N(0,1) (dove 0 indica il valore atteso e 1 la varianza) con densita' di probabilita'

!

"(x) =12#

e$x2 / 2, $% < x <%

Questa densita' e' simmetrica attorno a x=0, con classica forma "a campana". La funzione di ripartizione (P(Z≤a) per vari valori di a) non si puo' scrivere in modo classicamente esplicito, viene tradizionalmente denotata Φ(a) e si trova in (quasi) ogni libro di Statistica sotto forma di tabella. Alcuni valori noti sono Φ(0)=1/2 (per via della simmetria e il fatto che l'area intera deve essere 1), Φ(1.64) - Φ(-1.64)=0.90, Φ(1.96) - Φ(-1.96) = 0.95, Φ(2.58) - Φ(-2.58) = 0.99. Questi ultimi sono intervalli di contenuto convenzionalmente ritenuto "grande", dando la

Page 13: Statistica descrittiva semplice - DidatticaWEB

quasi certezza, con vari gradi di certezza, che un'osservazione si trovera' entro questi intervalli. Una distribuzione Normale piu' generale (X~N(µ,σ2)) si puo' definire a partire da una variabile Z~N(0,1), mediante la trasformazione X = µ+σZ, dando cosi' a X valore atteso = µ e varianza = σ2. Per il calcolo di probabilita' si usa la standardizzazione, cioe' il fatto che (X-µ)/σ = Z che ha distribuzione N(0,1), consultabile nella tabella Normale standard. Quindi P(X≤a) = P(µ+σZ≤a) = P(Z≤ (a-µ)/σ) = Φ((a-µ)/σ). Vedendo la standizzazione "al contrario", si puo' per esempio ricordare che una v.a. con distribuzione N(µ,σ2) ha probabilita' 95% di avere un valore nel intervallo µ±1.96σ, cioe' [µ-1.96σ,µ+1.96σ], per qualsiasi valore di µ e σ. Esercizi 30) Dimostrare che se X e' una v.a. con distribuzione uniforme su [0,1], Y = a + (b-a)X ha distribuzione uniforme su [a,b]. Al contrario, se Y ~ U[a,b], X = (Y-a)/(b-a) ha distribuzione U[0,1]. 31) Dimostrare che, se X ~ Exp(λ), allora Y=λX ~ Exp(1) e W=e-λX ha distribuzione Uniforme su [0,1]. 32) Dimostrare che, se X ~ Exp(λ), allora vale che P(X>t+s|X>s) = P(X>t) (proprieta' chiamata "senza memoria", perche' passato un tempo s senza evento finale (X>s), e' come se il tempo d'attesa ricominciasse da capo (la probabilita' di aspettare almeno t ancora e' uguale alla probabilita' di aspettare almeno t, calcolata dall'inizio...). 33) Dimostrare che, con Z~N(0,1), P(-c ≤ Z ≤ c) = 2Φ(c)-1 per ogni c≥0 e dunque che, se per esempio si vuole P(-c ≤ Z ≤ c) = 0.95, si dev vervare c tale che Φ(c) = 0.975. 34) Quale delle seguenti probabilita' e' piu' grande: P(X>1) con X~N(0,1), P(Y>2) con Y~N(1,1) e P(W>3) con W~N(2,4)?

Page 14: Statistica descrittiva semplice - DidatticaWEB

La Legge dei Grandi Numeri e il Teorema Limite Centrale Due dei grandi e fondamentali risultati nel Calcolo delle Probabilita' sono la Legge dei Grandi Numeri (LLN = Law of Large Numbers) e il Teorema Limite Centrale (CLT = Central Limit Theorem) che dimostrano che, malgrado la teoria tratti di fenomeni casuali o variabili, ci sono certi aspetti regolari o prevedibili che emergono quando si possono fare molte osservazioni (risultati asintotici = "per n grande"...). Sempre supponendo di avere a disposizione delle v.a. X1, X2, ...,Xn indipendenti, tutte con la stessa distribuzione non meglio specificata, nella quale pero' il valore atteso si denota µ e la varianza σ2, la LLN dice che la media empirica

!

X = X1 + ...+ Xn

n

converge a µ, cioe', per n grande, prende valori quasi certamente molto vicini a µ. Questo non vuol dire che la somma al numeratore debba per forza prendere valori vicini a nµ, solo che le deviazioni sono di grandezza minore di n (infatti il CLT precisa che le deviazioni piu' probabili sono del ordine di qualche multiplo di

!

n ...). Si puo' dunque stimare il valore di µ in una distribuzione qualsiasi facendo un numero grande (non si sa pero' quanti, con esattezza...) di osservazioni e calcolando la media mepirica delle osservazioni. Il teorema CLT aggiunge un po' di informazioni su come avviene questa convergenza. Un modo per formulare il CLT e' di esplicitare quanto saranno grandi, con alta probabilita', le deviazioni tra la media empirica e il parametro µ. In questa forma, la distribuzione di

!

n (X "µ) ha una distribuzione di probabilita' molto simile alla distribuzione N(0,σ2), per n grande, e dunque e' per esempio possibile dire che la probabilita' che la distanza tra

!

X e

!

µ =

!

| X "µ | sia piu' piccola di 1.96

!

"n

e' vicina a 95% (se non si conosce σ, si puo' stimare con s,

vedere sotto...). Molte delle distribuzioni note sopra possono essere cosi' approssimate con la distribuzione normale, per esempio Bin(n,p) (perche' somma di n risultati di esperimenti individuali...) e Poisson(λ) per λ grande (perche' somma di molte Po(1)...). Queste approssimazioni prendono la forma operativa seguente:

se X~Bin(n,p) e n grande, allora

!

X " npnp(1" p)

ha una distribuzione simile a N(0,1);

L'immagine mostra come una densita' normale con media 12 e sd 3 approssimi bene una distribuzione Bin(48,1/4) (controllare la corrispondenza di valore atteso e deviazione standard...)

Page 15: Statistica descrittiva semplice - DidatticaWEB

Se X~Po(λ) e λ grande, allora

!

X " ##

ha una distribuzione simile a N(0,1);

inoltre, molte altre quantita' basate su molte osservazioni (ma non tutte !!), anche se non direttamente riconoscibili come somme, possono comunque essere approssimate con la distribuzione normale, dopo corretta standardizzazione...

Page 16: Statistica descrittiva semplice - DidatticaWEB

Dati, modelli statistici, st imatori, st ime, errori standard e intervall i di confidenza Nelle varie distribuzioni descritte sopra, ci sono quasi sempre dei parametri che specificano esattamente la distribuzione entro la classe piu' grande del tipo desiderato (per esempio p in Bin(n.p), µ oppure σ oppure tutti e due in N(µ,σ2), ecc...). Un modello statistico per delle osservazioni consiste nell'assumere che le osservazioni X1, X2, ...,Xn siano per esempio

indipendenti, con distribuzione Normale con valore atteso µ e varianza σ2 , ma che questi parametri siano ignoti e che bisogna stimarli dalle osservazioni. I parametri possono essere stimati calcolando delle apposite funzioni delle osservazioni. Se X1, X2, ...,Xn sono indipendenti con distribuzione N(µ,σ2), si stima

µ con

!

) µ =

!

X = X1 + ...+ Xn

n e

σ2 con

!

s2 =1

n "1(Xi " X )2

i# .

Se X ~ Bin(n,p), p si stima con

!

) p = Xn

.

E' importante capire che le stime non saranno esatte ma varieranno, in funzione delle osservazioni fatte, attorno ai parametri che si vogliono stimare, con una certa distribuzione, con un certo valore atteso e una certa varianza. La deviazione standard di uno stimatore si dice errore standard e, nei casi di

!

) µ e

!

) p , si puo' calcolare usando le regole generali per varianze e somme. Risulta che Var(

!

) µ ) = σ2/n e dunque SD(

!

) µ ) =

!

"n

.

Se, come di solito succede, anche σ e' ignoto, si puo' usare la stima

!

s = s2 e si ottiene cosi' il e.s.e (estimated standard error) di

!

) µ della forma

!

sn

.

Lo stesso si puo' fare per

!

) p , con Var(

!

) p ) = p(1-p)/n e

e.s.e.(

!

) p ) =

!

) p (1" ) p )n

.

L'importanza del calcolo dell' e.s.e degli stimatori sta nel fatto che la distribuzione di questi stimatori, per n non troppo piccolo, e' approssimativamente di tipo normale e dunque e' possibile calcolare intervalli di confidenza di livello per esempio 95% con la formula "stimatore ± 1.96⋅ e.s.e.". La proprieta' interessante di un intervallo di confidenza e' che l'intervallo cosi' calcolato ha probabilita' appunto 95% (se il livello scelto e' questo...) di contenere il vero valore del parametro e cosi' oltre al valore dello stimatore, la larghezza dell'intervallo ci informa circa la precisione con la quale possiamo stimare il parametro con un dato grado di sicurezza. In quasi tutti i casi pratici, ci si affida a questa approssimazione normale per la scelta dei multipli adatti dell'e.s.e per ottenere un livello di confidenza prefissato. Solo per il caso esattamente normale (cioe' quando le osservazioni si assumono avere distribuzione Normale), si conosce in forma esplicita una correzione per l'uso di s invece di σ. Questa correzione consiste nell'usare percentile dalla tabella detta di "distribuzione t di Student" invece che dalla tabella Normale standard; gli intervalli risultano un po' piu' ampi di quelli normali, ma la differenza e' insignificante per n≥50, circa. Esercizi 35) Lanciando una moneta 100 volte, si osserva X = 55 "Testa". Assumendo X~Bin(100,p), stimare p e calcolare un intervallo di confidenza al livello 95% per p. 36) Supponiamo che p sia circa 1/2 in una serie di esperimenti binari. Quante osservazione bisogna fare per avere un intervallo di confidenza per p al livello 95% di lunghezza totale

Page 17: Statistica descrittiva semplice - DidatticaWEB

inferiore a 0.01 (questo vorra' dire che la seconda decimale della stima sara' piu' o meno ben determinata, considerando l'arrotondamento...) 37) Supponendo di avere osservazioni indipendenti e normalmente distribuite, con n=100, media empirica = 12.5 e s2 = 1.69, calcolare un intervallo di confidenza al livello 95% per µ. 38) Supponiamo, con la stessa situazione come in 37) e con gli stessi dati, che si desidera stimare il cosi' detto coefficiente di variazione σ/µ. Cosa sarebbe ragionevole fare? 39) Supponiamo di avere osservazioni X1, X2, ...,Xn indipendenti e con distribuzione di Poisson(λ). Come si puo' stimare λ e calcolare un intervallo di confidenza al livello 95% per il parametro, supponendo n abbastanza grande per applicare l'approssimazione normale.

Page 18: Statistica descrittiva semplice - DidatticaWEB

Dati -> test e p-value Un altro modo per sintetizzare la conoscenza circa un parametro ottenuta dalle osservazioni e' di condurre un "test di significativita' statistica" rispetto a un'ipotesi rilevante circa il valore del parametro ignoto. Anche qui si puo' mirare a una certa generalita' ed esiste una teoria generale e dei metodi per definire test delle piu' svariate ipotesi e distribuzioni delle osservazioni, ma qui ci limiteremo a qualche situazione tipo. L'idea di un test di significativita' si puo' esprimere come segue: si eseguono osservazioni per stimare un parametro d'interesse nella distribuzione di queste osservazioni e, in particolare, interessa sapere se il parametro ha un valore particolare, per esempio p=1/2 nella binomiale oppure µ = 0 nella normale oppure se le osservazioni sono molto incompatibili con questo valore particolare. Come esempio si puo' pensare a una serie di lanci di una moneta (X~Bin(n,p)) per determinare se e' giusta (p=1/2) oppure no; spesso sarebbe piu' interessante concludere che p non e' uguale a un 1/2, ma per essere ragionevolmente certi di una tale conclusione bisogna poter escludere (di nuovo con ragionevole certezza, poiche' completamente certi e' difficile essere...) che p=1/2. Per fare questo, si determina i valori che X puo' ragionevolmente avere se p=1/2 (questa ipotesi sul valore di p viene chiamata H0, l'ipotesi nulla...), per esempio si trova nella distribuzione Bin(n,1/2) due limiti A e B tali che P(A≤X≤B) = 0.95. Si dice allora che si puo' "rifiutare l'ipotesi nulla al livello 5%" se il valore osservato cade fuori dall'intervallo [A,B]. Cosi' facendo, abbiamo una procedura decisionale che, se p veramente = 1/2, "sbagliera'" con probabilita' solo 5% arrivando alla conclusione che p non e' = 1/2, e se invece p realmente non e' = 1/2 avra' probabilita' tanto piu' alta quanto p e' differente da 1/2 di "decidere" correttamente. Concretamente, assumendo l'uso della standardizzazione e dell'approssimazione normale, il test dell'ipotesi nulla p=1/2 si puo' fare calcolando la "statistica test"

!

T =X " n2n /4

che corrisponde alla standardizzazione corretta se p=1/2 e rifiutando H0 se |T| > 1.96 (di nuovo, l'idea fondamentale e' ch se p≠1/2 allora T sara' distante da n/2 perche' piu' vicino a np e allora T sara' parecchio differente da 0, cioe' |T| grande...). Il valore soglia 1.96 e' stato scelto in modo che venga superato solo con probabilita' 5% nel caso in cui p=1/2. Se si voleva un test al livello 1% (piu' sicuro che p≠1/2 se il test porta al rifuto di H0 ) si sarebbe usato il valore soglia 2.58. C'e' anche la possibilita' di non scegliere livelli prefissati, ma di invece calcolare, con l'aiuto della tabella normale, nel caso sopra, quanta probabilita' rimane a destra del valore |T| osservato e di dire che il "p-value" del test e' 2 volte questa probabilita'. Un po' di riflessione porta alla conclusione che il p-value e' il livello piu' piccolo al quale l'osservazione fatta porterebbe a rifiutare H0 oppure che misura quanto sarebbe probabile, sotto H0, avere valori piu' estremi o uguali a |T|. Piu' piccolo e' il p-value, piu' e' ragionevole ritenere che H0 non sia vera. Nel caso di una serie di osservazioni N(µ,σ2) e H0 del tipo µ = µ0, la statistica T assume la forma

!

T =X "µ0# 2 /n

ma il resto del ragionamento rimane uguale. Se non si conosce σ, si puo' sostituire con la stima s calcolata dalle osservazioni e, in questo caso, come in quello degli intervalli di confidenza, si puo' usare la correzione t per la sostituzione se n e' inferiore a 50, se no va bene usare i limiti normali. Si puo' anche osservare che la procedura descritta porta a rifiutare l'ipotesi che µ abbia un certo valore se questo valore non sta nell'intervallo di confidenza per µ calcolato dalle osservazioni. Il livello di confidenza 95% corrisponde al livello di significativita 5% del test...

Page 19: Statistica descrittiva semplice - DidatticaWEB

Questo test puo' anche essere fatto per valutare se c'e' differenza significativa tra due medie di due gruppi distinti. In questo caso, al numeratore ci sara' la differenza tra le due medie (il valore µ0 corrispondente all'ipotesi di medie uguali sara' 0) e al denominatore l'espressione (= errore standard della differenza di due medie di gruppi distinti con rispettive varianze e numerosita')

!

"12

n1+" 22

n2

Tipicamente, le due varianze di popolazione saranno ignote e saranno stimate dalle corrispondenti varianze campionarie

!

s12 e

!

s22. Il valore della statistica test sara' confrontato con

i percentili della tabella normale (cioe' rifiutare l'ipotesi nulla di medie di popolazione uguali se la statistica test supera 1.96, al livello 5%, per esempio), se i due campioni sono abbastanza grandi. Si puo' anche usare anche la tabella del t-test dopo un calcolo approssimato di gradi di liberta' secondo la formula di Satterthwaite (t-test di Welch per due gruppi). Inoltre, ipotizzando che la varianza sia uguale nei due gruppi, si puo' calcolare una sola stima comune

!

s2 =(n1 "1)s1

2 + (n2 "1)s22

(n1 "1) + (n2 "1)

e il denominatore della statistica test diventa allora

!

s 1n1

+1n2

In questo caso, se si usa la tavola del t di Student, i gradi di liberta' sono

!

(n1 "1) + (n2 "1) , (t-test di Student per due gruppi). Il test χ2 (chi-quadro) serve invece a valutare l'ipotesi di omogeneita' (stessa distribuzione) di variabili qualitative (e' la stessa cosa che indipendenza tra i due criteri di classificazione della tabella). Il tipico caso e' due variabili con due classi cxiascuna. Classicamente si dispongono i risultati in una tabellina 2x2, calcolando anche le somme marginali: a b r1 c d r2 c1 c2 n Le due prime colonne distinguono i gruppi, le due prime righe "successi" e "fallimenti", i simboli c1 e c2 stanno per somme di colonne, r1 e r2 somme per righe e n e' il totale delle osservazioni. Visto che il test tratta dell'uguaglianza o meno di due distribuzioni binomiali (una per gruppo), fondamentalmente si confrontano a/c1 e b/c2 e si vede se sono "abbastanza" differenti per poter rifiutare l'ipotesi di uguaglianza delle proporzioni di popolazione, oppure no. La statistica test classica e'

!

T =n(ad " bc)2

c1c2r1r2

e si rifiuta l'ipotesi nulla se il valore di T e' grande (questa formula e' un caso particolare della formula generale sotto e si trova semplificando algebricamente la somma delle 4 deviazioni di ogni cella dai valori attesi...). Se i numeri coinvolti nella tabella non sono troppo piccoli (di solito, basta almeno 5 in ogni cella), i limiti di riferimento si trovano nella distribuzione detta χ2 con un grado di liberta' (vedere tabelle in fondo a un libro di statistica). Comunque, il valore di riferimento corrispondente al livello 5% e' 3.84. Questo test puo' anche essere esteso a piu' di due gruppi e a piu' di due categorie per gruppo. Si parla allora di una tabella di contingenza con r righe e c colonne. In questo caso la statistica T si calcola secondo la formula

Page 20: Statistica descrittiva semplice - DidatticaWEB

!

T =(Oc " Ec )

2

Eccelle#

dove

!

Oc rappresenta il valore osservato in una cella della tabella e

!

Ec il valore atteso sotto l'ipotesi di omogeneita', che si calcola come il prodotto delle somme marginali di stessa riga e colonna della cella considerata diviso n. Si rifiuta l'ipotesi di omogeneita' (uguale distribuzione) se il valore di T supera un adatto percentile della distribuzione Chi-quadro con (r-1)(c-1) gradi di liberta'. Esercizi 40) Si lancia una moneta 100 volte con risultato X = 59. Si puo' dire che la moneta non e' bilanciata? 41) Si vuole controllare la taratura di uno strumento misurando ripetutamente un campione controllo, di valore noto, registrando ogni volta la deviazione prodotta dallo strumento. Dopo 10 misurazioni, la media di queste misure risulta 0.015 e la stima s della deviazione standard 0.010. Cosa si puo' dire dell'errore sistematico dello strumento? 42) Su un'isola, controllando 20 uccelli se ne trovano 8 con il becco giallo. Su un'isola vicina, su 30 uccelli, 15 hanno il becco giallo. C'e' evidenza forte che la composizione genetica delle due popolazioni sia differente? 43) Si vuole accertare se una certa dieta abbia un effetto su una data misura fisiologica. Percio', si sceglie un gruppo di cento persone, si misura la caratteristica fisiologica prima di iniziare la dieta, si fa la dieta per un certo periodo e poi, su ogni persona, si rimisura la caratteristica, osservando dunque 100 differenza tra "prima e dopo". Assumendo un modello normale e osservando una differenza media uguale a 3.14 e una stima s della deviazione standard delle differenze uguale a 2.72, fare il test di significativita' dell'ipotesi di nessuna differenza sistematica in seguito alla dieta. 44) In una classe, 40 studenti studiano un po' prima dell'esame e 60 non studiano. Nel primo gruppo, 30 passano l'esame gia' al primo tentativo, mentre nel secondo solo 10 ci riescono. Testare l'ipotesi che passare l'esame al primo tentativo sia indipendente dallo studio...

Page 21: Statistica descrittiva semplice - DidatticaWEB

Tavola della distribuzione normale standard: (nella prima colonna si riporta il valore di α, nella seconda il corrispondente quantile α/2). α zα/2 0.01 2.57 0.05 1.96 0.10 1.64 Tavola della distribuzione T di Student: (nella prima colonna si riporta il numero di gradi di liberta', nelle seguenti colonne il rispettivo quantile α/2). k |tk,(0.01)/2| |tk,(0.05)/2| |tk,(0.10)/2|

1 63.66 12.71 6.31 2 9.92 4.30 2.92 3 5.84 3.18 2.35 4 4.60 2.78 2.13 5 4.03 2.57 2.02 6 3.71 2.45 1.94 7 3.50 2.36 1.89 8 3.36 2.31 1.86 9 3.25 2.26 1.83 10 3.17 2.23 1.81 Tavole della distribuzione Chi quadrato (nella prima colonna si riporta il numero di gradi di liberta', nelle seguenti colonne il rispettivo quantile 1 − α). k χk,(1−0.01) χk,(1−0.05) χk,(1−0.10)

1 6.63 3.84 2.71 2 9.21 5.99 4.61 3 11.34 7.81 6.25 4 13.28 9.49 7.78 5 15.09 11.07 9.24 6 16.81 12.59 10.64 7 18.48 14.07 12.02 8 20.09 15.51 13.36 9 21.67 16.92 14.68 10 23.21 18.31 15.99

Page 22: Statistica descrittiva semplice - DidatticaWEB

SOLUZIONI 1) Media= 3.89, varianza= 3.61 , deviazione standard= 1.90 , mediana= 4 , moda= 3 e 4. 2) Media= 4.83, varianza= 8.57 , deviazione standard= 2.93 , mediana= 5.5, moda= 7. 3)

4 )

Le classi sono state scelte di larghezza 0.2, con centri 0.1, 0.3, ecc. 5) Visto che la media e' uguale alla somma dei numeri diviso per la numerosita', si vede che la somma dei numeri usata nel primo calcolo deve essere stata 3000. In questa somma si e' usato erroneamente 21 al posto di 27, per cui la somma giusta sarebbe dovuta essere 3006 e dunque la media corretta 30.06. Si puo' fare la stessa cosa per la varianza, ma e' piu' complicato... Il numeratore nel calcolo della varianza si puo' scrivere come la somma dei quadrati dei numeri meno n volte la media al quadrato. Il numeratore usando il valore sbagliato e' 99x35=3465; se aggiungiamo 100x30x30 abbiamo recuperato la somma dei quadrati dei numeri, usando il numero sbagliato. Questa somma e' 93465. Togliamo adesso 21x21 e aggiungiamo invece 27x27, con risultato 93753. Togliamo adesso 100x30.06x30.06 e abbiamo i numeratore corretto 3392.64 che, dividendo con 99, da' la varianza corretta 34.27. 6) Le percentuali corrette sono, in ordine di codice e correttamente arrotondate a un numero intero, 3, 18, 10,ecc da cui si vede che c'e' un errore nella seconda "fetta" del diagramma a torta... I codici 2 e 4 totalizzano 105 reclami, cioe' 27% del totale, i codici 2,3 e 7 danno 171 cioe' 45%. Dunque a) e c) sono sbagliate...

Page 23: Statistica descrittiva semplice - DidatticaWEB

7) La distribuzione cumulata e' giusta, la mediana di catrame e' (14.1+14.9)/2 (media tra sesto e settimo valore in ordine crescente) = 14.5, quella per nicotina e' 0.98 , il diagramma a barre e' corretto, considerando le differenze nella tabella di frequenze cumulate. Dunque b) e' sbagliato. 8) La somma dei primi 5 numeri e' 5x15=75. la somma dei secondi 10 numeri e' 10x12=120. La somma complessiva e' dunque 195, che deve essere divisa per 15 per dare la media, cioe' 13. 9) Bastano due numeri non nella stessa colonna... Gli altri seguono confrontando con le somme marginali rimaste... 10) Perche' ci siano tutti e 4 i semi, bisogna che le carte siano distribuite 2,1,1,1 con quattro possibilita' per il seme da 2 carte. La probabilita' di una configurazione 2,1,1,1 e'

!

132"

# $

%

& ' 131

"

# $

%

& ' 131"

# $

%

& ' 131

"

# $

%

& '

525

"

# $

%

& '

=78 (13(13(13

52 ( 51( 50 ( 49 ( 485 ( 4 ( 3( 2 (1

=219733320

e la risposta finale e' 4 volte questo = 0.26 11) 5!/2! = 60, a causa del doppio M... 12) Se il primo e' 1, il secondo ha 6 possibilita'; se il primo e' 2, il secondo ha 5 possibilita' e cosi' via... In tutto ci sono 6+5+4+3+2+1=21 possibilita' sulle 36 totali... 21/36=0.58 13) 1/52... 14) Disegnare e contare... 2 caselle dopo una mossa, 10 dopo 2 mosse... 15) Se si pensa al problema sotto la forma: ci sono 10 persone di cui 8 hanno la proprieta' A (80%) e 7 la proprieta' B, almeno 5 devono avere tutte e due le proprieta'... 16) Se si prende l'urna U1, la probabilita' di R e' 1/4, se si prende U2 la probabilita' e' 1. La probabilita' complessiva diventa 1/2x1/4 + 1/2x1=5/8. 17) Questo e' un tipico caso di Bayes... Abbiamo

!

P(U1 |R) =P(R |U1)P(U1)

P(R |U1)P(U1) + P(R |U2)P(U2)=

14 "

12

14 "

12 +1" 12

=1858

=15

18) Anche questo e' un applicazione di Bayes, ma si puo' pensare cosi, ragionando su un'ipotetica popolazione di 1000 persone: ci sono dunque 600 femmine e 400 maschi. Le femmine si suddividono in 240 con cappelli scuri e 360 con cappelli chiari, i maschi in 260 con cappelli scuri e 140 con capelli chiari. Ci sono dunque 500 individui con capelli scuri, di cui 260 maschi = 52%. 19) Disegnare i tre eventi e accertarsi che le due condizioni significano che i tre eventi sono disgiunti (tutte le intersezioni sono vuote) e dunque le probabilita' si sommano... 20) P(X>1) = 3/4, P(1.5≤X≤2.5) = 1/2, E(X) = 2 e SD(X) =

!

1/ 2 = 0.71. 21) E(X) = 7/2 e Var(X) = 35/12

Page 24: Statistica descrittiva semplice - DidatticaWEB

22) Fare tabellina... S puo' avere valori 2,3, 4, 5 e 6 con probabilita' 1/16, 4/16, 6/16, 4/16 e 1/16. E(S) = 4 e Var(S) = 1 ( si puo' anche notare che la distribuzione di X e Y sono come nell'esercizio 20 e dunque E(S) = E(X+Y) = E(X) + E(Y) = 2 + 2 = 4 e Var(S) = Var(X+Y) = (poiche' indipendenti) Var(X) + Var(Y) = 1/2 + 1/2... 23) Per trovare P(X ≤ t) bisogna integrare la densita (f(x) = 2x) sull'intervallo [0,t]. Risultato P(X ≤ t) = t2 per 0≤t≤1. Il valore atteso e' l'integrale di xf(x) su [0,1] = 2/3... 24) Calcolando E(X) e Var(X) si trova 1/2 e 1/12 (facendo gli appositi integrali). Per Y, essendo somma di 12 variabili indipendenti, troviamo E(Y) = 6 e Var(Y) = 1. 25) Media-> 5.94 inches e sd -> 1.30 inches. 26) La variabile X ha distribuzione Bin(6,1/2). P(X≥3) = P(X=3)+P(X=4)+P(X=5)+P(X=6) = 20/64+15/64+6/64+1/64=42/64. 27) Diventa Bin(n,1/3)... 28) Secondo la formula P(X>k) = P(X=k+1) + P(X=k+2) + ... = p(1-p)k + p(1-p)k+1 +... = p(1-p)k (1 + (1-p) + (1-p)2 +...) = p(1-p)k (1/(1 - (1-p))) = p(1-p)k (1/p) = (1-p)k. Questa e' la variante analitica che usa la formula per la serie geometrica convergente 1+x+x2+... = 1/(1-x) se |x| < 1. Si puo' anche usare il signficato della variabile e della probabilita' richiesta: X e' il numero di lanci necessari per ottenere il primo successo (di probabilita' p) in una serie di lanci. Richiedere che X > k vuol dire che i primi k lanci sono tutti stati fallimenti, poiche' il primo successo deve venire dopo... P( primi k lanci sono tutti fallimenti) = (1-p)k 29) P(X≤2) = P(X=0)+P(X=1)+P(X=2) =

!

e"2 + 2e"2 + 22e"2 /2!= e"2(1+ 2 + 4 /2) = 5e"2 = 0.68 30) 31) 32) 33) Per simmetria si puo' sempre dire che Φ(-c) =1-Φ(c) (l'area a sinistra di un punto negativa e' uguale all'area a destra (1-quella a sinistra) del corrispondente punto positivo). Inoltre abbiamo P(-c ≤ Z ≤ c) = P(Z ≤ c) - P(Z ≤ -c) = Φ(c) -(1-Φ(c))= 2Φ(c) -1. Se adesso vogliamo, per esempio, 2Φ(c) -1 = 0.95, dobbiamo avere 2Φ(c) = 0.95+1=1.95 e dunque Φ(c)=1.95/2=0.975... 34) Ricordandosi che bisogna standardizzare e poi guardare la tabella normale, abbiamo P(X>1)=P((X-0)/1>(1-0)/1)=1-Φ(1), P(Y>2)=P((Y-1)/1>(2-1)/1)=1-Φ(1) e P(W>3)=P((W-2)/2>(3-2)/2)=1-Φ(1/2). Visto che Φ(1/2) e' piu' piccolo di Φ(1), la probabilita' piu' grande e' la terza.

35) La stima di p e' 55/100 e l'IC e'

!

0.55 ±1.96 0.55 " 0.45100

= 0.55 ± 0.098

Page 25: Statistica descrittiva semplice - DidatticaWEB

36) Un intervallo di confidenza al 95% e' lungo 2 x

!

1.96 p(1" p)n

. Se p e' (circa) 1/2 , la

lunghezza diventa

!

2 "1.96 " 1 4 " 1 n =1.96 / n . Dobbiamo dunque risolvere

!

0.01=1.96 / n , cioe'

!

n =1.96 /0.01=196 . Dunque serve n uguale a almeno

!

1962 = 38416.

37) L'IC diventa

!

12.5 ±1.96 1.69100 =12.5 ± 0.25. usiamo il percentile normale perche' n

e' grande... 38) Nell'esercizio 37) la deviazione standard e' 1.3 e la media 12.5. Ognuno di questi due valori stima il parametro corrispondente (σ e µ). E'naturale stimare il quoziente σ/µ con 1.3/12.5= 0.104... 39) 40) Un intervallo di confidenza al 95% e'

!

0.59 ±1.96 0.59 " 0.41/100 = 0.59 ± 0.096 . Questo intervallo [0.494, 0.686] contiene il valore 0.5, per cui questo valore non si puo' rifiutare (notate pero' che siamo molto vicini al rifiuto...). 41) L'ipotesi nulla da testare e' che il valore atteso sia 0. La statistica test e'

!

T =0.015 " 00.012 /10

= 4.74 . Il valore di confronto (al livello 5%) e' 1.96 nella tabella normale e

2.26 nella tabella t con 9 gradi di liberta'. T e' comunque molto piu' grande e dunque rifiutiamo l'ipotesi nulla e concludiamo che lo strumento ha un errore sistematico significativamente differente da 0. 42) Possiamo scrivere la seguente tabella 2x2: 8 15 23 12 15 27 20 30 50 (due prime colonne=isole, righe=giallo o no + somme marginali). La statistica T diventa 0.48, molto piu' piccola del limite 3.84 del livello 5% nella tabella chi-quadro con 1 grado di liberta'. Dunque non rifiutiamo l'ipotesi nulla di uguale distribuzione, cioe' non c'e evidenza che le isole differiscano... 43) In questo caso, ogni persona e' misurata 2 volte (prima e dopo) e ci interessiamo alla differenza tra le due volte. L'ipotesi nulla e' che la differenza, in media, sia 0. Possiamo allora calcolare la statistica test T = 3.14/0.272=11.5 il che e' enormemente significativo. Osservate che in questo caso e' servita la deviazione standard delle differenze individuali, una quantita' che per esempio non si puo' calcolare se disponessimo solo delle deviazioni standard delle misurazioni prima e dopo della dieta. 44) Possiamo scrivere la seguente tabella 2x2: 30 10 40 10 50 60 40 60 100

Page 26: Statistica descrittiva semplice - DidatticaWEB

(due prime colonne=studiosi e non, righe=passare o no + somme marginali). La statistica T diventa 34.0, molto piu' grande del limite 3.84 del livello 5% nella tabella chi-quadro con 1 grado di liberta'. Dunque rifiutiamo l'ipotesi nulla di uguale distribuzione, cioe' funziona meglio studiare che non... :-)