stima per intervallowpage.unina.it/p.maffettone/didattica/mads/lezione9.pdf · stimatori di...
TRANSCRIPT
Met
odi p
er l’
Ana
lisi d
ei D
ati S
perim
enta
li, A
A20
09/2
010
Pier
Luc
a M
affe
ttone
Stima per intervallo
/41Lezione 9MADS
2009
Sommario della lezione 9
• Stima per intervallo– Un esempio introduttivo
• Stima per intervallo della media di una popolazione
• Stima per intervallo della varianza di una popolazione
• Stima per intervallo dei parametri di una regressione lineare
• Regione fiduciaria
• Useremo molte proprietà che abbiamo imparato a conoscere.
2
/41Lezione 9MADS
2009
Introduzione
• Talvolta è preferibile pervenire ad un intervallo di valori plausibili per un parametro piuttosto che un singolo valore: questo intervallo viene detto intervallo fiduciario.
• Come sempre, tale intervallo può essere determinato a partire dai dati sperimentali.
• L’estensione dell’intervallo dipende da una grandezza che deve essere scelta: il livello di fiducia.
• La costruzione dell’intervallo di fiducia, ovvero la stima per intervallo, si basa sulla conoscenza del tipo di VA che si sta analizzando.
3
/41Lezione 9MADS
2009
Introduzione
• Abbiamo visto nelle precedenti lezioni che statistiche del campione sperimentale sono stimatori di proprietà di distribuzioni.
• Per esempio, la media e la varianza del campione sono usate per stimare media e varianza della distribuzione.
• Abbiamo anche visto come gli stimatori siano caratterizzati da proprietà.
• Attraverso gli stimatori si perviene alla stima puntuale: la stima puntuale fornisce un numero per un parametro.
4
/41Lezione 9MADS
2009
STIMA PER INTERVALLO
• Con la stima puntuale non si pretende di determinare in modo esatto il valore del parametro incognito.
• Lo stimatore è una VA continua quindi la probabilità di stimare il parametro senza commettere errori è nulla, P(T=θ)=0, essendo nulla la probabilità che una VA continua assuma un dato valore.
• Questo aspetto motiva la scelta di aggiungere alla stima puntuale una misura dell’errore che la caratterizza.
• Ciò si può realizzare determinando un intervallo che dia sufficienti garanzie di contenere il valore vero del parametro.
• Tale intervallo è detto fiduciario (confidence interval).
5
/41Lezione 9MADS
2009
INTERVALLO FIDUCIARIO
• Un esempio:– Si consideri il risultato di una sperimentazione con n=27 dati provenienti da una
popolazione normale con media incognita µ e varianza nota σ2=44.
– Lo stimatore della media è:
– Lo stimatore della media è Gaussiano. Possiamo normalizzarlo
– Ricordando che– Possiamo scrivere:
– Da cui
Proprietà della VA media del campione
Probabilità Gaussiana Standard
6
/41Lezione 9MADS
2009
INTERVALLO FIDUCIARIO
• La scrittura della precedente relazione non deve trarre in inganno circa la natura delle grandezze in gioco.
• La probabilità è riferita alla varabile aleatoria che determina gli estremi dell’intervallo, e non a µ che è una grandezza deterministica incognita
• E’ dunque pari a 0.95 la probabilità che l’intervallo aleatorio
contenga al suo interno la costante µ.
• L’intervallo in questione va sotto il nome di intervallo fiduciario, e denota l’aspettativa che la sua realizzazione associata ad un campione dato contenga al suo interno il valore di µ.– Se il campione ha media 174.5 l’intervallo è allora (172, 177)
7
/41Lezione 9MADS
2009
INTERVALLO FIDUCIARIO
• L’inferenza su µ si può così riassumere: è ragionevole pensare che µ sia compresa nell’intervallo (172,177) in relazione all’altissima probabilità che l’evento
aveva a priori, ovvero prima di effettuare la sperimentazione.
• NON HA SENSO AFFERMARE CHE 0.95 E’ LA PROBABILITA’ CHE L’INTERVALLO (172,177) CONTENGA AL SUO INTERNO IL VALORE DI µ IN QUANTO MANCA UN EVENTO ALEATORIO A CUI RIFERIRE TALE PROBABILITA’.
• Possiamo riesaminare la cosa considerando di fare più sperimentazioni, ogni volta di 27 dati. – Per ogni sperimentazione possiamo considerare l’intervallo
8
/41Lezione 9MADS
2009
INTERVALLO FIDUCIARIO
– Ciascun intervallo potrà contenere o meno il valore vero.– Se il numero di sperimentazioni è sufficientemente grande la frequenza relativa dei
campioni che danno luogo ad intervalli tali che è vicina a 0.95.
– E’ evidente che il generico segmento “acchiappa” µ se e solo se la media del campione sperimentale è interna all’intervallo (µ−2.5,µ+2.5)
9
(y ! 2.5 " µ " y + 2.5)
/41Lezione 9MADS
2009
INTERVALLO FIDUCIARIO
• Possiamo ora dare una definizione di intervallo fiduciario:
Sia (Y1,..Yn) un campione casuale proveniente da una popolazione di cui interessa stimare il parametro θ. Siano G1=g1(Y1,..Yn) ed G2=g2(Y1,..Yn) due statistiche tali che G1≤G2.
Se si può scrivere P(G1< θ <G2)=1−α dove 1−α non dipende da θ, allora l’intervallo aleatorio (G1, G2) è un intervallo fiduciario per θ al (1−α)100%.
• La quantità 1−α va sotto il nome di coefficiente fiduciario, e G1 e G2 sono i limiti fiduciari inferiore e superiore.
• Notate che α è una misura del rischio di errore.
• In genere α=0.1, 0.05, 0.01
10
/41Lezione 9MADS
2009
INTERVALLO FIDUCIARIO
• Il fattore α influenza l’ampiezza dell’intervallo di fiducia:– Per un dato valore di α tanto minore è l’ampiezza dell’intervallo tanto più precisa è la
stima.
– Al diminuire di α cresce ovviamente l’ampiezza dell’intervallo.
• Vediamo ora alcune situazioni tipiche
11
/41Lezione 9MADS
2009
INTERVALLO FIDUCIARIO PER LA MEDIA
• Assumiamo nota la varianza della popolazione
• Sia (Y1,..Yn) un campione proveniente da una popolazione N(µ,σ2) con σ2 nota.
• Sia 1−α il coefficiente fiduciario. Allora e quindi
• Presi due valori di −zα/2 e zα/2 tali che
-zα/2 zα/2
12
/41Lezione 9MADS
2009
INTERVALLO FIDUCIARIO PER LA MEDIA
• Allora si può scrivere:
• In definitiva l’intervallo fiduciario per µ al (1−α)100% è il seguente:
• L’ampiezza dell’intervallo decresce al crescere di N– Campioni più ricchi danno informazioni più precise – L’ampiezza dell’intervallo dipende dalla varianza sperimentale.
Formalmente correttadal punto di vista probabilistico
13
/41Lezione 9MADS
2009
INTERVALLO FIDUCIARIO PER LA MEDIA
ESEMPIO
• Un reologo è interessato alla viscosità a zero shear di una soluzione polimerica. Studi precedenti indicano che l’apparecchiatura utilizzata è caratterizzata da una deviazione standard sperimentale pari a 65P.
• Il reologo esegue 20 misure di viscosità ed osserva un valore medio di 1200P.
• L’intervallo fiduciario della viscosità a zero shear al 95% è il seguente:
• L’intervallo fiduciario della viscosità a zero shear al 99% è il seguente:
14
/41Lezione 9MADS
2009
INTERVALLO FIDUCIARIO PER LA MEDIA
ESEMPIO
• Per una popolazione normale con varianza nota pari a σ2 quanto vale il coefficiente fiduciario per l’intervallo
• Il coefficiente fiduciario si determina per il valore di zα/2 pari a 2.14.
• Dalle tavole Φ(-2.14) = P(Z<-2.14) = 0.0161
• Quindi il coefficiente fiduciario è
15
/41Lezione 9MADS
2009
INTERVALLO FIDUCIARIO PER LA MEDIA
ESEMPIO
• Per una popolazione normale con varianza nota pari a σ2 quale è il valore di zα/2 che fornisce un coefficiente fiduciario del 98%?
• Quindi usando le tavole o Matlab
16
/41Lezione 9MADS
2009
Varianza incognita
• Se la varianza è incognita il fatto che diventa inutile
• Infatti coinvolge una grandezza incognita (s) che determinerà l’intervallo di fiducia.
• Possiamo però sostituire lo stimatore S per σ e quindi perverremo ad una VA diversa:
• Questa VA è la t di Student.
17
/41Lezione 9MADS
2009
Variabile aleatoria t di Student
• Se la VA scalare X è gaussiana del tipo X ~ N(0, 1), e quindi ha media 0 e varianza unitaria ed Y è una VA scalare di tipo χ2 ad n gradi di libertà e se, infine, X ed Y sono indipendenti, la variabile aleatoria scalare
si chiama VA t di Student con n gradi di libertà.
• La pdf è una funzione ad un parametro (n, gradi di libertà) ed è simmetrica rispetto allo 0.
• Ha media nulla μ = 0 e varianza σ2 = n/(n - 2) (per n>2 !)
18
/41Lezione 9MADS
2009
INTERVALLO FIDUCIARIO PER LA MEDIA
• Assumiamo non nota la varianza della popolazione
• Sia (Y1,..Yn) un campione proveniente da una popolazione N(µ,σ2) con σ2 non nota.
• Sia 1−α il coefficiente fiduciario. Allora e quindi
• La grandezza S2 è lo stimatore della varianza sperimentale. – Come ora sappiamo bene tale stimatore è una VA di tipo– Quindi la T è una VA di tipo Student con n-1 gradi di libertà
VA tipo Student
Tipo Stimatore varianza
19
/41Lezione 9MADS
2009
INTERVALLO FIDUCIARIO PER LA MEDIA
• Possiamo procedere come abbiamo già fatto, usando la giusta distribuzione per valutare le probabilità
– Stiamo usando la simmetria della VA Student
20
/41Lezione 9MADS
2009
INTERVALLO FIDUCIARIO PER LA MEDIA
• La distribuzione t di Student è generalmente più spanciata della distribuzione normale di tipo standard.
• Pertanto ci attendiamo un intervallo di ampiezza più grande, rispetto al caso in cui la varianza sia nota in modo esatto.– D’altra parte l’incertezza è maggiore perché stiamo stimando anche la varianza
sperimentale
• USO DEL TEOREMA DEL LIMITE CENTRALE• Se il campione è grande allora il teorema ci permette di usare una normale
standardizzata al posto della Student.
21
/41Lezione 9MADS
2009
INTERVALLO FIDUCIARIO PER LA MEDIA
• ESEMPIO
• Un ricercatore di una azienda che produce pneumatici sta indagando sulla vita media di gomme. Produce 16 pneumatici e li verifica in test su strada fino alla loro degradazione. Il percorso di vita medio è 60139.7 km e la deviazione standard è 3645.94km. Determinate l’intervallo fiduciario al 95% della vita media (in km) degli pneumatici.
22
/41Lezione 9MADS
2009
Variabile aleatoria χ2
• Proprietà di una VA χ2 ad n gradi di libertà
23
/41Lezione 9MADS
2009
Variabile aleatoria χ2
• Probabilità di VA χ2 ad n gradi di libertà
Punto α% superiore
Punto α% inferiore
24
/41Lezione 9MADS
2009
INTERVALLO FIDUCIARIO PER LA VARIANZA
• Sia (Y1,..Yn) un campione proveniente da una popolazione N(µ,σ2) con media e varianza non note. Si vuole costruire l’intervallo fiduciario per la varianza.
• Ci basiamo sullo stimatore imparziale della varianza S2. che è una VA di tipo chi-quadro ad n-1 gradi di libertà, più precisamente:
• Sia 1−α il coefficiente fiduciario. Allora
– Dove
Stimatore non distorto dellavarianza
Equiprobabilità
25
/41Lezione 9MADS
2009
INTERVALLO FIDUCIARIO PER LA VARIANZA
• Risolvendo per la varianza si ottiene l’intervallo:
26
/41Lezione 9MADS
2009
INTERVALLO FIDUCIARIO PARAMETRI REGRESSIONE LINEARE
• IPOTESI:– Modello multilineare– Misure Gaussiane indipendenti
• Ci poniamo questo problema: vogliamo determinare per un parametro θi i due valori θi1 e θi2 tali che:
• Come abbiamo già visto, fissato il valore di α, tanto più stretto risulta l’intervallo tanto migliore è la stima del parametro.
• La stima puntuale ci fornisce un valore per il parametro, la stima dei limiti di fiducia ci fornisce una misura della bontà della stima puntuale dei parametri della regressione.
27
/41Lezione 9MADS
2009
INTERVALLO FIDUCIARIO PARAMETRI REGRESSIONE LINEARE
• Intervallo fiduciario per la media con varianza non nota
• Definiamo una misura della distanza del valore stimato dal valore vero:– Distanza assoluta:
– Distanza relativa:
• Di che tipo di VA si tratta?
Regressione multilineare
28
s2!̂i
=!XT · X
"!1
iis2
!̂i ! !i
!̂i ! !i
s!̂i
/41Lezione 9MADS
2009
INTERVALLO FIDUCIARIO PARAMETRI REGRESSIONE LINEARE
• È simile ad una T di Student:
29
/41Lezione 9MADS
2009
INTERVALLO FIDUCIARIO PARAMETRI REGRESSIONE LINEARE
• La variabile aleatoria Z e la chi-quadro sono indipendenti (il teorema della partizione). Quindi il problema alla fine si traduce nella seguente equazione:
• Di nuovo, fissato il valore di α, possiamo risolvere il problema o con l’ausilio di tabelle o con l’ausilio del calcolatore.
30
/41Lezione 9MADS
2009
INTERVALLO FIDUCIARIO PARAMETRI REGRESSIONE LINEARE
• In definitiva si perviene al seguente risultato:
• Per N>>1 ed α=0.05 tN-P,α/2≅2
• NB: t dipende da N-P, ed α. Le stime migliorano se N cresce (ma lentamente).
Nel caso lineare semplice, il modello del processo a x+bse la varianza non è nota
Stimatori dei parametri modello lineare semplice
31
/41Lezione 9MADS
2009
INTERVALLO FIDUCIARIO PARAMETRI REGRESSIONE LINEARE
• Fissato un valore della variabile indipendente, x0, quale sarà il valore medio della variabile dipendente Y ad esso associato?
• Il parametro di interesse è E(Y | x = x0)=b+a x0
– E’ una media condizionata di Y funzione dei due parametri del modello
• In termini di stima puntuale la risposta è immediata:
• Proviamo a determinare l’intervallo fiduciario per E(Y | x = x0)
– Abbiamo bisogno della distribuzione di– Nelle solite ipotesi gaussiane la cosa è abbastanza agevole
32
/41Lezione 9MADS
2009
INTERVALLO FIDUCIARIO PARAMETRI REGRESSIONE LINEARE
• Ricordiamoci della relazione tra gli stimatori di a e b:
• Allora conviene scrivere:– Quindi la VA è una combinazione lineare di due Gaussiane indipendenti (si può dimostrare
che la covarianza è nulla ed essendo Gaussiane esse sono indipendenti)
• Quindi con la regola di trasformazione delle VA
Trasformazione di VA Gaussiane
33
/41Lezione 9MADS
2009
INTERVALLO FIDUCIARIO PARAMETRI REGRESSIONE LINEARE
• Procediamo come abbiamo già fatto. Il rapporto
è una VA di Student con n-2 gradi di libertà.
• Quindi è abbastanza facile pervenire all’intervallo fiduciario
34
/41Lezione 9MADS
2009
INTERVALLO FIDUCIARIO PARAMETRI REGRESSIONE LINEARE
• L’ampiezza dell’intervallo è
• Notate che questa ampiezza dipende dal valore di x0 ed è minima per
35
/41Lezione 9MADS
2009
INTERVALLO FIDUCIARIO PARAMETRI REGRESSIONE LINEARE
• Per un caso specifico si ottiene
36
/41Lezione 9MADS
2009
REGIONI FIDUCIARIE
• In realtà noi abbiamo stimato un vettore di parametri. Quindi siamo interessati a determinare nello spazio dei parametri la regione fiduciaria.
• Se presumiamo di conoscere la varianza sperimentale, si può mostrare che la seguente variabile aleatoria è una χ2 ad nk(#parametri) gradi di libertà:
• Se la varianza non è nota si perviene ad una VA di tipo Fisher a nk e n-nk gradi di libertà.
Perché?
VA tipo F di Fisher
37
!̂ ! N!!̂, V
"
V = "2#XT · X
$!1
/41Lezione 9MADS
2009
INTERVALLI FIDUCIARI CONGIUNTI
• Procedura (caso Fisher):– Scegliere α– Calcolare il valore c tale che:
• Dove F è la distribuzione F di Fisher ad nk e n-nk gradi di libertà.
– La regione congiunta di fiducia per i coefficienti della regressione è la regione definita dalla diseguaglianza:
• Nello spazio dei parametri tale regione è un ellissoide centrato sul valore stimato dei parametri.
38
/41Lezione 9MADS
2009
INTERVALLI FIDUCIARI CONGIUNTI
• La regione congiunta di fiducia non coincide con gli intervalli di fiducia (nk=2):
• Il punto A appartiene ai singoli intervalli di fiducia, ma non appartiene alla regione congiunta
39
/41Lezione 9MADS
2009
Sommario
• La costruzione degli intervalli fiduciari segue questo approccio:– Scegliamo una statistica G.
– Scegliamo una probabilità α tanto grande da non preoccuparci del fatto che possa verificarsi l’evento con probabilità 1−α.
– Per un parametro θ calcoliamo l’intervallo C(θ) tale che P[G∈C(θ)]=α
– In genere (ma non sempre) l’intervallo è simmetrico rispetto al valore atteso di G
– Facciamo la sperimentazione ed otteniamo il valore stimato per G
– L’intervallo fiduciario è l’insieme di tutti i valori di θ per cui g cade in C(θ).
40
/41Lezione 9MADS
2009
Sommario
• Stima per intervallo– Un esempio introduttivo
• Stima per intervallo della media di una popolazione– Caso Varianza nota– Caso Varianza non nota
• Stima per intervallo della varianza di una popolazione
• Stima per intervallo dei parametri di una regressione lineare
• Regione fiduciaria
41