stima per intervallowpage.unina.it/p.maffettone/didattica/mads/lezione9.pdf · stimatori di...

Met

odi p

er l’

Ana

lisi d

ei D

ati S

perim

enta

li, A

A20

09/2

010

Pier

Luc

a M

affe

ttone

Stima per intervallo

/41Lezione 9MADS

2009

Sommario della lezione 9

• Stima per intervallo– Un esempio introduttivo

• Stima per intervallo della media di una popolazione

• Stima per intervallo della varianza di una popolazione

• Stima per intervallo dei parametri di una regressione lineare

• Regione fiduciaria

• Useremo molte proprietà che abbiamo imparato a conoscere.

2

/41Lezione 9MADS

2009

Introduzione

• Talvolta è preferibile pervenire ad un intervallo di valori plausibili per un parametro piuttosto che un singolo valore: questo intervallo viene detto intervallo fiduciario.

• Come sempre, tale intervallo può essere determinato a partire dai dati sperimentali.

• L’estensione dell’intervallo dipende da una grandezza che deve essere scelta: il livello di fiducia.

• La costruzione dell’intervallo di fiducia, ovvero la stima per intervallo, si basa sulla conoscenza del tipo di VA che si sta analizzando.

3

/41Lezione 9MADS

2009

Introduzione

• Abbiamo visto nelle precedenti lezioni che statistiche del campione sperimentale sono stimatori di proprietà di distribuzioni.

• Per esempio, la media e la varianza del campione sono usate per stimare media e varianza della distribuzione.

• Abbiamo anche visto come gli stimatori siano caratterizzati da proprietà.

• Attraverso gli stimatori si perviene alla stima puntuale: la stima puntuale fornisce un numero per un parametro.

4

/41Lezione 9MADS

2009

STIMA PER INTERVALLO

• Con la stima puntuale non si pretende di determinare in modo esatto il valore del parametro incognito.

• Lo stimatore è una VA continua quindi la probabilità di stimare il parametro senza commettere errori è nulla, P(T=θ)=0, essendo nulla la probabilità che una VA continua assuma un dato valore.

• Questo aspetto motiva la scelta di aggiungere alla stima puntuale una misura dell’errore che la caratterizza.

• Ciò si può realizzare determinando un intervallo che dia sufficienti garanzie di contenere il valore vero del parametro.

• Tale intervallo è detto fiduciario (confidence interval).

5

/41Lezione 9MADS

2009

INTERVALLO FIDUCIARIO

• Un esempio:– Si consideri il risultato di una sperimentazione con n=27 dati provenienti da una

popolazione normale con media incognita µ e varianza nota σ2=44.

– Lo stimatore della media è:

– Lo stimatore della media è Gaussiano. Possiamo normalizzarlo

– Ricordando che– Possiamo scrivere:

– Da cui

Proprietà della VA media del campione

Probabilità Gaussiana Standard

6

/41Lezione 9MADS

2009


• La scrittura della precedente relazione non deve trarre in inganno circa la natura delle grandezze in gioco.

• La probabilità è riferita alla varabile aleatoria che determina gli estremi dell’intervallo, e non a µ che è una grandezza deterministica incognita

• E’ dunque pari a 0.95 la probabilità che l’intervallo aleatorio

contenga al suo interno la costante µ.

• L’intervallo in questione va sotto il nome di intervallo fiduciario, e denota l’aspettativa che la sua realizzazione associata ad un campione dato contenga al suo interno il valore di µ.– Se il campione ha media 174.5 l’intervallo è allora (172, 177)

7

/41Lezione 9MADS

2009


• L’inferenza su µ si può così riassumere: è ragionevole pensare che µ sia compresa nell’intervallo (172,177) in relazione all’altissima probabilità che l’evento

aveva a priori, ovvero prima di effettuare la sperimentazione.

• NON HA SENSO AFFERMARE CHE 0.95 E’ LA PROBABILITA’ CHE L’INTERVALLO (172,177) CONTENGA AL SUO INTERNO IL VALORE DI µ IN QUANTO MANCA UN EVENTO ALEATORIO A CUI RIFERIRE TALE PROBABILITA’.

• Possiamo riesaminare la cosa considerando di fare più sperimentazioni, ogni volta di 27 dati. – Per ogni sperimentazione possiamo considerare l’intervallo

8

/41Lezione 9MADS

2009


– Ciascun intervallo potrà contenere o meno il valore vero.– Se il numero di sperimentazioni è sufficientemente grande la frequenza relativa dei

campioni che danno luogo ad intervalli tali che è vicina a 0.95.

– E’ evidente che il generico segmento “acchiappa” µ se e solo se la media del campione sperimentale è interna all’intervallo (µ−2.5,µ+2.5)

9

(y ! 2.5 " µ " y + 2.5)

/41Lezione 9MADS

2009


• Possiamo ora dare una definizione di intervallo fiduciario:

Sia (Y1,..Yn) un campione casuale proveniente da una popolazione di cui interessa stimare il parametro θ. Siano G1=g1(Y1,..Yn) ed G2=g2(Y1,..Yn) due statistiche tali che G1≤G2.

Se si può scrivere P(G1< θ <G2)=1−α dove 1−α non dipende da θ, allora l’intervallo aleatorio (G1, G2) è un intervallo fiduciario per θ al (1−α)100%.

• La quantità 1−α va sotto il nome di coefficiente fiduciario, e G1 e G2 sono i limiti fiduciari inferiore e superiore.

• Notate che α è una misura del rischio di errore.

• In genere α=0.1, 0.05, 0.01

10

/41Lezione 9MADS

2009


• Il fattore α influenza l’ampiezza dell’intervallo di fiducia:– Per un dato valore di α tanto minore è l’ampiezza dell’intervallo tanto più precisa è la

stima.

– Al diminuire di α cresce ovviamente l’ampiezza dell’intervallo.

• Vediamo ora alcune situazioni tipiche

11

/41Lezione 9MADS

2009

INTERVALLO FIDUCIARIO PER LA MEDIA

• Assumiamo nota la varianza della popolazione

• Sia (Y1,..Yn) un campione proveniente da una popolazione N(µ,σ2) con σ2 nota.

• Sia 1−α il coefficiente fiduciario. Allora e quindi

• Presi due valori di −zα/2 e zα/2 tali che

-zα/2 zα/2

12

/41Lezione 9MADS

2009


• Allora si può scrivere:

• In definitiva l’intervallo fiduciario per µ al (1−α)100% è il seguente:

• L’ampiezza dell’intervallo decresce al crescere di N– Campioni più ricchi danno informazioni più precise – L’ampiezza dell’intervallo dipende dalla varianza sperimentale.

Formalmente correttadal punto di vista probabilistico

13

/41Lezione 9MADS

2009


ESEMPIO

• Un reologo è interessato alla viscosità a zero shear di una soluzione polimerica. Studi precedenti indicano che l’apparecchiatura utilizzata è caratterizzata da una deviazione standard sperimentale pari a 65P.

• Il reologo esegue 20 misure di viscosità ed osserva un valore medio di 1200P.

• L’intervallo fiduciario della viscosità a zero shear al 95% è il seguente:

• L’intervallo fiduciario della viscosità a zero shear al 99% è il seguente:

14

/41Lezione 9MADS

2009


ESEMPIO

• Per una popolazione normale con varianza nota pari a σ2 quanto vale il coefficiente fiduciario per l’intervallo

• Il coefficiente fiduciario si determina per il valore di zα/2 pari a 2.14.

• Dalle tavole Φ(-2.14) = P(Z<-2.14) = 0.0161

• Quindi il coefficiente fiduciario è

15

/41Lezione 9MADS

2009


ESEMPIO

• Per una popolazione normale con varianza nota pari a σ2 quale è il valore di zα/2 che fornisce un coefficiente fiduciario del 98%?

• Quindi usando le tavole o Matlab

16

/41Lezione 9MADS

2009

Varianza incognita

• Se la varianza è incognita il fatto che diventa inutile

• Infatti coinvolge una grandezza incognita (s) che determinerà l’intervallo di fiducia.

• Possiamo però sostituire lo stimatore S per σ e quindi perverremo ad una VA diversa:

• Questa VA è la t di Student.

17

/41Lezione 9MADS

2009

Variabile aleatoria t di Student

• Se la VA scalare X è gaussiana del tipo X ~ N(0, 1), e quindi ha media 0 e varianza unitaria ed Y è una VA scalare di tipo χ2 ad n gradi di libertà e se, infine, X ed Y sono indipendenti, la variabile aleatoria scalare

si chiama VA t di Student con n gradi di libertà.

• La pdf è una funzione ad un parametro (n, gradi di libertà) ed è simmetrica rispetto allo 0.

• Ha media nulla μ = 0 e varianza σ2 = n/(n - 2) (per n>2 !)

18

/41Lezione 9MADS

2009


• Assumiamo non nota la varianza della popolazione

• Sia (Y1,..Yn) un campione proveniente da una popolazione N(µ,σ2) con σ2 non nota.

• Sia 1−α il coefficiente fiduciario. Allora e quindi

• La grandezza S2 è lo stimatore della varianza sperimentale. – Come ora sappiamo bene tale stimatore è una VA di tipo– Quindi la T è una VA di tipo Student con n-1 gradi di libertà

VA tipo Student

Tipo Stimatore varianza

19

/41Lezione 9MADS

2009


• Possiamo procedere come abbiamo già fatto, usando la giusta distribuzione per valutare le probabilità

– Stiamo usando la simmetria della VA Student

20

/41Lezione 9MADS

2009


• La distribuzione t di Student è generalmente più spanciata della distribuzione normale di tipo standard.

• Pertanto ci attendiamo un intervallo di ampiezza più grande, rispetto al caso in cui la varianza sia nota in modo esatto.– D’altra parte l’incertezza è maggiore perché stiamo stimando anche la varianza

sperimentale

• USO DEL TEOREMA DEL LIMITE CENTRALE• Se il campione è grande allora il teorema ci permette di usare una normale

standardizzata al posto della Student.

21

/41Lezione 9MADS

2009


• ESEMPIO

• Un ricercatore di una azienda che produce pneumatici sta indagando sulla vita media di gomme. Produce 16 pneumatici e li verifica in test su strada fino alla loro degradazione. Il percorso di vita medio è 60139.7 km e la deviazione standard è 3645.94km. Determinate l’intervallo fiduciario al 95% della vita media (in km) degli pneumatici.

22

/41Lezione 9MADS

2009

Variabile aleatoria χ2

• Proprietà di una VA χ2 ad n gradi di libertà

23

/41Lezione 9MADS

2009

Variabile aleatoria χ2

• Probabilità di VA χ2 ad n gradi di libertà

Punto α% superiore

Punto α% inferiore

24

/41Lezione 9MADS

2009

INTERVALLO FIDUCIARIO PER LA VARIANZA

• Sia (Y1,..Yn) un campione proveniente da una popolazione N(µ,σ2) con media e varianza non note. Si vuole costruire l’intervallo fiduciario per la varianza.

• Ci basiamo sullo stimatore imparziale della varianza S2. che è una VA di tipo chi-quadro ad n-1 gradi di libertà, più precisamente:

• Sia 1−α il coefficiente fiduciario. Allora

– Dove

Stimatore non distorto dellavarianza

Equiprobabilità

25

/41Lezione 9MADS

2009

INTERVALLO FIDUCIARIO PER LA VARIANZA

• Risolvendo per la varianza si ottiene l’intervallo:

26

/41Lezione 9MADS

2009

INTERVALLO FIDUCIARIO PARAMETRI REGRESSIONE LINEARE

• IPOTESI:– Modello multilineare– Misure Gaussiane indipendenti

• Ci poniamo questo problema: vogliamo determinare per un parametro θi i due valori θi1 e θi2 tali che:

• Come abbiamo già visto, fissato il valore di α, tanto più stretto risulta l’intervallo tanto migliore è la stima del parametro.

• La stima puntuale ci fornisce un valore per il parametro, la stima dei limiti di fiducia ci fornisce una misura della bontà della stima puntuale dei parametri della regressione.

27

/41Lezione 9MADS

2009


• Intervallo fiduciario per la media con varianza non nota

• Definiamo una misura della distanza del valore stimato dal valore vero:– Distanza assoluta:

– Distanza relativa:

• Di che tipo di VA si tratta?

Regressione multilineare

28

s2!̂i

=!XT · X

"!1

iis2

!̂i ! !i

!̂i ! !i

s!̂i

/41Lezione 9MADS

2009


• È simile ad una T di Student:

29

/41Lezione 9MADS

2009


• La variabile aleatoria Z e la chi-quadro sono indipendenti (il teorema della partizione). Quindi il problema alla fine si traduce nella seguente equazione:

• Di nuovo, fissato il valore di α, possiamo risolvere il problema o con l’ausilio di tabelle o con l’ausilio del calcolatore.

30

/41Lezione 9MADS

2009


• In definitiva si perviene al seguente risultato:

• Per N>>1 ed α=0.05 tN-P,α/2≅2

• NB: t dipende da N-P, ed α. Le stime migliorano se N cresce (ma lentamente).

Nel caso lineare semplice, il modello del processo a x+bse la varianza non è nota

Stimatori dei parametri modello lineare semplice

31

/41Lezione 9MADS

2009


• Fissato un valore della variabile indipendente, x0, quale sarà il valore medio della variabile dipendente Y ad esso associato?

• Il parametro di interesse è E(Y | x = x0)=b+a x0

– E’ una media condizionata di Y funzione dei due parametri del modello

• In termini di stima puntuale la risposta è immediata:

• Proviamo a determinare l’intervallo fiduciario per E(Y | x = x0)

– Abbiamo bisogno della distribuzione di– Nelle solite ipotesi gaussiane la cosa è abbastanza agevole

32

/41Lezione 9MADS

2009


• Ricordiamoci della relazione tra gli stimatori di a e b:

• Allora conviene scrivere:– Quindi la VA è una combinazione lineare di due Gaussiane indipendenti (si può dimostrare

che la covarianza è nulla ed essendo Gaussiane esse sono indipendenti)

• Quindi con la regola di trasformazione delle VA

Trasformazione di VA Gaussiane

33

/41Lezione 9MADS

2009


• Procediamo come abbiamo già fatto. Il rapporto

è una VA di Student con n-2 gradi di libertà.

• Quindi è abbastanza facile pervenire all’intervallo fiduciario

34

/41Lezione 9MADS

2009


• L’ampiezza dell’intervallo è

• Notate che questa ampiezza dipende dal valore di x0 ed è minima per

35

/41Lezione 9MADS

2009


• Per un caso specifico si ottiene

36

/41Lezione 9MADS

2009

REGIONI FIDUCIARIE

• In realtà noi abbiamo stimato un vettore di parametri. Quindi siamo interessati a determinare nello spazio dei parametri la regione fiduciaria.

• Se presumiamo di conoscere la varianza sperimentale, si può mostrare che la seguente variabile aleatoria è una χ2 ad nk(#parametri) gradi di libertà:

• Se la varianza non è nota si perviene ad una VA di tipo Fisher a nk e n-nk gradi di libertà.

Perché?

VA tipo F di Fisher

37

!̂ ! N!!̂, V

"

V = "2#XT · X

$!1

/41Lezione 9MADS

2009

INTERVALLI FIDUCIARI CONGIUNTI

• Procedura (caso Fisher):– Scegliere α– Calcolare il valore c tale che:

• Dove F è la distribuzione F di Fisher ad nk e n-nk gradi di libertà.

– La regione congiunta di fiducia per i coefficienti della regressione è la regione definita dalla diseguaglianza:

• Nello spazio dei parametri tale regione è un ellissoide centrato sul valore stimato dei parametri.

38

/41Lezione 9MADS

2009

INTERVALLI FIDUCIARI CONGIUNTI

• La regione congiunta di fiducia non coincide con gli intervalli di fiducia (nk=2):

• Il punto A appartiene ai singoli intervalli di fiducia, ma non appartiene alla regione congiunta

39

/41Lezione 9MADS

2009

Sommario

• La costruzione degli intervalli fiduciari segue questo approccio:– Scegliamo una statistica G.

– Scegliamo una probabilità α tanto grande da non preoccuparci del fatto che possa verificarsi l’evento con probabilità 1−α.

– Per un parametro θ calcoliamo l’intervallo C(θ) tale che P[G∈C(θ)]=α

– In genere (ma non sempre) l’intervallo è simmetrico rispetto al valore atteso di G

– Facciamo la sperimentazione ed otteniamo il valore stimato per G

– L’intervallo fiduciario è l’insieme di tutti i valori di θ per cui g cade in C(θ).

40

/41Lezione 9MADS

2009

Sommario

• Stima per intervallo– Un esempio introduttivo

• Stima per intervallo della media di una popolazione– Caso Varianza nota– Caso Varianza non nota

• Stima per intervallo della varianza di una popolazione

• Stima per intervallo dei parametri di una regressione lineare

• Regione fiduciaria

41

stima per intervallowpage.unina.it/p.maffettone/didattica/mads/lezione9.pdf · stimatori di...

Documents