appunti di statistica matematica -...

131
Appunti di Statistica Matematica Rita Giuliano e Maurizio Pratelli 1

Upload: others

Post on 07-Sep-2019

5 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Appunti di Statistica Matematica - people.dm.unipi.itpeople.dm.unipi.it/giuliano/dispensestatisticamatematica.pdf · 1. Modelli statistici (1.1) Esempio di partenza. L’analisi di

Appunti di Statistica Matematica

Rita Giuliano e Maurizio Pratelli

1

Page 2: Appunti di Statistica Matematica - people.dm.unipi.itpeople.dm.unipi.it/giuliano/dispensestatisticamatematica.pdf · 1. Modelli statistici (1.1) Esempio di partenza. L’analisi di

1. Modelli statistici

(1.1) Esempio di partenza. L’analisi di qualita.

Si vuole analizzare la qualita dei pezzi prodotti da una ditta. C’e una probabilita p (non nota)che il generico pezzo sia difettoso. Lo scopo e quello di stimare p. Si considera allora un campionedi n pezzi (con n noto) e poniamo X = numero di pezzi difettosi (fra gli n scelti). Sappiamo cheX ∼ B(n, p), cioe

P (X = k) =(

n

k

)pk(1− p)n−k, k = 0, 1, . . . , n.

Questa quantita dipende dal parametro incognito p (0 < p < 1).

La situazione e la seguente. Abbiamo(i) uno spazio campione Ω (cioe l’insieme di tutti i possibili risultati) (nel nostro esempio abbiamoΩ = 1, 2, . . . , n);(ii) una tribu F (nell’esempio e F = P(Ω));(iii) una famiglia parametrizzata di leggi di probabilita su Ω

(P θ, θ ∈ Θ

)(nell’esempio si tratta

delle leggi binomiali B(n, p). In questo caso il parametro e p. In generale, cioe quando non saremoin situazioni specifiche per le quali si usano tipicamente altre notazioni, il parametro sara indicatocon θ).Lo scopo di un’analisi statistica e quello di ottenere informazioni sul parametro θ; parlando gener-icamente, esse sono di due tipi fondamentali:(a) si vuole stimare il parametro a partire dai dati;(b) si vuole effettuare un test sul parametro.Per capire meglio, torniamo all’esempio di partenza.(a) Intuitivamente una buona stima sembra essere la quantita X/n (almeno per valori di n ra-gionevolmente grandi).(b) Supponiamo di dover effettuare un test per sapere se p ≤ 0.1 (ipotesi), e supponiamo che risultiX/n = 0.07. In questo caso l’ipotesi verra accettata con sufficiente tranquillita. Con altrettantatranquillita l’ipotesi verrebbe respinta se risultasse ad esempio X/n = 0.35.Ma come comportarsi se risultasse X/n = 0.11? Vedremo in seguito la risposta.

(1.2) Definizione.(Ω,F , (P θ, θ ∈ Θ)

)si chiama modello statistico (parametrico).

La speranza e la varianza fatte rispetto alla legge P θ verranno indicate rispettivamente con i simboliEθ e V arθ.

Per evitare problemi sulle questioni di trascurabilita (gli insiemi trascurabili possono essere diversia seconda della probabilita P θ) si da la seguente

(1.2) Definizione. Il modello statistico(Ω,F , (P θ, θ ∈ Θ)

)si dice dominato se esiste una misura

µ σ-finita su (Ω,F) tale che, ∀θ ∈ Θ, risulti P θ ¿ µ. µ si chiama misura dominante.

Se le P θ sono tutte equivalenti tra loro (in particolare sono tutte dominanti) il modello si diceregolare.

2

Page 3: Appunti di Statistica Matematica - people.dm.unipi.itpeople.dm.unipi.it/giuliano/dispensestatisticamatematica.pdf · 1. Modelli statistici (1.1) Esempio di partenza. L’analisi di

Vale il seguente(1.3) Teorema (di Radon-Nikodym). Siano ν e µ due misure positive e σ−finite su (Ω,F), taliche ν ¿ µ. Allora esiste una e una sola f ∈ L1(µ) tale che

ν(E) =∫

E

f dµ, ∀E ∈ F .

In questo caso, f si chiama versione della derivata di Radon-Nikodym di ν rispetto a µ. Essa siindica anche con il simbolo

f =dν

dµ.

(1.4) Osservazione. Siano µ1,µ2 e µ3 tre misure tali che

µ1 ¿ µ2; µ2 ¿ µ3;

E facile vedere che(i) µ1 ¿ µ3;(ii) una versione della derivata di dµ3

dµ1e data da

dµ3

dµ2· dµ2

dµ1.

(1.5) Osservazione. Sia ν ¿ µ, e sia

f =dν

dµ.

Allora ν ∼ µ se e solo se f > 0 q.o. e

dν=

1f

=1dνdµ

(1.6) Esempi.

(a) Sia n un intero fissato. Su Ω = 0, 1, . . . , n consideriamo le leggi binomiali B(n, θ), al variaredi θ ∈ (0, 1) =: Θ. Si ha cioe

P θ(X = k) =(

n

k

)θk(1− θ)n−k, k = 0, 1, . . . , n.

Questo e un modello regolare (P θ1 ∼ P θ2 ∀(θ1, θ2) (perche tutte le P θ “caricano” i numeri0, 1, . . . , n).(b) Su Ω = N consideriamo le stesse leggi B(n, θ). Al variare di (n, θ) ∈ N × (0, 1) =: Θ questoe un modello dominato ma non regolare. Una misura dominante e una qualsiasi misura che“carica” tutti gli interi, ad esempio la misura µ che conta i punti.(c) Su (R,B(R)) le leggi uniformi su [a, b] (al variare di a e b) sono un modello dominato ma nonregolare (per gli stessi motivi del punto 2): in questo caso si ha θ = (a, b) ∈ R2 =: Θ).

3

Page 4: Appunti di Statistica Matematica - people.dm.unipi.itpeople.dm.unipi.it/giuliano/dispensestatisticamatematica.pdf · 1. Modelli statistici (1.1) Esempio di partenza. L’analisi di

(d) Su (R,B(R)) le leggi normali N (m,σ2) (m ∈ IR, σ > 0) hanno tutte densita rispetto a λ,misura di Lebesgue; la densita e data dalla formula

fm,σ(x) =1√2πσ

exp(− 1

2(x−m)2

σ2

)

Pertanto le leggi normali sono un modello dominato (da λ). Poiche fm,σ e strettamente positiva,ciascuna legge N (m,σ2) e equivalente a λ. Dunque questo e un modello addirittura regolare.(e) Su (R,B(R)) le (εx)x∈R (εx= misura di Dirac in x) non sono un modello dominato (vederel’Osservazione (1.8) (ii) ).

Si ha la seguente

(1.7)Proposizione. Sia(Ω,F , (P θ, θ ∈ Θ)

)un modello statistico dominato. Allora esiste una

probabilita dominante P0 della forma

P0 =∑

n

anP θn an ≥ 0,∑

n

an = 1.

Una tale P0 (cioe del tipo combinazione lineare convessa di una successione (P θn)) e detta domi-nante privilegiata.

Dimostrazione

(a) Ogni misura σ−finita µ e equivalente ad una misura ν di probabilita. Infatti, se µ− e σ−finita,esiste una Zv. a. strettamente positiva e µ− integrabile. Allora si ha

0 <

∫Zdµ < ∞,

e quindi si puo porre

Z =Z∫Zdµ

, ν = Z.µ.

Dunque possiamo supporre µ(Ω) = 1.

(b) Poniamo ora

pθ =dP θ

dµ, C = C ∈ F : µ(C) > 0 e ∃ θ ∈ Θ, pθ > 0 su C.

C non e vuoto: infatti, fissato θ e posto Ωθ = pθ > 0, si ha

P θ(Ωθ) =∫

Ωθ

pθdµ =∫

Ω

pθdµ = 1,

e dunque µ(Ωθ) > 0, perche P θ ¿ µ.

4

Page 5: Appunti di Statistica Matematica - people.dm.unipi.itpeople.dm.unipi.it/giuliano/dispensestatisticamatematica.pdf · 1. Modelli statistici (1.1) Esempio di partenza. L’analisi di

(c) Sia ora D=unioni finite di elementi di C, e poniamo

S = supD∈D

µ(D).

Osserviamo che S ≤ 1. Sia ora (Dk) una successione crescente di elementi di D, tale che

supk

µ(Dk) = S.

Poniamo Do =⋃

k Dk. Si hanno i fatti seguenti:

(d) Do e unione numerabile di elementi di C (in quanto unione numerabile di unioni finite dielementi di C):

Do =⋃n

Cn

(e) Per definizione di C per ogni n esiste θn tale che pθn > 0 su Cn. Poniamo

p0 =∑

n

2−npθn , P0 = p0.µ.

E facile vedere che p0 > 0 su Do (infatti, dal punto (d) segue che , ∀x ∈ Do ∃ Cn tale che x ∈ Cn,e dunque pθn(x) > 0 per definizione di C).

(f) ∀ θ, si ha pθ = 0 µ-q.o. su Dco. (Infatti, supponiamo per assurdo che ∃ θ, ∃ A ⊂ Dc

o conµ(A) > 0 e pθ > 0 su A. Allora A ∈ C per definizione di C. Poniamo E = A ∪Dk, dove Dk e unodegli insiemi usati per costruire Do. Di conseguenza E ∈ D. Poiche A ∩Dk = ∅ si ha

µ(A) + µ(Dk) = µ(E) ≤ supD∈D

µ(D) = S;

Passando ora al sup rispetto a k si ottiene

µ(A) + S ≤ S,

il che e assurdo perche S e un numero finito e µ(A) > 0).

(g) Poiche p0 > 0 su Do, si ha P0 ∼ µ su Do.

Questi fatti implicano che ogni P θ e assolutamente continua rispetto a P0. Sia infatti E tale cheP0(E) = 0. Allora:

(i) per il punto (f) si ha

P θ(E ∩Dco) =

E∩Dco

pθdµ = 0;

5

Page 6: Appunti di Statistica Matematica - people.dm.unipi.itpeople.dm.unipi.it/giuliano/dispensestatisticamatematica.pdf · 1. Modelli statistici (1.1) Esempio di partenza. L’analisi di

(ii)si haP0(E ∩Do) ≤ P0(E) = 0

e quindi, per il punto (g), si ha anche

µ(E ∩Do) = 0

Dunque e ancheP θ(E ∩Do) = 0,

perche P θ e assolutamente continua rispetto a µ.

Si conclude cheP θ(E) = P θ(E ∩Do) + P θ(E ∩Dc

o) = 0 + 0 = 0,

cioe P0 domina ogni P θ.

(1.8) Osservazioni. (i) Se il modello e regolare, ogni P θ e del tipo della proposizione precedente(basta prendere θ1 = θ, a1 = 1).

(ii) Su R, le (εx)x∈R non sono un modello dominato. Infatti, se per assurdo lo fosse, esisterebbeuna P0 dominante, del tipo P0 =

∑n anεxn ; tuttavia non e possibile che P0 domini tutte le εx: sia

x 6∈ x1, x2, x3, . . .. Allora x e trascurabile per P0, ma non per εx.

(iii) Se P0 =∑

n anP θn , allora, ∀A si ha

P0(A) =∑

n

anP θn(A),

e quindi, ∀g limitata, ∫gdP0 =

∑n

an

∫gdP θn .

(1.9) Definizione. Sia(Ω,F , (P θ, θ ∈ Θ)

)un modello statistico dominato da una misura µ. Si

chiama verosimiglianza del modello una funzione L : Θ × Ω → R tale che, per ogni fissato θ, lafunzione L(θ) = L(θ, ·) : ω 7→ L(θ, ω) sia una versione della densita di P θ rispetto a µ.

(1.10) Osservazione. ω 7→ L(θ, ω) e misurabile (come funzione di ω) e, ∀A ∈ F , si ha

P θ(A) =∫

A

L(θ, ω)µ(dω).

2. La nozione di riassunto esaustivo

(2.1) Definizione. Sia(Ω,F , (P θ, θ ∈ Θ)

)un modello statistico. Si chiama statistica (definita

sul modello statistico) ogni applicazione misurabile S di (Ω,F) in uno spazio misurabile (E, E),che non dipenda da θ.

6

Page 7: Appunti di Statistica Matematica - people.dm.unipi.itpeople.dm.unipi.it/giuliano/dispensestatisticamatematica.pdf · 1. Modelli statistici (1.1) Esempio di partenza. L’analisi di

(2.2) Osservazione. La differenza tra una statistica e una variabile aleatoria sta nel fatto che,mentre una v.a. e definita su uno spazio misurabile (Ω,F) a cui e associata una sola probabilitaP , adesso sullo spazio di definizione della statistica c’e una famiglia di probabilita (P θ, θ ∈ Θ).

(2.3) Definizione. (a) Sia µ una misura di probabilita su R. Si chiama campione di taglia n elegge µ una famiglia X1, X2, . . . , Xn di v. a. reali indipendenti, tutte con legge µ.

Una realizzazione si ottiene nel modo seguente: prendiamo

Ω = Rn;F = B(Rn), P = µ⊗ µ · · · ⊗ µ︸ ︷︷ ︸n volte

= µ⊗n.

Poi poniamo Xi : Ω → R = proiezione i-esima, definita da

Xi : (x1, x2, . . . , xn) 7→ xi.

Allora la legge di ogni Xi e µ e le Xi sono tra loro indipendenti.

(b) Data una famiglia (µθ, θ ∈ Θ) di leggi di probabilita su R, chiamiamo campione di taglia n elegge µθ il modello statistico

(Ω,F , (P θ, θ ∈ Θ)

)definito da

Ω = IRn, F = B(IRn), P θ = µθ ⊗ µθ · · · ⊗ µθ

︸ ︷︷ ︸n volte

= (µθ)⊗n.

(2.4) Osservazione. Sia (X1, . . . , Xn) un campione di taglia n e legge µθ, θ ∈ Θ; secondo quantodetto in (2.3) (b), si tratta del modello statistico

(Rn,B(Rn), ((µθ)⊗n, θ ∈ Θ)

). Se µθ ¿ µ, e

dµθ

dµ = fθ(x), allora P θ = µθ ⊗ · · · ⊗ µθ

︸ ︷︷ ︸n volte

¿ µ⊗ · · · ⊗ µ︸ ︷︷ ︸n volte

ed inoltre

L(θ; ω) =dP θ

d(µ⊗n

) (ω) =n∏

i=1

fθ(ωi) (prodotto tensoriale di n leggi aventi densita fθ).

Si lascia la verifica per esercizio.

(2.4) Esempio. Un’altra situazione interessante e la seguente. Supponiamo di avere una catena diMarkov sullo spazio misurabile (E, E), di legge iniziale ρ assegnata e operatore di transizione

Π(θ, x; A) =∫

A

`(θ, x, y)Π(x, dy), x ∈ E, A ∈ E ,

dove Π e un operatore di transizione fissato di E in E e `(θ, ·, ·)θ∈Θ e una famiglia di verosimi-glianze.

7

Page 8: Appunti di Statistica Matematica - people.dm.unipi.itpeople.dm.unipi.it/giuliano/dispensestatisticamatematica.pdf · 1. Modelli statistici (1.1) Esempio di partenza. L’analisi di

Una notazione. Dato un operatore di transizione (x,A) 7→ Π(x; A) di E in E, poniamo Π⊗1 = Πe per induzione definiamo

Π⊗(n+1)(x,B) =∫

Π(x, dy)∫

Π⊗n(y, dz)1B(y, z), x ∈ E, B ∈ E⊗(n+1)

(notare che la misura Π⊗n(y, ·) e definita su E⊗n). Allora Π⊗n e un operatore di transizione di(E, E) in

(En, E⊗n

), e la misura di probabilita (definita come abbiamo detto su E⊗n)

B 7→ Π⊗n(x,B)

rappresenta la legge del vettore (X1, . . . , Xn) condizionata a X0 = x; in altre parole si ha

P((X1, . . . , Xn) ∈ B|X0 = x

)= Π⊗n(x,B).

Pertanto, se la legge di X0 e ρ, la legge congiunta del vettore (X0, X1, . . . , Xn) e data da

C 7→∫

ρ(dx)Π⊗n(x, dy)1C(x, y) :=(ρ⊗Π⊗n

)(C), C ∈ E⊗(n+1).

Torniamo alla situazione iniziale. Se si osservano i primi n + 1 passi X0, X1, . . . , Xn, possiamoprendere come modello statistico

(En+1, E⊗n+1, (ρ⊗ (Πθ)⊗n

), θ ∈ Θ),

Si vede facilmente che si tratta di un modello dominato; una misura dominante e ρ ⊗ Π⊗n e unaversione della verosimiglianza e (x = (x0, . . . , xn))

L(θ, x) = `(θ, x0, x) · `(θ, x1, x2) · . . . · `(θ, xn−1, xn).

Infatti (caso n = 2 per semplicita), per C ∈ E⊗3 si ha (y = (y1, y2))

(ρ⊗ (Πθ)⊗2

)(C) =

∫ρ(dx)(Πθ)⊗2(x, dy)1C(x, y)

=∫

ρ(dx)∫

Πθ(x, dy1)∫

Πθ(y1, dy2)1C(x, y1, y2)

=∫

ρ(dx)∫

`(θ, x, y1)Π(x, dy1)∫

`(θ, y1, y2)Π(y1, dy2)1C(x, y1, y2).

Diamo ora una motivazione intuitiva per la nozione di riassunto esaustivo, che definiremo trapoco, utilizzando ancora l’esempio del controllo di qualita: si estraggono in modo indipendentel’uno dall’altro n pezzi prodotti, e poniamo, per i = 1, . . . , n,

Xi = 1 se il pezzo i-esimo e difettoso

0 se no

8

Page 9: Appunti di Statistica Matematica - people.dm.unipi.itpeople.dm.unipi.it/giuliano/dispensestatisticamatematica.pdf · 1. Modelli statistici (1.1) Esempio di partenza. L’analisi di

Sia p (non nota) la probabilita che il generico pezzo sia difettoso.

(X1, . . . , Xn) e il nostro campione, e ha legge B(1, p).

Poniamo poiX1 + · · ·+ Xn = numero di pezzi difettosi.

Se vogliamo stimare p, e chiaro che basta sapere qual e il valore di X1 + · · ·+Xn, non e necessarioconoscere il vettore (X1, . . . , Xn). In altri termini, il vettore T (X1, . . . , Xn) = X1 + · · · + Xn

contiene tutta l’informazione necessaria; conoscere separatamente i valori di X1, . . . , Xn non cidirebbe di piu.

Cerchiamo di arrivare ad una buona definizione matematica. Sia assegnato il modello statistico(Ω,F , (P θ, θ ∈ Θ)). Osservare T (X1, . . . , Xn) equivale ad osservare la σ-algebra generata da T ,B = σ(T ). Generalmente risulta B ⊂ F : il nostro scopo e (o meglio sarebbe!) individuare P θ sututta la tribu F conoscendo i valori che essa assume su B, (o, in modo equivalente, per esprimersi intermini di T , conoscendo P θ(T ∈ I), al variare di I sottoinsieme misurabile di R, cioe conoscendola legge di T secondo P θ).

Ora, in generale, assegnata una sottotribu B di F , ogni probabilita P θ e individuata dalla suatraccia su B (cioe dai valori che essa assume sugli elementi B ∈ B: P θ(B)) e dalle speranze,condizionate a B, delle v. a. limitate: infatti, se A ∈ F , risulta

(2.5) P θ(A) = Eθ[1A] = Eθ[Eθ[1A|B]] =∫

Eθ[1A|B]dP θ =∫

Eθ[1A|B]dP θ|B.

Dunque, se riusciamo a trovare una versione della speranza condizionale Eθ[1A|B] che non dipen -de da θ, per individuare P θ e sufficiente conoscere P θ|B.

(2.6) Esempio. Di nuovo il controllo di qualita. Prendiamo n = 2 per semplicita. Vogliamomostrare che la statistica T = X1 + X2 e esaustiva. In questo caso abbiamo F = B(R2). Inoltreµθ = B(1, θ). Faremo i conti solo per il caso particolare in cui A = [1/2, 3/2]× [−1/2, 1/2].

Abbiamo prima di tutto P θ(A) = P θ(X1 = 1, X2 = 0). Calcoliamo ora Eθ[1A|B]. B e la tribugenerata da X1 + X2. In altri termini si ha

B = B : B = X1 + X2 ∈ I, I misurabile ⊆ R.Si vede facilmente che B e generata dai tre eventi B0 = X1 + X2 = 0, B1 = X1 + X2 = 1 eB2 = X1 + X2 = 2.

Poniamo (ω = (ω1, ω2))

Y (ω) =

1/2 per ω ∈ B1;0 altrimenti.

Vogliamo far vedere che Y = Eθ[1A|B]. Y e ovviamente B- misurabile; essa sara la speranzacondizionale cercata se, ∀B ∈ B, risulta

B

1AdP θ =∫

B

Y dP θ.

9

Page 10: Appunti di Statistica Matematica - people.dm.unipi.itpeople.dm.unipi.it/giuliano/dispensestatisticamatematica.pdf · 1. Modelli statistici (1.1) Esempio di partenza. L’analisi di

Bastera verificare la relazione precedente per i tre generatori B0, B1 e B2.

(i) Per B0. Si ha

B0

1AdP θ = P θ(A ∩B0)

= P (X1 = 1, X2 = 0, X1 + X2 = 0) = 0 =∫

B0

Y dP θ;

(ii) Per B2 la verifica e identica.

(iii) Per B1. In questo caso risulta

B1

1AdP θ = P θ(A ∩B1)

= P (X1 = 1, X2 = 0, X1 + X2 = 1) = P (X1 = 1, X2 = 0) = θ(1− θ)

=12

2θ(1− θ) =12P θ(B1) =

B1

Y dP θ.

Concludiamo questo esempio con la verifica che la speranza condizionale, cioe la v. a. Y , verificala relazione (2.3). Si trova infatti

∫Y dP θ|B =

12P θ(B1) = θ(1− θ) = P θ(A).

Siamo pronti per dare la definizione formale di riassunto esaustivo:

(2.7) Definizione. E assegnato il modello statistico (Ω,F , (P θ, θ ∈ Θ)), dominato da una misuraµ. Sia T : Ω → (E, E) una v. a. Si dice che T e un riassunto esaustivo (o una statisticaesaustiva o anche sufficiente, sufficient statistic in inglese) se, per ogni v. a. Y definita su Ω, avalori reali e limitata, esiste, definita µ q.o., una versione della speranza condizionale Eθ[Y |T ] chenon dipenda da θ. Se T e cosiffatta, scriveremo E¦[Y |T ] invece che Eθ[Y |T ].

(2.8) Osservazione. Vediamo un caso particolare importante. Sia (Ω,F , (P θ, θ ∈ Θ)), del tipoΩ = Rn; Xi= i-esima proiezione, F= tribu generata da X = (X1, . . . , Xn), P θ = (µθ)⊗n. In altreparole X e un campione di taglia n e ciascuna Xi ha legge µθ. Per il criterio di misurabilita diDoob ogni v. a. Y che sia F-misurabile e del tipo Y = φ(X1, . . . , Xn). Dunque, dire che T eesaustiva equivale a dire che, qualunque sia φ, la speranza condizionale Eθ[φ(X1, . . . , Xn)|T ] nondipende da θ, o, cio che e lo stesso, che la legge condizionale di (X1, . . . , Xn), data T non dipendeda θ. Questa seconda definizione e quella preferita nei libri di tipo applicativo.

(2.9) Esempio. (Calcolo di una statistica sufficiente nel caso particolare dell’Oss.(2.8)). Sia (X1, . . . , Xn) un campione di legge Πθ. Mostrare che la statistica T = T (X1, . . . , Xn) =X1 + · · ·+ Xn e esaustiva.

10

Page 11: Appunti di Statistica Matematica - people.dm.unipi.itpeople.dm.unipi.it/giuliano/dispensestatisticamatematica.pdf · 1. Modelli statistici (1.1) Esempio di partenza. L’analisi di

Soluzione. Calcolare la legge condizionale del vettore (X1, . . . , Xn), data T , significa calcolareP (X1 = x1, . . . , Xn = xn|T = t) al variare di (x1, . . . , xn) ∈ Nn e t ∈ N. Si ha facilmente

P (X1 = x1, . . . , Xn = xn|T = t) =P (X1 = x1, . . . , Xn = xn, T = t)

P (T = t)=

0 se t 6= x1 + · · ·xn

P (X1 = x1, . . . , Xn = xn)P (T = t)

se t = x1 + · · ·xn;

continuiamo il calcolo nel secondo caso: ricordando che le Xi sono tra loro indipendenti e di leggeΠθ, e di conseguenza T ∼ Πnθ, si ha

P (X1 = x1, . . . , Xn = xn)P (T = t)

=

(θx1

x1!e−θ

). . .

(θxn

xn! e−θ

)ntθt

t! e−nθ=

θx1+···+xn

x1!···xn! e−nθ

ntθt

t! e−nθ=

t!x1! · · ·xn!nt

,

dato che t = x1 + · · ·xn. Come si vede, il risultato non dipende da θ, e quindi si conclude che T eun riassunto esaustivo.

Comunque sia, la definizione non e comoda per decidere se una statistica e esaustiva oppure no.Serve un criterio operativo, che e fornito dal teorema seguente.

(2.10) Teorema (di fattorizzazione, o di Neymann–Fisher).Sia (Ω,F , (P θ, θ ∈ Θ)) un modellostatistico dominato. Sia µ una misura dominante, T : Ω → E una v.a. Allora sono fatti equivalenti:

(a) T e un riassunto esaustivo;

(b) esistono una funzione h non dipendente da θ, e, per ogni θ, una funzione misurabile gθ tali che

L(θ, ω) .=dP θ

dµ(ω) = gθ(T (ω)) · h(ω), µ− q.o.;

(c) se P e una dominante privilegiata, allora

L(θ, ω) .=dP θ

dP(ω) = gθ(T (ω)) P − q.o.

(cioe si puo prendere h = 1, ovvero dP θ

dP coincide P–q.o. con una v. a. della forma gθ T.)

Dimostrazione. (a) ⇒(c). Osserviamo prima di tutto che, per ogni v.a. limitata X, seE¦[X|T ] (non dipendente da θ!) e una versione della speranza condizionale di X rispetto a Trelativamente ad ogni P θ, allora E¦[X|T ] e una versione della speranza condizionale di X rispettoa T anche relativamente a P (che e una dominante privilegiata). Infatti, per ogni B ∈ σ(T )(σ(T ) = tribu generata da T ), si ha

B

X dP =∑

n

an

B

XdP θn =∑

n

an

B

E¦[X|T ]dP θn =∫

B

E¦[X|T ]d( ∑

n

anP θn

)

=∫

B

E¦[X|T ]dP,

11

Page 12: Appunti di Statistica Matematica - people.dm.unipi.itpeople.dm.unipi.it/giuliano/dispensestatisticamatematica.pdf · 1. Modelli statistici (1.1) Esempio di partenza. L’analisi di

per l’Osservazione (1.8)(iii).

Sia ora dP θ

dP

.= Lθ una versione della verosimiglianza (cioe della densita di P θ rispetto a P ), emostriamo che la v. a. gθ(T ) .= EP [Lθ|T ] e anch’essa una versione della verosimiglianza. Infatti,per ogni v. a. X limitata, si ha

Eθ[X] = Eθ[E¦[X|T ]

]= EP

[LθE¦[X|T ]

]= EP

[EP [LθE¦[X|T ]|T ]

]

= EP[E¦[X|T ]EP [Lθ|T ]

]=︸︷︷︸

T−misur.di gθ(T )

EP[gθ(T )E¦[X|T ]

]

= EP[E¦[gθ(T )X|T ]

]=︸︷︷︸

oss.prec.

EP[EP [gθ(T )X|T ]

]= EP [gθ(T )X].

In altri termini, per ogni v.a. limitata X si ha

∫XdP θ =

∫Xgθ(T )dP,

il che significa proprio che gθ(T ) e una versione di dP θ

dP , e il punto (c) e dimostrato.

(c) ⇒ (b). Dato che µ domina tutte le P θ, e di conseguenza anche P , per l’ipotesi si ha

dP θ

dµ(ω) =

dP θ

dP(ω) · dP

dµ(ω) = gθ(T (ω)) · dP

dµ(ω) = gθ(T (ω)) · h(ω),

dove si e posto h = dPdµ .

(b) ⇒ (a). Premettiamo un

(2.11) Lemma. Su (Ω,F) siano Q1 e Q2 due probabilita, e supponiamo che Q1 ¿ Q2. Sia B unasottotribu di F . Posto Z = dQ1

dQ2, per ogni v.a. X positiva si ha

EQ1 [X|B] =EQ2 [XZ|B]EQ2 [Z|B]

.

(2.12) Osservazione. La formula del lemma precedente generalizza la classica formula chedefinisce la probabilita condizionale rispetto ad un evento, nel modo che segue: assegnato lo spaziodi probabilita (Ω,F , P ), sia B un evento, con P (B) > 0. Prendiamo (nell’enunciato del lemma)Q1(·) = P (·|B), Q(·) = P (·). E evidente che Q1 ¿ Q2 ed inoltre si ha Z = dQ1

dQ2= 1B

P (B) : infatti,per ogni A ∈ F si ha

Q1(A) = P (A|B) =P (A ∩B)

P (B)=

∫1A∩BdP

P (B)=

∫1A · 1B

P (B)dP =

A

ZdQ2.

12

Page 13: Appunti di Statistica Matematica - people.dm.unipi.itpeople.dm.unipi.it/giuliano/dispensestatisticamatematica.pdf · 1. Modelli statistici (1.1) Esempio di partenza. L’analisi di

Sia B = ∅, Ω la σ−algebra banale; la speranza condizionale rispetto a B non e altro che lasperanza, e il lemma dice allora che, per ogni v.a. X positiva si ha

EQ1 [X] =EQ2 [XZ]EQ2 [Z]

;

traducendo significa

E[X|B] =E[XZ]E[Z]

=1

P (B)·∫

B

XdP,

dato che E[Z] = 1. In particolare, se X = 1A, con A ∈ F , si trova

P (A|B) =P (A ∩B)

P (B).

Dimostrazione(del Lemma). Prima di tutto osserviamo che l’evento A = EQ2 [Z|B] = 0 etrascurabile rispetto a Q1 (e dunque il secondo membro della relazione precedente e ben definito).Infatti A e B− misurabile e quindi, per definizione di speranza condizionale EQ2 [Z|B],

Q1(A) =∫

A

dQ1 =∫

A

dQ1

dQ2dQ =

A

Z dQ2 =∫

A

EQ2 [Z|B] dQ2 = 0.

Poniamo per semplicita U = EQ2 [XZ|B]EQ2 [Z|B]

. U e chiaramente B–misurabile. Per terminare la di-mostrazione basta allora verificare che, per ogni B ∈ B si ha

B

U dQ1 =∫

B

X dQ1.

Infatti

B

U dQ1 =∫

B

EQ2 [XZ|B]EQ2 [Z|B]

dQ1 =∫

1BEQ2 [XZ|B]EQ2 [Z|B]

dP

dQ2dQ2 =

∫1B

EQ2 [XZ|B]EQ2 [Z|B]

Z dQ2

= EQ2

[1B

EQ2 [XZ|B]EQ2 [Z|B]

Z

]= EQ2

[EQ2

[1B

EQ2 [XZ|B]EQ2 [Z|B]

Z∣∣∣B

]]

= EQ2

[1B

EQ2 [XZ|B]EQ2 [Z|B]

EQ2 [Z|B]]

= EQ2[1BEQ2 [XZ|B]

]= EQ2

[EQ2 [1BXZ|B]

]

= EQ2 [1BXZ] =∫

B

XZ dQ2 =∫

B

XdQ1

dQ2dQ2 =

B

X dQ1.

Passiamo a dimostrare che (b) ⇒ (a) (nel Teorema di fattorizzazione). Prima di tutto vediamoche non e restrittivo supporre che µ sia una misura di probabilita. Sia infatti W una v. a. con

13

Page 14: Appunti di Statistica Matematica - people.dm.unipi.itpeople.dm.unipi.it/giuliano/dispensestatisticamatematica.pdf · 1. Modelli statistici (1.1) Esempio di partenza. L’analisi di

W > 0 ovunque e tale che∫

Wdµ = 1 (µ misura dominante). Quindi la misura Q = W.µ e unaprobabilita. Inoltre P θ ¿ Q, in quanto P θ ¿ µ ∼ Q; infine, per l’ipotesi,

dP θ

dQ=

dP θ

dµ· dµ

dQ=

dP θ

dµ· 1W

= gθ(T (ω)) · h(ω)W (ω)

= gθ(T (ω)) · k(ω).

Dunque l’ipotesi (b) vale anche per Q.

Poiche Q e una probabilita, possiamo applicare il lemma precedente alla coppia di probabilitaQ1 = P θ e Q2 = Q e si trova

Eθ[X|T ] =EQ[Xgθ(T ) · k|B]EQ[gθ(T ) · k|T ]

=gθ(T ) · EQ[Xk|T ]gθ(T ) · EQ[k|T ]

=EQ[Xk|T ]EQ[k|T ]

,

e quest’ultima variabile aleatoria non dipende da θ, e quindi T e un riassunto esaustivo.

(2.13) Osservazione. Conseguenza del teorema di fattorizzazione e che, nel caso di un modellodominato, se T e esaustiva e S = φ(T ), con φ invertibile, allora anche S e esaustiva. Questaproprieta non vale se il modello non e dominato.

(2.14) Alcuni esempi di statistiche esaustive.

(a) Controllo di qualita. Verifichiamo il numero di pezzi difettosi fra n pezzi dati. Poniamo 0, 1n,F = P(Ω), e, per ogni i = 1, 2, . . . , n

Xi = 1 se l’i–esimo pezzo e difettoso

0 se no.

In altre parole, se ω ∈ Ω, (ω = (ω1, . . . , ωn), con ωi ∈ 0, 1), si pone Xi(ω) = ωi, cioe Xi : Ω →0, 1 non e altro che l’i− esima proiezione. Poniamo poi

P θ(ω) = θω1+···+ωn(1− θ)n−(ω1+···+ωn)m(ω), (prodotto tensoriale di n leggi B(1, θ))

dove m e la misura che assegna massa 1 ad ogni punto di Ω (dunque m e una misura dominante).Allora, se T (ω) = ω1 + · · ·+ ωn = X1(ω) + · · ·+ Xn(ω), si ha

dP θ

dm(ω) = θT (ω)(1− θ)n−T (ω) .= gθ(T (ω)),

e quindi T e un riassunto esaustivo (condizione (b) del Teorema di Neymann–Fisher).

(b) Sia (X1, . . . , Xn) un campione di taglia n avente legge di Poisson di parametro θ > 0 (Πθ), cioela legge data dalla formula

µθ(k) =θk

k!e−θm(k), k ∈ N,

14

Page 15: Appunti di Statistica Matematica - people.dm.unipi.itpeople.dm.unipi.it/giuliano/dispensestatisticamatematica.pdf · 1. Modelli statistici (1.1) Esempio di partenza. L’analisi di

dove m e la misura che “conta”i punti di N. Secondo la definizione di campione, il modello statisticoe (Ω,F , (P θ, θ ∈ Θ)), con

Ω = Rn, F = B(Rn), P θ = (µθ)⊗n,

Xi = i−esima proiezione, T = X1 + · · ·Xn. La misura dominante in questo modello e m⊗n, cioela misura che “conta”i punti di Nn. Allora, indicato con (k1, . . . , kn) (ki ∈ N) il generico elementoω di Ω, per l’osservazione (2.2) si ha

L(θ; k1, . . . , kn) =dP θ

d(m⊗n

) (k1, . . . , kn) =n∏

i=1

e−θ θki

ki!= e−nθ θk1+···kn

∏ni=1 ki!

= e−nθ θT (ω)

∏ni=1 ki!

= gθ(T (ω)) · h(ω),

dovegθ(k) = e−nθθk, h(ω) = h(k1, . . . , kn) =

1∏ni=1 ki!

.

Dunque si conclude che T = X1 + · · ·Xn e un riassunto esaustivo.

(c) Sia µθ la legge, concentrata su (0, 1), assolutamente continua rispetto alla misura di Lebesgue,con densita

fθ(x) = (θ + 1)xθ1(0,1)(x), θ > −1.

Sia (X1, . . . , Xn) un campione di taglia n e legge µθ (costruito con il solito metodo). Una misuradominante e la misura di Lebesgue n−dimensionale (su (0, 1)n). Indichiamo con (x1, . . . , xn) ilgenerico elemento ω ∈ Ω = (0, 1)n. Ancora per l’Osservazione (2.2), la verosimiglianza ha la forma

L(θ; x1, . . . , xn) = (θ + 1)n( n∏

i=1

xi

= gθ(T (ω)),

dove gθ(x) = (θ+1)nxθ e T (ω) = T (x1, . . . , xn) =∏n

i=1 xi. In altri termini T (X1(ω), . . . , Xn(ω)) =∏ni=1 Xi(ω) e un riassunto esaustivo.

(d) Campione di taglia n e legge N (µ, σ2), dove µ ∈ R e σ2 > 0 sono sconosciuti. Dunque inquesto caso il parametro θ e vettoriale: θ = (µ, σ2), e varia nell’insieme Θ = R × R+. La leggeN (µ, σ2) e assolutamente continua rispetto alla misura di Lebesgue su R. La misura dominante ela misura di Lebesgue n−dimensionale. La verosimiglianza e

L(µ, σ2; x1, . . . , xn) =1

(2π)n/2σn

n∏

i=1

exp(− (xi − µ)2

2σ2

)

=1

(2π)n/2exp

(−

∑ni=1(xi − µ)2

2σ2− n log σ

)

=1

(2π)n/2exp

(− 1

2σ2

( n∑

i=1

x2i + nµ2 − 2µ

n∑

i=1

xi

)− n log σ)

= gθ( n∑

i=1

xi,

n∑

i=1

x2i

)

,

15

Page 16: Appunti di Statistica Matematica - people.dm.unipi.itpeople.dm.unipi.it/giuliano/dispensestatisticamatematica.pdf · 1. Modelli statistici (1.1) Esempio di partenza. L’analisi di

dove gθ(x, y) = 1(2π)n/2 exp

(− 1

2σ2

(y + nµ2 − 2µx

)− n log σ). Si conclude che il vettore aleatorio

( n∑

i=1

Xi,

n∑

i=1

X2i

)

e un riassunto esaustivo (bidimensionale questa volta). Si dice anche che le due statistiche∑n

i=1 Xi

e∑n

i=1 X2i sono congiuntamente sufficienti.

(e) Sia (X1, . . . , Xn) un campione di taglia n di legge uniforme sull’intervallo (θ1, θ2), con θ2 > θ1.In questo caso Ω = Rn, F = B(Rn), e il parametro θ e bidimensionale, θ = (θ1, θ2), con Θ ∈R2 ∩ y > x. µθ e la legge su R avente densita (rispetto alla misura di Lebesgue)

fθ(x) =1

θ2 − θ11(θ1,θ2)(x).

La misura dominante e la misura di Lebesgue su Rn. La verosimiglianza ha la forma

L(θ; x1, . . . , xn) =n∏

i=1

1θ2 − θ1

1(θ1,θ2)(xi) =1

(θ2 − θ1)n

n∏

i=1

1(θ1,θ2)(xi).

D’altra parte si vede facilmente che

n∏

i=1

1(θ1,θ2)(xi) =

1 se xi ∈ (θ1, θ2)∀i = 1, . . . , n0 altrimenti

=

1 se

u = min(x1, . . . , xn) > θ1

v = max(x1, . . . , xn) < θ2

0 altrimenti= 1(θ1,θ2)×(θ1,θ2)(u, v) = gθ(u, v),

dove evidentemente si ponegθ(x, y) = 1(θ1,θ2)×(θ1,θ2)(y, z).

Tutto questo significa che le statistiche

U = min(X1, . . . , Xn)V = max(X1, . . . , Xn)

sono congiuntamente sufficienti (ved. esempio precedente).

3. Teoria della stima. La nozione di stimatore.

Sia (Ω,F , (P θ, θ ∈ Θ)) un modello statistico. Supponiamo dapprima che Θ ⊆ R. Stimare ilparametro θ significa assegnare una funzione U : Ω → R, che supporremo misurabile (dunque Ue una v.a. (il risultato del nostro esperimento e un ω ∈ Ω, e in base al risultato assegniamo unnumero, che indichiamo con U(ω) perche dipende dunque da ω). Piu in generale, senza restringercicioe al caso di Θ ⊆ R, saremo portati ad assegnare una funzione g : Θ → R, e a stimare g(θ) (adesempio, in un campione di legge gaussiana nel quale il parametro θ e la coppia (m,σ2), possiamoessere interessati a stimare solo la media m o la varianza σ2).

16

Page 17: Appunti di Statistica Matematica - people.dm.unipi.itpeople.dm.unipi.it/giuliano/dispensestatisticamatematica.pdf · 1. Modelli statistici (1.1) Esempio di partenza. L’analisi di

(3.1) Definizione. Assegnato (Ω,F , (P θ, θ ∈ Θ)) un modello statistico ed una funzione g : Θ → D(D aperto di R), si chiama stimatore (o stima) di g(θ) una v. a. U : Ω → D, che non dipenda daθ.

Intuitivamente uno stimatore e buono quando si avvicina (in qualche senso da definire) al “vero”valore del parametro θ (della sua funzione g(θ) nel caso generale). Piu precisamente, e chiaro chela sostituzione del valore vero con il suo stimatore U comporta un “costo” (o perdita) , ed unostimatore sara tanto migliore quanto piu piccolo e questo costo. Dunque si tratta di chiarire cosaintendiamo per costo. In generale, il “costo” conseguenza della sostituzione di g(θ) con un numeroreale a e una funzione non negativa (θ, a) 7→ C(θ, a). Poiche noi sostituiamo g(θ) con U(ω), perogni θ otteniamo la v.a. ω 7→ C(θ, U(ω)).

(3.2) Definizione. Si chiama “rischio” dello stimatore U il costo medio, o, piu precisamente, lafunzione definita su Θ da

θ 7→ RU (θ) := Eθ[C(θ, U)] =∫

C(θ, U)dP θ.

Generalmente come funzione “costo” si prende (θ, a) 7→ |g(θ) − a|2, e si parla in questo caso dicosto quadratico. In corrispondenza il rischio RU (θ) = Eθ[|g(θ)−U |2] si chiama rischio quadratico.Tuttavia altre scelte sono possibili per la funzione costo, e di conseguenza per il rischio.

Avvertenza. D’ora in avanti, salvo diverso avviso, utilizzeremo sempre la funzione “costo quadra-tico”, e di conseguenza, parlando di rischio, intenderemo il rischio quadratico.

(3.3) Definizione. (a) Uno stimatore U si dice preferibile ad un altro stimatore V se, per ogniθ ∈ Θ, si ha

RU (θ) ≤ RV (θ).

(b) U si dice strettamente preferibile a V se e preferibile ed esiste almeno un θ0 ∈ Θ, tale che

RU (θ) < RV (θ)

(con la diseguaglianza stretta).(c) Sia D una famiglia di stimatori, e sia U ∈ D. U si dice ammissibile (relativamente a D) se inD non esistono stimatori strettamente preferibili a U .

(d) U ∈ D si dice ottimale (relativamente a D) se e preferibile ad ogni altro stimatore della famigliaD.

(3.4) Osservazione. La relazione di preferibilita e un preordinamento nella classe degli stimatori:due stimatori possono essere non confrontabili, cioe puo accadere che per alcuni valori di θ si abbiaRU (θ) ≤ RV (θ) e per altri si abbia invece RU (θ) ≥ RV (θ)).

(3.5) Esempio Nell’esempio del controllo di qualita , consideriamo uno stimatore del parametroθ della forma U = h(X1 + · · · + Xn), dove h = x+a

n+b , e a e b sono due costanti non negative.

17

Page 18: Appunti di Statistica Matematica - people.dm.unipi.itpeople.dm.unipi.it/giuliano/dispensestatisticamatematica.pdf · 1. Modelli statistici (1.1) Esempio di partenza. L’analisi di

Calcoliamo RU (θ). Posto Sn = X1 + · · ·+ Xn, ricordare che Eθ[Sn] = nθ e VarθSn = nθ(1− θ).Si ha allora

RU (θ) = Eθ[(h(Sn)− θ)2

]=

1(n + b)2

· Eθ[(Sn − nθ) + (a− bθ)2]

=1

(n + b)2·(Eθ

[(Sn − Eθ[Sn])2

]+ (a− bθ)2 + 2(a− bθ) Eθ

[Sn − Eθ[Sn]

]︸ ︷︷ ︸

=0

)

=1

(n + b)2·(VarθSn + (a− bθ)2

)=

(b2 − n)θ2 + (n− 2ab)θ + a2

(n + b)2.

A seconda dei valori che si danno ai parametri a e b, si hanno diversi andamenti della funzionedi rischio. In particolare si vede che due di questi stimatori possono essere non confrontabilitra loro. Per esempio, ponendo a =

√n

2 e b =√

n, si ottiene lo stimatore U1 di rischio costanteRU1(θ) = 1

4(√

n+1)2(si tratta dello stimatore bayesiano (v.)). Invece per a = b = 0 (che corrisponde

al caso in cui si prende come stimatore U2 la media campionaria, di cui parleremo tra poco), siottiene la funzione di rischio RU2(θ) = θ(1−θ)

n ; si vede facilmente che RU2(12 ) ≥ RU1(

12 ), mentre

RU2(θ) ≤ RU1(θ) per θ abbastanza vicino a 0 oppure a 1.

(3.6) Definizione. (a) Uno stimatore U di g(θ) si dice corretto (o non distorto, unbiased in inglese)se e integrabile (cioe e integrabile per ogni θ ∈ Θ) ed inoltre

Eθ[U ] = g(θ), ∀ θ ∈ Θ.

(3.7) Osservazione. Se U e corretto, allora RU (θ) = V arθ(U).

(3.8) Osservazione. Tutte le definizioni appena date restano valide nel caso multidimensionale,cioe se si considera (i) una funzione g : Θ → D, con D aperto di Rk (ii) una famiglia di stimatoria valori in Rk (iii) il costo quadratico definito da C(θ, a) = ||g(θ)− a||2.

(3.9) Esercizio . Si consideri una famiglia di leggi di probabilita su R (µθ, θ ∈ Θ) tale che, perogni θ, si abbia

∫x2dµθ(x) < +∞. Sia (X1, . . . , Xn) un campione di taglia n e legge µθ. Mostrare

che(a) tra tutti gli stimatori corretti della media m(θ) =

∫xdµθ(x) della forma

∑ni=1 aiXi , la media

empirica (o media campionaria)

X =X1 + · · ·+ Xn

n

e ottimale;(b) la varianza empirica (o varianza campionaria)

S2 =∑n

i=1(Xi −X)2

n− 1

e uno stimatore corretto della varianza σ2 =∫

(x−m)2dµθ(x).

18

Page 19: Appunti di Statistica Matematica - people.dm.unipi.itpeople.dm.unipi.it/giuliano/dispensestatisticamatematica.pdf · 1. Modelli statistici (1.1) Esempio di partenza. L’analisi di

Soluzione di (b) Cominciamo calcolando la media del numeratore della frazione che definisce S2;sommando e sottraendo µ all’interno della parentesi e svolgendo il quadrato si ha

E[ n∑

i=1

(Xi −X)2]

= E[ n∑

i=1

((Xi − µ)− (X − µ)

)2]

=n∑

i=1

E[(Xi − µ)2

]+

n∑

i=1

E[(X − µ)2

]− 2E[(X − µ)

n∑

i=1

(Xi − µ)]

Osserviamo ora che E[(Xi − µ)2

]= VarXi = σ2; inoltre ricordando che E[X] = µ,

E[(X − µ)2

]= VarX = Var

(∑ni=1 Xi

n

)=

1n2

n∑

i=1

VarXi =σ2

n

(qui e stata usata l’indipendenza delle Xi); infine

E[(X − µ)

n∑

i=1

(Xi − µ)]

= E[(X − µ)

( n∑

i=1

Xi − nµ)]

= nE[(X − µ)

(∑ni=1 Xi

n− µ

)]= nE

[(X − µ)2

]= nVarX = σ2.

Usando le relazioni precedenti si ottiene:

E[ n∑

i=1

(Xi −X)2]

= nσ2 + nσ2

n− 2σ2 = (n− 1)σ2.

4. Stimatori ed esaustivita

In tutto il paragrafo e assegnato un modello statistico dominato (Ω,F , (P θ, θ ∈ Θ)) ed una funzioneg : Θ → R. Useremo le notazioni seguenti:Dc= classe degli stimatori corretti;D2= classe degli stimatori di quadrato integrabile rispetto ad ogni P θ ∈ Θ;Dc

2 = Dc ∩ D2.

(4.1) Teorema (di Blackwell–Rao). Sia T un riassunto esaustivo a valori in (E, E), e sia U unostimatore di quadrato integrabile (cioe di quadrato integrabile per ogni P θ). Allora(i) V = E¦[U |T ] (versione della speranza condizionale non dipendente da θ) e preferibile a U ;inoltre V e strettamente preferibile a U a meno che U non sia σ(T )−misurabile.(ii) Se U e corretto, anche V e corretto.

Dimostrazione. (i) Si ha RU (θ) = Eθ[(U − g(θ))2] = ||U − g(θ)||2L2(Ω,F,P θ). Inoltre

V − g(θ) = E¦[U |T ]− g(θ) = E¦[U − g(θ)|T ] = Eθ[U − g(θ)|T ].

19

Page 20: Appunti di Statistica Matematica - people.dm.unipi.itpeople.dm.unipi.it/giuliano/dispensestatisticamatematica.pdf · 1. Modelli statistici (1.1) Esempio di partenza. L’analisi di

Ricordiamo che Eθ[U − g(θ)|T ] coincide con la proiezione ortogonale di U − g(θ) sul sottospaziochiuso L2(Ω, σ(T ), P θ). La sua norma L2 e quindi piu piccola di quella di U − g(θ); inoltre essae strettamente piu piccola a meno che U − g(θ) non appartenga gia a L2(Ω, σ(T ), P θ), e cioe noncoincida P θ–q.o. con una funzione σ(T )–misurabile.(ii) Eθ[V ] = Eθ[E¦[U |T ]] = Eθ[Eθ[U |T ]] = Eθ[U ] = g(θ).

(4.2) Osservazione. Una conseguenza del Teorema di B–R e che e necessario cercare stimatoriche siano T− misurabili, cioe della forma h(T ), con h : E → R funzione opportuna. In altre parole,i“buoni” stimatori dipendono da ω solo attraverso T (ω).

(4.3) Definizione. Una statistica esaustiva T si dice completa se ogni v.a. reale Y che sia T−misurabile (cioe della forma h(T )), integrabile e tale che Eθ[Y ] = 0 per ogni θ ∈ Θ e nulla q.c.

Il seguente teorema giustifica l’importanza della definizione appena data.

(4.4) Teorema. Supponiamo che esista una statistica esaustiva completa T e sia U uno stimatorecorretto e di quadrato integrabile di g(θ). Allora E¦[U |T ] e preferibile ad ogni altro stimatorecorretto e di quadrato integrabile di g(θ).

(4.5) Osservazione. Il teorema precedente dice in altre parole che, nel caso esista una statisticaesaustiva completa, o la classe Dc

2 e vuota, oppure contiene un elemento ottimale.

Dimostrazione. Per il Teorema di B–R, sappiamo che, se U appartiene a D2, allora E¦[U |T ] epreferibile a U . Quindi bastera dimostrare che, per ogni coppia U e V di elementi di Dc

2, si haE¦[U |T ] = E¦[V |T ]. Questo e vero: infatti E¦[U − V |T ] e T–misurabile (cioe del tipo h(T ) con hmisurabile) ed inoltre

Eθ[E¦[U − V |T ]

]= Eθ

[Eθ[U − V |T ]

]= Eθ

[U − V

]= Eθ

[U

]− Eθ[V

]= g(θ)− g(θ) = 0,

perche U e V sono stimatori corretti. Dunque E¦[U |T ] − E¦[V |T ] = E¦[U − V |T ] = 0 perche lastatistica T e completa.

Le statistiche esaustive complete possono essenzialmente essere trovate in due modi: o per calcolodiretto oppure mediante l’uso dei modelli esponenziali, che vedremo fra poco. Qui facciamo uncalcolo diretto.

(4.6) Esempio. Consideriamo un campione (X1, . . . , Xn) di legge uniforme sull’intervallo (0, θ)(con θ > 0). La verosimiglianza (rispetto alla misura di Lebesgue n–dimensionale sullo spazioRn+ =

([0, +∞)

)ha la forma

L(θ; x1, . . . , xn) = θ−nn∏

i=1

1(0,θ)(xi) = θ−n1(0,θ)( max1≤i≤n

xi).

Dunque T = max1≤i≤n Xi e una statistica esaustiva. Vogliamo vedere che T e completa. Il modellonon e esponenziale (lo vedremo poi) quindi non ci resta che il calcolo diretto. Sia dunque Y = h(T )

20

Page 21: Appunti di Statistica Matematica - people.dm.unipi.itpeople.dm.unipi.it/giuliano/dispensestatisticamatematica.pdf · 1. Modelli statistici (1.1) Esempio di partenza. L’analisi di

una v.a. T−misurabile, (h boreliana integrabile), tale che Eθ[h(T )] = 0 per ogni θ > 0. Dobbiamovedere se Y = 0 q.c. Indicando con f la densita della legge di T (sotto la probabilita P θ) si haEθ[h(T )] =

∫ +∞−∞ h(t)f(t) dt, e quindi tutto e ricondotto al calcolo di f . Calcoliamo dapprima la

funzione di ripartizione di T . Si ha subito

F (t) = P θ( max1≤i≤n

Xi ≤ t) =

0 per t < 01 per t > θ.

Per 0 ≤ t ≤ θ si ha invece

P θ( max1≤i≤n

Xi ≤ t) = P θ(∩ni=1Xi ≤ t) =

n∏

i=1

P θ(Xi ≤ t) =(P θ(X1 ≤ t)

)n.

Dato che

P θ(X1 ≤ t) =∫ t

0

=t

θ,

si conclude che, per 0 ≤ t ≤ θ risulta

P θ( max1≤i≤n

Xi ≤ t) = tnθ−n.

Una densita di T si ottiene allora “per derivazione ”, e vale

f(t) =

nθ−ntn−1 per 0 < t < θ0 altrimenti

= nθ−ntn−11(0,θ)(t).

Si conclude quindi che

Eθ[h(T )] =∫ +∞

−∞h(t)f(t) dt = nθ−n

∫ θ

0

h(t)tn−1 dt = 0 ∀ θ > 0

se e solo se h(t)tn−1 = 0, e quindi h(t) = 0 q. c. rispetto alla misura di Lebesgue. In altre paroleh(T ) = 0 P θ− q.c. per ogni θ, e cioe T e completa. Per trovare uno stimatore corretto non ci sonoregole generali. In questo caso possiamo procedere cosı : calcoliamo

Eθ[T ] = nθ−n

∫ θ

0

t · tn−1 dt = nθ−n

∫ θ

0

tn dt =n

n + 1· θn+1

θn=

n + 1.

Se ne deduce chen + 1

n

(max

1≤i≤nXi

)

e uno stimatore corretto (e dunque ottimale) di θ.

Diamo ora la nozione di statistica libera. Si tratta dell’opposto della nozione di esaustivita , nelsenso che, mentre una statistica esaustiva conserva tutta l’“informazione”sul parametro θ fornitadal modello statistico, una statistica libera non da su θ alcuna informazione (questa affermazione

21

Page 22: Appunti di Statistica Matematica - people.dm.unipi.itpeople.dm.unipi.it/giuliano/dispensestatisticamatematica.pdf · 1. Modelli statistici (1.1) Esempio di partenza. L’analisi di

sara piu chiara una volta che avremo il concetto di informazione di Fisher). La formalizzazione diquesta idea e data dalla seguente

(4.7) Definizione. Assegnato il modello statistico (Ω,F , (P θ, θ ∈ Θ)), una statistica S definitasu di esso e a valori in (E, E), si dice che S e libera se la sua legge S(P θ) non dipende da θ.

(4.8) Esempio. Sia (X1, . . . , Xn) un campione di legge N (θ, 1). Poniamo X = X1+···+Xn

n (mediacampionaria).

(a) Consideriamo la statistica S1 =∑n

i=1(Xi −X)2. Si tratta di una statistica libera in quanto,posto Yi = Xi − θ, si ha Y = X − θ, e quindi

S1 =n∑

i=1

(Yi − Y )2.

Il vettore (Y1, . . . , Yn) ha per legge il prodotto tensoriale di n leggi N (0, 1), quindi una legge nondipendente da θ; dunque anche S1 ha una legge non dipendente da θ (vedremo in seguito che sitratta della χ2(n− 1)).

(b) Poniamo S2 = max Xi − minXi. Si vede subito che S2 = max Yi − min Yi, dove il vettore(Y1, . . . , Yn) e quello introdotto sopra. Dunque anche S2 e una statistica libera.

Vediamo ora quali relazioni sussistono tra i concetti di statistica esaustiva, completa, libera.

(4.9) Teorema. Sul modello statistico (Ω,F , (P θ, θ ∈ Θ)) siano S e T due statistiche. Supponiamoche T sia esaustiva e completa e S sia libera. Allora S e T sono indipendenti (come statistiche,cioe relativamente ad ogni P θ).

Dimostrazione. Per ogni funzione limitata h si ha

0 = Eθ[h(S)

]− Eθ[h(S)

]= Eθ

[Eθ

[h(S)|T ]]− Eθ

[h(S)

]= Eθ

[Eθ

[h(S)|T ]− Eθ

[h(S)

]].

D’altra parte

• Eθ[h(S)|T ]

e misurabile rispetto a T (perche e una speranza condizionata a T ) e non dipendeda θ perche T e esaustiva;

• Eθ[h(S)

](misurabile rispetto a T perche costante rispetto ω) non dipende da θ perche S e libera.

Dunque, per il criterio di Doob, esiste una funzione misurabile φ (non dipendente da θ) tale che

Eθ[h(S)|T ]− Eθ

[h(S)

]= φ(T );

pertanto, da quanto precede, si ottiene

Eθ[φ(T )

]= 0,

22

Page 23: Appunti di Statistica Matematica - people.dm.unipi.itpeople.dm.unipi.it/giuliano/dispensestatisticamatematica.pdf · 1. Modelli statistici (1.1) Esempio di partenza. L’analisi di

da cui, dato che T e completa, si deduce che φ ≡ 0, cioe , in modo equivalente,

Eθ[h(S)|T ]

= Eθ[h(S)

].

Dato che questa relazione vale per ogni h, si conclude che S e T sono indipendenti relativamentea P θ, per ogni θ.

(4.10) Osservazione. Mettiamoci nella situazione dell’esempio precedente (4.8); vedremo trapoco (paragrafo sui modelli esponenziali) che la statistica X e esaustiva completa. Si deduce alloradal Teorema che X e indipendente da S1 e da S2. Ritroveremo l’indipendenza di S1 e X comeconseguenza del teorema di Cochran (v.)

Del Teorema precedente vale un viceversa, in ipotesi particolari. Precisamente

(4.11) Teorema. Sul modello statistico (Ω,F , (P θ, θ ∈ Θ)) dominato da µ siano S e T duestatistiche. Supponiamo che T sia esaustiva e T e S siano indipendenti (in quanto statistiche).Supponiamo inoltre che, per ogni coppia (θ1, θ2), P θ1 e P θ2 non siano tra loro singolari. Allora Se libera.

Dimostrazione. Dato che T e esaustiva, per ogni h limitata consideriamo (una versione di)E¦[h(S)|T ]

non dipendente da θ. Allora, per ogni coppia (θ1, θ2), esiste B ∈ F , con µ(B) = 1 taleche

E¦[h(S)|T ](ω) = Eθ1

[h(S)|T ]

(ω) = Eθ2[h(S)|T ]

(ω), per ∀ω ∈ B.

D’altra parte, dato che S e T sono indipendenti, esistono A1 ∈ F e A2 ∈ F con P θ1(A1) =P θ1(A2) = 1 e

Eθ1[h(S)|T ]

(ω) = Eθ1[h(S)

], ∀ω ∈ A1; Eθ2

[h(S)|T ]

(ω) = Eθ2[h(S)

], ∀ω ∈ A2.

Possiamo sempre supporre che A1 ⊆ B e A2 ⊆ B (infatti, dato che µ(Bc) = 0, si ha ancheP θ1(A1 ∩ Bc) = 0, dunque anche P θ1(A1 ∩ Bc) = 0 (perche P θ1(A1 ∩ Bc) ≤ P θ1(Bc)). QuindiP θ1(A1 ∩B) = P θ1(A1)−P θ1(A1 ∩Bc) = 1. In modo analogo si vede che P θ2(A2 ∩B) = 1. Bastaallora sostituire A1 con A1∩B e A2 con A2∩B). Se fosse A1∩A2 = ∅, A1 e A2 sarebbero due eventidisgiunti, il primo dei quali porta la probabilita P θ1 e il secondo P θ2 ; ma questo non e possibiledato che P θ1 e P θ2 sono tra loro non singolari. Dunque esiste almeno un ω ∈ A1 ∩ A2 ⊆ B; pertale ω abbiamo allora

Eθ1[h(S)

]= Eθ1

[h(S)|T ]

(ω) = Eθ2[h(S)|T ]

(ω) = Eθ2[h(S)

];

dunque, per ogni h limitata, troviamo

Eθ1[h(S)

]= Eθ2

[h(S)

],

il che equivale a dire che la legge di S non dipende da θ, cioe che S e libera.

(4.12) Applicazione. Sia X = (X1, . . . , Xn) un campione di legge N (m,σ2); sia assegnata unamatrice A = (ai,j)i,j=1,...,n simmetrica e semidefinita positiva. Condizione necessaria e sufficiente

23

Page 24: Appunti di Statistica Matematica - people.dm.unipi.itpeople.dm.unipi.it/giuliano/dispensestatisticamatematica.pdf · 1. Modelli statistici (1.1) Esempio di partenza. L’analisi di

affinche X e tXAX siano indipendenti e che∑n

i=1 ai,j = 0, per ogni j = 1, . . . , n (∑n

i=1 ai,j e lasomma degli elementi della matrice A che si trovano sulla colonna j− esima).

Dimostrazione. Supponiamo dapprima che sia σ2 = 1. Indicati rispettivamente con 0 e e ivettori n−dimensionali t(0, . . . , 0) e t(1, . . . , 1) (vettori colonna con tutte le componenti uguali a 0e 1), poniamo Y = X −me. Il vettore aleatorio X ha legge N (me, I) (gaussiana n− dimensionaledi media me e matrice di covarianza I. Quindi Y ha legge N (0, I) (e di conseguenza tY AY elibera). Osserviamo poi che

n∑

i=1

ai,j =(Ae

)j

=(teA

)j.

Si ha d’altra parte

tXAX =t (Y + me)A(Y + me) =t Y AY +t (me)AY +t Y A(me) +t (me)A(me)

=t Y AY + 2m(t

eAY)

+ m2(teAe

).

Dunque se∑n

i=1 ai,j = 0, si ha tXAX =t Y AY , e quindi tXAX e libera. Poiche X e esaustiva(a varianza σ2 fissata, ved. Es. (2.14) (d)), tXAX e X sono indipendenti per il teorema (4.9); eviceversa, se tXAX e X sono indipendenti, allora tXAX e libera per il teorema (4.11) D’altra parteper definizione tXAX e libera se la sua legge non dipende dal parametro m; pertanto non dipendeda m neppure Em[tXAX] = Em[tY AY ] +t (me)AEm[Y ] + Em[tY ]A(me) + m2

(teAe

). Dato che

Em[tY AY ] non dipende da m, Em[Y ] = 0 e Em[tY ] =t Em[Y ] =t 0, deve essere teAe = 0, da cuisi deduce Ae = 0. Infatti, essendo A semidefinita positiva, i suoi autovalori λ1, . . . , λn sono tuttinon negativi. E noto che, posto

K =

λ1 0 . . . 00 λ2 . . . 0...

......

0 0 . . . λn

,

esiste una matrice ortogonale O tale che A =t OK O. Sara

O =

o1,1 o1,2 . . . o1,n

o2,1 o2,2 . . . o2,n

......

...on,1 on,2 . . . on,n

,

e l’elemento di posto (i, j) della matrice A si scrive allora nella forma

ai,j =∑

k,r

ok,iλkδk,ror,j =∑

r

or,iλror,j

Se si pone v = Oe, il vettore (colonna) v =t (v1, . . . , vn) ha la forma

vr =n∑

j=1

or,j , r = 1, . . . , n.

24

Page 25: Appunti di Statistica Matematica - people.dm.unipi.itpeople.dm.unipi.it/giuliano/dispensestatisticamatematica.pdf · 1. Modelli statistici (1.1) Esempio di partenza. L’analisi di

La relazione 0 = teAe = te(tOK O)e =t (Oe)K (Oe) =t vK v puo essere scritta nella forma

n∑r=1

λrv2r = 0,

e dato che tutti gli addendi di questa somma sono non negativi, si deduce che, per ogni r = 1, . . . , nsi ha λrv

2r = 0, e quindi anche λrvr = 0. La componente i−esima del vettore Ae e allora data da

j

ai,j =∑

j,r

or,iλror,j =∑

r

or,iλr

j

or,j =∑

r

or,i(λrvr) = 0.

5. I modelli esponenziali.

Prima di introdurre i modelli esponenziali, occorre richiamare qualche proprieta della trasformatadi Laplace di una misura.

Sia µ una misura σ−finita su (Rk,B(Rk)), e sia

Dµ = θ ∈ Rk :∫

exp(〈θ, x〉)dµ(x) < +∞.

Per θ ∈ Dµ, definiamo

Lµ(θ) =∫

exp(〈θ, x〉)dµ(x).

La funzione Lµ : Dµ → R+ cosı definita si chiama trasformata di Laplace della misura µ. Leproprieta essenziali che ci serviranno nel seguito sono le seguenti:(i) Dµ e un convesso di Rk (eventualmente vuoto);(ii) all’interno di Dµ, l’applicazione θ 7→ Lµ(θ) e di classe C∞ ed inoltre la derivata passa sotto ilsegno di integrale, cioe

∂θiL(θ) =

∂θi

∫exp

(〈θ, x〉)dµ(x) =∫

∂θiexp

(〈θ, x〉)dµ(x) =∫

xi exp(〈θ, x〉)dµ(x);

piu in generale, se α = (α1, . . . , αk), e un multiindice, si ha

DαL(θ) = Dα

∫exp

(〈θ, x〉)dµ(x) =∫

Dα exp(〈θ, x〉)dµ(x) =

∫xα exp

(〈θ, x〉)dµ(x),

dove come al solito si pone

Dα = Dα1 · · ·Dαk , xα = xα1 · · ·xαk .

(iii) Siano µ e ν due misure: se esiste un aperto non vuoto A ⊆ Dµ ∩Dν tale che Lµ(θ) = Lν(θ)per ogni θ ∈ A, allora µ = ν.

25

Page 26: Appunti di Statistica Matematica - people.dm.unipi.itpeople.dm.unipi.it/giuliano/dispensestatisticamatematica.pdf · 1. Modelli statistici (1.1) Esempio di partenza. L’analisi di

Cenno di dimostrazione. (i) poiche u 7→ eu e convessa, si ha, per t ∈ (0, 1)

et〈θ1,x〉+(1−t)〈θ2,x〉 ≤ te〈θ1,x〉 + (1− t)e〈θ2,x〉

e dunque, integrandoLµ(tθ1 + (1− t)θ2) ≤ tLµ(θ1) + (1− t)Lµ(θ2).

(ii) e immediata, a condizione di provare che, se θ ∈ Dµ, allora xie

〈θ,x〉 e µ−integrabile.(iii) si puo dedurre dall’analogo risultato riguardante le funzioni caratteristiche, nel modo seguente(cenno): nelle ipotesi fatte, per alcuni risultati sulle funzioni analitiche (di piu variabili) le funzioniθ 7→ Lµ(θ) e θ 7→ Lν(θ) (definite su un sottoinsieme aperto di Rn) possono essere estese a (unsottoinsieme aperto di) Cn. Prendendo allora θ = (it1, . . . , itn), si vede che µ e ν hanno la stessatrasformata di Fourier (o funzione caratteristica) e pertanto coincidono.

(5.1) Definizione. Un modello statistico dominato (Ω,F , (P θ, θ ∈ Θ)) si dice esponenziale seesiste una misura dominante µ tale che si abbia

L(θ) =dP θ

dµ= C(θ) exp

(〈θ, T 〉)

dove(i) C(θ) e una costante (rispetto a ω);(ii) T e una v.a. a valori in Rk;(iii) Θ e un aperto convesso di Rk, contenuto in

D = θ ∈ Rk :∫

Ω

exp(〈θ, T 〉)dµ < +∞.

Poiche si deve avere∫Ω

L(θ)dµ = 1, si ha necessariamente

C(θ) =( ∫

Ω

exp(〈θ, T 〉)dµ)−1

.

Dunque, se si pone

ψ(θ) = log( ∫

Ω

exp(〈θ, T 〉)dµ)

si ottiene la forma canonica della verosimiglianza

L(θ) = exp(〈θ, T 〉 − ψ(θ)

).

(5.2) Osservazione. (i) T e una statistica esaustiva (ovvio per il teorema di fattorizzazione).(ii) Il modello statistico e regolare. Infatti L(θ) e strettamente positiva ovunque (se fosse C(θ) = 0per qualche valore di θ, avremmo una densita dP θ

dµ (ω) = 0 per ogni ω ∈ Ω, e questo non e possibile).

Vediamo come si usano i modelli esponenziali per trovare statistiche complete. Vale il

26

Page 27: Appunti di Statistica Matematica - people.dm.unipi.itpeople.dm.unipi.it/giuliano/dispensestatisticamatematica.pdf · 1. Modelli statistici (1.1) Esempio di partenza. L’analisi di

(5.3) Teorema. In un modello esponenziale nel quale L(θ) = C(θ) exp(〈θ, T 〉

), T e una statistica

esaustiva completa.

Dimostrazione. Sia Y = h(T ) tale che, per ogni θ, si abbia

0 = Eθ[h(T )] = C(θ)∫

Ω

h(T ) exp(〈θ, T 〉

)dµ = C(θ)

Ω

h(x) exp(〈θ, x〉

)dµT (x)

dove µT = T (µ) indica la misura immagine di µ secondo T . Scriviamo h nella forma h+ − h−; siha allora ∫

Ω

exp(〈θ, x〉

)h+(x)dµT (x) =

Ω

exp(〈θ, x〉

)h−(x)dµT (x).

Dunque, per la proprieta (iii) della trasformata di Laplace, le due misure h+.µT e h−.µT coincidono,cioe h+ = h− µT q. o. Cio significa che h = 0 µT q. o., ossia che h(T ) = 0 µ q. o.

(5.4) Esempio. Nell’esempio (2.9) (c) avevamo trovato la seguente verosimiglianza, rispetto allamisura di Lebesgue su [0, 1]n:

L(θ;x1, . . . , xn) = (θ + 1)n( n∏

i=1

xi

= exp(θ

n∑

i=1

log xi + n log(θ + 1))

= exp(θT − ψ(θ)

),

dove T (x1, . . . , xn) =∑n

i=1 log xi e ψ(θ) = −n log(θ + 1). Dunque, se poniamo T (X1, . . . , Xn) =∑ni=1 log Xi, T e una statistica esaustiva completa. Calcoliamone la speranza rispetto a P θ. Si ha

Eθ[T ] = Eθ[n∑

i=1

log Xi] =n∑

i=1

Eθ[log Xi] = nEθ[log X1] = n(θ + 1)∫ 1

0

xθ log xdx =−n

θ + 1.

Dunque −∑n

i=1log Xi

n e una statistica esaustiva completa e corretta, e quindi e uno stimatoreottimale di 1

θ+1 .

(5.5) Osservazione. Attenzione: non e affatto vero che − n∑n

i=1log Xi

sia uno stimatore corretto

di θ + 1.

(5.6) Esercizio. (a) In un campione di legge di Poisson di parametro θ,∑n

i=1Xi

n e uno stimatoreottimale di θ.

Soluzione. Abbiamo visto nell’esempio (2.9) (b) che, rispetto alla misura µ che conta i punti diNn, la verosimiglianza e data da

dP θ

dµ(k1, . . . , kn) =

e−nθθk1+···kn

k1! · · · kn!.

Per “scaricare i fattoriali”, cambiamo misura dominante e prendiamo

m(k1, . . . , kn) =1

k1! · · · kn!

27

Page 28: Appunti di Statistica Matematica - people.dm.unipi.itpeople.dm.unipi.it/giuliano/dispensestatisticamatematica.pdf · 1. Modelli statistici (1.1) Esempio di partenza. L’analisi di

Allora la verosimiglianza diventa

dP θ

dm(k1, . . . , kn) = e−nθθk1+···kn = exp

((k1 + · · · kn) log θ − nθ

).

Posto allora T (k1, . . . , kn) = k1+· · ·+kn, e cambiando il parametro t = log θ, ψ(t) = net, possiamoscrivere la verosimiglianza nella forma

L(t) = exp(t(k1 + · · ·+ kn)− ψ(t)

).

Si riconosce quindi un modello esponenziale, e dunque la statistica T = X1 + · · ·+ Xn e esaustiva

completa. Dato che Eθ[T ] = nθ, si ottiene che∑n

i=1Xi

n e uno stimatore ottimale di θ.

(b) In un campione di legge esponenziale di parametro θ,∑n

i=1Xi

n e uno stimatore ottimale di 1θ .

(5.7) Osservazione. Talvolta il modello non e di tipo esponenziale, ma lo diventa se si effettuaun opportuno cambio di parametro θ = g(θ). Abbiamo gia trovato un esempio nell’esercizio (5.6)(a). Vediamone un altro.Le leggi normali N (m,σ2) hanno densita (rispetto alla misura di Lebesgue)

L(m,σ2; x) =1√2πσ

exp(− (x−m)2

2σ2

)= exp

(m

σ2x− 1

2σ2x2 − m2

2σ2− log σ − 1

2log(2π)

)

Se m e σ2 sono entrambi sconosciuti, il modello diventa esponenziale ponendo

θ =(

m

σ2,− 1

2σ2

), T (x) = (x, x2).

Nel caso che m sia noto, il modello diventa esponenziale ponendo

θ = − 12σ2

, T (x) = (x−m)2.

Nel caso che σ2 sia noto, il modello diventa esponenziale ponendo

θ =m

σ2, T (x) = x,

e prendendo come misura dominante la misura con densita (rispetto alla misura di Lebesgue su R)

exp(− 1

2σ2x2 − log σ − m2

2σ2− 1

2log(2π)

).

(5.8) Osservazione. Sia µθ una famiglia esponenziale di probabilita su R (cioe si ha dµθ

dµ (x) =exp

(〈θ, T (x)〉 − ψ(θ)). Consideriamo un campione di taglia n e legge µθ; allora la verosimiglianza

rispetto alla misura dominante µ⊗n e data da

L(θ; x1, . . . , xn) =n∏

i=1

exp(〈θ, T (xi)〉 − ψ(θ)

)= exp

(〈θ,n∑

i=1

T (xi)〉 − nψ(θ));

28

Page 29: Appunti di Statistica Matematica - people.dm.unipi.itpeople.dm.unipi.it/giuliano/dispensestatisticamatematica.pdf · 1. Modelli statistici (1.1) Esempio di partenza. L’analisi di

quindi anche il campione e un modello esponenziale e, se si pone come al solito Xi(x1, . . . , xn) = Xi,la v. a.

∑ni=1 T (Xi) e una statistica esaustiva.

(5.9) Esempi. Vediamo alcuni esempi di modelli esponenziali su R.(a) Legge di Bernoulli di parametro θ. La densita, rispetto alla misura che assegna massa unitariaai punti 0 e 1, e data da

L(θ; k) = θk(1− θ)1−k = exp(

k logθ

1− θ+ log(1− θ)

),

che diventa esponenziale passando al parametro

t = logθ

1− θ.

(b)Legge di Poisson di parametro θ. La densita, rispetto alla misura che conta gli interi, e data da

L(θ; k) = e−θ θk

k!, k ∈ N,

che non ha una forma esponenziale. Se pero cambiamo misura dominante, prendendo la misura µconcentrata su N tale che µ(k) = 1

k! , allora la densita e

dµθ

dµ= e−θθk = exp(k log θ − θ),

che e esponenziale se passiamo al parametro t = log θ. (ved. anche es. (5.6) (a)).(c) Legge Γ di parametri r > 0, λ > 0. La sua densita rispetto alla misura di Lebesgue su R+, edata da

L(r, λ; x) =λrxr−1e−λx

Γ(r)= exp(−λx + (r − 1) log x + r log λ− log Γ(r)),

che diventa esponenziale se si pone

θ = (λ, r − 1), T (x) = (−x, log x).

Torniamo adesso alle proprieta dei modelli esponenziali, dimostrando un risultato che utilizzeremonel seguito.

(5.10) Proposizione. Valgono le seguenti equazioni

(a)∂ψ(θ)∂θi

= Eθ[Ti], i = 1, . . . , k;

(b)∂2ψ(θ)∂θi∂θj

= Covθ(Ti, Tj).

29

Page 30: Appunti di Statistica Matematica - people.dm.unipi.itpeople.dm.unipi.it/giuliano/dispensestatisticamatematica.pdf · 1. Modelli statistici (1.1) Esempio di partenza. L’analisi di

Dimostrazione. (a) Se T = (T1, . . . , Tk), si ha∫

Ω

exp(〈θ, T 〉)dµ =

Rk

exp(〈θ, x〉)dµT (x),

dove µT e l’immagine di µ secondo l’applicazione T : Ω → Rk. Dunque, per una delle proprietadella trasformata di Laplace sopra ricordate,

∂θi

Ω

exp(〈θ, T 〉)dµ =

∂θi

Rk

exp(〈θ, x〉)dµT (x) =

Rk

xi exp(〈θ, x〉)dµT (x)

=∫

Ω

Ti exp(〈θ, T 〉)dµ

e dunque

∂ψ(θ)∂θi

=∂

∂θilog

(∫

Ω

exp(〈θ, T 〉)dµ

)=

Ω

Ti exp(〈θ, T 〉 − ψ(θ)

)dµ = Eθ[Ti].

(b) Continuando a derivare, si trova

∂2ψ(θ)∂θi∂θj

=∫

Ω

Ti∂

∂θjexp

(〈θ, T 〉 − ψ(θ))dµ =

Ω

Ti exp(〈θ, T 〉 − ψ(θ)

)(Tj − ∂ψ(θ)

∂θj

)

= Eθ[TiTj ]− Eθ[Ti]Eθ[Tj ] = Covθ(Ti, Tj).

6. Informazione secondo Fisher e diseguaglianza di Cramer–Rao.

Quando si deve stimare il parametro θ ∈ Θ (con Θ aperto di Rk) l’importante e il tipo di variabilitadelle leggi P θ intorno a θ. Di qui l’idea di un’ “informazione locale”. A questa esigenza rispondeil concetto di informazione introdotto da Fisher.

Supponiamo assegnato in tutto il paragrafo un modello statistico regolare(Ω,F , (P θ, θ ∈ Θ)

),

una misura dominante P ed una scelta della verosimiglianza L(θ) = dP θ

dP . Indicheremo con El’operatore di speranza fatta rispetto a P .

Si suppone che Θ sia un aperto di Rk, che la funzione θ 7→ L(θ, ω) sia per ogni ω strettamentepositiva e differenziabile (piu in generale potremmo supporre che l’insieme Aθ = ω ∈ Ω : L(θ, ω) >0 non dipenda da θ). Inoltre faremo l’ipotesi che si possa scambiare l’operazione di integrazionecon quella di derivazione nel derivare le funzioni del tipo θ 7→ E[L(θ)Y ], per ogni v. a. Y ∈ L2(P )(questa ipotesi e vera ad esempio se ∇(

L(θ))

e di quadrato integrabile secondo P ). In particolaresi ha E[L(θ)] =

∫Ω

dP θ

dP dP =∫Ω

dP θ = 1, e quindi, per ogni i = 1, . . . , k

E

[∂

∂θiL(θ)

]=

∂θiE[L(θ)] =

∂θi1 = 0,

30

Page 31: Appunti di Statistica Matematica - people.dm.unipi.itpeople.dm.unipi.it/giuliano/dispensestatisticamatematica.pdf · 1. Modelli statistici (1.1) Esempio di partenza. L’analisi di

che significaE[∇L(θ)] = ∇E[L(θ)] = ∇1 = 0,

(dove 0 e il vettore a componenti tutte nulle). Dall’ultima relazione segue che

Eθ[∇ log(L(θ)

)] = Eθ

[1

L(θ)∇L(θ)

]=

Ω

1L(θ)

∇L(θ)dP θ =∫

Ω

1L(θ)

∇L(θ)dP θ

dPdP

=∫

Ω

∇L(θ)dP = E[∇L(θ)] = 0.

In altre parole, questa relazione dice che, per ogni i = 1, . . . , k, le v. a.

ω 7→ ∂

∂θilog

(L(θ, ω)

)

sono centrate rispetto a ogni P θ.

Supponiamo infine che ∇(log L(θ)

)sia di quadrato integrabile secondo P θ per ogni θ ∈ Θ.

(6.1)Osservazione. Su Ω = (R+)n sia (X1, . . . , Xn) un campione di legge µθ = U [0, 1]. Dato cheL(θ, ω) = 1[0,1](ω), in questo caso non e vero che L(θ, ω) > 0 per ogni ω ∈ Ω. Invece e vero che Aθ

(=[0, 1]) non dipende da θ. Tuttavia ci sono casi in cui anche questa ipotesi non e valida; ad es.se siamo nel caso di un campione di legge µθ = U [0, θ].

(6.2) Definizione. Si chiama matrice di informazione secondo Fisher la matrice I(θ) =(I(θ)i,j

)dove

I(θ)i,j = Eθ

[∂

∂θilog L(θ) · ∂

∂θjlog L(θ)

].

(6.3) Osservazione. Dato che per ogni j

∂ log L(θ)∂θj

=1

L(θ)· ∂L(θ)

∂θj,

si ha la formula alternativa

I(θ)i,j = Eθ

[1

L2(θ)· ∂L(θ)

∂θj· ∂L(θ)

∂θi

].

(6.4) Osservazione. I(θ) e una matrice simmetrica e semi–definita positiva. Infatti essa e lamatrice di covarianza del vettore ∇(

log L(θ))

(che come abbiamo visto e centrato). D’altra parte,

31

Page 32: Appunti di Statistica Matematica - people.dm.unipi.itpeople.dm.unipi.it/giuliano/dispensestatisticamatematica.pdf · 1. Modelli statistici (1.1) Esempio di partenza. L’analisi di

la matrice di covarianza C di un vettore aleatorio (X1, . . . , Xk)e sempre simmetrica (ovvio) esemi–definita positiva. Infatti

〈Cx, x〉 =∑

i,j

Cov(Xi, Xj)xixj =∑

i,j

E[xi(Xi − E[Xi])xj(Xj − E[Xj ])

]=

E[ ∑

i,j

xi(Xi − E[Xi])xj(Xj − E[Xj ])]

= E[ (∑

i

xi(Xi − E[Xi])

) ∑

j

xi(Xj − E[Xj ])

]

= E[ (∑

i

xi(Xi − E[Xi])

)2 ]= E

[〈x,X − E[X]〉2

]≥ 0.

Vogliamo vedere ora come si comporta l’informazione quando il numero di esperienze fatte au-menta. Per prima cosa, vediamo cosa accade quando le varie ripetizioni sono tra loro indipen-denti. Supponiamo di essere nella situazione seguente: si hanno due modelli statistici dominati(Ω1,F1, P θ

1 , θ ∈ Θ) (misura dominante P1 e verosimiglianza L1(θ)) e(Ω2,F2, P θ

2 , θ ∈ Θ)(misura dominante P2 e verosimiglianza L2(θ)). Poniamo Ω = Ω1×Ω2; F = F1⊗F2; P θ = P θ

1 ⊗P θ2

(ω ∈ Ω e del tipo ω = (ω1, ω2), con ω1 ∈ Ω1 e ω2 ∈ Ω2); e immediato vedere che il modello(Ω,F , P θ, θ ∈ Θ) ora costruito e dominato da P1 ⊗ P2 e che una versione della verosimiglianza

e data da L(θ; ω) = L1(θ, ω1) · L2(θ; ω2). Denotiamo (come al solito) con X1 e X2 le proiezioni(X1(ω) = ω1 e X2(ω) = ω2), che risultano indipendenti per costruzione. Indichiamo infine con I,I1 e I2 le informazioni di Fisher nei relativi modelli (con notazioni ovvie).

(6.5) Esercizio. Su (Ω,F , P ) siano U e V due vettori aleatori a valori in(Rk,B(Rk)

), tra loro

indipendenti. Indichiamo con CovU , CovV e Cov(U + V ) le matrici di covarianza di U , V eU + V rispettivamente. Mostrare che

Cov(U + V ) = CovU + CovV.

(6.6) Teorema (di additivita). Nelle ipotesi fatte sopra, per ogni θ ∈ Θ si ha

I(θ) = I1(θ) + I2(θ).

Dimostrazione. Si ha prima di tutto log L(θ; ω) = log(L1(θ, ω1) · L2(θ;ω2)

)= log L(θ;ω1) +

log L(θ; ω2). Dunque, ricordando che I(θ) e la matrice di covarianza del vettore ∇ log L(θ; ω)(os-servazione (6.4)), si ha

I(θ) = Cov(∇ log L(θ; ·)) = Cov

(∇log L1(θ; X1) + log L2(θ; X2))

= Cov(∇ log L1(θ; X1) +∇ log L2(θ; X2)

)

= Cov(∇ log L1(θ; X1)

)+ Cov

(∇ log L2(θ;X2))

= I1(θ) + I2(θ),

32

Page 33: Appunti di Statistica Matematica - people.dm.unipi.itpeople.dm.unipi.it/giuliano/dispensestatisticamatematica.pdf · 1. Modelli statistici (1.1) Esempio di partenza. L’analisi di

per l’indipendenza di X1 e X2.

(6.7) Osservazione. (a) Ovviamente il teorema vale anche quando i modelli di partenza sono piudi 2;(b) il significato del teorema e che in caso di indipendenza le informazioni si sommano; in particolarel’informazione In fornita da un campione (X1, . . . , Xn) (di legge µθ e misura dominante µ), e cioel’informazione del modello (

Rn,B(Rn), (µθ)⊗n, θ ∈ Θ)

e uguale a n volte l’informazione I fornita dal modello

(R,B(R), µθ, θ ∈ Θ).

Cioe l’informazione fornita da n prove e n volte l’informazione fornita da una singola prova.

Talvolta e utile una forma alternativa per I(θ).

(6.8) Lemma. Si ha

[1

L(θ)· ∂2L(θ)

∂θi∂θj

]= 0.

Dimostrazione.

[1

L(θ)· ∂2L(θ)

∂θi∂θj

]=

∫1

L(θ)· ∂2L(θ)

∂θi∂θjdP θ =

∫1

L(θ)· ∂2L(θ)

∂θi∂θj

dP θ

dP︸︷︷︸=L(θ)

dP

=∫

∂2L(θ)∂θi∂θj

dP = E

[∂2L(θ)∂θi∂θj

]=

∂2

∂θi∂θjE [L(θ)]︸ ︷︷ ︸

=1

= 0.

(6.9) Teorema. Vale la formula

I(θ)i,j = −Eθ

[∂2 log L(θ)

∂θi∂θj

]

Dimostrazione. Si ha

∂2 log L(θ)∂θi∂θj

=∂

∂θi

(∂ log L(θ)∂θj

)=

∂θi

( 1L(θ)

∂L(θ)∂θj

)=

1L2(θ)

(L(θ)

∂2L(θ)∂θi∂θj

− ∂L(θ)∂θj

· ∂L(θ)∂θi

)

=1

L(θ)· ∂2L(θ)

∂θi∂θj− 1

L2(θ)· ∂L(θ)

∂θj· ∂L(θ)

∂θi.

33

Page 34: Appunti di Statistica Matematica - people.dm.unipi.itpeople.dm.unipi.it/giuliano/dispensestatisticamatematica.pdf · 1. Modelli statistici (1.1) Esempio di partenza. L’analisi di

Passando alle speranze e utilizzando il Lemma (6.8) si trova

[∂2 log L(θ)

∂θi∂θj

]= −Eθ

[1

L2(θ)· ∂L(θ)

∂θj· ∂L(θ)

∂θi

]= −I(θ)i,j ,

per l’osservazione (6.3)

(6.10)Esempi. (a) Sia (X1, . . . , Xn) un campione di legge N (m,σ2). Calcoliamo In(m).

La verosimiglianza e data da

L(m; x1, . . . , xn) =1

(2π)n/2σ−n exp

− 1

2σ2

n∑

i=1

(xi −m)2

.

Quindi (la notazione L(m) usata qui sotto sta a rammentare che stiamo considerando la verosimi-glianza come funzione di m, che e il parametro che ci interessa)

log L(m) = −n

2log(2π)− n log σ − 1

2σ2

n∑

i=1

(xi −m)2;

d2

dm2log L(m) =

d2

dm2

− 1

2σ2

n∑

i=1

(xi −m)2

=d

dm

1σ2

n∑

i=1

(xi −m)

= − n

σ2.

Dunque

In(m) = −Em[ d2

dm2log L(m)

]=

n

σ2.

Osserviamo comunque che, per il teorema di additivita, si ha In(m) = nI1(m), e quindi basterebbecalcolare I1(m) = 1

σ2 .

(b) Come in (a), sia (X1, . . . , Xn) un campione di legge N (m,σ2). Calcoliamo In(σ2).

La verosimiglianza e la stessa che in (a), ma questa volta va guardata come funzione di σ2, quindiscriviamo

log L(σ2) = −n

2log(2π)− n

2log(σ2)− 1

2σ2

n∑

i=1

(xi −m)2;

d2

d(σ2)2log L(σ2) =

d2

d(σ2)2− n

2log(σ2)− 1

2σ2

n∑

i=1

(xi −m)2

=d

d(σ2)

− n

2σ2+

∑ni=1(xi −m)2

2σ4

=

n

2σ4−

∑ni=1(xi −m)2

σ6.

Quindi

In(σ2) = −Eσ2[ d2

d(σ2)2log L(σ2)

]= −Eσ2

[ n

2σ4−

∑ni=1(Xi −m)2

σ6

]

= − n

2σ4+

1σ4

n∑

i=1

Eσ2[(Xi −m

σ

)2

︸ ︷︷ ︸=V ar

(Xi−m

σ

)=1

]= − n

2σ4+

n

σ4=

n

2σ4.

34

Page 35: Appunti di Statistica Matematica - people.dm.unipi.itpeople.dm.unipi.it/giuliano/dispensestatisticamatematica.pdf · 1. Modelli statistici (1.1) Esempio di partenza. L’analisi di

(c) Ancora come in (a), sia (X1, . . . , Xn) un campione di legge N (m, σ2). Calcoliamo In(σ).

Ora scriviamo

log L(σ) = −n

2log(2π)− n log σ − 1

2σ2

n∑

i=1

(xi −m)2;

d2

dσ2log L(σ) =

d2

dσ2

− n log σ − 1

2σ2

n∑

i=1

(xi −m)2

=d

− n

σ+

∑ni=1(xi −m)2

σ3

=

n

σ2− 3

∑ni=1(xi −m)2

σ4;

In(σ) = −Eσ[ d2

dσ2log L(σ)

]= −Eσ

[ n

σ2− 3

∑ni=1(Xi −m)2

σ4

]

= − n

σ2+

3σ2

n∑

i=1

Eσ2[(Xi −m

σ

)2

︸ ︷︷ ︸=V ar

(Xi−m

σ

)=1

]= − n

σ2+

3n

σ2=

2n

σ2.

In tutti gli esempi precedenti sono valide le ipotesi necessarie per poter sviluppare la teoriadell’informazione di Fisher (dunque fra l’altro, come abbiamo potuto verificare con i calcoli di-retti, vale il teorema di additivita). Vediamo cosa accade nell’esempio che segue, in cui, comeabbiamo osservato in (6.1), le ipotesi non valgono.

(d) Sia (X1, . . . , Xn) un campione di legge U(0, θ) (θ > 0).

(i) Calcoliamo I1(θ) con la definizione. La verosimiglianza e

L(θ;x) =1θ1(0,θ)(x);

dunque Aθ = x : L(θ, x) > 0 = (0, θ), e, per x ∈ Aθ = (0, θ), abbiamo

d

dθlog L(θ, x) = −1

θ;

in altre paroled

dθlog L(θ, x) = −1

θ1(0,θ)(x)

e quindi

I1(θ) = Eθ[ d

dθlog L(θ, X)

2]= Eθ

[− 1

θ1(0,θ)(X)

2]=

1θ2

Eθ[1(0,θ)(X)

]=

1θ2

∫ θ

0

1θdx =

1θ2

.

(ii) Proviamo ad usare la formula del Teorema (6.9):

I(θ) = −Eθ[ d2

dθ2log L(θ)

]= −Eθ

[ 1θ2

1(0,θ)(X)]

= − 1θ2

.

35

Page 36: Appunti di Statistica Matematica - people.dm.unipi.itpeople.dm.unipi.it/giuliano/dispensestatisticamatematica.pdf · 1. Modelli statistici (1.1) Esempio di partenza. L’analisi di

Si osserva che in questo modo non otteniamo il valore corretto (quello del punto (i)); fra l’altro sitratta di un numero negativo (sappiamo che l’informazione e sempre non negativa).

(iii) Verifichiamo che non vale il teorema di additivita, calcolando In(θ). La verosimiglianza delcampione (X1, . . . , Xn) e

L(θ; x1, . . . , xn) =1θn

1(0,θ)(x1) · . . . · 1(0,θ)(xn).

DunqueAθ = x1, . . . , xn : L(θ; x1, . . . , xn) > 0 = (0, θ)n;

log L(θ; x1, . . . , xn) = (−n log θ)1(0,θ)n(x1, . . . , xn).

Pertanto

In(θ) = Eθ[ d

dθlog L(θ; X1, . . . , Xn)

2]= Eθ

[− n

θ1(0,θ)n(X1, . . . , Xn)

2]

=n2

θ2Eθ

[1(0,θ)n(X1, . . . , Xn)

]=

n2

θ2

(0,θ)n

1θn

dx =n2

θ26= nI1(θ).

(6.11) Esempio (un caso bidimensionale). Sia (X1, . . . , Xn) un campione di legge N (m,σ2).Calcoliamo I(m,σ2). Osserviamo che in questo caso si ha θ = (m,σ2), cioe il parametro e bidi-mensionale. I(θ) sara dunque una matrice 2× 2:

I(θ) =(

I1,1(θ) I1,2(θ)I2,1(θ) I2,2(θ)

)

La verosimiglianza e data da

L(θ;x1, . . . , xn) = L((m,σ2); x1, . . . , xn) =1

(2π)n/2σ−n exp

− 1

2σ2

n∑

i=1

(xi −m)2

.

Quindi

log L((m,σ2)) = −n

2log(2π)− n

2log σ2 − 1

2σ2

n∑

i=1

(xi −m)2,

da cui

• ∂2

∂m2log L((m,σ2)) =

∂2

∂m2

− 1

2σ2

n∑

i=1

(xi −m)2

=∂

∂m

1σ2

n∑

i=1

(xi −m)

= − n

σ2;

• ∂2

∂(σ2)2log L((m, σ2)) =

∂2

∂(σ2)2− n

2log(σ2)− 1

2σ2

n∑

i=1

(xi −m)2

=∂

∂(σ2)

− n

2σ2+

∑ni=1(xi −m)2

2σ4

=

n

2σ4−

∑ni=1(xi −m)2

σ6;

• ∂2

∂m∂(σ2)log L((m,σ2)) =

∂(σ2)

1σ2

n∑

i=1

(xi −m)

= − 1σ4

n∑

i=1

(xi −m).

36

Page 37: Appunti di Statistica Matematica - people.dm.unipi.itpeople.dm.unipi.it/giuliano/dispensestatisticamatematica.pdf · 1. Modelli statistici (1.1) Esempio di partenza. L’analisi di

Dunque

• I1,1(θ) = −Eθ[ ∂2

∂m2log L((m,σ2))

]=

n

σ2

• I2,2(θ) = −Eσ2[ ∂2

∂(σ2)2log L((m,σ2))

]= −Eσ2

[ n

2σ4−

∑ni=1(Xi −m)2

σ6

]

= − n

2σ4+

1σ4

n∑

i=1

Eσ2[(Xi −m

σ

)2

︸ ︷︷ ︸=V ar

(Xi−m

σ

)=1

]= − n

2σ4+

n

σ4=

n

2σ4;

• I1,2(θ) = I2,1(θ) = −Eθ[ ∂2

∂m∂(σ2)log L((m,σ2))

]=

1σ4

Eθ[ n∑

i=1

(Xi −m)]

= 0;

e quindi la matrice d’informazione e

In(m,σ2) =

n

σ20

0n

2σ4

.

(6.12) Il caso di una catena di Markov. Un’altra situazione interessante in cui studiare comevaria l’informazione all’aumentare delle osservazioni e quella del modello statistico dell’esempio(2.4) (catena di Markov). Supponiamo di avere una catena di Markov sullo spazio misurabile(E, E), di legge iniziale ρ assegnata e operatore di transizione

Π(θ, x; A) =∫

A

`(θ, x, y)Π(x, dy), x ∈ E, A ∈ E ,

dove Π e un operatore di transizione fissato di E in E. Prendiamo il modello statistico (definitoin (2.4)) (

En+1, E⊗n+1, P θ, θ ∈ Θ), dove P θ = ρ⊗ (Πθ)⊗n

sappiamo che si tratta di un modello dominato; una misura dominante e ρ ⊗ Π⊗n e una versionedella verosimiglianza e (x = (x0, . . . , xn))

L(θ, x) = `(θ, x0, x1) · `(θ, x1, x2) · . . . · `(θ, xn−1, xn).

Calcoliamo In(θ) con la formula della definizione. Prendiamo n = 2 per semplicita e poniamo˙(θ, x, y) = ∂

∂θ `(θx, y). Allora L(θ,X0, X1, X2) = `(θ, X0, X1)`(θ, X1, X1) e

L′(θ) = ˙(θ, X0, X1)`(θ, X1, X1) + `(θ,X0, X1) ˙(θ,X1, X2),

e quindiL′(θ)L(θ)

=˙(θ, X0, X1)`(θ, X0, X1)

+˙(θ,X1, X2)`(θ,X1, X2)

.

37

Page 38: Appunti di Statistica Matematica - people.dm.unipi.itpeople.dm.unipi.it/giuliano/dispensestatisticamatematica.pdf · 1. Modelli statistici (1.1) Esempio di partenza. L’analisi di

Dunque

L′(θ)L(θ)

2

= ˙(θ, X0, X1)

`(θ, X0, X1)

2

+ ˙(θ, X1, X2)

`(θ, X1, X2)

2

+ 2˙(θ,X0, X1)`(θ,X0, X1)

·˙(θ, X1, X2)`(θ, X1, X2)

,

e passando alle speranze si trova

I2(θ) = Eθ[ ˙(θ,X0, X1)

`(θ,X0, X1)

2]+ Eθ

[ ˙(θ, X1, X2)`(θ, X1, X2)

2]+ 2Eθ

[ ˙(θ, X0, X1)`(θ, X0, X1)

·˙(θ,X1, X2)`(θ,X1, X2)

].

D’altra parte

Eθ[ ˙(θ,X0, X1)`(θ,X0, X1)

·˙(θ, X1, X2)`(θ, X1, X2)

]= Eθ

[Eθ

[ ˙(θ,X0, X1)`(θ,X0, X1)

·˙(θ, X1, X2)`(θ, X1, X2)

∣∣∣X0, X1

] ]

= Eθ[ ˙(θ,X0, X1)`(θ,X0, X1)

· Eθ[ ˙(θ,X1, X2)`(θ,X1, X2)

∣∣∣X0, X1

] ]= 0

,

perche

Eθ[ ˙(θ,X1, X2)`(θ,X1, X2)

∣∣∣X0, X1

]=

∫ ˙(θ,X1, y)`(θ,X1, y)

Πθ(X1, dy) =∫ ˙(θ, X1, y)

`(θ, X1, y)`(θ, X1, y)Π(X1, dy)

=∫

˙(θ, X1, y)Π(X1, dy) =∂

∂θ

∫`(θ,X1, y)Π(X1, dy) =

∂θ

∫Πθ(X1, dy)

︸ ︷︷ ︸=1

= 0.

Si conclude quindi che

I2(θ) = Eθ[ ˙(θ, X0, X1)

`(θ, X0, X1)

2]+ Eθ

[ ˙(θ, X1, X2)`(θ, X1, X2)

2].

In generale, se φ e una funzione limitata (di due variabili), si ha

Eθ[φ(X0, X1)

]=

∫ρ(dx0)

∫Πθ(x0, dx1)φ(x0, x1) =

∫φ(x0, x1)d

(ρ⊗ (Πθ)

)(x0, x1);

Eθ[φ(X1, X2)

]=

∫ρ(dx0)

∫Πθ(x0, dx1)

∫Πθ(x1, dx2)φ(x1, x2)

=∫

φ(x1, x2)d(ρ⊗ (Πθ)⊗2

)(x1, x2).

Inoltre, se ρ e una misura invariante per la catena, la legge di X1 e cioe l’applicazione A 7→∫ρ(dx0)Πθ(x0, A), coincide con ρ. Pertanto

Eθ[φ(X1, X2)

]=

∫ρ(dx0)

∫Πθ(x0, dx1)

∫Πθ(x1, dx2)φ(x1, x2)

=∫ ∫

ρ(dx0)Πθ(x0, dx1)∫

Πθ(x1, dx2)φ(x1, x2) =∫

ρ(dx1)∫

Πθ(x1, dx2)φ(x1, x2)

= Eθ[φ(X0, X1)

].

38

Page 39: Appunti di Statistica Matematica - people.dm.unipi.itpeople.dm.unipi.it/giuliano/dispensestatisticamatematica.pdf · 1. Modelli statistici (1.1) Esempio di partenza. L’analisi di

Si puo dunque scrivere

Eθ[ ˙(θ,X0, X1)

`(θ,X0, X1)

2]=

∫ ˙(θ, x0, x1)`(θ, x0, x1)

2

d(ρ⊗ (Πθ)

)(x0, x1);

Eθ[ ˙(θ,X1, X2)

`(θ,X1, X2)

2]=

∫ ˙(θ, x1, x2)`(θ, x1, x2)

2

d(ρ⊗ (Πθ)⊗2

)(x0, x1, x2);

quindi

I2(θ) =∫ ˙(θ, x0, x1)

`(θ, x0, x1)

2

d(ρ⊗ (Πθ)

)(x0, x1) +

∫ ˙(θ, x1, x2)`(θ, x1, x2)

2

d(ρ⊗ (Πθ)⊗2

)(x0, x1, x2)

e, se ρ e invariante per la catena, si trova

I2(θ) = 2Eθ[ ˙(θ, X0, X1)

`(θ, X0, X1)

2]= 2I1(θ).

In generale (n ≥ 1) otteniamo la formula

I(θ) =n∑

i=1

Eθ[ ˙(θ, Xi−1, Xi)

`(θ, Xi−1, Xi)

2]=

n∑

i=1

∫ ˙(θ, xi−1, xi)`(θ, xi−1, xi)

2

d(ρ⊗ (Πθ)⊗i

)(x0, x1, . . . , xi−1, xi);

se ρ e invariante per la catena, si trova

In(θ) = nEθ[ ˙(θ, X0, X1)

`(θ, X0, X1)

2]= nI1(θ).

Si nota che l’informazione cresce al crescere del numero n di passi osservati; se per di piu ρ einvariante per la catena, si ritrova la stessa situazione che avevamo visto nel caso di un campione:l’informazione ottenuta dopo n passi della catena e n volte quella ottenuta dopo un passo.

Vogliamo ora vedere se il concetto di informazione di Fisher e in accordo con l’intuizione per quantoriguarda i concetti di statistica libera e statistica esaustiva. E necessario innanzitutto definire cosasi intende per “misura dell’informazione” contenuta in una statistica T . Per questo, mettiamocinella situazione seguente.

Sia (Ω,F , P θ, θ ∈ Θ) un modello statistico assegnato, dominato da una misura µ e con vero-simiglianza L(θ); su di esso consideriamo la statistica T , a valori nello spazio misurabile (E, E).Indicata con Qθ = T (P θ) la legge di T (cioe la probabilita immagine di P θ secondo T ), consid-eriamo il modello statistico (E, E , Qθ, θ ∈ Θ) (detto modello immagine di (Ω,F , P θ, θ ∈ Θ)secondo T ). Si tratta ovviamente di un modello dominato (una misura dominante e ν = T (µ),supposta σ−finita); indicheremo la verosimiglianza di questo modello con LT (θ). Supporremo chesia L(θ) che LT (θ) verifichino le ipotesi necessarie per poter definire l’informazione di Fisher; leinformazioni dei due modelli (Ω,F , P θ, θ ∈ Θ) e (E, E , Qθ, θ ∈ Θ) saranno indicate con I(θ) eIT (θ) rispettivamente.

39

Page 40: Appunti di Statistica Matematica - people.dm.unipi.itpeople.dm.unipi.it/giuliano/dispensestatisticamatematica.pdf · 1. Modelli statistici (1.1) Esempio di partenza. L’analisi di

Sappiamo che una statistica libera non da alcuna informazione sul parametro, mentre all’oppostouna statistica esaustiva conserva tutta l’informazione del modello.

(6.13) Proposizione. (a)Se T e una statistica libera, allora IT (θ) = 0 per ogni θ.

(b) Viceversa, se IT (θ) = 0 per ogni θ e θ 7→ ∇LT (θ) e continua, allora T e libera.

Dimostrazione. (a) T e libera se T (P θ) = Qθ non dipende da θ. Dunque neppure LT (θ) = dQθ

dνdipende da θ (e di conseguenza ∇ log LT (θ) = 0).

(b) Indicando con X : (E, E) → (E, E) l’applicazione identica X(x) = x, osserviamo che IT (θ) e lamatrice di covarianza del vettore aleatorio centrato∇ log LT (θ,X). Dunque, se essa e identicamentenulla, allora, per ogni θ, il vettore ∇ log LT (θ, X) e Qθ− quasi certamente nullo. In altre parole,per ogni θ ∈ Θ, esiste un evento Nθ ∈ E con Qθ(Nθ) = 0 e tale che, per ogni x 6∈ Nθ si ha

∇LT (θ, x) = 0.

Osserviamo che, poiche dQθ

dν (x) = LT (θ, x) > 0 per ogni θ e per ogni x, si ha anche ν(Nθ) = 0 perogni θ ∈ Θ. Infatti

ν(Nθ) =∫

dν =∫

dQθdQθ =

1LT (θ)

dQθ = 0,

perche l’integrale e fatto su un insieme trascurabile rispetto a Qθ.

Sia D ⊆ Θ un sottoinsieme numerabile e denso in Θ, e poniamo

N =⋃

θ∈D

Nθ.

Allora ν(N) = 0. Sia x 6∈ N ; allora x 6∈ Nθ per ogni θ ∈ D e quindi

∇LT (θ, x) = 0, sempre per ogni θ ∈ D.

Per ogni θ0 ∈ Θ, esiste una successione (θn) di elementi di D, tali che θn → θ0. Passando allora allimite nella relazione precedente, per la continuita di θ 7→ ∇LT (θ) si ottiene

∇LT (θo, x) = limn→∞

∇LT (θn, x) = 0.

Dunque LT (θ, x) = dQθ

dν e costante rispetto a θ, e di conseguenza anche Qθ = T (P θ) lo e: per ogniA ∈ E abbiamo infatti

Qθ(A) =∫

A

dQθ =∫

A

dQθ

dνdν.

Cio significa che T e libera.

(6.14) Proposizione. Si ha la relazione

Eθ[∇ log L(θ)|T ]

= ∇ log LT (θ, T )

40

Page 41: Appunti di Statistica Matematica - people.dm.unipi.itpeople.dm.unipi.it/giuliano/dispensestatisticamatematica.pdf · 1. Modelli statistici (1.1) Esempio di partenza. L’analisi di

Dimostrazione. Il secondo membro dell’uguaglianza nell’enunciato e chiaramente T−misurabile,quindi basta vedere che, per ogni B ∈ F ,del tipo B = T−1(A) = T ∈ A (con A ∈ E), e per ognii si ha ∫

B

∂ log L(θ, ω)∂θi

dP θ(ω) =∫

B

∂ log LT (θ, T (ω))∂θi

dP θ(ω).

Si ha∫

B

∂ log L(θ, ω)∂θi

dP θ(ω) =∫

B

∂L(θ, ω)∂θi

· 1L(θ, ω)

dP θ(ω) =∫

B

∂L(θ, ω)∂θi

· dµ

dP θdP θ(ω)

=∫

B

∂L(θ, ω)∂θi

dµ =∂

∂θi

B

L(θ, ω)dµ(ω) =∂

∂θi

B

dP θ

dµdµ =

∂θiP θ(B) =

∂θiQθ(A).

Ripercorrendo al contrario le relazioni precedenti (con Qθ, ν, A e LT (θ) al posto di P θ, µ, B eL(θ) ripettivamente) e utilizzando la definizione di misura immagine (Qθ = T (P θ)) si pervieneall’uguaglianza

∂θiQθ(A) =

A

∂ log LT (θ, x)∂θi

dQθ(x) =∫

B

∂ log LT (θ, T )∂θi

dP θ.

(6.15) Proposizione. Per ogni θ ∈ Θ si ha

IT (θ) ≤ I(θ),

nel senso che la matrice I(θ)− IT (θ) e semidefinita positiva.

Dimostrazione. Per il lemma precedente, per ogni u ∈ Rk si ha

〈∇ log LT (θ, T ), u〉2 =

Eθ[〈∇ log L(θ), u〉|T ]2

≤ Eθ[〈∇ log L(θ), u〉2|T

]

(dove la diseguaglianza segue dalla proprieta generale delle speranze condizionali E2[X|Y ] ≤E[X2|Y ].

Sappiamo (oss. (6.4)) che se X e un vettore aleatorio centrato a valori in Rk, si ha E[〈X, u〉2] =ut(CovX)u. Dunque

Passando allora in entrambi i membri alla speranza rispetto a P θ, si trova

utCov(∇ log LT (θ, T ))u ≤ utCov(∇ log L(θ,X))u,

e cioe, per ogni u ∈ Rk,utIT (θ)u ≤ utI(θ)u,

che e la tesi.

41

Page 42: Appunti di Statistica Matematica - people.dm.unipi.itpeople.dm.unipi.it/giuliano/dispensestatisticamatematica.pdf · 1. Modelli statistici (1.1) Esempio di partenza. L’analisi di

(6.16) Teorema. Se T e esaustiva, allora I(θ) = IT (θ) per ogni θ ∈ Θ.

Dimostrazione. Si puo supporre che µ sia una dominante privilegiata. In tal caso il teorema diNeymann–Fisher ci dice che la verosimiglianza si scrive nella forma

L(θ, ω) = gθ, T (ω)).

Questo implica che la verosimiglianza nel modello immagine (rispetto alla misura dominante ν =T (µ)) ha la forma

LT (θ, t) = gθ(t).

Infatti, per ogni A ∈ E si ha

Qθ(A) = P θ(T ∈ A) =∫

Ω

1A(T )dP θ =∫

Ω

1A(T )L(θ) dµ =∫

Ω

1A(T )gθ(T ) dµ =∫

E

1A(t)gθ(t) dν

=∫

A

gθ(t) dν,

per il teorema di integrazione rispetto alla legge immagine.

Dunque, per ogni i, j = 1, 2, . . . k si ha

I(θ)i,j = Eθ[ ∂

∂θilog L(θ) · ∂

∂θjlog L(θ)

]=

∫∂

∂θilog gθ(T ) · ∂

∂θjlog gθ(T ) · (

gθ(T ) dµ)

︸ ︷︷ ︸=L(θ)dµ=dP θ

=∫

∂θilog gθ(t) · ∂

∂θjlog gθ(t) · (

gθ(t) dν(t))︸ ︷︷ ︸=LT (θ)dν(t)=dQθ(t)

= IT ()θi,j

.

Il viceversa di questo risultato ha bisogno di qualche ipotesi supplementare. Precisamente

(6.17) Teorema. Se θ 7→ L(θ) e θ 7→ LT θ) sono continue e I(θ) = IT (θ) per ogni θ ∈ Θ, allora Te esaustiva.

Dimostrazione. Dire che I(θ) = IT (θ), significa dire che, per ogni u e per ogni θ, la speranzarispetto a P θ di

Eθ[〈∇ log L(θ), u〉2|T

]−

[〈∇ log L(θ), u〉|T ]2

e nulla; ma dato che questa quantita e sempre non negativa (per la prima relazione della di-mostrazione precedente), si deduce che

Eθ[〈∇ log L(θ), u〉2|T

]=

[〈∇ log L(θ), u〉|T ]2

P θ−quasi certamente, per ogni u e per ogni θ. Vale la

42

Page 43: Appunti di Statistica Matematica - people.dm.unipi.itpeople.dm.unipi.it/giuliano/dispensestatisticamatematica.pdf · 1. Modelli statistici (1.1) Esempio di partenza. L’analisi di

Proposizione (reciproca della disuguaglianza di Jensen). Sullo spazio (Ω,F , P ) sia X unvettore aleatorio integrabile a valori in Rd e B una sottotribu di F . Sia φ una funzione strettamenteconvessa definita su Rd e a valori in R. Se accade che

E[φ(X)|B] = φ(E[X|B]

),

allora 1BX e B− misurabile per ogni B ∈ B.Applicando questa proposizione si trova che, per ogni u e per ogni θ, la v. a.

ω 7→ 1B〈∇ log L(θ, ω), u〉

e σ(T )−misurabile per ogni B ∈ σ(T ). Dunque, indicando con X la v.a. identica su Ω, si ha

1B〈∇ log L(θ,X), u〉 = Eθ[1B〈∇ log L(θ, X), u〉|T ]

= 1BEθ[〈∇ log L(θ, X), u〉|T ]

] = 1B〈∇ log LT (θ, T ), u〉,

(dove nell’ultima uguaglianza si e applicata la proposizione (6.14)). L’uguaglianza ottenuta, appli-cata a B = Ω, dice allora che

〈∇ log L(θ, X), u〉 = 〈∇ log LT (θ, T ), u〉,

P θ−quasi certamente. In altre parole, per ogni θ e per ogni u, esiste un evento Nθ,u ∈ F conP θ(Nθ,u) = 0 tale che, per ogni ω 6∈∈ Nθ,u, si ha

〈∇ log L(θ, ω), u〉 = 〈∇ log LT (θ, T (ω)), u〉.

Procedendo come nella dimostrazione della proposizione (6.13), si arriva a trovare un evento Nu ∈F , con µ(Nu) = 0, tale che, per ogni ω 6∈ Nu, e per ogni θ

〈∇ log L(θ, ω), u〉 = 〈∇ log LT (θ, T (ω)), u〉.

A questo punto, fissata una base u1, . . . uk di Rk, e posto N = ∪ki=1Nui si ha che µ(N) = 0 e per

ogni ω 6∈ N , la relazione precedente vale per ogni u ∈ Rk , e di conseguenza si ha l’uguaglianza

∇ log L(θ, ω) = ∇ log LT (θ, T (ω)).

Integrando, si trova che, per ogni ω 6∈ N e per ogni θ risulta

log L(θ, ω) = log LT (θ, T (ω)) + g(ω)

e cioeL(θ, ω) = LT (θ, T (ω)) · eg(ω).

La conclusione segue allora dal Teorema di fattorizzazione.

(6.18) Esempi. (a) Sia (X1, . . . , Xn) un campione di legge N (m, 1), e sia T = X (media campi-onaria). Il modello statistico di partenza e

(Rn,B(Rn), Pm,m ∈ R),

43

Page 44: Appunti di Statistica Matematica - people.dm.unipi.itpeople.dm.unipi.it/giuliano/dispensestatisticamatematica.pdf · 1. Modelli statistici (1.1) Esempio di partenza. L’analisi di

con Pm = Nn(m, In) (m =t (m, . . . , m), In matrice identita n× n); dall’esempio (6.10) (a) segueche che I(θ) = n

σ2 = n; dato che la legge di X e N (m, 1n ), il modello di arrivo e

(R,B(R), Qm, m ∈ R),

con Qm = N (m, 1n ), e quindi, sempre dall’esempio(6.10) (a), si deduce che IT (θ) = 1

σ2 = 11n

= n.

Dunque IT (θ) = I(θ), in accordo con il fatto che T = X e esaustiva (a varianza costante).

(b) Sia (X1, . . . , Xn) un campione di legge N (m,σ2), e sia T = S2 =∑n

i=1(Xi−X)2

n−1 (varianzacampionaria). In questo caso e θ = (m,σ2). Il modello di partenza e

(Rn,B(Rn), P θ, θ ∈ R× R+),

con P θ = Nn(m, σ2In) (m =t (m, . . . , m), In matrice identita n × n). Vedremo in... che T (n−1)σ2

ha legge χ2(n− 1) = Γ(n−12 , 1

2 ), la cui densita e

f(x) =1

2(n−1)/2Γ(n−12 )

xn−3

2 e−x2 1R+(x).

Dunque

P (T ≤ t) = P(T (n− 1)

σ2≤ t(n− 1)

σ2

)=

∫ t(n−1)σ2

−∞f(x) dx

e quindi

fT (t) = f( t(n− 1)

σ2

)· n− 1

σ2=

n− 1σ2

· 12(n−1)/2Γ(n−1

2 )

( t(n− 1)σ2

)n−32

e−t(n−1)

2σ2 1R+(t)

=1

2(n−1)/2Γ(n−12 )

(n− 1σ2

)n−12

tn−3

2 e−t(n−1)

2σ2 1R+(t).

Indicheremo la legge di T con il simbolo Qσ2(= σ2.χ2(n− 1)).

Il modello di arrivo e (R+,B(R+), Qσ2

, σ2 ∈ R+).Abbiamo gia visto che I(σ2) = n

2σ4 ; calcoliamo ora IT (σ2). Si ha

LT (θ, t) = LT (σ2, t) =1

2(n−1)/2Γ(n−12 )

(n− 1σ2

)n−12

tn−3

2 e−t(n−1)

2σ2 .

Dunque

log LT (σ2, t) = c +n− 1

2log

n− 1σ2

+n− 3

2log t− (n− 1)t

2σ2.

Derivando

∂σ2log LT (σ2, t) = −n− 1

2· σ2

n− 1· n− 1

σ4+

(n− 1)t2σ4

= −n− 12σ2

+(n− 1)t

2σ4.

44

Page 45: Appunti di Statistica Matematica - people.dm.unipi.itpeople.dm.unipi.it/giuliano/dispensestatisticamatematica.pdf · 1. Modelli statistici (1.1) Esempio di partenza. L’analisi di

Derivando ancora∂2

∂(σ2)2log LT (σ2, t) = +

n− 12σ4

− (n− 1)tσ6

.

Quindi

IT (σ2) = −Eσ2[n− 1

2σ4− (n− 1)T

σ6

]= −n− 1

2σ4+ Eσ2

[ (n− 1)Tσ6

]= −n− 1

2σ4+

1σ4

Eσ2[ (n− 1)T

σ2

].

Come abbiamo detto, T (n−1)σ2 ha legge χ2(n− 1), e quindi media n− 1. Per concludere, si trova

IT (σ2) =n− 12σ4

<n

2σ4= I(m, σ2);

dunque T non e esaustiva per σ2.

Facciamo ora qualche richiamo di algebra lineare. Sia A una matrice n× n simmetrica; si dice cheA e semi–definita positiva (A ≥ 0) se, per ogni x ∈ Rn, 〈Ax, x〉 ≥ 0; si dice che A e definita positiva(A > 0) se, per ogni x ∈ Rn, con x 6= 0, 〈Ax, x〉 > 0.E noto che A e definita positiva se e solo se A e semi–definita positiva e invertibile. Nel seguito ciserviranno due risultati di algebra lineare:

(6.19) Lemma. Sia A una matrice n×n simmetrica semidefinita positiva; allora esiste una matriceB n× n simmetrica tale che A = B tB = B2. Inoltre, se A e invertibile, anche B e invertibile.

Dimostrazione. Dato che A e semidefinita positiva, i suoi autovalori λ1, . . . , λn sono tutti nonnegativi. E noto che, posto

K =

λ1 0 . . . 00 λ2 . . . 0...

......

0 0 . . . λn

,

esiste una matrice ortogonale O tale che A = OK tO. Poniamo

H =

√λ1 0 . . . 00

√λ2 . . . 0

......

...0 0 . . .

√λn

e B = OH tO. B risponde alla questione. Infatti tB =t(OH tO

)= OH tO = B ed inoltre B2 =(

OH tO) (

OH tO)

= OH(tOO

)H tO = OH2 tO = OK tO = A.

La seconda affermazione e ovvia, perche se A e invertibile, allora e definita positiva e quindi tuttii suoi autovalori sono strettamente positivi, dunque anche H e invertibile.

(6.20) Lemma. Siano a ∈ Rn, con a 6= 0, A una matrice n×n simmetrica e definita positiva, e siaA−1 la sua matrice inversa; allora

supx∈Rn

〈x, a〉2〈Ax, x〉 = max

x∈Rn

〈x, a〉2〈Ax, x〉 = 〈A−1a, a〉.

45

Page 46: Appunti di Statistica Matematica - people.dm.unipi.itpeople.dm.unipi.it/giuliano/dispensestatisticamatematica.pdf · 1. Modelli statistici (1.1) Esempio di partenza. L’analisi di

Dimostrazione. Dal Lemma precedente sappiamo che esiste una matrice B n × n simmetricae invertibile tale che A = B2, dunque, per ogni x ∈ Rn, esiste uno e un solo y ∈ Rn tale chex = B−1y; in particolare poniamo b = B−1a. Allora, poiche B−1 e simmetrica e AB−1 = B, si ha

〈x, a〉2〈Ax, x〉 =

〈B−1y, a〉2〈AB−1y, B−1y〉 =

〈y,B−1a〉2〈By,B−1y〉 =

〈y, B−1a〉2〈y, BB−1y〉 =

〈y, b〉2||y||2 =

( |〈y, b〉|||y||

)2

.

E ben noto che la funzione y 7→ |〈y,b〉|||y|| assume il suo massimo per y = b

||b|| e che tale massimo vale||b||. Pertanto il massimo del suo quadrato vale

||b||2 = 〈B−1a,B−1a〉 = 〈(B−1)2

a, a〉 = 〈(B2)−1

a, a〉 = 〈A−1a, a〉.

(6.21) Teorema. In aggiunta alle ipotesi fatte finora, supponiamo che I(θ) sia invertibile. Allora,per ogni v. a. Y (di quadrato integrabile secondo P ) si ha

V arθ(Y ) ≥ 〈I(θ)−1(∇Eθ[Y ]

),(∇Eθ[Y ]

)〉.

Dimostrazione. Non e restrittivo supporre che la funzione θ 7→ Eθ[Y ] non sia costante (in talcaso la tesi del teorema e ovvia). Si ha (passando la derivata dentro la speranza)

∇Eθ[Y ] = ∇E[L(θ)Y ] = E[∇(L(θ)

)Y ] =

Ω

∇(L(θ)

)Y dP

=∫

Ω

∇(L(θ)

)Y

dP

dP θdP θ =

Ω

∇(L(θ)

)Y

1L(θ)

dP θ = Eθ[∇(log L(θ)

) · Y ]

= Eθ[∇(log L(θ)

) · (Y − Eθ[Y ])],

ricordando che il vettore ∇(log L(θ)

)e centrato rispetto a ogni P θ e quindi Eθ[∇(

log L(θ)) ·

Eθ[Y ]] = 0. Moltiplicando scalarmente per x ∈ Rk il primo e ultimo termine della relazioneprecedente, si ottiene allora

〈x,∇Eθ[Y ]〉 = Eθ[〈x,∇(log L(θ)

)〉 · (Y − Eθ[Y ])],

e, per la diseguaglianza di Schwartz,

〈x,∇Eθ[Y ]〉2 ≤ V arθ(Y ) · Eθ[〈x,∇(log L(θ)

)〉2].

Dato che

〈x,∇(log L(θ)

)〉2 =( ∑

i

xi∂

∂θilog L(θ)

)2

=∑

i,j

xixj∂

∂θilog L(θ) · ∂

∂θjlog L(θ),

46

Page 47: Appunti di Statistica Matematica - people.dm.unipi.itpeople.dm.unipi.it/giuliano/dispensestatisticamatematica.pdf · 1. Modelli statistici (1.1) Esempio di partenza. L’analisi di

passando alla speranza rispetto a P θ si trova

Eθ[〈x,∇(log L(θ)

)〉2] =∑

i,j

xixjEθ

[∂

∂θilog L(θ) · ∂

∂θjlog L(θ)

]=

i,j

xixjI(θ)i,j = 〈I(θ)x, x〉

e si conclude che〈x,∇Eθ[Y ]〉2 ≤ V arθ(Y ) · 〈I(θ)x, x〉.

Dato che I(θ) e definita positiva (in quanto I(θ) e invertibile), la relazione precedente si puo scrivereanche nella forma

V arθ(Y ) ≥ 〈x,∇Eθ[Y ]〉2〈I(θ)x, x〉 ,

e questa disuguaglianza puo essere ottimizzata passando al sup in x ∈ Rk. Utilizzando il lemma(6.19) con A = I(θ) e a = ∇Eθ[Y ] (che non e il vettore nullo per l’ipotesi fatta su Y ), si ottiene latesi.

(6.22) Osservazione. Nel caso particolare in cui Θ e un intervallo della retta, I(θ) si riduce alnumero

I(θ) = Eθ

[( d

dθlog L(θ)

)2]

.

Sia Y uno stimatore di g(θ). Posto b(θ) = Eθ [Y − g(θ)] (cioe Eθ[Y ] = b(θ) + g(θ)), si ha dalteorema

RY (θ) = Eθ[(

(Y − Eθ[Y ])− b(θ))2] = V arθ(Y ) + b2(θ) ≥

(g′(θ) + b′(θ)

)2

I(θ)+ b2(θ).

L’errore quadratico di Y e dunque minorato da un numero positivo, tanto piu piccolo quantopiu nell’intorno di θ l’informazione di Fisher e grande. Questa osservazione spiega (in parte)quanto detto all’inizio di questo paragrafo. Le cose saranno piu chiare quando avremo introdottol’informazione nel senso di Kullback (v.)

L’importanza di questo teorema e riposta nel corollario seguente.

(6.23) Corollario (diseguaglianza di Cramer–Rao). Nelle ipotesi del Teorema precedente, sia Yuno stimatore corretto della funzione g(θ). Allora

RY (θ) = V arθ(Y ) ≥ 〈I(θ)−1(∇g(θ)

),(∇g(θ)

)〉.

(6.24)Osservazione. Nel caso particolare in cui Θ e un intervallo della retta e Y ∈ Dc2, si ha dal

corollario (e dall’oss. (6.22), in cui ora e b = 0)

RY (θ) ≥(g′(θ)

)2

I(θ).

47

Page 48: Appunti di Statistica Matematica - people.dm.unipi.itpeople.dm.unipi.it/giuliano/dispensestatisticamatematica.pdf · 1. Modelli statistici (1.1) Esempio di partenza. L’analisi di

La diseguaglianza di Cramer–Rao dice che uno stimatore corretto ha sempre un rischio non inferioreal termine a destra nella diseguaglianza, ed e quindi naturale chiedersi se il confine inferiore postoda tale diseguaglianza sia raggiungibile.

(6.25) Definizione. Si chiama efficace (efficient in inglese) uno stimatore Y ∈ Dc2 della funzione

g(θ) il cui rischio uguaglia il confine inferiore posto dalla diseguaglianza di Cramer–Rao.

(6.26) Esempio. Consideriamo un modello esponenziale con Θ ⊆ R e verosimiglianza della formaL(θ) = exp

(θT − ψ(θ)

). Ricordando la proposizione (5.10) si ha

I(θ) = Eθ

[( d

dθlog L(θ)

)2]

= Eθ[(

T − ψ′(θ))2] = Eθ

[(T − Eθ[T ]

)2] = V arθ(T ) = ψ′′(θ).

Siccome T e uno stimatore corretto di g(θ) = ψ′(θ), proviamo a vedere se si tratta di uno stimatoreefficace. Il confine di Cramer–Rao e

(g′(θ)

)2

I(θ)=

(ψ′′(θ)

)2

ψ′′(θ)= ψ′′(θ) = V arθ(T ) = RT (θ).

Dunque T e uno stimatore efficace di ψ′(θ).

Considerando piu in generale un modello esponenziale con L(θ) = exp(〈θ, T 〉 − ψ(θ)

), con θ ∈ Θ

aperto di Rk, con passaggi analoghi (che richiedono qualche calcolo di algebra lineare) si provafacilmente che(a) la matrice di informazione I(θ) =

(I(θ)i,j

)e data da

I(θ)i,j =∂2ψ

∂θi∂θj(θ);

(b) per ogni i = 1, . . . , k, Ti e uno stimatore efficace di ∂ψ∂θi

(θ). Se vogliamo parlare in terminivettoriali, questo fatto si enuncia dicendo che T e uno stimatore efficace di ∇ψ(θ).

(6.27) Esercizio. Sia µθ una famiglia esponenziale su R (significa: dµθ

dµ (x) = exp(〈θ, T (x)〉 −

ψ(θ))), e si consideri un campione di taglia n e legge µθ. Provare che, al variare di n, il confine

inferiore della diseguaglianza di Cramer–Rao decresce come 1n .

(6.28) Esercizio. Si consideri un campione di taglia n e legge esponenziale di parametro θ, con0 < θ < ∞. Provare che non esiste una stima efficace di θ.

(Suggerimento: ricordando che∑n

i=1 Xi e una statistica esaustiva completa e che, sotto P θ, halegge Γ(n, θ), verificare che n−1∑n

i=1Xi

e uno stimatore corretto (e quindi ottimale nella classe D2c ) di

θ, che pero non e efficace).

7. Informazione di Kullback.

48

Page 49: Appunti di Statistica Matematica - people.dm.unipi.itpeople.dm.unipi.it/giuliano/dispensestatisticamatematica.pdf · 1. Modelli statistici (1.1) Esempio di partenza. L’analisi di

Il significato dell’informazione di Fisher si comprende meglio se si introduce un altro concetto diinformazione, proposto da Kullback.

Sia(Ω,F , P θ, θ ∈ Θ) un modello statistico dominato dalla misura µ. Supponiamo che il vero

valore di θ sia θ1; ci domandiamo in quale misura il modello ci permette di distinguere θ1 da unaltro valore θ2. Consideriamo i due casi estremi (i) L(θ1, ω) = L(θ2, ω) per ogni ω ∈ Ω; e chiaroche in questo caso il risultato ω dell’esperimento non permette di fare alcuna distinzione fra θ1 eθ2.

(ii) L(θ1, ω) > 0 su (a1, b1), L(θ2, ω) > 0 su (a2, b2), con (a1, b1) ∩ (a2, b2) = ∅. Dato che ω cadequasi certamente in (a1, b1), possiamo identificare θ1 con certezza (essendo (a1, b1) disgiunto da(a2, b2)).

Ma naturalmente in generale ci troviamo in una situazione intermedia tra (i) e (ii): in qualche casol’identificazione non e proprio possibile, come mostra la figura:

Invece, in una situazione come quella della figura sottostante, se il risultato dell’esperimento cadetra a1 e a2, possiamo di nuovo identificare θ1.

(7.1)Definizione. Il potere discriminante tra θ1 e θ2 da assegnare al risultato ω e la quantita

i(θ1/θ2)(ω) = logL(θ1, ω)L(θ2, ω)

,

definita su ω : L(θ1, ω) > 0∪ω : L(θ2, ω) > 0 e con la convenzione che log 0 = −∞, log(c/0) =+∞.

(7.2)Osservazione. Se siamo nella situazione di perfetta discriminazione, (caso (ii)) allora laquantita precedente vale +∞; se invece non e possibile distinguere (caso (i)) allora essa vale 0.Inoltre, per i risultati ω per i quali si ha L(θ2, ω) > L(θ1, ω), i(θ1/θ2)(ω) e negativo: questo enaturale se si interpreta L(θ1, ω) come le probabilita di ottenere il risultato ω se il valore delparametro e θ1, e L(θ2, ω) analogamente: se la probabilita di ottenere ω con il parametro θ1 e piubassa della probabilita di ottenere ω con il parametro θ2, saremo inclini a decidere in favore di θ2.

Il potere discriminante dipende ovviamente da ω. Quindi, se vogliamo poterlo usare come unamisura della discriminazione possibile tra θ1 e θ2, occorre effettuare una media. Si da dunque la

(7.3)Definizione. Si chiama informazione di Kullback di θ1 contro θ2 la quantita

I(θ1/θ2) = Eθ1[i(θ1/θ2)

]= Eθ1

[log

L(θ1)L(θ2)

].

E ovviamente necessario verificare che la speranza che compare nella definizione ha senso.

(7.4) Teorema. I(θ1/θ2)ha senso per ogni coppia (θ1, θ2).

49

Page 50: Appunti di Statistica Matematica - people.dm.unipi.itpeople.dm.unipi.it/giuliano/dispensestatisticamatematica.pdf · 1. Modelli statistici (1.1) Esempio di partenza. L’analisi di

Dimostrazione. La variabile ω 7→ log L(θ1,ω)L(θ2,ω) e definita P θ1– quasi ovunque. (L(θ1, ω) > 0, P θ1–

quasi ovunque essendo la densita della legge di X(ω) = ω rispetto alla misura dominante µ).

Esercizio (A). Sullo spazio (Ω,F , P ) sia Y una v.a. con media finita (E[|Y |] < +∞). Sia φ unafunzione convessa. Allora E[φ(Y )−] < +∞.

Soluzione. Sia a un numero fissato. Poiche φ e convessa, per ogni y si ha φ(y)−φ(a) ≥ κ(a)(y−a),dove κ(a) e un’opportuna costante. Dunque

Φ(Y ) ≥ (φ(a)− aκ(a)

)+

(κ(a)Y

).

Esercizio (B). (a) Siano u, v due numeri reali. Allora

(u + v)− ≤ u− + v−.

(b) Siano w e t due numeri reali. Allora

(wt)− ≤ w−t+ + t−w+.

(Verifica per esercizio).

Utilizzando queste due relazioni, si trova che

Φ(Y )− ≤[(

φ(a)− aκ(a))

+(κ(a)Y

)]− ≤ (φ(a)− aκ(a)

)− +(κ(a)Y

)−

≤ (φ(a)− aκ(a)

)− + κ(a)−Y + + κ(a)+Y −,

e si conclude passando alla speranza.

Torniamo alla dimostrazione del teorema. Applichiamo l’esercizio (A) alla funzione convessa x 7→− log x e alla variabile Y (ω) = L(θ2,ω)

L(θ1,ω) , osservando che

Eθ1 [Y ] =

Ω

L(θ2, ω)L(θ1, ω)

dP θ1(ω) =∫

Ω

L(θ2, ω)L(θ1, ω)

dP θ1(ω)dµ︸ ︷︷ ︸

=L(θ1,ω)

dµ =∫

Ω

L(θ2, ω)︸ ︷︷ ︸=

dP θ2 (ω)dµ

dµ =∫

Ω

dP θ2 = 1.

Troviamo che

Eθ1

[(log

L(θ1)L(θ2)

)−]= Eθ1

[(− log

L(θ2)L(θ1)

)−]< +∞,

da cui segue che Eθ1

[log L(θ1)

L(θ2)

]ha senso (eventualmente uguale a +∞).

(7.5) Esempi. (a) Sia (R,B(R), P θ, θ > 0) il modello statistico con P θ = Πθ (con misura dominanteµ= misura che conta i punti di N). Calcolare I(θ1/θ2).

50

Page 51: Appunti di Statistica Matematica - people.dm.unipi.itpeople.dm.unipi.it/giuliano/dispensestatisticamatematica.pdf · 1. Modelli statistici (1.1) Esempio di partenza. L’analisi di

Soluzione. Per k ∈ N si haL(θ1, k)L(θ2, k)

=(θ1

θ2

)k

e−(θ1−θ2),

quindi

logL(θ1, k)L(θ2, k)

= k log(θ1

θ2

)− θ1 + θ2,

e, integrando rispetto a P θ1 , si trova

I(θ1/θ2) = log(θ1

θ2

)Eθ1 [X]− θ1 + θ2 = θ1 log

(θ1

θ2

)− θ1 + θ2.

(b) Piu in generale, supponiamo di avere il modello esponenziale(Ω,F , P θ, θ ∈ Θ) con vero-

simiglianzaL(θ, ω) = C(θ) exp

(〈θ, T (ω)〉).Allora

logL(θ1, ω)L(θ2, ω)

= logC(θ1)

C(θ2)exp

(〈θ1 − θ2, T (ω)〉)

= log C(θ1)− log C(θ2) + 〈θ1 − θ2, T (ω)〉,

e integrando rispetto a P θ1 si trova

I(θ1/θ2) = log C(θ1)− log C(θ2) +∫〈θ1 − θ2, T (ω)〉C(θ1) exp

(〈θ1, T (ω)〉) dµ(ω)

= log C(θ1)− log C(θ2) + C(θ1)〈θ1 − θ2,

∫T (ω) exp

(〈θ1, T (ω)〉) dµ(ω)〉

(7.6) Teorema Per ogni coppia (θ1, θ2) si ha I(θ1/θ2) ≥ 0; inoltre I(θ1/θ2) = 0 se e solo seP θ1 = P θ2 .

Dimostrazione. Per la disuguaglianza di Jensen si ha

I(θ1/θ2) = Eθ1

[− log

L(θ2)L(θ1)

]≥ − log Eθ1

[L(θ2)L(θ1)

]= − log 1 = 0.

Inoltre, per l’inversa della disuguaglianza di Jensen, (v. dimostrazione di (6.15)) , nella relazioneprecedente vale l’uguaglianza se e solo se la funzione integranda e P θ1−q.c. costante, cioe se esisteun evento N ∈ F con P θ1(N) = 0 e tal che, per ogni ω ∈ N , si ha

L(θ2, ω)L(θ1, ω)

= c,

e poiche

c = Eθ1

[L(θ2)L(θ1)

]= 1,

51

Page 52: Appunti di Statistica Matematica - people.dm.unipi.itpeople.dm.unipi.it/giuliano/dispensestatisticamatematica.pdf · 1. Modelli statistici (1.1) Esempio di partenza. L’analisi di

si ottiene L(θ2, ω) = L(θ1, ω) per ω ∈ N c, da cui

P θ2(N c) =∫

Nc

L(θ2) dµ =∫

Nc

L(θ1) dµ = P θ1(N c) = 1.

Pertanto, per ogni A ∈ F si ha

P θ2(A) = P θ2(A ∩N c) + P θ2(A ∩N)︸ ︷︷ ︸=0

=∫

A∩Nc

L(θ2) dµ =∫

A∩Nc

L(θ1) dµ

= P θ1(A ∩N c) = P θ1(A ∩N c) + P θ1(A ∩N)︸ ︷︷ ︸=0

= P θ1(A).

Vediamo ora che relazione c’e tra l’informazione di Fisher e quella di Kullback.

(7.7) Teorema. Sotto le ipotesi necessarie affinche sia possibile definire l’informazion di Fisher, ese la funzione θ 7→ I(θ1/θ) e due volte derivabile sotto il segno di integrale, si ha

I(θ1)i,j =∂2I(θ1/θ)

∂θi∂θj

∣∣∣θ=θ1

.

Dimostrazione. Derivando l’espressione

I(θ1/θ) =∫

logL(θ1)L(θ)

L(θ1) dµ

si trova∇I(θ1/θ) =

∫−∇ log L(θ)L(θ1) dµ,

e derivando ancora∂2I(θ1/θ)

∂θi∂θj=

∫ [ ∂L(θ)∂θi

∂L(θ)∂θj

L2(θ)−

∂2L(θ)∂θi∂θj

L(θ)

]L(θ1) dµ,

e calcolando per θ = θ1, si ha

∂2I(θ1/θ)∂θi∂θj

∣∣∣θ=θ1

=∫ ∂L(θ)

∂θi

∂L(θ)∂θj

L2(θ)L(θ1) dµ

∣∣∣θ=θ1

=∫ ∂L(θ)

∂θi

∂L(θ)∂θj

L2(θ)dP θ1

∣∣∣θ=θ1

= Eθ1

[ ∫ ∂L(θ)∂θi

∂L(θ)∂θj

L2(θ)

]∣∣∣θ=θ1

= I(θ1),

osservando che

∫ ∂2L(θ1)∂θi∂θj

L(θ1)L(θ1) dµ =

∫∂2L(θ1)∂θi∂θj

dµ =∂2

∂θi∂θj

∫L(θ1) dµ =

∂2

∂θi∂θj1 = 0.

52

Page 53: Appunti di Statistica Matematica - people.dm.unipi.itpeople.dm.unipi.it/giuliano/dispensestatisticamatematica.pdf · 1. Modelli statistici (1.1) Esempio di partenza. L’analisi di

(7.8) Osservazione. (a) E facile vedere che ∇I(θ1/θ1) = 0. Infatti, come abbiamo visto nelladimostrazione precedente,

−∇I(θ1/θ1) =∫∇ log L(θ)

∣∣θ=θ1

L(θ1) dµ =∫∇L(θ)

∣∣θ=θ1

· 1L(θ1)

L(θ1) dµ =∫∇L(θ)

∣∣θ=θ1

= ∇∫

L(θ) dµ∣∣∣

θ=θ1

= ∇ ∫

dP θ∣∣∣

θ=θ1

= ∇1 = 0.

Questo fatto e naturale, perche, come abbiamo visto, I(θ1/θ) ≥ 0 per ogni θ e I(θ1/θ1) = 0.Dunque θ1 e punto di minimo per la funzione θ 7→ I(θ1/θ).

(b) Dal teorema appena dimostrato si deduce che l’hessiano di θ 7→ I(θ1/θ), calcolato in θ1, esemidefinito positivo (in quanto uguale a I(θ1), che e una matrice di covarianza). Anche questo enaturale, per gli stessi motivi del punto (a).

(c)Il teorema precedente permette di precisare l’affermazione (fatta all’inizio del paragrafo 6) chel’informazione di Fisher serva per descrivere la variazione “locale”delle leggi P θ. Per semplicitasupponiamo che il parametro θ sia unidimensionale; ricordiamo da (b) che I(θ1)e la derivataseconda di θ 7→ I(θ1/θ), calcolata in θ1), e quindi approssimando al secondo ordine si ha

I(θ1/θ) ≈ I(θ1/θ1) +d

dθI(θ1/θ)

∣∣∣θ=θ1

(θ − θ1) +12

d2

dθ2I(θ1/θ)

∣∣∣θ=θ1

(θ − θ1)2 =12I(θ1)(θ − θ1)2.

Dunque piu I(θ1) e vicino a 0 e piu il grafico di θ 7→ I(θ1/θ) “piatto”nell’intorno di θ1, ed e quindidifficile discriminare tra il vero valore θ1 e i valori di θ nel suo intorno. La situazione e ovviamenteinversa per valori grandi di I(θ1) (ved. figure).

8. Stimatori di massima verosimiglianza.

Il metodo della massima verosimiglianza e largamente usato in statistica per la sua presentazioneintuitiva e soprattutto per la sua semplicita ; tuttavia le giustificazioni rigorose sono solo asintotiche,e pertanto dovrebbe essere usato solo quando si dispone di campioni molto numerosi.

Esempio introduttivo. Una moneta da testa con probabilita θ. Il valore di θ non e noto; si sapero che esso che e uguale a 1/1000 oppure a 999/1000. Un tizio, che deve stabilire quale di questidue valori e quello giusto, decide di effettuare 100 lanci della moneta, e ottiene in ciascun lanciola faccia testa. A questo punto, come e facile capire, egli e propenso a credere che la probabilitache la moneta dia testa e 999/1000. Ritiene infatti che il risultato ottenuto (100 volte testa in 100estrazioni) potrebbe sı verificarsi anche nell’altro caso , ma con una probabilita inferiore.

Cerchiamo di formalizzare la situazione. Indichiamo con X il risultato di un generico lancio:

X = 1 se la moneta da testa

0 se la moneta da croce.

53

Page 54: Appunti di Statistica Matematica - people.dm.unipi.itpeople.dm.unipi.it/giuliano/dispensestatisticamatematica.pdf · 1. Modelli statistici (1.1) Esempio di partenza. L’analisi di

Allora i 100 lanci effettuati costituiscono un campione di 100 osservazioni del fenomeno, che in-dicheremo, come sempre, con (X1, . . . , X100). Sulla legge di ogni Xi l’informazione e la seguente:

Xi ∼ B(1, θ), con θ ∈ Θ =

11000

,9991000

.

Allora la probabilita di ottenere 100 volte testa in 100 lanci e

P θ(X1 = 1, X2 = 1, . . . , X100 = 1) = θ100 =

( 11000 )100 se θ = 1

1000 ,

( 9991000 )100 se θ = 999

1000 .

Il tizio ha dunque deciso di considerare vero il valore di θ per il quale il risultato effettivamenteosservato e il piu probabile. In altre parole, egli ha calcolato

maxθ∈Θ

P θ(X1 = 1, X2 = 1, . . . , X100 = 1) = maxθ∈Θ

θ100,

ed ha deciso per il valore del parametro in cui tale massimo e raggiunto, cioe per il punto di massimodella funzione

θ 7→ P θ(X1 = 1, X2 = 1, . . . , X100 = 1) = L(θ; 1, . . . , 1) = θ100.

Piu in generale, se egli avesse ottenuto il risultato ω = (ω1, . . . , ωn), la sua decisione sarebbe stataquella di prendere come vero valore del parametro parametro il punto di massimo della funzioneθ 7→ L(θ; ω), che ovviamente dipende da ω.

Passiamo alla formalizzazione matematica. Consideriamo un modello statistico (Ω,F , (P θ, θ ∈ Θ))dominato dalla misura µ. Per il momento supporremo che Θ sia un intervallo della retta (in sensolato, cioe eventualmente non limitato). Supponiamo assegnata una scelta della verosimiglianzaL(θ, ω) = dP θ

dµ (ω) (nel senso che L(θ, ·) e una rappresentante nella classe di equivalenza delledensita di P θ rispetto a µ).

(8.1) Definizione. Sia U : Ω → R uno stimatore del parametro θ. Si dice che U e uno stimatoredi massima verosimiglianza se, per ogni ω ∈ Ω, si ha

L(U(ω), ω) = supθ∈Θ

L(θ, ω).

(ovviamente questo estremo superiore sara un massimo se viene assunto in qualche punto θ0).

In generale non e affatto detto che un tale stimatore esista, oppure che sia univocamente deter-minato; tuttavia, quando esiste, generalmente e facile calcolarlo, e si usa denotarlo con il simboloθ(ω). Normalmente la specificazione di ω viene omessa, e si scrive piu brevemente θ. Se la funzioneθ 7→ L(θ, ω) (a ω fissato) e differenziabile, θ verifica l’equazione

d

dθL(θ, ω)

∣∣∣θ=θ(ω)

= 0

54

Page 55: Appunti di Statistica Matematica - people.dm.unipi.itpeople.dm.unipi.it/giuliano/dispensestatisticamatematica.pdf · 1. Modelli statistici (1.1) Esempio di partenza. L’analisi di

(attenzione: questa e naturalmente una condizione solo necessaria).

(8.2) Esempio. Sia µθ una famiglia di misure di probabilita su R, dominata dalla misura µ.Sia dµθ

dµ = f(θ, x) la (una) densita, e consideriamo un campione di taglia n e legge µθ. Laverosimiglianza (rispetto alla misura µ⊗n) e L(θ; x1, . . . , xn) =

∏ni=1 f(θ, xi) e l’equazione diventa

d

( n∏

i=1

f(θ, xi))∣∣∣

θ=θ(ω)= 0.

Ovviamente e inutile cercare il massimo di questa funzione per gli (x1, . . . , xn) nei quali essa vale0. D’altra parte, se x appartiene all’insieme x = (x1, . . . , xn) : f(x, θ) > 0, e piu comodo (maequivalente!) cercare il massimo della funzione log L(·, x) (= log L(·, ω)) e l’equazione diventa

n∑

i=1

d

dθlog f(θ, xi)

∣∣∣θ=θ(ω)

= 0.

L’equazione sopra scritta si chiama equazione di massima verosimiglianza.

(8.3) Esempio. Consideriamo un campione di legge esponenziale di parametro θ, con θ > 0. Allora

f(θ, x) =

θe−θx per x > 00 altrove.

Dunque la verosimiglianza e

L(θ;x1, . . . , xn) =

θne−θ(x1+···xn) se xi > 0, ∀i0 altrove.

L’equazione di massima verosimiglianza en∑

i=1

(1θ− xi

)= 0,

e cioen

θ−

n∑

i=1

xi = 0,

che ha la (unica) soluzione θ = n∑n

i=1xi

; si verifica poi facilmente che si tratta effettivamente di un

punto di massimo, e quindi lo stimatore di massima verosimiglianza di θ e

θ =n∑n

i=1 Xi.

Vediamo se θ e uno stimatore corretto di θ; sotto P θ, la v. a.∑n

i=1 Xi ha legge Γ(n, θ). Dunque

E

[n∑n

i=1 Xi

]=

n

Γ(n)

∫ +∞

0

1x

θnxn−1e−θx dx =nθ

Γ(n)

∫ +∞

0

(θx)n−2e−θx (θdx)

=nθ

Γ(n)

∫ +∞

0

yn−2e−y dy =nθ

Γ(n)Γ(n− 1) =

n− 1;

55

Page 56: Appunti di Statistica Matematica - people.dm.unipi.itpeople.dm.unipi.it/giuliano/dispensestatisticamatematica.pdf · 1. Modelli statistici (1.1) Esempio di partenza. L’analisi di

si deduce che θ non e corretto (lo e solo asintoticamente, cioe per n che tende a ∞), mentre ecorretto lo stimatore di θ

n− 1∑ni=1 Xi

.

Sappiamo (dalla teoria dei modelli esponenziali) che T =∑n

i=1 Xi e una statistica esaustiva com-pleta. Dunque n−1∑n

i=1Xi

, essendo uno stimatore T−misurabile e corretto di θ, e ottimale (per il

Teorema di B–R). Osserviamo che i due stimatori che abbiamo trovato, cioe θ e quello ottimalen−1∑n

i=1Xi

differiscono di poco. Questo succede molto spesso (nel caso di stimatori di massima

verosimiglianza).

(8.4) Esercizio. (a) Calcolare lo stimatore di massima verosimiglianza del parametro θ basandosisu un campione di taglia n e di legge di Poisson di parametro θ.(b) Calcolare lo stimatore di massima verosimiglianza del parametro θ > −1 basandosi su uncampione di taglia n e di legge avente densita

f(θ; x) =

(θ + 1)xθ per x ∈ [0, 1]0 altrove.

Come abbiamo accennato all’inizio, per gli stimatori di massima verosimiglianza non si possonodare che dei risultati asintotici (cioe per la taglia n del campione che tende a ∞). Bisogna alloracostruire un modello statistico che idealizzi una successione infinita di esperimenti. Cominciamocon l’ammettere il risultato seguente di teoria della misura (e un caso particolare del teorema diIonescu–Tulcea):

(8.5) Teorema. Sia P una probabilita su (R,B(R). Esiste su RN =∏

n∈N Rn, munito della tribuprodotto

⊗n∈N B(Rn) una e una sola probabilita (indicata usualmente con P⊗N) tale che, per ogni

successione finita di boreliani A1, . . . , Ak, risulti

P⊗N(A1 ×A2 × · · · ×Ak × R× R · · ·

)= P (A1) · . . . · P (Ak).

Quando RN e munito di questa probabilita, le proiezioni canoniche Xi(ω) = Xi(x1, . . . , xi, . . .) = xi

sono indipendenti e tutte di legge P .

Nei teoremi che seguiranno, considereremo una famiglia (µθ, θ ∈ Θ) di probabilita su R e uncampione infinito di legge µθ. Il modellostatistico sara

(RN,

⊗n∈N B(Rn), (P θ, θ ∈ Θ)

), dove

P θ = (µθ)⊗N.

Supporremo che le leggi µθ siano dominate da una misura µ, e porremo dµθ

dµ = f(θ; x), e chiameremo

successione di stime di massima verosimiglianza una successione di v. a. θn tali che, per ogni n,θn sia uno stimatore di massima verosimiglianza per il campione (X1, . . . , Xn) (cioe θn e funzionesolo delle variabili X1, . . . , Xn e si ha

Ln(θ;X1, . . . , Xn) = supθ∈Θ

Ln(θ;X1, . . . , Xn),

56

Page 57: Appunti di Statistica Matematica - people.dm.unipi.itpeople.dm.unipi.it/giuliano/dispensestatisticamatematica.pdf · 1. Modelli statistici (1.1) Esempio di partenza. L’analisi di

dove

Ln(θ; X1, . . . , Xn) =n∏

i=1

f(θ; Xi)

e la verosimiglianza del campione (X1, . . . , Xn)).

(8.6) Definizione. Si dice che la successione (θn) e consistente (risp. fortemente consistente) se,per ogni θ ∈ Θ, rispetto alla probabilita P θ, θn converge a θ in probabilita (quasi certamente).

Noi considereremo solo il caso di un campione di un modello esponenziale

dµθ

dµ(x) = f(θ; x) = exp

(θT (x)− ψ(θ)

),

dove θ e un intervallo della retta (l’esame di casi piu generali e possibile, ma a prezzo di seriecomplicazioni). L’equazione di massima verosimiglianza e in questo caso

n∑

i=1

d

dθlog f(θ;xi) =

n∑

i=1

d

(θT (xi)− ψ(θ)

)=

n∑

i=1

T (xi)− nψ′(θ) = 0,

e cioe

(8.7) ψ′(θ) =∑n

i=1 T (xi)n

.

Come sappiamo dalla Proposizione (5.10) (b),

ψ′′(θ) = V arθ(T ) > 0

(se fosse V arθ(T ) = 0, T sarebbe costante, e quindi f(θ;x) sarebbe costante (in x). Questo none possibile perche l’unica funzione costante integrabile su R e la funzione identicamente nulla, chenon e una densita di probabilita).Dunque ψ′ e strettamente crescente, dunque biunivoca da Θ a ψ′(Θ), e quindi l’equazione diverosimiglianza (8.7) ha al piu una soluzione. Piu precisamente, la soluzione e

θn = (ψ′)−1

(∑ni=1 T (xi)

n

),

a patto che∑n

i=1T (xi)

n ∈ ψ′(Θ).

Negli enunciati seguenti considereremo dunque un campione infinito di una famiglia esponenzialedi leggi di probabilita su R.

(8.8) Teorema. Supponiamo che ψ′(Θ) sia un intervallo aperto. Allora, per ogni fissato θ, e

definito P θ−q. c. per n abbastanza grande lo stimatore di massima verosimiglianza θn e θn → θ

P θ−q. c. per n →∞.

57

Page 58: Appunti di Statistica Matematica - people.dm.unipi.itpeople.dm.unipi.it/giuliano/dispensestatisticamatematica.pdf · 1. Modelli statistici (1.1) Esempio di partenza. L’analisi di

Detto in termini piu precisi, l’enunciato precedente significa che, per P θ− quasi ogni ω e pern > n0(ω, θ), l’equazione (nell’incognita θ)

Ln(θ; X1(ω), . . . , Xn(ω)) = supθ∈Θ

Ln(θ; X1(ω), . . . , Xn(ω))

ha una e una sola soluzione θn(ω) ed inoltre limn→∞ θn(ω) = θ, per P θ− quasi ogni ω.

Dimostrazione. Per la legge forte dei grandi numeri, la v.a.∑n

i=1 T (Xi)n

converge P θ−quasi certamente verso Eθ[T (X1)] = ψ′(θ), dove quest’ultima uguaglianza segue dallerelazioni

Eθ[T (X1)] =∫

T dµθ = ψ′(θ),

come sappiamo dalla Proposizione (5.10)(a). Dato che ψ′(Θ) e un intervallo aperto, per n ab-

bastanza grande∑n

i=1T (Xi)

n appartiene a ψ′(Θ) (in quanto convergente a ψ′(θ) ∈ ψ′(Θ). Dunque

θn = (ψ′)−1

(∑n

i=1T (xi)

n

)e definito (per l’osservazione fatta sopra). Infine, per n →∞ e P θ−quasi

certamente

θn = (ψ′)−1

(∑ni=1 T (xi)

n

)→ (ψ′)−1

(ψ′(θ)

)= θ.

(8.9) Osservazione. Dal Teorema precedente si deduce che, a differenza di quanto succedevaper il campione finito (di taglia n fissata, per una famiglia esponenziale di leggi di probabilita suR), nel campione infinito le probabilita P θ sono tutte tra loro estranee (cioe portate da insiemidisgiunti). Infatti, sia θ1 6= θ2. Per i = 1, 2 poniamo Ai = ω ∈ Ω : θn → θi. Ovviamente A1 eA2 sono disgiunti, ed inoltre P θi(Ai) = 1 per il teorema precedente. Dunque il campione infinitonon e dominato.

(8.10) Corollario. Nelle ipotesi del Teorema precedente, la successione θn di stimatori di mas-sima verosimiglianza e fortemente consistente.

(8.11) Esempio. Ripetiamo in un caso concreto il ragionamento fatto nel Teorema (7.8). Sia(X1, . . . , Xn) un campione di legge esponenziale di parametro θ, con 0 < θ < 1 (cioe in questo casosi ha Θ = (0, 1)). Scriviamo prima di tutto l’equazione di verosimiglianza. Si ha

f(θ;x) =

θe−θx = e−θx+log θ per x > 00 altrimenti .

Considerando al solito solo il caso in cui xi e positivo, si trova

L(θ;x1, . . . , xn) = exp(− θ(x1 + · · ·+ xn) + n log θ

)

58

Page 59: Appunti di Statistica Matematica - people.dm.unipi.itpeople.dm.unipi.it/giuliano/dispensestatisticamatematica.pdf · 1. Modelli statistici (1.1) Esempio di partenza. L’analisi di

Quindi l’equazione di verosimiglianza in questo caso e

θ =n∑n

i=1 xi,

ed ha l’eventuale (unica) soluzioneθn =

n∑ni=1 Xi

.

Tale soluzione pero in questo caso esiste solo se 0 < n∑n

i=1Xi

< 1, e questo non e necessariamente

vero. Tuttavia, la legge forte dei grandi numeri assicura che∑n

i=1Xi

n converge P θ–quasi certamenteverso 1

θ, e dunque θn = n∑n

i=1Xi

converge P θ–quasi certamente verso θ ∈ (0, 1). Quindi θn e definito

a partire da un n0 = n0(ω, θ) abbastanza grande in poi.

Vediamo ora un risultato di convergenza in legge.

(8.12) Teorema. Nelle ipotesi del Teorema precedente,√

n(θn − θ) converge in legge (secondo laprobabilita P θ) alla v. a. normale di media 0 e varianza 1

ψ′′(θ) .

(8.13) Osservazione. Ricordiamo che ψ′′ = I(θ) (informazione di Fisher, Es. (6.25)). Per unparametro θ ∈ Θ ⊆ Rk si puo dimostrare che se (θn)n e una successione di stimatori di massimaverosimiglianza in un modello esponenziale, allora

√n(θn − θ) converge in legge verso una vettore

aleatorio k−dimensionale di legge normale (multivariata) Nk

(0, I−1(θ)

), dove I(θ) e la matrice di

informazione di Fisher (matrice k×k). Delle leggi normali multivariate parleremo nel paragrafo 9.

Per la dimostrazione del Teorema (8.12) ci servono tre lemmi.

(8.14) Lemma. Su (Ω,A, P ) sia Xn convergente in legge ad una v. a. X P−quasi certamentefinita e Yn convergente a 0 in probabilita (o, cio che e lo stesso, in legge). Allora Xn · Yn convergea 0 in probabilita .

(8.15) Osservazione. Se X non e P−quasi certamente finita, la tesi puo non valere. Per esempio,sia Xn una successione convergente P−quasi certamente verso X = +∞. Prendiamo Yn = 1

Xn,

che ovviamente converge a 0. Allora XnYn converge a 1.

Dimostrazione. (i) Dato che Xn → X in legge, per ogni f continua e limitata si ha∫

f(Xn)dP →∫f(X)dP . Sia c > 0 e consideriamo la funzione g = 1(−∞,−c)∪(c,+∞). Questa funzione non

e continua, ma esiste una successione decrescente (fm) di funzioni continue e limitate tali cheg = infmfm. Dunque, per ogni m si ha fm ≥ g e quindi, per la convergenza in legge di Xn a X,

∫fm(X)dP = lim

n

∫fm(Xn)dP ≥ lim sup

n

∫g(Xn)dP = lim sup

nP (|Xn| > c).

D’altra parte, per il teorema della convergenza monotona

limm

∫fm(X)dP =

∫g(X)dP = P (|X| > c).

59

Page 60: Appunti di Statistica Matematica - people.dm.unipi.itpeople.dm.unipi.it/giuliano/dispensestatisticamatematica.pdf · 1. Modelli statistici (1.1) Esempio di partenza. L’analisi di

Si conclude cheP (|X| > c) ≥ lim sup

nP (|Xn| > c).

Dato che limc→+∞ P (|X| > c) = limc→+∞(P (X < −c) + 1 − P (X ≤ c)

)= 0, fissato ε, esiste cε

tale chelim sup

nP (|Xn| > cε) ≤ P (|X| > cε) ≤ ε.

Sia ora δ > 0 fissato. Si ha

|Xn · Yn| > δ ⊆ |Xn| > cε ∪|Yn| > δ

,

e quindi

P (|Xn · Yn| > δ) ≤ P (|Xn| > cε) + P(|Yn| > δ

)≤ ε + P

(|Yn| > δ

).

Mandando n a ∞, dato che Yn converge a 0 in probabilita , si trova

lim supn→∞

P (|Xn · Yn| > δ) ≤ ε,

e si conclude per l’arbitrarieta di ε.

(8.16) Lemma. (Teorema di Slutsky) Se Xn converge in legge a X e Yn converge a c in probabilita(o equivalentemente in legge), allora Xn + Yn converge a X + c in legge.

Dimostrazione. Non e restrittivo supporre c = 0. Per un criterio di convergenza in legge (ved.Jacod–Protter, Th. 18.7), Xn+Yn converge in legge a X se e solo se limn E[f(Xn+Yn)] = E[f(X)]per ogni funzione f continua, Lipschitziana (con costante di Lipschitz Lf ) e limitata (da unacostante Mf ). Poiche limn E[f(Xn)] = E[f(X)] (Xn converge in legge a X), bastera far vedereche limn

(E[f(Xn + Yn)]− E[f(Xn)]

)= 0. Ora

limn

∣∣E[f(Xn + Yn)]− E[f(Xn)]∣∣ ≤ lim

nE[|f(Xn + Yn)]− f(Xn)|]

= limn

(E[|f(Xn + Yn)]− f(Xn)|1|Yn|≤ε] + E[|f(Xn + Yn)]− f(Xn)|1|Yn|>ε]

)

≤ Lf ε + 2Mf limn

P (|Yn| > ε).

Si conclude passando al limite per l’arbitrarieta di ε.

(8.17) Lemma (metodo δ). Se Tn converge P−q.c. verso a,√

n(Tn − a) converge in legge alla

variabile N (0, σ2), e g e una funzione di classe C2 definita in un intorno di a, allora√

n(g(Tn)−

g(a))

converge in legge alla variabile N (0, (g′(a))2σ2).

Dimostrazione. Sviluppando con la formula di Taylor al secondo ordine si ha

g(x)− g(a) = g′(a)(x− a) +(x− a)2

2g′′(ξ),

60

Page 61: Appunti di Statistica Matematica - people.dm.unipi.itpeople.dm.unipi.it/giuliano/dispensestatisticamatematica.pdf · 1. Modelli statistici (1.1) Esempio di partenza. L’analisi di

(con ξ opportuno). Quindi

√n(g(Tn)− g(a)

)=√

ng′(a)(Tn − a) +g′′(Mn)

2(Tn − a)

√n(Tn − a).

Il primo addendo converge in legge alla N (0, (g′(a))2σ2). Il secondo addendo e il prodotto dig′′(Mn)

2 , che converge a g′′(a)2 , di

√n(Tn − a) (che converge in legge) e di (Tn − a) (che converge

q.c. e quindi in probabilita a 0). Per il Lemma (8.15) si conclude che il secondo addendo tendea 0 in probabilita. Per il Lemma (8.16) si conclude che la somma dei due addendi tende allaN (0, (g′(a))2σ2) in legge.

Dimostrazione. (del teorema). Basta applicare il lemma precedente con Tn =∑n

i=1T (xi)

n ,a = ψ′(θ), g =

(ψ′

)−1.Osserviamo che(a)

√n(Tn − a) =

∑ni=1 T (xi)− nψ′(θ)√

n

converge in legge alla variabile N (0, ψ′′(θ)) (ricordare che le T (Xi) sono v. a. indipendenti equidis-tribuite, con Eθ[T (Xi)] = ψ′(θ), V arθ(T (Xi)) = ψ′′(θ));(b)

g′(a) =( d

(ψ′

)−1)(ψ′(θ)) =

1

ψ′′((

ψ′)−1(ψ′(θ))

) =1

ψ′′(θ).

9. Variabili gaussiane e vettori gaussiani.

Sullo spazio di probabilita (Ω,F , P ) consideriamo un campione X1, . . . , Xn di legge gaussianaN (0, σ2) e sia X il vettore aleatorio X = (X1, . . . , Xn). La sua funzione caratteristica e

(9.1)

φX(u) = E[exp

(i〈u,X〉)] = E

[exp i

( n∑

j=1

ujXj

)]= E

[ n∏

j=1

expi(ujXj

)]

=n∏

j=1

E[exp

i(ujXj

)]=

n∏

j=1

exp(− σ2

2u2

j

)= exp

(− σ2

2||u||2

),

ricordando che la funzione caratteristica di una v. a. unidimensionale Z di legge N (m,σ2) e

(9.2) ϕZ(t) = exp(itm) exp(− σ2

2t2

).

Consideriamo ora una matrice A n× n ortogonale (cioe invertibile e tale che tA = A−1) e sia Y ilvettore aleatorio AX.

(9.3) Proposizione. Se A e ortogonale, anche Y e un campione di legge N (0, σ2) (ovvero le suecomponenti Yj sono indipendenti e di legge N (0, σ2)).

61

Page 62: Appunti di Statistica Matematica - people.dm.unipi.itpeople.dm.unipi.it/giuliano/dispensestatisticamatematica.pdf · 1. Modelli statistici (1.1) Esempio di partenza. L’analisi di

Dimostrazione. Basta calcolare la f.c. di Y :

φY (u) = E[exp

(i〈u,AX〉)] = E

[exp

(i〈tAu, X〉)] = exp

(− σ2

2||tAu||2

)= exp

(− σ2

2||u||2

),

dato che, essendo la matrice ortogonale,

〈tAu,t Au〉 = 〈AtAu, u〉 = 〈u, u〉 = ||u||2.

Si riconosce la f.c. di un campione di legge N (0, σ2) (ved. (9.1)).

Ricordiamo che si chiama legge del chi–quadro a n gradi di liberta (indicata con il simbolo χ2(n))la legge Γ(n

2 , 12 ). Si dice anche che X ha legge q · χ2(n) se X

q ha legge χ2(n).

(9.4) Esercizio. (a) Sia X una v.a. di legge N (0, σ2). Calcolare la legge della v.a. X2.(b) Mostrare che la legge χ2(n) coincide con la legge di Z2

1 + · · ·+Z2n, dove le Zi sono indipendenti

e tutte di legge N (0, 1).

(9.5) Teorema (di Cochran). Sia E1 ⊕ · · · ⊕ Ek una decomposizione ortogonale di Rn in ksottospazi di dimensioni rispettive r1, . . . , rk (con r1 + · · ·+ rk = n), X un campione di taglia n elegge N (0, σ2); indichiamo con XEi la proiezione del vettore X sul sottospazio Ei; allora le v. a.XE1 , . . . , XEk

sono indipendenti e ||XEi ||2 ha legge σ2 · χ2(ri).

Dimostrazione. Sia η1, . . . ηr1 una base ortonormale per il sottospazio E1, ηr1+1, . . . ηr1+r2 unabase per E2, ... ηr1+r2+···+rk−1+1, . . . ηr1+···+rk

una base per Ek. Allora η1, . . . ηr1 , . . . ηr1+r2+···+rk

formano una base ortonormale per Rn e la matrice A che ha per righe η1, . . . ηr1 , . . . ηr1+r2+···+rke

ortogonale; inoltre (AX)j = 〈X, ηj〉. Quindi, per la proposizione precedente, le v. a 〈X, ηj〉 sonotutte tra loro indipendenti e di legge N (0, σ2). Essendo XE1 =

∑r1j=1〈X, ηj〉ηj , si ha ||XE1 ||2 =∑r1

j=1〈X, ηj〉2 e quindi ||XE1 ||2 ha legge σ2 · χ2(r1). Analogamente per gli altri vettori XEi .

Assegnato un vettore aleatorio (X1, . . . , Xn), poniamo

X =∑n

i=1 Xi

n, S2 =

∑ni=1(Xi −X)2

n− 1.

X e S2 vengono chiamate rispettivamente media empirica e varianza empirica di X1, . . . , Xn (leabbiamo gia incontrate).

Ricordiamo che si chiama legge di Student a n gradi di liberta (denotata con t(n)) la legge diuna v. a. del tipo

√n X√

Y, dove X e Y sono due v. a. indipendenti, di leggi rispettive N (0, 1) e

χ2(n). La legge t(n) ammette densita; una sua versione puo essere calcolata con il metodo indicatonell’esercizio che segue. Tale versione risulta essere una funzione pari, e dunque la t(n) e una leggesimmetrica.Si puo anche mostrare che la t(n) converge debolmente alla N (0, 1) per n → ∞. Siano infattiX,U1, . . . Un variabili aleatorie indipendenti e tutte di legge N (0, 1); posto Wn =

√n∑n

k=1U2

k

, la

62

Page 63: Appunti di Statistica Matematica - people.dm.unipi.itpeople.dm.unipi.it/giuliano/dispensestatisticamatematica.pdf · 1. Modelli statistici (1.1) Esempio di partenza. L’analisi di

v.a. XWn ha legge t(n) . Per n → ∞, Wn converge a 1 q.c. (si tratta della radice quadrata

della reciproca di∑n

k=1U2

k

n , che converge q.c. a E[U21 ] = V arU1 = 1 per la legge forte dei grandi

numeri). Per il Lemma (8.14) X(Wn − 1) converge a 0 in probabilita, e per il lemma (8.16)XWn = X(Wn − 1) + X converge a una N (0, 1) in legge.

(9.6) Esercizio. Siano X e Y due v. a. di densita congiunta (rispetto alla misura di Lebesguebidimensionale) f . Calcolare la densita (rispetto alla misura di Lebesgue sulla retta) della v. a.Z = X

Y .Soluzione. Sia g una funzione boreliana. Allora

E[g(Z)] = E[g(X

Y

)]=

∫∫

R2g(x

y

)f(x, y)dxdy =

∫ +∞

−∞dy

∫ +∞

−∞g(x

y

)f(x, y) dx

=∫ +∞

−∞dy

∫ +∞

−∞g(z)f

(zy, y

)|y|dz =

∫ +∞

−∞dz g(z)

∫ +∞

−∞f(zy, y

)|y|dy =

∫ +∞

−∞dz g(z)h(z),

dove si pone

(i) h(z) =∫ +∞

−∞f(zy, y

)|y|dy,

che e evidentemente la (una) densita per Z. In particolare, se X e Y sono indipendenti e di densitarispettivamente f1 e f2, allora

(ii) h(z) =∫ +∞

−∞|y|f1(zy) · f2(y) dy;

osserviamo che, se il vettore (X, Y ) prende valori in (R+)2 le formule (8.5)(i) e (8.5)(ii) diventanorispettivamente

h(z) =(∫ +∞

0

f(zy, y

)ydy

)1R+(z), h(z) =

(∫ +∞

0

yf1(zy) · f2(y) dy

)1R+(z).

Dal Teorema di Cochran discende un importante corollario, che utilizzeremo varie volte.

(9.7) Teorema. Sia X un campione di taglia n e legge gaussiana N (m,σ2). Allora(i) X e S2 sono indipendenti.

(ii) X ha legge N (m, σ2

n ) (in modo equivalente si puo dire che X−mσ

√n ha legge N (0, 1)).

(iii)

∑n

i=1(Xi−X)2

σ2 = S2(n−1)σ2 ha legge χ2(n− 1).

(iv) (X−m)√

nS ha legge t(n− 1).

Dimostrazione. Il punto (ii) e un semplice esercizio. Segue dal fatto che X1 + · · ·Xn (somma din variabili indipendenti tutte di legge N (m,σ2)) ha legge N (nm,nσ2)).

63

Page 64: Appunti di Statistica Matematica - people.dm.unipi.itpeople.dm.unipi.it/giuliano/dispensestatisticamatematica.pdf · 1. Modelli statistici (1.1) Esempio di partenza. L’analisi di

(iii) Sia E1 il sottospazio generato dal vettore η1 =(

1√n, . . . , 1√

n

), e sia E2 = E⊥

1 . Posto Yi =Xi−m

σ , (Y1, . . . , Yn) e un campione di legge N (0, 1). D’altra parte

Y =∑n

i=1(Xi −m)nσ

=X−m

σ; YE1 = 〈Y, η1〉η1 =

∑ni=1 Yi√

nη1 =

√n

∑ni=1 Yi

nη1 =

√n Y η1;

∑ni=1(Xi −X)2

σ2=

n∑

i=1

(Xi −X

σ

)2

=n∑

i=1

( (Xi −m)− (X −m)σ

)2

=n∑

i=1

(Yi − Y )2

=n∑

i=1

Y 2i + nY

2 − 2Y( n∑

i=1

Yi

)=

n∑

i=1

Y 2i − nY

2= ||Y ||2 − ||YE1 ||2 = ||YE2 ||2.

Dunque, per il Teorema di Cochran,∑n

i=1(Xi−X)2

σ2 = ||YE2 ||2 ha legge χ2(n− 1).(i) Ancora dal teorema di Cochran sappiamo che YE1 e YE2 sono indipendenti. Dunque ancheY = 〈YE1 ,η1〉√

n(funzione di YE1) e S2 = σ2

n−1 ||YE2 ||2 (funzione di YE2), sono indipendenti.

(iv) Si puo scrivere

(X −m)√

n

S=

(X −m)√

n

σ·√

σ2

S2=

(X −m)√

n

σ·√√√√ σ2

∑n

i=1(Xi−X)2

n−1

=(X−m)

√n

σ√∑n

i=1(Xi−X)2

σ2

· √n− 1,

che ha legge t(n− 1) per la definizione di legge di Student e per i punti precedenti.

(9.8)Osservazione. Notare la somiglianza tra le due v.a. U = X−mσ

√n e V = X−m

σ

√n; la

quantita σ, presente nell’espressione di U , e sostituita da S in quella di V , e quindi V dipende solodal campione (X1, . . . , Xn). Notiamo anche che V ha, come U , una legge nota (e che e assai similealla legge di U per n grande). Cio fa prevedere la possibilita di utilizzare V al posto di U nel casoche σ sia una quantita incognita.

(9.9) Esercizio. Siano (X1, . . . , Xp) e (Y1, . . . , Yq) due campioni gaussiani tra loro indipendenti,di leggi rispettive N (m1, σ

2) e N (m2, σ2).

Poniamo

X =∑p

i=1 Xi

p, Y =

∑qi=1 Yi

q, S2

X =∑p

i=1(Xi −X)2

p− 1, S2

Y =∑q

i=1(Yi − Y )2

q − 1.

Mostrare che(i) le v.a. X, Y e S2

X(p − 1) + S2Y (q − 1) =

∑pi=1(Xi − X)2 +

∑qi=1(Yi − Y )2 sono tra loro

(globalmente) indipendenti;(ii) X − Y ha legge N

(m1 −m2, σ

2(

1p + 1

q

));

(iii) S2X(p− 1) + S2

Y (q − 1) ha legge σ2 · χ2(p + q − 2).(iv) la v.a. √

p + q − 2 · (X − Y )− (m1 −m2)√1p + 1

q ·√∑p

i=1(Xi −X)2 +∑q

i=1(Yi − Y )2

64

Page 65: Appunti di Statistica Matematica - people.dm.unipi.itpeople.dm.unipi.it/giuliano/dispensestatisticamatematica.pdf · 1. Modelli statistici (1.1) Esempio di partenza. L’analisi di

ha legge di Student a (p + q − 2) gradi di liberta.

Soluzione. I punti (ii) e (ii) possono essere ricavati come semplici conseguenze del Teorema (9.7)(per il punto (ii) si deve ricordare anche che la legge χ2(n) non e altro che la legge Γ

(n2 , 1

2

)). Il

punto (iv) e conseguenza di (i), (ii) e (iii).La verifica di (i) e analoga alla dimostrazione del Teorema (9.7). Per k = 1, 2, . . . , p + q poniamo

Zk =

Xk −m1

σper 1 6 k 6 p

Yk−p −m2

σper p + 1 6 k 6 p + q

.

Allora Z = (Z1, . . . , Zp+q) e un campione di v.a. aventi legge N (0, 1). Consideriamo i due versoriortogonali di Rp+q

η1 =( 1√

p,

1√p, . . . ,

1√p︸ ︷︷ ︸

p volte

, 0, . . . , 0︸ ︷︷ ︸q volte

), η2 =

(0, . . . , 0︸ ︷︷ ︸p volte

,1√q,

1√q, . . . ,

1√q︸ ︷︷ ︸

q volte

);

siano E1 e E2 i sottospazi di Rp+q generati rispettivamente da η1 e η2 e E3 il sottospazio ortogonalea E1⊕E2. Per il Teorema di Cochran, le tre proiezioni ZE1 , ZE2 e ZE3 sono tra loro indipendenti.D’altra parte

ZE1 = 〈Z, η1〉η1 =( p∑

i=1

Zi√p

)η1 =

√p( p∑

i=1

Zi

p

)η1 =

√p( p∑

i=1

Xi −m1

σp

)η1 =

√p(X −m1

σ

)η1,

da cui si ricavaX −m1

σ=〈ZE1 , η1〉√

p, X = σ · 〈ZE1 , η1〉√

p+ m1

In modo analogo abbiamo

Y = σ · 〈ZE2 , η2〉√q

+ m2;

pertanto X e funzione di ZE1 e Y e funzione di ZE2 . Infine

S2X(p− 1) + S2

Y (q − 1) =p∑

i=1

(Xi −X)2 +q∑

i=1

(Yi − Y )2

=p∑

i=1

X2i − pX

2+

q∑

i=1

Y 2i − qY

2

=p∑

i=1

(σZi + m1)2 − p(σ

∑pi=1 Zi

p+ m1

)2

+p+q∑

i=p+1

(σZi + m2)2 − q(σ

∑p+qi=p+1 Zi

q+ m2

)2

= σ2 p+q∑

i=1

Z2i −

(∑p

i=1 Zi)2

p− (

∑p+qi=p+1 Zi)2

q

= σ2

(||Z||2 − ||ZE1 ||2 − ||ZE2 ||2

)= σ2 · ||ZE3 ||2.

65

Page 66: Appunti di Statistica Matematica - people.dm.unipi.itpeople.dm.unipi.it/giuliano/dispensestatisticamatematica.pdf · 1. Modelli statistici (1.1) Esempio di partenza. L’analisi di

e quindi S2X(p− 1) + S2

Y (q − 1) e funzione di ZE3 . Le tre variabili X, Y e S2X(p− 1) + S2

Y (q − 1)sono dunque indipendenti in quanto funzioni di tre variabili indipendenti.

(9.10) Esercizio. Sia (X1, . . . , Xn) un campione di taglia n e legge N (m,σ)2. Mostrare che glistimatori di massima verosimiglianza m e σ2 rispettivamente di m e σ2 sono(i) stimatore di m: in ogni caso (cioe sia che la varianza sia nota sia che non lo sia), si ha m = X;(ii) stimatore di σ2:

(a) se m e nota si ha σ2 =∑n

i=1(Xi−m)2

n ;

(b) se m non e nota si ha σ2 =∑n

i=1(Xi−X)2

n = n−1n S2.

(9.11) Esercizio (in parte gia visto in (3.9)). (a) Sia (X1, . . . , Xn) una famiglia di v. a. equidis-tribuite con legge µ su R (non necessariamente gaussiana), con

∫R x2dµ(x) < +∞ ( e quindi sia la

media m =∫R xdµ(x) che la varianza σ2 =

∫R(x −m)2dµ(x) sono finite). Mostrare che X e uno

stimatore corretto di m.(b) Se in piu si suppone che le v. a. (X1, . . . , Xn) siano anche indipendenti (e dunque costituiscanoun campione di legge µ e di taglia n), allora

(i) se m e nota,∑n

i=1(Xi−m)2

n e uno stimatore corretto di σ2;(ii) se m non e nota, S2 e uno stimatore corretto di σ2.(c) Se µ e la legge N (m, σ)2, le statistiche corrette trovate nei punti (a) e (b) precedenti sono, inciascun caso, funzioni della relativa statistica esaustiva completa. Dunque sono stimatori ottimalinella classe Dc

2.

(9.12) Definizione. Si chiama vettore aleatorio gaussiano un vettore aleatorio X = (X1, . . . , Xn)tale che, per ogni u ∈ Rn, la v.a. 〈u, X〉 sia una v. a. gaussiana.

Indicheremo con m = (E[X1], . . . , E[Xn]) il vettore dei valori medi (mi = E[Xi]), e con Γ lamatrice di covarianza Γ =

(Γi,j

)=

(Cov(Xi, Xj)

)(Γ e semidefinita positiva, come ogni matrice di

covarianza). E facile provare che la v. a. 〈u,X〉 ha media 〈u, m〉 e varianza 〈Γu, u〉:

E[〈u,X〉] = E[ n∑

i=1

uiXi

]=

n∑

i=1

uiE[Xi

]=

n∑

i=1

uimi = 〈u, m〉;

V ar(〈u,X〉) = Cov( n∑

i=1

uiXi,

n∑

j=1

ujXj

)=

n∑

i,j=1

uiujCov(Xi, Xj) =n∑

i,j=1

uiujΓi,j = 〈Γu, u〉.

(9.13) Teorema.(a) La legge di X e determinata da m e Γ, e denotata con Nn(m,Γ).(b) Se X ha legge Nn(m,Γ), A e una matrice k × n e b ∈ Rk, allora Y = AX + b ha leggeNk(Am + b, AΓAt)

Dimostrazione. (a) La funzione caratteristica di X e

φX(u) = E[exp

(i〈u,X〉)] = ϕ〈u,X〉(1) = exp

(i〈u,m〉 − 1

2〈Γu, u〉

),

66

Page 67: Appunti di Statistica Matematica - people.dm.unipi.itpeople.dm.unipi.it/giuliano/dispensestatisticamatematica.pdf · 1. Modelli statistici (1.1) Esempio di partenza. L’analisi di

ricordando la (9.2).(b) Calcoliamo la funzione caratteristica di Y . Si ha

φY (u) = E[exp

(i〈u, Y 〉)] = E

[exp

(i〈u, (AX + b)〉)] = exp

(i〈u, b〉) · E[

exp(i〈u,AX〉)]

= exp(i〈u, b〉) · E[

exp(i〈tA u,X〉)] = exp

(i〈u, b〉) · exp

(i〈tAu, m〉 − 1

2〈ΓtA u,tAu〉

)

= exp(i〈u, b〉) · exp

(i〈u,Am〉 − 1

2〈AΓtAu, u〉

)= exp

(i〈u,Am + b〉 − 1

2〈AΓtAu, u〉

).

(9.14) Osservazione. Se X = (X1, . . . , Xn) e un campione di legge N (0, 1), allora X e un vettoregaussiano, di legge N (0, In), dove In e la matrice identita n× n.

Ricordiamo l’enunciato del Lemma (6.19):

(9.15) Lemma. Sia Γ una matrice n×n simmetrica semidefinita positiva; allora esiste una matricesimmetrica A n× n tale che Γ = A tA = A2. Inoltre, se Γ e invertibile, anche A e invertibile.

(9.16) Teorema. (a) Fissati m ∈ Rn e Γ matrice simmetrica n × n semidefinita positiva, esisteun vettore aleatorio di legge N (m, Γ).(b) Se Γ e invertibile, la legge N (m,Γ) e assolutamente continua rispetto alla misura di Lebesguen−dimensionale, con densita

f(x) =1

(2π)n/2√|Γ| exp

(−1

2〈Γ−1(x−m), (x−m)〉

).

Dimostrazione. (a) Sia X un vettore aleatorio di legge Nn(0, In), e sia A =√

Γ la matrice dellemma precedente (tale che A2 = Γ). Posto Y = AX + m, allora per Teorema precedente, punto(b), Y ha legge Nn(A · 0 + m,AIn

tA) = Nn(m,A2) = Nn(m,Γ).(b) Poniamo φ(x) = Ax + m. φ e invertibile e φ−1(x) = A−1(x −m), ∂φ−1

∂x = A−1; per la notaformula di cambio di variabili si ha

fY (x) = fX

(φ−1(x)

) ∣∣∣∣∂φ−1

∂x

∣∣∣∣ =1

(2π)n/2exp

(12||A−1(x−m)||2

)· ∣∣A−1

∣∣.

Dato che A2 = Γ, si ha |A2| = |A|2 = |Γ|, quindi∣∣A−1

∣∣ = |A|−1 = (√|Γ|)−1. Inoltre

||A−1(x−m)||2 = 〈A−1(x−m), A−1(x−m)〉 = 〈t(A−1)A−1(x−m), (x−m)〉= 〈(A tA)−1(x−m), (x−m)〉 = 〈(A2)−1(x−m), (x−m)〉 = 〈(Γ)−1(x−m), (x−m)〉 .

Sostituendo si trova la formula dell’enunciato.

10. I modelli lineari.

67

Page 68: Appunti di Statistica Matematica - people.dm.unipi.itpeople.dm.unipi.it/giuliano/dispensestatisticamatematica.pdf · 1. Modelli statistici (1.1) Esempio di partenza. L’analisi di

(10.1) Esempio introduttivo. L’esito di un certo fenomeno aleatorio (ad esempio il rendimentodi un certo terreno coltivato) e la somma di una funzione f(x) (dove f e sconosciuta) di una certaquantita x (ad esempio x= quantita di concime impiegato) e di un “disturbo” aleatorio W divarianza σ2, anch’essa sconosciuta.Per valutare ragionevolmente f si fanno n prove (ad es. si concimano n terreni nello stesso modo).In questa maniera si ottengono i risultati

Ym = f(xm) + Wm, m = 1, 2, . . . , n,

e si suppone che le v. a. Wm siano centrate, non correlate e con varianza σ2.Lo scopo dell’indagine e quello di ottenere informazioni su f e σ2. Per rendere il problema mate-maticamente trattabile, si puo approssimare f con un polinomio di grado k − 1, con k ≤ n:

f(x) ≈k∑

j=1

xj−1θj

e quindi le equazioni precedenti diventano

Ym =k∑

j=1

(xm)j−1θj + Wm, m = 1, 2, . . . , n, k ≤ n.

Le v.a. Wm possono essere scritte nella forma Wm = σZm, dove le Zm sono centrate e tali cheCov(Zi, Zj) = δi,j . In definitiva il modello e diventato

Ym =k∑

j=1

(xm)j−1θj + σZm, m = 1, 2, . . . , n, k ≤ n

e a questo punto ottenere informazioni su f e σ significa stimare i numeri θ1, . . . , θk e σ2. I modellicome quello qui indicato sono detti modelli di regressione, e sono un caso particolare dei cosiddettimodelli lineari, di cui ora diamo la definizione.

(10.2) Definizione. Si chiama modello lineare un modello statistico nel quale l’osservazione eformata da n v. a. della forma

Ym =k∑

j=1

am,jθj + σZm, m = 1, 2, . . . , n, , k ≤ n,

dove le incognite sono θ1, . . . , θk e σ2.

Si suppone che il vettore aleatorio Z = (Z1, . . . , Zn) sia centrato e di matrice di covarianza In.Inoltre, il modello puo essere rappresentato in forma vettoriale come Y = Aθ + σZ, dove sipone θ = t(θ1, . . . , θk), A =

(am,j

)m≤n,j≤k

, Z = t(Z1, . . . , Zn). Si suppone che l’applicazioneLA : Rk → Rn definita da LA(x) = Ax sia iniettiva (cioe che la matrice n × k A sia di rangomassimo (=k)).

68

Page 69: Appunti di Statistica Matematica - people.dm.unipi.itpeople.dm.unipi.it/giuliano/dispensestatisticamatematica.pdf · 1. Modelli statistici (1.1) Esempio di partenza. L’analisi di

Volendo rappresentare la situazione come un modello statistico, si prende Ω = Rn, F = B(Rn), eP θ,σ2

(legge di Y ) e l’immagine della legge di Z secondo l’applicazione z 7→ Aθ + σz.

Diremo che siamo nel caso gaussiano se la legge di Z e la N (0, In) (cioe le Zm sono indipendentie tutte di legge N (0, 1)). In tal caso la P θ,σ2

ammette densita rispetto alla misura di Lebesgue suRn, data da

fθ,σ2(y) =

1(2π)n/2σn

exp(− 1

2σ2||y −Aθ||2

).

Si ha||y −Aθ||2 = 〈y −Aθ, y −Aθ〉 = ||y||2 + ||Aθ||2 − 2〈y, Aθ〉;

indichiamo con A(Rk) il sottospazio chiuso di Rn immagine di Rk secondo l’applicazione LA e con¶ la proiezione di Rn su A(Rk). Allora si ha y = ¶y + z, con z ortogonale ad A(Rk), e quindi

〈y, Aθ〉 = 〈¶y + z, Aθ〉 = 〈¶y, Aθ〉+ 〈z, Aθ〉 = 〈¶y, Aθ〉.

Ne segue che

fθ,σ2(y) =

1(2π)n/2

exp(− 1

2σ2

||y||2 + ||Aθ||2 − 2〈¶y, Aθ〉

− n log σ

);

dato che ⟨(Aθ

σ2,− 1

2σ2

), (¶Y, ||Y ||2)

⟩=〈¶y,Aθ〉

σ2− ||Y ||2

2σ2,

si riconosce che siamo in presenza di un modello esponenziale e che (¶Y, ||Y ||2) e una statisticaesaustiva completa. In particolare ¶Y e uno stimatore di θ (osservare che ¶ manda Rn in A(Rk),che e un sottospazio di Rn a dimensione k (= numero dei θi), in quanto A e di rango massimo).

In analogia al caso gaussiano, in un modello lineare considereremo solo degli stimatori lineari di θ,cioe del tipo V Y , con V matrice k × n (e di conseguenza LV : Rn → Rk).

Cominciamo con un lemma.

(10.3) Lemma. Siano A una matrice n × k di rango massimo e y ∈ Rn. Allora il vettore x ∈ Rk

che rende minima la quantita ||y −Ax||2 e dato da x = Uy, dove U =(tAA

)−1 (tA).

Dimostrazione. E noto che il vettore z di LA(Rk) (cioe del tipo z = Ax per qualche x ∈ Rk) cherende minima la distanza di y da LA(Rk) e z = ¶y, dove ¶ e la proiezione ortogonale di Rn su A(Rk).Dunque dovra essere Ax = z = ¶y, e di conseguenza x e unico (se ¶y = Ax1 = Ax2 allora x1 = x2

perche A e di rango massimo). Esiste quindi un’applicazione U : Rn → Rk tale che il vettore x checerchiamo si puo mettere nella forma x = Uy, e cioe AUy = ¶y per ogni y ∈ Rn. In altre paroleabbiamo ¶ = AU . D’altra parte, t¶ = ¶ (siano u e v due vettori di Rn. Allora u = ¶u+a, dove a eortogonale a A(Rk) e quindi 〈u,¶v〉 = 〈¶u + a,¶v〉 = 〈¶u,¶v〉+ 〈a,¶v〉 = 〈¶u,¶v〉. Analogamente〈¶u, v〉 = 〈¶u,¶v〉. Quindi 〈¶u, v〉 = 〈u,¶v〉). Dato che A = ¶A, si ha anche

tA = t(¶A

)= tAt¶ = tA¶ =

(tAA

)U .

69

Page 70: Appunti di Statistica Matematica - people.dm.unipi.itpeople.dm.unipi.it/giuliano/dispensestatisticamatematica.pdf · 1. Modelli statistici (1.1) Esempio di partenza. L’analisi di

Da questa relazione segue la tesi, a patto che tAA sia invertibile. Osserviamo che L tAA : Rk → Rk.Dunque tAA e invertibile se e solo se L tAA e iniettiva, ovvero se e solo se

(tAA

)x = 0 implica

x = 0. Ma se(

tAA)x = 0, allora

0 = 〈( tAA)x, x〉 = 〈Ax,Ax〉 = ||Ax||2,

da cui segue Ax = 0 e quindi x = 0, perche LA e iniettiva (essendo A di rango massimo).

Diremo che uno stimatore vettoriale e corretto se e corretto componente per componente.

(10.4)Teorema(di Gauss–Markov). Lo stimatore UY e uno stimatore corretto di θ, ottimale nellaclasse degli stimatori lineari corretti di θ, e ||AUY − Y ||2 e uno stimatore corretto di (n − k)σ2.Nel caso gaussiano, tali stimatori sono ottimali tra tutti gli stimatori corretti (lineari e non, perquanto riguarda θ) di θ e (n− k)σ2 rispettivamente.

Dimostrazione. Sia V Y uno stimatore lineare. V Y e uno stimatore corretto di θ se e solo se

θ = Eθ,σ2[V Y ] = E[V (Aθ + σZ)] = V Aθ + σV E[Z] = V Aθ

(perche Z e centrato). Dunque si deve avere V A = Ik, e in effetti U ha questa proprieta . Infatti,per il Lemma precedente,

UA =(t

AA)−1 (tA)

A =

(tAA

)−1 (tAA) = Ik.

Quindi UY e uno stimatore corretto. Valutiamo il rischio di uno stimatore corretto (generico) V Y .Esso e uguale a

Eθ,σ2[||V Y − θ||2] = E[||V (Aθ + σZ)− θ||2] = E[||V Aθ + σV Z − θ||2] = σ2E[||V Z||2]

(perche V A = Ik). D’altra parte

||V Z||2 =∑

i

( ∑

j

vi,jZj

)2

=∑

i

( ∑

j

vi,jZj

)( ∑

k

vi,kZk

)=

i

( ∑

j,k

vi,jvi,kZjZk

),

e, passando alla speranza

E[||V Z||2] =∑

i

(∑

j,k

vi,jvi,kE[ZjZk])

=∑

i

( ∑

j,k

vi,jvi,kδj,k

)=

i

( ∑

j

v2i,j

)

=∑

i,j

v2i,j = ||V ||2,

per cui si ottieneEθ,σ2

[||V Y − θ||2] = σ2||V ||2.Dunque, volendo trovare lo stimatore ottimale, cioe di rischio minimo, nella classe degli stimatorilineari, bisogna minimizzare la quantita ||V ||2 sotto la condizione V A = Ik. Mostriamo che lo

70

Page 71: Appunti di Statistica Matematica - people.dm.unipi.itpeople.dm.unipi.it/giuliano/dispensestatisticamatematica.pdf · 1. Modelli statistici (1.1) Esempio di partenza. L’analisi di

stimatore UY e appunto quello che minimizza tale quantita . Osserviamo che, per ogni V taleche V A = Ik, si ha (ricordando che AU = ¶) U = IkU = V AU = V

(AU)

= V ¶, e quinditU =t¶ tV = ¶ tV, da cui

||U||2 = ||tU||2 = ||¶ tV ||2 ≤ ||tV ||2 = ||V ||2,

poiche la proiezione diminuisce la norma.

Passiamo a considerare lo stimatore ||AUY − Y ||2. Si ha AUY − Y = ¶Y − Y = ¶(Aθ + σZ) −Aθ + σZ = σ(¶Z − Z), ricordando che ¶A = A. Quindi E[||AUY − Y ||2] = σ2E[||¶Z − Z||2]. Perdimostrare che ||AUY − Y ||2 e uno stimatore corretto di σ2(n − k), bisogna allora far vedere cheE[||¶Z −Z||2] = n− k. Se ¶ fosse la proiezione sul sottospazio generato dalle prime k coordinate,avremmo ¶Z − Z = (0, . . . , 0︸ ︷︷ ︸

kvolte

, Zk+1, . . . , Zn), e la cosa sarebbe allora ovvia perche

E[||¶Z − Z||2] = E[Z2

k+1 + · · ·Z2n

]= n− k,

ricordando che E[ZiZj ] = δi,j .

Nel caso generale, si vede facilmente che, se B e una matrice n × n ortogonale, allora il vettoreW = BZ ha le stesse proprieta di Z, cioe si ha ancora E[WiWj ] = δi,j (infatti, in generale si haΓW = BΓZ

tB, in quanto

E[WiWj ] = E[(∑

h

bi,hZh)∑

h

bj,kZk)]

= E[ ∑

h,k

bi,hbj,kZhZk

]=

h,k

bi,hbj,kE[ZhZk

].

Dato che(E

[ZhZk

])h,k

= (γh,k) = ΓZ , e tB = (bk,j) = (bj,k), l’espressione precedente si puo

scrivere nella forma ∑

h,k

bi,hγh,k bk,j ,

e vi si riconosce l’elemento di posto (i, j) della matrice BΓZtB. Nel nostro caso particolare

abbiamo allora ΓW = BΓZtB = BIn

tB = In).Basta allora considerare la matrice B che cambia la base in modo che i primi k elementi generinoil sottospazio (a dimensione k) A(Rk) su cui ¶ proietta, e in questo modo ci si riconduce al casoprecedente.

Se siamo nel caso gaussiano, allora abbiamo visto prima che (¶Y, ||Y ||2) e una statistica esaustivacompleta. Dunque per i risultati generali sulle statistiche esaustive complete, per vedere che UY e||AUY − Y ||2 sono stimatori ottimali, basta far vedere che sono funzioni della statistica completa.Osserviamo prima di tutto che U = U¶. Infatti

U =(tA A

)−1 (tA) =(tAA

)−1 t(¶A) =(tAA

)−1 (tA)(t¶) =(t

AA)−1 (tA)

¶ = U¶.

Dunque UY = U(¶Y ) e funzione di ¶Y . Inoltre, per il teorema di Pitagora ||Y ||2 = ||¶Y ||2 + ||Y −¶Y ||2, da cui (ricordando che AU = ¶)

||AUY − Y ||2 = ||¶Y − Y ||2 = ||Y ||2 − ||¶Y ||2,

71

Page 72: Appunti di Statistica Matematica - people.dm.unipi.itpeople.dm.unipi.it/giuliano/dispensestatisticamatematica.pdf · 1. Modelli statistici (1.1) Esempio di partenza. L’analisi di

e quindi anche ||AUY − Y ||2 e funzione della statistica completa.

(10.5) Osservazione. Per il calcolo effettivo di UY (ω) si procede cosı. Noi abbiamo a disposizionel’osservazione Y (ω), e sappiamo dal Teorema di G–M. che la stima lineare di θ deve essere UY (ω).Dal Lemma che precede il Teorema di G–M, sappiamo che UY (ω) minimizza ||Y (ω)−A(UY (ω))||2.Dunque si cerca il vettore θ0 ∈ Rk in cui si realizza il minimo della funzione

θ 7→ ||Y (ω)−Aθ||2 =n∑

m=1

(Ym(ω)−

k∑

j=1

am,jθj

)2

,

e si pone UY (ω) = θ0. In casi come questo si usa dire che si stima θ nel senso dei minimi quadrati.In pratica si annullano le derivate parziali rispetto a θ1, . . . , θk.

(10.6) Esempio. Torniamo al modello di regressione che abbiamo visto all’inizio, e cioe

Ym =k∑

j=1

(xm)j−1θj + σZm, m = 1, 2, . . . , n.

con k ≤ n e x1 6= x2 6= · · · 6= xn. Allora e ben noto che la matrice A data da

A =

1 x1 . . . xk−11

1 x2 . . . xk−12

......

...1 xn . . . xk−1

n

ha sempre rango massimo. Annullando le derivate parziali si arriva alle equazioni

di =k∑

j=1

ci,jθj ,

dove

di =n∑

m=1

Ym(ω)xi−1m , ci,j =

n∑m=1

xi+j−2m .

11. Cenni sulle regioni di fiducia (o di confidenza)

Premettiamo la nozione di quantile. Sia F una funzione di ripartizione.

Per ogni u ∈ (0, 1) poniamo

Su = x ∈ R : F (x) ≥ u, F←(u) = inf Su = infx ∈ R : F (x) ≥ u.

La funzione F← cosı definita non e altro che dell’inversa generalizzata di F . Tuttavia in Statisticasi usa chiamarla preferibilmente funzione quantile di F (meglio: della legge definita da F ). Seα ∈ (0, 1), il numero F←(α) si chiama quantile di ordine α di F .

72

Page 73: Appunti di Statistica Matematica - people.dm.unipi.itpeople.dm.unipi.it/giuliano/dispensestatisticamatematica.pdf · 1. Modelli statistici (1.1) Esempio di partenza. L’analisi di

La Proposizione seguente elenca le principali proprieta di F← .

(11.2) Proposizione Valgono le seguenti proprieta:(i) F (x) > u ⇐⇒ F←(u) 6 x.(ii) F (x) < u ⇐⇒ F←(u) > x.(iii) F (x1) < u 6 F (x2) ⇐⇒ x1 < F←(u) 6 x2.(iv) F

(F←(u)

)> u per ogni u ∈ [0, 1]. In piu, se F e continua, la diseguaglianza e un’eguaglianza.

(v) F←(F (x)

)6 x per ogni x ∈ R. In piu, se F e (strettamente) crescente, la diseguaglianza e

un’eguaglianza.(vi) F e continua se e solo se F← e (strettamente) crescente.(vii) F e (strettamente) crescente se e solo se F← e continua.(viii) Se la v.a. X ha funzione di ripartizione F , allora P

(F←

(F (x)

) 6= X)

= 0.

Si lascia la dimostrazione per esercizio; tuttavia, dato che saranno usate in seguito (nella di-mostrazione del Teorema (23.2)), a titolo di esempio mostriamo direttamente due proprieta di F←

( in realta sono solo conseguenze della Proposizione (11.2)).

(1) Se u ≤ v allora F←(u) ≤ F←(v).Infatti in tal caso Sv ⊆ Su e quindi F←(u) = inf Su ≤ inf Sv = F←(v).

(2)F (F←(u)−) ≤ u ≤ F (F←(u)).

Infatti(a) Sia t < F←(u). Allora, osservato che Su e una semiretta destra di R (per la non decrescenza diF ) di origine F←(u), t non appartiene a Su, e quindi F (t) < u. Passando al limite per t ↑ F←(u)si ha la prima delle due diseguaglianze da dimostrare.(b) Per definizione di estremo inferiore, esiste una successione xn ∈ Su tale che xn ↓ φ(u). Dato chexn ∈ Su, si ha u ≤ F (xn) e passando al limite in n, si trova u ≤ limn→∞ F (xn) = limt↓F←(u) F (t) =F (F←(u)), per la continuita a destra di F .

Mentre nei problemi di stima puntuale studiata nel paragrafo 3 si cerca di identificare il parametroche regola un certo fenomeno aleatorio, nella teoria delle regioni di fiducia si cerca di identificareun sottoinsieme di Θ a cui il parametro appartiene con una probabilita abbastanza alta. Piuprecisamente si da la seguente definizione.

(11.3) Definizione. Siano α ∈ (0, 1), S : Ω → P(Θ) una funzione tale che, per ogni θ ∈ Θ,l’insieme ω ∈ Ω : S(ω) non contiene θ (che si scrive preferibilmente, anche se in modo un po’improprio, nella forma θ /∈ S) appartenga alla tribu F . Si dice che S e una regione di fiducia dilivello 1− α se, per ogni θ ∈ Θ, risulta

P θ(θ /∈ S) ≤ α.

(11.4) Osservazione. Se Θ ⊆ R, le regioni di fiducia che si costruiscono nella pratica sono ingenere degli intervalli della retta (limitati o no).

(11.5) Esempio. Costruire un intervallo di fiducia di livello 0.95 per il parametro θ dell’esponenzia-le, basato su una sola osservazione X (cioe sul campione unidimensionale X).

73

Page 74: Appunti di Statistica Matematica - people.dm.unipi.itpeople.dm.unipi.it/giuliano/dispensestatisticamatematica.pdf · 1. Modelli statistici (1.1) Esempio di partenza. L’analisi di

Significa che si devono trovare due funzioni t1(X) e t2(X) tali che

P θ(t1(X) ≤ θ ≤ t2(X)

) ≥ 0.95.

Partiamo da questa semplice osservazione: se X ha legge E(θ), allora la variabile Y = θX halegge∼ E(1). Infatti, per t > 0 si ha

P (Y ≤ t) = P (θX ≤ t) = P (X ≤ t/θ) = 1− e−t.

Di conseguenza, ∀a, b > 0 con a < b si ottiene

P θ(a ≤ Y ≤ b) = (1− e−b)− (1− e−a) = e−a − e−b,

il che equivale a

P θ

(a

X≤ θ ≤ b

X

)= e−a − e−b.

Allora poniamo

t1(X) =a

X, t2(X) =

b

X,

dove le costanti a e b sono scelte in modo che e−a − e−b = 0.95.

(11.6) Osservazione. Il metodo qui seguito, e che verra usato sistematicamente nel seguito, equello cosiddetto della quantita pivotale, che consiste nel determinare una funzione di X1, . . . , Xn

e del parametro θ, Q(X1, . . . , Xn, θ) (X e θ nell’esempio), invertibile rispetto alla variabile θ, inmodo che la legge P θ(Q(X1, . . . , Xn, θ) ∈ A) non dipenda da θ.

Nota. Nei paragrafi seguenti X1, . . . , Xn sara un campione di taglia n e di legge N (µ, σ2); inoltregli intervalli che costruiremo saranno tutti di livello 1 − α fissato. Indicheremo con Φ la f.d.r.della legge N (0, 1) e con φα il quantile di ordine α di tale legge (ossia la funzione inversa di Φ:φα = Φ−1(α)).

(11.7) Intervalli di fiducia per la media della Normale con varianza nota.

Si parte dall’osservazione che

Y =X − µ

σ

√n ∼ N (0, 1).

(a) Intervallo bilaterale. Dalla relazione

Pµ(a ≤ Y ≤ b) = Φ(b)− Φ(a)

si ricavaΦ(b)− Φ(a)

= Pµ

(a ≤ X − µ

σ

√n ≤ b

)= Pµ

(X − σ√

nb ≤ µ ≤ X − σ√

na

).

74

Page 75: Appunti di Statistica Matematica - people.dm.unipi.itpeople.dm.unipi.it/giuliano/dispensestatisticamatematica.pdf · 1. Modelli statistici (1.1) Esempio di partenza. L’analisi di

Pertanto bastera trovare a e b in modo che

Φ(b)− Φ(a) = 1− α.

Siano β e γ due numeri reali ∈ [0, 1] tali che b = φβ , a = φγ ; allora si ha

Φ(b)− Φ(a) = β − γ.

Pertanto bastera scegliere β e γ in modo che risulti β−γ = 1−α. Una scelta possibile e β = 1−α/2,γ = α/2, (cioe b = φ1−α/2, a = φα/2 = −φ1−α/2, dove l‘ultima uguaglianza segue dalla notaproprieta dei quantili della legge normale standard).L‘intervallo risultante e allora

(∗)(

X − σ√n

φ1−α/2, X +σ√n

φ1−α/2

).

Osservazione. La scelta fatta non e ovviamente l’unica possibile: ad esempio β = 1 − α/3,γ = 2(α/3) va ancora bene. Tuttavia l’intervallo (∗) e quello di ampiezza minima, (cioe da la stimamigliore possibile, al livello 1 − α assegnato); dimostrazione per esercizio (segue dalla convessitadella funzione α 7→ φα).

(b) Intervallo unilaterale destro. Il termine significa che si vuole trovare una limitazioneper µ solo dal basso, cioe del tipo H < µ (il termine “destro” si spiega osservando che in tal casoµ ∈ (H, +∞), semiretta destra).Questa volta partiamo dalla relazione

Pµ(Y ≤ b) = Φ(b),

che equivale a

(X − σ√

nb ≤ µ

)= Φ(b).

Se b = φβ , allora bastera che1− α = Φ(b) = β,

ovvero, semplicemente, b = φ1−α, e l’intervallo e(

X − σ√n

φ1−α, +∞)

.

(c) Intervallo unilaterale sinistro. Non ripeteremo i calcoli, che sono analoghi ai precedenti.Si trova l’intervallo (

−∞, X − σ√n

φα

)=

(−∞, X +

σ√n

φ1−α

),

ricordando la relazione −φα = φ1−α (dimostrazione: si fa vedere che Φ(−φα) = Φ(φ1−α) usando ladefinizione di quantile e la relazione Φ(t) = 1−Φ(−t), valida per la simmetria della legge N (0, 1)).

75

Page 76: Appunti di Statistica Matematica - people.dm.unipi.itpeople.dm.unipi.it/giuliano/dispensestatisticamatematica.pdf · 1. Modelli statistici (1.1) Esempio di partenza. L’analisi di

(11.8) Osservazione. La scelta del tipo di intervallo da considerare e in genere legata alla situa-zione pratica (se si deve avere una stima sia da destra che da sinistra calcoleremo un intervallobilaterale, se invece occorre stimare il parametro solo dal basso cercheremo un intervallo unilateraledestro, e cosı via).

(11.9) Osservazione. Per quanto riguarda le stime da sinistra 8nilaterale e bilaterale si ha

X − σ√n

φ1−α/2 ≤ X − σ√n

φ1−α

Per le stime da destra vale ovviamente la diseguaglianza inversa. (dimostrazione per esercizio).

Indichiamo con tα,n il quantile di ordine α della legge t(n). A causa della simmetria della legget(n), anche per questi quantili vale la relazione −tα,n = t1−α,n.

(11.10) Intervalli di fiducia per la media della Normale con varianza non nota.

Nella pratica gli intervalli del paragrafo precedente sono di scarsa utilita, perche nelle formule cheli definiscono interviene la varianza σ2, che in genere non si conosce.In questo caso si puo sostituire σ2 con

S2 =∑n

i=1(Xi −X)2

n− 1

(che ne e uno stimatore), e applicare di nuovo il metodo della quantita pivotale partendo dalla v.a.

Z =X − µ

S

√n ∼ t(n− 1),

(corollario al teorema di Cochran). Osservando che l’unica proprieta della legge normale standardche abbiamo usato e stata la simmetria (a proposito dei quantili, nella relazione −φα = φ1−α), ericordando che anche la legge t di Student e simmetrica, risulta chiaro che tutto cio che abbiamodetto nel paragrafo precedente si puo ripetere, semplicemente sostituendo σ con S e i quantili dellaN (0, 1) con quelli della t(n− 1). Per comodita di chi legge, riportiamo comunque le formule finali.Il quantile di ordine α della t(n) sara indicato con il simbolo tα,n.

(a) Intervallo bilaterale.

(X − S√

nt1−α/2,n−1, X +

S√n

t1−α/2,n−1

).

(b) Intervallo unilaterale destro.

(X − S√

nt1−α,n−1, +∞

).

76

Page 77: Appunti di Statistica Matematica - people.dm.unipi.itpeople.dm.unipi.it/giuliano/dispensestatisticamatematica.pdf · 1. Modelli statistici (1.1) Esempio di partenza. L’analisi di

(c) Intervallo unilaterale sinistro.

(−∞, X +

S√n

t1−α,n−1

).

Indichiamo con χα,n il quantile di ordine α della legge χ(n).

(11.11) Intervalli di fiducia per la varianza della Normale con media nota.

Qui si parte osservando che la v. a.

Y =∑n

i=1(Xi − µ)2

σ2

ha legge χ2(n). Posto

U2 =∑n

i=1(Xi − µ)2

n,

(che, come sappiamo, e uno stimatore della varianza) si puo scrivere

Y =nU2

σ2.

(a) Intervallo bilaterale. Indichiamo con Fn la funzione di ripartizione della χ2(n). Allora siha

Fn(b)− Fn(a) = P σ2(a ≤ Y ≤ b)

= P σ2(

a ≤ nU2

σ2≤ b

)= Pσ2

(nU2

b≤ σ2 ≤ nU2

a

).

Quindi, se al solito poniamo b = χ2β,n, a = χ2

γ,n, avremo

1− α = Fn(b)− Fn(a) = β − γ.

Una scelta possibile e β = 1− α/2, γ = α/2, e si ottiene l’intervallo

(nU2

χ21−α/2,n

,nU2

χ2α/2,n

).

Gli intervalli unilaterali si ottengono in modo analogo. Riportiamo solo le formule finali.

(b) Intervallo unilaterale destro.

(nU2

χ21−α,n

, +∞)

.

77

Page 78: Appunti di Statistica Matematica - people.dm.unipi.itpeople.dm.unipi.it/giuliano/dispensestatisticamatematica.pdf · 1. Modelli statistici (1.1) Esempio di partenza. L’analisi di

(c) Intervallo unilaterale sinistro.

(0,

nU2

χ2α,n

).

(11.12) Intervalli di fiducia per la varianza della Normale con media non nota.

Poiche normalmente la media non e nota, si puo cercare di sostituire µ con il suo stimatore X,usando, al posto di U2, la v. a.

S2 =∑n

i=1(Xi −X)2

n− 1

(che e ancora uno stimatore della varianza). Quindi applicheremo il metodo della quantita pivotalea partire dalla v. a.

Z =(n− 1)S2

σ2,

che, dal corollario al teorema di Cochran, sappiamo avere legge χ2(n− 1). Dunque, per avere i trenuovi intervalli bastera sostituire nelle formule del paragrafo precedente n − 1 al posto di n (e iquantili della χ2(n−1) al posto di quelli della χ2(n)). Si ottengono cosı le espressioni che seguono:

(a) Intervallo bilaterale. ((n− 1)S2

χ21−α/2,n−1

,(n− 1)S2

χ2α/2,n−1

).

(b) Intervallo unilaterale destro.

((n− 1)S2

χ21−α,n−1

, +∞)

.

(c) Intervallo unilaterale sinistro.

(0,

(n− 1)S2

χ2α,n−1

).

12. Teoria dei test

Fare un test statistico significa formulare un’ipotesi riguardante il parametro θ ∈ Θ (che non enoto) e pianificare un’esperienza per decidere se tale ipotesi puo essere ritenuta vera, e quindiaccettata.

Un’ipotesi statistica (usualmente indicata con il simbolo H0 e talvolta denominata ipotesi nulla) ela sua negazione, cioe l’ alternativa (indicata con il simbolo H1) si formalizzano nel modo seguente.

78

Page 79: Appunti di Statistica Matematica - people.dm.unipi.itpeople.dm.unipi.it/giuliano/dispensestatisticamatematica.pdf · 1. Modelli statistici (1.1) Esempio di partenza. L’analisi di

Dato il modello statistico(Ω,F , (P θ, θ ∈ Θ)

), si assegna una partizione dell’insieme Θ dei parametri

in due sottoinsiemi non vuoti Θ0 e Θ1 (dunque Θ0 ∪Θ1 = Θ e Θ0 ∩Θ1 = ∅).

(12.1) Esempio. Nell’esempio iniziale del controllo di qualita , supponiamo di voler sottoporre atest l’ipotesi H0= la probabilita che un generico pezzo sia difettoso e < 0.1 La formalizzazione ela seguente

Θ = (0, 1), Θ0 = (0, 0.1), Θ1 = [0.1, 1)

e dobbiamo pianificare un’esperimento che ci permetta di discriminare tra l’ipotesi H0 : θ ∈ Θ0

(cioe θ < 0.1) e l’alternativa H1 : θ ∈ Θ1 (cioe θ ≥ 0.1).

(12.2) Definizione. Si chiama funzione di test una funzione Φ : Ω → 0, 1 misurabile, cioe dellaforma Φ = 1D, con D ∈ F . D = ω ∈ Ω : Φ(ω) = 1 si chiama regione di rigetto o di rifiuto, oanche regione critica del test. Essa va interpretata come l’insieme dei risultati dell’esperimento cheinducono (meglio sarebbe dire “obbligano”) lo sperimentatore a ritenere che l’ipotesi H0 sia falsa,e, come tale, a respingerla. In modo simmetrico, l’evento Dc si chiama regione di accettazione deltest.

(12.3) Osservazione. Identificheremo spesso un test con la sua regione critica: diremo quindi “iltest D” invece che “il test di regione critica D”.

(12.4) Esempio. Ancora nell’esempio del controllo di qualita (con l’ipotesi H0 stabilita in (12.1.)),supponiamo che l’esperimento da effettuare consista nel provare 100 pezzi, e che si sia deciso dirifiutare l’ipotesi nel caso che il numero di pezzi difettosi risulti maggiore (strettamente) di 11. Laformalizzazione della situazione e allora la seguente.Si prende il modello statistico (Ω,F , (P θ, θ ∈ Θ)) (che rappresenta la successione delle 100 provedi Bernoulli), in cui Ω = 0, 1100, F = P(Ω), P θ(ω) = θ

∑iωi(1 − θ)100−

∑iωi (in cui ωi = 1

significa che l’i−esimo pezzo e difettoso). Poniamo poi T (ω) =∑100

i=1 ωi e

Φ(ω) =

0 se T (ω) ≤ 111 se T (ω) ≥ 12 .

Allora Φ e la funzione test e si puo scrivere Φ = 1D, dove D = ω ∈ Ω : T (ω) ≥ 12 e la regionecritica del test.

(12.5) Osservazione. Poniamo

g(θ) =

0 se θ ∈ Θ0,1 se θ ∈ Θ1

(a parole potremmo dire che g(θ) e l’indice di quello tra i due sottoinsiemi Θ0 e Θ1 a cui θappartiene). Allora la funzione Φ = 1D sopra introdotta non e altro che uno stimatore di g(θ)(nel senso della definizione data a suo tempo): significa che, nell’eventualita che ω ∈ Dc (cioeΦ(ω) = 0), allora decidiamo che θ ∈ Θ0 (e cioe g(θ) = 0), e quindi accettiamo H0, mentre se ω ∈ D(cioe Φ(ω) = 1), allora diciamo che θ ∈ Θ1 (e cioe g(θ) = 1), e quindi rifiutiamo H0.

Generalmente si ha a disposizione un certo numero di test, e bisogna decidere quale e il piu affida-bile. L’osservazione precedente (cioe l’interpretazione della funzione di test come uno stimatore)

79

Page 80: Appunti di Statistica Matematica - people.dm.unipi.itpeople.dm.unipi.it/giuliano/dispensestatisticamatematica.pdf · 1. Modelli statistici (1.1) Esempio di partenza. L’analisi di

ci dice che cio e possibile introducendo anche in questo caso (come per gli stimatori) un costo.Precisamente

(12.6) Definizione. Il costo in un problema di test e la funzione C : Θ× 0, 1 → R definita da

C(θ, a) =

a se θ ∈ Θ0

1− a se θ ∈ Θ1.

Ricordiamo che il costo relativo alla stima U(ω) e definito come C(θ, U(ω)). Dunque nel nostro casovale C(θ, 1D(ω)): se θ ∈ Θ0 e decidiamo che θ ∈ Θ0, allora non paghiamo alcun costo; viceversa,se θ ∈ Θ1 e decidiamo che θ ∈ Θ0, allora paghiamo un costo (unitario) (e in modo simmetrico: seθ ∈ Θ1 e decidiamo che θ ∈ Θ1, allora non paghiamo alcun costo; viceversa, se θ ∈ Θ1 e decidiamoche θ ∈ Θ0, allora paghiamo un costo (unitario)).

Di conseguenza il rischio dello “stimatore” 1D e

R(θ, 1D) = Eθ[C(θ, 1D)] =

Eθ[1D] = P θ(D) per θ ∈ Θ0

1− Eθ[1D] = P θ(Dc) per θ ∈ Θ1.

La decisione che prenderemo (θ ∈ Θ0 oppure θ ∈ Θ1) dipende dal risultato dell’esperimento, ed edunque aleatoria. C’e dunque una probabilita di prendere una decisione sbagliata. Precisamente:

(12.7) Definizione. (a) Si chiama errore di prima specie l’errore che consiste nel respingere atorto l’ipotesi H0 (l’esperimento che abbiamo effettuato ha dato un risultato ω ∈ D ma in realtaθ ∈ Θ0). La probabilita di commettere questo tipo di errore e il numero P θ(D), per θ ∈ Θ0.(b) Si chiama errore di seconda specie l’errore che consiste nell’accettare a torto l’ipotesi H0

(l’esperimento ha dato un risultato ω ∈ Dc ma in realta θ ∈ Θ1). La probabilita di commet-tere questo tipo di errore e il numero P θ(Dc), per θ ∈ Θ1.

Seguendo ancora la terminologia introdotta per gli stimatori, possiamo dare la definizione seguente:

(12.8) Definizione. Un test (di regione critica) D e preferibile ad un test (di regione critica) D∗

se R(θ, 1D) ≤ R(θ, 1D∗) per ogni θ ∈ Θ. Ricordando l’espressione del rischio, si deve cioe avere

P θ(D) ≤ P θ(D∗) per θ ∈ Θ0

P θ(D) ≥ P θ(D∗) per θ ∈ Θ1.

(ovvero, se l’ipotesi e vera, e meno probabile respingerla con il test (di regione critica) D piuttostoche con il test (di regione critica) D∗. Il contrario se l’ipotesi e falsa).

In modo analogo si possono dare le definizioni di test strettamente preferibile, test ammissibile etest ottimale.

Con la relazione di preferibilita si ottiene solo un ordinamento parziale fra test: esistono infattitest tra loro non confrontabili (come accadeva per gli stimatori).

80

Page 81: Appunti di Statistica Matematica - people.dm.unipi.itpeople.dm.unipi.it/giuliano/dispensestatisticamatematica.pdf · 1. Modelli statistici (1.1) Esempio di partenza. L’analisi di

Esiste un altro criterio di ordinamento tra test, nel quale, a differenza del precedente, H0 e H1

non giocano un ruolo simmetrico. Spesso infatti si ritiene che sia meglio accettare un’ipotesi falsapiuttosto che respingere un’ipotesi vera. Come esempio, si puo pensare ad un test sul DNA usatoper decidere la colpevolezza di una persona accusata di omicidio in uno stato dove per questo reatoe prevista la pena di morte: se l’ipotesi H0 corrisponde all’affermazione “l’imputato e innocente”,e H1 all’affermazione “l’imputato e colpevole”, accettare l’ipotesi falsa equivale a mandare liberoun assassino, ma respingere l’ipotesi vera significa condannare a morte un innocente, cosa ben piugrave.In altri termini si considera meno grave commettere un errore di seconda specie piuttosto che unodi prima specie. Questo conduce ad una nuova relazione di preordinamento sulle funzioni test, chetraduce il fatto che lo sperimentatore deve cautelarsi contro la possibilita di commettere un erroredi prima specie.

(12.8) Definizione. (a) Si chiama taglia del test la “massima probabilita di errore di primaspecie”, cioe il numero supθ∈Θ0

P θ(D).(b) Fissato α ∈ (0, 1), si dice che il test e di livello α se la sua taglia e minore o uguale ad α:

supθ∈Θ0

P θ(D) ≤ α.

Contrariamente al caso in cui θ ∈ Θ0, nel caso in cui θ ∈ Θ1, P θ(D) rappresenta la probabilita difare la scelta giusta. Questo giustifica la definizione seguente:

(12.9) Definizione. La funzione definita su Θ1 da θ 7→ P θ(D) si chiama potenza del test.

(12.10) Osservazione. In genere, H0 e un’ipotesi che si spera di poter respingere, cioe si tratta diun’ipotesi per cosı dire “allarmante”; in quest’ottica, la quantita 1−P θ(D), con θ ∈ Θ1 (probabilitadi accettare a torto H0) e spesso chiamata probabilita di “falso allarme”, o probabilita di “falsopositivo”. In particolare la seconda espressione e comune (e ben nota a tutti) per i test medici, esi usa anche nell’ambito degli studi sulla sicurezza informatica.

Allo scopo di garantirsi contro la possibilita di errore di prima specie, si fissa per prima cosa unlivello α; in altri termini, il numero α e la “massima probabilita di errore di prima specie chelo sperimentatore e disposto a tollerare”. D’altro canto, e anche auspicabile che la potenza nonsia troppo bassa (perche questo significherebbe una probabilita bassa di fare la scelta correttanel caso che sia vera l’alternativa). Dunque, se Dα e la classe dei test di livello α, si dice che iltest (di regione critica) D e uniformemente il piu potente (abbreviato in UPP, o UMP, uniformlymost powerful in inglese) tra i test di livello α se D ∈ Dα e D e piu potente di ogni altro test D∗

appartenente a Dα, cioe se, per ogni D∗ ∈ Dα, si ha

P θ(D) ≥ P θ(D∗), ∀ θ ∈ Θ1.

In altre parole si cerca di scegliere il test D la cui potenza sia la piu alta possibile (tra i test diDα).

81

Page 82: Appunti di Statistica Matematica - people.dm.unipi.itpeople.dm.unipi.it/giuliano/dispensestatisticamatematica.pdf · 1. Modelli statistici (1.1) Esempio di partenza. L’analisi di

(12.11) Osservazione. La teoria delle regioni di fiducia puo essere considerata un caso particolaredella teoria dei test. Fissiamo infatti θ0 ∈ Θ e consideriamo il test d’ipotesi H0 : θ = θ0 control’alternativa H1 : θ 6= θ0. Supponiamo che D(θ0) sia la regione critica di un test di livello αdell’ipotesi H0 contro l’alternativa H1.

Supponiamo di avere scelto D(θ) con questo procedimento per ogni θ ∈ Θ (mantenendo fisso α);consideriamo la regione di fiducia S : Ω → P(Θ) definita da

S(ω) = θ ∈ Θ : ω /∈ D(θ).

Si ha subitoP θ(θ /∈ S) = P θ

(ω : ω ∈ D(θ)) = P θ(D(θ)

) ≤ α,

e quindi S e una regione di fiducia di livello 1− α.

Viceversa, se S e una regione di fiducia di livello 1 − α, l’insieme D(θ0) = ω : θ0 /∈ S(ω) e laregione critica di un test di livello α dell’ipotesi H0 : θ = θ0 contro l’alternativa θ 6= θ0. Infatti inquesto caso Θ0 = θ0 e quindi

supθ∈Θ0

P θ(D(θ0)

)= P θ0

(D(θ0)

)= P θ0(θ0 6∈ S) ≤ α.

13. Il lemma di Neymann–Pearson

In questo paragrafo studieremo il caso in cui Θ = 0, 1. I risultati che otterremo potranno esserepoi applicati anche a casi piu generali.

Si dice che l’ipotesi (risp. l’alternativa) e semplice se Θ0 (risp. Θ1) e formato da un solo punto.Supponendo che sia l’ipotesi che l’alternativa siano semplici, Θ puo essere rappresentato nellaforma Θ = 0, 1. In questo caso e possibile dire esattamente quali sono i “buoni” test. Si trattadella teoria di Neymann–Pearson, di cui ci occupiamo adesso.

In questo paragrafo si suppone dunque che il modello statistico sia del tipo(Ω,F , (P θ, θ ∈ 0, 1),

cioe sia formato da due sole probabilita. Cominciamo con l’osservare che un tale modello e certa-mente dominato (una misura dominante e per esempio µ = P 0 + P 1); scegliamo allora una misuradominante µ e siano pi (i = 0, 1) una scelta delle densita dP i

dµ .

(13.1) Lemma di Neymann–Pearson. Sia C un numero reale strettamente positivo. L’insiemeD = p1 > Cp0 e la regione critica di un test dell’ipotesi H0 : θ = 0 contro l’alternativa H1 : θ = 1,con taglia α = P 0(D). Questo test e ammissibile e UPP tra i test di livello α.

(13.2) Osservazione. Questo test rifiuta H0 se la densita di P 1 e molto piu grande di quella di P 0:intuitivamente, ricordando che valori grandi della densita corrispondono a valori dell’osservazionepiu probabili, cio significa che, se p1 e grande allora e vera l’alternativa (e infatti per p1/p0 grandesiamo nella zona di rigetto). Se invece p0 e grande allora e vera l’ipotesi (infatti per p1/p0 piccolosiamo nella regione di accettazione).

82

Page 83: Appunti di Statistica Matematica - people.dm.unipi.itpeople.dm.unipi.it/giuliano/dispensestatisticamatematica.pdf · 1. Modelli statistici (1.1) Esempio di partenza. L’analisi di

(13.3) Osservazione. La funzione p1/p0 si chiama rapporto di verosimiglianza .

Dimostrazione. Sia D∗ un’altra regione critica: integrando rispetto a µ la diseguaglianza

(1D∗ − 1D

)(p1 − Cp0) ≤ 0

(se p1 − Cp0 > 0 (risp. ≤ 0), allora 1D = 1 (risp. 1D = 0)); otteniamo

P 1(D∗)− P 1(D) ≤ C(P 0(D∗)− P 0(D)

).

Da questa diseguaglianza segue che (i) D e ammissibile e che (ii) D e piu potente di D∗ se D∗ halivello P 0(D). Infatti:(i) D e ammissibile se non esiste alcun test D∗ strettamente preferibile. Se per assurdo tale D∗

esistesse, esso sarebbe intanto preferibile a D, e quindi P 0(D∗) ≤ P 0(D) e P 1(D∗) ≥ P 1(D)(ricordare che in generale affinche D∗ sia preferibile a D si deve avere P θ(D∗) ≤ P θ(D) se θ ∈ Θ0,mentre deve valere la diseguaglianza contraria se θ ∈ Θ1). Ma per la diseguaglianza precedente,queste due relazioni sono compatibili se e solo se P 0(D∗) = P 0(D) e P 1(D∗) = P 1(D). DunqueD∗ non puo essere strettamente preferibile a D (perche in almeno uno dei due casi (θ = 0 e θ = 1)dovrebbe valere la diseguaglianza stretta).(ii) Dire che D∗ ha livello α = P 0(D), significa che P 0(D∗) = α = P 0(D) e quindi, per ladiseguaglianza iniziale, si ha P 1(D) ≥ P 1(D∗), cioe la potenza di D non e inferiore alla potenzadi D∗.

(13.4) Osservazione. Si verifica facilmente che il lemma rimane valido anche per C = 0 (e in talcaso D = p1 > 0) oppure per C = +∞, con la convenzione 0 · (+∞) = 0, (e in tal caso si poneD = p0 = 0, P 1 > 0.

Si presenta ora il problema di determinare C. In base al Lemma di N–P., assegnato a priori α ∈(0, 1), il test di regione critica D = p1 > Cp0 sara di livello α se C e tale che P 0(p1 > Cp0) = α,ovvero se, posto per ogni numero reale positivo x, f(x) = P 0(p1 > xp0), esiste una soluzionedell’equazione f(x) = α, (detto in altre parole, se la funzione f : R+ → (0, 1) e surgettiva).In generale questo non succede. Infatti, si vede facilmente che la funzione f e non crescente,continua a destra ed inoltre limx→+∞ f(x) = 0 (verifica per esercizio). Tuttavia f in generalenon e continua, e dunque, se α appartiene ad un intervallo del tipo

(f(x0), limx→x−0

f(x)), con x0

punto di discontinuita di f , la soluzione dell’equazione precedente non esiste. In altre parole, postoC = infx : f(x) ≤ α (la funzione α 7→ infx : f(x) ≤ α si chiama anche inversa generalizzatadi f e quindi, se la indichiamo con il simbolo usuale f−1, si puo scrivere C = f−1(α)), si vedefacilmente che valgono solo le diseguaglianze limx→C− f(x) ≥ α ≥ f(C), e cioe

P 0(p1 ≥ Cp0) ≥ α ≥ P 0(p1 > Cp0).

Ne segue che la condizione (necessaria e sufficiente) affinche l’equazione f(x) = α abbia soluzionee che f sia continua o, equivalentemente (verifica per esercizio) che P (p1 = xp0) = 0 per ogni x.Notiamo per inciso che, se tale condizione e valida e se la funzione f e strettamente decrescente,la soluzione esiste ed e anche unica (a causa della stretta monotonia di f).

83

Page 84: Appunti di Statistica Matematica - people.dm.unipi.itpeople.dm.unipi.it/giuliano/dispensestatisticamatematica.pdf · 1. Modelli statistici (1.1) Esempio di partenza. L’analisi di

Proprio per poter costruire un test che abbia esattamente la taglia desiderata (e anche per potercaratterizzare in modo preciso tutti i test ammissibili nel caso di ipotesi e alternativa semplici) estata costruita la teoria dei test aleatori, di cui ci occuperemo in seguito.

Qui diamo intanto qualche esempio di test deterministici.

(13.5) Esempio. Si vuole verificare se e stato inviato un segnale deterministico noto, funzionedel tempo, s(t), con 0 ≤ t ≤ T , al quale, tuttavia, si sovrappone un rumore aleatorio, anch’essofunzione del tempo, B(t) (cioe il segnale risultante dopo l’invio e U(t) = s(t) + B(t)). A questoscopo, si campiona il segnale in n istanti t1 < t2 < . . . < tn, e poniamo si = s(ti), Bi = B(ti).Supponiamo che le v. a. Bi siano indipendenti e di legge N (0, σ2) (con σ2 noto). Sia poi(U1, U2, . . . , Un) la sequenza degli n segnali ricevuti, e sia H0 l’ipotesi “il segnale e stato effet-tivamente inviato”. Sotto H0, le v. a. Ui sono dunque indipendenti e di legge N (si, σ

2), mentresotto l’alternativa H1 (che significa che il segnale non e stato inviato, e dunque si e ricevuto soloil rumore aleatorio B), le Ui sono ancora indipendenti ma di legge N (0, σ2).

Rispetto alla misura di Lebesgue n−dimensionale, le due verosimiglianze sono rispettivamente

p0(u1, . . . , un) =1

(2π)n/2σnexp

(− 1

2σ2

n∑

i=1

(ui − si)2);

p1(u1, . . . , un) =1

(2π)n/2σnexp

(− 1

2σ2

n∑

i=1

u2i

);

sappiamo inoltre dal lemma di N–P. che le buone regioni critiche sono del tipo (qui λ = 1/C)

Dλ =p0

p1< λ

.

Dato chep0

p1(u1, . . . , un) = exp

[ 1σ2

( n∑

i=1

siui − 12

n∑

i=1

s2i

)],

con qualche conto si vede che

Dλ =

(u1, . . . , un) :n∑

i=1

siui < σ2 log λ +12

n∑

i=1

s2i

=

(u1, . . . , un) :

n∑

i=1

siui < λ

=

ω ∈ Ω :n∑

i=1

siUi(ω) < λ

,

dove ovviamente λ = σ2 log λ + 12

∑ni=1 s2

i . A questo punto, supponendo assegnato il livello α,dobbiamo determinare λ in modo che la nostra regione critica abbia probabilita (sotto P 0) minore

84

Page 85: Appunti di Statistica Matematica - people.dm.unipi.itpeople.dm.unipi.it/giuliano/dispensestatisticamatematica.pdf · 1. Modelli statistici (1.1) Esempio di partenza. L’analisi di

o uguale ad α. D’altra parte, sotto H0 la v.a∑n

i=1 siUi ha legge N( ∑

i s2i , σ

2( ∑

i s2i

))e quindi

la taglia del test e

P 0(Dλ) = P 0( n∑

i=1

siUi < λ)

=1√2π

λ−∑

is2

i

σ

√(∑i

s2i

)

−∞exp

(− x2

2

)dx = Φ

( λ−∑i s2

i

σ√( ∑

i s2i

)),

dove Φ e la funzione di ripartizione della normale standard. λ si trovera dunque (dalle tavole dellanormale standard), imponendo che sia

Φ( λ−∑

i s2i

σ√(∑

i s2i

))≤ α,

e cioe

λ ≤ φασ

√∑

i

s2i +

i

s2i .

Si puo anche calcolare la potenza di questo test. Infatti, sotto l’alternativa H1 la v.a∑n

i=1 siUi ha

legge N(0, σ2

( ∑i s2

i

))e quindi la potenza vale

P 1(Dλ) = P 1( n∑

i=1

siUi < λ)

=1√2π

∫λ

σ

√∑i

s2i

−∞exp

(− x2

2

)dx = Φ

( λ

σ√∑

i s2i

).

Se per esempio vogliamo anche che l’errore di seconda specie sia inferiore a β, dovremo imporreche

1− Φ( λ

σ√∑

i s2i

)≤ β,

ovvero

λ ≥ φ1−βσ

√∑

i

s2i .

Pertanto troviamo per λ le relazioni

φ1−βσ

√∑

i

s2i ≤ λ ≤ φασ

√∑

i

s2i +

i

s2i ,

per cui dovra essere

φ1−βσ

√∑

i

s2i < φασ

√∑

i

s2i +

i

s2i ,

85

Page 86: Appunti di Statistica Matematica - people.dm.unipi.itpeople.dm.unipi.it/giuliano/dispensestatisticamatematica.pdf · 1. Modelli statistici (1.1) Esempio di partenza. L’analisi di

e cioe (φ1−β − φα

)σ <

√∑

i

s2i .

Se vogliamo essere sicuri che la relazione precedente sia valida per ogni (s1, . . . , sn) (anche piccoli),dovremo imporre che φ1−β − φα ≤ 0, da cui β ≥ 1 − α. Ad esempio, se α = 0.05, dovra essereβ = 0.95, il che purtroppo fornisce un errore di seconda specie troppo alto. Dunque questo testnon e soddisfacente nella pratica.

(13.6) Esercizio. Rifare i conti dell’esempio precedente, prendendo come ipotesi H0 : “il segnalenon e stato inviato”. Si trovera che e possibile rendere contemporaneamente bassa la taglia deltest e alta la potenza.

14. Test aleatori: il teorema di Neymann–Pearson.

(14.1) Definizione. Un test per il quale la funzione test e a valori in tutto [0,1] (Φ : Ω → [0, 1])si chiama test aleatorio.

(14.2) Osservazione. In altre parole, in un test aleatorio, se Φ(ω) = p (con p ∈ [0, 1]), allora sirifiuta H0 con probabilita p; in particolare, se p = 0 (risp. p = 1) l’ipotesi viene accettata (risp.rifiutata). Si puo immaginare che la decisione se accettare o meno H0 dipenda dal risultato dellancio (indipendente dall’osservazione) di una moneta (che da “testa”con probabilita p), che portaa decidere H1 se esce “testa”, H0 se esce “croce”.

La funzione costo e la stessa che nel caso di ipotesi e alternativa semplici, e cioe

C(θ, a) =

a se θ ∈ Θ0

1− a se θ ∈ Θ1,

ma con la differenza che adesso a ∈ [0, 1].

Il rischio e

R(θ, Φ) =

Eθ[Φ] se θ ∈ Θ0

1− Eθ[Φ] se θ ∈ Θ1.

Si conserva per i test aleatori tutto il vocabolario usato per i test con ipotesi e alternativa semplici(test preferibile, ammissibile, livello, potenza, etc...). Per quanto ovvio, sottolineiamo il fatto chela taglia di un test Φ di N.–P. vale α = E0[Φ].

Torniamo alla situazione di un modello statistico con due sole probabilita , P 0 e P 1.

(14.3) Definizione. Si chiama test di Neymann–Pearson un test aleatorio per il quale esiste unacostante positiva C tale che Φ valga 1 sull’insieme p1 > Cp0 e 0 sull’insieme p1 < Cp0.

(14.4) Teorema (di Neymann–Pearson).(a) Per ogni α ∈ (0, 1), si possono determinare duecostanti C ≥ 0 e γ ∈ [0, 1] tali che il test (di Neymann–Pearson)

Φ = 1p1>Cp0 + γ1p1=Cp0

86

Page 87: Appunti di Statistica Matematica - people.dm.unipi.itpeople.dm.unipi.it/giuliano/dispensestatisticamatematica.pdf · 1. Modelli statistici (1.1) Esempio di partenza. L’analisi di

abbia taglia α.

(b) Ogni test di Neymann–Pearson Φ e ammissibile (cioe non esistono test strettamente preferibili)e UPP tra i test di taglia E0[Φ].

(c) Condizione necessaria e sufficiente affinche Φ sia di Neymann–Pearson e che, per ogni Φ∗ taleche E0[Φ∗] 6 E0[Φ], si abbia E1[Φ∗] 6 E1[Φ].

(d) Ogni test Φ ammissibile e di Neymann–Pearson.

Dimostrazione. (a) Sia f la funzione definita da f(x) = P 0(p1 > xp0). Abbiamo allora visto (ap. 82) che, posto C = f−1(α) (f−1 inversa generalizzata di f),valgono le diseguaglianze

P 0(p1 ≥ Cp0) ≥ α ≥ P 0(p1 > Cp0),

e che α = P 0(p1 > Cp0) se e solo se P 0(p1 = Cp0) = 0. Un test della forma Φ = 1p1>Cp0 +γ1p1=Cp0 ha taglia

E0[Φ] = P 0(p1 > Cp0) + γP 0(p1 = Cp0),

che, nel caso che P 0(p1 = Cp0) = 0, e uguale ad α , per ogni γ, per quanto detto sopra. Se inveceP 0(p1 = Cp0) 6= 0, la costante γ richiesta e data da

γ =α− P 0(p1 > Cp0)

P 0(p1 = Cp0).

(b) Supponiamo Φ di N.–P.; sia Φ∗ un altro test. Sia C la costante relativa a Φ fornita dalladefinizione (14.3). Si parte dalla diseguaglianza (si dimostra come quella del lemma di N–P)

(Φ∗(ω)− Φ(ω)

)(p1(ω)− Cp0(ω)

) ≤ 0;

integrando rispetto a µ si trova la relazione

E1[Φ∗]− E1[Φ] 6 C(E0[Φ∗]− E0[Φ]

);

si prosegue la dimostrazione come nel lemma di N–P.

(c) Se Φ e di N.–P. e Φ∗ un altro test, la relazione precedente dice che se E0[Φ∗] 6 E0[Φ], alloraE1[Φ∗] 6 E1[Φ].Viceversa, sia Φ un test per il quale vale la condizione enunciata in (c) e poniamo α = E0[Φ].Per il punto (a), esiste un test Φ∗ di N.–P. avente taglia α (in altre parole E0[Φ∗] = E0[Φ]);inoltre Φ∗, essendo di N.–P., soddisfa la condizione enunciata in (c) (per la prima parte di questadimostrazione); dato che E0[Φ] = E0[Φ∗], cio implica che E1[Φ] 6 E1[Φ∗]. D’altra parte peripotesi anche Φ verifica la condizione enunciata in (c), e dunque deve essere anche E1[Φ∗] 6 E1[Φ],e le ultime due diseguaglianze sono compatibili se e solo se E1[Φ∗] = E1[Φ]. Ne deduciamo che,per ogni costante C > 0, si ha

∫(Φ− Φ∗)(p1 − Cp0) dµ =

(E1[Φ]− E1[Φ∗]

)− C(E0[Φ]− E0[Φ∗]

)= 0.

87

Page 88: Appunti di Statistica Matematica - people.dm.unipi.itpeople.dm.unipi.it/giuliano/dispensestatisticamatematica.pdf · 1. Modelli statistici (1.1) Esempio di partenza. L’analisi di

Sia ora C∗ e la costante associata al test Φ∗ (che, ricordiamo, e di N.–P.); sappiamo (relazionedimostrata nel punto (b)) che

(Φ(ω)− Φ∗(ω)

)(p1(ω)− C∗p0(ω)

) ≤ 0;

dunque questa funzione e non positiva e con integrale nullo si Ω e di conseguenza e µ−q.o. nulla;cio significa che sull’evento p1 6= p0 si deve avere Φ = Φ∗, e di conseguenza anche Φ e di N.–P.(esattamente come Φ∗, Φ vale 1 su p1 > C∗p0 e 0 su p1 < C∗p0).(d) Sia Φ ammissibile, e sia Φ∗ un test di N.–P. con taglia α = E0[Φ] (l’esistenza e garantita dalpunto (a)). Dunque E0[Φ] = E0[Φ∗], e di conseguenza R(0,Φ) = R(0, Φ∗). Poiche Φ e ammissibile,non puo accadere che R(1, Φ∗) < R(1,Φ) e cioe dovra essere E1[Φ∗] 6 E1[Φ]. D’altra parte ancheΦ∗ e ammissibile per il punto (b), e quindi sara anche E1[Φ] 6 E1[Φ∗]. Queste due relazionisono compatibili tra loro se e solo se E1[Φ] = E1[Φ∗]. A questo punto si procede come nelladimostrazione del punto (c).

(14.5) Corollario. Se Φ e un test di Neymann–Pearson, allora E1[Φ] ≥ E0[Φ].

Dimostrazione. Poniamo α = E0[Φ], e consideriamo il test Φ∗ ≡ α. Allora, dato che Φ e UPP,si ha

E1[Φ] ≥ E1[Φ∗] = α = E0[Φ].

15. Test unilaterali e bilaterali.

Supponiamo assegnato un modello statistico nel quale l’insieme dei parametri Θ e un intervallo (insenso lato) della retta reale.

(15.1) Definizione. Si chiama test unilaterale un test della forma H0 : θ ≤ θ0 contro H1 : θ > θ0

(dove θ0 e un elemento fissato di Θ).

(15.2) Osservazione. Anche un test del tipo H0 : θ ≥ θ0 contro H1 : θ < θ0 e unilaterale nelsenso della definizione data sopra: basta cambiare il parametro con la trasformazione θ 7→ −θ.

(15.3) Esempio. Il test sul controllo di qualita trattato all’inizio e un test unilaterale.

I test di questo tipo si trattano bene se il modello ha la proprieta seguente.

(15.4) Definizione. Supponiamo il modello dominato da µ. Si dice che la famiglia delle verosimi-glianze e a rapporto di verosimiglianza crescente (risp. decrescente) se esiste una v. a. reale T e, perogni coppia (θ1, θ2), con θ1 < θ2, una funzione crescente (risp. decrescente) fθ1,θ2 : R → [0, +∞]tali che

L(θ2)L(θ1)

= fθ1,θ2(T ), µ− q.o.

Basta ovviamente considerare il caso di rapporto di verosimiglianza crescente: nel caso decrescenteci si riporta all’altro utilizzando la variabile −T al posto di T .

88

Page 89: Appunti di Statistica Matematica - people.dm.unipi.itpeople.dm.unipi.it/giuliano/dispensestatisticamatematica.pdf · 1. Modelli statistici (1.1) Esempio di partenza. L’analisi di

(15.5) Esempi. (a) Per un modello esponenziale con verosimiglianza L(θ) = exp(θT −ψ(θ)

)si ha

L(θ2)L(θ1)

= exp(ψ(θ1)− ψ(θ2)) exp((θ2 − θ1)T

),

e la funzione fθ1,θ2 : x 7→ exp((θ2 − θ1)x

)e crescente.

(b) Sia (X1, . . . , Xn) un campione di legge uniforme su [0, θ], e L(θ) = θ−n1max1≤i≤n Xi≤θ (rispettoalla misura di Lebesgue). Ponendo T = max1≤i≤n Xi, si ha

L(θ2)L(θ1)

=

θn1 θ−n

2 per T ≤ θ1

+∞ per T > θ1.

La funzione

fθ1,θ2 : x 7→=

θn1 θ−n

2 per x ≤ θ1

+∞ per x > θ1

e chiaramente crescente.

(15.6) Osservazione. Come abbiamo appena visto, L(θ1) puo essere nullo, piu precisamentesi pone a/0 = +∞ se a > 0 e 0/0 = qualsiasi valore ci faccia comodo, dato che l’unica cosache interessa e che valga l’uguaglianza L(θ2) = L(θ1)fθ1,θ2(T ). Nell’esempio (b) precedente, seθ1 < T < θ2 si ha L(θ2)/L(θ1) = a/0, con a > 0. Invece se θ2 ≤ T , si ha L(θ2)/L(θ1) = 0/0, e siprende il valore +∞ perche questo e l’unico modo per rendere fθ1,θ2 crescente.

Vogliamo adesso vedere che per un test unilaterale, se il modello e a rapporto di verosimiglianzacrescente, le “buone”regioni critiche sono del tipo T > C o T ≥ C (o qualcosa di intermedio).

(15.7) Lemma. Supponiamo che il modello sia a rapporto di verosimiglianza crescente, e sia

Φ = 1T>C + γ1T=C

(con C ∈ R e 0 ≤ γ ≤ 1). Allora, per ogni θ1 < θ2, Φ e un test di Neymann-Pearson dell’ipotesiH0 : θ = θ1 contro H1 : θ = θ2.

Dimostrazione. Sia C∗ = fθ1,θ2(C); e evidente che(i) se L(θ2)

L(θ1)(ω) = fθ1,θ2(T (ω)) < C∗, allora T (ω) < C e quindi Φ(ω) = 0 (accetto H0);

(ii) se invece L(θ2)L(θ1)

(ω) = fθ1,θ2(T (ω)) > C∗, allora T (ω) > C e quindi Φ(ω) = 1 (respingo H0).

(15.8) Osservazione. Notiamo che puo aversi C∗ = 0 oppure C∗ = +∞; per questo nelladimostrazione del Lemma di N.–P. avevamo preso in considerazione anche questi casi.

(15.9) Osservazione. Per il Corollario (13.5), si ha Eθ2 [Φ] ≥ Eθ1 [Φ], e cioe la funzione θ 7→ Eθ[Φ]e crescente.

(15.10) Teorema. (a) Fissati C ∈ R e 0 ≤ γ ≤ 1, il test aleatorio

Φ = 1T>C + γ1T=C

89

Page 90: Appunti di Statistica Matematica - people.dm.unipi.itpeople.dm.unipi.it/giuliano/dispensestatisticamatematica.pdf · 1. Modelli statistici (1.1) Esempio di partenza. L’analisi di

e un test dell’ipotesi H0 : θ ≤ θ0 contro H1 : θ > θ0, ammissibile, di taglia Eθ0 [Φ] e UPP tra i testdi livello Eθ0 [Φ].(b) Fissato 0 < α < 1, si possono determinare C e γ in modo tale che la taglia di Φ sia esattamenteα.

Dimostrazione. Poiche θ 7→ Eθ[Φ] e crescente, la taglia del test e

supθ≤θ0

Eθ[Φ] = Eθ0 [Φ]

.

Dimostriamo che Φ e UPP e ammissibile. Per il lemma precedente, per ogni θ > θ0 Φ e un testdi N.–P. di ipotesi e alternativa semplici. Dunque, per il Teorema di N.–P., e ammissibile e UPPtra i test di livello Eθ0 [Φ] (il Teorema di N–P richiede il livello E0[Φ], che, in questo caso, per illemma e proprio Eθ0 [Φ]).

(b) Questo punto si dimostra esattamente come nel teorema di N.–P.

(15.11) Osservazione. Il teorema precedente dice che se il modello e a rapporto di verosimiglianzacrescente, le “buone ”regioni critiche sono del tipo T > C (caso γ = 0) oppure T ≥ C (casoγ = 1). Tuttavia e possibile prendere anche un caso intermedio 0 < γ < 1. Questo suggerisce cheuna buona regione critica D sia del tipo T > C ⊆ D ⊆ T ≥ C.

(15.12) Osservazione. Supponiamo di avere una regione critica del tipo T > C, caso γ = 0(oppure T ≥ C, caso γ = 1). Volendo calcolare C in funzione del livello α desiderato, si deverisolvere rispetto a C l’equazione

Eθ0 [Φ] = P θ0(T > C) = 1− P θ0(T ≤ C) = α,

ovveroP θ0(T ≤ C) = 1− α,

quindi bisogna conoscere la legge di T sotto P θ0 . Se, sotto P θ0 , T ha f.d.r. FT continua e stret-tamente crescente (almeno su un intervallo contenuto in R la cui immagine secondo FT sia tuttol’intervallo (0, 1)) l’equazione precedente ha l’unica soluzione C = q1−α, dove q1−α e il quantile diordine 1− α della legge di T (sotto P θ0).

(15.13) Osservazione. (a) Se la famiglia delle verosimiglianze e a rapporto di verosimiglianzadecrescente, si prendono test della forma Φ = 1T<C + γ1T=C.(b) Per un test della forma H0 : θ ≥ θ0 contro H1 : θ < θ0 si prenderanno ancora test della formaΦ = 1T<C + γ1T=C.(c) Non e strettamente necessario che Θ sia un intervallo; ad esempio, se Θ = [0, 1] ∪ [2, +∞), sipuo ugualmente utilizzare il Teorema precedente per il test H0 : θ ≤ 1 contro H1 : θ > 2.

(15.14) Esempio. Consideriamo un campione di taglia n e legge esponenziale di parametro θ ∈(0, +∞), e il test di ipotesi H0 : θ ≤ 1. Allora L(θ) = θn exp

(− θ∑n

i=1 Xi

)1Xi>0,∀ i e

L(θ2)L(θ1)

=

θn2 θ−n

1 exp(− (θ2 − θ1)

∑ni=1 Xi

)se Xi > 0, ∀ i

+∞ altrove

90

Page 91: Appunti di Statistica Matematica - people.dm.unipi.itpeople.dm.unipi.it/giuliano/dispensestatisticamatematica.pdf · 1. Modelli statistici (1.1) Esempio di partenza. L’analisi di

e a rapporto di verosimiglianza crescente in T = −∑ni=1 Xi. Pertanto le buone regioni critiche

sono della forma −

n∑

i=1

Xi > C

= n∑

i=1

Xi < −C

, C < 0.

Calcoliamo la taglia del test, che, per il risultato teorico, e posto a = −C, e data dal numeroP 1

( ∑ni=1 Xi < a

). Sotto P 1, la v. a.

∑ni=1 Xi ha legge Γ(n, 1) e pertanto, integrando per parti,

P 1( n∑

i=1

Xi < a)

=1

(n− 1)!

∫ a

0

xn−1e−x dx =−1

(n− 1)!xn−1e−x

∣∣∣a

0+

1(n− 2)!

∫ a

0

xn−2e−x dx

= . . . = e−a

[− an−1

(n− 1)!− an−2

(n− 2)!− . . .− a

]+ 1.

Se vogliamo fissare il livello α, si deve allora risolvere l’equazione

e−a

[− an−1

(n− 1)!− an−2

(n− 2)!− . . .− a

]+ 1 = α,

che ammette una e una sola soluzione a. La regione critica e cosı determinata.

(15.15) Esempio. Torniamo all’esempio (2.9)(c) e consideriamo il test dell’ipotesi H0 : θ ≥ 0contro H1 : θ < 0. Il rapporto di verosimiglianza

L(θ2)L(θ1)

=(θ2 + 1)n

(θ1 + 1)n

( n∏

i=1

Xi

)θ2−θ1

e crescente, e quindi le buone regioni critiche sono del tipo

n∏

i=1

Xi ≤ C

.

Volendo calcolare C in funzione del livello desiderato α, osserviamo che, sotto P 0, la v. a. − log Xi

e esponenziale di parametro 1, dunque −∑ni=1 log Xi ha legge Γ(n, 1) e quindi si deve risolvere

l’equazione

α = P 0( n∏

i=1

Xi ≤ C)

= P 0(−

n∑

i=1

log Xi ≥ − log C)

= · · ·

(15.16) Esercizio. Esaminare il test H0 : θ ≥ 1/2 contro H1 : θ < 1/2 per un campione di legge(i) di Poisson di parametro θ;(ii) di Bernoulli di parametro θ. Questo secondo caso e quello del controllo di qualita (esempioiniziale).

(15.17) Definizione. Si chiama test bilaterale un test della forma H0 : θ ∈ [θ1, θ2], dove θ1 e θ2

sono due punti interni a Θ (puo accadere che sia θ1 = θ2).

91

Page 92: Appunti di Statistica Matematica - people.dm.unipi.itpeople.dm.unipi.it/giuliano/dispensestatisticamatematica.pdf · 1. Modelli statistici (1.1) Esempio di partenza. L’analisi di

Per i test bilaterali, vale un risultato meno forte del teorema sui test unilaterali visto sopra, e incondizioni molto piu restrittive. Bisogna innanzitutto limitarsi al caso di un modello esponenzialecon verosimiglianza L(θ) = exp

(θT − ψ(θ)

), e bisogna poi supporre che, per ogni x, si abbia

µ(T = x) = 0 (µ misura dominante).

Occorre poi introdurre un’ulteriore

(15.18) Definizione. Un test Φ si dice corretto se la potenza e superiore alla taglia, cioe se,comunque si scelgano θ0 ∈ Θ0 e θ1 ∈ Θ1, si ha Eθ1 [Φ] ≥ Eθ0 [Φ].

(15.19) Osservazione. Abbiamo visto (Corollario (14.5)) che i test di N.–P. sono corretti. Anchei test del teorema (15.10) sono corretti.

Nelle ipotesi sopra precisate, vale il seguente risultato (di cui omettiamo la dimostrazione, alquantocomplessa):

(15.20) Teorema. Assegnato 0 < α < 1, si possono determinare due numeri reali C1 < C2 taliche l’insieme D =

T 6∈ [C1, C2]

sia soluzione del sistema

(i)

P θ1(D) = αP θ2(D) = α

se θ1 6= θ2, oppure del sistema

(ii)

P θ1(D) = α

dP θ(D)dθ

∣∣∣θ=θ1

= 0

se θ1 = θ2.In tal caso il test (deterministico) di regione critica D e un test corretto, di taglia α, dell’ipotesiH0 : θ ∈ [θ1, θ2] contro l’alternativa H1 : θ 6∈ [θ1, θ2], UPP tra i test corretti di livello α.

(15.21) Esempio: test sulla media di un campione gaussiano, con varianza nota.

Sia X1, . . . , Xn un campione di legge N (m, σ2), dove σ2 e un valore noto. La verosimiglianza(rispetto alla misura di Lebesgue n−dimensionale) ha la forma

L(m) =1

(2π)n/2σnexp

(−

∑ni=1(Xi −m)2

2σ2

)

e con qualche calcolo si vede che

L(m2)L(m1)

= c(m1,m2) exp(m2 −m1

σ2· (

n∑

i=1

Xi

))

e quindi e a rapporto di verosimiglianza crescente rispetto alla v. a. X =∑n

i=1Xi

n .

92

Page 93: Appunti di Statistica Matematica - people.dm.unipi.itpeople.dm.unipi.it/giuliano/dispensestatisticamatematica.pdf · 1. Modelli statistici (1.1) Esempio di partenza. L’analisi di

Per un test della forma H0 : m ≤ m0 scegliamo un test (deterministico) di regione critica X > Ccon C tale che Pm0(X > C) = α. Sotto Pm0 , la legge di X e , come sappiamo, la N (m0, σ

2/n), equindi

α = Pm0(X > C) = 1− Pm0(X ≤ C) = 1− Φ(C −m0

σ

√n),

da cuiC −m0

σ

√n = φ1−α,

da cui si ricava facilmente C.

Gli stessi risultati si ottengono scegliendo un test (ancora deterministico) di regione critica X ≥ C(osservando che gli eventi del tipo X = C sono trascurabili rispetto a Pm0).

Per un test bilaterale del tipo H0 : m = m0 contro H1 : m 6= m0, si deve dapprima risolvere in C1

e C2 il sistema

Pm0(X 6∈ [C1, C2]) = α

ddmPm(X 6∈ [C1, C2])

∣∣∣m=m0

= 0.

Notiamo che

Pm(X 6∈ [C1, C2]) = Pm

(X −m

σ√n

6∈[C1 −m

σ√n

,C2 −m

σ√n

])= Φ

(C1 −m

σ√n

)+ 1− Φ

(C2 −m

σ√n

),

(Φ= f.d.r della normale standard). Dunque

d

dmPm(X 6∈ [C1, C2]) = −

√n

σϕ

(C1 −m

σ√n

)+√

n

σϕ

(C2 −m

σ√n

),

(ϕ= densita normale standard). Quindi l’equazione

d

dmPm(X 6∈ [C1, C2])

∣∣∣m=m0

= 0

diventa

ϕ

(C1 −m0

σ√n

)= ϕ

(C2 −m0

σ√n

).

L’equazione ϕ(x) = ϕ(y) ha le soluzioni x = y e x = −y, che per noi significano rispettivamenteC1 = C2 e C1 + C2 = 2m0. La prima di queste relazioni non e utilizzabile (altrimenti sarebbePm0(X 6∈ [C1, C1]) = 1 > α). La seconda equivale a C1 = m0 − C e C2 = m0 + C, con C ∈ R. Aquesto punto si puo determinare C (per mezzo delle tavole della normale standard) dalla relazione

Φ

(C1 −m0

σ√n

)+ 1− Φ

(C2 −m0

σ√n

)= α,

93

Page 94: Appunti di Statistica Matematica - people.dm.unipi.itpeople.dm.unipi.it/giuliano/dispensestatisticamatematica.pdf · 1. Modelli statistici (1.1) Esempio di partenza. L’analisi di

ovvero

2

1− Φ

(Cσ√n

)= α,

che ha la soluzione C = σ√nφ1−α/2

(15.22) Esempio: test sulla varianza di un campione gaussiano, con media nota.

Sia X1, . . . , Xn un campione di legge N (m,σ2), dove m e un valore noto. La verosimiglianza(rispetto alla misura di Lebesgue n−dimensionale) e

L(σ2) =1

(2π)n/2σnexp

(−

∑ni=1(Xi −m)2

2σ2

)

e con qualche calcolo si vede che il rapporto di verosimiglianza si scrive nella forma

L(σ22)

L(σ21)

= exp

(−n log

σ2

σ1+

n∑

i=1

(Xi −m)2( 1

2σ21

− 12σ2

2

))

ed e crescente rispetto alla v. a.∑n

i=1(Xi −m)2. Per un test unilaterale del tipo H0 : σ2 ≤ σ20

scegliamo dunque una regione critica del tipo ∑n

i=1(Xi−m)2 > C, con P σ2

0 ∑n

i=1(Xi−m)2 >

C

= α. Ricordando che la v.a.∑n

i=1(Xi −m)2, sotto Pσ20 ha legge σ2

0 · χ2(n), si trova

α = P σ20

n∑

i=1

(Xi −m)2 > C

= Pσ2

0

∑ni=1(Xi −m)2

σ20

>C

σ20

= 1− F

( C

σ20

),

e quindi, dalle tavole dei quantili della χ2(n), si ottiene

C = σ20 · χ2

1−α(n).

Per un test bilaterale del tipo H0 : σ2 = σ20 , si prende una regione critica della forma

∑ni=1(Xi−

m)2 6∈ [C1, C2], dove per il teorema (14.20), C1 e C2 sono determinate dalle relazioni (α = livellodesiderato)

Pσ20( ∑n

i=1(Xi −m)2 6∈ [C1, C2]) = α,

Cn/21 exp

(− C1

2σ20

)= C

n/22 exp

(− C2

2σ20

),

ma il calcolo effettivo e quasi impossibile.

16. Test in presenza di un parametro fantasma.

Supponiamo che, in un problema di test, Θ sia un prodotto cartesiano della forma Θ = Λ×M , edinoltre che sia Θ0 = Λ0×M , Θ1 = Λ1×M , dove Λ0 e Λ1 sono una partizione di Λ: nel parametrodel modello statistico θ = (λ,m), la componente m si chiama parametro fantasma per il problemadi test indicato, e non e noto.

94

Page 95: Appunti di Statistica Matematica - people.dm.unipi.itpeople.dm.unipi.it/giuliano/dispensestatisticamatematica.pdf · 1. Modelli statistici (1.1) Esempio di partenza. L’analisi di

La teoria generale in questa situazione e piuttosto complicata. Faremo quindi solo due esempi, dilargo impiego.Come regola generale diciamo solo che conviene cercare una statistica la cui legge non dipenda dam (ovviamente) e sia diversa per valori diversi di λ. In questo modo spesso il problema diventasemplice.

(16.1) Esempio: test sulla varianza di un campione gaussiano, con media sconosciuta.

Sia (X1, . . . , Xn) un campione di legge N (m,σ2). Sappiamo che la v. a. T =∑n

i=1(Xi −X)2 halegge σ2 · χ2(n− 1), la cui densita e

fσ2(x) =1

Γ(

n−12

) ·(1

2

)n−12

σ−(n−1)xn−1

2 −1e−x

2σ2 .

Si ha in particolarefσ2

2

fσ21

(x) = c(σ1, σ2) · ex2

(1

σ21− 1

σ22

),

e quindi questo modello e a rapporto di verosimiglianza crescente. Un test unilatero della formaH0 : σ2 ≤ σ2

0 contro H1 : σ2 > σ20 basato sulla statistica T avra pertanto una regione critica del

tipo T > C = ∑ni=1(Xi − X)2 > C, dove C e scelto, in funzione del livello α desiderato, in

modo tale che

P σ20

( n∑

i=1

(Xi −X)2 > C)

= α.

Dato che sotto P σ20 la v. a.

∑n

i=1(Xi−X)2

σ20

ha legge χ2(n− 1) (come sappiamo dal Teorema (8.7),corollario al Teorema di Cochran), si puo scrivere

α = Pσ20

( n∑

i=1

(Xi −X)2 > C)

= Pσ20

(∑ni=1(Xi −X)2

σ20

>C

σ20

)= 1− Fn−1

( C

σ20

),

dove con Fn−1 indichiamo la f. d. r. della legge χ2(n− 1). Si trova dunque C = σ20 · χ2

1−α(n− 1).

(16.2) Esempio: il test di Student (test sulla media di un campione gaussiano, convarianza sconosciuta).

Premettiamo una

(16.3) Definizione. Si chiama legge di Student a n gradi di liberta decentrata di a la legge di unav. a. del tipo

√n

X√Y

,

dove X ha legge N (a, 1), Y ha legge χ2(n), e X e Y sono indipendenti.

(16.4) Osservazione. Si puo verificare (ma i calcoli sono laboriosi) che queste leggi sono a rapportodi verosimiglianza crescente (rispetto al parametro a).

95

Page 96: Appunti di Statistica Matematica - people.dm.unipi.itpeople.dm.unipi.it/giuliano/dispensestatisticamatematica.pdf · 1. Modelli statistici (1.1) Esempio di partenza. L’analisi di

Consideriamo allora un campione di legge N (m,σ2) e il test dell’ipotesi H0 : m ≤ 0 control’alternativa H1 : m > 0; la v. a. T =

√nX

S ha legge di Student a (n − 1) gradi di libertadecentrata di m

σ

√n.

Conviene allora prendere come parametri della legge normale(

mσ , σ2

)invece che (m,σ2). Il test

diventa H0 : mσ ≤ 0 contro l’alternativa H1 : m

σ > 0, e σ2 e un parametro fantasma. Se peroutilizziamo la statistica T , il test e un test unilaterale, di regione critica T > C; per calcolare Cin funzione del livello desiderato α, si tiene presente che se m

σ = 0, T ha legge di Student a (n− 1)gradi di liberta e il valore di C puo essere ricavato con i soliti conti.

Se il test e H0 : m ≤ m0 contro l’alternativa H1 : m > m0, si osserva che, se il campione(X1, . . . , Xn) ha legge N (m,σ2), allora (Y1, . . . , Yn) = (X1 −m0, . . . , Xn −m0) e un campione dilegge N (m−m0, σ

2), e ci si puo ricondurre al caso precedente. Osservando che Y = X −m0 e che

S2Y =

∑ni=1(Yi − Y )2

n− 1=

∑ni=1

((Xi −m0)− (X −m0)

)2

n− 1=

∑ni=1(Xi −X)2

n− 1,

la statistica del test e

T =√

nY

SY=√

n√

n− 1(X −m0)√∑ni=1(Xi −X)2

e si avra cosı una regione critica della forma√

n√

n− 1(X −m0)√∑ni=1(Xi −X)2

> C

.

17. Test del rapporto di verosimiglianza .

Sia H0 : θ = 0 l’ipotesi, H1 : θ = 1 un test ad ipotesi ed alternativa semplici. Abbiamo vistodal lemma di Neymann–Pearson che in questo caso una buona regione critica e p0 < Cp1. Ingenerale,

(17.1) Definizione. Assegnate l’ipotesi H0 : θ ∈ Θ0 contro l’alternativa H1 : θ ∈ Θ1, e suppostoche le due funzioni supθ∈Θ0

L(θ) e supθ∈Θ1L(θ) siano misurabili, si chiama test del rapporto di

verosimiglianza un test di regione critica

supθ∈Θ0

L(θ) < C supθ∈Θ1

L(θ)

.

Se supθ∈Θ1L(θ) e sempre strettamente positiva, allora la regione critica si puo scrivere nella forma

supθ∈Θ0

L(θ)supθ∈Θ1

L(θ)< C

,

e questo spiega il nome di rapporto di verosimiglianza.

96

Page 97: Appunti di Statistica Matematica - people.dm.unipi.itpeople.dm.unipi.it/giuliano/dispensestatisticamatematica.pdf · 1. Modelli statistici (1.1) Esempio di partenza. L’analisi di

(17.2) Osservazione. La giustificazione per la scelta di una regione critica di questo tipo e similea quella che abbiamo dato a suo tempo per i test di Neyman–Pearson: se ad esempio e veral’alternativa, significa che almeno una delle L(θ) con θ ∈ Θ1 e grande, e quindi il supθ∈Θ1

L(θ) egrande, dunque il rapporto di verosimiglianza e piccolo.

(17.3) Osservazione. Se l’ipotesi e semplice (H0 : θ = θ0) e se θ 7→ L(θ, ω) e continua per ogniω ∈ Ω, in molti casi si puo mostrare che la regione critica diventa

L(θ0) < C sup

θ∈ΘL(θ)

e quindi, se si ha a disposizione uno stimatore di massima verosimiglianza θ, essa diventa

L(θ0) < CL(θ)

.

Anche se le proprieta di questo test non sono ben chiare, esso in generale e facile da costruire(come mostra l’osservazione precedente) e porta a delle procedure che si rivelano soddisfacenti inmolti casi particolari; si potrebbe anche mostrare che, sotto opportune condizioni, ha delle buoneproprieta asintotiche.

(17.4) Esempio. Il test di Student (test sulla media di un campione con varianzasconosciuta).

Su un campione di legge N (m,σ2) vogliamo verificare l’ipotesi H0 : m = 0 contro l’alternativaH1 : m 6= 0. Non si tratta di un test bilaterale (perche c’e anche σ); lo diventa se si segue laprocedura gia usata precedentemente nel caso dell’ipotesi H0 : m ≤ 0, ma e piuttosto complicato.

Partiamo allora dalla verosimiglianza rispetto alla misura di Lebesgue n−dimensionale che, a menodella costante moltiplicativa (2π)−n/2 e , come abbiamo visto nell’esempio (2.9)(d)

L(m,σ2; x1, . . . , xn) = exp(−

∑ni=1 x2

i

2σ2+

m(∑n

i=1 xi)σ2

− nm2

2σ2− n log σ

)

per calcolaresup

σ∈R+L(0, σ2), sup

m∈R,σ∈R+L(m,σ2).

Questo si puo fare facilmente utilizzando gli stimatori di massima verosimiglianza che abbiamotrovato a suo tempo (esercizio (8.9)):

supσ∈R+

L(0, σ2) = L

(0,

∑i=1 X2

i

n

)= exp

(− n

2

)·(∑

i=1 X2i

n

)−n/2

;

supm∈R,σ∈R+

L(m,σ2) = L

(X,

∑ni=1(Xi −X)2

n

)= exp

(− n

2

)·(∑n

i=1(Xi −X)2

n

)−n/2

,

97

Page 98: Appunti di Statistica Matematica - people.dm.unipi.itpeople.dm.unipi.it/giuliano/dispensestatisticamatematica.pdf · 1. Modelli statistici (1.1) Esempio di partenza. L’analisi di

e il rapporto di verosimiglianza diventa di conseguenza

supσ∈R+ L(0, σ2)supm∈R,σ∈R+ L(m, σ2)

=(∑n

i=1(Xi −X)2∑i=1 X2

i

)n/2

=

( ∑ni=1(Xi −X)2

∑i=1(Xi −X)2 + nX

2

)n/2

=

n

X√∑

i=1(Xi −X)2

2

+ 1

−n/2

,

e la regione critica e

supσ∈R+ L(0, σ2)

supm∈R,σ∈R+ L(m,σ2)< C

=

n

X√∑

i=1(Xi −X)2

2

+ 1

−n/2

< C

=

|X|√∑i=1(Xi −X)2

> a

,

con a = a(C) opportuno. Per calcolare a ( e di conseguenza C) in funzione del livello α desiderato,osserviamo che

X√∑i=1(Xi −X)2

=1√

n(n− 1)·

√n− 1√∑

i=1(Xi −X)2︸ ︷︷ ︸

=S

·(√n ·X) =1√

n(n− 1)

(√n · X

S

),

e, sotto l’ipotesi H0 : m = 0, la v. a.√

n · XS ha legge di Student a n − 1 gradi di liberta (per

il Corollario al Teorema di Cochran,√

n · X−mS ha legge t(n− 1) e sotto l’ipotesi m = 0 si tratta

appunto della variabile√

n · XS ).

(17.5) Esempio. Sia µθ (0 < θ < +∞) la legge definita su R+, continua rispetto alla misura diLebesgue e di densita e−(x−θ)1[θ,+∞)(x) (puo essere interpretata ad esempio come la durata divita di una lampadina accesa all’istante θ). Consideriamo un campione di taglia n e legge µθ; laverosimiglianza, rispetto alla misura di Lebesgue su Ω = (R+)n, e

L(θ; x1, . . . , xn) =n∏

i=1

e−(xi−θ)1[θ,+∞)(xi) = e−(∑n

i=1xi−nθ

)1[θ,+∞)( min

1≤i≤nxi),

ovvero

L(θ) = e−(∑n

i=1Xi−nθ

)1[θ,+∞)

(min

1≤i≤nXi

).

Consideriamo il test del rapporto di verosimiglianza dell’ ipotesi H0 : θ = 1 contro H1 : θ 6= 1. Laregione critica e

L(1) < C supθ 6=1

L(θ)

.

98

Page 99: Appunti di Statistica Matematica - people.dm.unipi.itpeople.dm.unipi.it/giuliano/dispensestatisticamatematica.pdf · 1. Modelli statistici (1.1) Esempio di partenza. L’analisi di

Per calcolare supθ 6=1 L(θ) si puo fare un calcolo diretto (studio della funzione θ 7→ L(θ)) oppureosservare che lo stimatore di massima verosimiglianza del parametro θ e θ = min1≤i≤n Xi e quindi

supθ 6=1

L(θ) = sup0<θ<+∞

L(θ) = L(θ) = en(min1≤i≤n Xi)−∑n

i=1Xi .

Quindi

L(1)supθ 6=1 L(θ)

=

0 se min1≤i≤n Xi < 1

en(1−min1≤i≤n Xi) se min1≤i≤n Xi ≥ 1 .

La regione critica e

D =

L(1)supθ 6=1 L(θ)

< C

.

Se C = 0 si ha D = ∅; se C > 1 si ha invece D = Ω (perche supθ 6=1 L(θ) = sup0<θ<+∞ L(θ) ≥ L(1)).Quindi ha senso considerare solo il caso 0 < C < 1. In questo caso si ha

D = min1≤i≤n

Xi < 1 ∪ min1≤i≤n

Xi ≥ 1, en(1−min1≤i≤n Xi) < C

= min1≤i≤n

Xi < 1 ∪

min1≤i≤n

Xi > 1 +log C−1

n

.

Si puo calcolare la taglia del test in base al livello conoscendo la legge di min1≤i≤n Xi sotto P 1,che e l’oggetto del seguente

(17.6) Esercizio. Mostrare che sotto P θ la densita di min1≤i≤n Xi e data da

n(e−n(x−θ))1[θ,+∞)(x).

(17.7) Esercizio. Si consideri un campione di legge esponenziale di parametro θ ∈ (0,+∞) e sistudi il test H0 : θ = 1 contro H1 : θ 6= 1 con il metodo dei test bilaterali e con il metodo delrapporto di verosimiglianza.Il primo metodo suggerisce una regione critica della forma ∑n

i=1 Xi ≤ a ∪ ∑ni=1 Xi ≥ b, dove

a e b sono legati dall’equazione an−1e−a = bn−1e−b.Il test del rapporto di verosimiglianza da invece una regione critica della forma ∑n

i=1 Xi ≤ c ∪∑n

i=1 Xi ≥ d, con c e d tali che cne−c = dne−d.

18. Cenni all’Analisi della Varianza (ANOVA)

Supponiamo di avere diversi campioni di legge gaussiana, tra loro indipendenti: X1,1, . . . , X1,n1

campione di taglia n1 e legge N (m1, σ21), X2,1, . . . , X2,n2 campione di taglia n2 e legge N (m2, σ

22)

e cosı via.

Prende il nome di analisi della varianza quella parte della statistica che costruisce dei test perverificare delle ipotesi riguardanti i parametri dei diversi campioni (ad esempio l’uguaglianza delle

99

Page 100: Appunti di Statistica Matematica - people.dm.unipi.itpeople.dm.unipi.it/giuliano/dispensestatisticamatematica.pdf · 1. Modelli statistici (1.1) Esempio di partenza. L’analisi di

medie...). I campioni sono pensati estratti da popolazioni differenti, e l’ANOVA viene impiegataper confrontare tra loro queste popolazioni.

Diciamo subito che si impiegano le leggi normali sia perche in mancanza di ulteriori informazionisono le piu usate in statistica (a causa per esempio del Teorema Limite Centrale), sia perche inipotesi diverse i conti diventano impossibili.

L’ANOVA e un capitolo lungo e molto complicato; qui ci limitiamo ad illustrare due esempi classici.

(18.1) Esempio. Il problema di Behrens–Fisher.

Siano (X1, . . . , Xp) e (Y1, . . . , Yq) due campioni indipendenti di leggi rispettivamente N (m1, σ21)

e N (m2, σ22). Vogliamo costruire un test per l’ipotesi H0 : m1 = m2 contro H1 : m1 6= m2. La

soluzione generale del problema e decisamente difficile. Un caso trattabile (anche se non realistico)e quello in cui σ2

1 = σ22 = σ2 (sconosciuta).

Siano X =∑p

i=1Xi

p e Y =∑q

j=1Yj

q le medie campionarie. Per l’Esercizio (9.9) (iv), la v. a.

Zp,q =√

p + q − 2 · (X − Y )√1p + 1

q ·√∑p

i=1(Xi −X)2 +∑p

i=1(Yi − Y )2

ha legge di Student a (p + q − 2) gradi di liberta decentrata di m1−m2

σ√

1p + 1

q

.

Abbiamo visto per il test di Student che queste leggi sono a rapporto di verosimiglianza crescenterispetto a (m1 − m2). Proprio il test di Student ci suggerisce come proseguire: per il test H0 :m1 ≤ m2 sceglieremo una regione critica del tipo Zp,q > C, per il test H0 : m1 = m2 una regionecritica del tipo |Zp,q| > C.Per calcolare C in funzione del livello desiderato, ricordiamo che, se m1 = m2, Zp,q ha legge diStudent a (p + q − 2) gradi di liberta.

All’esempio successivo premettiamo una

(18.2) Definizione. Si chiama legge di Fisher–Snedecor F (n1, n2) la legge di Z1/n1Z2/n2

, dove Z1 e Z2

sono indipendenti e di leggi rispettive χ2(n1) e χ2(n2).

L’espressione della densita e piuttosto complicata; sono state compilate delle tavole della funzionedi ripartizione. Alcuni autori chiamano legge di Fisher–Snedecor la legge di Z1

Z2e altri quella di di

√Z1√Z2

. Si tratta naturalmente di convenzioni, a cui bisogna fare attenzione al momento di consultarele tavole.

L’esempio che segue e molto generale, ma servira per trattare in maniera concisa il cosiddetto testdi omogeneita.

(18.3) Esempio. Sia X = (X1, . . . , Xn) una v. a. vettoriale di legge Nn(m,σ2In), dove m ∈ E (Esottospazio di Rn di dimensione k < n) e σ qualunque. Consideriamo un sottospazio H di E didimensione r < k ed il test dell’ipotesi H0 : m ∈ H contro l’alternativa H1 : m ∈ E \H.

100

Page 101: Appunti di Statistica Matematica - people.dm.unipi.itpeople.dm.unipi.it/giuliano/dispensestatisticamatematica.pdf · 1. Modelli statistici (1.1) Esempio di partenza. L’analisi di

E conveniente rappresentare X nella forma X = m + Y , dove Y ha legge Nn(0, σ2In). Per ilTeorema di Cochran, i vettori aleatori Y − YE , YE − YH e YH (YE = proiezione di Y su E, YH =proiezione di Y su H) sono indipendenti ed inoltre ||Y−YE ||2

σ2 e ||YE−YH ||2σ2 hanno leggi χ2(n− k) e

χ2(k − r) rispettivamente. Dunque la v. a.

||YE−YH ||2k−r

||Y−YE ||2n−k

ha legge F (k−r, n−k). Dato che m ∈ E, si ha mE = m e quindi X−XE = (Y +m)− (YE +m) =Y −YE . Inoltre XE −XH = YE −YH +(m−mH). Dunque bisognera attendersi che ||XE −XH ||2sia tanto piu grande quanto piu e grande ||m−mH ||2 (alternativa). Questo suggerisce una regionecritica del tipo

||XE−XH ||2

k−r

||X−XE ||2n−k

> C

.

La costruzione che abbiamo fatto e solo intuitiva, ma si potrebbe rendere rigorosa dimostrando

che le leggi delle v.a. Z =||XE−XH ||2

k−r

||X−XE ||2n−k

sono a rapporto di verosimiglianza crescente al crescere di

||m−mH ||.Per calcolare il numero C in funzione del livello desiderato, si tiene presente che, sotto l’ipotesi

(che implica m−mH = 0), Z coincide con||YE−YH ||2

k−r

||Y−YE ||2n−k

, e quindi ha legge F (k − r, n− k).

Le considerazioni precedenti ci serviranno per costruire il test di omogeneita, che e la generaliz-zazione del problema di Behrens–Fisher al caso di piu campioni (ma il caso di due soli campioni sisa risolvere anche senza supporre uguali le varianze).

(18.4) Esempio: il test di omogeneita. siano (X1,1, . . . , X1,n1), . . . . . ., (Xk,1, . . . , Xk,nk) k

campioni indipendenti di legge rispettivamenteN (m1, σ2), . . . . . ., N (mk, σ2) (σ sconosciuta). Con-

sideriamo il test H0 : m1 = m2 = . . . = mk. Indichiamo con X il campione globale (X1,1, . . . , X1,n1 ,. . . . . ., Xk,1, . . . , Xk,nk

) e poniamo

X =

∑i,j Xi,j

n1 + · · ·+ nk, Xi =

∑ni

j=1 Xi,j

ni, i = 1, 2, . . . , k.

La v. a. X e la media campionaria globale (media campionaria di X), mentre la Xi e la mediacampionaria all’interno del gruppo i−esimo (media campionaria di (Xi,1, . . . , Xi,ni)).

La media del vettore X e (m1, . . . ,m1︸ ︷︷ ︸n1volte

,m2, . . . , m2︸ ︷︷ ︸n2volte

, . . . ,mk, . . . ,mk︸ ︷︷ ︸nkvolte

), e quindi appartiene al sot-

tospazio E di dimensione k generato da η1, η2, . . . , ηk, dove

η1 =( 1√

n1,

1√n1

, . . . ,1√n1︸ ︷︷ ︸

n1volte

, 0, 0, . . . , 0, 0), η2 =

(0, 0, . . . , 0︸ ︷︷ ︸

n1volte

,1√n2

,1√n2

, . . . ,1√n2︸ ︷︷ ︸

n2volte

, 0, . . . , 0)

101

Page 102: Appunti di Statistica Matematica - people.dm.unipi.itpeople.dm.unipi.it/giuliano/dispensestatisticamatematica.pdf · 1. Modelli statistici (1.1) Esempio di partenza. L’analisi di

e cosı via.Se l’ipotesi H0 e vera, e posto n1 + n2 + · · · + nk = n, la media di X e (m1, . . . , m1︸ ︷︷ ︸

nvolte

), e quindi

appartiene al sottospazio 1–dimensionale H di E generato dal vettore

η =( 1√

n,

1√n

, . . . ,1√n︸ ︷︷ ︸

n volte

).

Si verifica poi facilmente che

(∗) XE = X1√

n1η1 + · · ·+ Xk√

nkηk; XH = X√

nη.

Infatti la prima eguaglianza segue da

XE =k∑

i=1

〈X, ηi〉ηi =k∑

i=1

〈X, ηi〉√ni

√niηi =

k∑

i=1

Xi√

niηi

perche, per ogni i = 1, 2, . . . , k,

〈X, ηi〉√ni

=1√ni

ni∑

j=1

Xi,j√ni

=ni∑

j=1

Xi,j

ni= Xi.

La seconda eguaglianza si dimostra in modo analogo.Notiamo che le due relazioni in (∗) in modo esplicito significano rispettivamente

XE = (X1, . . . , X1︸ ︷︷ ︸n1volte

, . . . . . . , Xk, . . . , Xk︸ ︷︷ ︸nkvolte

); XH = (X, . . . , X︸ ︷︷ ︸n volte

).

Quindi

X −XE = (X1,1 −X1, . . . , X1,n1 −X1, . . . . . . , Xk,1 −Xk, . . . , Xk,nk−X1);

XE −XH = (X1 −X, . . . , X1 −X︸ ︷︷ ︸n1volte

, . . . . . . , Xk −X, . . . , Xk −X︸ ︷︷ ︸nkvolte

).

Pertanto

||X −XE ||2 =k∑

i=1

ni∑

j=1

(Xi,j −Xi)2; ||XE −XH ||2 =k∑

i=1

ni(Xi −X)2.

(18.4) Osservazione. La quantita ||X −XE ||2 =∑k

i=1

∑ni

j=1(Xi,j −Xi)2 si chiama anche vari-azione interna; si tratta cioe della somma delle variazioni di ogni gruppo attorno alla propria mediacampionaria; ||XE −XH ||2 =

∑ki=1 ni(Xi −X)2 e invece la cosiddetta variazione esterna (cioe la

102

Page 103: Appunti di Statistica Matematica - people.dm.unipi.itpeople.dm.unipi.it/giuliano/dispensestatisticamatematica.pdf · 1. Modelli statistici (1.1) Esempio di partenza. L’analisi di

somma delle variazioni delle medie campionarie dei vari gruppi rispetto alla media campionaria delcampione globale). E naturale considerare anche la variazione totale, che e definita come

||X −XH ||2 =k∑

i=1

ni∑

j=1

(Xi,j −X)2.

Ora i vettori X −XE e XE −XH sono tra loro perpendicolari (i vettori XE e XH appartengono aE, mentre X−XE e perpendicolare a E per definizione di proiezione su E); dunque per il teoremadi Pitagora abbiamo

||X −XH ||2 = ||(X −XE) + (XE −XH)||2 == ||X −XE ||2 + ||XE −XH ||2.

In altre parole

k∑

i=1

ni∑

j=1

(Xi,j −X)2 =k∑

i=1

ni∑

j=1

(Xi,j −Xi)2 +k∑

i=1

ni(Xi −X)2.

Questa formula, nota come formula di Huygens, dice che la variazione totale e la somma dellevariazioni interna ed esterna.

Tornando alla descrizione del test, consideriamo la v. a.

Z =

∑k

i=1ni(Xi−X)2

k−1∑k

i=1

∑ni

j=1(Xi,j−Xi)2

n−k

=||XE−XH ||2

k−1

||XE−XH ||2n−k

,

che sotto l’ipotesi, ha legge F (k−1, n−k) per il teorema di Cochran. Si scegliera un test di regionecritica Z > C, e si determina C con i soliti calcoli.

19. Il modello Bayesiano

Cominciamo ricordando la nozione di “nucleo di transizione” tra due spazi misurabili.

Siano (E, E) e (F,F) due spazi misurabili.

(18.1) Definizione. Si chiama probabilita di transizione (o anche nucleo) di (E, E) su (F,F) unafunzione N(x,A) definita su E ×F e a valori in [0, 1] tale che(i) per ogni fissato A ∈ F , la funzione x 7→ N(x,A) (da (E, E) in [0, 1]) e E−misurabile;(ii) per ogni fissato x ∈ E, la funzione A 7→ N(x, A) (da F in [0, 1]) e una probabilita su (F,F).

Richiamiamo inoltre (senza dimostrazione, che e una semplice estensione del teorema di Fubiniclassico) il

103

Page 104: Appunti di Statistica Matematica - people.dm.unipi.itpeople.dm.unipi.it/giuliano/dispensestatisticamatematica.pdf · 1. Modelli statistici (1.1) Esempio di partenza. L’analisi di

(18.2) Teorema (di Fubini generalizzato). Sia N una probabilita di transizione di (E, E)su (F,F), e P una misura di probabilita su (E, E). Allora(a) per ogni funzione f : E × F → R che sia E ⊗ F−misurabile e limitata, la funzione x 7→∫

Ff(x, y)N(x, dy) e E−misurabile;

(b) esiste una e una sola probabilita Q su E ⊗ F tale che, se f e limitata, valga la formula

∫∫

E×F

f(x, y)Q(dx, dy) =∫

E

P (dx)∫

F

f(x, y)N(x, dy);

(c) la proprieta (a) e la formula (b) rimangono vere per f positiva, non necessariamente limitata;(d) sia f misurabile di segno qualunque; allora f e Q−integrabile se e solo se

∫∫

E×F

|f(x, y)|Q(dx, dy) =∫

E

P (dx)∫

F

|f(x, y)|N(x, dy) < +∞.

In tal caso restano valide per f la proprieta (a) e la formula (b).

(18.3) Definizione. Un modello statistico bayesiano e formato da

(a) Un modello statistico(Ω,F ; (P θ, θ ∈ (Θ, T ))

), nel quale si suppone che l’insieme dei parametri

Θ sia munito di una tribu T e che, fissato A ∈ F , l’applicazione θ 7→ P θ(A) sia misurabile.(b) una misura di probabilita ν su (Θ, T ), chiamata la legge a priori del parametro.

(18.4) Osservazione. La probabilita ν va interpretata come la conoscenza che si ha della situ-azione prima di fare l’indagine statistica.

(18.5) Esempio. Un segnale proviene il 40% delle volte da un’apparecchiatura A1 e per il restante60% delle volte da una seconda apparecchiatura A2. Esso puo essere di due tipi: “lungo” oppure“breve”. E noto che A1 (risp. A2) trasmette un segnale breve il 48% (risp. 63%) delle volte. Inun certo istante viene ricevuto un segnale breve; qual e la probabilita che esso provenga da A1? eda A2?

Consideriamo gli eventiA1 = il segnale proviene daA1;A2 = il segnale proviene daA2;B = il segnale risulta breve;

per essi si ha

P (A1) = 0.40; P (A2) = 0.60; P (B|A1) = 0.48; P (B|A2) = 0.63.

Ci interessa calcolare P (A1|B) e P (A2|B); per la formula di Bayes si ha

P (A1|B) =P (B|A1)P (A1)

P (B|A1)P (A1) + P (B|A2)P (A2)=

0.48× 0.40.48× 0.4 + 0.63× 0.6

= 0.3368,

e di conseguenza P (A2|B) = 1− 0.3368 = 0.6632.

104

Page 105: Appunti di Statistica Matematica - people.dm.unipi.itpeople.dm.unipi.it/giuliano/dispensestatisticamatematica.pdf · 1. Modelli statistici (1.1) Esempio di partenza. L’analisi di

In altre parole: la nostra conoscenza “a priori” (cioe prima dell’invio del segnale) delle probabilitadi A1 e di A2 era P (A1) = 0.40 e P (A2) = 0.60 (conoscenza ricavata in base ad esperienzeprecedenti, “a priori ”appunto); dopo l’invio del segnale abbiamo rivalutato queste probabilitain P (A1|B) = 0.3368 e P (A1|B) = 0.6632 (probabilita “a posteriori”). Con le notazioni delladefinizione precedente, diremo che Ω = B, L, mentre il parametro θ appartiene a Θ = 1, 2(indice dell’apparecchiatura), ed inoltre ν(1) = 0.40, ν(2) = 0.60. La teoria bayesiana si occupa,fra l’altro, dei metodi per calcolare la legge “a posteriori”(in questo esempio si tratta della leggeche assegna a θ = 1 il peso 0.3368 e a θ = 2 il peso 0.6632, dati ottenuti dalla formula di Bayes(di qui il nome della teoria) in base al risultato dell’esperimento. Vedremo fra poco (Es. (18.10))come si formalizza il calcolo fatto sopra.

Torniamo alla definizione generale di modello bayesiano. La funzione (θ, A) 7→ P θ(A) e unaprobabilita di transizione di (Θ, T ) su (Ω,F) (e percio in questo contesto useremo la notazioneP (θ, A) piuttosto che quella solita P θ(A)). Consideriamo allora la probabilita Q su (Θ×Ω, T ⊗F)associata, secondo il Teorema di Fubini generalizzato, alla legge a priori ν e alla probabilita ditransizione P (θ, A); in particolare, vale la relazione

Q(T ×A) =∫∫

Θ×Ω

1T×A Q(dθ, dω) =∫

T

ν(dθ)∫

A

P (θ, dω) =∫

T

ν(dθ)P (θ,A), T ∈ T , A ∈ F .

Indichiamo con T la tribu su Θ×Ω formata dagli insiemi del tipo T ×Ω, con T ∈ T . Osserviamoche una variabile X : Θ×Ω → R e T −misurabile se e solo se X(θ, ω) = V (θ) (cioe X dipende soloda θ) e V e misurabile (dimostrazione per esercizio).

Analogamente si definisce la tribu F su Θ×Ω come la tribu formata dagli insiemi del tipo Θ×A,con A ∈ F , e una variabile X : Θ × Ω → R e F−misurabile se e solo se X(θ, ω) = W (ω), con Wmisurabile.

(18.6) Teorema. Sia X una v. a. limitata definita su(Θ×Ω, T ⊗F , Q

). Vale allora l’uguaglianza

E[X|T ](θ) =∫

Ω

X(θ, ω)P (θ, dω), Q− q.c.

(Ovviamente, in questa formula, la speranza condizionale e calcolata rispetto alla probabilita Q suΘ× Ω).

Dimostrazione. La variabile (θ, ω) 7→ Y (θ, ω) =∫Ω

X(θ, ω)P (θ, dω) e T −misurabile (perchedipende solo da θ e, per il teorema di Fubini generalizzato, la funzione θ 7→ ∫

ΩX(θ, ω)P (θ, dω)

e T −misurabile). Dunque, per definizione di probabilita condizionale, basta provare che su ogniinsieme della forma T × Ω si ha

T×Ω

X dQ =∫

T×Ω

Y dQ.

Infatti, per il teorema di Fubini,∫

T×Ω

X dQ =∫

T

ν(dθ)∫

Ω

X(θ, ω)P (θ, dω);

105

Page 106: Appunti di Statistica Matematica - people.dm.unipi.itpeople.dm.unipi.it/giuliano/dispensestatisticamatematica.pdf · 1. Modelli statistici (1.1) Esempio di partenza. L’analisi di

T×Ω

Y dQ =∫

T

ν(dθ)∫

Ω

Y (θ, ω)P (θ, dω) =∫

T

ν(dθ)∫

Ω

( ∫

Ω

X(θ, ω)P (θ, dω))P (θ, dω) =

=∫

T

ν(dθ)∫

Ω

X(θ, ω)P (θ, dω),

e si ha l’uguaglianza cercata.

Il risultato precedente permette di interpretare la probabilita P θ (definita su (Ω,F)) come la leggecondizionale (su Θ × Ω), noto θ: infatti, se per un certo θ si ha θ ∈ T e ν(θ) > 0, allora, presoA ∈ F , P θ(A) = P (θ, A) e effettivamente una probabilita condizionale:

P θ(A) = P (θ, A) = Q[Θ×A|θ × Ω],

o, con abuso di scritturaP θ(A) = P (θ, A) = Q(A|θ).

Infatti

Q[Θ×A|θ × Ω] =Q

((Θ×A) ∩ (θ × Ω)

)

Q(θ × Ω

) =Q

(θ ×A)

Q(θ × Ω

)

=

∫θ ν(dθ)P (θ, A)∫θ ν(dθ)P (θ, Ω)

=P (θ, A)ν(θ)P (θ, Ω)ν(θ)

= P (θ, A)

Quindi si puo dire che la probabilita di transizione P (θ, A) di (Θ, T ) su (Ω,F) da la probabilita diA, “noto il valore di θ”. Se invece vogliamo “aggiornare”la nostra conoscenza della probabilita apriori ν (cioe del fenomeno che stiamo osservando), “noto il valore di ω”(cioe dopo aver effettuatol’esperimento), abbiamo bisogno di una probabilita di transizione N(ω, T ) di (Ω,F) su (Θ, T ).Diamo allora la seguente

(18.7) Definizione. Supponiamo che esista una probabilita di transizione N(ω, T ) di (Ω,F) su(Θ, T ) tale che, per ogni v.a. X limitata definita su (Θ× Ω, T × F), risulti

E[X|F ](ω) =∫

Θ

X(θ, ω)N(ω, dθ), Q− q.c.

Allora la probabilita N(ω, ·) si chiama legge a posteriori su (Θ, T ) condizionale a ω.

(18.8) Osservazione. Dunque il meccanismo bayesiano e il seguente(a) prima dell’esperimento la legge a priori ν rappresenta la nostra conoscenza del fenomeno;(b) si effettua l’esperimento, che da l’esito ω;(c) la conoscenza del fenomeno e aggiornata passando alla probabilita N(ω, ·).

L’esistenza della legge a posteriori in ipotesi generali e un teorema piuttosto complicato; noi cilimiteremo al caso di un modello dominato, che copre la maggior parte delle applicazioni.

Supponiamo dunque che il modello sia dominato da una misura µ su (Ω,F) e che esista una versionedella verosimiglianza L(θ, ω) = dP θ

dµ (ω) che sia T ⊗ F misurabile (questo garantisce in particolareche θ 7→ P (θ, A) sia T −misurabile).

106

Page 107: Appunti di Statistica Matematica - people.dm.unipi.itpeople.dm.unipi.it/giuliano/dispensestatisticamatematica.pdf · 1. Modelli statistici (1.1) Esempio di partenza. L’analisi di

(18.9) Teorema. Nelle ipotesi sopra enunciate, poniamo

A = ω ∈ Ω :∫

Θ

L(θ, ω)dν(θ) = 0;

M = ω ∈ Ω :∫

Θ

L(θ, ω)dν(θ) = +∞e

g(θ, ω) =

L(θ, ω)∫Θ

L(τ, ω)ν(dτ)se ω ∈ Ac

1 se ω ∈ A

(con la convenzione c/∞ = 0). Allora(a) Θ×A e Q−trascurabile;(b) l’insieme M = ω ∈ Ω :

∫Θ

L(θ, ω)dν(θ) = +∞ e µ−trascurabile;(c) fissato ω ∈ M c, la funzione θ 7→ g(θ, ω) e una densita di probabilita su (Θ, T ) rispetto a ν;(d) La probabilita di transizione definita da

N(ω, T ) =∫

T

g(θ, ω)dν(θ)

e la legge a posteriori su (Θ, T ) condizionale a ω.

Dimostrazione. (a) Si ha, per definizione di verosimiglianza e per il Teorema di Fubini,

Q(Θ×A) =∫

Θ

dν(θ)P (θ, A) =∫

Θ

dν(θ)∫

A

P (θ, dω) =∫

Θ

dν(θ)∫

A

L(θ, ω)dµ(ω)

=∫

A

dµ(ω)∫

Θ

L(θ, ω)dν(θ) = 0,

per la definizione di A.(b) E ovvio perche

Ω

µ(dω)∫

Θ

L(θ, ω)ν(dθ) =∫

Θ

ν(dθ)∫

Ω

L(θ, ω)µ(dω)︸ ︷︷ ︸∫

ΩP (θ,dω)=1

=∫

Θ

ν(dθ) = 1 < +∞.

(c) Dobbiamo provare che, fissato ω ∈ M c, si ha g(θ, ω) ≥ 0 (questo e ovvio) ed inoltre risulta∫Θ

g(θ, ω)ν(dθ) = 1. Ora, se ω ∈ Ac, si ha

Θ

g(θ, ω)dν(θ) =∫

Θ

L(θ, ω)∫Θ

L(τ, ω)dν(τ)ν(dθ) = 1;

se ω ∈ A ∫

Θ

g(θ, ω)dν(θ) =∫

Θ

1dν(θ) = 1.

107

Page 108: Appunti di Statistica Matematica - people.dm.unipi.itpeople.dm.unipi.it/giuliano/dispensestatisticamatematica.pdf · 1. Modelli statistici (1.1) Esempio di partenza. L’analisi di

(d) Osserviamo prima di tutto che ω 7→ N(ω, T ) e misurabile (per Fubini, dato che e l’integraledi una funzione misurabile). Inoltre T 7→ N(ω, T ) e una probabilita (N(ω, Θ) =

∫Θ

g(θ, ω)dν(θ)= 1 per il punto (c)). Dunque N(ω, T ) e effettivamente una probabilita di transizione (di (Ω,F)su (Θ, T )).Per vedere che si tratta effettivamente della legge a posteriori, in base alla definizione (18.7)dobbiamo far vedere che, se X e una v. a. limitata definita su (Θ× Ω, T × F), e posto

V (ω) =∫

Θ

X(θ, ω)g(θ, ω)ν(dθ) =

Θ

X(θ, ω)L(θ, ω)∫

ΘL(τ, ω)ν(dτ)

ν(dθ) se ω ∈ Ac

Θ

X(θ, ω)ν(dθ) se ω ∈ A ,

su ogni insieme della forma Θ×B si ha∫∫

Θ×B

X dQ =∫∫

Θ×B

V dQ.

Infatti, per la definizione di Q e per il punto (a), si ha∫∫

Θ×B

X dQ =∫∫

Θ×(B∩Ac)

X dQ =∫

Θ

ν(dθ)∫

B∩Ac

X(θ, ω)P (θ, dω)

=∫

Θ

ν(dθ)∫

B∩Ac

X(θ, ω)L(θ, ω)µ(dω);

d’altra parte∫∫

Θ×B

V dQ =∫∫

Θ×(B∩Ac)

V dQ =∫

Θ

ν(dθ)∫

B∩Ac

V (ω)P (θ, dω)

=∫

Θ

ν(dθ)∫

B∩Ac

V (ω)L(θ, ω)µ(dω)

=∫

Θ

ν(dθ)∫

B∩Ac

(∫

Θ

X(s, ω)L(s, ω)∫

ΘL(τ, ω)ν(dτ)

ν(ds))

L(θ, ω)µ(dω)

=∫

Θ

ν(ds)∫

B∩Ac

X(s, ω)L(s, ω)µ(dω)

∫Θ

L(θ, ω)ν(dθ)∫Θ

L(τ, ω)ν(dτ)=

Θ

ν(ds)∫

B∩Ac

X(s, ω)L(s, ω) µ(dω).

D’ora in avanti indicheremo con νω la legge a posteriori su (Θ, T ) condizionale a ω; come abbiamoappena visto, nelle ipotesi in cui ci siamo posti (modello dominato) essa e assolutamente continuarispetto a ν, di densita

dνω

dν= g(θ, ω) =

L(θ, ω)∫Θ

L(τ, ω)ν(dτ)se

∫Θ

L(θ, ω)ν(dθ) 6= 0;

1 se∫Θ

L(θ, ω)ν(dθ) = 0.

(18.10) Esempio. Riprendiamo l’esempio (18.5). Abbiamo gia detto che Θ = 1, 2, ν(1) = 0.40e ν(2) = 0.60; inoltre avevamo Ω = B,L; per motivi di notazione ora scriviamo ω′ al posto di

108

Page 109: Appunti di Statistica Matematica - people.dm.unipi.itpeople.dm.unipi.it/giuliano/dispensestatisticamatematica.pdf · 1. Modelli statistici (1.1) Esempio di partenza. L’analisi di

B e ω′′ al posto di L, quindi Ω = ω′, ω′′. Le quantita P (ω′|A1), P (ω′|A2), P (ω′′|A1) e P (ω′′|A2)sono da interpretare come i valori della verosimiglianza L: precisamente, se prendiamo come misuradominante su Ω la misura µ che conta i punti, si ha

L(1, ω′) =dP 1

dµ(ω′) = P (ω′|A1) = 0.48; L(2, ω′) =

dP 2

dµ(ω′) = P (ω|A2) = 0.63;

L(1, ω′′) =dP 1

dµ(ω′′) = P (ω′′|A1) = 0.52; L(2, ω′′) =

dP 2

dµ(ω′′) = P (ω′′|A2) = 0.37.

La legge a posteriori e assolutamente continua rispetto a ν con densita

g(θ, ω) =L(θ, ω)

L(1, ω)ν(1) + L(2, ω)ν(2) , (θ, ω) ∈ 1, 2 × ω′, ω′′.

In altre parole

N(ω′, 1) =L(1, ω′)

L(1, ω)ν(1) + L(2, ω)ν(2) · ν(1) =0.48

0.48× 0.4 + 0.63× 0.6× 0.4 = 0.3368,

e questo e il calcolo che abbiamo fatto in precedenza per ottenere P (A1|B). In modo simile pergli altri valori.

19. Il formalismo decisionale; decisione bayesiana

Anche se non rappresenta tutti gli aspetti della statistica, il formalismo decisionale e abbastanzaintuitivo ed ha permesso degli sviluppi matematici rigorosi. Diciamo subito che le definizioni usualidella teoria degli stimatori e dei test possono essere ricondotte al formalismo decisionale.

Lo statistico osserva un fenomeno la cui legge dipende da un parametro θ ∈ Θ, con lo scopo diintraprendere un’azione a ∈ A (A (insieme delle azioni possibili) e un insieme di oggetti, che disolito sono numeri ma teoricamente possono essere anche altro, se necessario). La scelta dell’azionea porta come conseguenza un costo (o perdita) C(θ, a) ≥ 0 dipendente dal parametro θ.

Lo statistico effettua un esperimento, formalizzato con un modello statistico(Ω,F ; (P θ, θ ∈ Θ)

),

e la sua decisione dipendera naturalmente dal risultato ω, cioe

(19.1) Definizione. Una regola decisionale e una funzione δ : Ω → A. Si chiama funzione costo(della regola δ) la funzione ω → C(θ, δ(ω)).

Supporremo sempre che A sia munito di una tribu A, e che le funzioni δ : ω 7→ δ(ω) e a → C(θ, a)siano misurabili. In queste ipotesi, la funzione costo e una variabile aleatoria non negativa.

(19.2) Esempio. Uno stimatore, cosı come lo abbiamo definito a suo tempo, e una regola de-cisionale. In questo caso l’insieme delle azioni e l’aperto D che compare nella definizione (3.1).Abbiamo notato a suo tempo che un test non e altro che uno stimatore (Oss.(11.5)). Dunque anchela nozione di test puo essere ricondotta al formalismo decisionale.

Nella statistica classica si definisce rischio della regola decisionale δ la speranza della sua funzionecosto, e precisamente

R(θ, δ) = Eθ[C(θ, δ)]

109

Page 110: Appunti di Statistica Matematica - people.dm.unipi.itpeople.dm.unipi.it/giuliano/dispensestatisticamatematica.pdf · 1. Modelli statistici (1.1) Esempio di partenza. L’analisi di

(in realta noi abbiamo dato questa definizione solo per gli stimatori (e di conseguenza per i test),ma come si vede subito la definizione e identica per ogni regola decisionale). Lo scopo e poi quello diminimizzare il rischio, come accadeva per gli stimatori, ma dovendo tener conto del fatto che su Θora abbiamo una probabilta ν, avremo bisogno di minimizzare rispetto a δ non R(θ, δ) a θ fissato,ma il suo integrale rispetto a ν; in altre parole dovremo trovare una regola decisionale δ tale che∫Θ

R(θ, δ)ν(dθ) 6∫Θ

R(θ, δ)ν(dθ) per ogni δ.

Nel contesto bayesiano si procede dunque come segue. Sia ρ una generica misura di probabilita su(Θ, T ) (per il momento ρ non e necessariamente la legge a priori di cui abbiamo parlato nel para-grafo precedente). Si cerca di minimizzare la perdita media (definita da

∫Θ

C(θ, a)dρ(θ)) rispettoal parametro a (occorre naturalmente supporre che la funzione θ 7→ (C(θ, a)) sia misurabile, con-dizione che e sempre verificata nelle applicazioni). Si da cioe la

(19.3) Definizione. Si chiama rischio bayesiano (relativo a ρ) il numero

infa∈A

Θ

C(θ, a)dρ(θ).

Inoltre

(19.4) Definizione. Se esiste a ∈ A tale che∫Θ

C(θ, a)dρ(θ) = infa∈A

∫Θ

C(θ, a)dρ(θ), a sichiama decisione bayesiana relativa a ρ. In altre parole in questo modo si definisce una funzioned : ρ 7→ a = d(ρ).

Il meccanismo decisionale bayesiano consiste allora nel considerare come regola decisionale la regolaω 7→ d(νω) (ammesso che esista), dove νω e la legge a posteriori condizionale a ω di cui abbiamoparlato nel paragrafo precedente.

La bonta di questa procedura e espressa dal risultato seguente:

(19.5) Teorema. Sia(Ω,F ; (P θ, θ ∈ (Θ, T ))

)un modello statistico dominato, con verosimiglianza

L(θ, ω), e sia ν la legge a priori su (Θ, T ). Supponiamo che, per ogni ω, esista una decisionebayesiana d(νω) e che la funzione ω 7→ d(νω) sia misurabile. Allora, per ogni altra regola didecisione δ, si ha ∫

Θ

R(θ, δ)ν(dθ) ≥∫

Θ

R(θ, d(ν¦))ν(dθ).

Dimostrazione. Sia A l’insieme definito nel Teorema (18.9); ricordiamo che Θ×A e Q−trascu-

110

Page 111: Appunti di Statistica Matematica - people.dm.unipi.itpeople.dm.unipi.it/giuliano/dispensestatisticamatematica.pdf · 1. Modelli statistici (1.1) Esempio di partenza. L’analisi di

rabile. Per la definizione di Q si ha allora

Θ

R(θ, δ)ν(dθ) =∫

Θ

ν(dθ)(∫

Ω

C(θ, δ(ω))P (θ, dω))

=∫∫

Θ×Ω

C(θ, δ(ω))Q(dθ, dω)

=∫∫

Θ×(Ω∩Ac)

C(θ, δ(ω))Q(dθ, dω) =∫

Θ

ν(dθ)(∫

Ω∩Ac

C(θ, δ(ω))P (θ, dω))

=∫

Θ

ν(dθ)(∫

Ω∩Ac

C(θ, δ(ω))L(θ, ω)µ(dω))

=∫

Ω∩Ac

µ(dω)(∫

Θ

ν(dθ)C(θ, δ(ω))L(θ, ω))

=∫

Ω∩Ac

µ(dω)(∫

Θ

L(τ, ω)ν(dτ))(∫

Θ

ν(dθ)C(θ, δ(ω))L(θ, ω)∫

ΘL(τ, ω)ν(dτ)

)

=∫

Ω∩Ac

µ(dω)(∫

Θ

L(τ, ω)ν(dτ))(∫

Θ

C(θ, δ(ω))νω(dθ))

≥∫

Ω∩Ac

µ(dω)(∫

Θ

L(τ, ω)ν(dτ))(∫

Θ

C(θ, d(νω))νω(dθ))

,

e, con gli stessi calcoli, si vede che quest’ultima quantita e uguale a

Θ

R(θ, d(ν¦))ν(dθ).

(19.6) Osservazione. Per le regole di decisione si possono dare le definizioni di preferibile, stret-tamente preferibile e ammissibile esattamente come per gli stimatori. La decisione bayesiana eammissibile (in senso classico), sotto diverse ipotesi facili da verificare, per esempio:(i) se Θ e un aperto di Rk, il supporto di ν e tutto Θ (cioe non esistono sottoinsiemi aperti (ochiusura di un aperto) non vuoti di Θ che siano trascurabili rispetto a ν e, per ogni regola didecisione δ, la funzione θ 7→ R(θ, δ) e continua.

Infatti, se d(ν¦) non fosse ammissibile, esisterebbe una regola di decisione δ strettamente preferibilea d(ν¦), cioe tale che

R(θ, δ) ≤ R(θ, d(ν¦)), ∀ θ;

R(θ, δ) < R(θ, d(ν¦)), per almeno un θ.

Ma in tal caso, per motivi di continuita, la diseguaglianza stretta sarebbe verificata per ogni θ inun intorno U di θ, con ν(U) > 0, e quindi la tesi del teorema precedente, cioe

Θ

R(θ, δ)ν(dθ) ≥∫

Θ

R(θ, d(ν¦))ν(dθ),

sarebbe falsa.(ii) Se Θ e numerabile e nessun punto di Θ e ν−trascurabile (verifica per esercizio, e simile a quelladel punto precedente).

111

Page 112: Appunti di Statistica Matematica - people.dm.unipi.itpeople.dm.unipi.it/giuliano/dispensestatisticamatematica.pdf · 1. Modelli statistici (1.1) Esempio di partenza. L’analisi di

(19.7) Osservazione. Se T e una statistica esaustiva, si ha L(θ, ω) = h(ω)gθ(T (ω)) e di con-seguenza

dνω

dν(θ) =

gθ(T (ω))∫Θ

gτ (T (ω)) dν(τ)

e σ(T )−misurabile. Dunque si puo sostituire il risultato dell’esperimento (cioe ω) con l’osservazionedella statistica T (ω). Inoltre, in genere d(νω) e σ(T )−misurabile.

20. Stimatori bayesiani

Sia g : Θ 7→ R misurabile e limitata. Vogliamo stimare la quantita g(θ); per questo porremo A = Re utilizzeremo il costo C(θ, a) = (g(θ) − a)2. La procedura bayesiana illustrata precedentementerichiede per prima cosa che, per ogni probabilita ρ su Θ, si cerchi (se esiste) a = d(ρ) che minimizzala quantita

∫Θ(g(θ)− a)2ρ(dθ).

(20.1) Lemma. Se∫Θ

g2(θ)ρ(dθ) < +∞ (non necessariamente limitata), allora

Θ

(g(θ)− a)2ρ(dθ) ≥∫

Θ

(g(θ)− a)2ρ(dθ),

dove a =∫Θ

g(θ)ρ(dθ) = d(ρ).

Dimostrazione. Infatti∫

Θ

(g(θ)− a)2ρ(dθ) =∫

Θ

((g(θ)− a) + (a− a)

)2ρ(dθ)

=∫

Θ

(g(θ)− a)2ρ(dθ) + (a− a)2 + 2(a− a)∫

Θ

(g(θ)− a)ρ(dθ) =∫

Θ

(g(θ)− a)2ρ(dθ) + (a− a)2

≥∫

Θ

(g(θ)− a)2ρ(dθ).

Il Lemma precedente dice dunque che lo stimatore bayesiano della funzione g(θ) e

T (ω) := d(νω) =∫

Θ

g(θ)νω(dθ) =

∫Θ

g(θ)L(θ, ω)ν(dθ)∫Θ

L(θ, ω)ν(dθ)se

∫Θ

L(θ, ω)ν(dθ) 6= 0

∫Θ

g(θ)ν(dθ) se∫Θ

L(θ, ω)ν(dθ) = 0.

Notiamo che, per il Teorema (18.9), si ha l’uguaglianza T (ω) = E[g|F ](ω) Q−q.c.: infatti

E[g|F ](ω) =︸︷︷︸def.(18.7)

Θ

g(θ)N(ω, dθ) =︸︷︷︸Teor.(18.9)

Θ

g(θ)L(θ, ω)∫

ΘL(τ, ω)ν(dτ)

ν(dθ) = T (ω).

Questo fatto permette quindi di interpretare lo stimatore di g(θ) in termini di speranza con-dizionale; questa interpretazione e utile nel risultato che segue, che dice che, tranne che in casibanali, gli stimatori bayesiani non sono mai corretti: ved. oss. (20.3).

112

Page 113: Appunti di Statistica Matematica - people.dm.unipi.itpeople.dm.unipi.it/giuliano/dispensestatisticamatematica.pdf · 1. Modelli statistici (1.1) Esempio di partenza. L’analisi di

(20.2) Teorema. Sia T lo stimatore bayesiano di g(θ). Se T e corretto, allora

∫∫

Θ×Ω

∣∣T (ω)− g(θ)∣∣2dQ = 0.

Dimostrazione.Consideriamo la variabile X(θ, ω) = T (ω)− g(θ) come elemento di L2(Θ× Ω, T ⊗ F , Q). Si ha

E[X|F ] = E[T |F ]−E[g|F ] = 0,

perche E[g|F ] = T come detto sopra, dunque T e F−misurabile e quindi E[T |F ] = T = E[g|F ].Pertanto X e ortogonale (in L2(Θ×Ω, T ⊗ F , Q)) ad ogni funzione V che sia F−misurabile. Infatti

E[XV ] = E[E[XV |F ]

]= E

[V E[X|F ]

]= 0.

D’altra parte, anche E[X|T ](θ) = 0, perche (θ, ω) 7→ g(θ) e T −misurabile (per definizione dellatribu T ) e, per il Teorema (18.6),

E[T |T ](θ) =∫

Ω

T (ω)P (θ, dω) = Eθ[T ] = g(θ)

perche T e corretto per ipotesi. Dunque E[X|T ](θ) = g(θ)− g(θ) = 0. Quindi X e ortogonale (inL2(Θ× Ω, T ⊗ F , Q)) anche ad ogni funzione W che sia T −misurabile.Allora X e ortogonale anche a se stesso, perche e somma di (θ, ω) 7→ g(θ) (che e T −misurabile) edi (θ, ω) 7→ −T (ω) (che e F−misurabile). Dunque ha norma nulla in L2(Θ× Ω, T ⊗ F , Q).

(20.3) Osservazione. Notiamo che∫∫

Θ×Ω

∣∣T (ω)− g(θ)∣∣2dQ =

Θ

ν(dθ)∫

Ω

∣∣T (ω)− g(θ)∣∣2dP θ(ω).

Quindi, se T e corretto, per il risultato precedente esiste un N ∈ T con ν(N) = 0 e tale che perogni θ ∈ N c l’insieme Bθ = ω ∈ Ω : T (ω) 6= g(θ) e P θ−trascurabile. Se (i) le probabilita P θ

sono tutte equivalenti, (ii) N c contiene almeno due elementi e (iii) g non e costante su N c, questonon e possibile; infatti, siano θ0 e θ1 due elementi di N c tali che g(θ0) 6= g(θ1). Allora

P θ0

(ω ∈ Ω : T (ω) = g(θ1)

)6 P θ0

( ⋃

θ:g(θ) 6=g(θ0)

ω ∈ Ω : T (ω) = g(θ))

= P θ0(Bθ0

)= 0,

e quindiP θ0

(ω ∈ Ω : T (ω) = g(θ1)

)= 0;

di conseguenza, dato che le P θ sono tutte equivalenti, si ha anche

0 = P θ1

(ω ∈ Ω : T (ω) = g(θ1)

)= 1− P θ1

(ω ∈ Ω : T (ω) 6= g(θ1)

)= 1− P θ1(Bθ1).

113

Page 114: Appunti di Statistica Matematica - people.dm.unipi.itpeople.dm.unipi.it/giuliano/dispensestatisticamatematica.pdf · 1. Modelli statistici (1.1) Esempio di partenza. L’analisi di

Ma questo non e possibile, perche P θ(Bθ1) = 0.

(20.4) Osservazione. I risultati enunciati restano validi se g, anziche essere limitata, e di quadratointegrabile per ogni legge a posteriori νω, e anche se g e a valori vettoriali (cioe g : Θ → Rk) e siimpone C(θ, a) = ||g(θ)− a||2.

(20.5) Esempio. Sia (X1, . . . , Xn) un campione di legge geometrica di parametro θ ∈ Θ = (0, 1).Come legge a priori su Θ prendiamo la misura di Lebesgue. La verosimiglianza e

L(θ; k1, . . . , kn) = θn(1− θ)∑n

i=1ki−n

e dunque lo stimatore bayesiano di g(θ) = θ e

T (k1, . . . , kn) =

∫ 1

0θn+1(1− θ)

∑n

i=1ki−n dθ

∫ 1

0θn(1− θ)

∑n

i=1ki−n dθ

.

Ricordiamo che Γ(n) = (n− 1)! per n intero e che

B(α, β) =∫ 1

0

θα−1(1− θ)β−1 dθ =Γ(α)Γ(β)Γ(α + β)

, α > 0, β > 0.

Dunque ∫ 1

0

θn(1− θ)m dθ =Γ(n + 1)Γ(m + 1)

Γ(n + m + 2)=

n! m!(m + n + 1)!

;

ricaviamo pertanto l’espressione

T = T (X1, . . . , Xn) =n + 1∑n

i=1 Xi + 2.

Questo stimatore e molto simile allo stimatore di massima verosimiglianza, che risulta essere

θ =n∑n

i=1 Xi

(verifica per esercizio).

(20.6)Esempio. Sia (X1, . . . , Xn) un campione di legge esponenziale di parametro θ ∈ Θ = (0, +∞)e prendiamo come legge a priori su Θ la probabilita ν(dθ) = ae−aθdθ con a > 0 (questa legge eassegnata essenzialmente per rendere possibili i conti). Lo stimatore bayesiano di g(θ) = θ e

T =

∫ +∞0

θn+1e−θ(∑n

i=1Xi+a)dθ

∫ +∞0

θne−θ(∑n

i=1Xi+a)dθ

.

Dato che ∫ +∞

0

θne−θb dθ =n!

bn+1,

114

Page 115: Appunti di Statistica Matematica - people.dm.unipi.itpeople.dm.unipi.it/giuliano/dispensestatisticamatematica.pdf · 1. Modelli statistici (1.1) Esempio di partenza. L’analisi di

ne segue che

T = T (X1, . . . , Xn) =n + 1∑n

i=1 Xi + a.

Di nuovo, questo stimatore e molto simile allo stimatore di massima verosimiglianza, che e

θ =n∑n

i=1 Xi

(ved. esempio (7.3)).

—————————————o—————————————Nel seguito ci interssera il concetto mediana, di cui ora parleremo brevemente. Alcuni testi definis-cono la mediana di ν come un numero reale m tale che ν

((−∞, m]

)= ν

([m,+∞)

)= 1

2 . Espri-mendoci in termini della funzione di ripartizione F di ν, una mediana e un valore m tale cheF (m) = F (m−)(:= limt→m− F (t)) = 1

2 . Da queste relazioni segue che nel punto m la funzione Fdeve essere continua (e deve valere l’uguaglianza F (m) = 1

2 ). Dunque e facile capire che con questadefinizione, una mediana puo non esistere, e questo non e soddisfacente (un esempio semplice equello della legge ν tale che ν(0) = ν(1) = ν(2) = 1

3 . Sarebbe naturale dire che la medianadi questa legge e il numero m = 1, ma tale valore non rispetta la definizione data sopra). Allorauna migliore definizione e la seguente

(20.7) Definizione. Si chiama mediana della legge di probabilita ν un punto m tale cheν((−∞,m]

) ≥ 12 e ν

([m,+∞)

) ≥ 12 . In termini di F , una mediana m verifica le condizioni

F (m−) ≤ 12 ≤ F (m).

E facile dimostrare che, con questa definizione, una mediana esiste sempre. Tuttavia la mediananon sempre e unica. Ad esempio la legge di densita

f(x) =

1 per 0 ≤ x ≤ 12 oppure per 1 ≤ x ≤ 3

20 altrove

ha come mediana ogni valore m con 12 ≤ m ≤ 1.

In generale, non e difficile vedere che l’insieme delle mediane di una legge ν e un intervallo chiusonon vuoto [m0,m1]. (Suggerimento: porre m0 = supx ∈ R : F (x) < 1

2, m1 = supx ∈ R :F (x) ≤ 1

2.Si capisce che la mediana m e un “indice di centralita ”della legge ν, come la media µ. Dunqueuna domanda naturale e quali relazioni intercorrano tra µ e m. E immediato vedere che µ = mper ogni legge simmetrica. In generale pero media e mediana possono essere differenti (trovareesempi). Tuttavia

(20.8) Esercizio. Dimostrare che la media µ, ogni mediana m e la varianza σ2 di una legge λverificano la diseguaglianza |µ−m| ≤ σ.

Soluzione (di Dario Trevisan). Sia X una v.a. definita sullo spazio di probabilita (Ω,F , P ) eavente legge λ. Facciamo vedere innanzitutto che

115

Page 116: Appunti di Statistica Matematica - people.dm.unipi.itpeople.dm.unipi.it/giuliano/dispensestatisticamatematica.pdf · 1. Modelli statistici (1.1) Esempio di partenza. L’analisi di

(i) infa∈R

E[|X − a|] = E

[|X −m|];

(ii) infa∈R

E[|X − a|2] = E

[|X − µ|2] = σ2.

(i) Senza perdere in generalita, si puo supporre che m = 0 (ponendo Y = X−m e a′ = a−m, bastadimostrare che infa′∈RE

[|Y − a′|] = E[|Y |]); basta inoltre dimostrare che infa<0 E

[|Y − a|] =E

[|Y |] (dato che infa>0 E[|Y −a|] = infa>0 E

[|(−Y )−(−a)|] = infa<0 E[|(−Y )−a|] = E

[|−Y |] =E

[|Y |]). Per a < 0 e per x ∈ R vale la diseguaglianza (facile da dimostrare)

|x| 6 |x− a|+ a(1[0,+∞)(x)− 1(−∞,0)(x)

).

Sostituiamo Y (ω) al posto di x; osservando che 1[0,+∞)(Y (ω)) = 1Y >0(ω) e 1(−∞,0)(Y (ω)) =1Y <0(ω) si ottiene

|Y | 6 |Y − a|+ a(1Y >0 − 1Y <0

);

passando infine alla speranza si trova

E[|Y |] 6 E

[|Y − a|] + a(P (Y > 0)− P (Y < 0)

)6 E

[|Y − a|]

perche a < 0 e P (Y > 0)− P (Y < 0) = P (Y > m)− P (Y < m) > 0 per la definizione di mediana(ricordare che m = 0 nel nostro caso).

(ii) La dimostrazione di questa seconda relazione e identica a quella del Lemma (20.1): bastasostituire in esso lo spazio (Θ, T , ν) con lo spazio (Ω,F , P ) e la funzione misurabile θ 7→ g(θ) conla v.a. ω 7→ X(ω).

Possiamo ora provare la diseguaglianza |µ − m| 6 σ. Posto α = E[(X − m)+

]> 0 e β =

E[(X −m)−

]> 0, l’asserto risulta dalla catena di relazioni

|µ−m| =∣∣E[

(X −m)]∣∣ = |α− β| 6 α + β = E

[|X −m|] = infa

E[|X − a|] 6 inf

a

√E

[|X − a|2]

= σ.

—————————————o—————————————

Torniamo ora agli stimatori bayesiani.

(20.9) Osservazione. Talvolta ha interesse prendere in considerazione funzioni costo differenti dalcosto quadratico. Ad esempio, se si pone C(θ, a) = |θ−a|, si puo mostrare che mina∈R

∫R |θ−a|dν(θ)

e realizzata dalla mediana della misura di probabilita ν. In altre parole

116

Page 117: Appunti di Statistica Matematica - people.dm.unipi.itpeople.dm.unipi.it/giuliano/dispensestatisticamatematica.pdf · 1. Modelli statistici (1.1) Esempio di partenza. L’analisi di

(20.10) Proposizione. Se m e una mediana per ν, allora, per ogni a ∈ R,∫

R|θ −m|ν(dθ) ≤

R|θ − a|ν(dθ)

(e di conseguenza, se m1 e m2 sono due mediane per ν, si ha∫R |θ−m1|ν(dθ) =

∫R |θ−m2|ν(dθ)).

La dimostrazione di questa Proposizione e identica a quella della relazione (i) dell’ Es. (20.8) :basta sostituire in esso lo spazio (Ω,F , P ) con lo spazio (Θ, T , ν) e la v.a. ω 7→ X(ω) con lafunzione misurabile θ 7→ θ.

(20.11) Esercizio. Sia X (osservazione) una v.a. avente legge uniforme su [0, θ] (θ ∈ Θ = R+).Scegliamo come legge a priori su R+ ν(dθ) = θe−θdθ. Cercare lo stimatore bayesiano di g(θ) = θprendendo come costo(i) C(θ, a) = (θ − a)2;(ii) C(θ, a) = |θ − a|.

Soluzione. (i) Si ha

L(θ, x) =

θ−1 per x ∈ [0, θ]0 altrove

= θ−11[0,θ](x) = θ−11[x,+∞](θ).

Quindi ∫ +∞

0

L(θ, X)ν(dθ) =∫ +∞

0

θ−11[X,+∞](θ)θe−θdθ =∫ +∞

X

e−θdθ = e−X ;

∫ +∞

0

g(θ)L(θ,X)ν(dθ) =∫ +∞

0

θθ−11[X,+∞](θ)θe−θdθ =∫ +∞

X

θe−θdθ = e−X(X + 1);

dunque

T =

∫ +∞0

g(θ)L(θ, X)ν(dθ)∫ +∞0

L(θ, X)ν(dθ)= X + 1.

(ii) In questo secondo caso, per la proposizione precedente, sappiamo che T e dato dalla medianadella legge a posteriori νX , che e assolutamente continua rispetto alla legge a priori ν con densita

f(θ, X) =L(θ,X)∫ +∞

0L(θ, X)ν(dθ)

=θ−11[x,+∞](θ)

e−X.

Si tratta di una legge assolutamente continua, dunque continua, e pertanto la mediana e l’unicovalore m tale che

12

= νX([m,+∞)) =∫ +∞

m

f(θ, X)ν(dθ) = eX

m∨X

θ−1θe−θ dθ = eX

m∨X

e−θ dθ.

D’altra parte, se m ≤ X, l’equazione precedente non puo essere soddisfatta (perche il suo secondomembro vale 1). Invece, se m > X l’equazione diventa

12

= eX

m

e−θ dθ = eX−m,

117

Page 118: Appunti di Statistica Matematica - people.dm.unipi.itpeople.dm.unipi.it/giuliano/dispensestatisticamatematica.pdf · 1. Modelli statistici (1.1) Esempio di partenza. L’analisi di

da cui si ricava m = T = X + log 2.

(20.12) Esercizio. Sia Θ = (0, 1) e C(θ, a) = θ(1 − a) + (1 − θ)a. Qual e la decisione bayesianaper una generica legge ν? Verificare che il rischio e sempre inferiore a 1

2 .

21. Test dal punto di vista bayesiano

In un problema di test dell’ipotesi H0 : θ ∈ Θ0 contro l’alternativa H1 : θ ∈ Θ1 in un contestobayesiano, Θ0 e Θ1 sono supposti misurabili, perche ora su Θ c’e una tribu T . L’insieme delleazioni e A = 0, 1 (0 = accetto H0, 1= respingo H0). Il costo e definito assegnando due costidifferenti: c0 > 0 all’ errore di prima specie e c1 > 0 a quello di seconda specie. Precisamente sipone

C(θ, 1) =

c0 per θ ∈ Θ0

0 per θ ∈ Θ1;

C(θ, 0) =

0 per θ ∈ Θ0

c1 per θ ∈ Θ1.

Volendo riassumere in una sola formula:

C(θ, a) =

a c0 per θ ∈ Θ0

(1− a)c1 per θ ∈ Θ1.

Questa formula assegna il costo anche nel caso di test aleatori, in cui l’insieme delle azioni eA = [0, 1].

Mentre in contesto non bayesiano la discrezionalita dello statistico consiste nello scegliere il livellodesiderato, in contesto bayesiano consiste nello scegliere, oltre alla legge a priori, i due costi c0 ec1, o piuttosto il numero c = c1

c0, detto rapporto dei costi.

Se ρ e una probabilita su (Θ, T ), la perdita media e in questo caso∫

Θ

C(θ, a)ρ(dθ) = a c0ρ(Θ0) + (1− a)c1ρ(Θ1) = a[c0ρ(Θ0)− c1ρ(Θ1)

]+ c1ρ(Θ1),

e la regola di decisione bayesiana e pertanto

d(ρ) =

0 se ρ(Θ0) > cρ(Θ1)1 se ρ(Θ0) < cρ(Θ1)indifferente se ρ(Θ0) = cρ(Θ1).

La funzione test bayesiana (cioe la decisione bayesiana relativa alla legge a posteriori νω) e diconseguenza

φ(ω) = d(νω) =

0 se νω(Θ0) > cνω(Θ1)1 se νω(Θ0) < cνω(Θ1)indifferente se νω(Θ0) = cνω(Θ1),

a condizione naturalmente che si tratti di una funzione misurabile.

118

Page 119: Appunti di Statistica Matematica - people.dm.unipi.itpeople.dm.unipi.it/giuliano/dispensestatisticamatematica.pdf · 1. Modelli statistici (1.1) Esempio di partenza. L’analisi di

Notiamo che si prende la decisione 1 (cioe si respinge H0) nel caso che νω(Θ0) < cνω(Θ1), che,supponendo

∫Θ

L(θ, ω)ν(dθ) > 0, significa

∫Θ0

L(θ, ω)ν(dθ)∫Θ

L(θ, ω)ν(dθ)< c

∫Θ1

L(θ, ω)ν(dθ)∫Θ

L(θ, ω)ν(dθ),

o anche ∫

Θ0

L(θ, ω)ν(dθ) < c

Θ1

L(θ, ω)ν(dθ).

Dunque, se E = ω ∈ Ω : νω(Θ0) = cνω(Θ1) e µ−trascurabile, si ottiene un test di regione critica

D =

ω ∈ Ω :∫

Θ0

L(θ, ω)ν(dθ) < c

Θ1

L(θ, ω)ν(dθ)

.

Si puo notare una vaga rassomiglianza con il test del rapporto di verosimiglianza (se si sostituisce∫Θ0

L(θ, ω)ν(dθ) con supθ∈Θ0L(θ, ω) e

∫Θ1

L(θ, ω)ν(dθ) con supθ∈Θ1L(θ, ω) si ottiene infatti la

regione critica del test del rapporto di verosimiglianza).

Se E non e trascurabile, un test bayesiano e un test con una qualunque regione critica D ∈ F taleche

ω ∈ Ω : νω(Θ0) < cνω(Θ1) ⊆ D ⊆ ω ∈ Ω : νω(Θ0) ≤ cνω(Θ1).(21.1) Esempio. Se Θ = 0, 1, H0 : θ = 0, H1 : θ = 1 e ν(0), ν(1) e la legge a priori, la funzionetest e

Φ(ω) =

0 se L(0, ω) > κL(1, ω)1 se L(0, ω) < κL(1, ω)indifferente se L(0, ω) = κL(1, ω),

dove κ = c1ν(1)c0ν(0) . Si tratta dunque di un test di Neyman–Pearson.

—————————————o—————————————

Chiudiamo questa parte di trattazione con un

Esempio riassuntivo

Sia µθ la legge su [0, 1] avente densita fθ(x) = θxθ−1 rispetto alla misura di Lebesgue), con θ ∈ R+.Sia (X1, . . . , Xn) un campione di legge µθ.1) Trovare una statistica esaustiva. E completa?2) Trovare uno stimatore corretto di θ e dire se e ottimale. Trovare lo stimatore di massimaverosimiglianza di θ.3) Trovare un test unilaterale dell’ipotesi H0 : θ ≤ 1 contro H1 : θ > 1 di livello 0.05.4) Trovare uno stimatore bayesiano di θ per la legge a priori ν(dθ) = e−θdθ5) Trovare un test bayesiano dell’ipotesi H0 : θ = 1 contro H1 : θ 6= 1 con rapporto dei costi c econ legge a priori ν = 1

2δ1 + 12µ, dove δ1 e la misura di Dirac concentrata in 1 e µ(dθ) = e−θdθ.

119

Page 120: Appunti di Statistica Matematica - people.dm.unipi.itpeople.dm.unipi.it/giuliano/dispensestatisticamatematica.pdf · 1. Modelli statistici (1.1) Esempio di partenza. L’analisi di

Soluzione. La verosimiglianza del campione e

L(θ;x1, . . . , xn) = θn( n∏

i=1

xi

)θ−1

= exp((θ − 1)

n∑

i=1

log xi + n log θ).

Si tratta come si vede di un modello esponenziale (cambio di parametro θ 7→ θ − 1), e quindiT =

∑ni=1 log Xi e una statistica esaustiva completa.

2) L’equazione di verosimiglianza e

d

((θ − 1)

n∑

i=1

log xi + n log θ)∣∣∣

θ=θ= 0,

cioen∑

i=1

log Xi +n

θ= 0,

da cuiθ = − n∑n

i=1 log Xi

(osservazione: θ > 0 perche Xi ∈ (0, 1)).Cerchiamo la legge di −∑n

i=1 log Xi sotto P θ. Il singolo addendo − log Xi ha legge esponenzialedi parametro θ (verifica per esercizio). Quindi −∑n

i=1 log Xi (somma di n v. a. indipendentitutte di legge E(θ) = Γ(1, θ)) ha legge Γ(n, θ). Dunque (ispirandoci allo stimatore di massimaverosimiglianza) calcoliamo

E[ 1−∑n

i=1 log Xi

]=

∫ +∞

0

1x

θn

Γ(n)xn−1e−θx dx

=θn

Γ(n)

∫ +∞

0

xn−2e−θx dx =θn

Γ(n)· Γ(n− 1)

θn−1

∫ +∞

0

θn−1

Γ(n− 1)xn−2e−θx dx =

θ

n− 1,

perche la funzione integranda e la densita Γ(n− 1, θ) e dunque il suo integrale su R vale 1.Se ne deduce che la statistica T = n−1∑n

i=1log Xi

e uno stimatore corretto di θ, funzione della statistica

esaustiva completa∑n

i=1 log Xi. Per il Teorema (4.4), si tratta dunque di uno stimatore ottimaletra gli stimatori corretti.3) Il modello e esponenziale, e quindi a rapporto di verosimiglianza crescente. Direttamente

L(θ2)L(θ1)

=θn2

θn1

( n∏

i=1

Xi

)θ2−θ1

e a rapporto di verosimiglianza crescente rispetto a∏n

i=1 Xi. In queste condizioni sappiamo cheun test unilaterale ha una regione critica della forma

D = n∏

i=1

Xi > c

120

Page 121: Appunti di Statistica Matematica - people.dm.unipi.itpeople.dm.unipi.it/giuliano/dispensestatisticamatematica.pdf · 1. Modelli statistici (1.1) Esempio di partenza. L’analisi di

con c (∈ (0, 1) perche 0 < Xi < 1) tale che

P 1( n∏

i=1

Xi > c)

= P 1(−

n∑

i=1

log Xi < − log c)

= 0.05.

Sotto P 1, −∑ni=1 log Xi ha legge Γ(n, 1), e quindi dobbiamo trovare c in modo che

P 1(−

n∑

i=1

log Xi < − log c)

=∫ − log c

0

1(n− 1)!

xn−1e−x dx = 0.05.

A questo punto si procede come abbiamo visto in altre situazioni simili.

4) Dalla teoria, sappiamo che lo stimatore bayesiano di θ (con la misura a priori assegnata) e

T =

∫ +∞0

θn+1(∏

Xi

)θ−1

e−θ dθ

∫ +∞0

θn( ∏

Xi

)θ−1

e−θ dθ

.

Si ha∫ +∞

0

θnbθe−θdθ =∫ +∞

0

θneθ log be−θdθ =Γ(n + 1)

(1− log b)n+1

∫ +∞

0

(1− log b)n+1

Γ(n + 1)θne−θ(1−log b)dθ =

=Γ(n + 1)

(1− log b)n+1=

n!(1− log b)n+1

,

perche la funzione nell’ultimo integrale e la densita Γ(n + 1, 1− log b) e quindi il suo integrale vale1. Dunque

T =

(1−∑n

i=1 log Xi

)n+1

n!· (n + 1)!(

1−∑ni=1 log Xi

)n+2 =n + 1

1−∑ni=1 log Xi

.

5) La regione critica e

D =

ω ∈ Ω :∫

Θ0

L(θ, ω)ν(dθ) < c

Θ1

L(θ, ω)ν(dθ)

,

che in questo caso (ν = 12δ1 + 1

2e−θdθ, Θ0 = 1, Θ1 = (0, 1) ∪ (1, +∞))diventa

D =

ω ∈ Ω :12L(1, ω) < c

12

∫ +∞

0

L(θ, ω)e−θdθ

=

ω ∈ Ω : 1 < c

∫ +∞

0

θn( n∏

i=1

Xi

)θ−1

e−θdθ

.

Dato che ∫ +∞

0

θnbθ−1e−θdθ =n!

b · (1− log b)n+1,

121

Page 122: Appunti di Statistica Matematica - people.dm.unipi.itpeople.dm.unipi.it/giuliano/dispensestatisticamatematica.pdf · 1. Modelli statistici (1.1) Esempio di partenza. L’analisi di

la regione critica e

D =

ω ∈ Ω : 1 < cn!( ∏n

i=1 Xi

)·(1−∑n

i=1 log Xi

)n+1

.

Per vedere come e fatta la regione critica, bisogna risolvere la diseguaglianza

b · (1− log b)n+1 < cn!, 0 < b < 1,

che si puo studiare qualitativamente disegnando il grafico di b 7→ b · (1− log b)n+1.

Esercizio. Studiare il test H0 : θ = 1 contro θ 6= 1 per un campione di legge esponenziale diparametro θ ∈ R+ = Θ, prendendo come legge a priori ν = 1

2δ1 + 12e−θdθ. Si trova

L(θ; X1, . . . , Xn) = θne−θ(∑n

i=1Xi);

Θ0

L(θ)ν(dθ) =12·(

12

)n

e−12

∑n

i=1Xi ;

Θ1

L(θ)ν(dθ) =12

∫ +∞

0

θne−θ[∑n

i=1Xi+1]dθ =

(n + 1)!(∑n

i=1 Xi + 1)n+1;

la regione critica e

D =

e−

12

∑n

i=1Xi(

n∑

i=1

Xi + 1)n+1 < c(n + 1)!2n+1

,

e studiando un’opportuna diseguaglianza si vede che essa e della forma

D =

n∑

i=1

Xi ≤ a

n∑

i=1

Xi ≥ b

,

dove a e b soddisfano l’equazione

(a + 1)n+1e−a/2 = (b + 1)n+1e−b/2.

Vedere l’ultimo esercizio (16.7) per dei risultati analoghi con i metodi classici (non bayesiani).

22. La funzione di ripartizione empirica e il metodo dei momenti.

Sia (X1, . . . , Xn) un campione di legge µ (da pensare come l’incognita del problema).

(22.1) Definizione. Si chiama funzione di ripartizione empirica la variabile aleatoria (x ∈ Rfissato)

ω 7→ Fn(x, ω) =1n

n∑

i=1

1Xi≤x(ω).

122

Page 123: Appunti di Statistica Matematica - people.dm.unipi.itpeople.dm.unipi.it/giuliano/dispensestatisticamatematica.pdf · 1. Modelli statistici (1.1) Esempio di partenza. L’analisi di

Osservazione. Sia ω ∈ Ω fissato, e supponiamo (ma non sarebbe necessario) che X1(ω) <X2(ω) < . . . < Xn(ω). Allora, per X1(ω) ≤ x < X2(ω),

Fn(x, ω) =1n

n∑

i=1

1Xi≤x(ω) =1n

perche 1X1≤x(ω) = 1 mentre 1Xi≤x(ω) = 0 per i ≥ 2; per X2(ω) ≤ x < X3(ω) si ha

Fn(x, ω) =1n

n∑

i=1

1Xi≤x(ω) =2n

perche 1X1≤x(ω) = 1X2≤x(ω) = 1 mentre 1Xi≤x(ω) = 0 per i ≥ 3 e cosı via. Dunque,x 7→ Fn(x, ω) e la funzione di ripartizione di una legge di probabilita discreta che assegna massa1/n ai punti di ascissa X1(ω), . . . , Xn(ω), cioe della legge

1n

n∑

i=1

δXi(ω),

(δt = misura di Dirac nel punto t).

Sia x fissato. Le v.a. 1Xi≤x sono indipendenti e hanno legge B(1, F (x)), perche P (1Xi≤x = 1) =P (Xi ≤ x) = F (x). Dunque hanno media F (x) e varianza F (x)(1−F (x)). Quindi, per la Legge deiGrandi Numeri, per ogni x, Fn(x, ·) converge q.c. a F (x) (dunque ne e un’approssimazione, di qui ilnome di funzione di ripartizione empirica); inoltre, per il Teorema Limite Centrale,

√n(Fn(x, ·)−

F (x))

converge in legge ad una N (0, F (x)(1− F (x))

).

La Legge dei Grandi Numeri dice che(i) La convergenza e puntuale in x (cioe il risultato vale per ogni fissato x);(ii) l’evento Ac

x = ω : Fn(x, ω) → F (x) e tale che P (Ax) = 1, ma dipende da x. Quindi a prioril’insieme ∩xAx (che e l’evento su cui si ha la convergenza di Fn(x, ·) → F (x) per ogni x), potrebbenon avere probabilita uguale a 1.La convergenza verso F (x) e pero rafforzata dal seguente risultato:

(22.2) Teorema (di Glivenko–Cantelli). Per ogni n ∈ N∗ poniamo

Dn(ω) .= supx∈R

∣∣Fn(x, ω)− F (x)∣∣.

Allora

(i) Per ogni n, Dn e una v. a.;

(ii) la successione (Dn)n converge q.c. a 0 per n →∞.

(22.3) Osservazione. Il teorema dice dunque che(i) la convergenza e uniforme in x;

123

Page 124: Appunti di Statistica Matematica - people.dm.unipi.itpeople.dm.unipi.it/giuliano/dispensestatisticamatematica.pdf · 1. Modelli statistici (1.1) Esempio di partenza. L’analisi di

(ii) Esiste un evento E, tale che P (E) = 1, sul quale si ha convergenza uniforme. Dunque, seω ∈ E, si ha anche la convergenza puntuale per ogni fissato x di Fn(x, ω) verso F (x).

Dimostrazione. (i) Dn e misurabile perche il sup puo essere fatto sui soli razionali.

(ii) Indichiamo con F (x−) = limt↑x F (x); notazione analoga per Fn(x, ·). Si ha

1n

n∑

i=1

1Xi<x(ω) = limt↑x

1n

n∑

i=1

1Xi≤t(ω) = Fn(x−, ω);

inoltre, ancora per la Legge dei Grandi Numeri, per ogni x esiste un evento Bx con P (Bx) = 1 taleche Fn(x−, ω) → F (x−), ∀x.

Ricordiamo che la funzione quantile φ = F← e cosı definita:

φ(u) = F←(u) = infx ∈ R : F (x) ≥ u, u ∈ (0, 1).

Essa ha, fra le altre, le due seguenti proprieta (dimostrate dopo la Proposizione (11.2)

(i) Se u ≤ v allora φ(u) ≤ φ(v).

(ii)F (φ(u)−) ≤ u ≤ F (φ(u)).

Sia ora k un intero ≥ 1 fissato. Poniamo x0 = −∞, xk = +∞ e, per ogni j = 1, 2, . . . , k − 1,

xj = φ

(j

k

).

Osserviamo che dalla prima delle relazioni (ii) (applicata a u = j/k) segue, per 1 ≤ j ≤ k − 1

F(x−j

) ≤ j

k,

mentre dalla seconda delle (ii) (applicata a u = (j − 1)/k) segue per 2 ≤ j ≤ k

F(xj−1

) ≥ j − 1k

.

In particolare si ha

(22.4) F (x−1 ) ≤ 1k

, F (xk−1) ≥ 1− 1k

.

e sottraendo, per j = 2, . . . , k − 1 si ottiene

(22.5) F(x−j

)− F(xj−1

) ≤ 1k

.

Se si pone per convenzione F (x0) = 0 e F (x−k+1) = 1, usando le (22.4) si vede che la (22.5) valeper ogni j = 1, . . . , k.

124

Page 125: Appunti di Statistica Matematica - people.dm.unipi.itpeople.dm.unipi.it/giuliano/dispensestatisticamatematica.pdf · 1. Modelli statistici (1.1) Esempio di partenza. L’analisi di

Poniamo oraRn(ω) = max

0≤j≤k+1

|Fn(xj , ω)− F (xj)| ∨ |Fn(x−j , ω)− F (x−j )|

Posto Ek.= ∩k

j=1Axj∩Bxj

, si osserva che P (Ek) = 1 e che

(22.6) limn

Rn(ω) = 0, ∀ω ∈ Ek.

Per (i) si ha −∞ = x0 ≤ x1 ≤ . . . ,≤ xk ≤ xk+1 = +∞, e dunque quelli non vuoti tra gli intervalli[xj−1, xj), con j = 0, . . . , k + 1 costituiscono una partizione di R. Sia allora x ∈ R, e sia j(= j(x))tale che xj−1 ≤ x < xj . Dalla relazione Xi ≤ x ⊆ Xi < xj segue che

Fn(x, ω) ≤ Fn(x−j , ω) ≤ F (x−j ) + Rn(ω),

per la definizione di Rn. Continuando, e usando la (22.5)

F (x−j ) + Rn(ω) ≤ F (xj−1) +1k

+ Rn(ω) ≤ F (x) +1k

+ Rn(ω),

per la non decrescenza di F . Si conclude che

Fn(x, ω) ≤ F (x) +1k

+ Rn(ω).

In modo analogo si hanno le diseguaglianze

Fn(x, ω) ≥ Fn(xj−1, ω) ≥ F (xj−1)−Rn(ω) ≥ F (x−j )− 1k−Rn(ω) ≥ F (x)− 1

k−Rn(ω),

e quindi, in conclusione, per ogni x ∈ R

|Fn(x, ω)− F (x)| ≤ 1k

+ Rn(ω),

o, equivalentemente

Dn(ω) ≤ 1k

+ Rn(ω).

Se ω ∈ Ek, si ottiene, per la (22.6),

(22.7) lim supn

Dn(ω) ≤ 1k

.

Poniamo ora E = ∩Ek, e osserviamo che P (E) = 1. Per ogni ω ∈ E, si ha ω ∈ Ek per ogni k, equindi la relazione (22.7) vale per ogni k. Passando allora in essa al limite per k →∞, si ottiene,per ogni ω ∈ E

limn

Dn(ω) = lim supn

Dn(ω) = 0,

e il teorema e dimostrato.

125

Page 126: Appunti di Statistica Matematica - people.dm.unipi.itpeople.dm.unipi.it/giuliano/dispensestatisticamatematica.pdf · 1. Modelli statistici (1.1) Esempio di partenza. L’analisi di

Sia p un intero positivo e mp(F ) =∫

xpdF (x) (definito su Πp = F :∫ |x|pdF (x) < +∞. Il

metodo dei momenti consiste nello stimare mp(F ) con

mp(Fn)(ω) =∫

xpdFn(x, ω) =∑n

i=1 Xpi (ω)

n

(ricordare che la legge Fn(·, ω) e la legge che assegna massa 1/n ai punti Xi(ω)). Piu in generaleil metodo dei momenti stima una funzione f(m1(F ), . . . , mp(F )) con f(m1(Fn), . . . , mp(Fn)). Peresempio, la media m1(F ) si stima con la media empirica (o media campionaria)

m1(Fn) = X =∑n

i=1 Xi

n,

la varianza m2(F )−m21(F ) si stima con la varianza empirica

σ2n = m2(Fn)−m2

1(Fn) =∑n

i=1 X2i

n−

(∑ni=1 Xi

n

)2

=∑n

i=1(Xi −X)2

n.

Questo stimatore somiglia alla varianza campionaria, che abbiamo gia incontrato molte volte, ecioe

S2 =∑n

i=1(Xi −X)2

n− 1.

S2 ha il vantaggio di essere uno stimatore corretto di σ2, come abbiamo visto in (3.8).

Per terminare, diamo una semplice e utile applicazione del Teorema di Glivenko–Cantelli. Sia(X1, . . . , Xn) un campione di legge µ. Siamo interessati a stimare la mediana mµ di µ. Per ogniω ∈ Ω sia µn(ω) la legge

µn(ω) =1n

n∑

i=1

δXi(ω),

e poniamo

(∗) mµn(ω) = infx : µn(ω)((−∞, x]) > 12.

Dunque, se x < mµn(ω), si ha µn((−∞, x]) < 12 e di conseguenza

µn([mµn(ω), +∞)) = 1− µn((−∞,mµn(ω))) = 1− limx↑mµn(ω)

µn((−∞, x]) > 1− 12

=12.

Pertanto mµn(ω) e una mediana per µn, secondo la definizione data a suo tempo.

Come abbiamo detto in precedenza, la f.d.r. di µn(ω) e la funzione di ripartizione empirica Fn(·, ω),che per il Teorema di Glivenko–Cantelli converge alla funzione di ripartizione F di µ. E quindi

126

Page 127: Appunti di Statistica Matematica - people.dm.unipi.itpeople.dm.unipi.it/giuliano/dispensestatisticamatematica.pdf · 1. Modelli statistici (1.1) Esempio di partenza. L’analisi di

ragionevole chiedersi se mµn(ω) converga in qualche senso verso mµ (in modo da esserne un buonstimatore).

(22.8) Teorema. (i) La funzione ω 7→ mµn(ω) e una variabile aleatoria.(ii) Se mµ e l’unica mediana per µ,allora, P− q.c.

mµn(ω) → mµ, n →∞.

Dimostrazione. (i) Segue facilmente dalla relazione (∗), che si puo scrivere anche nella forma

mµn(ω) = infx : Fn(x, ω) > 12.

(ii) Fissato ε > 0, per l’ipotesi fatta su F esiste δ > 0 tale che valgano entrambe le relazioni

($)

F (mµ − ε) < 12 − δ

F (mµ + ε) > 12 + δ

(cioe δ 6 12 − F (mµ − ε) ∧ F (mµ + ε) + 1

2). Per il Teorema di Glivenko–Cantelli, esiste A conP (A) = 1 tale che per ogni ω ∈ A,

supx∈R

|Fn(x, ω)− F (x)| →n→∞

0.

Fissato ω ∈ A, esiste dunque N(ω) tale che, per ogni n > N(ω), si abbia

(∗∗) supx∈R

|Fn(x, ω)− F (x)| < δ.

Per n cosiffatto, si ha(1)mµn(ω) > mµ − ε (se infatti fosse mµn(ω) 6 mµ − ε, allora

F (mµ − ε) >︸︷︷︸(∗∗)

Fn(mµ − ε, ω)− δ >︸︷︷︸def. di mµn

12− δ,

assurdo per la prima delle ($));(2) mµn(ω) < mµ + ε (se infatti fosse mµn(ω) > mµ + ε, allora

F (mµ + ε) <︸︷︷︸(∗∗)

Fn(mµ + ε, ω) + δ 6︸︷︷︸def. di mµn

12− δ,

assurdo per la seconda delle ($)).

127

Page 128: Appunti di Statistica Matematica - people.dm.unipi.itpeople.dm.unipi.it/giuliano/dispensestatisticamatematica.pdf · 1. Modelli statistici (1.1) Esempio di partenza. L’analisi di

Dalle relazioni (1) e (2) si conclude che, per n > N(ω), risulta∣∣mµn(ω) −mµ

∣∣ < ε,

e cioe chelim

n→∞mµn(ω) = mµ.

Poiche questo accade per ogni ω ∈ A (che ha probabilita uguale a 1), si ha la tesi.

23. Il test del χ2

Sullo spazio (Ω,F , P ) sia (X1, . . . , Xn) un campione di variabili a valori in un insieme finito1, 2, . . . , k. La legge di ciascuna delle v. a. Xh e data dal vettore q = (q1, . . . , qn), doveqi = P (Xh = i). Si ha ovviamente qi ≥ 0, ∀i e

∑ni=1 qi = 1. Il test del chi–quadro si usa per

verificare se la legge q coincide con una certa legge assegnata p (con l’ipotesi che pi > 0, ∀i).L’ipotesi e H0 : q = p, l’alternativa H1 : q 6= p. Il test si basa sulla statistica

T =k∑

i=1

(Ni − npi)2

npi, dove Ni =

n∑

j=1

1Xj=i.

Ovviamente la v. a. Ni indica il numero di osservazioni Xj che hanno dato valore i.

Ci serve un teorema (di Pearson) che dice cosa accade quando la taglia n del campione tendeall’infinito (nelle applicazioni questo significa che n e grande); dunque considereremo una succes-sione infinita X1, X2, X3, . . . di v. a. i.i.d. e porremo un indice n a Ni e a T , cioe scriveremo

Nni =

n∑

j=1

1Xj=i, Tn =k∑

i=1

(Nni − npi)2

npi.

(23.1) Teorema. (a) Se la legge comune delle Xn e diversa da p, allora Tn → +∞ P−q.c.

(b) Se la legge comune delle Xn coincide con p, allora Tn converge in legge ad una χ2(k − 1).

Dimostrazione. (a) Per ipotesi esiste i0 ∈ 1, 2, . . . , k tale che qi0 6= pi0 . Per la legge forte dei

grandi numeri, al tendere di n a ∞ si haNn

i0n → qi0 , P− q. c. ; quindi

(Nni0− npi0)

2

npi0

= n · (Nn

i0n − pi0)

2

pi0

→ +∞, P − q.c.

(b) Ci servono alcuni preliminari.

(23.2) Lemma. Sia Z una v. a. vettoriale k−dimensionale avente legge Nk(0, A), dove A = (ai,j)e la matrice k × k con ai,j = δi,j −√pi

√pj . Allora la v. a. ||Z||2 ha legge χ2(k − 1).

Dimostrazione. Sia X un vettore aleatorio k−dimensionale avente legge Nk(0, Ik), e sia E ilsottospazio di Rk generato dal versore

√p := (

√p1, . . . ,

√pn). Il teorema di Cochran dice che

128

Page 129: Appunti di Statistica Matematica - people.dm.unipi.itpeople.dm.unipi.it/giuliano/dispensestatisticamatematica.pdf · 1. Modelli statistici (1.1) Esempio di partenza. L’analisi di

(X−XE) e XE sono indipendenti ed inoltre ||XE ||2 ha legge χ2(1), ||X−XE ||2 ha legge χ2(k−1).Dunque bastera vedere che Y = X −XE ha legge Nk(0, A). Si ha

Y = X − 〈X,√

p〉 · √p = X −( k∑

i=1

Xi√

pi

)√p,

ed e facile vedere che 〈u, Y 〉 e una v. a. gaussiana per ogni u ∈ Rk. Basta allora calcolare il vettoredelle medie e la matrice di covarianza. Per ogni i, j = 1, . . . , k si ha

E[Yj ] = E[Xj −( k∑

i=1

Xi√

pi

)· √pj ] = E[Xj ]−

( k∑

i=1

E[Xi]√

pi

)· √pj = 0;

E[YiYj ] = E

[(Xi −

( k∑

h=1

Xh√

ph

)· √pi

)·(Xj −

( k∑

h=1

Xh√

ph

)· √pj

)]

= E[XiXj ]−√pi · √pjE[X2j ]−√pi · √pjE[X2

i ] +√

pi · √pj ·( k∑

h=1

E[X2

h

]ph

)

= E [XiXj ]−√pi · √pj −√pi · √pj +√

pi · √pj ·( k∑

h=1

ph

)= δi,j −√pi · √pj .

Richiamiamo il

(23.3) Teorema limite centrale vettoriale. Sia (Xn)n una successione di vettori aleatoria valori in Rk, i.i.d con E[Xn] = m(∈ Rk) e matrice di covarianza Γ (Γ = (γi,j)i,j=1,...,k, γi,j =Cov(Yi, Yj)). Allora la successione di vettori aleatori

Zn.=

X1 + · · ·+ Xn − nm√n

converge in legge ad una Nk(0, Γ).

Infine

(23.4) Esercizio. Sia (Zn) una successione di vettori aleatori convergente in legge ad unaNk(0, A).Allora ||Zn||2 converge in legge ad una χ2(k − 1).

Passiamo finalmente alla dimostrazione del punto (b) del Teorema di Pearson.

Consideriamo i vettori aleatori k−dimensionali, indipendenti e identicamente distribuiti

Yi.=

(1√p1

1Xi=1, . . . ,1√pk

1Xi=k

).

129

Page 130: Appunti di Statistica Matematica - people.dm.unipi.itpeople.dm.unipi.it/giuliano/dispensestatisticamatematica.pdf · 1. Modelli statistici (1.1) Esempio di partenza. L’analisi di

Si ha facilmente

E[Yi] =(

p1√p1

, . . . ,pk√pk

)= (

√p1, . . . ,

√pk) =

√p;

inoltre, per m,n = 1, . . . , k, con m 6= n,

E[(Yi)m · (Yi)n] = E[

1√pm

1Xi=m ·1√pn

1Xi=n

]= 0,

dato che Xi = m ∩ Xi = n = ∅; invece, per m = n

E[(Yi)2m] = E[

1pm

1Xi=m

]= 1.

Ne segue che

Cov[(Yi)m · (Yi)n] = E[(Yi)m · (Yi)n]−E[(Yi)m]E[(Yi)n] =

1− pm per m = n−√pm

√pn per m 6= n

= am,n,

dove am,n = δm,n −√pm√

pm, come nel Lemma (23.2). Dato che Nnj =

∑ni=1 1Xi=j ha

Y1 + · · ·+ Yn =(

Nn1√p1

, . . . ,Nn

k√pk

).

Per il TLC vettoriale, si ha allora che la successione

Zn.=

Y1 + · · ·+ Yn − n√

p√n

=( Nn

1√p1− n

√p1√

n, . . . ,

Nnk√pk− n

√pk√

n

)=

(Nn

1 − np1√np1

, . . . ,Nn

k − npk√npk

)

converge in legge ad una Nk(0, A), e di conseguenza, per l’esercizio precedente, ||Zn||2 converge inlegge ad una χ2(k − 1).

Torniamo al test del chi–quadro. Se l’ipotesi e falsa, allora la statistica T assumera valori grandi,per il Teorema di Pearson, dunque ci aspettiamo una regione critica del tipo T > a, con a dadeterminare. Volendo un test di taglia uguale ad α, si deve imporre che sia

supH0 vera

P (T > a) = α.

Ma, se H0 e vera, per il Teorema di Pearson T ha asintoticamente legge χ2(k − 1), e quindi

P (T > a) ' 1− Fk−1(a) = α,

da cui a = χ21−α(k − 1).

(23.5) Osservazione. Se µ e una legge qualsiasi, per verificare se il campione ha legge µ si prendeφ : R → 1, . . . , k e si verifica se il nuovo campione (φ(X1), . . . , φ(Xk)) ha legge φ(µ). Nellapratica spesso si sceglie una partizione di R del tipo

(−∞ = a0, a1], (a1, a2], (a2, a3], . . . , (an−2, an−1], (an−1, an = +∞)

130

Page 131: Appunti di Statistica Matematica - people.dm.unipi.itpeople.dm.unipi.it/giuliano/dispensestatisticamatematica.pdf · 1. Modelli statistici (1.1) Esempio di partenza. L’analisi di

e si pone φ(x) =∑n−1

k=0 k · 1(ak,ak+1](x) = indice dell’elemento della partizione a cui appartiene x.In questo caso si ha allora, per ogni k = 0, 1, . . . , n− 1

φ(µ)(k) = µ(φ−1(k)) = P (X ∈ φ−1(k)) = P (X ∈ (ak−1, ak]).

(23.6) Osservazione. la numerosita del campione dovrebbe essere tale che npi ≥ 5 ∀j.

Il test del chi–quadro puo essere usato anche per valutare se il campione segue una legge apparte-nente ad una famiglia parametrizzata pθ = (pθ

1, . . . , pθm), dove Θ e un aperto di Rh, con h < m− 1.

Si devono fare le ipotesi seguenti:

(i) le funzioni θ 7→ pθi sono strettamente positive e di classe C2;

(ii) la matrice[

∂∂θi

pθj

]e di rango massimo;

(iii) esiste una successione consistente θn di stimatori di massima verosimiglianza di θ.

Notiamo che L(θ; x1, . . . , xn) =∏n

i=1 pθxi

=(pθ1

)Nn1 · . . . · (pθ

k

)Nnk . Dunque, passando al logaritmo,

lo stimatore di massima verosimiglianza si trova cercando il

maxθ∈Θ

(Nn

1 log(pθ1) + · · ·+ Nn

k log(pθk)

).

Sia

Tn(θ) =k∑

i=1

(Nni − npθ

i )2

npθi

.

Si puo dimostrare che, sotto le precedenti ipotesi, la successione Tn(θn) converge in legge verso unaχ2(k − s − 1). (In altre parole, sostituendo ai parametri non noti θ = (θ1, . . . θs) i loro stimatoridi massima verosimiglianza, abbiamo stimato s parametri e questo fa diminuire di s il numero deigradi di liberta).

Questo suggerisce una regione critica della forma T (θ) > a, e poi si procede come nel caso base.

131