vjeºbe - statistika praktikum pouzdani intervali · vjeºbe - statistika praktikum pouzdani...

Pouzdani intervali

Vjeºbe - StatistikaPraktikum

Pouzdani intervali

Pouzdani intervali

Pouzdani intervali

De�nicija 1.

Neka je X = (X1, . . . ,Xn) jednostavan slu£ajan uzorak iz parametarskogstatisti£kog modela P s jednodimenzionalnim parametrom θ.Statistika D(X) je 1− α pouzdana donja granica za θ ako

P(D(X) ≤ θ) ≥ 1− α, ∀P ∈ P.

Statistika G (X) je 1− α pouzdana gornja granica za θ ako

P(θ ≤ G (X)) ≥ 1− α, ∀P ∈ P.

Slu£ajan interval [D1(X),G1(X)] zovemo (1− α) pouzdani interval za θako

P(D1(X) ≤ θ ≤ G1(X)) ≥ 1− α, ∀P ∈ P.

(uz pretpostavku da je interval dobro de�niran).Preciznost pouzdanog intervala de�nira se kao

∆(X) = G1(X)− D1(X).

Pouzdani intervali

Konstrukcija pouzdanih intervala

1 Odrediti statistiku g(X; θ) (tzv. pivotnu veli£inu) £ija razdioba jepoznata (ili barem asimptotski poznata).

2 Budu¢i je distribucija od g(X; θ) poznata moºemo odrediti g1, g2takve da je

P(g1 ≤ g(X; θ) ≤ g2) = 1− α.

(ili najbliºe mogu¢e ako se ne moºe posti¢i jednakost).

3 Rje²itig1 ≤ g(X; θ) ≤ g2

po θ, ²to ¢e dati neka rje²enja D(X),G (X) za koje je

D(X) ≤ θ ≤ G (X).

Time dobijemo (1− α) pouzdani interval

[D(X),G (X)].

Pouzdani intervali

Napomena:

Pouzdani interval je slu£ajan interval (granice su mu slu£ajnevarijable)

za svaku realizaciju slu£ajnog uzorka x = (x1, . . . , xn) dobijemojedan interval

[D(x),G (x)]

kojemu su granice realni brojevi.

Ne moºemo tvrditi da takav interval sadrºi nepoznati parametar θ svjerojatno²¢u 1− α!Sve ²to moºemo re¢i jest da ako bi za puno uzoraka izra£unalipouzdani interval (realizaciju) tada bi (1− α)100% tih intervalasadrºavalo θ, a α100%ne bi sadrºavalo θ. Ne znamo koji od njih, paonda ne moºemo ni tvrditi gornju re£enicu.

animacija

Pouzdani intervali

Pouzdani interval za o£ekivanje normalno distribuiranepopulacije (poznata varijanca)

Neka je (X1, . . . ,Xn) jednostavan slu£ajan uzorak iz N (µ, σ2) (σ2

poznato).

Pivotna veli£ina

g(X;µ) =X̄n − µσ

√n ∼ N (0, 1).

Traºimo z1 i z2 takve da je

P(z1 ≤ g(X; θ) ≤ z2) = 1− α.

Rezultat s predavanja nam govori da je najbolje traºiti jednakorepniinterval, tj. traºimo zα/2 tako da bude

P(−zα/2 ≤ g(X; θ) ≤ zα/2) = 1− α.

Pouzdani intervali

1-Α

zΑ�2-zΑ�2-3 -2 -1 0 1 2 3

0.1

0.2

0.3

0.4

Slika: Funkcija gusto¢e N (0, 1)

Pouzdani intervali

Distribucije u R-u

dnorm funkcija gusto¢epnorm funkcija distribucijeqnorm funkcija kvantila distribucijernorm slu£ajan broj iz distribucije

za druge distribucije se norm zamijeni s klju£nom rije£i distribucije:binom, pois, unif, chisq, exp, t

Za funkciju distribucije koje je strogo rastu¢a

F (x) = P(X ≤ x) = p,

funkcija kvantila jeQ(p) = x .

Op¢enito funkcija kvantila de�nira se kao

Q(p) = inf{x : F (x) ≥ p}.

Pouzdani intervali

Vratimo se na na² problem i uo£imo da je

P(g(X; θ) ≤ zα/2) = 1− α/2.

Budu¢i je g(X;µ) ∼ N (0, 1), onda je zα/2 upravo (1− α/2)-kvantilstandardne normalne distribucije

FN (0,1)(zα/2) = 1− α/2 ⇒

zα/2 = Q(1− α/2).

za 95%-tni pouzdani interval (α = 0.05)qnorm(0.975)

> 1.959964 ≈ 1.96

Pouzdani intervali

Kad je vrijednost zα/2 izra£unata, rje²avamo

−zα/2 ≤X̄n − µσ

√n ≤ zα/2

odakle slijedi

X̄n − zα/2σ√n≤ µ ≤ X̄n + zα/2

σ√n.

Pouzdani interval za o£ekivanje normalno distribuiranepopulacije (poznata varijanca)[

X̄n − zα/2σ√n, X̄n + zα/2

σ√n

].

Pouzdani intervali

Zadatak 1.

Uzora£ka sredina uzorka iz N (µ, 27) distribucije je X̄200 = 102. Na�iteinterval pouzdanosti za µ uz nivo pouzdanosti

(a) 0.95,

(b) 0.99,

Pouzdani intervali

Zadatak 2.

Simulirajte slu£ajan uzorak iz N (2, 2). Odredite 95%-tni intervalpouzdanosti za o£ekivanje. Promatrajte ²to se doga�a promjenomveli£ine uzorka.

Pouzdani intervali

Zadatak 3.

Neka je X ∼ N (µ, σ2) gdje je σ2 poznato. Kolika je vjerojatnost dainterval [

X̄n − kσ√n, X̄n + k

σ√n

]sadrºi µ?

Pouzdani intervali

Pouzdani interval za o£ekivanje normalno distribuiranepopulacije (NEpoznata varijanca)

Neka je (X1, . . . ,Xn) jednostavan slu£ajan uzorak iz N (µ, σ2) (σ2

nepoznato).

Pivotna veli£ina

g(X;µ) =X̄n − µS̃n

√n − 1 ∼ tn−1

ima Studentovu (t-distribuciju) s n − 1 stupnjeva slobode

tn−1 je simetri£na pa traºimo tn−1,α/2 takav da je

P(−tn−1,α/2 ≤ g(X;µ) ≤ tn−1,α/2) = 1− α.

Pouzdani intervali

tn-1,Α�2-tn-1,Α�2

1-Α

-3 -2 -1 0 1 2 3

0.1

0.2

0.3

0.4

Slika: Funkcija gusto¢e tn−1

Pouzdani intervali

Sli£no kao u prethodnom slu£aju, tn−1,α/2 ra£unamo sqt(1-alpha/2, n-1)

Pouzdani interval za o£ekivanje normalno distribuiranepopulacije (nepoznata varijanca)[

X̄n − tn−1,α/2S̃n√n − 1

, X̄n + tn−1,α/2S̃n√n − 1

].

Pouzdani intervali

Zadatak 4.

Simulirajte slu£ajan uzorak iz N (25, 2). Odredite 95%-tni i 99%-tniinterval pouzdanosti za o£ekivanje uz prepostavku da je varijanca tako�ernepoznati parametar.

Pouzdani intervali

Zadatak 5.

U datoteci visine.dat nalaze se podaci o visinama neke populacije.Pretpostavimo da su podaci normalno distribuirani. U£itajte podatke iodredite 95%-tni pouzdani interval za o£ekivanje.

Pouzdani intervali

Zadatak 6.

U R bazi podataka ChickWeight nalaze se podaci o teºinama pili¢amjerenima po danima od njihova ro�enja. Promotrimo samo teºine pili¢astarih to£no 18 dana.

a) Nacrtajte usporedno uzora£ku funkciju gusto¢e ovih podataka iteorijsku funkciju gusto¢e normalne distribucije s odgovaraju¢imo£ekivanjem i varijancom. Zaklju£ite da moºemo pretpostavitinormalnu distribuiranost teºine pili¢a.

b) Odredite 95%-tni pouzdani interval za o£ekivanje teºine pili¢a.

Pouzdani intervali

Pouzdani interval za varijancu normalno distribuiranepopulacije

Neka je (X1, . . . ,Xn) jednostavan slu£ajan uzorak iz N (µ, σ2).

Pivotna veli£ina

g(X;σ2) =(n − 1)S̃2

n

σ2∼ χ2

n−1

ima χ2 distribuciju s n − 1 stupnjeva slobode

Pouzdani intervali

Jednostrani pouzdani interval

Varijanca je nenegativna veli£ina, pa ima smisla traºiti interval oblika

[0,G (X)].

Traºimo hn−1,α takav da je

P(g(X;σ2) ≥ hn−1,α) = 1− α,

²to je ekvivalentno s

P(g(X;σ2) ≤ hn−1,α) = α,

Pouzdani intervali

hn-1,Α

1-Α

0 2 4 6 8 10 12

0.05

0.10

0.15

0.20

Slika: Funkcija gusto¢e χ2n−1

Pouzdani intervali

hn−1,α je α kvantil χ2n−1 distribucije

qchisq(alpha, n-1)

Sad slijedi

P

((n − 1)S̃2

n

σ2≥ hn−1,α

)= P

(σ2 ≤ (n − 1)S̃2

n

hn−1,α

)= 1− α.

Jednostrani pouzdani interval za varijancu normalnodistribuirane populacije[

0,(n − 1)S̃2

n

hn−1,α

].

Pouzdani intervali

Dvostrani pouzdani interval

χ2 distribucija nije simetri£na, pa za dvostrani pouzdani intervaltraºimo hn−1,α/2 i h′

n−1,α/2takav da je

P(g(X;σ2) ≤ hn−1,α/2) = α/2,

iP(g(X;σ2) ≥ h′

n−1,α/2) = α/2.

Pouzdani intervali

1-Α

h ’n-1,Α�2hn-1,Α�2

Α/2Α/2

0 2 4 6 8 10 12 14

0.05

0.10

0.15

0.20

Slika: Funkcija gusto¢e χ2n−1

Pouzdani intervali

hn−1,α/2 je α/2 kvantil χ2n−1 distribucije

qchisq(alpha, n-1)

h′n−1,α/2 je 1− α/2 kvantil χ2

n−1 distribucijeqchisq(1-alpha, n-1)

Dvostrani pouzdani interval za varijancu normalnodistribuirane populacije[

(n − 1)S̃2

n

h′n−1,α/2

,(n − 1)S̃2

n

hn−1,α/2

].

Pouzdani intervali

Zadatak 7.

Za podatke iz datoteke visine.dat odredite jednostrani i dvostrani95%-tni interval pouzdanosti za varijancu.

Pouzdani intervali

Zadatak 8.

Za podatke o teºini pili¢a starih 18 dana iz R baze ChickWeight odreditejednostrani i dvostrani 90%-tni interval pouzdanosti za varijancu.

Pouzdani intervali

Asimptotski pouzdani intervali

U mnogim problemima te²ko je na¢i pivotnu veli£inu £ija jedistribucija egzaktno poznata.

Tada koristimo aproksimativne pivotne veli£ine £ije su distribucijeasimptotski poznate pa pretpostavljamo da je uzorak velik.

Pri tome ¢e nam posebno koristan biti centralni grani£ni teorem:za n.j.d. X1, . . . ,Xn, EX1 = µ, Var(Xi ) = σ2 <∞ vrijedi

X̄n − µσ

√nD−→ N (0, 1).

Pouzdani intervali

Op¢enito, za nepoznati parametar θ i njegov procjenitelj θ̂ koji jeasimptotski normalan s o£ekivanjem θ i varijancom σ(θ),aproksimativnu pivotnu veli£inu moºemo postaviti u obliku

θ̂ − θσ(θ)

∼A N (0, 1).

Ako je iz pivotne veli£ine te²ko izraziti θ moºemo σ(θ) aproksimiratis procjenom σ(θ̂)

Za gore de�niranu pivotnu veli£inu postupamo kao kod traºenjapouzdanog intervala za o£ekivanje normalne distribucije.

Traºimo zα/2 takav da je

P

(−zα/2 ≤

θ̂ − θσ(θ)

≤ zα/2

)= 1− α.

Pouzdani intervali

Primjer 1. - parametar Bernoullijevog modela

(X1, . . . ,Xn) slu£ajan uzorak iz Bernoullijeve distribucije(0 1

1− θ θ

)Po centralnom grani£nom teoremu

X̄n − θ√θ(1− θ)

√n ∼A N (0, 1).

odakle se dobije (predavanja) pouzdani interval za θX̄n − zα/2

√X̄n(1− X̄n)

n, X̄n + zα/2

√X̄n(1− X̄n)

n

.

Pouzdani intervali

Zadatak 9.

�eli se procjeniti postotak pu²a£a u populaciji 18-godi²njih Britanaca. Naslu£ajan na£in odabran je uzorak 7383 osobe iz te populacije. U uzorku jebilo 32.8% pu²a£a. Procjeniti 95%-tni interval pouzdanosti za postotakpu²a£a u populaciji.

Pouzdani intervali

Zadatak 10.

U proizvodnom procesu u toku dana proizvedeno je 79 proizvoda, a odtoga su 3 neispravna. Procjenite vjerojatnost proizvodnje neispravnihproizvoda i odredite 99.8%-tni interval pouzdanosti.

Pouzdani intervali

Primjer 2. - parametar eksponencijalne distribucije

(X1, . . . ,Xn) slu£ajan uzorak iz eksponencijalne distribucije E(λ)

Po centralnom grani£nom teoremu

X̄n − 1

λ√1

λ2

√n ∼A N (0, 1).

odakle se dobije pouzdani interval za λ[1− zα/2√

n

X̄n

,1 +

zα/2√n

X̄n

].

Pouzdani intervali

Zadatak 11.

Generirajte slu£ajan uzorak iz E(λ = 2) distribucije i odredite 95%-tniinterval pouzdanosti za λ.

1

Vježbe 3. – pouzdani intervali

library(animation) #Animacija koja ilustrira značenje pouzdanog intervala: #Generira se 100 slučajnih uzoraka N(0,1) i za svaki od njih se izračuna 95%tni pouzdani interval za očekivanje 0 #približno 95 tih intervala sadrži 0, a približno 5 ih ne sadrži 0 #0 je stvarana vrijednsot parametra - ono što nam je u praksi nepoznato. ani.options(nmax = 100, interval = 0.15) conf.int(level=0.95) #Računanje s distribucijama (ponavljanje) dnorm(0, mean=0, sd=1) dnorm(0, 0, 1) pnorm(0, 0, 1) qnorm(0.5, 0, 1) ################################################################################# # Interval pouzdanosti za očekivanje normalne distribucije uz poznatu varijancu ################################################################################# #z_{0.05/2} za 95%tni interval pouzdanosti očekivanja normalne distribucije uz poznatu varijancu qnorm(0.975, 0, 1) #Ne moramo pisati 0, 1, jer su default vrijednosti za očekivanje i standardnu devijaciju normalne qnorm(0.975) #### Zadatak 1. #(a) alfa <- 0.05 (zalfa <- qnorm(1-alfa/2)) c(102-zalfa*sqrt(27)/sqrt(200), 102+zalfa*sqrt(27)/sqrt(200)) #(b) alfa <- 0.01 (zalfa <- qnorm(1-alfa/2)) c(102-zalfa*sqrt(27)/sqrt(200), 102+zalfa*sqrt(27)/sqrt(200)) #### Zadatak 2. set.seed(23454) #namješta generator random brojeva, tako da kad upišemo ovo svaki put generira isto n <- 10 #10000, 1000000 x <- rnorm(n,2,sqrt(2)) alfa <- 0.05 zalfa <- qnorm(1-alfa/2,0,1)

2

dg <- mean(x) - zalfa*sqrt(2)/sqrt(n) gg <- mean(x) + zalfa*sqrt(2)/sqrt(n) c(dg,gg) gg-dg #### Zadatak 3. pnorm(2,0,1)-pnorm(-2,0,1) pnorm(3,0,1)-pnorm(-3,0,1) ################################################################################# # Interval pouzdanosti za očekivanje normalne distribucije uz NEpoznatu varijancu ################################################################################# #t-distribucija qt(0.975, df=4) qt(0.975, 1000) #za veliki broj stupnjeva slobode, približno N(0,1) #### Zadatak 4. n <- 10 #10000, 1000000 x <- rnorm(n,25,sqrt(2)) alfa <- 0.05 talfa <- qt(1-alfa/2,n-1) dg <- mean(x) - talfa*sd(x)/sqrt(n-1) gg <- mean(x) + talfa*sd(x)/sqrt(n-1) c(dg,gg) gg-dg n <- 10 x <- rnorm(n,25,sqrt(2)) alfa <- 0.01 talfa <- qt(1-alfa/2,n-1) dg <- mean(x) - talfa*sd(x)/sqrt(n-1) gg <- mean(x) + talfa*sd(x)/sqrt(n-1) c(dg,gg) gg-dg #### Zadatak 5. #prvo postaviti radni direktorij visine <- read.table("visine.dat") str(visine) vis <- visine$V1 talfa <- qt(0.975,length(vis)-1) dg <- mean(vis) - talfa*sd(vis)/sqrt(length(vis)-1) gg <- mean(vis) + talfa*sd(vis)/sqrt(length(vis)-1) c(dg,gg) gg-dg #### Zadatak 6. str(ChickWeight)

3

tezine <- ChickWeight$weight[ChickWeight$Time==18] plot(density(tezine), col="red") curve(dnorm(x,mean(tezine),sd(tezine)), col="blue", add=T) n <- length(tezine) talfa <- qt(0.975,n-1) dg <- mean(tezine) - talfa*sd(tezine)/sqrt(n-1) gg <- mean(tezine) + talfa*sd(tezine)/sqrt(n-1) c(dg,gg) gg-dg ################################################################################# # Interval pouzdanosti za varijancu normalne distribucije ################################################################################# qchisq(0.05,4) qchisq(0.975,4) qchisq(0.025,4) #### Zadatak 7. visine <- read.table("visine.dat") str(visine) vis <- visine$V1 n <- length(vis) alfa <- 0.05 #jednostrani interval halfa <- qchisq(alfa, n-1) dg <- 0 #ili var(vis) umjesto sd(vis)^2 gg <- ((n-1)*var(vis))/halfa c(dg,gg) var(vis) #dvostrani interval halfa <- qchisq(alfa/2, n-1) halfa1 <- qchisq(1-alfa/2, n-1) dg <- ((n-1)*var(vis))/halfa1 #ili var(vis) umjesto sd(vis)^2 gg <- ((n-1)*var(vis))/halfa c(dg,gg) #### Zadatak 8. str(ChickWeight) tezine <- ChickWeight$weight[ChickWeight$Time==18] n <- length(tezine) alfa <- 0.05 #jednostrani interval halfa <- qchisq(alfa, n-1) dg <- 0 #ili var(vis) umjesto sd(vis)^2 gg <- ((n-1)*var(tezine))/halfa c(dg,gg)

4

var(tezine) #dvostrani interval halfa <- qchisq(alfa/2, n-1) halfa1 <- qchisq(1-alfa/2, n-1) dg <- ((n-1)*var(tezine))/halfa1 #ili var(vis) umjesto sd(vis)^2 gg <- ((n-1)*var(tezine))/halfa c(dg,gg) ################################################################################# # Asimptotski intervali pouzdanosti ################################################################################# #### Zadatak 9. #Bernoullijev model, svaka osoba iz uzorka je ili pušač (1) ili nepušač (0). n <- 7383 xn <- 0.328 #procjenjena vjerojatnost "uspjeha" - p alfa <- 0.05 zalfa <- qnorm(1-alfa/2) dg <- xn - zalfa*sqrt((xn*(1-xn))/n) gg <- xn + zalfa*sqrt((xn*(1-xn))/n) c(dg,gg) #### Zadatak 10. #Bernoullijev model, svaki proizvod iz uzorka je ili neispravan (1) ili ispravan (0). n <- 79 xn <- 3/79 #X_n je procjenitelj, u ovom slučaju to je relativna frekvencija - procjenjena vjerojatnost "uspjeha" - p alfa <- 1-0.998 zalfa <- qnorm(1-alfa/2) dg <- xn - zalfa*sqrt((xn*(1-xn))/n) gg <- xn + zalfa*sqrt((xn*(1-xn))/n) c(dg,gg) #možda bi jednostrani interval bio prikladniji... #### Zadatak 11. # x <- rexp(100,2) alfa <- 0.05 zalfa <- qnorm(1-alfa/2) dg <- (1-zalfa/sqrt(length(x)))/(mean(x)) gg <- (1+zalfa/sqrt(length(x)))/(mean(x)) c(dg,gg)

vjeºbe - statistika praktikum pouzdani intervali · vjeºbe - statistika praktikum pouzdani...

Documents