vjeºbe - statistika praktikum pouzdani intervali · vjeºbe - statistika praktikum pouzdani...
TRANSCRIPT
Pouzdani intervali
Vjeºbe - StatistikaPraktikum
Pouzdani intervali
Pouzdani intervali
Pouzdani intervali
De�nicija 1.
Neka je X = (X1, . . . ,Xn) jednostavan slu£ajan uzorak iz parametarskogstatisti£kog modela P s jednodimenzionalnim parametrom θ.Statistika D(X) je 1− α pouzdana donja granica za θ ako
P(D(X) ≤ θ) ≥ 1− α, ∀P ∈ P.
Statistika G (X) je 1− α pouzdana gornja granica za θ ako
P(θ ≤ G (X)) ≥ 1− α, ∀P ∈ P.
Slu£ajan interval [D1(X),G1(X)] zovemo (1− α) pouzdani interval za θako
P(D1(X) ≤ θ ≤ G1(X)) ≥ 1− α, ∀P ∈ P.
(uz pretpostavku da je interval dobro de�niran).Preciznost pouzdanog intervala de�nira se kao
∆(X) = G1(X)− D1(X).
Pouzdani intervali
Konstrukcija pouzdanih intervala
1 Odrediti statistiku g(X; θ) (tzv. pivotnu veli£inu) £ija razdioba jepoznata (ili barem asimptotski poznata).
2 Budu¢i je distribucija od g(X; θ) poznata moºemo odrediti g1, g2takve da je
P(g1 ≤ g(X; θ) ≤ g2) = 1− α.
(ili najbliºe mogu¢e ako se ne moºe posti¢i jednakost).
3 Rje²itig1 ≤ g(X; θ) ≤ g2
po θ, ²to ¢e dati neka rje²enja D(X),G (X) za koje je
D(X) ≤ θ ≤ G (X).
Time dobijemo (1− α) pouzdani interval
[D(X),G (X)].
Pouzdani intervali
Napomena:
Pouzdani interval je slu£ajan interval (granice su mu slu£ajnevarijable)
za svaku realizaciju slu£ajnog uzorka x = (x1, . . . , xn) dobijemojedan interval
[D(x),G (x)]
kojemu su granice realni brojevi.
Ne moºemo tvrditi da takav interval sadrºi nepoznati parametar θ svjerojatno²¢u 1− α!Sve ²to moºemo re¢i jest da ako bi za puno uzoraka izra£unalipouzdani interval (realizaciju) tada bi (1− α)100% tih intervalasadrºavalo θ, a α100%ne bi sadrºavalo θ. Ne znamo koji od njih, paonda ne moºemo ni tvrditi gornju re£enicu.
animacija
Pouzdani intervali
Pouzdani interval za o£ekivanje normalno distribuiranepopulacije (poznata varijanca)
Neka je (X1, . . . ,Xn) jednostavan slu£ajan uzorak iz N (µ, σ2) (σ2
poznato).
Pivotna veli£ina
g(X;µ) =X̄n − µσ
√n ∼ N (0, 1).
Traºimo z1 i z2 takve da je
P(z1 ≤ g(X; θ) ≤ z2) = 1− α.
Rezultat s predavanja nam govori da je najbolje traºiti jednakorepniinterval, tj. traºimo zα/2 tako da bude
P(−zα/2 ≤ g(X; θ) ≤ zα/2) = 1− α.
Pouzdani intervali
1-Α
zΑ�2-zΑ�2-3 -2 -1 0 1 2 3
0.1
0.2
0.3
0.4
Slika: Funkcija gusto¢e N (0, 1)
Pouzdani intervali
Distribucije u R-u
dnorm funkcija gusto¢epnorm funkcija distribucijeqnorm funkcija kvantila distribucijernorm slu£ajan broj iz distribucije
za druge distribucije se norm zamijeni s klju£nom rije£i distribucije:binom, pois, unif, chisq, exp, t
Za funkciju distribucije koje je strogo rastu¢a
F (x) = P(X ≤ x) = p,
funkcija kvantila jeQ(p) = x .
Op¢enito funkcija kvantila de�nira se kao
Q(p) = inf{x : F (x) ≥ p}.
Pouzdani intervali
Vratimo se na na² problem i uo£imo da je
P(g(X; θ) ≤ zα/2) = 1− α/2.
Budu¢i je g(X;µ) ∼ N (0, 1), onda je zα/2 upravo (1− α/2)-kvantilstandardne normalne distribucije
FN (0,1)(zα/2) = 1− α/2 ⇒
zα/2 = Q(1− α/2).
za 95%-tni pouzdani interval (α = 0.05)qnorm(0.975)
> 1.959964 ≈ 1.96
Pouzdani intervali
Kad je vrijednost zα/2 izra£unata, rje²avamo
−zα/2 ≤X̄n − µσ
√n ≤ zα/2
odakle slijedi
X̄n − zα/2σ√n≤ µ ≤ X̄n + zα/2
σ√n.
Pouzdani interval za o£ekivanje normalno distribuiranepopulacije (poznata varijanca)[
X̄n − zα/2σ√n, X̄n + zα/2
σ√n
].
Pouzdani intervali
Zadatak 1.
Uzora£ka sredina uzorka iz N (µ, 27) distribucije je X̄200 = 102. Na�iteinterval pouzdanosti za µ uz nivo pouzdanosti
(a) 0.95,
(b) 0.99,
Pouzdani intervali
Zadatak 2.
Simulirajte slu£ajan uzorak iz N (2, 2). Odredite 95%-tni intervalpouzdanosti za o£ekivanje. Promatrajte ²to se doga�a promjenomveli£ine uzorka.
Pouzdani intervali
Zadatak 3.
Neka je X ∼ N (µ, σ2) gdje je σ2 poznato. Kolika je vjerojatnost dainterval [
X̄n − kσ√n, X̄n + k
σ√n
]sadrºi µ?
Pouzdani intervali
Pouzdani interval za o£ekivanje normalno distribuiranepopulacije (NEpoznata varijanca)
Neka je (X1, . . . ,Xn) jednostavan slu£ajan uzorak iz N (µ, σ2) (σ2
nepoznato).
Pivotna veli£ina
g(X;µ) =X̄n − µS̃n
√n − 1 ∼ tn−1
ima Studentovu (t-distribuciju) s n − 1 stupnjeva slobode
tn−1 je simetri£na pa traºimo tn−1,α/2 takav da je
P(−tn−1,α/2 ≤ g(X;µ) ≤ tn−1,α/2) = 1− α.
Pouzdani intervali
tn-1,Α�2-tn-1,Α�2
1-Α
-3 -2 -1 0 1 2 3
0.1
0.2
0.3
0.4
Slika: Funkcija gusto¢e tn−1
Pouzdani intervali
Sli£no kao u prethodnom slu£aju, tn−1,α/2 ra£unamo sqt(1-alpha/2, n-1)
Pouzdani interval za o£ekivanje normalno distribuiranepopulacije (nepoznata varijanca)[
X̄n − tn−1,α/2S̃n√n − 1
, X̄n + tn−1,α/2S̃n√n − 1
].
Pouzdani intervali
Zadatak 4.
Simulirajte slu£ajan uzorak iz N (25, 2). Odredite 95%-tni i 99%-tniinterval pouzdanosti za o£ekivanje uz prepostavku da je varijanca tako�ernepoznati parametar.
Pouzdani intervali
Zadatak 5.
U datoteci visine.dat nalaze se podaci o visinama neke populacije.Pretpostavimo da su podaci normalno distribuirani. U£itajte podatke iodredite 95%-tni pouzdani interval za o£ekivanje.
Pouzdani intervali
Zadatak 6.
U R bazi podataka ChickWeight nalaze se podaci o teºinama pili¢amjerenima po danima od njihova ro�enja. Promotrimo samo teºine pili¢astarih to£no 18 dana.
a) Nacrtajte usporedno uzora£ku funkciju gusto¢e ovih podataka iteorijsku funkciju gusto¢e normalne distribucije s odgovaraju¢imo£ekivanjem i varijancom. Zaklju£ite da moºemo pretpostavitinormalnu distribuiranost teºine pili¢a.
b) Odredite 95%-tni pouzdani interval za o£ekivanje teºine pili¢a.
Pouzdani intervali
Pouzdani interval za varijancu normalno distribuiranepopulacije
Neka je (X1, . . . ,Xn) jednostavan slu£ajan uzorak iz N (µ, σ2).
Pivotna veli£ina
g(X;σ2) =(n − 1)S̃2
n
σ2∼ χ2
n−1
ima χ2 distribuciju s n − 1 stupnjeva slobode
Pouzdani intervali
Jednostrani pouzdani interval
Varijanca je nenegativna veli£ina, pa ima smisla traºiti interval oblika
[0,G (X)].
Traºimo hn−1,α takav da je
P(g(X;σ2) ≥ hn−1,α) = 1− α,
²to je ekvivalentno s
P(g(X;σ2) ≤ hn−1,α) = α,
Pouzdani intervali
hn-1,Α
1-Α
0 2 4 6 8 10 12
0.05
0.10
0.15
0.20
Slika: Funkcija gusto¢e χ2n−1
Pouzdani intervali
hn−1,α je α kvantil χ2n−1 distribucije
qchisq(alpha, n-1)
Sad slijedi
P
((n − 1)S̃2
n
σ2≥ hn−1,α
)= P
(σ2 ≤ (n − 1)S̃2
n
hn−1,α
)= 1− α.
Jednostrani pouzdani interval za varijancu normalnodistribuirane populacije[
0,(n − 1)S̃2
n
hn−1,α
].
Pouzdani intervali
Dvostrani pouzdani interval
χ2 distribucija nije simetri£na, pa za dvostrani pouzdani intervaltraºimo hn−1,α/2 i h′
n−1,α/2takav da je
P(g(X;σ2) ≤ hn−1,α/2) = α/2,
iP(g(X;σ2) ≥ h′
n−1,α/2) = α/2.
Pouzdani intervali
1-Α
h ’n-1,Α�2hn-1,Α�2
Α/2Α/2
0 2 4 6 8 10 12 14
0.05
0.10
0.15
0.20
Slika: Funkcija gusto¢e χ2n−1
Pouzdani intervali
hn−1,α/2 je α/2 kvantil χ2n−1 distribucije
qchisq(alpha, n-1)
h′n−1,α/2 je 1− α/2 kvantil χ2
n−1 distribucijeqchisq(1-alpha, n-1)
Dvostrani pouzdani interval za varijancu normalnodistribuirane populacije[
(n − 1)S̃2
n
h′n−1,α/2
,(n − 1)S̃2
n
hn−1,α/2
].
Pouzdani intervali
Zadatak 7.
Za podatke iz datoteke visine.dat odredite jednostrani i dvostrani95%-tni interval pouzdanosti za varijancu.
Pouzdani intervali
Zadatak 8.
Za podatke o teºini pili¢a starih 18 dana iz R baze ChickWeight odreditejednostrani i dvostrani 90%-tni interval pouzdanosti za varijancu.
Pouzdani intervali
Asimptotski pouzdani intervali
U mnogim problemima te²ko je na¢i pivotnu veli£inu £ija jedistribucija egzaktno poznata.
Tada koristimo aproksimativne pivotne veli£ine £ije su distribucijeasimptotski poznate pa pretpostavljamo da je uzorak velik.
Pri tome ¢e nam posebno koristan biti centralni grani£ni teorem:za n.j.d. X1, . . . ,Xn, EX1 = µ, Var(Xi ) = σ2 <∞ vrijedi
X̄n − µσ
√nD−→ N (0, 1).
Pouzdani intervali
Op¢enito, za nepoznati parametar θ i njegov procjenitelj θ̂ koji jeasimptotski normalan s o£ekivanjem θ i varijancom σ(θ),aproksimativnu pivotnu veli£inu moºemo postaviti u obliku
θ̂ − θσ(θ)
∼A N (0, 1).
Ako je iz pivotne veli£ine te²ko izraziti θ moºemo σ(θ) aproksimiratis procjenom σ(θ̂)
Za gore de�niranu pivotnu veli£inu postupamo kao kod traºenjapouzdanog intervala za o£ekivanje normalne distribucije.
Traºimo zα/2 takav da je
P
(−zα/2 ≤
θ̂ − θσ(θ)
≤ zα/2
)= 1− α.
Pouzdani intervali
Primjer 1. - parametar Bernoullijevog modela
(X1, . . . ,Xn) slu£ajan uzorak iz Bernoullijeve distribucije(0 1
1− θ θ
)Po centralnom grani£nom teoremu
X̄n − θ√θ(1− θ)
√n ∼A N (0, 1).
odakle se dobije (predavanja) pouzdani interval za θX̄n − zα/2
√X̄n(1− X̄n)
n, X̄n + zα/2
√X̄n(1− X̄n)
n
.
Pouzdani intervali
Zadatak 9.
�eli se procjeniti postotak pu²a£a u populaciji 18-godi²njih Britanaca. Naslu£ajan na£in odabran je uzorak 7383 osobe iz te populacije. U uzorku jebilo 32.8% pu²a£a. Procjeniti 95%-tni interval pouzdanosti za postotakpu²a£a u populaciji.
Pouzdani intervali
Zadatak 10.
U proizvodnom procesu u toku dana proizvedeno je 79 proizvoda, a odtoga su 3 neispravna. Procjenite vjerojatnost proizvodnje neispravnihproizvoda i odredite 99.8%-tni interval pouzdanosti.
Pouzdani intervali
Primjer 2. - parametar eksponencijalne distribucije
(X1, . . . ,Xn) slu£ajan uzorak iz eksponencijalne distribucije E(λ)
Po centralnom grani£nom teoremu
X̄n − 1
λ√1
λ2
√n ∼A N (0, 1).
odakle se dobije pouzdani interval za λ[1− zα/2√
n
X̄n
,1 +
zα/2√n
X̄n
].
Pouzdani intervali
Zadatak 11.
Generirajte slu£ajan uzorak iz E(λ = 2) distribucije i odredite 95%-tniinterval pouzdanosti za λ.
1
Vježbe 3. – pouzdani intervali
library(animation) #Animacija koja ilustrira značenje pouzdanog intervala: #Generira se 100 slučajnih uzoraka N(0,1) i za svaki od njih se izračuna 95%tni pouzdani interval za očekivanje 0 #približno 95 tih intervala sadrži 0, a približno 5 ih ne sadrži 0 #0 je stvarana vrijednsot parametra - ono što nam je u praksi nepoznato. ani.options(nmax = 100, interval = 0.15) conf.int(level=0.95) #Računanje s distribucijama (ponavljanje) dnorm(0, mean=0, sd=1) dnorm(0, 0, 1) pnorm(0, 0, 1) qnorm(0.5, 0, 1) ################################################################################# # Interval pouzdanosti za očekivanje normalne distribucije uz poznatu varijancu ################################################################################# #z_{0.05/2} za 95%tni interval pouzdanosti očekivanja normalne distribucije uz poznatu varijancu qnorm(0.975, 0, 1) #Ne moramo pisati 0, 1, jer su default vrijednosti za očekivanje i standardnu devijaciju normalne qnorm(0.975) #### Zadatak 1. #(a) alfa <- 0.05 (zalfa <- qnorm(1-alfa/2)) c(102-zalfa*sqrt(27)/sqrt(200), 102+zalfa*sqrt(27)/sqrt(200)) #(b) alfa <- 0.01 (zalfa <- qnorm(1-alfa/2)) c(102-zalfa*sqrt(27)/sqrt(200), 102+zalfa*sqrt(27)/sqrt(200)) #### Zadatak 2. set.seed(23454) #namješta generator random brojeva, tako da kad upišemo ovo svaki put generira isto n <- 10 #10000, 1000000 x <- rnorm(n,2,sqrt(2)) alfa <- 0.05 zalfa <- qnorm(1-alfa/2,0,1)
2
dg <- mean(x) - zalfa*sqrt(2)/sqrt(n) gg <- mean(x) + zalfa*sqrt(2)/sqrt(n) c(dg,gg) gg-dg #### Zadatak 3. pnorm(2,0,1)-pnorm(-2,0,1) pnorm(3,0,1)-pnorm(-3,0,1) ################################################################################# # Interval pouzdanosti za očekivanje normalne distribucije uz NEpoznatu varijancu ################################################################################# #t-distribucija qt(0.975, df=4) qt(0.975, 1000) #za veliki broj stupnjeva slobode, približno N(0,1) #### Zadatak 4. n <- 10 #10000, 1000000 x <- rnorm(n,25,sqrt(2)) alfa <- 0.05 talfa <- qt(1-alfa/2,n-1) dg <- mean(x) - talfa*sd(x)/sqrt(n-1) gg <- mean(x) + talfa*sd(x)/sqrt(n-1) c(dg,gg) gg-dg n <- 10 x <- rnorm(n,25,sqrt(2)) alfa <- 0.01 talfa <- qt(1-alfa/2,n-1) dg <- mean(x) - talfa*sd(x)/sqrt(n-1) gg <- mean(x) + talfa*sd(x)/sqrt(n-1) c(dg,gg) gg-dg #### Zadatak 5. #prvo postaviti radni direktorij visine <- read.table("visine.dat") str(visine) vis <- visine$V1 talfa <- qt(0.975,length(vis)-1) dg <- mean(vis) - talfa*sd(vis)/sqrt(length(vis)-1) gg <- mean(vis) + talfa*sd(vis)/sqrt(length(vis)-1) c(dg,gg) gg-dg #### Zadatak 6. str(ChickWeight)
3
tezine <- ChickWeight$weight[ChickWeight$Time==18] plot(density(tezine), col="red") curve(dnorm(x,mean(tezine),sd(tezine)), col="blue", add=T) n <- length(tezine) talfa <- qt(0.975,n-1) dg <- mean(tezine) - talfa*sd(tezine)/sqrt(n-1) gg <- mean(tezine) + talfa*sd(tezine)/sqrt(n-1) c(dg,gg) gg-dg ################################################################################# # Interval pouzdanosti za varijancu normalne distribucije ################################################################################# qchisq(0.05,4) qchisq(0.975,4) qchisq(0.025,4) #### Zadatak 7. visine <- read.table("visine.dat") str(visine) vis <- visine$V1 n <- length(vis) alfa <- 0.05 #jednostrani interval halfa <- qchisq(alfa, n-1) dg <- 0 #ili var(vis) umjesto sd(vis)^2 gg <- ((n-1)*var(vis))/halfa c(dg,gg) var(vis) #dvostrani interval halfa <- qchisq(alfa/2, n-1) halfa1 <- qchisq(1-alfa/2, n-1) dg <- ((n-1)*var(vis))/halfa1 #ili var(vis) umjesto sd(vis)^2 gg <- ((n-1)*var(vis))/halfa c(dg,gg) #### Zadatak 8. str(ChickWeight) tezine <- ChickWeight$weight[ChickWeight$Time==18] n <- length(tezine) alfa <- 0.05 #jednostrani interval halfa <- qchisq(alfa, n-1) dg <- 0 #ili var(vis) umjesto sd(vis)^2 gg <- ((n-1)*var(tezine))/halfa c(dg,gg)
4
var(tezine) #dvostrani interval halfa <- qchisq(alfa/2, n-1) halfa1 <- qchisq(1-alfa/2, n-1) dg <- ((n-1)*var(tezine))/halfa1 #ili var(vis) umjesto sd(vis)^2 gg <- ((n-1)*var(tezine))/halfa c(dg,gg) ################################################################################# # Asimptotski intervali pouzdanosti ################################################################################# #### Zadatak 9. #Bernoullijev model, svaka osoba iz uzorka je ili pušač (1) ili nepušač (0). n <- 7383 xn <- 0.328 #procjenjena vjerojatnost "uspjeha" - p alfa <- 0.05 zalfa <- qnorm(1-alfa/2) dg <- xn - zalfa*sqrt((xn*(1-xn))/n) gg <- xn + zalfa*sqrt((xn*(1-xn))/n) c(dg,gg) #### Zadatak 10. #Bernoullijev model, svaki proizvod iz uzorka je ili neispravan (1) ili ispravan (0). n <- 79 xn <- 3/79 #X_n je procjenitelj, u ovom slučaju to je relativna frekvencija - procjenjena vjerojatnost "uspjeha" - p alfa <- 1-0.998 zalfa <- qnorm(1-alfa/2) dg <- xn - zalfa*sqrt((xn*(1-xn))/n) gg <- xn + zalfa*sqrt((xn*(1-xn))/n) c(dg,gg) #možda bi jednostrani interval bio prikladniji... #### Zadatak 11. # x <- rexp(100,2) alfa <- 0.05 zalfa <- qnorm(1-alfa/2) dg <- (1-zalfa/sqrt(length(x)))/(mean(x)) gg <- (1+zalfa/sqrt(length(x)))/(mean(x)) c(dg,gg)