Download - biometrika 2010

Transcript
Page 1: biometrika 2010

Biometrika

Miroslav Kapš tel: 239-3949

e-mail: [email protected]

Page 2: biometrika 2010

ii

1 OPISNA STATISTIKA................................................................................................................................................. 1 1.1 PODACI I VARIJABLE.................................................................................................................................................. 1 1.2 GRAFIČKE METODE ZA OPIS PODATAKA..................................................................................................................... 2

1.2.1 Grafičke metode za opis kvalitativnih podataka ............................................................................................... 2 1.2.2 Grafičke metode za opis kvantitativnih podataka ............................................................................................. 3

1.3 NUMERIČKE METODE ZA OPIS KVANTITATIVNIH PODATAKA...................................................................................... 3 1.3.1 Mjere centralne tendencije ............................................................................................................................... 4 1.3.2 Mjere varijabilnosti .......................................................................................................................................... 5 1.3.3 Mjere relativnog položaja................................................................................................................................. 5

2 VJEROJATNOST ......................................................................................................................................................... 7 2.1 PRAVILA O VJEROJATNOSTI JEDNOSTAVNIH DOGAĐAJA............................................................................................. 7

2.1.1 Prikaz događaja i pripadajućih vjerojatnosti Stablo dijagramom (engl. tree diagram) .................................. 8 2.2 SLOŽENI DOGAĐAJI ................................................................................................................................................... 8

3 SLUČAJNE VARIJABLE I NJIHOVE RASPODJELE......................................................................................... 11 3.1 RASPODJELE VJEROJATNOSTI ZA DISKRETNE SLUČAJNE VARIJABLE ........................................................................ 12

3.1.1 Očekivanje i varijanca diskretne slučajne varijable....................................................................................... 13 3.1.2 Binomna raspodjela........................................................................................................................................ 13 3.1.3 Multinomna raspodjela................................................................................................................................... 16

3.2 RASPODJELE VJEROJATNOSTI ZA KONTINUIRANE SLUČAJNE VARIJABLE.................................................................. 16 3.2.1 Normalna raspodjela ...................................................................................................................................... 17 3.2.2 Još neke kontinuirane varijable i njihove raspodjele ..................................................................................... 24

4 POPULACIJA I UZORAK ........................................................................................................................................ 25 4.1 RASPODJELE VJEROJATNOSTI STATISTIKA ............................................................................................................... 26

4.1.1 Središnji granični teorem................................................................................................................................ 26 4.1.2 Neke statistike koje nemaju normalnu raspodjelu .......................................................................................... 26

4.2 STUPNJEVI SLOBODE................................................................................................................................................ 27 5 PROCJENA PARAMETARA.................................................................................................................................... 28

5.1 INTERVALNA PROCJENA .......................................................................................................................................... 28 5.2 PROCJENA PROSJEKA POPULACIJE............................................................................................................................ 28 5.3 PROCJENA VARIJANCE U NORMALNOJ POPULACIJI ................................................................................................... 30

6 PROVJERA HIPOTEZA ........................................................................................................................................... 31 6.1 PROVJERA HIPOTEZA O PROSJEKU POPULACIJE. ....................................................................................................... 31

6.1.1 P-vrijednost..................................................................................................................................................... 34 6.1.2 Jednostrana provjera...................................................................................................................................... 35 6.1.3 Provjera hipoteza o prosjeku populacije za mali uzorak (n<30) ................................................................... 35

6.2 PROVJERA HIPOTEZA O RAZLICI PROSJEKA DVIJU POPULACIJA................................................................................. 36 6.2.1 Provjera za veliki uzorak ................................................................................................................................ 36 6.2.2 Provjera za mali uzorak kada su varijance homogene (približno iste) .......................................................... 38

6.3 PROVJERA HIPOTEZA O PROPORCIJI POPULACIJE ...................................................................................................... 39 6.4 PROVJERA HIPOTEZA RAZLIKA DVIJU PROPORCIJA POPULACIJA ............................................................................... 41 6.5 HI-KVADRAT PROVJERA .......................................................................................................................................... 42 6.6 PROVJERA HIPOTEZA O RAZLICI VARIJANCI DVIJE POPULACIJE ................................................................................ 43 6.7 KORIŠTENJE INTERVALNE PROCIJENE U PROVJERI STATISTIČKIH HIPOTEZA ............................................................. 43 6.8 STATISTIČKA I PRAKTIČNA ZNAČAJNOST ................................................................................................................. 43 6.9 GREŠKE KOD STATISTIČKOG ZAKLJUČIVANJA I SNAGA PROVJERE............................................................................ 44

7 JEDNOSTAVNA LINEARNA REGRESIJA ........................................................................................................... 45 7.1 UVOD ...................................................................................................................................................................... 45 7.2 PROCJENA PARAMETARA Β0 I Β1 ............................................................................................................................... 47 7.3 OSTATAK................................................................................................................................................................. 49 7.4 STUDENTOVA T-PROVJERA ...................................................................................................................................... 50 7.5 INTERVAL POUZDANOSTI ZA Β1................................................................................................................................ 51 7.6 RAŠČLANJENJE UKUPNE VARIJABILNOSTI................................................................................................................ 52

Page 3: biometrika 2010

iii

7.6.1 Veza između suma kvadrata............................................................................................................................ 53 7.7 PROVJERA HIPOTEZA - F- PROVJERA........................................................................................................................ 53 7.8 KOEFICIJENT DETERMINACIJE (R2)........................................................................................................................... 54

8 KORELACIJA ............................................................................................................................................................ 56 9.1 PROCJENA KOEFICIJENTA KORELACIJE I PROVJERA HIPOTEZA.................................................................................. 57

10 JEDNOSTRUKA ANALIZA VARIJANCE ........................................................................................................... 59 10.1 MODEL JEDNOSTRUKE ANALIZE VARIJANCE S FIKSNIM UTJECAJIMA...................................................................... 60

10.1.1 Raščlanjenje ukupne varijabilnosti na izvore varijabilnosti: ....................................................................... 61 10.1.2 Postavljanje hipoteza i F-provjera ............................................................................................................... 63

10.2 USPOREDBA SREDNJIH VRIJEDNOSTI POJEDINIH GRUPA ......................................................................................... 65 10.2.1 Tukey provjera (HSD)................................................................................................................................... 65

Page 4: biometrika 2010

1

1 Opisna statistika

1.1 Podaci i varijable

Podaci: - prikupljaju se mjerenjem, brojanjem ili opažanjem, pa se često koristi i naziv mjerenje ili opažanje - skup težina teladi, skup mjerenja količina mlijeka u laktaciji, muški ili ženski spol, plava ili zelena boja očiju - "materijal" koji treba analizirati

Varijabla: - Označava skup podataka - Poprima različite vrijednosti

• vrijednosti varijable pokazuju varijabilnost • težina, količina mlijeka, spol, boja očiju

Podaci su vrijednosti koje varijabla poprima.

- težina od 200 kg, ili količina mlijeka od 20 kg.

VARIJABLE

KVALITATIVNE (ATRIBUTIVNE, KATEGORIČKE).

KVANTITATIVNE (NUMERIČKE)

NOMINALNE ORDINALNE DISKRETNE (PREKIDNE)

KONTINUIRANE (NEPREKIDNE)

VARIJABLE A) kvantitativne (numeričke)

- čije se vrijednosti prikazuju brojevima, a razlike između brojeva imaju numeričko značenje - težina životinja, broj mladih u leglu, temperatura, vrijeme a) diskretne (prekidne)

- poprimaju prebrojive vrijednosti - vrijednosti se mjere cijelim ili prirodnim brojevima - broj mladih u leglu, broj jaja

b) kontinuirane (neprekidne) - poprimaju beskonačno mnogo vrijednosti - vrijednosti se mjere realnim brojevima - količina mlijeka, težina

Page 5: biometrika 2010

2

B) kvalitativne (atributivne, kategoričke) - podaci su im opisni - boja očiju (npr. zelena, plava), te da li je životinja bolesna ili nije a) nominalne

- ne može se reći da je jedna kategorija veća ili manja od druge - boja očiju ili kože

b) ordinalne - kod kojih se kategorije mogu poredati po veličini - ocjene lakoće telenja

1.2 Grafičke metode za opis podataka

1.2.1 Grafičke metode za opis kvalitativnih podataka

Podaci: opisani brojem opažanja u pojedinoj kategoriji ili proporcijom od ukupnog broja opažanja. Frekvencija (učestalost): broj opažanja u toj kategoriji. Relativna frekvencija: proporcija od ukupnog broja opažanja koja ulazi u tu kategoriju. Grafički prikaz:

- stupići (horizontalni ili vertikalni) - ‘torta’ (engl. pie-chart).

62672

15195

3855

0 20000 40000 60000 80000

Simental

Holstein

Smeđa

Pasm

ina

Broj krava pod kontrolom

Slika 1-1:Broj krava pod kontrolom po pasminama (prikazano stupićima)

Simental

76%

Holstein19%

Smeđa5%

Slika 1-2: Postotak krava pod kontrolom po pasminama (‘torta’ grafikon)

Page 6: biometrika 2010

3

1.2.2 Grafičke metode za opis kvantitativnih podataka Histogram:

-raspodjela frekvencija nekog skupa podataka - podaci se svrstavaju u razrede - prikazuje broj opažanja u pojedinom razredu - prava ili relativna frekvencija

Konstrukcija histograma: 1. Izračunaj raspon:

Raspon = Najveće opažanje - najmanje opažanje 2. Podjeli raspon u pet do 20 razreda. Na taj način se dobije širina pojedinog razreda. Širina razreda se

zaokruži na neki odgovarajući broj. 3. Za svaki razred prebroje se opažanja koja ulaze u taj razred. Taj broj se zove (prava) frekvencija pojedinog

razreda. 4. Izračunaj za svaki razred relativnu frekvenciju: Relativna frekvencija = prava frekvencija / ukupan broj opažanja 5. Histogram je zapravo grafikon gdje su na jednoj osi granice razreda, a na drugoj frekvencije prikazane kao

stupići.

1 1

5

8 86

12

16

12

7 78

2

5

2

02468

10121416

190 200 210 220 230 240 250 260 270 280 290 300 310 320 330

Sredine razreda

Bro

j tel

adi

Slika 1-3: Histogram težine teladi u dobi od 7 mjeseci (n=100)

1.3 Numeričke metode za opis kvantitativnih podataka

NUMERIČKE OPISNE MJERE A) Mjere centralne tendencije

- Aritmetička srednja vrijednost - Medijan - Mode

B) Mjere varijabilnosti - Raspon - Varijanca - Standardna devijacija - Koeficijent varijabilnosti

C) Mjere relativnog položaja - Percentili - z-vrijednost

Prije detaljnijeg opisa numeričkih metoda definirajmo simbole koje ćemo često koristiti:

Σi = veliko grčko slovo sigma = oznaka za sumu i = 1 do n

Page 7: biometrika 2010

4

Suma n brojeva:

Σ i yi = y1 + y2 +.....+ yn

Suma kvadrata n brojeva:

Σi y2i = y2

1 + y22 +.....+ y2

n Suma produkata dva niza brojeva:

Σi xiyi = x1y1 + x2y2 +.....+ xnyn Primjer: y y1 y2 y3 2 4 6

x x1 x2 x3 3 6 7

Σ i yi = y1 + y2 + y3 = 2 + 4 +6 = 12

Σi y2i = y2

1 + y22 + y2

3 = 22 + 42 +62 = 56

Σi xiyi = x1y1 + x2y2 + x3y3 = (3)(2) + (6)(4) +(7)(6) = 72 1.3.1 Mjere centralne tendencije Aritmetička srednja vrijednost:

n

yy i i∑=

Svojstva aritmetičke srednje vrijednosti:

1. ( )∑ =−i i yy 0 Zbroj odstupanja opažanja od aritmetičke srednje vrijednosti je jednak nuli.

2. ( )∑ =−i i yy minimum2 Zbroj kvadriranih odstupanja opažanja od aritmetičke srednje vrijednosti je

najmanji u odnosu na bilo koji zbroj kvadriranih odstupanja od bilo kojeg drugog broja a tj. ( ) ( )∑∑ −<−

i ii i ayyy 22 , za bilo koji broj a. Medijan (med) uzorka od n opažanja y1,y2,...,yn je vrijednost opažanja koje se nalazi u sredini kad su

opažanja poredana po veličini. • Ako je n neparan:

Med = y(n+1)/2 • Ako je n paran:

( )

2222 ++

= nn yyMed gdje je n ukupan broj opažanja

Mode uzorka od n opažanja y1,y2,...,yn je vrijednost opažanja koje se javlja u najvećoj frekvenciji.

Page 8: biometrika 2010

5

1.3.2 Mjere varijabilnosti

Raspon = razlika najvećeg i najmanjeg opažanja. Varijanca uzorka (s2):

Ako se i prosjek izračunava iz istog uzorka kao y

1

)( 22

−= ∑

n

yys i i

Ako je od prije poznat prosjek µ i ne računa se iz istog uzorka

n

ys i i∑ −

=2

2)( µ

Varijanca je prosječno kvadrirano odstupanje od prosjeka

Izraz ∑ −i i yy 2)( je Suma kvadriranih odstupanja od srednje vrijednosti (korigirana suma kvadrata).

Kratki način računanja:

( )ny

yyy i i

i ii i

2

22)( ∑∑∑ −=−

Standardna devijacija uzorka (s)

2ss =

Standardna devijacija je prosječno odstupanje od prosjeka Koeficijent varijabilnosti:

100%s Cvy

=

- relativna mjera varijabilnosti. 1.3.3 Mjere relativnog položaja

Percentili: Vrijednost opažanja yi za koju postoji p % opažanja s vrijednosti manjom od yi.

Npr. 25% percentil je vrijednost varijable za koju vrijedi da ima 25% opažanja manjeg od tog broja

- donji kvartil je 25%-ti percentil - gornji kvartil je 75%-ti percentil - medijan je 50%-ti percentil.

z vrijednost: odstupanje opažanja yi od prosjeka izražena u standardnim devijacijama:

syyz i

i−

=

Page 9: biometrika 2010

6

Primjer: Izračunajte aritmetičku srednju vrijednost, varijancu, standardnu devijaciju, koeficijent varijabilnosti, medijan i mode za slijedeći uzorak težine teladi: 260 260 230 280 290 280 260 270 260 300 280 290 260 250 270 320 320 250 320 220 Aritmetička srednja vrijednost:

ny

y i i∑=

5470220...260260 =+++=∑i iy

5.27320

5470==y

Varijanca uzorka: ( )

11)(

222

2

−=

−=

∑∑∑n

ny

y

nyy

si i

i ii i

1510700)220...260260( 2222 =+++=∑i iy

( )32.771

1920

547015107002

2 =−

=s

Standardna devijacija uzorka:

77.273158.7712 === ss Koeficijent varijabilnosti:

%15.10%100273.527.77 100%s ===

yCv

Poredajmo podatke po veličini: 220 230 250 250 260 260 260 260 260 270 270 280 280 280 290 290 300 320 320 320 Mode je 260 jer je to vrijednost sa najvećom frekvencijom (5 puta). Budući da je n = 20, paran broj, medijan je prosjek (n+2)/2 = 11-tog i n/2 = 10-tog opažanja kada su opažanja poredana po veličini. Ovdje su vrijednosti tih opažanja 270 i 270 i njihov prosjek je 270. Dakle medijan je 270.

Page 10: biometrika 2010

7

2 Vjerojatnost

Pojam vjerojatnosti: koliko je vjerojatno da će se dogoditi neki događaj (određeni rezultat) Vjerojatnost:

- A-priori – ono što znamo od prije (logičkim razmišljanjem, iskustvom) - A-posteriori – ono što saznamo iz pokusa (opažanja)

Pokus: definiranje procesa te mjerenje ili opažanje događaja

– Bacimo kocku i promatramo događaj (rezultat) Jednostavni (elementarni) događaj, Ei:

– ne može se podijeliti na jednostavnije događaje u definiranom pokusu – Primjer 1: pokus se sastoji od bacanja jedne kocke. Rezultat (događaj) da dobijemo 6 je

jedan od jednostavnih događaja – Primjer 2: pokus se sastoji od bacanja dvije kocke. Rezultat (događaj) da dobijemo dvije

šestice je jedan od jednostavnih događaja Prostor događaja (engl. sample space):

– skup svih mogućih jednostavnih događaja (svih rezultata) – Primjer: bacanje jedne kocke: skup svih mogućih jednostavnih događaja (prostor događaja)

je {1,2,3,4,5,6}. Općenito je događaj neki skup jednostavnih događaja Pitanje je koja je vjerojatnost događaja? Koja je vjerojatnost jednostavnog događaja? Oznake

Jednostavni (elementarni) događaj Ei Vjerojatnost jednostavnog događaja P(Ei) Događaj A, vjerojatnost P(A)

Matematički vjerojatnost (P) je:

• nmP =

m = broj jednostavnih događaja u željenom događaju A n = ukupan broj jednostavnih događaja Vjerojatnost P možemo definirati i kao:

• nmP =

m = broj povoljnih pokušaja (povoljnih rezultata) n = ukupan broj pokušaja

2.1 Pravila o vjerojatnosti jednostavnih događaja

1). 0 ≤ P(Ei) ≤ 1, Vjerojatnost može biti između 0 i 1 (ili 0 i 100%) 2). Σi P(Ei) = 1, Zbroj vjerojatnosti svih jednostavnih događaja je jednak 1 (ili 100%)

Općenito je neki događaj A skup jednostavnih događaja

• Vjerojatnost događaja A: P(A) = Suma vjerojatnosti jednostavnih događaja sadržanih u događaju A

Page 11: biometrika 2010

8

Primjer: 2.1.1 Prikaz događaja i pripadajućih vjerojatnosti Stablo dijagramom (engl. tree

diagram) Primjer: Imamo tri boksa s životinjama 1,2,3 u prvom boksu, životinjama A, B i C u drugom boksu i

životinjama x i y u trećem boksu. Boks I: 1,2,3 Boks II: A,B,C Boks III: x,y Pokus se sastoji od slučajnog izbora po jedne životinje i svakog boksa. Broj svih mogućih trojki je: 3x3x2=18 Stablo dijagramom se to može ovako prikazati: Boks I Boks II Boks III A x B C 1 A y B C A x B C 2 A y B C A x B C 3 A y B C

Ako se svakom pojedinačnom događaju pridruži njegova vjerojatnost tada se takav dijagram zove stablo

vjerojatnosti (engl. probability tree diagram).

2.2 Složeni događaji

-Događaji koji se sastoje iz dva ili više događaja. Presjek događaja = A ∩ B

- da se dogode i jedan i drugi događaj Unija događaja = A ∪ B

- da se dogode jedan ili drugi Vjerojatnost presjeka = P(A ∩ B) Vjerojatnost unije = P(A ∪ B). komplement događaja A = Ac

- događaj da se ne dogodi A

Page 12: biometrika 2010

9

Skup BSkup A

62 4 5 4

6

2 4 56

A ∩ B

A ∪ B

Slika 2-1: Unija i presjek dva skupa Uvjetovana vjerojatnost :

- vjerojatnost da će se neki događaj dogoditi ako su zadovoljeni neki uvjeti - vjerojatnost da će se dogoditi događaj B ako se zna da se je već dogodio događaj A.

( ))(

)(|AP

BAPABP ∩=

Nezavisni događaj Pretpostavimo dva događaja A i B. Ako su događaji nezavisni tada je: P(B | A) = P(B) i P(A | B) = P(A) Vjerojatnost od B ne ovisi o vjerojatnosti od A, i obratno. Vjerojatnost da se oba događaja dogode: P(A ∩ B) = P(A) P(B) Primjer nezavisnih događaja: Dva puta bacimo kocku. Koja je vjerojatnost da dobijemo dvije šestice? Označimo prvo bacanje kao događaj A i drugo bacanje kao događaj B. Tražimo vjerojatnost P(A ∩ B). Vjerojatnost svakog događaja za sebe je: P(A) = 1/6 i P(B) = 1/6. Budući da su događaji nezavisni: P(A ∩ B) = P(A) P(B) = (1/6) (1/6) = (1/36). Vjerojatnost da u dva bacanja dobijemo dvije šestice je (1/36). Zavisni događaji Ako su događaji zavisni, na primjer događaj B zavisi o događaju A, tada je:

( ))(

)(|AP

BAPABP ∩=

Posljedično vjerojatnost da se oba događaja dogode: P(A ∩ B) = P(A) P(B|A)

Page 13: biometrika 2010

10

Primjer zavisnih događaja: Iz skupa od 52 karte biramo dvije karte. Kolika je vjerojatnost da obje karte budu asovi? Označimo prvo uzimanje karte kao događaj A, a drugo uzimanje karte kao događaj B. Podsjetimo se da u skupu karata ima četiri asa. Tražimo vjerojatnost P(A ∩ B). Događaji su očito zavisni, odnosno biranje druge karte zavisi koja je karta izvučena prva. P(A = As) = (4/52) = (1/13) P(B = As | A = As) = (3/51), tj. ako je kao prva karta izvučen as ostala je 51 karta i 3 asa. Dakle: P(A ∩ B) = P(A) P(B|A) = (4/52) (3/51) = (1/221). Vjerojatnost da se izvuku dva asa je (1/221).

Page 14: biometrika 2010

11

3 Slučajne varijable i njihove raspodjele

Slučajna varijabla: matematički pojam, govori kako se opažanju pridružuje numerička vrijednost • Vrijednost koju varijabla poprima smatra se slučajnim procesom (događajem)

– Na primjer: izmjerimo tele i vidimo da je teško 180 kg. Međutim ne znamo zašto baš ima 180 kg.

– Barem dio te vrijednosti zato smatramo slučajnim • Slučajna varijabla poprima određenu numeričku vrijednost s određenom vjerojatnosti

Oznake koje ćemo koristiti: y – varijabla yi predstavlja vrijednost i-tog opažanje

- određeno opažanje: y1, y2 y ≤ y0 - sve vrijednosti koje su manje ili jednake od y0 Slučajne varijable

Kontinuirana (neprekidna) - sve vrijednosti u nekom intervalu - realni brojevi - težina teladi starih 6, bilo koja vrijednost u intervalu od 160 do 260 kg, recimo 180.0 ili 191.23456

Diskretna (prekidna) - poprima samo određeni broj vrijednosti u nekom intervalu - NE sve vrijednosti - često cijeli brojevi - broj latica u cvijetu, broj mladih u leglu

Vrijednost varijable y

- numerički događaj - ima određenu vjerojatnost da se dogodi

Raspodjela vjerojatnosti slučajne varijable y: - tablica, grafikon ili formula koja pokazuje vjerojatnost da y poprimi određenu vrijednost

• Raspodjela vjerojatnosti slučajne varijable s konačnim ili prebrojivim vrijednostima je raspodjela

frekvencija • Raspodjela vjerojatnosti se često može prikazati formulom (funkcijom)

- Matematički model prave raspodjele frekvencija - Procjena prave raspodjele frekvencija - Funkcija slučajne varijable: p(y) ili f(y)

• Za raspodjelu se koristi i riječ distribucija. Očekivanje (prosjek) i varijanca slučajne varijable su pokazatelji položaja i varijabilnosti. Očekivanje (prosjek): E(y) = µy = µ Varijanca: Var(y) = σ2

y =σ2 (Sjetite se da je varijanca prosječno kvadrirano odstupanje od prosjeka)

Standardna devijacija je drugi korijen iz varijance:

2 σσ =

Page 15: biometrika 2010

12

3.1 Raspodjele vjerojatnosti za diskretne slučajne varijable

- tabelarni ili grafički prikaz ili formula koja daje vjerojatnost p(y) za svaku moguću vrijednost varijable y. Uvjeti: 1). 0 ≤ p(y) ≤ 1 Vjerojatnost može biti između 0 i 1 (ili 0 i 100%)

2). Σ(svi y) p(y) =1 Zbroj vjerojatnosti svih jednostavnih događaja je jednak 1 (ili 100%) Kumulativna raspodjela vjerojatnosti F(yi) F(yi) = P(y ≤ yi) Primjer: Pogledajmo na jednostavnom primjeru raspodjelu vjerojatnosti i način provjeravanja uvjeta. Pokus se sastoji od bacanja dva novčića. Neka G i P označavaju glavu i pismo. Slučajna varijabla y definirana je kao broj glava u jednom bacanju dva novčića. Mogući rezultati su 0, 1, i 2. Koja je raspodjela vjerojatnosti za varijablu y? Napišimo radi preglednosti pokus u tablici. Označimo jednostavne događaje sa E1, E2, E3 i E4. Naime imamo četiri moguća jednostavna događaja GG, GP, PG, i PP. Jednostavni događaj Opis y p(y) E1 GG 2 1/4 E2 GP 1 1/4 E3 PG 1 1/4 E4 PP 0 1/4 Iz tablice slijedi: Vjerojatnost da je y = 0 je p(y = 0) = p(E1) = 1/4 . Vjerojatnost da je y = 1 je p(y = 1) = p(E2) + p(E3) = 1/4 + 1/4 = 1/2 . Vjerojatnost da je y = 2 je p(y = 2) = p(E4) = 1/4. Dakle raspodjela vjerojatnosti varijable y je: y p(y) 0 1/4 1 1/2 2 1/4 Provjerimo uvjete: 1) Vjerojatnost svake vrijednosti varijable je između 0 i 1, 2) Suma vjerojatnosti svake vrijednosti varijable y je jednaka 1, tj. p(y = 0) + p(y = 1) + p(y = 2) = 1. Koristeći gornji primjer sa bacanjem dva novčića, odredimo kumulativnu raspodjelu. y p(y) F(y) 0 1/4 1/4 1 1/2 3/4 2 1/4 4/4 Kumulativna vjerojatnost F(1) = 3/4, praktično znači koja je vjerojatnost da y bude 0 ili 1, tj. koja je vjerojatnost da u bacanju dva novčića bude barem jedno pismo.

Page 16: biometrika 2010

13

3.1.1 Očekivanje i varijanca diskretne slučajne varijable Očekivanje (prosjek):

µ =E(y)= Σi p(yi) yi. i = 1 do n -Suma produkata svih vrijednosti varijable i pripadajućih vjerojatnosti

Varijanca:

Var(y) = σ2 = E(y-E(y))2 = Σi p(yi) (yi-E(y))2 i = 1 do n -Suma produkata svih kvadriranih odstupanja vrijednosti varijable od prosjeka i pripadajućih

vjerojatnosti Primjer: Pogledajmo izračunavanje očekivanja i varijance na primjeru sa bacanjem dva novčića: Raspodjela vjerojatnosti varijable y je: y p(y) 0 1/4 1 1/2 2 1/4 Očekivanje: µ =E(y)= Σi p(yi) yi = (1/4) (0)+ (1/2) (1) + (1/4) (2) = 1 Očekujemo da u bacanju dva novčića dobijemo jedno pismo i jednu glavu. Varijanca: var(y) = σ2 = Σi p(yi) [yi-E(y)]2 = (1/4) (0-1)2 + (1/2) (1-1)2 + (1/4) (2-1)2 = (1/2) Primjeri diskretnih varijabli: Binarna varijabla

- samo dva moguća rezultata neke pojave u pojedinačnom opažanju (pokušaju) - DA – NE, 0 - 1, bolestan – zdrav i sl.

Binomna varijabla -Broj povoljnih pokušaja (y) u ukupno n pokušaja

-broj ženske teladi u 4 telenja -broj bijelih praščića u leglu

3.1.2 Binomna raspodjela Raspodjela vjerojatnosti binomne varijable

Značajke: 1. Postoji n jednakovrijednih pokušaja, nezavisnih jedan o drugome 2. Postoji samo dva moguća rezultata pojedinačnog pokušaja ( Da ili Ne; 0 ili 1, itd) 3. Vjerojatnost da dobijemo Da je ista iz pokušaja u pokušaj. Označit ćemo ga sa p. Vjerojatnost od Ne

označit ćemo sa q. Vrijednost q = 1 - p 4. Slučajna varijabla y je broj povoljnih rezultata (Da) u ukupno n pokušaja

Page 17: biometrika 2010

14

Raspodjela vjerojatnosti prikazana funkcijom: - određena parametrom p i brojem pokušaja n:

ynyqpyn

yp −

=)(

(y = 0,1,2,,...., n) p = vjerojatnost povoljnog rezultata u pojedinačnom opažanju (pokušaju) q = 1 - p = vjerojatnost nepovoljnog rezultata u pojedinačnom opažanju (pokušaju)

Izraz

yn

se čita n povrh y i jednak je:

)!(!!

ynyn

yn

−=

Također je

nnn ⋅−⋅⋅⋅= )1(...21! , odnosno yyy ⋅−⋅⋅⋅= )1(...21! i ( ) )()1(...21! ynynyn −⋅−−⋅⋅⋅=− Definirano je za nulu: 0! =1 Očekivanje i varijanca: µ = E(y) = np σ2 = var(y) = npq Oblik raspodjele vjerojatnosti ovisi o p:

- binomna raspodjela je simetrična kada je p = 0.5 - asimetrična u svim ostalim slučajevima

00.050.1

0.150.2

0.250.3

0 1 2 3 4 5 6 7 8broj povoljnih pokušaja

frekvencija

A)

0

0.1

0.2

0.3

0.4

0 1 2 3 4 5 6 7 8

broj povoljnih pokušaja

frekvencija

B)

Slika 3-1: Binomna raspodjela (n = 8) za dva slučaja A) p=0.5 i B) p = 0.2

Primjer: Treba pronaći raspodjelu vjerojatnosti broja ženskih teladi u tri teljenja. Pretpostavimo da će se oteliti samo jedno tele kod svakog teljenja i da je vjerojatnost u jednom teljenju da bude žensko p = 0.5. Slučajna varijabla y je definirana kao broj ženskih teladi u tri teljenja. Mogući rezultati su 0, 1, 2 i 3. Očito da je raspodjela vjerojatnosti binomna s definiranim p = 0.5 i n = 3:

yy

yyp −

= 3)5.0()5.0(

3)(

(y = 0,1,2,3)

Page 18: biometrika 2010

15

Prikažimo u tablici moguće vrijednosti y i pripadajuće vjerojatnosti: y p(y)

125.081)5.0()5.0(

03

0 30 ==

375.083)5.0()5.0(

13

1 21 ==

375.083)5.0()5.0(

23

2 12 ==

125.081)5.0()5.0(

33

3 03 ==

Suma vjerojatnosti svih mogućih vrijednosti slučajne varijable y je: Σi p(yi) = 1 Grafikon:

Primjer: Koja je vjerojatnost da u tri teljenja bude najmanje 2 ženska teleta? Najmanje 2 znači ili 2 ili 3. Znači treba izračunati vjerojatnosti za y = 2 i y = 3 i te vjerojatnosti zbrojiti.

375.083)5.0()5.0(

23

2 12 ==

125.081)5.0()5.0(

33

3 03 ==

P(y ≥ 2) = p(y = 2) + p(y = 3) = 3/8 + 1/8 = 4/8 = 1/2 = 0.5

p(y)

0.125

0.375 0.375

0.125

0.0000.1000.2000.3000.400

0 1 2 3

y

0123

p(y)

0.125

0.375 0.375

0.125

0.000 0.100 0.200 0.300 0.400

0 1 2 3 y

Page 19: biometrika 2010

16

3.1.3 Multinomna raspodjela - Uopćavanje binomne raspodjele. - Postoji k različitih rezultata pojedinog pokušaja svaki sa svojom vjerojatnosti: p1, p2,...., pk. Pojedinačni

pokušaji su nezavisni. - Slučajne varijable su broj pojedinih rezultata u n pokušaja, tj., y1 za rezultat 1, y2 za rezultat 2, ...., yk za

rezultat k. - Funkcija raspodjele vjerojatnosti je:

kyk

yy

kk ppp

yyynyyyp ...

!!.....!!),...,,( 21

2121

21 =

Također mora vrijediti:

1. n = y1 +y2+ ... + yk 2. p1 + p2+ ... + pk = 1

Svaki događaj ima svoj prosjek i varijancu. Za događaj i prosjek i varijanca su:

µi = npi σ2

i = npi(1-pi) Primjer: Teškoća sa kojom se krava oteli je definirana u tri kategorije: 1 2 3. Koja je vjerojatnost da od 10 krava 8 bude u prvoj kategoriji a po jedna u ostale dvije kategorije, ako se zna da je vjerojatnost jednog teljenja da bude u kategorijama 1, 2 ili 3 jednaka 0.6, 0.3 i 0.1? Koliki je očekivani broj u pojedinim kategorijama? p1 = 0.6, p2 = 0.3, p3 = 0.1

321 y3

y2

y1

321321 ppp

!!!!),,(

yyynyyyp =

0.045 (0.1)(0.3) (0.6)!1 !1 !8

! 10)1,1,8( 118321 ===== yyyp

Vjerojatnost da od 10 krava točno 8 bude u kategoriji 1, a po jedan u ostale dvije kategorije je 0.045. µi = npi µ1 = np1 = 10 (0.6) = 6, µ2 = np2 = 10 (0.3) = 3, µ3 = np3 = 10 (0.1) = 1 Od 10 životinja očekivani broj životinja u kategorijama 1, 2 i 3 su 6, 3 i 1.

3.2 Raspodjele vjerojatnosti za kontinuirane slučajne varijable

Kontinuirana slučajna varijabla: - poprima neprebrojivo mnogo vrijednosti - nemoguće je pridružiti vjerojatnost za svaki pojedinačni numerički događaj - teorijski vrijednost kontinuirane varijable je točka, a matematički točka nema dimenzije - vjerojatnost da slučajna varijabla poprimi neku određenu vrijednost je jednaka nuli

Page 20: biometrika 2010

17

VAŽNO:

- promatrati vjerojatnost da varijabla y poprima vrijednosti u nekom intervalu - vjerojatnost se pridružuje numeričkom događaju koji se odnosi na neki interval

Primjer: težina teladi. - vrijednosti koje se pridružuju pojedinom mjerenju zavise od preciznosti mjerenja - Ako npr. preciznost na 1 kg, tada izmjera od 220 kg znači sve mjere od 219.5 do 220.5 kg - Budući da se radi o intervalu ==> događaj ima vjerojatnost Funkcija vjerojatnosti gustoće – govori o raspodjeli vjerojatnosti Gustoća = podsjetnik da govorimo o vjerojatnosti u intervalima Funkcija gustoće = model prave (nepoznate) raspodjele frekvencije Svojstva funkcije gustoće: 1. f(yi) ≥ 0 2. P(-∝ ≤ y ≤ +∝) = 1 (vjerojatnost da se dogodi bilo koji y je jednaka 1)

3.2.1 Normalna raspodjela - model raspodjele relativnih frekvencija u mnogim pojavama. - normalnu raspodjelu slijede mnogi pokazatelji koji se koriste za statističko zaključivanje. - normalna krivulja = Gaussova krivulja - oblik zvona.

f(y)

Slika 3-2: Normalna (Gaussova) krivulja

Položaj i oblik normalne krivulje je određen sa dva parametra, prosjekom µ i variajncom σ2. • Prosjek µ je parametar položaja • Varijanca σ2 je parametar disperzije (raširenosti, varijabilnosti)

(Podsjetimo se da je standardna devijacija: 2σσ = ) Funkcija gustoće je:

− −

=

2

21

22

1)(σ

µ

πσ

y

eyf

-∝ < y < +∝

e = baza prirodnog logaritma (e = 2.71828...) π = 3.14...

µ

Page 21: biometrika 2010

18

- Visina i raspršenost krivulje ovisi o varijanci σ2 - Povećanje varijance - krivulja je više raširena.

0

0.1

0.2

0.3

0.4

-4 -3 -2 -1 0 1 2 3 4

Frrekvencija

σ = 1σ = 1.5

Slika 3-3: Normalne krivulje sa parametrima σ = 1 i σ = 1.5

Još neke značajke:

- krivulja je simetrična s obzirom na prosjek - u intervalu µ±1.96σ nalazi se 95% opažanja.

Svojstva normalne funkcije (kao i za sve funkcije gustoće): 1. f(yi) ≥ 0 2. P(-∞≤ y ≤ +∞) = 1

Vjerojatnost da varijabla y poprima vrijednosti u intervalu (y1, y2) jednaka je površina ispod normalne

krivulje ograničena tim vrijednostima y1 i y2. (Uzima se da je ukupna površina 1 ili 100%) Ta površina je jednaka proporciji onih opažanja s vrijednosti između y1 i y2 u odnosu na sva opažanja.

Primjer: Koja je vjerojatnost da slučajno izabrana jedinka ima vrijednosti između 170 i 210: Drugim riječima: Koja je proporcija jedinki s vrijednostima između 170 i 210 Vjerojatnost da y bude između 170 i 210 kg: P(y1 ≤ y ≤ y2) = P(170 ≤ y ≤ 210)

µ = 200

y1 = 170 y2 = 210

Slika 3-4: Površina ispod normalne krivulje ograničena vrijednostima 170 i 210

Kumulativna normalna raspodjela

F(y0) = P(y ≤ y0)

Page 22: biometrika 2010

19

Vjerojatnost da slučajno izabrani y ima vrijednost manju od y0 (Proporcija jedinki koje imaju vrijednost veću od y0) Primjer: Vjerojatnost da y < 230

µ = 200 0y = 230

Slika 3-5: Normalna krivulja sa µ = 200 i σ = 20

Iscrtana površina = vrijednost kumulativne raspodjele za y0 = 230: F(y0) = P(y ≤ y0) = P(y ≤ 230)

Primjer: F(µ) = P(y ≤ µ) = 0.5

(jer je krivulja simetrična) Standardizacija normalnih krivulja Budući da oblik krivulje ovisi samo o varijanci, odnosno standardnoj devijaciji, sve normalne krivulje se mogu standardizirati, tj. prevesti u standardnu normalnu krivulju Standardizacija: slučajna normalna varijabla y se izrazi u jedinicama standardne devijacije:

σµ−

=yz

Standardna normalna je dakle takva normalna krivulja kojoj je prosjek 0 i standardna devijacija je 1 Funkcija gustoće standardne normalne varijable je:

[ ]221

21)( zezf −

Page 23: biometrika 2010

20

0 -1 z

1

Slika 3-6: Standardna normalna krivulja (µ = 0 i σ = 1)

Površina ispod standardne normalne krivulje ograničena sa dvije vrijednosti standardne normalne varijable z1

i z2, predstavlja vjerojatnost da varijabla poprima vrijednosti između ta dva broja. (isto kao i za svaku normalnu krivulju)

Praktična vrijednost standardizacije je u tome što za pronalaženje površine ispod krivulje ograničenu nekim intervalom koristimo samo jednu krivulju. Podsjetimo se da površina ispod krivulje u nekom intervalu (y1,y2) odgovara vjerojatnosti da slučajna varijabla y poprima vrijednosti u tom intervalu. Matematički površina ispod krivulje je jednaka određenom integralu funkcije gustoće. Kako ne postoji eksplicitna formula za taj integral, služimo se tablicama (bilo iz knjige ili kompjuterskog programa). Pošto je moguće sve normalne krivulje svesti na standardnu, potrebno je imati samo jednu tablicu. Naime vjerojatnost da y poprima vrijednosti između y1 i y2 je: P(y1 ≤ y ≤ y2) = P(z1 ≤ z ≤ z2) gdje su

σµ−

= 11

yz i σ

µ−= 2

2yz

Ne zaboravite da dogovorno uzimamo da je ukupna površina jednaka jedan:

P(-∞≤ z ≤ +∞) = 1 Primjer: Izračunajmo vjerojatnosti iz primjera sa µ = 200 kg i σ = 20 kg. Kolika je vjerojatnost da varijabla y poprimi vrijednosti veće od 230 kg? Kolika je vjerojatnost da varijabla y poprimi vrijednosti manje od 230 kg? Zadano je: µ = 200 kg σ = 20 kg y0 = 230 kg

Page 24: biometrika 2010

21

µ = 200 0 y = 230 y

Prvo treba odrediti kolika je vrijednost standardne normalne varijable, recimo z0, koja odgovara vrijednosti y0 = 230 kg.

20200230z0

−= = 1.5

Drugim riječima, to znači da je 230 udaljen 1.5 standardnih devijacija od prosjeka.

0 Z0 = 1.5 z

Vjerojatnost da je y veći od y0 je jednaka vjerojatnosti da je z veći od z0. P (y > y0) = P(z > z0) = 0.0668 Broj 0.0668 se pročita u tablici (Prilog: Površine ispod standardne normalne krivulje) za vrijednost z0 = 1.5. Pošto je ukupna površina jednaka jedan tada je vjerojatnost da je y manje od 230 kg jednaka: P(y ≤ y0) = P(z ≤ z0) = 1 - P(z > 1.5) = 1 - 0.0668 = 0.9332 Primjer: Iz normalne raspodjele sa parametrima µ = 200 kg i σ = 20 kg, odredimo vjerojatnost da varijabla poprima vrijednosti od 170 do 210 kg. Dakle: y1 = 170 kg y2 = 210 kg

µ = 200

y1 = 170 y2 = 210

Izračunamo odgovarajuće standardizirane vrijednosti, recimo z1 i z2:

Page 25: biometrika 2010

22

20200170z1

−= =-1.5

20200210z2

− = 0.5

Dakle, treba naći vjerojatnost da varijabla poprima vrijednosti između -1.5 i 0.5 standardnih devijacija.

0

z1 = -1.5 z2 = 0.5 z

Ne zaboravimo da je normalna krivulja simetrična, a to znači da vrijedi: P(z ≤ -z0) = P(z ≥ z0) ili za naš primjer P(z ≤ -1.5) = P(z ≥ 1.5) Vjerojatnost da je y između 170 i 210 je: P(y1 ≤ y ≤ y2) = P(170 ≤ y ≤ 210) = P(z1 ≤ z ≤ z2) = P(-1.5 ≤ z ≤ 0.5) = 1 – (0.0668 + 0.3085) = 0.6247 Primjer: Iz normalne raspodjele sa parametrima µ = 200 i σ = 20, treba odabrati 20% najboljih jedinki. Koja će biti teoretska donja granica sa kojom bi životinja ušla u najboljih 20%. Definiranjem 20% najboljih jedinki određena je proporcija odnosno površina ispod standardne normalne krivulje od nekog broja z0 do beskonačnosti: P(z0 ≤ y ≤ +∞ ) = 0.20 Prvo treba pronaći koliki je z0. U tablici vidimo da z0 koji odgovara površini 0.20 je jednak 0.84. Dakle, z0 = 0.84. Sada treba taj z0 pretvoriti u y0 tj. u prave jedinice koristeći izraz.

σµ−

= 00

yz

odnosno y0 = µ + z0 σ y0 = 200 + (0.84)(20) = 216.8 Teoretski bi životinje sa najmanje 216.8 ušle u najboljih 20%.

Prosjek odabranih vrijednosti Pitanje je ako izaberemo određenu proporciju najboljih vrijednosti, koliki je teoretski prosjek tih odabranih vrijednosti

Page 26: biometrika 2010

23

z 0 z0 zS

P f(z0)

Slika 3-7 Prosjek odabranih z vrijednosti. f(z0) = ordinata krivulje za z = z0, P je površina, odnosno vjerojatnost P(z>z0) i zS je prosjek vrijednosti većih od z0.

Za standardnu normalnu krivulju vrijedi:

PzfzS

)( 0= prosjek odabranih vrijednosti u z skali

P = površina ispod standardne normalne krivulje za z > z0, Ordinata je:

[ ]202

1

21)( 0

zezf

−=

π

-vrijednost funkcije za danu vrijednost z0. Transformacija u originalnu skalu:

• Prosjek u originalnoj skali: µS = µ + (zS )(σ2) Primjer: Pretpostavimo normalnu raspodjelu sa parametrima µ = 200 kg i σ = 20 kg. Koliki je teoretski prosjek jedinki koje imaju vrijednost više nego y0 = 230 kg. Odgovarajuća z vrijednost je:

20200230z0

−= = 1.5

Već smo vidjeli iz tablice površina ispod normalne krivulje da je: P (y > y0) = 1 - P(z ≤ z0) = 0.0668 Vrijednost ordinate za z0 = 1.5

[ ]202

1

21)( 0

zezf

−=

π

f(z0) = 0.129518 Dakle prosjek standardiziranih vrijednosti većih od 1.5 je:

94.10668.0

129518.0P'zzS ===

Pretvorimo to u originalnu skalu: yS = µ + z0 σ = 200 + (1.94)(20) = 238.8 kg Prosjek odabranih životinja je 238.8 kg.

Page 27: biometrika 2010

24

3.2.2 Još neke kontinuirane varijable i njihove raspodjele

• Studentova varijabla (t) ima studentovu raspodjelu (t raspodjelu) • Hi-kvadrat varijabla (χ2) ima hi-kvadrat raspodjelu • F varijabla ima F raspodjelu • Oblik t, hi-kvadrat i F raspodjela ovisi o “stupnjevima slobode”

0.000.050.100.150.200.250.300.350.400.450.50

0 5 10 15 20

v=2

v=6

v=10

χ 2

f (χ 2)

Slika 3.8 Hi-kvadrat raspodjela sa stupnjevima slobode v = 2, v = 6 i v = 10

stupanj slobode v = 16

stupanj slobode v = 2

Slika 3-9: Studentova (t) raspodjela sa stupnjevima slobode 16 i 2.

Studentova t raspodjela je po obliku slična normalnoj samo što sa smanjenjem stupnja slobode krivulja postaje spljoštenija u sredini, a više razvučenija (deblja) prema repovima (Slika 3.13).

Kada stupanj slobode ide prema beskonačnosti t raspodjela prelazi u normalnu.

Slika 3.10 F raspodjele sa stupnjevima slobode: a) v1=2 i v2 = 6; b) v1=6 i v2 = 10; c) v1=10 i v2 =20

0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0

0 1 2 3 4 5F

f(F) v1=2; v2=6

v1=10; v2=20

v1=6; v2=10

Page 28: biometrika 2010

25

4 Populacija i uzorak

Populacija: - skup podataka koji ima neke zajednička svojstva

- definiranjem zajedničkih svojstva => definiramo populaciju - populacija simentalskog goveda u Hrvatskoj - populacija junadi u dobi od 1 godine hranjene smjesom A

• Definicija varijable uvjetuje ono što mjerimo (opažamo, brojimo) na populaciji – Težina, količina mlijeka

- Populacija je izvor podataka

Populacija:

- konačna ili beskonačna – konačna: populacija studenata druge godine na stočarskom smjeru 2000 godine – beskonačna: populacija nerastova u Hrvatskoj

Za opis i donošenje zaključaka o populaciji potrebno je znati:

- raspodjelu frekvencija populacije - karakteristike populacije kao što su mjere položaja i varijabilnost Obično NEPOZNATO => koristimo se matematičkim modelom i procjenama

Matematički model:

- opisan i definiran parametrima Parametri:

- stalne vrijednosti koje govore o vezi slučajnih varijabli i njihovih frekvencija - procjenjuju iz uzorka - obično se označavaju grčkim slovima, na primjer: µ = prosjek (očekivanje), a σ2 = varijanca populacije

Parametri su često nepoznati i procjenjuju se iz uzorka. Uzorak = skup podataka izabran iz populacije Uzorak služi za procjenu i (ili) zaključivanje o populaciji. Statistike (eng. statistics)

- numerički opisni pokazatelji izračunati iz uzorka Primjer: ( y ) i (s) su statistike

Statistike su funkcije slučajnih varijabli pa i same slučajne varijable. Vjerodostojnost procjene i zaključaka o populaciji je veća ako je uzorak dobar predstavnik populacije. To

znači da uzorak mora biti slučajno izabran iz populacije. Definicija slučajnog uzorka:

Za uzorak od n članova se kaže da je slučajan uzorak ako je n članova izabrano na način da svaki skup od n članova ima jednaku vjerojatnost da će biti izabran

Page 29: biometrika 2010

26

4.1 Raspodjele vjerojatnosti statistika

Veliki uzorak – Prikaz raspodjele frekvencija uzorka (grafički ili tabelarno) je dobar pokazatelj raspodjele u populaciji

Mali uzorak - Prikaz raspodjele frekvencija uzorka obično nije dobar pokazatelj raspodjele u populaciji

Statistike izračunate iz velikog ili malog uzorka

- funkcije slučajnih varijabli - imaju poznate teoretske raspodjele => moguća procjena vjerojatnosti sa kojom se određena vrijednost statistike pojavljuje => koriste se za donošenje zaključaka o populaciji

4.1.1 Središnji granični teorem Ako se slučajno izabiru uzorci veličine n iz neke populacije sa srednjom vrijednosti µ i varijancom σ2 i kada je n dovoljno velik, raspodjela srednjih vrijednosti uzoraka može se predočiti normalnom funkcijom gustoće sa prosjekom µ =yµ i standardnom devijacijom

nyσ

σ = .

( yσ se zove standardna greška procijene prosjeka populacije ili samo standardna greška)

yµ Slika 4-1: Raspodjela srednjih vrijednosti uzoraka

yσ se može procijeniti standardnom greškom uzorka

nss y =

4.1.2 Neke statistike koje nemaju normalnu raspodjelu Statistika t:

ns

yt2

µ−=

ima studentovu (t) raspodjelu sa (n-1) stupnjeva slobode, ako je y normalna varijabla Neke statistike imaju F ili hi-kvadrat raspodjelu.

Page 30: biometrika 2010

27

4.2 Stupnjevi slobode

- broj nezavisnih opažanja povezanih sa procjenom varijance, odnosno sa izračunavanjem prosjeka kvadrata (varijance uzorka) - ukupan broj opažanja manje broj parametara korištenih u izračunavanju tog prosjeka kvadrata. Na primjer, u izračunu varijance uzorka stupanj slobode je (n-1) Stupnjevi slobode u izračunu varijance uzorka

• Varijanca uzorka je prosječno kvadrirano odstupanje od aritmetičke srednje vrijednosti • Postoji (n-1) nezavisnih opažanja jer smo već s istim opažanjima izračunali aritmetičku srednju

vrijednost • Dakle, prosjek kvadriranih odstupanja dobije se dijeljenjem sume kvadrata s (n-1)

Page 31: biometrika 2010

28

5 Procjena parametara

Zaključivanje o populaciji uključuje dva glavna načina: 1. Procjena parametara populacije 2. Provjera hipoteza o populaciji

Procjene parametara iz uzorka:

Jedinstveni procjenitelj: - pravilo ili formula koja govori kako izračunati procjenu iz uzorka

procjena = broj koji izračunamo

Intervalni procjenitelj -formula koja govori kao izračunati interval procjene

- intervalna procjena = izračunati interval

Svojstva jedinstvenih procjenitelja:

- funkcija je slučajne varijable (izračuna se po nekoj formuli iz opažanja iz uzorka), dakle ujedno je i statistika - ima poznatu teoretsku raspodjelu (engl. sampling distribution).

Npr. prema centralnom graničnom teoremu za velike uzorke ( n > 30) raspodjela aritmetičkih prosjeka

uzoraka će biti približno normalna, sa srednjom vrijednosti µ i standardnom devijacijom n/σ

5.1 Intervalna procjena

Parametar se procjenjuje intervalom koji se zove Interval pouzdanosti. • Interval pouzdanosti uključuje raspon vrijednosti oko jedinstvene procjene iz uzorka tako da je

vjerojatnost da se prava vrijednost parametra nalazi unutar intervala određena • Ova vjerojatnost je poznata kao razina pouzdanosti • Gornja i donja granica intervala se zovu granice pouzdanosti

Često se koristi 95% interval pouzdanosti. Objašnjenje intervala pouzdanosti;

• Ako se iz populacije odabere velik broj uzoraka veličine n i za svaki uzorak se izračuna 0.95 (ili 95%) interval pouzdanosti, tada se očekuje da 95% tih intervala sadrži pravi parametar

Na primjer, ako 95% interval pouzdanosti visine krava temeljen na aritmetičkom prosjeku i varijanci iz uzorka iznosi 130 do 140 cm, može se reći da postoji 95% pouzdanost da je prosjek visine krava u populaciji između 130 i 140 cm.

5.2 Procjena prosjeka populacije

Jedinstveni procjenitelj prosjeka populacije µ je aritmetička srednja vrijednost y Svojstva:

– ima normalnu raspodjelu s prosjekom µ i standardnom devijacijom (standardnom greškom)

ny

σσ =

Page 32: biometrika 2010

29

– Nadalje, standardizirana vrijednost, tj. statistika y

yzσ

µ−= ima standardnu normalnu

raspodjelu Interval pouzdanosti za prosjek populacije µ je:

yy σα ± /2z Za interval pouzdanosti se kratko piše : (1-α)% IP Primjer: 95% IP znači da je α = 0.05 pa je zα/2 = z0.025 = 1.96 (iz tablica) Ukoliko je standardna devijacija populacije σ nepoznata zamjenjuje se standardnom devijacijom izračunatom

iz uzorka (s), pa je interval pouzdanosti: ysy ± /2zα

gdje je nss y =

Postupak izračunavanja intervala pouzdanosti može se prikazati u četiri koraka: 1) odredimo jedinstveni procjenitelj i odgovarajuću statistiku sa poznatom raspodjelom 2) odredimo razinu pouzdanosti (1-α) 3) izračunamo procjenu i standardnu grešku procjenitelja iz uzorka 4) na temelju graničnih vrijednosti za α, procjene i standardne greške izračunamo granice intervala Primjer: Pretpostavimo uzorak od 50 krava sa srednjom vrijednosti količine mlijeka u laktaciji 4000 kg i standardnom devijacijom 800 kg. Želimo procijeniti prosjek populacije na temelju ovog uzorka. Uzmimo 95% interval pouzdanosti. Zadano je iz uzorka:

4000y = kg s = 800 kg n = 50 krava Interval pouzdanosti je:

y/2 szy ± α Za 95% interval pouzdanosti, α = 0.05, jer je (1 - α) 100% = 95%, a to znači daje (1-α) = 0.95, a α = 0.05. Vrijednost zα/2 = z0.025 iz tablice je 1.96.

14.11350

800nssy ===

Interval pouzdanosti je dakle:

y/2 szy ± α 4000 ± (1.96)(113.14) Možemo dakle reći da se prosjek populacije µ nalazi unutar intervala (3778.2;4221.7) s razinom pouzdanosti 0.95. (ili 95%) POZOR: Središnji granični teorem vrijedi samo za velike uzorke (n>30).

Page 33: biometrika 2010

30

Interval pouzdanosti za mali uzorak (n < 30) - koristimo t raspodjelu pa je interval pouzdanosti.

ysy ± /2tα

- vrijednost ta/2 u tablicama za studentovu raspodjelu sa (n-1) stupnjeva slobode - postupak procjene je zatim isti kao i za veliki uzorak

- da bi koristili t raspodjelu, pretpostavka da je populacija normalna

Primjer: Pretpostavimo uzorak od 20 krava sa srednjom vrijednosti količine mlijeka u laktaciji 4000 kg i standardnom devijacijom 800 kg. Želimo procijeniti prosjek populacije na temelju ovog uzorka. Izračunajte 95% interval pouzdanosti. Zadano je iz uzorka:

4000y = kg s = 800 kg n = 20 krava Interval pouzdanosti je:

y/2 sty ± α Za 95% interval pouzdanosti, α = 0.05, jer je (1 - α) 100% = 95%, a to znači daje (1-α) = 0.95, a α = 0.05. Stupanj slobode je n-1 = 19. Vrijednost tα/2 = t0.025 iz tablice je 2.093.

8854.17820

800nss y ===

Interval pouzdanosti je:

y/2 sty ± α 4000 ± (2.093)(178.8854) Odnosno µ se nalazi unutar intervala (3625.59;4374.41) uz razinu pouzdanosti 0.95.

5.3 Procjena varijance u normalnoj populaciji

Nepristrani procjenitelj varijance populacije (σ2) je varijanca uzorka:

1

)( 22

−= ∑

n

yys i i

Page 34: biometrika 2010

31

6 Provjera hipoteza

Hipoteza: tvrdnja o jednoj ili više populacija.

Istraživačka hipoteza

Statistička hipoteza

Nul hipoteza (H0) - nepromijenjeno stanje, nepostojeća razlika - hipoteza koju provjeravamo

Alternativna hipoteza (H1) - promijenjeno stanje, postojeća razlika – obično je identična istraživačkoj - sama se po sebi ne može provjeravati, nego se koristi provjera nul hipoteze.

Provjera statističkih hipoteza pomaže nam u provjeri i zaključku o istraživačkoj hipotezi. Provjera hipoteza:

- provjeravamo hipoteze na temelju opažanja iz uzorka Provjera rezultira u jednoj od dvije odluke: 1. odluka da se H0 odbaci 2. odluka da se H0 ne odbaci, jer uzorak nije dao dovoljno dokaza da bi se H0 odbacila.

- H0 i H1, se uvijek postavljaju tako da isključuju jedna drugu - kada odbacujemo H0, pretpostavljamo da je H1 točna. - u zaključivanju koristimo zakone vjerojatnosti

Općenito, lakše je dokazati da je neka hipoteza lažna nego da je točna

- Bolje je reći da nismo odbacili H0 nego da je prihvaćamo; tj. da nemamo dovoljno dokaza iz uzorka da H0 treba odbaciti.

Koraci u provjeri hipoteza: 1) Definiramo H0 i H1 2) Odredimo α (razinu značajnosti) 3) Izračunamo procjenu parametra 4) Odredimo statistiku za provjeru i njezinu raspodjelu kada vrijedi H0 i izračunamo njenu vrijednost iz uzorka 5) Odredimo kritičnu vrijednost, kritično područje 6) Usporedimo izračunatu vrijednost statistike za provjeru sa kritičnim vrijednostima i donosimo zaključak.

6.1 Provjera hipoteza o prosjeku populacije.

Pitanja: - da li uzorak ne pripada nekoj populaciji - da li je hipotetski (pretpostavljeni) prosjek populacije nekorektan - da li se aritmetička srednja vrijednost uzorka značajno razlikuje od neke zadane, hipotetske vrijednosti (µ0)

Page 35: biometrika 2010

32

1) hipoteze H0: µ = µ0 H1: µ ≠ µ0

2) odredimo α = razina značajnosti Obično se uzima α = 0.05. 3) procjenitelj: y 4) Statistika za provjeru i raspodjela:

y

yzσ

µ0−=

Općenito je z statistika:

eljaprocijenitgreška a standardanparametareljprocijenitz −

=

µ0

0 zα/2 -zα/2

y

Slika 6-1: Raspodjela procjenitelja prosjeka y . Donja crta prikazuje standardiziranu skalu

y

yz

σµ0−

= .

Ako σ nepoznata => procjena yσ sa standardnom greškom izračunatom iz uzorka

nssy /= pa je:

ysyz 0µ−

=

5) Za α, odredimo kritičnu vrijednost, kritično područje ili P-vrijednost

zα/2-zα/2

α/2 α/2

razinaznačajnosti = α

kritično područje

kritično područje

0kritična

vrijednost

Slika 6-2: Prikaz razine značajnosti, kritične vrijednosti i kritičnog područja poznate raspodjele

Page 36: biometrika 2010

33

6) Zaključak

- usporedimo izračunatu statistiku za provjeru sa kritičnom vrijednosti - da li je izračunata z statistika ekstremnija od kritične vrijednosti zα/2 uz α razinu značajnosti - ako je izračunata statistika ekstremnija od kritične vrijednosti, tj. |z| > zα/2, odbacujemo H0) - vjerojatnost da izračunati z pripada raspodjeli ako vrijedi H0 je jednaka α - razina značajnosti je vjerojatnost da da sm o pogrešno odbacili H0

zα/2 -zα/2 0 z

Slika 6-3: Izračunata z statistika unutar kritičnog područja, tj. više je ekstremnija nego kritična vrijednost zα/2, prihvaća se H1 hipoteza uz α razinu značajnosti. Vjerojatnost da izračunata statistika z pripada hipotetičkoj nultoj populaciji je manja od vrijednosti α.

zα/2 -zα/2 0 z

Slika 6-4: Izračunata z statistika je izvan kritičnog područja, tj. manje je ekstremnija nego kritična vrijednost zα/2, dakle prihvaća se H0 hipoteza uz α razinu značajnosti. Vjerojatnost da izračunata statistika z pripada hipotetičkoj nultoj populaciji je veća od vrijednosti α.

Primjer: Pretpostavimo uzorak od 50 krava sa srednjom vrijednosti količine mlijeka u laktaciji 4000 kg. Želimo provjeriti da li je ovo stado različito od populaciji krava s poznatim prosjekom, µ0 = 3600 kg i standardnom devijacijom σ = 1000 kg. Zadano je iz uzorka:

4000y = σ = 1000 n = 50 krava Hipotetski prosjek je µ0 = 3600 pa su hipoteze: H0: µ = 3600 H1: µ ≠ 3600

Page 37: biometrika 2010

34

Razina značajnosti: α = 0.05 Statistika za provjeru (standardna normalna varijabla):

y

yzσ

µ0−=

Standardna greška:

nyσσ =

4214.14150

1000===

nyσσ

828.24214.141

36004000=

−=z

Izračunati z (vrijednost statistike za provjeru) je 2.828. Drugim riječima, prosjek uzorka (4000 kg) je 2.828 standardne devijacije udaljen od hipotetskog prosjeka populacije (3600 kg) ako vrijedi H0. Pitanje je da li je izračunati z = 2.828 dovoljno ekstreman da možemo posumnjati da naš uzorak ne pripada populaciji s prosjekom 3600. Definirat ćemo razinu značajnosti α = 0.05. Za nju iz tablice možemo vidjeti da odgovara kritičnoj vrijednosti zα/2 = 1.96. Izračunati |z| > zα/2 , tj. |2.828| > 1.96. To znači da je izračunati z u kritičnom području, odnosno nalazi se u intervalu ⟨1.96, ∞⟩ (slika 7-5). Prema tome, H0 se odbacuje uz 0.05 razinu značajnosti. Vjerojatnost je manja od 0.05 da naš uzorak ipak pripada populaciji s prosjekom 3600 i standardnom devijacijom 1000.

z 4000

-1.96 1.96 2.833600

0

y

Slika–5: Raspodjela prosjeka uzoraka količine mlijeka sa prosjekom m = 3600 i standardnom devijacijom σ = 1000. Donja crta predstavlja skalu standardiziranih vrijednosti.

6.1.1 P-vrijednost Drugi način da se odluči o prihvaćanju ili odbijanju nul hipoteze H0, je da se utvrdi vjerojatnost da izračunata vrijednost statistike za provjeru pripada distribuciji kada H0 vrijedi. Ta vjerojatnost obično se označava kao P vrijednost i predstavlja opaženu razinu značajnosti. Mnogi kompjuterski statistički programi daju P vrijednost i ostavljaju istraživaču da sam odluči o prihvaćanju ili odbijanju H0. Može se reći da se H0 odbacuje uz vjerojatnost pogreške koja je jednaka P vrijednosti. P vrijednost se može koristiti i kada je

Page 38: biometrika 2010

35

razina značajnosti unaprijed određena. Za zadanu razinu značajnosti α, ako je P vrijednost manja od α, H0 se odbacuje uz α razinu značajnosti. 6.1.2 Jednostrana provjera. hipoteza može biti dvostrana ili jednostrana. Dvostranu provjeru smo vidjeli gore. Jednostrana provjera uključuje dva slučaja definiranja hipoteza:

H0: µ ≤ µ0 ili H0: µ ≥ µ0

H1: µ > µ0 H1: µ < µ0

α

-zα

α

6.1.3 Provjera hipoteza o prosjeku populacije za mali uzorak (n<30) - koristi se studentova t-raspodjela s (n-1) stupnjeva slobode. -uvjet je da su podaci iz normalne populacije Statistika za provjeru:

ysyt 0µ−

=

gdje je

nssy = = standardna greška

Općenito je t-statistika:

eljaprocijenit greška astandardanparametareljprocijenitt −

=

Ostali koraci u provjeri kao i za veliki uzorak. Zaključak slično kao i prije: za dvostranu provjeru odbacujemo H0: µ =µ0 ako je izračunati t ekstremniji od

kritične vrijednosti, tj. ako |t| > tα/2, Primjer: Da li je aritmetička srednja vrijednost količine mlijeka uzorka 3800y = kg značajno različita od 4000 kg. Veličina uzorka je 10 krava, a standardna devijacija uzorka je 500 kg. Drugim riječima, da li uzorak ne pripada populaciji s prosjekom 4000 kg. s = 500

3800=y n = 10 µ0 = 4000 = hipotetski prosjek

Page 39: biometrika 2010

36

Hipoteze: H0: µ = 4000 H1: µ ≠ 4000 Razina značajnosti: α = 0.05 Procjenitelj (aritmetička srednja vrijednost uzorka):

3800y = kg Statistika za provjeru:

ysyt 0µ−

=

Standardna greška procijene prosjeka:

1139.15810

500===

nssy

26.11139.158

400038000 −=−

=−

ysy µ

Za α = 0.05 i stupanj slobode (n-1) = 9, tablični tα/2 = 2.262. Budući da izračunati t = -1.26 nije ekstremniji od kritične vrijednosti tα/2 = 2.262, H0 se ne odbacuje uz 0.05 razinu značajnosti. Aritmetički prosjek našeg uzorka nije značajno različit od 4000 kg.

6.2 Provjera hipoteza o razlici prosjeka dviju populacija

Trebamo imati dva uzorke iz dvije populacije s nepoznatim prosjecima µ1 i µ2. Pitanje: -da li su ti prosjeci različiti

- drugim riječima, da li su uzorci predstavnici dvije različite populacije Hipoteze za dvostranu provjeru su: H0: µ1 - µ2 =0 H1: µ1 - µ2 ≠ 0

H0 postavlja da su prosjeci populacija jednaki, a H1 postavlja da nisu jednaki. Odredimo α Procjenitelj: )y-( 21y Definicija statistike za provjeru i daljnja provjera ovisi da li se radi o velikim ili malim uzorcima i da li su

pretpostavljene varijance populacija iste ili različite. Pokazat ćemo to u slijedeća dva podpoglavlja. 6.2.1 Provjera za veliki uzorak Podsjetimo se da je općenito z statistika:

eljaprocijenit greška standardnaparametareljprocijenitz −

=

Statistika za provjeru za velike uzorke iz dvije populacije:

)(

21

21

0)(

yy

yyz

−−=

σ

y i 21y = aritmetički prosjeci uzoraka

Page 40: biometrika 2010

37

n1 i n2 = veličine dva uzorka

2

22

1

21

)( 21 nnyyσσσ +=− = standardna greška procjene razlike između prosjeka

σ21 i σ2

2 = varijance dvije populacije Često su varijance σ2

1 i σ22 nepoznate. Tada se koriste procjene iz uzoraka, s2

1 i s22, pa je standardan greška:

2

22

1

21

)( 21 ns

nss yy +=−

s1 i s2 = procijene varijance iz uzoraka. ==> Statistika za provjeru je tada:

)(

21

21 yysyyz

−≈

Dakle, odbacujemo H0 ako |z| > zα/2, gdje je je zα/2 kritična vrijednost Primjer: Dvije grupe od 40 krava hranili smo sa dva različita obroka (A i B) da bi utvrdili koji od ta dva obroka daje veću količinu mlijeka u laktaciji. Na kraju pokusa izračunati su prosjeci i varijance uzoraka (u 000 kg): Grupa A Grupa B Prosjek( y ) 5.20 kg 6.50 Varijanca (s2) 0.25 0.36 Broj krava (n) 40 40 Hipoteze: H0: µ1 - µ2 =0 H1: µ1 - µ2 ≠ 0 Razina značajnosti: α = 0.05 Procjenitelj:

21 yy − Statistika za provjeru:

)(

21

21 yysyyz

−=

Standardna greška procjene razlike između prosjeka:

2

22

1

21

)( 21 ns

nss yy +=−

Page 41: biometrika 2010

38

123.04036.0

4025.0

2

22

1

21

)( 21=+=+=− n

snss yy

569.10123.0

50.620.5s

yyz)yy(

21

21

−=−

=−

≈−

Budući da je izračunati z=-10.569 ekstremniji od -zα/2 = -z0.025 = -1.96, nul hipotezu odbacujemo uz 0.05 razinu značajnosti i zaključujemo da smjesa B daje veću količinu mlijeka 6.2.2 Provjera za mali uzorak kada su varijance homogene (približno iste) U provjeri za male uzorke koristi se t statistika. Način na koji se računa t statistika zavisi:

a)da li su varijance dva uzorka jednake ili različite b) da li je veličina uzoraka jednaka ili različita

Podsjetimo se da je općenito t-statistika:

eljaprocijenit greška astandardanparametareljprocijenitt −

=

Statistika za provjeru za male uzorke i jednake varijance je:

11

0)( 21

yysyyt−

−−=

Standardna greška je:

+=−

21

2 1121 nn

ss pyy

Gdje je:

2)1()1(

21

222

2112

−+−+−

=nn

snsns p

Kada je n1 = n2 = n, možemo pisati:

nss

yyt22

21

21 0)(

+

−−=

Dakle, odbacujemo H0 ako je izračunati |t| > tα/2, (izračunati t ekstremniji od kritične vrijednosti)

Page 42: biometrika 2010

39

Primjer: Dvije grupe od 18 i 20 krava hranili smo sa dva različita obroka (A i B) da bi utvrdili koji od ta dva obroka daje veću količinu mlijeka u laktaciji. Na kraju pokusa izračunati su prosjeci, sume kvadrata i varijance uzoraka (u 000 kg): Grupa A Grupa B Prosjek( y ) 6.80 5.50 Varijanca (s2) 0.379 0.206 Broj krava (n) 20 18 Hipoteze: H0: µ1 - µ2 =0 H1: µ1 - µ2 ≠ 0 Procjenitelj:

21 yy − Statistika za provjeru:

11

0)( 21

yysyyt−

−−=

Standardna greška procjene razlike između prosjeka:

+=−

21

2 1121 nn

ss pyy

Uravnotežena varijanca (na temelju oba uzorka):

=−+

−+−=

2)1()1(

21

222

2112

nnsnsnsp 297.0

21820)206.0)(118()379.0)(120(

=−+

−+−

177.0181

201297.0

21=

+=− yys

342.7177.0

0)50.580.6(0)(

11

21 =−−

=−−

=− yysyyt

Budući da je izračunati t = 7.342 ekstremniji od tα/2 = t0.025 = 2.03, nul hipotezu odbacujemo uz 0.05 razinu značajnosti i zaključujemo da je smjesa A bolja.

6.3 Provjera hipoteza o proporciji populacije

Proporcija povoljnih rezultata iz uzorka:

nyp =ˆ

y = broj povoljnih rezultata (događaja), broj uspješnih pokušaja

Page 43: biometrika 2010

40

n = veličina uzorka (ukupan broj pokušaja) Pitanje:

- da li je proporcija izračunata iz uzorka značajno različita od neke hipotetske vrijednosti - da li uzorak ne pripada populaciji sa poznatom proporcijom

Provjera o proporciji može koristiti binomnu raspodjelu, međutim, često se koristi normalna aproksimacija

ako p ima približno normalnu raspodjelu p i varijancom pq/n, ako je uzorak dovoljno velik Hipoteze za dvostranu provjeru:

H0: p = p0 H1: p ≠ p0

Statistika za provjeru:

psppz 0ˆ −

=

Standardna greška je:

nqpsp 00= gdje je:

00 1 pq −= Zaključak donosimo kao i uvijek, tj. da usporedimo izračunatu z vrijednost s kritičnom vrijednosti. Primjer: Pojavila se sumnja da uslijed ekoloških promjena u jednom području odnos spolova u populaciji poljskih miševa nije više 1:1 nego različit. Drugim riječima sumnjamo da proporcija mužjaka, a posljedično i proporcija ženki je različita od 0.5 (odnosno 50%). Pokus je postavljen tako da se uhvati uzorak od 200 miševa i odredi spol. Uhvaćeno je 110 ženki i 90 mužjaka. Definirajmo broj mužjaka kao varijablu y y = 90 broj mužjaka, n = 200 ukupan broj uhvaćenih miševa. p0 = 0.5 = hipotetska proporcija mužjaka q0 = 1 - p0 = 0.5= hipotetska proporcija ženki p = 90/200 = 0.45 = proporcija uhvaćenih mužjaka q = 0.55, proporcija uhvaćenih ženki Hipoteze su: H0: p = 0.5, H1: p ≠ 0.5 α = 0.05 Procjenitelj: p = 90/200 = 0.45 = proporcija uhvaćenih mužjaka

Statistika za provjeru:

4.1200)50.0)(50.0(

50.45.0ˆ

00

0 −=−

=−

=nqp

ppz

Page 44: biometrika 2010

41

Uzeli smo α = 0.05 pa je kritična vrijednost ± 1.96. Budući da izračunati z = -1.4 nije ekstremniji od -1.96 ne možemo zaključiti da je odnos spolova različit od 1:1.

6.4 Provjera hipoteza razlika dviju proporcija populacija

Proporcije povoljnih rezultata iz dva uzorka:

2

22

1

11 ˆ i ˆ

ny

pny

p ==

y1 i y2 = brojevi povoljnih rezultata, n1 i n2.= veličine uzorka

Procjenitelj razlika proporcija: 21 ˆˆ pp −

Varijanca: 2

22

1

11n

qpnqp

+

Hipoteze za dvostranu provjeru: H0: p1 - p2 = 0 H1: p1 - p2 ≠ 0

Statistika za provjeru je:

21ˆˆ

21 0)ˆˆ(

ppspp

z−

−−=

Gdje je

+=−

21ˆˆ

11ˆˆ21 nn

qps pp = procjena standardne greške razlike proporcija

21

21ˆnnyyp

++

= = procjena proporcije za oba uzorka

Ukoliko su zadane proporcije uzoraka tada se procjena proporcije može izračunati i iz:

21

2211 ˆˆˆnn

npnpp++

=

Zaključak kao i uvijek. Dakle, odbacujemo H0 ako |z| > zα/2 Primjer: Želimo vidjeti da li je na dvije farme razlika između proporcija krava sa više od 4000 kg mlijeka u laktaciji značajno različita. yi = broj krava sa više od 4000 kg na farmi i ni = ukupan broj krava na farmi i Farma 1 Farma 2 y1 = 40 y2 = 30 n1 = 100 n2 = 100 p1 = 0.4 p2 = 0.3

Page 45: biometrika 2010

42

Hipoteze: H0: p1 – p2 = 0 H1: p1 –p2 ≠ 0 α = 0.05

35.020070

1001003040

nnyyp

21

21 ==++

=++

=

65.03501q =−−=

( )( )48.1

1001

100165.035.0

0)30.040.0(z =

+

−−=

Za razinu značajnosti α = 0.05, kritična vrijednost je 1.96. Budući da je 1.48 manje od 1.96, nismo utvrdili značajne razlike između proporcija na dvije farme uz 0.05 razinu značajnosti.

6.5 Hi-kvadrat provjera

Najčešća upotreba: - za provjeru razlika očekivane i opažene frekvencije (broja opažanja, proporcija) - za provjeru razlika između frekvencija ili proporcija dvije ili više kategorija (populacija)

Provjera razlika očekivane i opažene frekvencije (broja opažanja) ili proporcije -dvije ili više kategorija (grupa, populacija) Hipoteze:

H0: pi = p0i za sve kategorije i H1: pi ≠ p0i za barem jednu kategoriju i

p0i = očekivana proporcija za kategoriju i U provjeri koristimo broj opažanja i očekivani broj opažanja u pojedinoj kategoriji. Statistika za provjeru:

[ ]( )

[ ]∑ −=

ii

ii

yEyEy 2

2χ i = 1 do k

E(yi) = n(p0i) = očekivani broj opažanja za kategoriju i n = ukupan broj opažanja k = broj kategorija, grupa χ2 ima hi-kvadrat raspodjelu sa (k-1) stupnjeva slobode, gdje je k broj kategorija (grupa) Odbacujemo H0 ako je izračunati χ2 ekstremniji od kritične vrijednosti (iz tablica).

• Pozor: za korištenje ove provjere mora biti ispunjen uvjet da ima najmanje 5 opažanja po kategoriji (grupi)

Page 46: biometrika 2010

43

Primjer: Očekivana proporcija bijelih, smeđih i šarenih kunića u populaciji je 0.36, 0.48 i 0.16. U uzorku od 400 kunića, njih 140 je bijelo, 240 ih je smeđe i 20 ih šareno. Da li je možemo reći da je uzorak od 400 životinja proporcija kunića po boji različita od očekivanog? Prikažimo opažene i očekivane frekvencije u tablici: Boja Opažena Očekivana Bijeli 140 (0.36)(400) = 144 Smeđi 240 (0.48)(400) = 192 Šareni 20 (0.16)(400) = 64

( )[ ]( )

[ ] [ ] [ ] 361.4264

6420192

192240144

144140yE

yEy 222

ii

2ii2 =

−+

−+

−=

−=χ ∑

Kritična vrijednost hi-kvadrat raspodjele za 2 stupnja slobode i razinu značajnosti 0.05 je 5.991. Pošto je izračunati χ2 veći od kritične vrijednosti možemo zaključiti da se uzorak razlikuje od populacije uz 0.05 razinu značajnosti.

6.6 Provjera hipoteza o razlici varijanci dvije populacije

Koristi se F raspodjela Hipoteze:

H0: σ21 = σ2

2 H1: σ2

1 ≠ σ22

Statistika za provjeru:

22

21

ssF = koja ima F raspodjelu

Obično se kvocijent postavi tako da je u brojniku brojnik veća, a u nazivniku manja varijanca

Odbacujemo H0 ako 1,1,2/22

21

21 −−≥ nnFss

α , tj. ako je 22

21

ss

ekstremniji od kritične vrijednosti.

6.7 Korištenje intervalne procijene u provjeri statističkih hipoteza

Izračunamo interval pouzdanosti i imamo hipotetsku vriejdnost parametara. Ako izračunati interval sadrži hipotetsku vrijednost parametra tada se nul hipoteza ne odbacuje.

6.8 Statistička i praktična značajnost

Statistička značajnost ne mora uvijek značiti da istraživanje ima i praktičnu značajnost. Na primjer, pretpostavimo pokus s upotrebom aditiva u hrani koji je povećao dnevni prirast u tovu junadi za 20 g. Ovo povećanje je relativno malo i najvjerojatnije nema ni praktično ni ekonomsko značenje. Međutim uz dovoljno velik uzorak i takvo povećanje se može pokazati statistički značajno. Također, razlike između populacija mogu imati praktično značenje, ali zbog malih uzoraka razlika se nije pokazala statistički značajna u uzorcima.

Potreban je oprez u upotrebi riječi značajan. Pojam statistička značajnost vrijedi samo za uzorak. Tako se može reći: “postoji značajna razlika između prosjeka uzoraka”, što znači da njihova izračunata razlika vodi do izračunate P vrijednosti dovoljno male da možemo odbaciti H0. Ali treba izbjegavati izraze kao “prosjeci populacije su značajno različiti”, jer prosjeci populacije mogu biti samo praktično različiti, dakle oni su različiti ili nisu različiti. Potpuno je pogrešan izraz: “alternativna hipoteza H1 je da su prosjeci dviju populacije značajno različite”, jer alternativna hipoteza znači samo razliku, a prihvaćanje alternativne hipoteze putem statističke provjere ne znači automatski i praktičnu značajnost.

Page 47: biometrika 2010

44

6.9 Greške kod statističkog zaključivanja i snaga provjere

Kod zaključivanja na temelju uzorka moguća su dva pogrešna zaključka: a) tip I greška = odbacivanje nul hipoteze H0, a da je zapravo H0 istinita b) tip II greška = ne odbacivanje H0 a da je zapravo H0 lažna.

Istinita (prava) situacija

H0 točno H0 nije točno Nije odbačena H0 Korektno prihvaćanje

P = 1-α Tip II greška P = β

Odl

uka

stat

istič

ke

prov

jere

Odbačena H0 Tip I greška P = α Korektno odbijanje

P = 1 - β

1 – β = snaga provjere

Vjerojatnost tip I greške (α, P-vrijednost):

- poznata ili se lako izračuna - postavlja ju sam istraživač kao razinu značajnosti

Vjerojatnost tip II greške (β): - često teško izračunati - mora se pretpostaviti neka raspodjela ako je H1 točno i na temelju te raspodjele pokušati odrediti β

Page 48: biometrika 2010

45

7 Jednostavna linearna regresija

7.1 Uvod

Kada imamo više varijabli, često pitanje je kakav utjecaj imaju varijable jedna na drugu. Drugim riječima, da li postoji funkcijska veza između varijabli

Primjer:

- kako promjena vanjske temperature za jedan stupanj utječe na promjenu konverziju hrane - kako promjena razine proteina u hrani utječe na promjenu dnevnog prirasta.

Regresija

- uključuje skup statističkih procedura kojima se izvode zaključci o vezi između varijabli u nekom sustavu. - proučava statističku vezu između varijabli na taj način da se jedna varijabla definira kao zavisna varijabla, a ostale kao nezavisne varijable - kako promjena nezavisnih varijabli utječe na promjenu zavisne varijable

Ako imamo jednu nezavisnu i jednu zavisnu varijablu, a utjecaj nezavisne varijable na zavisnu objašnjavamo

pravcem, tada govorimo o jednostavnoj linearnoj regresiji. Na primjer, zavisna varijabla = y (konverzija hrane) i nezavisne varijable = x (temperatura) Statistički model:

y = β0 + β1x + ε y zavisna varijabla x nezavisna varijabla β0, β1 regresijski parametri ε slučajna greška; slučajna neprotumačena odstupanja zbog individualnih razlika između životinja ili različite okoline, greške kod mjerenja i sl., Općenito je model pojednostavljenje onoga što se događa u prirodi. Model regresije se odnosi na parove opažanja (x1,y1),(x2,y2),...,(xn,yn) Prema modelu svaki yi se može prikazati:

yi = β0 + β1xi + εi i = 1,.....n Odnosno,

y1 = β0 + β1x1 + ε1 y2 = β0 + β1x2 + ε2 ............ yn = β0 + β1xn + εn

Primjer. U populaciji krava pretpostavlja se da se težina može prikazati kao linearna funkcija opsega grudi.

Ako su poznate vrijednosti varijabli, na primjer:

• Težina (y): 641 633 651 … … Opseg (x): 214 215 216 … …

Page 49: biometrika 2010

46

• Mjerenja varijable y se mogu prikazati kao: • 641 = β0 + β1 214 + ε1 • 633 = β0 + β1 215 + ε2 • 651 = β0 + β1 216 + ε3 • …

Očekivanje zavisne varijable y u zavisnoti o vrijednosti nezavisne varijable x se označava E(y|x) i predstavlja

pravac, tj. E(yi| xi) = β0 + β1xi = pravac

yE(y|x)

*

*

*

*

*

* *

*

*

* (xi,yi )

εi

x

Slika 7-1: Pravac linearne regresije. Zvjezdicama su prikazana prava mjerenja (xi,yi), Pravac E(y|x) je očekivanje zavisne varijable, εi je odstupanje mjerenja od očekivanja

Objašnjenje parametara jednostavne regresije: β0 = odsječak na y osi, vrijednost (E(y| xi=0) β1 = govori o nagibu pravca, to je prosječna promjena zavisne varijable, ∆E(y| x), koja odgovara promjeni

vrijednosti varijable x za jedinicu (∆x=1).

E(yi |xi) = β0 + β1xi

β0

β1

x

y

β1

∆x=1

Slika 7-2: Objašnjenje parametara obične linearne regresije

Page 50: biometrika 2010

47

x x

x x

y x

y x

a) b)

x x

y x

c)

Slika 7-3: a) pozitivna regresija, β1 > 0; b) negativna regresija, β1 < 0, c) regresija nije jasno utvrđena (nema regresije), β1 = 0

7.2 Procjena parametara β0 i β1

1) izabrati slučajni uzorak 2) izmjeriti y i x

Broj životinje 1 2 3 ... n Opseg prsa (x) x1 x2 x3 ... xn Težina (y) y1 y2 y3 ... yn Cilj: pronaći pravac koja će ‘najbolje‘ opisati dani skup podataka; pronaći procjenitelje parametara β0 i β1. Oznake za procjenitelje parametara: 0β i 1β ili b0 i b1. E(yi|xi) se procjenjuje sa:

ii xbby 10ˆ += = procijenjeni pravac regresije

Ostatak:

iii yye ˆ−= odstupanja opažanja u uzorku od procijenjenog pravca.

iii yye ˆ−=

$yi

$y

*

*

*

*

* *

*

** * yi

y

x

Slika 7-4: Procijenjeni pravac jednostavne linearne regresije.

Page 51: biometrika 2010

48

Metoda najmanjih kvadrata: Jedan od načina procjene parametara regresije je metoda najmanjih kvadrata. -Cilj je pronaći procjenitelje b0 i b1, tako da vrijedi:

( ) minˆ 22 ∑∑ ==− i ii ii eyy

(drugim riječimna ostaci, odnosno kvadrati ostataka trebaju biti što manji)

OSTi i SSe∑ =2 = Suma kvadrata ostatka

Rješenjem jednadžbi koje zadovoljavaju gornji uvjet dobije se:

xbyb

SSSS

bxx

xy

10

1

−=

=

Gdje su:

( )( )yyxxSS ii ixy −−= ∑ = suma produkata y i x

( )2∑ −=i ixx xxSS

= suma kvadrata od x Skraćeni način računanja:

( )( )∑ ∑∑−=

ii ii i

iixy n

yxyxSS

( )∑ ∑

−=i

i iixx n

xxSS

2

2

n = veličina uzorka Primjer: Izračunajte regresiju težine na opseg grudi krava. Imamo uzorak od 6 krava.

Krava 1 2 3 4 5 6

Težina (y): 641 633 651 666 688 680

Opseg (x): 214 215 216 217 219 221

Za izračunavanje koeficijenata b0 i b1 trebamo sume (Σi xi i Σi yi ), sumu kvadrata Σi x2i = i sumu

produkata, Σi xiyi. Zato je korisno napisati slijedeću tablicu: Težina(y) Opseg(x) x2 xy 641 214 45796 137174 633 215 46225 136095 651 216 46656 140616 666 217 47089 144522 688 219 47961 150672 680 221 48841 150280 Sume 3959 1302 282568 859359 n = 6

Σi xi = 1302

Page 52: biometrika 2010

49

Σi x2i = 282568

Σi yi = 3959

Σi xiyi = 859359

( )( ) ( )( )∑ ∑∑ =−=−=i

i ii iiixy n

yxyxSS 256

639591302859359

( ) ( ) 346

130228256822

2 =−=−= ∑ ∑i

i iixx n

xxSS

53.734254

1 ===xx

xy

SSSS

b

05.97410 −=−= xbyb Procijenjeni pravac je:

ii x 7.53 974.05- y +=

630640650660670680690700

214 216 218 220 222

Opseg prsa (cm)

Teži

na (k

g)

Slika 7-5:: Regresija težine krava na opseg prsa

7.3 Ostatak

Podsjetite se da je greška pravog modela (modela populacije): εi = yi – β0 + β1x Ostatak je odstupanje vrijednosti zavisne varijable od regresijskog pravca procijenjenog iz uzorka:

iii yye ˆ−= Dakle, ostatak = greška procijenjenog pravca (procijenjenog modela) Suma kvadrata za ostatak:

( )2ˆ∑ −=i iiOST yySS

Prosjek kvadrata ostatka:

22

−==

nSSsMS OST

OST

(n-2) su stupnjevi slobode. MSOST = s2 je procjena varijance u populaciji.

Page 53: biometrika 2010

50

Skraćeni način računanja:

xx

xyyyOST SS

SSSSSS

2)(−=

Gdje je ( )

∑ ∑−=i

i iiyy n

yySS

2

2 = suma kvadrata od y, a SSxx i SSxy suma kvadrata od x i suma produkata x

i y definirane prije.

7.4 Studentova t-provjera

Provjera hipoteza o nagibu pravca regresije: H0: β1 = 0 H1: β1 ≠ 0

H0: regresije nema, nagib regresije je nula, pravac regresije je horizontalan. H1: regresija postoji, nagib nije horizontalan Razina značajnosti α (obično = 0.05) Procjenitelj: b1 Statistika za provjeru:

1

01

bsbt −

=

Gdje je xx

b SSss

2

1= = standardna greška

Uz H0, statistika t ima t-raspodjelu s (n-2) stupnjeva slobode Odbacujemo H0 uz α razinu značajnosti ako

|t| ≥ tα/2,(n-2)., tj. izračunata vrijednost ekstremnija od kritične vrijednosti. Kritična vrijednost iz tablice za n-2 stupnjeva slobode.

b1β1 = 0

tα/2-tα/2 0 t Slika 7-6: Teoretska distribucija procjenitelja b1 i skala odgovarajuće t statistike

Page 54: biometrika 2010

51

Primjer: Provjerimo hipoteze za naš primjer o težini i opsegu krava. Već smo izračunali: SSOST = 463.304, i procijenjena varijanca je:

826.115MS2n

SSs OSTOST2 ==−

= .

Također je bilo SSxx = 34.

845.134

826.115SS

ssxx

2

b1===

079.4845.153.7

SSs

0btxx

21 ==

−=

tα/2,(n-2) = t0.025,4 = 2.776 Pošto je izračunati t = 4.079 veći od kritične vrijednosti (2.776) zaključujemo da je procjena nagiba regresije 7.53 značajno različita od nule i da u populaciji regresija postoji.

7.5 Interval pouzdanosti za β1

Možemo pisati da je 95% interval pouzdanosti (IP)

1 2,025.01 bn stb −±

tα/2,n-2 = kritična vrijednost (iz tablice za n-2 stupnjeva slobode)

xxb SS

ss2

1= = standardna greška procjenitelja b1.

Primjer: Napravimo 95% interval pouzdanosti za parametar β1, za primjer sa kravama. Imamo već zadano i izračunato: α = 0.05 stupanj slobode = 4 t0.025,4 = 2.776

1bs = 1.846 b1 = 7.529 Tada je interval pouzdanosti

1 2,025.01 bn stb −±

7.529 ± (2.776) (1.846) odnosno IP (2.406, 12.654)

Page 55: biometrika 2010

52

7.6 Raščlanjenje ukupne varijabilnosti

Regresijskim modelom nastoji se objasniti što veći dio varijabilnosti zavisne varijable.

*

*

*raspodjela

y

**

*

*

*

*

*

*

x

yyi oko

raspodjela

(A)

(B)yyi ˆ okoy

y

Slika 7-7: Raspodjela varijabilnosti oko prosjeka i procijenjenog pravca regresije.

(B) mjeren sa sumom kvadrata za ostatak:

( )2ˆ∑ −=i iiOST yySS

(A) mjeren sa ukupnom sumom kvadrata:

( )2∑ −=i iiUKUP yySS

Tri izvora varijabilnosti: 1.Varijabilnost opisana modelom

- protumačena varijabilnost, mjeri se sumom kvadrata za regresiju (SSREG). 2. Ukupna varijabilnost zavisne varijable

- varijabilnost oko y , mjeri se ukupnom sumom kvadrata. (SSUKUP) 3. Neprotumačena varijabilnost

- varijabilnost oko $y , mjeri se sumom kvadrata za ostatak (SSOST).

Page 56: biometrika 2010

53

7.6.1 Veza između suma kvadrata Ukupna suma kvadrata je jednaka sumi kvadrata za regresiju plus suma kvadrata za ostatak. SSUKUP = SSREG + SSOST Kratki način računanja:

1) SSUKUP = SSyy

2) xx

xyREG SS

SSSS

2)(=

3) xx

xy

SSSS 2

yyOST)(

- SS SS =

Isto kao što je: SSUKUP = SSREG + SSOST Tako se raščlanjuju i stupnjevi slobode (n-1) = 1 + (n-2) (stupnjevi slobode) Dakle, Ukupni stupnjevi slobode = Stupanj slobode za regresiju + Stupnjevi slobode ostatka

Dijeljenjem suma kvadrata sa odgovarajućim stupnjevima slobode dobijemo prosjeke kvadrata:

Prosjek kvadrata za regresiju: 1REG

REGSSMS =

Prosjek kvadrata za ostatak: 2−

=nSSMS OST

OST

Ovi izračunati prosjeci kvadrata koriste se u provjeri hipoteza.

7.7 Provjera hipoteza - F- provjera

Hipoteze:

H0: β1 = 0 nema regresije H1: β1 ≠ 0 regresija postoji

Statistika za provjeru:

OST

REG

MSMS

F =

Ovdje je:

regresiju za kvadrataprosjek 1

MSREG == REGSS

ostatka kvadrata prosjek 2

MSOST =−

=nSSOST

F statistika ima F-raspodjelu sa stupnjevima slobode 1 i (n-2) ukoliko vrijedi H0. Za α razinu značajnosti odbacujemo H0 ako je izračunata vrijednost F ekstremnija od kritične vrijednosti F

raspodjele (F > Fα,1,n-2)

Page 57: biometrika 2010

54

f (F 1, n-2 )

F α,1,n -2

F 1,n -2

Slika 7.8 F raspodjela i kritična vrijednost za stupnjeve slobode 1 i (n – 2). Izraz Fα,1,n-2 predstavlja kritičnu vrijednost F raspodjele

Korisno je izračune i provjeru upisati u ANOVA tablicu (tablicu analize varijance) ANOVA tablica

Izvor SS df MS F Regresija SSREG 1 MSREG F=MSREG / MSOST Ostatak SSOST n-2 MSOST Ukupno SSUKUP n-1

Primjer: U našem primjeru sa kravama imali smo SSxy = 256, SSxx = 34. Ukupna suma kvadrata je suma kvadrata za y.

( )833.2390

SS SS

22

yyUKUP =−== ∑ ∑i

i ii n

yy

529.192734

)256()( 22

===xx

xyREG SS

SSSS

SSOST = SSUKUP - SSREG = 2390.833 -1927.529 = 463.304 ANOVA tablica Izvor SS df MS F Regresija 1927.529 1 1927.529 16.642 Ostatak 463.304 4 115.826 Ukupno 2390.833 5 Kritična vrijednost F raspodjele za a = 0.05 i stupnjevima slobode 1 i 4 je F0.05,1,4 = 7.71. Budući da je izračunati F= 16.642 veći od kritične vrijednosti nul hipoteza se odbacuje.

7.8 Koeficijent determinacije (R2)

- Proporcija varijabilnosti protumačenog modelom u odnosu na ukupnu varijabilnost:

UKUP

REG

SSSS

R =2 ili UKUP

OST

SSSS

R −= 12

Poprima vrijednosti od 0 do 1:

10 2 ≤≤ R

Page 58: biometrika 2010

55

Koeficijent determinacije je mjera valjanosti modela:

“Dobar” model UKUPREG SSSS ≈ , tj. 12 ≈R

Primjer: Izračunajte koeficijent determinacije za primjer s kravama.

529.192734

)256(SS

)SS(SS

2

xx

2xy

REG ===

ili SSREG = (7.529)2 (34) = 1927.529 SSUKUP = SSyy = 2390.833

81.0833.2390529.1927

SSSSR

UKUP

REG2 ===

Page 59: biometrika 2010

56

8 Korelacija

Korelacija: govori o jakosti linearne veze između dvije varijable x i y. To je relativna mjera veze. - varijable zajednički variraju, a ne mora nužno postojati uzročno-posljedična veza (Pozor: Regresija: uzročno-posljedična veza, x = nezavisna, y = zavisna varijabla) Koeficijent korelacije:

22yx

xy

σσ

σρ =

σ2y = Var(y) = varijanca od y

σ2x =Var(x) = varijanca od x

σxy = Cov(x, y) = kovarijanca između x i y x i y su slučajne normalne varijable. Kovarijanca:

- zajedničko variranje dvije slučajne varijable - apsolutna mjera veze - ako su varijable nezavisne => Cov(x, y) = 0

Korelacija: - kovarijanca standardiziranih varijabli x i y - relativna mjera veze:

- poprima vrijednosti između -1 i 1 Korelacija može biti pozitivna ili negativna. ρ = 1 ili ρ = -1 znače idealnu linearnu vezu ρ = 0 znači da veza ne postoji.

x

x

x

x

y

x

y

x

a)

x

b)

x

c)

x

d)

x

x

y

x

y

Slika 8-1 a) pozitivna korelacija, b) negativna korelacija, c) korelacija ne postoji d) veza između varijabli postoji ali nije linearna

Page 60: biometrika 2010

57

8.1 Procjena koeficijenta korelacije i provjera hipoteza

Procjenitelj koeficijenta korelacije je koeficijent korelacije uzorka:

yyxx

xy

SSSSSS

r =

Gdje su: SSxx = suma kvadrata od x

( )( )

∑ ∑∑ −=−=i

i iii ixx n

xxxxSS

2

22

SSyy = suma kvadrata od y

( )( )

∑ ∑∑ −=−=i

i iii iyy n

yyyySS

2

22

SSxy = suma produkata y i x

( )( )( )( )

∑ ∑∑∑ −=−−=i

i ii iiiii ixy n

yxyxyyxxSS

n = veličina uzorka Provjera hipoteza: Hipoteze:

H0: ρ = 0 (nema korelacije) H1: ρ ≠ 0 (ima korelacije)

Statistika za provjeru:

rsrt =

ima t raspodjelu sa stupnjem slobode (n-2) uz slijedeće uvjete: 1) varijable x i y imaju bivarijatnu normalnu raspodjelu 2) vrijedi nul hipoteza H0: ρ = 0

Ovdje je 2

1s2

r −−

=n

r standardna greška.

Zaključak se izvodi uobičajeno. Uspoređujemo izračunatu t vrijednost iz uzorka s kritičnom vrijednosti (iz tablica) za stupnjeve slobode n-2. Primjer: Vratimo se primjeru sa opsegom i težinama krava i recimo da nas zanima jakost linearne veze između težine (y) i opsega grudi (x). Ovdje pretpostavljamo da opseg grudi i težina imaju bivarijatnu normalnu raspodjelu. Već imamo izračunate sume kvadrata i sumu produkata: SSxx = 34, SSxy = 256, SSUKUP = SSyy = 2390.833. Koeficijent korelacije uzorka (procjena koeficijenta korelacije) je:

898.0)833.2390)(34(

256SSSS

SSr

yyxx

xy ==

Provjera hipoteza H0: ρ = 0 (nema korelacije) H1: ρ ≠ 0 (ima korelacije)

Page 61: biometrika 2010

58

Statistika za provjeru:

08.4898.1

26898.

r1

2nrt22

=−

−=

−=

Kritična vrijednost za razinu značajnosti α = 0.05, i 4 stupnja slobode je tα/2,4 = t0.25,4 = 2.227. Budući da je izračunati t = 4.08 ekstremniji od kritične vrijednosti 2.227, nul hipoteza se odbacuje i može se reći da korelacija u populaciji postoji. Još jedanput treba naglasiti da, iako je utvrđena jaka korelacija, nije korektno bezuvjetno zaključiti da promjena jedne varijable uzrokuje promjenu druge varijable. Za takvu analizu potrebno je napraviti regresiju.

Page 62: biometrika 2010

59

9 Jednostruka analiza varijance

Definicija analize varijance: Podjela ukupne varijabilnosti na izvore varijabilnosti i analiza značajnosti tih izvora.

Cilj jednostruke analize varijance:

- da li postoji razlika između prosjeka više populacija - provjera razlika aritmetičkih srednjih vrijednosti uzoraka izabranih iz više populacija.

Zavisna varijabla:

- mjerenja ili opažanja Nezavisna varijabla:

- grupe (ili način klasificiranja), često kažemo tretmani - kvalitativna, ili kategorička varijabla - često se takva nezavisna varijabla zove i faktor

Grupe predstavljaju populacije Primjer:

Utjecaj tri različite hranidbe na prirast u tovu. Prvo treba definirati sakupljanje podataka, odnosno napraviti plan pokusa:

Izabrat ćemo slučajni uzorak i slučajno primijeniti tretmane na uzorak (definirati grupe) Izabrali smo 15 junadi i različito ih hranili.(tretirali).

Page 63: biometrika 2010

60

Radi preglednosti mogu se životinje i njihova mjerenja napisati po tretmanima:

Tretmani

T1 T2 T3

June Mjerenje June Mjerenje June Mjerenje

2 1170 1 1090 3 1290 6 1200 4 1050 5 1340 9 1180 8 1080 7 1330

12 1180 10 1090 11 1300 15 1170 14 1080 13 1300

Pitanja? 1. Procijeniti prosjeke grupa i ukupnu srednju vrijednost, 2. Da li postoji utjecaj grupe, tj. da li su prosjeci pojedinih grupa različiti

(da li su aritmetičke srednje vrijednosti uzoraka grupa značajno različite. Značajna razlika => u smislu da možemo u velikom broju takvih ponovljenih pokusa očekivati razliku.)

Odgovor na ova pitanja može dati statistička procedura koja se zove analiza varijance. Analiza varijance:

- podjela ukupne varijabilnosti na izvore varijabilnosti i analiza značajnosti tih izvora. - da li je protumačena varijabilnost (varijabilnost između prosjeka grupa) značajna u odnosu na neprotumačenu varijabilnost (unutar grupa)

Modeli analize varijance prema broju nezavisnih (kategoričkih) varijabli:

- jednostruka - dvostruka, itd.

9.1 Model jednostruke analize varijance s fiksnim utjecajima

Fiksni utjecaj: utjecaj grupe je isti na svaku jedinku u toj grupi Neka je broj grupa (tretmana) = a Grupe ili tretmani = slučajni uzorci iz odgovarajućih populacija Po svakom tretmanu n mjerenja (opažanja). Ukupni broj opažanja = (n a) Mjera varijabilnosti između grupa je varijabilnost prosjeka grupa Mjera varijabilnosti unutar grupa je varijabilnost između pojedinih mjerenja unutar grupe Model:

yij = µ + τi + εij i = 1,.....,a j = 1,...,n

yij = opažanje jedinice j u grupi i (tretmanu i) µ = ukupni prosjek τi = fiksni utjecaji grupe ili tretmana i εij = greška modela, neprotumačeni dio modela Nezavisna varijabla τ :

- poprima vrijednosti različitih tretmana

Page 64: biometrika 2010

61

- kategorička varijabla, često se zove faktor - prema modelu faktor ima utjecaj na vrijednosti zavisne varijable y

Primjer: 3 grupe (populacije

yij = j-to mjerenje u i-toj grupi

Grupa G1 G2 G3 y11 y21 y31 y12 y22 y32 y13 y23 y33 y14 y24 y34 y15 y25 y35

9.1.1 Raščlanjenje ukupne varijabilnosti na izvore varijabilnosti:

Izvori varijabilnosti: a) ukupna varijabilnost (varijabilnost opažanja bez obzira u kojoj su grupi); mjeri se ukupnom sumom kvadrata (SSUKUP) b) varijabilnost između grupa ili tretmana (varijabilnost između prosjeka grupa); mjeri se sumom kvadrata između grupa (SSTRT) c) varijabilnost unutar grupa ili tretmana (varijabilnost između opažanja unutar svake grupe); mjeri se sumom kvadrata između grupa, odnosno sumom kvadrata za ostatak (SSOST)

Ukupna suma kvadrata se može raščlaniti na sume kvadrata između grupa i sumu kvadrata unutar grupa: SSUKUP = SSTRT + SSOST

• I grupa: y1j = µ + τ1 + ε1j 330 = 300 + 20 + 10 340 = 300 + 20 + 20 305 = 300 + 20 - 15 • • •

• II grupa: y2j = µ + τ2 + ε2j 311 = 300 + 10 + 1 306 = 300 + 10 - 4 310 = 300 + 10 - 10 • • •

• III grupa: y3j = µ + τ3 + ε3j 275 = 300 - 30 + 5 245 = 300 - 30 - 25 355 = 300 - 30 - 15 • • •

Page 65: biometrika 2010

62

Također vrijedi za stupnjeve slobode: Stupnjevi slobode (ukupno) = stupnjevi slobode (grupa) + stupnjevi slobode (ostatak) (N - 1) = (a - 1) + (N - a) Gdje su N = ukupan broj mjerenja, a = broj tretmana. Formalno, sume kvadrata se definiraju kao kvadrirana odstupanja :

∑ ∑ −=i j ijUKUP yySS 2..)(

∑ ∑ −=i j iTRT yySS 2..).(

∑ ∑ −= i j iijOST yySS 2.)(

Gdje su:

i

j iji n

yy

∑=. = prosjek grupe i

..N

yy iji j∑∑

= = prosjek svih opažanja

ni = broj opažanja u grupi i; N = ukupan broj opažanja Kratki način računanja Suma kvadrata: 1) Ukupna suma

Σi Σj yij 2) Korekcija za srednju vrijednost

( ) ( )opazanja broj ukupni

sumaukupna 22

==∑ ∑

N

yC i j ij

3) Ukupna (korigirana) suma kvadrata

∑ ∑ −= i j ijUKUP CySS 2 = Suma svih kvadriranih opažanja minus C

4) Suma kvadrata za grupe (tretmane) ( )

Cn

ySS

ii

j ij

TRT −= ∑∑ 2

= Suma ( )grupiuopažanja broj

suma grupe

2

za svaku grupu minus C

5) Suma kvadrata za ostatak SSOST = SSUKUP - SSTRT Općenito, dijeljenjem suma kvadrata (SS) s odgovarajućim stupnjevima slobode

dobiju se prosjeci kvadrata (MS): MS = SS / (stupnjevi slobode)

Dakle, prosjek kvadrata za tretmane:

MSTRT = SSTRT/(a-1) Prosjek kvadrata za ostatak:

Page 66: biometrika 2010

63

MSOST = SSOST/(N-a) 9.1.2 Postavljanje hipoteza i F-provjera Hipoteze: H0: τ1 = τ2 =... = τa , nema utjecaja grupa H1: τi ≠ τi’ za barem jedan par (i,i’), razlika između grupa postoji Hipoteza se može i ovako postaviti: H0: µ1 = µ2 =... = µa , prosjeci populacija su isti, H1: µi ≠ µi’ za barem jedan par (i,i’) prosjeci populacija nisu isti. Statistika za provjeru:

OST

TRTMSMSF =

ima F raspodjelu sa (a-1) i (N-a) stupnjeva slobode, ako vrijedi H0. F statistika je zapravo omjer mjera protumačene i neprotumačene varijabilnosti: Ovaj omjer nam govori:

- da li je varijabilnost mjerenja potpuno slučajna ili je uvjetovana i nekim sistematskim utjecajem (grupom ili tretmanom) - da li je varijabilnost između grupa (između prosjeka grupa) značajna u odnosu na varijabilnost unutar grupa - da li su prosjeci grupa ili utjecaji grupa značajno različiti

Odbacujemo H0 ako F > Fα,(a-1),(N-a), tj. ako je izračunata statistika F iz uzorka veća od kritične vrijednosti

Fα,(a-1),(N-a)

F1F0 F

Slika 9-1: Provjera hipoteza koristeći F raspodjelu. Ako je F0 izračunati F, tj. F < Fα,a-1,N-a,H0 ne odbacujemo. Ako

je F1 izračunati F, tj. F > Fα,a-1,N-a,H0 odbacujemo uz α razinu značajnosti.

Radi preglednosti izračuni i provjera se mogu napisati u tablicu analize varijance ANOVA tablica: Izvor SS df MS = SS/df F Grupa SSTRT a-1 MSTRT MSTRT/MSOST Ostatak SSOST N-a MSOST Ukupno SSUKUP N-1

Page 67: biometrika 2010

64

Primjer: Zanimalo nas je da li postoji razlika u prirastima tri grupe prasadi kojima su davane tri različite smjese.

Označimo smjese sa TR1, TR2 i TR3. Radi preglednosti napišimo podatke, sume i prosjeke u tablicu: TR1 TR2 TR3 270 290 290 300 250 340 280 280 330 280 290 300 270 280 300 Ukupno -------------------------------------------------------- Σ 1400 1390 1560 4350 n 5 5 5 15 y 280 278 312 290 Za izračunavanje suma kvadrata koristimo kratki način računanja sume kvadrata: 1) Ukupna suma

Σi Σj yij = y.. = (270 + 300 + ......+ 300) = 4350 2) Korekcija za srednju vrijednost

( ) ( ) 126150015

4350opazanja broj ukupni

sumaukupna N..)y(C

222====

3) Ukupna (korigirana) suma kvadrata

SSUKUP = Σi Σj yij2 - C = (2702 + 3002 + ......+ 3002) - C = 1268700 - 1261500 = 7200

4) Suma kvadrata za grupe

364012615001265140C5

15605

13905

1400Cn

.ySS222

ii

2i

TRT =−=−++=−= ∑

5) Suma kvadrata za ostatak SSOST = SSUKUP - SSTRT = 7200 - 3640 = 3560 Prikažimo anova tablicu: Izvor i SS df MS=SS/df F Tretman 3640 3-1=2 1820.0 6.13 Ostatak 3560 15-3=12 296.67 Ukupno 7200 15-1=14

13.667.2960.1820

MSMSF

OST

TRT ===

Page 68: biometrika 2010

65

0.00.10.20.30.40.50.60.70.80.91.0

0 1 2 3 4 5 6 7 83.89 6.13

f (F )

F 2,12

α = 0.05

Slika 9-2: F provjera za primjer sa prasadi.

Kritična vrijednost za stupnjeve slobode 2 i 12 i razinu značajnosti 0.05 je F.05,2,12 = 3.89. Pošto je izračunati F = 6.13 veći (ekstremniji) od kritične vrijednosti, možemo zaključiti da uz razinu značajnosti α = 0.05 nul hipotezu odbacujemo, tj. možemo reći da postoji značajna razlika između aritmetičkih sredina grupa (slika 9-2).

9.2 Usporedba srednjih vrijednosti pojedinih grupa

F-provjerom provjeravamo da li postoji razlika između tretmana. Ako se H0 odbaci, znači da postoji utjecaj tretmana (razlika između tretmana). Daljnje pitanje je između kojih tretmana je utvrđena značajna razlika ( da li je µi ≠ µi’ za tretmane i i')

Ako se H0 ne odbaci, tj. nismo dokazali da razlike postoje, očito da nije potrebno dublje analizirati problem.

Međutim, moramo biti svjesni mogućnosti greške tipa II) 9.2.1 Tukey provjera (HSD) Tukey provjerom provjeravamo između kojih tretmana postoje razlike. Uspoređujemo prosjeke tretmana u

parovima. Postupak je slijedeći: Izračunamo statistiku HSD:

t

OSTaNa n

MSqHSD −= ,,α

Gdje je q statistika ima Q raspodjelu (iz tablica) nt = broj opažanja po grupi Zaključujemo da je razlika prosjeka između grupa i i i’ značajna uz uz α razinu značajnosti ako:

, '' iiii HSDyy ≥−

Treba naglasiti da je vjerojatnost da se napravi greška tipa I je jednaka α, dakle ista kao i kod F provjere. Za nejednaki broj opažanja po grupi nt se izračuna:

)(1

12

Nn

Na

n i it

∑−−

=

Page 69: biometrika 2010

66

Primjer. Vratimo se našem primjeru sa tri smjese za prasad. Pošto smo u našem primjeru zaključili da postoji značajna razlika između aritmetičkih sredina grupa zanima nas da vidimo koja je to smjesa za praščiće najbolja. Upotrijebimo Tukey metodu:

t

OSTaNa n

MSqHSD −= ,,α

q3,12 = 3.77 (iz tablice ) MSOST = 296.67 nt = 5

0.295

67.29677.3 ==HSD

Dakle, kritična razlika je 29.0. Razlike između aritmetičkih prosjeka grupa (tretmana). Smjese TR1, TR2 i TR3. TRT TR1

280 TR2 278

TR3 312 32 34 TR1 280 - 2 TR2 278 - - Razlike između aritmetičkih sredina grupa TR3 i TR1 , te TR3 i TR2, su 32.0 i 34.0, što je veće od kritične razlike 29.0. Prema tome zaključujemo da je smjesa TR3 bolja i od smjese TR1 i od smjese TR2 uz 5% razinu značajnosti. Često se to grafički može prikazati na slijedeći način. Napišu se simboli grupa po veličini njihovim aritmetičkih sredina. Vodoravnom crtom ili crtama se spoje one grupe između kojih nije pronađena značajna razlika. TR3 TR1 TR3

Page 70: biometrika 2010

67

Površina ispod standardne normalne krivulje (z > zα)

α

zα 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09

0.0 0.5000 0.4960 0.4920 0.4880 0.4840 0.4801 0.4761 0.4721 0.4681 0.4641 0.1 0.4602 0.4562 0.4522 0.4483 0.4443 0.4404 0.4364 0.4325 0.4286 0.4247 0.2 0.4207 0.4168 0.4129 0.4090 0.4052 0.4013 0.3974 0.3936 0.3897 0.3859 0.3 0.3821 0.3783 0.3745 0.3707 0.3669 0.3632 0.3594 0.3557 0.3520 0.3483 0.4 0.3446 0.3409 0.3372 0.3336 0.3300 0.3264 0.3228 0.3192 0.3156 0.3121

0.5 0.3085 0.3050 0.3015 0.2981 0.2946 0.2912 0.2877 0.2843 0.2810 0.2776 0.6 0.2743 0.2709 0.2676 0.2643 0.2611 0.2578 0.2546 0.2514 0.2483 0.2451 0.7 0.2420 0.2389 0.2358 0.2327 0.2296 0.2266 0.2236 0.2206 0.2177 0.2148 0.8 0.2119 0.2090 0.2061 0.2033 0.2005 0.1977 0.1949 0.1922 0.1894 0.1867 0.9 0.1841 0.1814 0.1788 0.1762 0.1736 0.1711 0.1685 0.1660 0.1635 0.1611

1.0 0.1587 0.1562 0.1539 0.1515 0.1492 0.1469 0.1446 0.1423 0.1401 0.1379 1.1 0.1357 0.1335 0.1314 0.1292 0.1271 0.1251 0.1230 0.1210 0.1190 0.1170 1.2 0.1151 0.1131 0.1112 0.1093 0.1075 0.1056 0.1038 0.1020 0.1003 0.0985 1.3 0.0968 0.0951 0.0934 0.0918 0.0901 0.0885 0.0869 0.0853 0.0838 0.0823 1.4 0.0808 0.0793 0.0778 0.0764 0.0749 0.0735 0.0721 0.0708 0.0694 0.0681

1.5 0.0668 0.0655 0.0643 0.0630 0.0618 0.0606 0.0594 0.0582 0.0571 0.0559 1.6 0.0548 0.0537 0.0526 0.0516 0.0505 0.0495 0.0485 0.0475 0.0465 0.0455 1.7 0.0446 0.0436 0.0427 0.0418 0.0409 0.0401 0.0392 0.0384 0.0375 0.0367 1.8 0.0359 0.0351 0.0344 0.0336 0.0329 0.0322 0.0314 0.0307 0.0301 0.0294 1.9 0.0287 0.0281 0.0274 0.0268 0.0262 0.0256 0.0250 0.0244 0.0239 0.0233

2.0 0.0228 0.0222 0.0217 0.0212 0.0207 0.0202 0.0197 0.0192 0.0188 0.0183 2.1 0.0179 0.0174 0.0170 0.0166 0.0162 0.0158 0.0154 0.0150 0.0146 0.0143 2.2 0.0139 0.0136 0.0132 0.0129 0.0125 0.0122 0.0119 0.0116 0.0113 0.0110 2.3 0.0107 0.0104 0.0102 0.0099 0.0096 0.0094 0.0091 0.0089 0.0087 0.0084 2.4 0.0082 0.0080 0.0078 0.0075 0.0073 0.0071 0.0069 0.0068 0.0066 0.0064

2.5 0.0062 0.0060 0.0059 0.0057 0.0055 0.0054 0.0052 0.0051 0.0049 0.0048 2.6 0.0047 0.0045 0.0044 0.0043 0.0041 0.0040 0.0039 0.0038 0.0037 0.0036 2.7 0.0035 0.0034 0.0033 0.0032 0.0031 0.0030 0.0029 0.0028 0.0027 0.0026 2.8 0.0026 0.0025 0.0024 0.0023 0.0023 0.0022 0.0021 0.0021 0.0020 0.0019 2.9 0.0019 0.0018 0.0018 0.0017 0.0016 0.0016 0.0015 0.0015 0.0014 0.0014

3.0 0.0013 0.0013 0.0013 0.0012 0.0012 0.0011 0.0011 0.0011 0.0010 0.0010 3.1 0.0010 0.0009 0.0009 0.0009 0.0008 0.0008 0.0008 0.0008 0.0007 0.0007 3.2 0.0007 0.0007 0.0006 0.0006 0.0006 0.0006 0.0006 0.0005 0.0005 0.0005 3.3 0.0005 0.0005 0.0005 0.0004 0.0004 0.0004 0.0004 0.0004 0.0004 0.0003 3.4 0.0003 0.0003 0.0003 0.0003 0.0003 0.0003 0.0003 0.0003 0.0003 0.0002

Page 71: biometrika 2010

68

Kritične vrijednosti studentove t-raspodjele (t > tα)

α

Stupnjevi slobode t0.1 t0.05 t0.025 t0.01 t0.005 t0.001

1 3.078 6.314 12.706 31.821 63.656 318.289 2 1.886 2.920 4.303 6.965 9.925 22.328 3 1.638 2.353 3.182 4.541 5.841 10.214 4 1.533 2.132 2.776 3.747 4.604 7.173 5 1.476 2.015 2.571 3.365 4.032 5.894

6 1.440 1.943 2.447 3.143 3.707 5.208 7 1.415 1.895 2.365 2.998 3.499 4.785 8 1.397 1.860 2.306 2.896 3.355 4.501 9 1.383 1.833 2.262 2.821 3.250 4.297 10 1.372 1.812 2.228 2.764 3.169 4.144

11 1.363 1.796 2.201 2.718 3.106 4.025 12 1.356 1.782 2.179 2.681 3.055 3.930 13 1.350 1.771 2.160 2.650 3.012 3.852 14 1.345 1.761 2.145 2.624 2.977 3.787 15 1.341 1.753 2.131 2.602 2.947 3.733

16 1.337 1.746 2.120 2.583 2.921 3.686 17 1.333 1.740 2.110 2.567 2.898 3.646 18 1.330 1.734 2.101 2.552 2.878 3.610 19 1.328 1.729 2.093 2.539 2.861 3.579 20 1.325 1.725 2.086 2.528 2.845 3.552

21 1.323 1.721 2.080 2.518 2.831 3.527 22 1.321 1.717 2.074 2.508 2.819 3.505 23 1.319 1.714 2.069 2.500 2.807 3.485 24 1.318 1.711 2.064 2.492 2.797 3.467 25 1.316 1.708 2.060 2.485 2.787 3.450

26 1.315 1.706 2.056 2.479 2.779 3.435 27 1.314 1.703 2.052 2.473 2.771 3.421 28 1.313 1.701 2.048 2.467 2.763 3.408 29 1.311 1.699 2.045 2.462 2.756 3.396 30 1.310 1.697 2.042 2.457 2.750 3.385

40 1.303 1.684 2.021 2.423 2.704 3.307 50 1.299 1.676 2.009 2.403 2.678 3.261 60 1.296 1.671 2.000 2.390 2.660 3.232 120 1.289 1.658 1.980 2.358 2.617 3.160 ∝ 1.282 1.645 1.960 2.326 2.576 3.090

Page 72: biometrika 2010

69

Kritične vrijednosti hi-kvadrat raspodjele, χ2 > χ2α,

χα

α

Stupnjevi slobode χ2

0.1 χ20.05 χ2

0.025 χ20.01 χ2

0.005 χ20.001

0.1000 0.0500 0.0250 0.0100 0.0050 0.0010

1 2.706 3.841 5.024 6.635 7.879 10.827 2 4.605 5.991 7.378 9.210 10.597 13.815 3 6.251 7.815 9.348 11.345 12.838 16.266 4 7.779 9.488 11.143 13.277 14.860 18.466 5 9.236 11.070 12.832 15.086 16.750 20.515

6 10.645 12.592 14.449 16.812 18.548 22.457 7 12.017 14.067 16.013 18.475 20.278 24.321 8 13.362 15.507 17.535 20.090 21.955 26.124 9 14.684 16.919 19.023 21.666 23.589 27.877 10 15.987 18.307 20.483 23.209 25.188 29.588

11 17.275 19.675 21.920 24.725 26.757 31.264 12 18.549 21.026 23.337 26.217 28.300 32.909 13 19.812 22.362 24.736 27.688 29.819 34.527 14 21.064 23.685 26.119 29.141 31.319 36.124 15 22.307 24.996 27.488 30.578 32.801 37.698

16 23.542 26.296 28.845 32.000 34.267 39.252 17 24.769 27.587 30.191 33.409 35.718 40.791 18 25.989 28.869 31.526 34.805 37.156 42.312 19 27.204 30.144 32.852 36.191 38.582 43.819 20 28.412 31.410 34.170 37.566 39.997 45.314

21 29.615 32.671 35.479 38.932 41.401 46.796 22 30.813 33.924 36.781 40.289 42.796 48.268 23 32.007 35.172 38.076 41.638 44.181 49.728 24 33.196 36.415 39.364 42.980 45.558 51.179 25 34.382 37.652 40.646 44.314 46.928 52.619

26 35.563 38.885 41.923 45.642 48.290 54.051 27 36.741 40.113 43.195 46.963 49.645 55.475 28 37.916 41.337 44.461 48.278 50.994 56.892 29 39.087 42.557 45.722 49.588 52.335 58.301 30 40.256 43.773 46.979 50.892 53.672 59.702

40 51.805 55.758 59.342 63.691 66.766 73.403 50 63.167 67.505 71.420 76.154 79.490 86.660 60 74.397 79.082 83.298 88.379 91.952 99.608 70 85.527 90.531 95.023 100.425 104.215 112.317 80 96.578 101.879 106.629 112.329 116.321 124.839 90 107.565 113.145 118.136 124.116 128.299 137.208 100 118.498 124.342 129.561 135.807 140.170 149.449

Page 73: biometrika 2010

70

Kritične vrijednosti F raspodjele, F> Fα, α = 0.05

α

Stupnjevi slobode brojnika

1 2 3 4 5 6 7 8

1 161.45 199.50 215.71 224.58 230.16 233.99 236.77 238.88 2 18.51 19.00 19.16 19.25 19.30 19.33 19.35 19.37 3 10.13 9.55 9.28 9.12 9.01 8.94 8.89 8.85 4 7.71 6.94 6.59 6.39 6.26 6.16 6.09 6.04 5 6.61 5.79 5.41 5.19 5.05 4.95 4.88 4.82

6 5.99 5.14 4.76 4.53 4.39 4.28 4.21 4.15 7 5.59 4.74 4.35 4.12 3.97 3.87 3.79 3.73 8 5.32 4.46 4.07 3.84 3.69 3.58 3.50 3.44 9 5.12 4.26 3.86 3.63 3.48 3.37 3.29 3.23 10 4.96 4.10 3.71 3.48 3.33 3.22 3.14 3.07

11 4.84 3.98 3.59 3.36 3.20 3.09 3.01 2.95 12 4.75 3.89 3.49 3.26 3.11 3.00 2.91 2.85 13 4.67 3.81 3.41 3.18 3.03 2.92 2.83 2.77 14 4.60 3.74 3.34 3.11 2.96 2.85 2.76 2.70 15 4.54 3.68 3.29 3.06 2.90 2.79 2.71 2.64

16 4.49 3.63 3.24 3.01 2.85 2.74 2.66 2.59 17 4.45 3.59 3.20 2.96 2.81 2.70 2.61 2.55 18 4.41 3.55 3.16 2.93 2.77 2.66 2.58 2.51 19 4.38 3.52 3.13 2.90 2.74 2.63 2.54 2.48 20 4.35 3.49 3.10 2.87 2.71 2.60 2.51 2.45

21 4.32 3.47 3.07 2.84 2.68 2.57 2.49 2.42 22 4.30 3.44 3.05 2.82 2.66 2.55 2.46 2.40 23 4.28 3.42 3.03 2.80 2.64 2.53 2.44 2.37 24 4.26 3.40 3.01 2.78 2.62 2.51 2.42 2.36 25 4.24 3.39 2.99 2.76 2.60 2.49 2.40 2.34

26 4.23 3.37 2.98 2.74 2.59 2.47 2.39 2.32 27 4.21 3.35 2.96 2.73 2.57 2.46 2.37 2.31 28 4.20 3.34 2.95 2.71 2.56 2.45 2.36 2.29 29 4.18 3.33 2.93 2.70 2.55 2.43 2.35 2.28 30 4.17 3.32 2.92 2.69 2.53 2.42 2.33 2.27

40 4.08 3.23 2.84 2.61 2.45 2.34 2.25 2.18 50 4.03 3.18 2.79 2.56 2.40 2.29 2.20 2.13 60 4.00 3.15 2.76 2.53 2.37 2.25 2.17 2.10 70 3.98 3.13 2.74 2.50 2.35 2.23 2.14 2.07 80 3.96 3.11 2.72 2.49 2.33 2.21 2.13 2.06 90 3.95 3.10 2.71 2.47 2.32 2.20 2.11 2.04 100 3.94 3.09 2.70 2.46 2.31 2.19 2.10 2.03

Stup

njev

i slo

bode

naz

ivni

ka

120 3.92 3.07 2.68 2.45 2.29 2.18 2.09 2.02

Page 74: biometrika 2010

71

Kritične vrijednosti studentiziranog raspona, q(a,v) a = broj grupa v = stupnjevi slobode pokusne greške α = 0.05 Broj grupa (a)

V 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16

1 18.00 27.00 32.80 37.20 40.50 43.10 45.40 47.30 49.10 50.60 51.90 53.20 54.30 55.40 56.30 2 6.09 8.33 9.80 10.89 11.73 12.43 13.03 13.54 13.99 14.39 14.75 15.08 15.38 15.65 15.91 3 4.50 5.91 6.83 7.51 8.04 8.47 8.85 9.18 9.46 9.72 9.95 10.16 10.35 10.52 10.69 4 3.93 5.04 5.76 6.29 6.71 7.06 7.35 7.60 7.83 8.03 8.21 8.37 8.52 8.67 8.80

5 3.64 4.60 5.22 5.67 6.03 6.33 6.58 6.80 6.99 7.17 7.32 7.47 7.60 7.72 7.83 6 3.46 4.34 4.90 5.31 5.63 5.89 6.12 6.32 6.49 6.65 6.79 6.92 7.04 7.14 7.24 7 3.34 4.16 4.68 5.06 5.35 5.59 5.80 5.99 6.15 6.29 6.42 6.54 6.65 6.75 6.84 8 3.26 4.04 4.53 4.89 5.17 5.40 5.60 5.77 5.92 6.05 6.18 6.29 6.39 6.48 6.57 9 3.20 3.95 4.42 4.76 5.02 5.24 5.43 5.60 5.74 5.87 5.98 6.09 6.19 6.28 6.36

10 3.15 3.88 4.33 4.66 4.91 5.12 5.30 5.46 5.60 5.72 5.83 5.93 6.03 6.12 6.20 11 3.11 3.82 4.26 4.58 4.82 5.03 5.20 5.35 5.49 5.61 5.71 5.81 5.90 5.98 6.06 12 3.08 3.77 4.20 4.51 4.75 4.95 5.12 5.27 5.40 5.51 5.61 5.71 5.80 5.88 5.95 13 3.06 3.73 4.15 4.46 4.69 4.88 5.05 5.19 5.32 5.43 5.53 5.63 5.71 5.79 5.86 14 3.03 3.70 4.11 4.41 4.64 4.83 4.99 5.13 5.25 5.36 5.46 5.56 5.64 5.72 5.79

15 3.01 3.67 4.08 4.37 4.59 4.78 4.94 5.08 5.20 5.31 5.40 5.49 5.57 5.65 5.72 16 3.00 3.65 4.05 4.34 4.56 4.74 4.90 5.03 5.15 5.26 5.35 5.44 5.52 5.59 5.66 17 2.98 3.62 4.02 4.31 4.52 4.70 4.86 4.99 5.11 5.21 5.31 5.39 5.47 5.55 5.61 18 2.97 3.61 4.00 4.28 4.49 4.67 4.83 4.96 5.07 5.17 5.27 5.35 5.43 5.50 5.57 19 2.96 3.59 3.98 4.26 4.47 4.64 4.79 4.92 5.04 5.14 5.23 5.32 5.39 5.46 5.53

20 2.95 3.58 3.96 4.24 4.45 4.62 4.77 4.90 5.01 5.11 5.20 5.28 5.36 5.43 5.50 24 2.92 3.53 3.90 4.17 4.37 4.54 4.68 4.81 4.92 5.01 5.10 5.18 5.25 5.32 5.38 30 2.89 3.48 3.84 4.11 4.30 4.46 4.60 4.72 4.83 4.92 5.00 5.08 5.15 5.21 5.27 40 2.86 3.44 3.79 4.04 4.23 4.39 4.52 4.63 4.74 4.82 4.90 4.98 5.05 5.11 5.17

60 2.83 3.40 3.74 3.98 4.16 4.31 4.44 4.55 4.65 4.73 4.81 4.88 4.94 5.00 5.06 120 2.80 3.36 3.69 3.92 4.10 4.24 4.36 4.47 4.56 4.64 4.71 4.78 4.84 4.90 4.95 ∝ 2.77 3.32 3.63 3.86 4.03 4.17 4.29 4.39 4.47 4.55 4.62 4.68 4.74 4.80 4.84


Top Related