skripta iz statistike

151
1. Uvod ˇ Sto je statistika? Statistika je znanstvena disciplina koja prouˇ cava metode prikupljanja, sre¯ divanja, analize i tumaˇ cenja podataka. Statistika ima vaˇ znu primjenu u prirodnim, tehniˇ ckim, druˇ stvenim i humanistiˇ ckim znanostima. U poslovanju i upravljanju statistika se upotrebljava za donoˇ senje odluka u uvjetima nesigurnosti. Primjeri problema koje rjeˇ savaju statistiˇ cari: (a) Kolika je stopa nezaposlenosti? (b) Tko ´ ce pobijediti na sljede´ cim izborima i za koliko? (c) Koja od dvije ili viˇ se metoda pouˇ cavanja daje bolje rezultate? (d) Kakav je uˇ cinak novog lijeka? (e) Koji su geni vaˇ zni za nastanak odre¯ dene bolesti? Osim podruˇ cja ljudskog djelovanja, rijeˇ c “statistika” moˇ ze oznaˇ cavati skup podataka – npr. statistika sportskog prvenstva ili statistika o prometnim nezgodama, ili numeriˇ cku veliˇ cinu izraˇ cunatu na osnovu podataka, osobito kada se podaci odnose na uzorak – npr. proporcija (tj. udio ili postotak) studenata koji rade preko student servisa. Populacija i uzorak Populacija ili statistiˇ cki skup je skup osoba, stvari, pojava ili drugih objekata, ˇ cije osobine istraˇ zujemo statistiˇ ckom metodom. ˇ Clanovi populacije zovu se statistiˇ cke jedinice, a njihov broj zove se veliˇ cina populacije. Primjer 1.1. Nekoliko populacija: (a) Studenti Sveuˇ ciliˇ sta u Puli koji studij poha¯ daju u ak.god. 2010./2011. (b) Novi osobni automobili prodani u Hrvatskoj tijekom 2010. god. (c) Potresi na podruˇ cju Hrvatske u posljednjih stotinu godina. (d) Hoteli sa sjediˇ stem u Istri na dan 1. svibnja 2010. (e) Teku´ ci raˇ cuni gra¯ dana u Zagrebaˇ ckoj banci na dan 1. oˇ zujka 2011. Populacija ima pojmovno, prostorno i vremensko odre¯ denje. Pojmovno odre¯ denje opisuje kategoriju objekata koji ˇ cine populaciju, tj. koje smatramo statistiˇ ckim jedinicama. Pros- torno odre¯ denje kazuje mjesto ili instituciju kojoj pripadaju statistiˇ cke jedinice. Vremensko odre¯ denje opisuje vremensko razdoblje ili trenutak u vremenu u kojemu se statistiˇ cke jedi- nice promatraju. Pojmovno, prostorno i vremensko odre¯ denje redom odgovaraju na pitanja “ˇ sto”, “gdje” i “kada” se promatra. Npr. ako promatramo populaciju “studenata Sveuˇ ciliˇ sta u Puli koji poha¯ daju studij u ak.god. 2010./2011.”, onda je pojmovno odre¯ denje “studenti”, prostorno odre¯ denje je “Sveuˇ ciliˇ ste u Puli” i vremensko odre¯ denje je “ak.god. 2010./2011.” Promatranje ˇ citave populacije zove se cenzus. Zbog veliˇ cine populacije, njezine nedos- tupnosti ili visokih troˇ skova prikupljanja podataka, cenzus je ˇ cesto teˇ sko ili ˇ cak nemogu´ ce provesti. U takvim sluˇ cajevima, ograniˇ cavamo se na promatranje dijela populacije. Dio ili 1-1

Upload: tedteddy22

Post on 08-Aug-2015

308 views

Category:

Documents


10 download

DESCRIPTION

Skripta sa pitanjima i odgovorima iz statistike. Teorija i zadatci

TRANSCRIPT

Page 1: Skripta iz statistike

1. Uvod

Sto je statistika?

Statistika je znanstvena disciplina koja proucava metode prikupljanja, sredivanja, analize itumacenja podataka. Statistika ima vaznu primjenu u prirodnim, tehnickim, drustvenim ihumanistickim znanostima. U poslovanju i upravljanju statistika se upotrebljava za donosenjeodluka u uvjetima nesigurnosti.

Primjeri problema koje rjesavaju statisticari:

(a) Kolika je stopa nezaposlenosti?

(b) Tko ce pobijediti na sljedecim izborima i za koliko?

(c) Koja od dvije ili vise metoda poucavanja daje bolje rezultate?

(d) Kakav je ucinak novog lijeka?

(e) Koji su geni vazni za nastanak odredene bolesti?

Osim podrucja ljudskog djelovanja, rijec “statistika” moze oznacavati skup podataka – npr.statistika sportskog prvenstva ili statistika o prometnim nezgodama, ili numericku velicinuizracunatu na osnovu podataka, osobito kada se podaci odnose na uzorak – npr. proporcija(tj. udio ili postotak) studenata koji rade preko student servisa.

Populacija i uzorak

Populacija ili statisticki skup je skup osoba, stvari, pojava ili drugih objekata, cije osobineistrazujemo statistickom metodom. Clanovi populacije zovu se statisticke jedinice, a njihovbroj zove se velicina populacije.

Primjer 1.1. Nekoliko populacija:

(a) Studenti Sveucilista u Puli koji studij pohadaju u ak.god. 2010./2011.

(b) Novi osobni automobili prodani u Hrvatskoj tijekom 2010. god.

(c) Potresi na podrucju Hrvatske u posljednjih stotinu godina.

(d) Hoteli sa sjedistem u Istri na dan 1. svibnja 2010.

(e) Tekuci racuni gradana u Zagrebackoj banci na dan 1. ozujka 2011.

Populacija ima pojmovno, prostorno i vremensko odredenje. Pojmovno odredenje opisujekategoriju objekata koji cine populaciju, tj. koje smatramo statistickim jedinicama. Pros-torno odredenje kazuje mjesto ili instituciju kojoj pripadaju statisticke jedinice. Vremenskoodredenje opisuje vremensko razdoblje ili trenutak u vremenu u kojemu se statisticke jedi-nice promatraju. Pojmovno, prostorno i vremensko odredenje redom odgovaraju na pitanja“sto”, “gdje” i “kada” se promatra. Npr. ako promatramo populaciju “studenata Sveucilistau Puli koji pohadaju studij u ak.god. 2010./2011.”, onda je pojmovno odredenje “studenti”,prostorno odredenje je “Sveuciliste u Puli” i vremensko odredenje je “ak.god. 2010./2011.”

Promatranje citave populacije zove se cenzus. Zbog velicine populacije, njezine nedos-tupnosti ili visokih troskova prikupljanja podataka, cenzus je cesto tesko ili cak nemoguceprovesti. U takvim slucajevima, ogranicavamo se na promatranje dijela populacije. Dio ili

1-1

Page 2: Skripta iz statistike

podskup populacije zove se uzorak, postupak formiranja uzorka zove se uzorkovanje, a brojjedinica u uzorku zove se velicina uzorka.

Primjer 1.2. Potrebno je utvrditi koliko studenata Sveucilista u Puli posjeduje vozackudozvolu. S obzirom da na sveucilistu studira nekoliko tisuca studenata, tesko je prikupitipodatke za sve studente. Zbog toga, formiran je uzorak od 50 studenata, za koje je utvrdeno daih 29 posjeduje vozacku dozvolu, na osnovu cega se zakljucuje da priblizno 29/50 ·100% = 58%studenata sveucilista posjeduje vozacku dozvolu.

Uzorak koristimo da bismo saznali nesto o populaciji, pa se uzorak mora pazljivo odabrati,kako bi valjano predstavljao populaciju. Ako se uzorak bira nekim slucajnim mehanizmom– npr. slucajnim izvlacenjem listica iz kutije ili generiranjem slucajnih brojeva na racunalu,onda kazemo da imamo slucajni uzorak. Slucajnost uzorka je garancija da se uzorak necesistematicno razlikovati od populacije.

Bez obzira kako je uzorak odabran, slucajno ili neslucajno, u poopcavanju osobina uzorkana citavu populaciju nuzno cinimo pogresku, koja se zove pogreska uzorkovanja. Sto je uzorakveci, to se on manje razlikuje od populacije, pa je i pogreska uzorkovanja manja. S drugestrane, veci uzorak u pravilu znaci i vece troskove prikupljanja podataka.

Istaknimo jos da se numericka osobina populacije zove parametar, a numericka osobinauzorka zove se statistika. Npr. ako promatramo automobile iz primjera 1.1b, onda mozemoizracunati proporciju prodanih automobila s diesel motorom. Proporcija populacije primjerje parametra. Ogranicimo li promatranje na uzorak automobila, govorit cemo o proporcijiuzorka, sto je primjer statistike. U slucaju kada su parametri nepoznati, statistike koristimoza procjenjivanje parametara i za testiranje hipoteza o parametrima.

Deskriptivna i inferencijalna statistika

Uobicajena je podjela statistike na deskriptivnu i inferencijalnu.Deskriptivna statistika obuhvaca postupke sredivanja, tablicnog i grafickog prikazivanja

podataka, te izracunavanja raznih statistickih pokazatelja, kao sto je npr. aritmeticka sredina.Dobiveni rezultati odnose se iskljucivo na dane podatke i ne uopcavaju se.

Inferencijalna statistika proucava metode kojima se pomocu dijela informacija – uzorka,donosi zakljucak o cjelini – populaciji. Procjenjivanje parametara i testiranje hipoteza sutipicni postupci koji spadaju u inferencijalnu statistiku. Za inferencijalnu statistiku koriste sejoz nazivi induktivna statistika, statisticko zakljucivanje ili metoda uzoraka.

Ako se u istrazivanju koristimo cenzusom, onda zadnji korak u istrazivanju je primjenametoda deskriptivne statistike. Naime, u tom trenutku bit ce poznate sve karakteristike po-pulacije i moci cemo donijeti odluku ili druge zakljucke koje trebamo. Medutim, raspolaganjecitavom populacijom je vise izuzetak nego pravilo. Obicno raspolazemo uzorkom, a htjelibismo nesto saznati o populaciji, pri cemu se koristimo inferencijalnom statistikom.

Vazno je napomenuti da se postupci inferencijalne statistike zasnivaju na pretpostavci daje uzorak slucajan. Ako imamo neslucajan uzorak, metode inferencijalne statistike se ne moguprimijeniti.

Statisticke varijable

Istrazivace obicno zanimaju odredena svojstva statistickih jedinica. Svojstvo koje posjedujusve statisticke jedinice i koje za razlicite statisticke jedinice moze poprimiti razlicite vrijednostiili modalitete zove se statisticka varijabla ili statisticko obiljezje.

1-2

Page 3: Skripta iz statistike

Primjer 1.3. Neke statisticke varijable za populacije iz primjera 1.1:

(a) studenti: ime, prezime, spol, godina rodenja, mjesto rodenja, broj indeksa, odjel, smjer,godina studija, broj polozenih ispita, prosjecna ocjena;

(b) automobili: proizvodac, model, godina proizvodnje, cijena, broj sasije, boja, vrsta motora,snaga, potrosnja, broj sjedala, zupanija (u kojoj je automobil prodan);

(c) potresi: vrijeme pocetka, trajanje, epicentar, dubina, snaga, intenzitet, broj zrtava;

(d) hoteli: naziv, kategorija, sjediste, tvrtka (koja posluje hotelom), broj soba, broj apart-mana, broj postelja, broj zaposlenih, broj stalno zaposlenih;

(e) tekuci racuni: broj racuna, vlasnik, saldo, dopusteno prekoracenje.

Svojstvo koje za sve statisticke jedinice ima istu vrijednost, nije varijabla, nego je kons-tanta – npr. “sveuciliste” za sveucilisne studente koji studiraju u Puli ili “zupanija” za hotelesa sjedistem u Istri.

Vrijednosti statistickih varijabli utvrduju se mjerenjem, a mjerenje se vrsi prema odredenojmjernoj skali.

Mjerne skale

Mjerenje nekog svojstva je postupak kojim statistickim jedinicama dodjeljujemo brojeve ilidruge simbole, tako da odnosi medu brojevima ili simbolima odgovaraju odnosima medustatistickim jedinicama s obzirom na svojstvo koje se mjeri. Pravilo prema kojemu provodimomjerenje zove se mjerna skala. Mjerenje i mjerne skale, te njihov utjecaj na analizu podatakaproucava grana primijenjene matematike koja se zove teorija mjerenja.

Npr. pretpostavimo da imamo skup cijevi. Svakoj cijevi mozemo dodijeliti broj kojipredstavlja njenu duljinu (npr. u metrima). Ako je broj koji smo tako dodijelili jednoj cijeviveci od broja koji smo dodijelili nekoj drugoj cijevi, onda mozemo zakljuciti da je prva cijevdulja od druge. Dakle, odnos medu brojevima (“biti veci”) odgovara odnosu medu cijevima(“biti dulji”). Slicno tome, ako zbrojimo brojeve koje smo dodijelili dvjema cijevima, rezultatzbrajanja je duljina cijevi koja bi se dobila spajanjem tih dviju cijevi. Stoga, jos jedan odnosmedu brojevima (zbrajanje), odgovara odredenom odnosu medu cijevima (spajanje).

S druge strane, prepostavimo da imamo skup studenata i da smo studentima dodijelilibrojeve, ovisno o tome koji strani jezik slusaju: enleski jezik – 1, njemacki jezik – 2, talijanskijezik – 3, ostalo – 4. Koji odnosi medu brojevima odgovaraju odnosima medu studentima?Ocigledno se niti jedno svojstvo dodijeljenih brojeva ne prenosi na studente. Takve brojevenema smisla usporedivati po velicini, niti ima smisla s njima provoditi racunske operacije,jedino sto znamo je da studenti kojima su dodijeljeni razliciti brojevi slusaju razlicite jezike.

Statistika povezuje podatke i zakljucke, a teorija mjerenja povezuje podatke i stvarnost.Zelimo li da nam statisticka analiza kaze nesto o stvarnosti, a ne samo o podacima, moramorazumjeti svojstva mjernih skala u skladu s kojima je provedeno mjerenje. Poznavanje mjernihskala uvjet je za ispravni izbor statistickih metoda za analizu promatrane pojave.

Najvaznije mjerne skale – nominalna, ordinalna, intervalna, omjerna i apsolutna – tvorehijerarhiju, u kojoj svaka sljedeca skala ukljucuje osobine prethodne.

Varijable kojima vrijednost dodjeljujemo na nominalnoj ili ordinalnoj mjernoj skali zovuse kvalitativne ili kategoricke, a varijable kojima vrijednost dodjeljujemo na ostalim mjernimskalama zovu se kvantitativne ili numericke.

1-3

Page 4: Skripta iz statistike

Nominalna mjerna skala

Vrijednost na nominalnoj mjernoj skali moze biti broj ili bilo koji drugi simbol ili rijec. Vri-jednost na nominalnoj skali predstavlja samo identifikator, naziv ili kategoriju. Varijabla kojojvrijednost dodjeljujemo prema nominalnoj mjernoj skali zove se nominalna varijabla. Primjerinominalnih varijabli: ime, prezime, mjesto rodenja (osobe), broj indeksa, odjel (studenta),model, boja (automobila), broj dresa (igraca sportske ekipe) itd.

Za vrijednosti nominalne varijable mozemo samo utvrditi da li su jednake ili razlicite, npr.moguce je utvrditi da li dvije osobe imaju jednako ili razlicito ime. Odnosi koji mozda vrijedeza vrijednosti na nominalnoj mjernoj skali ne prenose se prirodno na statisticke jedinice, npr.cinjenica da jedan igrac ima manji broj dresa od drugog igraca ne govori nista o odnosu iliulozi tih igraca.

Ordinalna mjerna skala

Vrijednost na ordinalnoj mjernoj skali moze biti broj ili neki drugi simbol ili rijec. Vrijednostna ordinalnoj skali izrazava redoslijed ili intenzitet. Varijabla kojoj vrijednost dodjeljujemoprema ordinalnoj mjernoj skali zove se ordinalna varijabla. Koriste se jos nazivi redoslijednaili rang varijabla. Primjeri ordinalnih varijabli: ocjena (studenta na ispitu), cin (u vojsci ilipoliciji), ekonomska razvijenost (zemlje ili regije), intenzitet potresa po Mercallijevoj ljestvici.

Vrijednosti ordinalne varijable mogu se poredati po velicini ili intenzitetu. Premda racunskeoperacije s vrijednostima ordinalne varijable nisu moguce, one se ponekad ipak izvode, pa takoracunamo npr. prosjecnu ocjenu polozenih ispita.

Intervalna mjerna skala

Pomocu intervalne mjerne skale, statistickim jedinicama se dodjeljuju brojevi tako da razlikemedu brojevima odgovaraju razlikama u mjerenom svojstvu. Primjeri intervalnih varijabli:temperatura u stupnjevima Celsiusa ili Fahrenheita, kalendarska godina.

Polozaj nule i mjerna jedinica na intervalnoj skali odredeni su dogovorno. Stovise, vrijed-nost nula ne oznacava nepostojanje promatranog svojstva. Posljedica toga je da s vrijednos-tima intervalne varijable ne mozemo formirati omjere. Npr. temperatura od 0 C ne znacida tijelo nema svojstvo temperature. Takoder, nije korektno reci da je 20 C dvostruko vecatemperatura od 10 C. Jedino sto mozemo reci je da je razlika u temperaturi izmedu 20 C i10 C jednaka razlici izmedu 10 C i 0 C.

Intervalnoj mjernoj skali pripadaju i tzv. dihotomne ili binarne varijable. To su vari-jable koje mogu poprimiti samo dvije razlicite vrijednosti, kao npr. spol (musko/zensko),pusac/nepusac, punoljetan/maloljetan, ozenjen/neozenjen itd. Vrijednosti dihotomnih vari-jabli obicno oznacavamo s 0 i 1. Zapravo, ako dihotomna varijabla oznacava prisutnost iliodsutnost nekog svojstva, onda mozemo smatrati da ta varijabla pripada omjernoj ili cakapsolutnoj mjernoj skali.

Slicna intervalnoj je log-intervalna mjerna skala koja ima svojstvo da razlikama medu bro-jevima odgovaraju omjeri u mjerenom svojstvu. Primjeri: Richterova skala za snagu potresa,pH vrijednost, magnituda (sjaj) nebeskih tijela. Npr. potres jacine 5 po Richteru je 10 putajaci od potresa jacine 4, a potres jacine 6 je 10 puta jaci od potresa jacine 5.

1-4

Page 5: Skripta iz statistike

Omjerna mjerna skala

Kod omjerne mjerne skale, statistickim jedinicama se dodjeljuju brojevi tako da razlike iomjeri brojeva odgovaraju razlikama i omjerima mjerenog svojstva. Nula na omjernoj skaliznaci nepostojanje svojstva, ali se mjerna jedinica moze proizvoljno birati. Primjeri omjernihvarijabli: duljina, visina, tezina, tlak (zraka), trajanje (nekog dogadaja) itd.

Apsolutna mjerna skala

Jedinicama su dodijeljeni brojevi tako da se sva svojstva brojeva prenose na mjerenu osobinu.Primjeri: proporcija, razne varijable cija se vrijednost dobije brojanjem – broj djece u obitelji,broj zaposlenih u poduzecu. Kod apsolutne mjerne skale nije dozvoljena ni promjena mjernejedinice.

Diskretne i neprekidne varijable

Numericke statisticke varijable korisno je podijeliti na diskretne i neprekidne.Vrijednost diskretne ili prekidne varijable obicno dobijemo brojanjem. Primjeri diskretnih

varijabli: broj zaposlenih, broj clanova obitelji, broj studenata na nastavi, broj zastoja u radustroja. Diskretne varijable imaju osobinu da im se vrijednost iskazuje odredenom najmanjomi nedjeljivom mjernom jedinicom – npr. kod varijable “broj studenata na nastavi”, najmanjamjerna jedinica je “jedan student” i nema smisla reci da smo na nastavi imali pola ili trecinustudenta. Skup vrijednosti te varijable sastoji se od nenegativnih cijelih brojeva, tj. od brojeva0, 1, 2, 3, . . .

S druge strane, neprekidna ili kontinuirana varijabla moze poprimiti bilo koju vrijednostunutar nekog neprekidnog intervala brojeva. Tako, vrijeme u sekundama potrebno da sportaspretrci 100 metara, u teoriji moze biti bilo koji pozitivan broj, tj. broj u intervalu (0,∞).Naravno, neke vrijednosti u tom intervalu javljat ce se cesce od drugih, no svaki broj u tomintervalu moze biti vrijednost dane neprekidne varijable – vrijednosti 10, 10.1 ili 10.000001 susve moguce. Vrijednost neprekidne varijable dobije se mjerenjem nekim mjernim instrumentom(npr. metar, vaga, sat, tlakomjer, termometar itd.), i moze se iskazati u po volji malenojmjernoj jedinici (npr. km, m, cm, mm, µm itd.). Primjeri neprekidnih varijabli: duljina,visina, tezina, tlak, kolicina padalina, temperatura.

Premda u teoriji postoji jasna razlika izmedu diskretnih i neprekidnih varijabli, u praksise obicno radi o aproksimaciji. Svaki mjerni instrument ima ogranicenu preciznost – npr.najmanja mjerna jedinica koja je oznacena na metru kojim mjerimo visinu osobe je milimetar– tako da, premda je promatrana varijabla (visina osobe) neprekidna, izmjerene vrijednostinece nikada ciniti kontinuum, odnosno bit ce diskretne. Slicno tome, ponekad je prakticnijeda se prema diskretnoj varijabli ponasamo kao da je neprekidna.

Prikupljanje podataka

Statisticki podaci mogu se prikupiti direktnim opazanjem. Poseban oblik direktnog opazanjaje statisticki eksperiment.

Primjer 1.4. Usporedivanje dviju metoda za sklapanje nekog uredaja pomocu dvije skupinepriblizno jednako iskusnih radnika, svaka od kojih sklapa uredaj koristeci jednu od metoda,primjer je statistickog eksperimenta.

1-5

Page 6: Skripta iz statistike

Ako direktno opazanje nije moguce, podatke mozemo od ispitanika prikupiti pomocu an-kete. Anketa se sastoji od pitanja na koja ispitanici odgovaraju, te se kao takva koristi zaprikupljanje cinjenica ili ispitivanje misljenja i stavova. Anketa se moze provesti kao struk-turirani intervju – ispitivac postavlja pitanja ispitaniku, osobno ili telefonskim putem, ilikoristenjem upitnika – ispitanik sam odgovara na pitanja u pismenom obliku.

Primjer 1.5. Primjeri anketa:

(a) ispitivanje kako ce glasaci glasati na izborima,

(b) intervjuiranje kupaca koji su dosli u neku trgovinu o razlozima zasto kupuju upravo tamo,

(c) studentska evaluacija nastave, prilikom koje studenti na kraju semestra ispunjavaju ano-nimni upitnik.

Tablicni i graficki prikazi

Statisticki podaci i rezultati statisticke analize mogu se prikazati u tri oblika – tekstovno,tablicno i graficki.

Tekst se koristi kada treba prikazati svega nekoliko vrijednosti. Npr. ako smo promatralistudente na satu statistike i ako smo utvrdili broj studenata koji imaju polozen ispit iz ma-tematike, onda o rezultatima mozemo izvjestiti ovako: “od 25 ispitanih studenata, njih 17 ili68% ima polozen ispit iz matematike”.

Tablice i grafikoni prikazuju podatke koje bi bilo tesko ili nemoguce opisati rijecima. Ta-blice se koriste kada treba precizno prikazati veci skup podataka, ali tablice nisu prikladneza uocavanje pravilnosti, veza ili usporedivanje. Za takve potrebe koriste se graficki prikazi.Pimjerice, tablica 1.1 i slika 1.1 prikazuju izvoz i uvoz RH u mil. EUR u 2009. god. poodabranim zemljama.

Tablica 1.1. Izvoz i uvoz RH u milijunima EUR za 2009. god. po odabranim zemljama(izvor: Statisticki ljetopis RH 2010., DZS, str. 375-6).

Izvoz UvozZemlja (mil. EUR) (mil. EUR)Austrija 405 764BiH 966 407Italija 1432 2343Madarska 132 493Njemacka 828 2060Rusija 110 1448Slovenija 557 871Ukupno 4430 8386

Tablice i graficki prikazi koji postaju dijelom pisanog rada (seminarski, diplomski, strucniili znanstveni radovi, tehnicka izvjesca i slicno) trebaju biti sami po sebi jasni, u smislu da ihje moguce shvatiti i protumaciti bez pomnog citanja ostalih dijelova teksta. Zbog toga, svakatablica i grafikon moraju imati primjeren, informativan opis. Opis se obicno stavlja iznadtablice i ispod grafikona (to je samo obicaj i razlicite struke imaju razlicite zahtjeve o takvimstvarima), zato sto se tablice citaju odozgo prema dolje, a graficki prikazi obrnutim putem.Ponekad se trazi da tablica i grafikon imaju i poseban naslov, npr. pri izradi postera. Stupci

1-6

Page 7: Skripta iz statistike

Austrija BiH Italija Mađarska Njemačka Rusija Slovenija

IzvozUvoz

Izvo

z i u

voz

(mil.

EU

R)

050

010

0015

0020

0025

00

Slika 1.1. Izvoz i uvoz RH u milijunima EUR za 2009. god. po odabranim zemljama(izvor: Statisticki ljetopis RH 2010., DZS, str. 375-6).

i redovi u tablici, te koordinatne osi na grafikonima moraju imati jasan naslov, s naznacenimmjernim jedinicama. Ako koordinatna os prikazuje kategoricku varijablu, onda vrijednosti(kategorije) varijable trebaju biti upisane ispod ili pored osi, dok ako os prikazuje numerickuvarijablu onda na njoj treba biti odgovarajuce numericko mjerilo.

U tekstu treba rezimirati kljucne cinjenice koje su prikazane tablicom ili grafikonom. Akose takvo rezimiranje cini nepotrebnim, onda se moze dovesti u pitanje i potreba da se tablicaili grafikon uopce nalaze u radu. Kako bi se u tekstu mogli lako pozvati na tablicu ili grafikon,potrebno je da isti budu oznaceni jedinstvenim brojem (npr. “Tablica 1”, “Slika 1”).

Svi opisi koji se ticu tablice ili grafickog prikaza trebaju biti sto je moguce jednostavniji,ali istovremeno potpuni, jasni i informativni. Ako tablica prikazuje originalne podatke onda jepotrebno navesti sto se mjerilo, gdje su podaci prikupljeni i kada, dok ako su podaci odnekudpreuzeti, npr. iz neke publikacije ili drugog rada, onda treba navesti izvor.

1-7

Page 8: Skripta iz statistike

2. Lokacija i disperzija

Statisticki podaci ne sastoje se od medusobno jednakih vrijednosti, nego od vrijednostikoje su razlicite, te koje imaju odredeni raspored, raspodjelu ili distribuciju. Glavne osobine tedistribucije jesu:

(a) lokacija ili centralna tendencija,

(b) disperzija ili rasprsenje,

(c) oblik, gdje spadaju asimetrija i zaobljenost.

U ispitivanju osobina distribucije koristimo se grafickim prikazima, kao i numerickim pokaza-teljima, koji se zovu mjere. Tako govorimo o mjerama lokacije, mjerama disperzije i mjeramaoblika. Mjere lokacije zovu se jos srednje ili prosjecne vrijednosti.

Aritmeticka sredina

Aritmeticka sredina je najvaznija i najpopularnija mjera lokacije i kada to ne moze dovestido zabune, kratko je zovemo sredina ili prosjek. Valja medutim upamtiti da se aritmetickasredina moze koristiti samo za numericke podatke, tj. za podatke koji su barem na intervalnojskali.

Ako su X1, X2, . . . , Xn vrijednosti numericke varijable, onda aritmeticku sredinu X tihvrijednosti definiramo kao omjer njihovog zbroja i broja, tj.

(2.1) X =X1 +X2 + · · ·+Xn

n=

∑Xi

n.

Primjer 2.1. Istrazivac treba u racunalo unijeti odgovore s 500 prikupljenih upitnika. Kakoje rijec o obimnom poslu, istrazivac zeli unaprijed znati koliko ce mu priblizno vremena trebatida ga dovrsi. U tu svrhu, odabrao je slucajni uzorak od 10 upitnika, te je odredio vrijemepotrebno da u racunalo unese odgovore s tih upitnika, pri cemu je dobio ove vrijednosti (usekundama): 87, 90, 92, 90, 86, 91, 91, 89, 94, 90.

(a) Koliko vremena ce istrazivacu trebati za unos odgovora sa svih upitnika?

(b) Koliko iznosi srednje vrijeme unosa upitnika iz uzorka?

(c) Podatke iz uzorka prikazite dijagramom tocaka.

U ovom primjeru dano je n = 10 vrijednosti numericke varijable “vrijeme unosa”, koja jemjerena u sekundama. Te vrijednosti jesu X1 = 87, X2 = 90, X3 = 92, . . . , Xn = 90. Ukupnovrijeme unosa upitnika iz uzorka iznosi

∑Xi = 900 sekundi, a kako je populacija 50 puta

veca od uzorka, slijedi da ce vrijeme unosa svih upitnika (priblizno) iznositi 900 · 50 = 45000sekundi, odnosno 12.5 sati.

Promotrimo temeljitije kako smo dosli do iznosa od 45000 sekundi:

45000 = 900 · 50 =∑Xi · 500n =

∑Xi

n · 500 = X · 500 .

Dakle, u izracunu smo se indirektno koristili aritmetickom sredinom, koju, prema upravo na-pisanim jednakostima, mozemo smatrati (pribliznim) vremenom potrebnim za unos odgovora

2-1

Page 9: Skripta iz statistike

s jednog upitnika. Zbog toga, srednje vrijeme unosa jednako je aritmetickoj sredini izmjerenihvrijednosti:

X =

∑Xi

n=

900

10= 90 .

S obzirom da smo u racunanju aritmeticke sredine ukupno vrijeme unosa od 900 sekundipodijelili na 10 dijelova, slijedi da je aritmeticka sredina takoder iskazana u sekundama, od-nosno u istoj mjernoj jednici kao podaci.

Dijagram tocaka prikazan je na slici 2.1 i sastoji se od brojevne osi, na kojoj je primjerenomjerilo za podatke, te od tocaka iznad pravca, koje predstavljaju podatke. Ako se nekevrijednosti ponavljaju, pripadne tocke crtaju se jedna iznad druge. Dijagram tocaka koristi seza prikaz relativno malih skupova numerickih podataka (do 30 vrijednosti).

86 88 90 92 94

Vrijeme unosa (sekunde)

Slika 2.1. Vrijeme potrebno za unos odgovora s upitnika u racunalo.

Istaknimo sada dva vazna svojstva aritmeticke sredine. Prvo svojstvo govori o tome kolikoaritmeticka sredina moze biti velika ili malena. Naime, ako se numericki podaci nalaze izmedubrojeva A i B, tako da za za sve podatke vrijedi A ≤ Xi ≤ B, onda zbrajanjem tih nejednakostidobivamo nA ≤ ∑Xi ≤ nB, odakle, dijeljenjem s n, slijedi A ≤ X ≤ B, sto znaci da se iaritmeticka sredina mora nalaziti izmedu brojeva A i B. Posebno, kako se podaci uvijek nalazeizmedu svoje najmanje i najvece vrijednosti, zakljucujemo da se aritmeticka sredina takodernalazi izmedu tih vrijednosti, tj.

(2.2) minXi ≤ X ≤ maxXi .

Prema tome, i bez racunanja aritmeticke sredine podataka iz primjera 2.1, znamo da ona trebabiti izmedu minXi = 86 i maxXi = 94.

Drugo vazno svojstvo aritmeticke sredine govori da je aritmeticka sredina teziste ili tockaravnoteze podataka. Naime, ako zamislimo da brojevna os u dijagramu tocaka predstavljapolugu, na koju su smjestena tijela jednake mase, predocena tockama iznad brojevne osi,onda ce mjesto ravnoteze poluge biti upravo u aritmetickoj sredini. To svojstvo aritmetickesredine proizlazi iz cinjenice da je zbroj devijacija podataka jednak nuli. Pritom, odstupanje ilidevijacija podatkovne vrijednosti Xi od aritmeticke sredine X definira se kao razlika Xi −X.Tako, devijacije podataka iz primjera 2.1 iznose −3, 0, 2, 0, −4, 1, 1, −1, 4, 0 i njihov zbrojiznosi nula. Lako se provjerava da to vrijedi za svaki niz podataka, jer iz definicije aritmetickesredine proizlazi

∑Xi = nX, a to onda povlaci

(2.3)∑

(Xi −X) =∑Xi − nX = 0 .

Ocigledno, predznak devijacije pokazuje u kojem smjeru se podatkovna vrijednost nalazi u od-nosu na aritmeticku sredinu, a njena apsolutna vrijednost pokazuje udaljenost od aritmetickesredine.

2-2

Page 10: Skripta iz statistike

Varijanca i standardna devijacija

Primjer 2.2. Za drugi uzorak od 10 upitnika (v. pr. 2.1), istrazivac je prikupio ove podatkeo vremenu unosa odgovora s upitnika u racunalo: 101, 90, 85, 97, 82, 91, 79, 94, 95, 81.

(a) Izracunajte aritmeticku sredinu danih vrijednosti.

(b) Dijagramom tocaka usporedite ove podatke s podacima iz primjera 2.1. Sto uocavate?

Aritmeticka sredina iznosi

X =

∑Xi

n=

895

10= 89.5 .

Dakle, drugi uzorak ima slicnu aritmeticku sredinu kao prvi. Medutim, unatoc pribliznojednakom tezistu, dijagram tocaka na slici 2.2 pokazuje da se uzorci zamjetno razlikuju porasprsenju ili disperziji. Drugi uzorak ima vecu disperziju od prvog uzorka. Takoder, iznavedenog vidimo da nam aritmeticka sredina ne govori nista o disperziji, te bismo za tunamjenu trebali pronaci neku novu mjeru.

80 85 90 95 100

(1)

(2)

Vrijeme unosa (sekunde)

Slika 2.2. Vrijeme potrebno za unos odgovora s upitnika u racunalo – usporedbapodataka iz primjera 2.1 i 2.2.

Disperzija podataka moze se mjeriti udaljenoscu podataka od aritmeticke sredine. Udalje-nost dva broja obicno se definira kao apsolutna vrijednost njihove razlike. Npr. udaljenostizmedu 2 i 5 je |2− 5| = 3. Dakle, udaljenost vrijednosti Xi od aritmeticke sredine jednaka jeapsolutnoj vrijednosti devijacije |Xi −X|, koju kratko zovemo apsolutna devijacija.

Prema tome, apsolutne devijacije mogu se koristiti za mjerenje disperzije. Pritom, jedinanamjena apsolutne vrijednosti je uklanjanje predznaka devijacije, koji je za udaljenost i disper-ziju nevazan. Medutim, pokazuje se da je od apsolutne vrijednosti, za tu svrhu bolja operacijakvadriranja, jer se njome dobiva fleksibilnija mjera disperzije. To nas vodi do kvadrirane ilikvadratne devijacije (Xi −X)2. Kvadratne devijacije podataka iz primjera 2.1 iznose 9, 0, 4,0, 16, 1, 1, 1, 16, 0.

Rezimirajuci navedeno, svakom nizu numerickih podataka mozemo pridruziti pripadni nizkvadratnih devijacija, koje pokazuju disperziju polaznog niza podataka. Buduci da je nizkvadratnih devijacija i sam niz numerickih podataka, moguce je taj niz sazeti na jedan brojkoristeci aritmeticku sredinu. Ako to ucinimo, dolazimo do vazne mjere disperzije koju zovemovarijanca. Dakle, varijanca podataka iz primjera 2.1 iznosi 48/10 = 4.8

Varijanca ima nedostatak, koji se tice njene mjerne jedinice. S obzirom da smo devijacijedobili oduzimanjem aritmeticke sredine od vrijednosti varijable, one ce imati istu mjernujedinicu kao te vrijednosti – npr. ako od sekundi oduzmemo sekunde, dobit cemo ponovnosekunde. Medutim, kvadriranjem devijacija, kvadrirat cemo i njihovu mjernu jedinicu, pa

2-3

Page 11: Skripta iz statistike

ce tako sekunde postati kvadratne sekunde. Dakle, varijanca nema istu mjernu jedinicu kaopodaci, vec je mjerna jedinica varijance jednaka kvadratnoj mjernoj jedinici podataka. Dabi se opisani problem rijesio, varijanca se korjenuje, cime se dolazi do jos jedne vazne mjeredisperzije, koja se zove standardna devijacija. Standardnu devijaciju oznacit cemo sa S, akako je varijanca jednaka kvadratu standardne devijacije, nju cemo oznaciti sa S2.

Prema tome, varijanca S2 niza numerickih vrijednosti X1, X2, . . . , Xn, definira se kaoaritmeticka sredina kvadratnih devijacija tih vrijednosti, tj.

(2.4) S2 =(X1 −X)2 + (X2 −X)2 + · · ·+ (Xn −X)2

n=

∑(Xi −X)2

n.

Standardna devijacija S je po definiciji jednaka korijenu iz varijance, odnosno

(2.5) S =√S2 = (S2)1/2 .

S obzirom da je varijanca jednaka aritmetickoj sredini kvadratnih devijacija, iz nejednakosti(2.2) zakljucujemo da ce se varijanca uvijek nalaziti izmedu najmanje i najvece kvadratnedevijacije, tj.

min(Xi −X)2 ≤ S2 ≤ max(Xi −X)2 .

Kako kvadratne devijacije nisu negativne, slijedi da ni varijanca ne moze biti negativna. Toznaci da je standardna devijacija uvijek definirana, a korjenovanjem prethodnih nejednakosti iuzimajuci u obzir da je korijen kvadrata nekog broja jednak apsolutnoj vrijednosti tog broja,slijedi

(2.6) min |Xi −X| ≤ S ≤ max |Xi −X| .

Prema tome, standardna devijacija se uvijek nalazi izmedu najmanje i najvece apsolutnedevijacije.

Varijanca ce biti jednaka nuli samo u slucaju kada sve devijacije iznose nula, odnosnokada su sve podatkovne vrijednosti medusobno jednake. Tada uopce nema disperzije. Usvakom drugom slucaju, tj. kadgod se medu podacima nalaze barem dvije razlicite vrijednosti,varijanca ce biti pozitivna. Po konstrukciji, sto je disperzija veca, to ce i vrijednost varijance,odnosno standardne devijacije biti veca.

Ako podaci pripadaju barem omjernoj skali, standardna devijacija se moze staviti u omjers aritmetickom sredinom, cime dobivamo mjeru disperzije koju zovemo koeficijent varijacije ioznacavamo s CV , tj.

(2.7) CV = S /X .

Koeficijent varijacije je relativna mjera disperzije, koja nema mjernu jedinicu, jer se koddijeljenja aritmeticke sredine sa standardnom devijacijom mjerne jedinice krate. Ponekad sekoeficijent varijacije mnozi sa 100% kako bi se iskazao u postotnom obliku.

Primjer 2.3. Izracunajte varijancu, standardnu devijaciju i koeficijent varijacije podataka ovremenu unosa iz primjera 2.1 i 2.2.

Varijancu podataka iz primjera 2.1 smo, u osnovi, vec izracunali, ali cemo to sada ponovitina sistematican nacin. U racunanju, pomagat cemo si sljedecom tablicom, koja preglednoprikazuje podatkovne vrijednosti, devijacije i kvadratne devijacije, te njihove zbrojeve:

2-4

Page 12: Skripta iz statistike

Xi Xi −X (Xi −X)2

87 −3 990 0 092 2 490 0 086 −4 1691 1 191 1 189 −1 194 4 1690 0 0

900 0 48

Sada imamo

S2 =

∑(Xi −X)2

n=

48

10= 4.8 ,

S =√S2 =

√4.8 = 2.191 ,

CV =S

X=

2.191

90= 0.0243 = 2.43% .

Ponavljamo postupak za podatke iz primjera 2.2, ali izostavljamo pomocnu tablicu (kojucitatelj treba samostalno napraviti):

S2 =

∑(Xi −X)2

n=

500.5

10= 50.05 ,

S =√S2 =

√50.05 = 7.075 ,

CV =S

X=

7.075

89.5= 0.0790 = 7.90% .

Kao sto smo ocekivali, uzorak s vecom disperzijom iz drugog primjera, ima i vece mjeredisperzije. Podsjetimo da je varijanca u ovom slucaju iskazana u kvadratnim sekundama, astandardna devijacija u sekundama, dok koeficijent varijacije nema mjernu jedinicu, vec je torelativan broj koji pokazuje udio standardne devijacije u aritmetickoj sredini.

Opisani postupak racunanja varijance, koji se zasniva na devijacijama, nije jedini moguci.Stovise, izrada pomocne tablice s devijacijama i kvadratnim devijacijama moze biti dugotrajna,osobito ako je skup podataka velik ili ako devijacije nisu cijeli brojevi (sto obicno nisu). Upotrazi za alternativnim nacinom racunanja varijance, transformirat cemo zbroj kvadratnihdevijacija koristeci pravilo za kvadriranje binoma:∑

(Xi −X)2 =∑

(X2i − 2XiX +X

2)

=∑X2

i − 2X∑Xi + nX

2

=∑X2

i − 2XnX + nX2

=∑X2

i − nX2.

(2.8)

Uvrstavanjem u formulu za varijancu dobivamo

(2.9) S2 =

∑X2

i

n−X2

.

2-5

Page 13: Skripta iz statistike

Umanjenik u gornjoj razlici je omjer zbroja kvadrata i broja podatkovnih vrijednosti, tj.to je aritmeticka sredina kvadrata tih vrijednosti. Prema tome, varijanca se alternativno mozeizracunati tako da od aritmeticke sredine kvadrata oduzmemo kvadrat aritmeticke sredine.Primjena tog izraza na podatke iz primjera 2.1 daje

S2 =

∑X2

i

n−X2

=81048

10− 902 = 4.8 .

Slicno tome, za podatke iz primjera 2.2 imamo

S2 =

∑X2

i

n−X2

=80603

10− 89.52 = 50.05 .

Naravno, ti rezultati su identicni onima koje smo vec dobili, ali ovdje nismo trebali devijacijeda bismo izracunali varijancu. Nedostatak ovog pristupa je sto zbroj kvadrata moze poprimitiveliku vrijednost. Na kraju, istaknimo da zbroj kvadrata nije isto sto i kvadrat zbroja, tj.opcenito je

∑X2

i 6= (∑Xi)

2.

Teorem Cebiseva

Primjer 2.4. Put kocenja je udaljenost koju vozilo prevali od potpune aktivacije kocnicado zaustavljanja. Tablica 2.1 prikazuje podatke o putu kocenja pri brzini od 90 km/h za 30automobila.

(a) Izracunajte aritmeticku sredinu, varijancu, standardnu devijaciju i koeficijent varijacijedanih podataka.

(b) Odredite broj i proporciju podataka koji su od aritmeticke udaljeni manje od k standard-nih devijacija, pri cemu k poprima vrijednosti 1, 1.5, 2, 2.5, 3.

Tablica 2.1. Put kocenja (u metrima) pri brzini od 90 km/h za razlicite automobile.

37.9 40.3 40.5 44.3 45.2 45.6 45.9 46.4 46.7 47.147.4 48.3 48.7 48.9 49.0 49.5 49.8 50.8 50.9 51.251.6 51.7 51.9 53.7 54.3 54.6 56.1 58.0 58.2 64.5

Najprije cemo izracunati aritmeticku sredinu i trazene mjere disperzije:

X =

∑Xi

n=

1489

30= 49.63 ,

S2 =

∑X2

i

n−X2

=74812.54

30− 49.632 = 30.28 ,

S =√S2 =

√30.28 = 5.503 ,

CV =S

X=

5.503

49.63= 0.1109 .

S obzirom da standardna devijacija mjeri disperziju podataka oko aritmeticke sredine,slijedi da udaljenost podataka od aritmeticke sredine, izrazena u standardnim devijacijama,ne moze biti velika. Upravo o tome govori pravilo ili teorem Cebiseva1, koji tvrdi da za svaki

1Pafnutij Ljvovic Cebisev (1821.-1894.) – ruski matematicar

2-6

Page 14: Skripta iz statistike

pozitivan broj k, proporcija podataka udaljenih od aritmeticke sredine manje od k standardnihdevijacija iznosi barem 1− 1/k2.

Udaljenost nekog podatka od aritmeticke sredine je naravno njegovo apsolutno odstupanje,pa podaci Xi koji su od aritmeticke sredine udaljeni manje od k standardnih standardnihdevijacija jesu upravo oni cije apsolutno odstupanje zadovoljava nejednakost

(2.10) |Xi −X| < kS ,

tj. oni koji se nalaze u otvorenom intervalu

(2.11) (X − kS, X + kS) ,

koji je prikazan na slici 2.3.

X − kS X + kSX

kS kS

Slika 2.3. Teorem Cebiseva: za svaki pozitivan broj k, proporcija podataka udaljenihod aritmeticke sredine manje od k standardnih devijacija iznosi barem 1− 1/k2.

Teorem Cebiseva daje nam najmanju proporciju podataka koji se nalaze u navedenomintervalu. Za vecinu skupova podataka, ta proporcija je veca od garantiranog minimuma.Primijetimo i to da je 1− 1/k2 pozitivno tek za k > 1, pa je teorem Cebiseva zapravo koristansamo za udaljenosti vece od jedne standardne devijacije. Posebno, na udaljenosti manjoj oddvije, odnosno tri standardne devijacije nalazi se barem 1−1/22 = 3/4, odnosno 1−1/32 = 8/9podataka.

Pogledajmo kako stoje stvari s podacimo o putu kocenja. U tu svrhu, za k = 1, 1.5, 2, 2.5, 3odredit cemo granice intervala (2.11), a nakon toga broj mk i proporciju pk = mk/n podatkov-nih vrijednosti u tom intervalu, koja ce, prema teoremu Cebiseva, u svakom slucaju iznositinajmanje 1− 1/k2. Rezultati su prikazani u sljedecoj tablici:

k X − kS X + kS mk pk 1− 1/k2

1.0 44.13 55.14 23 0.7667 0.00001.5 41.38 57.89 24 0.8000 0.55562.0 38.63 60.64 28 0.9333 0.75002.5 35.88 63.39 29 0.9667 0.84003.0 33.12 66.14 30 1.0000 0.8889

Linearna transformacija

Primjer 2.5. Koristeci se podacima o temperaturi u tablici 2.2, izracunajte aritmetickusredinu, varijancu i standardnu devijaciju temperature u stupnjevima (a) Celsiusa i (b) Fa-hrenheita. Temperatura u F dobije se tako da se temperatura u C pomnozi s 1.8 i tomepribroji 32.

2-7

Page 15: Skripta iz statistike

Tablica 2.2. Temperatura u stupnjevima Celsiusa.

−4.0 −2.0 1.7 3.2 1.1 −2.6−3.6 −0.7 2.4 2.7 0.0 −3.3−3.1 −0.2 2.6 2.3 −1.2 −3.6−2.8 0.9 3.1 1.7 −1.6 −3.8

Neka su s X1, X2, . . . , Xn oznaceni podaci o temperaturi u C. Ocigledno n = 24. Jednakokao prije, lako se izracunava X = −0.45, S2

x = 6.162, Sx = 2.482. S obzirom da cemo u ovomprimjeru morati raditi s dva niza podataka, oznakama za varijancu i standardnu devijacijudopisali smo indeks “x”, kako bismo znali da se one odnose na temperaturu u C.

Da bismo nasli artmeticku sredinu, varijancu i standardnu devijaciju temperature u F,morali bismo izracunati novi niz podataka Y1, Y2, . . . , Yn, pri cemu je Yi = 1.8Xi + 32. Medu-tim, kako je novi niz podataka dobiven iz starog linearnom transformacijom, pokazuje se dane moramo izracunati vrijednosti Yi da bismo znali koliko iznose Y , S2

y i Sy.Naime, pretpostavimo da smo na podatke primijenili linearnu transformaciju Yi = dXi + c,

pri cemu su d i c konstante (u nasem primjeru je d = 1.8 i c = 32). Zbroj vrijednosti Yi cetada iznositi ∑

Yi =∑

(dXi + c) = d∑Xi + nc ,

odakle se, dijeljenjem s n dobiva

(2.12) Y = dX + c .

Zbroj kvadratnih devijacija vrijednosti Yi iznosi∑(Yi − Y )2 =

∑(dXi + c− (dX + c))2 =

∑(d(Xi −X))2 = d2

∑(Xi −X)2 ,

pa dijeljenjem s n imamo

(2.13) S2y = d2S2

x .

Konacno, korjenovanjem posljednje jednakosti i uzimajuci u obzir da je√d2 = |d|, dobivamo

(2.14) Sy = |d|Sx .

Vidimo da konstanta c, koja sluzi pomicanju ili translatiranju podataka, ne utjece na va-rijancu i standardnu devijaciju vrijednosti Yi, jer se translacijom podataka ne mijenja njihovadisperzija, nego samo teziste.

Primjenom izvedenih formula, sada lako izracunavamo

Y = dX + c = 1.8 · (−0.45) + 32 = 31.19 ,

S2y = d2S2

x = 1.82 · 6.162 = 19.96 ,

Sy = |d|Sx = |1.8| · 2.482 = 4.468 .

Naravno, standardnu devijaciju Sy mogli smo izracunati i korjenovanjem varijance S2y .

Linearna transformacija koristi se kada podacima zelimo promijeniti mjernu jedinicu. Pri-mjerice, ako visinu osobe Xi u centimetrima zelimo izraziti u metrima, onda cemo upotrijebititransformaciju Yi = Xi/100, kod koje je d = 1/100 i c = 0. Linearna transformacija moze sekoristiti i za tzv. kodiranje podataka, pri cemu formiramo novi niz podataka, cije se osobinemogu lakse izracunati od osobina polaznog niza. Kodiranje podataka demonstrirat cemo nasljedecem primjeru.

2-8

Page 16: Skripta iz statistike

Primjer 2.6. Slucajnim izborom 20 brtvi proizvedenih na nekom stroju i mjerenjem nji-hove debljine doslo se do podataka prikazanih u tablici 2.3. Izracunajte artmeticku sredinu istandardnu devijaciju danog niza podataka.

Tablica 2.3. Debljina brtve u milimetrima.

2.47 2.50 2.52 2.47 2.552.44 2.53 2.51 2.51 2.472.52 2.56 2.54 2.53 2.472.47 2.47 2.45 2.56 2.54

Kodiranje se zasniva na prikladnom odabiru konstanti d i c, koje treba odabrati tako daniz vrijednosti Yi = dXi + c bude sto je moguce jednostavniji. Ocigledno, ovdje se mnozenjemsa 100 mozemo osloboditi decimalne tocke. Ako nakon toga jos oduzmemo 250, dobit cemoniz cijelih brojeva blizu nule. Prema tome, koristimo transformaciju Yi = 100Xi−250 i pritomje d = 100 i c = −250.

Niz vrijednosti Yi, prikazan u sljedecoj tablici, mozemo izracunati i bez upotrebe kalkula-tora:

−3 0 2 −3 5−6 3 1 1 −3

2 6 4 3 −3−3 −3 −5 6 4

Sada bez puno truda dobivamo

Y =

∑Yin

=8

20= 0.4 ,

S2y =

∑Y 2i

n−X2

=272

20− 0.42 = 13.44 ,

Sy =√S2y =√

13.44 = 3.666 .

Konacno, koristeci jednakosti (2.12), (7.22) i (2.14), izracunat cemo aritmeticku sredinu,varijancu i standardnu devijaciju originalnih podataka:

X = (Y − c)/d = (0.4 + 250)/100 = 2.504 ,

S2x = S2

y/d2 = 13.44/1002 = 0.001344 ,

Sx = Sy/|d| = 3.666/|100| = 0.03666 .

Standardizacija

Standardizacija je postupak u kojemu se razlika vrijednosti varijable od njene aritmetickesredine dijeli sa standardnom devijacijom. Drugim rijecima, standardizacijom se devijacije is-kazuju u jedinicama standardne devijacije. Nastala varijabla zove se standardizirana varijabla,a njene vrijednosti zovu se standardizirane ili z-vrijednosti.

2-9

Page 17: Skripta iz statistike

Dakle, ako je X1, X2, . . . , Xn niz numerickih vrijednosti s aritmetickom sredinom X istandardnom devijacijom S, onda ce standardizirane vrijednosti biti

(2.15) Zi =Xi −X

S.

Primjera radi, sljedeca tablica prikazuje standardizirane vrijednosti podataka o putu koce-nja iz tablice 2.1.

−2.13 −1.70 −1.66 −0.97 −0.81 −0.73 −0.68 −0.59 −0.53 −0.46−0.41 −0.24 −0.17 −0.13 −0.12 −0.02 0.03 0.21 0.23 0.28

0.36 0.38 0.41 0.74 0.85 0.90 1.18 1.52 1.56 2.70

Uocimo da je predznak standardizirane vrijednosti Zi jednak predznaku devijacije Xi −X, koji ce biti pozitivan, negativan ili nula, ovisno o tome je li Xi vece, manje ili jednakoaritmetickoj sredini X. Takoder, vrijednosti Xi koje su udaljenije od aritmetice sredine imatce standardizirane vrijednosti vece apsolutne vrijednosti.

Standardizacija je specijalan slucaj linearne transformacije, kod koje je d = 1/S i c =−X/S, odakle slijedi da aritmeticka sredina i varijanca standardiziranih vrijednosti iznose

Z = dX + c =1

SX + (−X

S) = 0 i S2

z = d2S2 =1

S2S2 = 1 .

Kako je Z±kSz = ±k, primjenom teorema Cebiseva zakljucujemo da ce za svaki pozitivanbroj k, proporcija standardiziranih vrijednosti u intervalu (−k, k) iznositi barem 1 − 1/k2.Posebno, za k = 3, slijedi da interval (−3, 3) sadrzi najmanje 8/9 standardiziranih vrijednosti.

Naposlijetku, uocimo da standardizirane vrijednosti nemaju mjernu jedinicu, jer se dijelje-njem devijacije i standardne devijacije, koje imaju istu mjernu jedinicu (npr. metar u slucajuputa kocenja), mjerne jedinice krate.

Nakon svega navedenog, ne bi nas trebalo iznenaditi da se standardizirane vrijednostikoriste za usporedbu podataka iz razlicitih skupova podataka.

Primjer 2.7. Student je osvojio 84 boda na ispitu iz statistike, na kojemu je prosjecanbroj bodova bio 76, sa standardnom devijacijom 10. Na ispitu iz matematike, na kojemu jeprosjecan broj bodova bio 82, sa standardnom devijacijom 16, taj isti student osvojio je 89bodova. Koji ispit je student rijesio bolje?

Promatrani rezultati na ispitima iz matematike i statistike nisu direktno usporedivi, jer jemoguce da se ti ispiti boduju na sasvim razlicite nacine. Da bismo rezultate mogli usporediti,trebamo ih prethodno standardizirati. Tako, standardizirani broj bodova na ispitu iz statistike,iznosi (84 − 76)/10 = 0.80 , a matematike (89 − 82)/16 = 0.44 . Dakle, student je relativnobolje rijesio ispit iz statistike.

Druge mjere lokacije

Premda je aritmeticka sredina najvaznija srednja vrijednost, njeno koristenje nije uvijek mo-guce. Tako se aritmeticka sredina ne moze upotrijebiti s kategorickim podacima. No, kodtakvih podataka mozemo odrediti najucestaliju vrijednost, tj. vrijednost koja se javlja najvecibroj puta i koja se zove mod. Ako su podaci barem ordinalni, onda se za njih moze odre-diti medijan, sto je vrijednost koja se nalazi u sredistu niza podataka poredanih po velicini.

2-10

Page 18: Skripta iz statistike

Mod i medijan takoder spadaju u mjere lokacije, a o medijanu ce biti vise rijeci u narednompoglavlju.

Primjer 2.8. Ispitu iz statistike pristupilo je 11 studenata koji su dobili ove ocjene: 1, 2, 3,3, 3, 4, 4, 5, 5, 5, 5. Odredite mod i medijan danog niza ocjena.

Modalna ocjena je ona koja se u danom skupu podataka javlja najveci broj puta. Dakle,modalna ocjena je 5. Kako su ocjene vec poredane po velicini, medijan je ocjena u sredistuniza ocjena:

1 2 3 3 3 4 4 5 5 5 5

Prema tome, medijalna ocjena je 4.Pored aritmeticke, postoje jos dvije “sredine” koje se mogu primijeniti na numericke po-

datke – geometrijska i harmonijska sredina.Neka su X1, X2, . . . , Xn vrijednosti numericke varijable. Geometrijska sredina vrijednosti

Xi definira se kao n-ti korijen iz produkta tih vrijednosti, tj.

(2.16) (X1X2 · · ·Xn)1/n = (∏

Xi)1/n .

Harmonijska sredina vrijednosti Xi definira se kao omjer broja vrijednosti i zbroja njihovihreciprocnih vrijednosti, tj.

(2.17)n

1/X1 + 1/X2 + · · ·+ 1/Xn=

n∑1/Xi

.

Aritmeticka, geometrijska i harmonijska sredina jednake su samo ako su svi podaci me-dusobno jednaki. U protivnom, geometrijska sredina je manja od aritmeticke, a harmonijskasredina je manja od geometrijske.

Primjer 2.9. Odredeni iznos ulozen je u banku na vrijeme od cetiri godine. Kamatna stopaza prvu godinu iznosi 4%, za drugu 5%, a za posljednje dvije 7%. Izracunajte prosjecnukamatnu stopu za sve cetiri godine. Obracun kamata je slozen, godisnji i dekurzivan.

Ako glavnicu C0 ukamacujemo cetiri godine, pri cemu se svake godine primjenjuje kamatnastopa pi, odnosno kamatni faktor ri, onda cemo na kraju cetvrte godine raspolagati iznosomC4 = C0r1r2r3r4. Potrebno je odrediti jedinstvenu kamatnu stopu p i pripadni kamatni faktorr koji ce zamijeniti dane kamatne stope, odnosno kamatne faktore, tako da konacna svotaostane sacuvana, tj. tako da vrijedi C4 = C0r

4.Iz C0r

4 = C0r1r2r3r4 slijedi r = (r1r2r3r4)1/4, sto znaci da je srednji kamatni faktor jednakgeometrijskoj sredini pojedinih kamatnih faktora. Kada odredimo srednji kamatni faktor r,onda cemo iz njega lako dobiti srednju kamatnu stopu p.

Primjenom na dane podatke, imamo

r = (r1r2r3r4)1/4 = (1.04 · 1.05 · 1.07 · 1.07)1/4 = 1.0574201 ,

sto znaci da srednji kamatnjak iznosi p = 5.74201.

Primjer 2.10. Automobil je prvu trecinu puta vozio brzinom od v1 = 80 km/h, drugu trecinuv2 = 100 km/h, a posljednju trecinu v3 = 60 km/h. Izracunajte srednju brzinu automobila.

2-11

Page 19: Skripta iz statistike

Brzina je omjer puta i vremena, pa ako sa s oznacimo ukupan put, a s ti vrijeme potrebnoda automobil prevali i-tu trecinu puta, onda ce srednja brzina biti

v =s

t1 + t2 + t3=

s

s/3

v1+s/3

v2+s/3

v3

=s

s

3(

1

v1+

1

v2+

1

v3)

=3

1

v1+

1

v2+

1

v3

.

Prema tome, srednja brzina jednaka je harmonijskoj sredini pojedinih brzina. Uvrstavanjemdanih vrijednosti lako se dobije v = 76.6.

Zadaci

2.1. Podatke iz tablice 2.2 i 2.3 prikazite dijagramom tocaka i na dijagramu oznacite polozajaritmeticke sredine.

2.2. U tablici 2.4 prikazani su podaci o broju posjetitelja jednog muzeja za 36 slucajno oda-branih dana. Izracunajte aritmeticku sredinu, varijancu, standardnu devijaciju i koeficijentvarijacije tih podataka.

Tablica 2.4. Broj posjetitelja muzeja u jednom danu.

54 89 134 80 74 98 104 102 11844 65 107 96 81 77 96 98 13192 90 84 95 104 80 93 92 8581 77 72 80 62 60 98 87 108

2.3. Tablica 2.5 prikazuje podatke o stanarini u kunama (HRK) za 20 stanova u jednom gradu.Izacunajte aritmeticku sredinu, varijancu i standardnu devijaciju stanarine u (a) kunama,(b) eurima (EUR) i (c) americkim dolarima (USD). Pretpostavite EUR/HRK = 7.424683 iUSD/HRK = 5.363105 (prosjecni tecajevi Hrvatske narodne banke na dan 2. ozujka 2011.).

Tablica 2.5. Stanarina u kunama.

1150 890 1190 1270 12401440 1280 1190 1260 12201200 1330 1090 1250 1610980 1330 1300 1190 1390

2.4. Prosjecna godisnja placa (svih) radnika u jednom poduzecu u 2000. godini iznosila je49260 kn, sa standardnom devijacijom 520 kn. U 2001. godini, prosjecna godisnja placaiznosila je 51048 kn, sa standardnom devijacijom 658 kn. Ako je odredeni radnik u 2000.godini primio godisnju placu u iznosu 49832 kn, a u 2001. godini 51706 kn, koje godine jeradnik bio relativno bolje placen?

2.5. Cetiri razlicito iskusna radnika rade na sklapanju istog proizvoda. Njima je redompotrebno 16, 19, 22 i 25 minuta da sklope proizvod. Izracunajte prosjecnu produktivnost svihradnika zajedno.

2-12

Page 20: Skripta iz statistike

3. Kvantili

Medijan i kvantili

U prethodnom poglavlju definirali smo medijan kao vrijednost koja se nalazi u sredistu nizapodataka poredanih po velicini. Kvantili nastaju poopcavanjem medijana, ali prije nego defi-niramo kvantile, uocimo sljedece dvije vazne osobine medijana:

(1) proporcija podataka koji su manji ili jednaki od medijana iznosi barem 1/2 i

(2) proporcija podataka koji su veci ili jednaki od medijana (takoder) iznosi barem 1/2.

Tako, u primjeru 2.8 imamo podatke ciji medijan iznosi 4, a proporcija podataka koji sumanji ili jednaki od medijana iznosi 7/11, dok proporcija podataka koji su veci ili jednaki odmedijana iznosi 6/11.

Ako podatke podijelimo u nekom drugom omjeru, tako da proporcija podataka u prvomdijelu iznosi barem p, a u drugom dijelu barem 1 − p, dolazimo do kvantila. U tu svrhu,pretpostavimo da je X1, X2, . . . , Xn niz numerickih podatkovnih vrijednosti, te da je p brojkoji je veci od 0 i manji od 1. Kvantil razine p ili p-kvantil podataka Xi je vrijednost Xp takvada

(1) proporcija podataka koji su manji ili jednaki od Xp iznosi barem p i

(2) proporcija podataka koji su veci ili jednaki od Xp iznosi barem 1− p.Neki kvantili imaju posebno ime. Tako, kao sto smo vidjeli, kvantil razine 0.5 zove se

medijan. Kvantili razina 0.25 i 0.75 zovu se redom donji i gornji kvartil. Kvartila ima zapravotri – osim donjeg i gornjeg, postoji sredisnji, a to je naravno medijan. Nadalje, kvantili razina0.2, 0.4, 0.6 i 0.8 zovu se kvintili, kvantili razina 0.1, 0.2, . . . , 0.9 zovu se decili, a kvantilirazina 0.01, 0.02, . . . , 0.99 zovu se percentili.

Za medijan i kvartile koristit cemo posebne oznake. Tako cemo medijan niza Xi oznacitis X, a donji i gornji kvartil oznacit cemo s Q1 i Q3. Prema tome, X = X0.5, Q1 = X0.25 iQ3 = X0.75.

Ne preostaje nam drugo nego utvrditi kako se kvantili izracunavaju, a za taj postupak,potrebno je podatke poredati po velicini. Niz podataka poredanih po velicini oznacavamo sX(1), X(2), . . . , X(n), a vrijednosti X(i) zovemo uredajne statistike. Uocite da je indeks kod ure-dajnih statistika stavljen u zagrade. Dakle, X(1) = minXi je najmanja podatkovna vrijednost,X(2) je sljedeca najmanja podatkovna vrijednost itd. Konacno, X(n) = maxXi je najvecavrijednost u nizu podataka.

Primjer 3.1. Odredite medijan ovih nizova numerickih vrijednosti:

(a) 7, 3, 11, 4, 7,

(b) 1.2, 4.0, 2.6, −1.5.

U slucaju (a) imamo n = 5 i

X1 = 7, X2 = 3, X3 = 11, X4 = 4, X5 = 7 .

Ako podatke poredamo po velicini, dobivamo

X(1) = 3, X(2) = 4, X(3) = 7, X(4) = 7, X(5) = 11 .

3-1

Page 21: Skripta iz statistike

Polovica od 5 iznosi 2.5, pa prema definiciji, medijan nije manji od X(3), niti veci od X(5−(3−1)) =

X(3). Dakle, medijan niza podataka pod (a) je upravo X = X(3) = 7.Slicno tome, u slucaju (b) je n = 4, a ako podatke poredamo po velicini, imamo

X(1) = −1.5, X(2) = 1.2, X(3) = 2.6, X(4) = 4.0 .

Polovica od 4 je 2, pa medijan nije manji od X(2), niti veci od X(4−(2−1)) = X(3). Stoga,medijan moze biti bilo koji broj izmedu X(2) = 1.2 i X(3) = 2.6. Kada medijan, kao uovom slucaju, nije jedinstveno odreden, nego to moze biti bilo koji broj iz jednog intervalabrojeva, onda za medijan uzimamo sredisnju tocku tog interevala, odnosno medijan ce tu bitiX = (X(2) +X(3))/2 = (1.2 + 2.6)/2 = 1.9.

Osnovna razlika izmedu slucajeva (a) i (b) je naravno u broju podataka, koji je u slucaju(a) neparan, a u slucaju (b) paran. Kod neparnog broja podataka, imamo jednu sredisnjuvrijednost, koja je bila 3. po redu u slucaju n = 5, a broj 3 dobili smo kao strop od 2.5, tj. kaonajmanji cijeli broj koji je veci ili jednak od 2.5 = n/2. Strop broja x oznacava se s dxe. Kodparnog broja podataka imamo dvije sredisnje vrijednosti i medijan ce biti njihova aritmetickasredina. Ako je n = 4, onda dvije sredisnje vrijednosti jesu 2. i 3. po redu, a brojevi 2 i 3 jesunaravno n/2 i n/2 + 1.

Prema tome, medijan odredujemo na sljedeci nacin:

(3.1) X =

X(dn/2e), ako je n neparan

(X(n/2) +X(n/2+1))/2, ako je n paran.

Kao sto odredivanje medijana zavisi o parnosti broja n, tj. o tome da li je n/2 = n · 0.5cijeli broj ili nije, tako odredivanje kvantila razine p zavisi o tome da li je broj np cijeli ilinije. Naime, ako np jest cijeli broj onda, po definiciji, p-kvantil mora biti izmedu X(np) iX(np+1). Dogovorno uzimamo da je p-kvantil u tom slucaju jednak aritmetickoj sredini tihdviju vrijednosti. S druge strane, ako np nije cijeli broj, onda je dnpe − 1 < np < dnpe, odakleslijedi i n− (dnpe − 1) > n− np = n(1− p), pa ce p-kvantil biti X(dnpe).

Dakle, kvantil razine p odredujemo prema sljedecem izrazu:

(3.2) Xp =

X(dnpe), ako np nije cijeli broj

(X(np) +X(np+1))/2, ako np je cijeli broj.

Ako uzmemo p = 0.5 onda se iz prethodne formule dobiva formula za medijan. Medutim,dok se oko nacina odredivana medijana svi statisticari slazu, za racunanje kvantila postoji vecibroj razlicitih algoritama, koji naravno vode do razlicitih rezultata.

Primjer 3.2. Tablica 3.1 sadrzi podatke o pulsu i spolu za 50 odraslih osoba. Za pulsmuskaraca izracunajte:

(a) medijan,

(b) kvartile,

(c) 1. i 9. decil,

(d) 35. percentil.

Interpretirajte dobivene rezultate.

Da bismo izracunali trazene kvantile, potrebno je najprije izdvojiti i poredati po velicinipodatke o pulsu muskaraca, cime se dobiva sljedeci niz vrijednosti:

3-2

Page 22: Skripta iz statistike

Tablica 3.1. Puls u mirovanju i spol za 50 odraslih osoba.

Puls Spol76 Z71 Z72 Z68 Z65 M72 M70 M74 Z77 Z68 Z51 M72 M75 Z93 M69 M67 M70 M71 Z90 Z72 Z72 M62 M71 M75 Z63 M

Puls Spol72 Z81 Z84 M67 M65 M68 M69 M75 Z70 Z71 Z80 M78 Z61 Z74 Z75 Z66 M78 Z78 Z58 M84 Z59 M74 Z87 M66 Z64 M

3-3

Page 23: Skripta iz statistike

51 58 59 62 63 64 65 65 66 67 67 6869 69 70 70 71 72 72 72 80 84 87 93

Dakle, n = 24, X(1) = 51, X(2) = 58, . . . , X(n) = 93.

Trazene kvantile sada cemo lako naci koristeci izraz (3.2). Tako, da bismo nasli medijan X,tj. kvantil razine p = 0.5, najprije cemo utvrditi da je np = 24 ·0.5 = 12, sto naravno jest cijelibroj, odakle slijedi da ce medijan biti aritmeticka sredina vrijednosti X(12) = 68 i X(13) = 69,odnosno medijan je 68.5. Opisani postupak kratko cemo prikazati na sljedeci nacin:

X = X0.5 = [np = 12] = (X(12) +X(13))/2 = (68 + 69)/2 = 68.5 .

Slicno postupamo za ostale kvantile:

Q1 = X0.25 = [np = 6] = (X(6) +X(7))/2 = (64 + 65)/2 = 64.5 ,

Q3 = X0.75 = [np = 18] = (X(18) +X(19))/2 = (72 + 72)/2 = 72 ,

X0.1 = [np = 2.4] = X(3) = 59 ,

X0.9 = [np = 21.6] = X(22) = 84 ,

X0.35 = [np = 8.4] = X(9) = 66 .

Prema definiciji medijana, barem 50% muskaraca iz uzorka ima puls manji ili jednakod 68.5, te barem 50% muskaraca iz uzorka ima puls veci ili jednak od 68.5. Slicno seinterpretiraju ostali kvantili koje smo izracunali.

Raspon i interkvartil

Raspon nekog skupa podataka je razlika izmedu najvece i najmanje vrijednosti u tom skupupodataka. Kao takav, raspon se ubraja u mjere disperzije.

Dakle, raspon R niza podatkovnih vrijednosti X1, X2, . . . , Xn iznosi

(3.3) R = maxXi −minXi = X(n) −X(1) .

Ponekad se u racunanju raspona izostavlja odredeni postotak najvecih i najmanjih vrijed-nosti. Primjerice, gornji kvartil odvaja 25% najvecih, a donji kvartil 25% najmanjih vrijed-nosti, pa mozemo reci da je gornji kvartil Q3 maksimum, donji kvartil Q1 minimum, a njihovarazlika Q3 − Q1 raspon sredisnjih (100 − 2 · 25)% = 50% podatkovnih vrijednosti. Slicnomozemo odrediti raspon Rp bilo koje sredisnje proporcije p podataka.

Razliku gornjeg i donjeg kvartila obicno zovemo interkvartil ili interkvartilni raspon ioznacavamo s IQR. Dakle,

(3.4) IQR = Q3 −Q1 .

Primjer 3.3. Za podatke o pulsu muskaraca (v. pr. 3.2) izracunajte:

(a) raspon,

(b) interkvartil,

(c) raspon sredisnjih 80% vrijednosti.

3-4

Page 24: Skripta iz statistike

Koristeci se rezultatima primjera 3.2, lako se dobiva da raspon, interkvartil i raspon sre-disnjih 80% vrijednosti iznose:

R = maxXi −minXi = 93− 51 = 42 ,

IQR = Q3 −Q1 = 72− 64.5 = 7.5 ,

R0.8 = X0.9 −X0.1 = 84− 59 = 25 .

Dijagram stabljika i dijagram pravokutnika

Primjer 3.4. Podatke o pulsu muskaraca (v. pr. 3.2) prikazite:

(a) dijagramom stabljika,

(b) dijagramom pravokutnika.

Dijagram stabljika ili, kako mu je puni naziv, dijagram stabljika i listova (na engleskomstemplot ili stem-and-leaf plot) nalazi se na slici 3.1, a dijagram pravokutnika (na engleskomboxplot ili box-and-whiskers plot) na slici 3.2. Oba grafikona prikazuju distribuciju podataka, apopularizirao ih je J. W. Tukey1, u svojoj knjizi Exploratory Data Analysis (Istrazivackaanaliza podataka), izdanoj 1977. godine. Dijagram stabljika moze se koristiti za prikazumjereno velikih skupova numerickih podataka (od 15 do 150 vrijednosti). Za vece skupovenumerickih podataka potrebno je koristiti dijagram pravokutnika ili histogram.

Decimalna tocka nalazi se 1 mjesto desno od |

5 189

6 23455677899

7 001222

8 047

9 3

Slika 3.1. Dijagram stabljika za puls muskaraca.

Konstrukciji dijagrama stabljika ponekad prethodi zaokruzivanje podataka na odreden brojznamenki. Posljednja znacajna znamenka u nekoj podatkovnoj vrijednosti cini list, a sve ostaleznamenke, ukljucujuci predznak, ako je potrebno, cine stabljiku. Podatke o pulsu ne trebazaokruzivati, znamenka jedinica bit ce list, a znamenka desetica bit ce stabljika. Tako, zavrijednost 51, list ce biti 1, a stabljika 5 itd. Zakljucujemo da ce najmanja stabljika biti 5, anajveca 9.

Izradu dijagrama stabljika pocinjemo tako da nacrtamo vertikalnu liniju. S lijeve stranete linije potrebno je nanizati stabljike, jednu ispod druge, od najmanje do najvece, bez pre-skakanja. Svakoj stabljici potrebno je s desne strane linije dopisati listove koji joj pripadaju.Poredak listova mora odgovarati poretku podataka od manjih prema vecima, a to znaci da,ako podatke prije izrade dijagrama nismo zaokruzili, onda iz njega mozemo saznati uredajnestatistike.

Konacno, dijagram treba upotpuniti opisom, koji omogucava citanje dijagrama. Npr. uopisu mozemo reci gdje se decimalna tocka nalazi u odnosu na vertikalnu liniju. Tako, opis

1John Wilder Tukey (1915.-2000.) - americki statisticar

3-5

Page 25: Skripta iz statistike

dijagrama na slici 3.1 glasi “decimalna tocka nalazi se 1 mjesto desno od |”, sto znaci da se5|1 na dijagramu interpretira kao vrijednosti 51 itd.

Ako broj i raspon podataka to zahtijevaju, stabljike se mogu ponoviti vise puta (npr. 2 ili5), cime se dobiva detaljniji dijagram. Pritom, ako se stabljike ponavljaju npr. 2 puta, ondakraj prve kopije stabljike stavljamo manju polovicu listova, tj. listove od 0 do 4, a kraj drugekopije stabljike vecu polovicu listova, tj. listove od 5 do 9.

50 60 70 80 90 100

Puls u mirovanju (otkucaji u sekundi)

Slika 3.2. Dijagram pravokutnika za puls muskaraca.

Za izradu dijagram pravokutnika potrebni su medijan, kvartili, interkvartil, ograda i gra-nicne vrijednosti. Pritom, ogradu (engl. fence) cine vrijednosti Q1 − 1.5 IQR i Q3 + 1.5 IQR.Podatkovne vrijednosti unutar ograde, tj. izmedu brojeva Q1 − 1.5 IQR i Q3 + 1.5 IQR, zovuse unutarnje vrijednosti (engl. inlier), dok se vrijednosti izvan ograde zovu vanjske ili strsecevrijednosti (engl. outlier). Najmanja i najveca unutarnja vrijednost zovu se granicne ili su-sjedne (engl. adjacent) vrijednosti. Za podatke o pulsu muskaraca, ogradu cine vrijednostiQ1 − 1.5IQR = 53.25 i Q1 + 1.5IQR = 83.25, granicne vrijednosti jesu 58 i 80, a strsecevrijednosti jesu 51, 84, 87 i 93.

Izrada dijagrama pravokutnika pocinje crtanjem brojevne osi. Premda os moze biti hori-zontalna ili vertikalna, ovdje cemo pretpostavit da je ona horizontalna. Iznad brojevne osi crtase pravokutnik kojemu su dvije stranice paralelne s osi, a dvije okomite na os. Okomite stra-nice nalaze se na mjestima donjeg i gornjeg kvartila. Polozaj medijana oznacava se vertikalnomlinijom unutar pravokutnika. Vertikalnim linijama oznacava se i polozaj granicnih vrijednosti.Te dvije linije spajaju se horizontalnim linijama s polovistima okomitih stranica pravokutnika.Konacno, svaku strsecu vrijednost potrebno je oznaciti kruzicem ili nekim slicnim znakom.

Primjer 3.5. Koristeci se podacima iz tablice 3.1, puls muskaraca i puls zena usporeditedijagramom pravokutnika.

Trazeni grafikon prikazan je na slici 3.4, a konstruira se tako da se iznad zajednicke bro-jevne osi nacrtaju dva dijagrama pravokutnika, jedan od kojih predstavlja muskarce, a drugizene.

Da bismo nacrtali dijagram pravokutnika za zene, potrebno je odrediti osobine podatakakoji im pripadaju. Dakle, trebali bismo iz tablice 3.1 izdvojiti podatke o zenama, poredatiih, te potom odrediti medijan, kvartile i ostalo. Medutim, umjesto da podatke poredamo,napravit cemo dijagram stabljika, koji je prikazan na slici 3.3. Buduci da imamo samo cetirirazlicite stabljike, svaku stabljiku (osim posljednje) ponovili smo dvaput i time dobili finijiprikaz podataka.

Uzimajuci u obzir da broj zena iznosi n = 26 i koristeci dijagram stabljika da bi nasli

3-6

Page 26: Skripta iz statistike

Decimalna tocka nalazi se 1 mjesto desno od |

6 1

6 688

7 0111222444

7 555567888

8 14

8

9 0

Slika 3.3. Dijagram stabljika za puls zena.

uredajne statistike, odredit cemo medijan i kvartile:

X = X0.5 = [np = 13] = (X(13) +X(14))/2 = (74 + 74)/2 = 74 ,

Q1 = X0.25 = [np = 6.5] = X(7) = 71 ,

Q3 = X0.75 = [np = 19.5] = X(20) = 77 .

Stoga, interkvartil i ograda iznose:

IQR = Q3 −Q1 = 77− 71 = 6 ,

Q1 − 1.5IQR = 71− 1.5 · 6 = 62 ,

Q3 + 1.5IQR = 77 + 1.5 · 6 = 86 .

Konacno, granicne vrijednosti iznose 66 i 84, a strsece vrijednosti jesu 61 i 90. Sada imamosve potrebno za izradu dijagrama pravokutnika.

Grafikon na slici 3.4. pokazuje da muskarci imaju manji medijalni puls i nesto veci interk-vartil i raspon, sto znaci da podaci za muskarace imaju manju sredinu i nesto vecu disperzijuod podataka za zene.

M

Ž

50 60 70 80 90 100

Puls u mirovanju (otkucaji u sekundi)

Slika 3.4. Usporedba pulsa muskaraca i zena dijagramom pravokutnika.

Simetrija i asimetrija

Dijagrami pravokutnika prikazani na slici 3.4 gotovo su simetricni u odnosu na medijan, pase kaze da podaci imaju simetricnu distribuciju. Ako su podaci razvuceni na desnu stranu,kaze se da je distribucija desnostrano ili pozitivno asimetricna, dok ako su podaci razvuceni nalijevu stranu, kazemo da je distribucija ljevostrano ili negativno asimetricna. Osim po smjeru,asimetrija se razlikuje i po jakosti.

3-7

Page 27: Skripta iz statistike

Kod simetricne distribucije, kvantili razina p i 1 − p bit ce jednako udaljeni od medijana,dok ce kod pozitivne, odnosno negativne asimetrije, veci, odnosno manji kvantil biti udaljeniji.Npr. kod simetricno rasporedenih podataka, donji i gornji kvartil su jednako udaljeni odmedijana, dok je kod pozitivne asimetrije gornji, a kod negativne asimetrije donji kvartiludaljeniji od medijana.

Primjer 3.6. U tablici 3.2 dani su podaci o velicini sanducica elektronicke poste u kilobajtima(KB), za 30 slucajno odabranih korisnika jednog posluziteljskog racunala. Za te podatke:

(a) izracunajte medijan, kvartile, 2. i 8. decil, te 5. i 95. percentil,

(b) napravite dijagram stabljika i dijagram pravokutnika.

Tablica 3.2. Velicina sanducica elektronicke poste (KB).

11.7 14.6 16.4 17.2 26.5 38.6 40.1 43.0 55.4 56.373.6 75.8 78.3 80.5 91.6 93.2 96.5 104.1 129.6 134.1

135.2 158.4 180.8 219.0 260.9 356.5 439.4 483.4 685.1 954.8

Podaci su vec poredani po velicini, pa primjernom formule (3.2) lako slijedi X = 92.4,Q1 = 43, Q3 = 180.8, X0.2 = 39.35, X0.8 = 239.95, X0.05 = 14.6 i X0.95 = 685.1. Dobivenirezultati ukazuju da podaci imaju pozitivno asimetricnu distribuciju.

Zelimo li podatke prikazati dijagramom stabljika, moramo ih podijeliti na stabljiku i list.Medutim, pokusamo li to uciniti s podacima u tablici 3.2, slijedi da ce prva decimala bitilist, a cijeli dio (tj. znamenke lijevo od decimalne tocke) stabljika, sto bi znacilo da cemoimati vise od 900 stabljika. Kada bismo i mogli nacrtati takav dijagram, on ne bi ispunjavaosvoju funkciju, a to je da pregledno prikaze distribuciju podataka. Dakle, potrebno je smanjitibroj stabljika, sto to se postize zaokruzivanjem. Pokusajmo najprije podatke zaokruziti nanajblizi cijeli broj. Time bismo dobili niz vrijednosti 12, 15, 16, . . . , 483, 685, 955. Zelimoli takav niz vrijednosti prikazati dijagramom stabljika, znamenka jedinica bit ce list, a sveostale znamenke stabljika, cime bismo dobili vise od 90 stabljika, sto je jos uvijek previse.Stoga, zaokruzivanje na najblizi cijeli broj nije dovoljno, vec je podatke potrebno zaokruzitina najblizu deseticu, cime dobivamo niz vrijednosti 10, 10, 20, . . . , 480, 690, 950. S obziromda sve vrijednosti sada zavrsavaju nulom, tu posljednju nulu mozemo zanemariti. List ce cintiznamenka desetica, a preostale znamenke cinit ce stabljiku (sto znaci da ce vrijednosti manjeod 100 imati stabljiku 0). Tako dobivamo dijagram prikazan na slici 3.5. Valja uociti da ovakonapravljen dijagram stabljika ne mozemo koristiti za odredivanje uredajnih statistika, jer smozaokruzivanjem izgubili originalne podatke.

Da bismo napravili dijagram pravokutnika, prethodno trebamo odrediti ogradu i granicnevrijednosti, te uociti strsece vrijednosti, ako uopce postoje. Interkvartil iznosi IQR = 137.8,odakle slijedi da ogradu cine vrijednosti −163.7 i 387.5. Stoga, granicne vrijednosti jesu 11.7i 356.5, a strsecih vrijednosti imamo samo zdesna, i to su cetiri najvece vrijednosti u tablici3.2. Sada mozemo nacrtati dijagram pravokutnika, koji je prikazan na slici 3.6. Dijagrampravokutnika, jednako kao i dijagram stabljika, pokazuje da velicina sanducica elektronickeposte ima pozitivno asimetricnu distribuciju.

Primjer 3.7. Izracunajte aritmeticku sredinu podataka o pulsu muskaraca, pulsu zena (tab. 3.1)i velicini sanducica elektronicke poste (tab. 3.2), te je zatim usporedite s medijanom tih poda-taka. Sto uocavate?

3-8

Page 28: Skripta iz statistike

Decimalna tocka nalazi se 2 mjesta desno od |

0 1122344466788899

1 0033468

2 26

3 6

4 48

5

6 9

7

8

9 5

Slika 3.5. Dijagram stabljika za velicinu sanducica elektronicke poste (KB).

0 200 400 600 800 1000

Veličina sandučića elektroničke pošte (KB)

Slika 3.6. Dijagram pravokutnika za velicinu sanducica elektronicke poste.

Aritmeticka sredina podatka o pulsu muskaraca iznosi 69.33, a zena 74.08, i te su vrijednostipriblizno jednake odgovarajucim medijanima. S druge strane, aritmeticka sredina podataka ovelicini sanducica elektronicke poste iznosi 171.7 i znatno je veca od medijana tih podatka.

Simetrija i asimetrija utjecu na medusoban polozaj aritmeticke sredine i medijana. Kodsimetricne distribucije, aritmeticka sredina i medijan bit ce (priblizno) jednaki. S obzirom daje aritmeticka sredina teziste podataka, podaci koji su “razvuceni” udesno, kao sto je slucajkod pozitivne asimetrije, “povuci” ce za sobom aritmeticku sredinu, ali ne i medijan, jer sebroj podataka desno od medijana ne mijenja. Dakle, kod pozitivno asimetricne distribucije,aritmeticka sredina bit ce veca od medijana. Kod negativno asimetricne distribucije imamoslicnu pojavu, samo sto su podaci razvuceni ulijevo, pa je aritmeticka sredina manja odmedijana.

Zadaci

3.1. Za podatke o temperaturi (tab. 2.2), broju posjetitelja muzeja (tab. 2.4) i stanarini(tab. 2.5):

(a) napravite dijagram stabljika,

(b) izracunajte medijan, kvartile, interkvartil i raspon sredisnjih 70% vrijednosti,

(c) nacrtajte dijagram pravokutnika,

Kakva je distribucija tih podataka po simetriji?

3.2. U tablici 3.3 dani su podaci o starosti u godinama slucajnog uzorka osoba s Forbesove

3-9

Page 29: Skripta iz statistike

liste svjetskih milijardera u 2010. godini. Podatke prikazite dijagramom stabljika i dijagramompravokutnika.

Tablica 3.3. Starost u godinama slucajnog uzorka osoba s Forbesove liste svjetskihmiljardera u 2010. godini.

75 61 72 43 86 86 86 64 69 4560 41 38 43 74 82 55 64 54 5174 73 76 63 77 53 81 51 75 9867 76 65 64 79 61 70 51 48 7272 65 66 84 52 86 50 46 69 61

3.3. Podatke o stopi nezaposlenosti iz tablice 3.4 prikazite dijagramom stabljika i dijagramompravokutnika. Koje drzave imaju izrazito visoku stopu nezaposlenosti u odnosu na ostaledrzave?

Tablica 3.4. Stopa nezaposlenosti u drzavama EU27 i Hrvatskoj u 2009. godini.

AT BE BG CY CZ DE DK EE ES FI FR GR HR HU4.8 7.9 6.8 5.3 6.7 7.5 6.0 13.8 18.0 8.2 9.5 9.5 9.1 10.0

IE IT LT LU LV MT NL PL PO RO SE SK SL UK11.9 7.8 13.7 5.4 17.1 6.9 3.4 8.2 9.6 6.9 8.3 12.0 5.9 7.6

3-10

Page 30: Skripta iz statistike

4. Distribucije frekvencija

Distribucije frekvencija nastaju grupiranjem podataka. Grupiranje je postupak sazimanjapodataka, u kojemu se podaci svrstavaju u skupine ili grupe. Pritom, svaku podatkovnuvrijednost treba svrstati u tocno jednu grupu. Broj, odnosno proporciju podataka u nekojgrupi nazivamo njezinom apsolutnom, odnosno relativnom frekvencijom. Popis grupa i njihovihfrekvencija, koji se obicno daje u tablicnom obliku, zove se distribucija frekvencija. Akozelimo naglasiti o kojim je frekvencijama rijec, onda koristimo naziv distribucija apsolutnih,odnosno distribucija relativnih frekvencija. Osim tablicno, distribucije frekvencija prikazuju sei graficki.

Pretpostavimo da je n podataka grupirano u k grupa, cije apsolutne frekvencije iznoseredom n1, n2, . . . , nk. Apsolutne frekvencije nastaju brojanjem podatkovnih vrijednosti, pasu ni nenegativni cijeli brojevi, a s obzirom da svaka podatkovna vrijednost pripada tocnojednoj grupi, zbroj apsolutnih frekvencija ni jednak je broju podataka n, tj.

(4.1)∑ni = n1 + n2 + · · ·+ nk = n .

Relativna frekvencija je po definiciji jednaka omjeru apsolutne frekvencije i broja podataka,pa ako relativne frekvencije oznacimo s p1, p2, . . . , pk, onda za svaki indeks i imamo

(4.2) pi =nin.

Relativne frekvencije su nenegativni racionalni brojevi, ciji zbroj iznosi jedan, tj.

(4.3)∑pi = p1 + p2 + · · ·+ pk = 1 .

Cesto se relativne frekvencije iskazuju u obliku postotka.Podaci u obliku distribucije frekvencija zovu se jos grupirani podaci, a za podatke iz kojih

je distribucija frekvencija nastala kazemo da su negrupirani.

Kategoricki podaci

Primjer 4.1. U jednom istrazivanju o uvjetima stanovanja, ispitanici su trebali odgovoriti napitanje o vrsti objekta u kojemu stanuju. Odgovor se sastojao od ovih mogucnosti: obiteljskakuca, stambena zgrada, neboder, ostalo. Tablica 4.1 sadrzi odgovore 50 ispitanika. Danepodatke grupirajte, izracunajte relativne frekvencije i dobivenu distribuciju frekvencija grafickiprikazite stupcima i strukturnim krugom.

Tablica 4.1. Vrsta stambenog objekta: A – obiteljska kuca, B – stambena zgrada, C –neboder, D – ostalo.

B B C C A C C A B AC C B D C A C C C BC B A A A B C D C BA B B B D B B B A CB B B B B A D B A C

4-1

Page 31: Skripta iz statistike

Varijabla “vrsta stambenog objekta” je kategoricka, a kategoricki podaci se obicno grupi-raju tako da se grupe sastoje od medusobno jednakih podatkovnih vrijednosti. Ako se pritompojavi veci broj grupa niske frekvencije, onda takve grupe mozemo spojiti u jednu grupu.

Iz tablice 4.1 slijedi da apsolutne frekvencije vrijednosti A, B, C, D iznose redom 11, 20,15, 4. Dakle, vrijednost A javlja se medu podacima 11 puta, vrijednost B javlja se 20 putaitd. Time smo polazni skup od 50 podataka sazeli na skup od svega 8 podataka, kojega cinemedusobno razlicite vrijednosti promatrane varijable i njihove apsolutne frekvencije. U tomsazimanju izgubili smo samo redoslijed polaznog niza podatkovnih vrijednosti.

Dobivena distribucija apsolutnih i relativnih frekvencija prikazana je u tablici 4.2, iz kojezakljucujemo da 11 ispitanika, odnosno njih 22% zivi u obiteljskoj kuci, 20 ispitanika, odnosnonjih 40% zivi u stambenoj zgradi itd.

Ako raspolazemo ordinalnim podacima, onda u prikazu distribucije frekvencija treba vri-jednosti varijable poredati po njihovom intenzitetu, od manjih prema vecima ili obrnuto. Akoimamo nominalne podatke, onda vrijednosti varijable mozemo poredati na razne nacine, npr.abecednim redom ili po frekvencijama.

Tablica 4.2. Ispitanici prema vrsti stambenog objekta.

Vrsta Broj Udioobjekta ispitanika ispitanika

ni piA 11 0.22B 20 0.40C 15 0.30D 4 0.08

Ukupno 50 1.00

Trazeni graficki prikazi nalaze se na slici 4.1. Stupci jesu pravokutnici cija je visina jed-naka frekvenciji. Dijagram stupaca moze se koristiti za prikaz apsolutnih (sl. 4.1a) i relativnihfrekvencija (sl. 4.1b), a s obzirom da su apsolutne i relativne frekvencije medusobno propor-cionalne, izgled stupaca ne zavisi o vrsti prikazanih frekvencija. Slike 4.1a i 4.1b razlikuju sejedino u vertikalnoj brojevnoj osi, na kojoj je mjerilo za frekvencije. Slicnu osobinu imaju idrugi graficki prikazi distribucije frekvencija, poput linijskog grafikona, histograma i poligonafrekvencija.

Strukturni krug se sastoji od kruznih isjecaka ciji je kut proporcionalan frekvenciji i koristise obicno za prikaz relativnih frekvencija.

Diskretni numericki podaci

Primjer 4.2. Tablica 4.3 prikazuje dnevnu prodaju prijenosnih racunala u jednoj trgoviniracunalnom opremom. Dane podatke grupirajte i zatim:

(a) izracunajte relativne i kumulativne frekvencije,

(b) distribuciju prikazite linijskim grafikonom i poligonom frekvencija.

Tablica 4.3. Broj prodanih prijenosnih racunala dnevno.

1 3 2 5 1 0 3 5 5 3 4 3 4 2 4 2 7 1 3 54 3 2 1 2 3 5 5 3 2 3 5 3 2 2 3 2 4 2 0

4-2

Page 32: Skripta iz statistike

A B C D

Bro

j isp

itani

ka

05

1015

2025

(a) Dijagram stupaca - apsolutne frekvencije

A B C D

Udi

o is

pita

nika

0.0

0.1

0.2

0.3

0.4

0.5

(b) Dijagram stupaca - relativne frekvencije

A (22%)B (40%)

C (30%)

D (8%)

(c) Strukturni krug

Slika 4.1. Ispitanici prema vrsti stambenog objekta.

4-3

Page 33: Skripta iz statistike

Diskretni numericki podaci, poput onih o broju prodanih prijenosnika iz tablice 4.3, gru-piraju se gotovo jednako kategorickim podacima, tj. grupe se sastoje od medusobno jednakihvrijednosti. Postupak prilagodavamo cinjenici da radimo s numerickim podacima, pa tako raz-licite vrijednosti numericke varijable uvijek navodimo njihovim prirodnim redom, od manjihprema vecima, bez preskakanja onih koje se u podacima mozda ne javljaju.

Iznimno, ako se diskretni numericki podaci sastoje od velikog broja razlicitih vrijednosti,koje se vrlo malo ponavljaju ili se uopce ne ponavljaju, poput podataka o placi u tab. 4.6,onda se grupiranje provodi kao da je rijec o neprekidnoj varijabli, tj. koristeci razrede, o cemuce biti vise rijeci kasnije.

Neka su x1, x2, . . . , xk sve razlicite vrijednosti diskretne numericke varijable, te neka su n1,n2, . . . , nk i p1, p2, . . . , pk njihove apsolutne i relativne frekvencije. Kumulativna apsolutna,odnosno kumulativna relativna frekvencija vrijednosti xi definira se kao zbroj prvih i apsolut-nih, odnosno relativnih frekvencija. Kumulativne apsolutne frekvencije oznacit cemo s N1, N2,. . . , Nk, a kumulativne relativne frekvencije s P1, P2, . . . , Pk. Iz definicije neposredno slijedida je Ni broj, a Pi proporcija podataka koji su manji ili jednaki od xi.

Prema tome, za kumulativne apsolutne frekvencije imamo

(4.4) Ni = n1 + n2 + · · ·+ ni ,

odakle zakljucujemo da kumulativne apsolutne frekvencije mozemo racunati rekurzivno, jer jeN1 = n1 i

(4.5) Ni = Ni−1 + ni, za svaki i > 1 .

Slicno, za kumulativne relativne frekvencije vrijedi

(4.6) Pi = p1 + p2 + · · ·+ pi = Ni/n ,

sto povlaci P1 = p1 i

(4.7) Pi = Pi−1 + pi, za svaki i > 1 .

Ocigledno, posljednja kumulativna frekvencija jednaka je zbroju svih frekvencija, sto znaci daje uvijek Nk = n i Pk = 1.

Distribucija nastala grupiranjem podataka o prodaji prijenosnih racunala prikazana je utablici 4.4, zajedno sa svim trazenim frekvencijama. Posljednji stupac u toj tablici trenutnocemo zanemariti.

Diskretne distribucije uobicajeno graficki prikazujemo linijskim grafikonom (sl. 4.2a) ilipoligonom frekvencija (sl. 4.2b), koji se mogu koristiti za prikaz apsolutnih i relativnih frek-vencija. Oba grafikona sadrze dvije brojevne osi, pri cemu horizontalna os prikazuje vrijednostnumericke varijable, a vertikalna os frekvenciju. Linijski grafikon sastoji se od vertikalnih linijakoje se protezu od tocke (xi, 0) do tocke (xi, ni) u slucaju apsolutnih, odnosno (xi, pi) u slu-caju relativnih frekvencija. Do poligona frekvencija dolazimo tako da tocke (xi, ni), odnosno(xi, pi) spojimo ravnim crtama.

Primjer 4.3. Za podatke iz tablice 4.3 izracunajte:

(a) aritmeticku sredinu, varijancu, standardnu devijaciju i koeficijent varijacije,

(b) medijan, 8. decil i 92. percentil.

4-4

Page 34: Skripta iz statistike

Tablica 4.4. Broj prodanih prijenosnih racunala dnevno – distribucija frekvencija.

Broj Apsolutna Relativna Kumulativna Kumulativnaracunala frek. frek. aps.frek. rel.frek. Devijacija

xi ni pi Ni Pi xi −X

0 2 0.0500 2 0.0500 −2.9751 4 0.1000 6 0.1500 −1.9752 10 0.2500 16 0.4000 −0.9753 11 0.2750 27 0.6750 0.0254 5 0.1250 32 0.8000 1.0255 7 0.1750 39 0.9750 2.0256 0 0.0000 39 0.9750 3.0257 1 0.0250 40 1.0000 4.025

Ukupno 40 1.0000 – – –

0 1 2 3 4 5 6 7

02

46

810

12

Broj računala

Aps

olut

na fr

ekve

ncija

(a) Linijski grafikon

0 1 2 3 4 5 6 7

02

46

810

12

Broj računala

Aps

olut

na fr

ekve

ncija

(b) Poligon frekvencija

Slika 4.2. Broj prodanih prijenosnih racunala dnevno – graficki prikazi.

4-5

Page 35: Skripta iz statistike

Distribucija frekvencija diskretne numericke varijable je sazeti zapis podataka, koji se odpolaznog niza negrupiranih podataka razlikuje samo u poretku i koji se moze koristiti zabrze i jednostavnije izracunavanje mjera lokacije i disperzije. Tako, polazeci od tablice 4.4,zakljucujemo da bi niz negrupiranih podataka, nakon uredivanja, imao sljedeci oblik:

(4.8) 0 0︸︷︷︸2×

1 · · · 1︸ ︷︷ ︸4×

2 · · · 2︸ ︷︷ ︸10×

· · · 7︸︷︷︸1×

.

Prema tome, zbroj negrupiranih podataka mozemo lako izracunati tako da zbrojimo umnoskevrijednosti xi s njihovim apsolutnim frekvencijama ni, tj. kao

0 · 2 + 1 · 4 + 2 · 10 + · · ·+ 7 · 1 =∑xini .

Podijelimo li taj zbroj s brojem podataka n, dobit cemo da aritmeticka sredina diskretnihnumerickih podataka iznosi

(4.9) X =

∑xinin

.

Slicno razmisljanje mozemo provesti ako podatkovne vrijednosti u nizu (4.8) zamijenimonekom njihovom transformacijom, npr. kvadratima ili kvadratnim devijacijama, odakle slijedida zbroj kvadrata iznosi

∑x2ini, a zbroj kvadratnih devijacija

∑(xi − X)2ni. Prema tome,

varijanca diskretnih numerickih podataka iznosi

(4.10) S2 =

∑(xi −X)2ni

n=

∑x2inin

−X2.

Koristeci se distribucijom frekvencija u tablici 4.4, sada imamo

X =

∑xinin

=119

40= 2.975 ,

S2 =

∑x2inin

−X2=

447

40− 2.9752 = 2.324 ,

S =√S2 =

√2.324 = 1.525 ,

CV =S

X=

1.525

2.975= 0.5125 .

Za razliku od negrupiranih podataka, varijancu grupiranih podataka mozemo relativnojednostavno izracunati i koristeci devijacije xi −X, koje smo dopisali u posljednjem stupcu utablici 4.4 i pomocu kojih slijedi

S2 =

∑(xi −X)2ni

n=

92.975

40= 2.324 .

Iz niza (4.8) mozemo saznati i uredajne statistike. Naime, posljednja nula u tom nizuje X(2), posljednja jedinica je X(6), posljednja dvojka je X(16) itd. sve do posljednje (i je-dine) sedmice, koja je X(40). Brojevi 2, 6, 16, . . . , 40 jesu naravno kumulativne apsolutnefrekvencije. Prema tome, da bismo nasli kvantile diskretne numericke varijable polazeci odnjene distribucije frekvencija, koristimo se i dalje izrazom (3.2), s tim da uredajne statistikeodredujemo uz pomoc kumulativnih apsolutnih frekvencija.

4-6

Page 36: Skripta iz statistike

Konacno, medijan, 8. decil i 92. percentil podataka o prodanim prijenosnim racunalimaiznose

X = X0.5 = [np = 20] = (X(20) +X(21))/2 = (3 + 3)/2 = 3 ,

X0.8 = [np = 32] = (X(32) +X(33))/2 = (4 + 5)/2 = 4.5 ,

X0.92 = [np = 36.8] = X(37) = 5 .

Neprekidni numericki podaci

Kod neprekidnih numerickih podataka gotovo da nema ponavljanja vrijednosti, pa se ti podacine mogu grupirati kao sto smo cinili dosad, nego se neprekidni numericki podaci grupiraju urazrede.

Grupiranje u razrede provodi se tako da se brojevni interval koji sadrzi podatkovne vrijed-nosti “izreze” na odreden broj podintervala, koje zovemo razredima, a grupe se pritom sastojeod podatkovnih vrijednosti koje pripadaju istom razredu.

Broj razreda k treba prikladno odabrati. Pritom, cvrstih pravila nema, osim da k ne smijebiti prevelik, jer je grupiranje postupak sazimanja podataka, niti premalen, jer bi se takoizgubili vazni detalji. Obicno uzimamo k izmedu 5 i 15, tj. 5 ≤ k ≤ 15.

Primjer 4.4. Podatke o duljini puta kocenja iz tablice 2.1 grupirajte i potom:

(a) odredite relativne i kumulativne frekvencije,

(b) izracunajte razredne sredine, velicine razreda i gustoce frekvencija,

(c) distribuciju graficki prikazite histogramom i poligonom frekvencija.

Varijabla “put kocenja” je neprekidna numericka varijabla, pa cemo njene vrijednosti gru-pirati u razrede. Ocigledno, sve podatkovne vrijednosti iz tablice 2.1 sadrzane su u intervalu[35, 65], koji se moze izrezati na npr. k = 6 razreda: [35, 40], (40, 45], (45, 50], (50, 55], (55, 60],(60, 65].

Donje granice razreda oznacit cemo s a1, a2, . . . , ak, a gornje granice s b1, b2, . . . , bk.Valja uociti da susjedni razredi imaju zajednicku granicu, te je bi = ai+1, za svaki i < k.Takoder, svi razredi osim prvoga, otvoreni su slijeva i zatvoreni zdesna, a prvi razred zatvorenje s obje strane. Tako postujemo osnovno pravilo grupiranja, prema kojemu svaki podataktreba svrstati u tocno jednu grupu. Alternativno, mogli smo razrede formirati tako da sviosim posljednjeg budu zatvoreni slijeva i otvoreni zdesna, dok bi posljednji bio zatvoren s objestrane.

Nakon sto smo formirali razrede, potrebno je odrediti njihove apsolutne frekvencije, od-nosno potrebno je izbrojati podatkovne vrijednosti koje pripadaju svakom razredu (sto ceovdje biti vrlo jednostavno, jer su podaci u tablici 2.1 poredani po velicini). Dobivena dis-tribucija frekvencija, zajedno s apsolutnim, relativnim, te kumulativnim frekvencijama, kojesmo oznacili na uobicajeni nacin, prikazana je u prvih pet stupaca tablice 4.5, a preostalestupce objasnit cemo uskoro. Uocimo da, kod distribucije s razredima, kumulativna apsolutnafrekvencija Ni kazuje broj, a kumulativna relativna frekvencija Pi proporciju podataka manjihili jednakih gornjoj granici i-tog razreda bi.

Ocigledno, popis razreda i njihovih frekvencija nije istovjetan nizu negrupiranih podataka,jer smo grupiranjem u razrede izgubili pojedinacne podatkovne vrijednosti. Da bismo distri-buciju s razredima ipak mogli koristiti za odredivanje mjera lokacije i disperzije, podatkovne

4-7

Page 37: Skripta iz statistike

Tablica 4.5. Automobili prema putu kocenja.

Aps. Rel. Kum. Kum. Raz. Vel. Gust. Gust.Razred frek. frek. aps.frek. rel.frek. sred. raz. aps.frek. rel.frek.

ai bi ni pi Ni Pi xi hi ni pi35 – 40 1 0.0333 1 0.0333 37.5 5 0.2 0.006740 – 45 3 0.1000 4 0.1333 42.5 5 0.6 0.020045 – 50 13 0.4333 17 0.5667 47.5 5 2.6 0.086750 – 55 9 0.3000 26 0.8667 52.5 5 1.8 0.060055 – 60 3 0.1000 29 0.9667 57.5 5 0.6 0.020060 – 65 1 0.0333 30 1.0000 62.5 5 0.2 0.0067

Ukupno 30 1.0000 – – – – – –

vrijednosti koje pripadaju istom razredu nadomjestit cemo razrednom sredinom, tj. aritme-tickom sredinom granica razreda. Razredne sredine oznacit cemo s x1, x2, . . . , xk, pri cemuje

(4.11) xi =ai + bi

2,

te cemo se, u odredivanju aritmeticke sredine i varijance, nastaviti koristiti izrazima (4.9) i(4.10). Medutim, s obzirom da su razredne sredine xi samo priblizno jednake negrupiranimpodacima, rezultati koje cemo tako dobiti bit ce takoder samo priblizno tocni.

Velicina razreda definira se kao udaljenost izmedu granica razreda. Velicine razreda oznacitcemo s h1, h2, . . . , hk. Dakle, po definiciji je

(4.12) hi = bi − ai .

Ocigledno je da frekvencija razreda zavisi o njegovoj velicini, pa je zato korisno frekvencijustaviti u odnos s velicinom razreda, cime dolazimo do gustoce frekvencije. Gustoce apsolutnih,odnosno relativnih frekvencija oznacit cemo s n1, n2, . . . , nk, odnosno p1, p2, . . . , pk. Prematome,

(4.13) ni =nihi

i pi =pihi.

Razredne sredine, velicine razreda i gustoce frekvencija prikazane su u posljednja cetiristupca tablice 4.5.

Preostaje jos da distribuciju frekvencija graficki prikazemo histogramom i poligonom frek-vencija. Histogram nastaje tako da se nad svakim razredom podigne pravokutnik cija jepovrsina jednaka frekvenciji razreda. Iz toga neposredno slijedi da je visina pravokutnikajednaka gustoci frekvencije, te da povrsina cijelog histograma, tj. svih njegovih pravokutnikazajedno, iznosi n ili 1, ovisno o tome prikazuje li histogram distribuciju apsolutnih ili relativ-nih frekvencija. Poligon frekvencija distribucije neprekidne numericke varijable dobije se takoda se polovista gornjih stranica pravokutnika histograma spoje ravnim crtama. Histogram ipoligon frekvencija distribucije u tablici 4.5 prikazani su na slici 4.3.

Primjer 4.5. Polazeci od distribucije frekvencija iz prethodnog primjera, za podatke o putukocenja izracunajte:

(a) aritmeticku sredinu i standardnu devijaciju,

(b) broj automobila ciji put kocenja ne prelazi 48 metara,

4-8

Page 38: Skripta iz statistike

Put kočenja (m)

Gus

toća

frek

venc

ije

35 40 45 50 55 60 65

0.0

0.5

1.0

1.5

2.0

2.5

(a) Histogram

35 40 45 50 55 60 65

0.0

0.5

1.0

1.5

2.0

2.5

Put kočenja (m)

Gus

toća

frek

venc

ije

(b) Poligon frekvencija

Slika 4.3. Automobili prema putu kocenja.

(c) medijan i kvartile.

Koristeci razredne sredine i apsolutne frekvencije, imamo

X =

∑xinin

=1490

30= 49.67 ,

S =√S2 =

(∑x2inin

−X2)1/2

=

(74787.5

30− 49.672

)1/2

= 5.113 .

Kao sto smo ocekivali, ove vrijednosti se donekle razlikuju od onih koje smo izracunali uprimjeru 2.4, polazeci od negrupiranih podataka, gdje smo dobili X = 49.63 i S = 5.503.

U pitanju (b) potrebno je odrediti broj podataka u intervalu od 35 do 48, sto se mozeuciniti pomocu histograma (sl. 4.4). Naime, s obzirom da je povrsina svakog pravokutnikahistograma jednaka frekvenciji odgovarajuceg razreda, razumno je frekvenciju bilo kojeg bro-jevnog intervala aproksimirati povrsinom dijela histograma koji je iznad tog intervala.

Povrsina prva dva pravokutnika iznosi 4, sto je kumulativna frekvencija drugog razreda, paslijedi da broj automobila ciji put kocenja ne prelazi 48 metara priblizno iznosi

4 + (48− 45) · 2.6 = 11.8 .

Iz negrupiranih podataka lako se vidi da je tocan rezultat 11.Konacno, da bismo nasli medijan ili neki drugi kvantil, moramo rijesiti obrnuti problem od

prethodnog – iz poznate povrsine potrebno je odrediti granicu intervala. Naime, medijan sedefinira kao vrijednost s cije se lijeve i desne strane nalazi polovica podatkovih vrijednosti, stoznaci da ce medijan biti vrijednost koja povrsinu histograma dijeli na pola. Polovica od n = 30iznosi n/2 = 15, pa zakljucujemo da se medijan X nalazi u trecem razredu, jer je 17 najmanjakumulativna frekvencija koja je veca ili jednaka 15, te da zadovoljava sljedecu jednadzbu:

4 + (X − 45) · 2.6 = 15 .

Rjesavanjem te jednadzbe po X, slijedi da medijan iznosi

X = 45 +1

2.6(15− 4) = 49.23

4-9

Page 39: Skripta iz statistike

0.0

0.5

1.0

1.5

2.0

2.5

35 45 48

Slika 4.4. Frekvencija intervala priblizno je jednaka povrsini pripadajuceg dijela histo-grama.

Iz negrupiranih podataka dobili bismo X = 49.25.Slicno razmisljanje mozemo ponoviti za kvantil bilo koje razine p, pa ako je Ni najmanja

kumulativna frekvencija koja je veca ili jednaka np, onda se p-kvantil nalazi u i-tom razredu imoze se priblizno izracunati prema izrazu

Xp = ai +1

ni(np−Ni−1) .

Uzmemo li jos u obzir da je 1/ni = hi/ni, prethodna formula postaje

(4.14) Xp = ai +hini

(np−Ni−1) .

Izracunajmo jos donji i gornji kvartil:

Q1 = X0.25 = [np = 7.5] = 45 +5

13(7.5− 4) = 46.35 ,

Q3 = X0.75 = [np = 22.5] = 50 +5

9(22.5− 17) = 53.06 .

Iz negrupiranih podataka dobili bismo 46.4 i 51.9

Primjer 4.6. Koristeci se podacima o visini place iz tablice 4.6, formirajte distribuciju frek-vencija s razredima razlicite velicine i zatim, polazeci od dobivene distribucije, izracunajteprosjecnu i medijalnu placu. Takoder, distribuciju graficki prikazite histogram i poligon frek-vencija.

Tablica 4.6. Placa (u kunama) za 30 radnika.

5774 4975 5664 4649 6167 81284375 3642 4679 6577 5424 55973246 4555 3956 11595 9157 43053613 7380 6785 4857 5595 66835258 7124 5562 3910 4070 3662

4-10

Page 40: Skripta iz statistike

Premda je placa diskretna varijabla, njene vrijednosti se gotovo ne ponavljaju, pa cemo ihgrupirati u razrede. Najmanja placa u tablici 4.6 iznosi 3246, a najveca 11595 kuna. Dakle,podaci se nalaze u intervalu od 3 do 12 tisuca kuna, koji mozemo podijeliti na 9 razredavelicine 1 ili na 6 razreda velicine 1.5. Medutim, razredi ne moraju uvijek biti jednake velicine,pa cemo, ilustracije radi, ovdje koristiti razrede razlicitih velicina. Pritom, ako se distribucijaformira s razredima razlicitih velicina, onda se manji razredi koriste u podrucju gdje su podacigusti, a veci razredi tamo gdje su podaci rijetki. S dijagrama tocaka na slici 4.5 vidimo da supodaci o placi gusti u podrucju do 7 tisuca kuna, a rjedi nakon tog iznosa.

Plaća (tisuće kuna)

3 4 5 6 7 8 9 10 11 12

Slika 4.5. Dijagram tocaka za podatke o placi iz tablice 4.6.

Razredi koje smo formirali i pripadne apsolutne frekvencije, prikazane su u tablici 4.7.Tablicu smo dopunili razrednim sredinama, velicinama razreda i gustocama frekvencija, kojesu potrebne za izracunavanje aritmeticke sredine i medijana, te za izradu trazenih grafickihprikaza.

Tablica 4.7. Distribucija radnika prema placi.

Placa Aps. Kum. Razredna Velicina Gustoca(tis. kuna) frek. frek. sredina razreda frek.

ai bi ni Ni xi hi ni

3.0 – 4.0 6 6 3.50 1.0 6.004.0 – 5.0 8 14 4.50 1.0 8.005.0 – 6.0 7 21 5.50 1.0 7.006.0 – 7.0 4 25 6.50 1.0 4.007.0 – 8.5 3 28 7.75 1.5 2.008.5 – 10.0 1 29 9.25 1.5 0.67

10.0 – 12.0 1 30 11.00 2.0 0.50

Ukupno 30 – – – –

Prosjecna i medijalna placa, u tisucama kuna, iznose:

X =

∑xinin

=165

30= 5.5 ,

X = X0.5 = [np = 15] = 5 +1

7(15− 14) = 5.143 .

Konacno, histogram i poligon frekvencija, prikazani su na slici 4.6.

Primjer 4.7. Testiranjem trajnosti odredenog broja zarulja doslo se do distribucije frekven-cija prikazanoj u tablici 4.8. Izracunajte

(a) aritmeticku sredinu i standardnu devijaciju,

(b) medijan.

Ovdje je zadana distribucija relativnih frekvencija, i to u obliku postotaka. Stovise, brojpodataka nije poznat, pa ne mozemo odrediti apsolutne frekvencije, koje smo dosad koristili

4-11

Page 41: Skripta iz statistike

Plaća (tisuće kuna)

Gus

toća

frek

venc

ije

02

46

8

3.0 5.0 7.0 8.5 10.0 12.0

(a) Histogram

02

46

8Plaća (tisuće kuna)

Gus

toća

frek

venc

ije3.0 5.0 7.0 8.5 10.0 12.0

(b) Poligon frekvencija

Slika 4.6. Distribucija radnika prema placi.

Tablica 4.8. Distribucija zarulja prema trajnosti.

Trajnost %(sati) zarulja

1300 – 1350 2.41350 – 1400 7.11400 – 1450 16.91450 – 1500 28.41500 – 1550 23.31550 – 1600 16.61600 – 1650 4.51650 – 1700 0.8

4-12

Page 42: Skripta iz statistike

za izracunavanje mjera lokacije i disperzije. Dakle, da bismo izracunali trazene velicine, moratcemo racunske postupke prilagoditi relativnim frekvencijama. Za pocetak, posluzit cemo sepojmom vagane aritmeticke sredine.

Ako su x1, x2, . . . , xk vrijednosti numericke varijable, a w1, w2, . . . , wk nenegativni brojeviciji zbroj nije nula (tj. wi ≥ 0 za svaki i, te

∑wi 6= 0), onda se izraz

(4.15)x1w1 + x2w2 + · · ·+ xkwk

w1 + w2 + · · ·+ wk=

∑xiwi∑wi

zove vagana ili ponderirana aritmeticka sredina vrijednosti xi s tezinama ili ponderima wi.Vrijednosti koje imaju veliku tezinu jace utjecu na iznos vagane aritmeticke sredine od

vrijednosti koje imaju malu tezinu, pa se vagana aritmeticka sredina koristi za prosjek vrijed-nosti koje imaju razlicitu vaznost. Primjerice, pretpostavimo da se znanje studenata ocjenjujekroz kolokvij, zadace i zavrsni ispit, te da se svaka od navedenih aktivnosti boduje na skaliod 0 do 100. Pretpostavimo nadalje da je odredeni student osvojio 50 bodova na kolokviju,74 boda na zadacama i 86 bodova na zavrsnom ispitu. Ako profesor smatra da su kolokvij,zadace i zavrsni ispit jednako vazni u formiranju konacne ocjene, onda ce uspjeh tog studentaizracunati kao obicnu ili nevaganu aritmeticku sredinu, tj.

50 + 74 + 86

3= 70 .

S druge strane, ako profesor smatra da su navedene aktivnosti razlicito vazne, te da je kolokvijnpr. dvaput, a zavrsni ispit pet puta vazniji od zadaca, onda ce uspjeh studenta izracunatikao vaganu aritmeticku sredinu vrijednosti 50, 74, 86 s tezinama 2, 1, 5, pa ce konacni uspjehiznositi

50 · 2 + 74 · 1 + 86 · 52 + 1 + 5

= 75.5 .

Istaknimo dva vazna svojstva vagane aritmeticke sredine. Prvo, ako su tezine medusobnojednake i iznose 1, vagana aritmeticka sredina prelazi u nevaganu. Doista, ako je w1 = w2 =· · · = wk = 1, onda

x1w1 + x2w2 + · · ·+ xkwk

w1 + w2 + · · ·+ wk=x1 + x2 + · · ·+ xk

k.

Drugo, ako se tezine zamijene njima proporcionalnim tezinama, onda se vrijednost vaganearitmeticke sredine ne mijenja. Naime, ako smo tezine wi pomnozili konstantom d i takoformirali proporcionalan niz tezina w′i = dwi, onda ce vagana sredina s novim tezinamaiznositi ∑

xiw′i∑

w′i=

∑xidwi∑dwi

=d∑xiwi

d∑wi

=

∑xiwi∑wi

.

Primijenimo sada svojstva vagane sredine na distribucije frekvencija. S obzirom da jezbroj apsolutnih frekvencija jednak broju podataka, tj.

∑ni = n, slijedi da formulu za

sredinu distribucije mozemo napisati kao

X =

∑xinin

=

∑xini∑ni

.

Dakle, sredina distribucije racuna se kao vagana sredina vrijednosti xi i apsolutnih frekvencijani. Medutim, relativne frekvencije, ukljucujuci one u postotnom obliku, proporcionalne suapsolutnima, a to znaci da apsolutne frekvencije u izrazu za sredinu distribucije mozemo

4-13

Page 43: Skripta iz statistike

zamijeniti relativnima. Prema tome, aritmeticka sredina distribucije relativnih frekvencijaiznosi

(4.16) X =

∑xipi∑pi

.

Slicno razmisljanje mozemo provesti za varijancu, koja se takoder racuna pomocu vaganesredine, ali ne vrijednosti xi, nego njihovih kvadrata ili kvadratnih devijacija, pa varijancadistribucije relativnih frekvencija iznosi

(4.17) S2 =

∑(xi −X)2pi∑

pi=

∑x2i pi∑pi−X2

.

Da bismo navedene formule primijenili na distribuciju u tablici 4.8, potrebno je najprijeizracunati razredne sredine, sto smo ucinili u tablici 4.9.

Tablica 4.9. Distribucija zarulja prema trajnosti.

Trajnost % Razredna Kum. Kodirana(sati) zarulja sredina frek. raz.sred.

ai bi pi xi Pi yi1300 – 1350 2.4 1325 2.4 −31350 – 1400 7.1 1375 9.5 −21400 – 1450 16.9 1425 26.4 −11450 – 1500 28.4 1475 54.8 01500 – 1550 23.3 1525 78.1 11550 – 1600 16.6 1575 94.7 21600 – 1650 4.5 1625 99.2 31650 – 1700 0.8 1675 100.0 4

Ukupno 100.0 – – –

Aritmeticka sredina i standardna devijacija trajnosti zarulja iznose

X =

∑xipi∑pi

=149245

100= 1492.45 ,

S =√S2 =

(∑x2i pi∑pi−X2

)1/2

=

(223235000

100− 1492.452

)1/2

= 70.31 .

Preostaje nam izracunati medijan. U tu svrhu, formulu za p-kvantil prilagodit cemo dis-tribuciji relativnih frekvencija. Prije svega, prisjetimo se da dijeljenjm kumulativne apsolutnefrekvencije s brojem podataka dobivamo kumulativnu relativnu frekvenciju, tj. Ni/n = Pi.Dakle, nejednakost Ni ≥ np je ekvivalentna nejednakosti Pi ≥ p. To znaci da cemo razredp-kvantila naci tako da trazimo najmanju kumulativnu relativnu frekvenciju koja je veca ilijednaka p. Ako sada iz zagrade u formuli za p-kvantil izlucimo n, imamo

Xp = ai +hini

(np−Ni−1) = ai +hini/n

(p−Ni−1/n) ,

odnosno

(4.18) Xp = ai +hipi

(p− Pi−1) .

4-14

Page 44: Skripta iz statistike

Dakle, da bismo u ovom primjeru nasli medijan, najprije trazimo najmanju kumulativnufrekvenciju koja iznosi barem 50, cime dolazimo do cetvrtog razreda, a nakon toga lako izra-cunavamo

X = X0.5 = 1450 +50

28.4(50− 26.4) = 1491.55 .

Na kraju, istaknimo jos da se linearna transformacija, koju smo prethodno koristili zapromjenu mjerne jedinice i kodiranje negrupiranih podataka, moze s jednakom namjenomkoristiti i za grupirane podatke. Ako se vrijednosti xi linearno transformiraju, tako da je

yi = dxi + c ,

pri cemu su d i c konstante, onda ce izrazi (2.12), (7.22) i (2.14), koje smo izveli za negrupiranepodatke, nastaviti vrijediti za distribucije frekvencija.

Tako, u prethodnom primjeru sa zaruljama, razredne sredine mogli bismo kodirati linear-nom transformacijom

yi =xi − 1475

50,

ciji je inverz xi = 50yi +1475. Kodirane razredne sredine yi prikazane su u posljednjem stupcutablice 4.9. U takvom pristupu, najprije treba izracunati Y i Sy:

Y =

∑yipi∑pi

=34.9

100= 0.349 ,

Sy =√S2y =

(∑y2i pi∑pi− Y 2

)1/2

=

(209.9

100− 0.3492

)1/2

= 1.406129 .

Nakon toga mozemo odrediti X i S:

X = 50Y + 1475 = 50 · 0.349 + 1475 = 1492.45 ,

S = 50Sy = 50 · 1.406129 = 70.31 .

Primjer 4.8. Odredite precizne granice razreda prikazanih u tablici 4.10.

Tablica 4.10. Razredi s nominalnim granicama i otvoreni razredi.

Visinau cm

150 – 159160 – 169170 – 179180 – 189

Vrijemeu sek.

12.0 – 12.412.5 – 12.913.0 – 13.413.5 – 13.9

Navrsenegodine zivota

0 – 56 – 11

12 – 1617 – 2122 – 26

Trajanje tel.razgovora u min.

1 – 23 – 56 – 12

13 – 2021 i vise

Broj automobilau 1/4 min.

do 234

5 - 78 i vise

U distribucijama s razredima, susjedni razredi trebaju imati zajednicku granicu. Takvegranice zovu se prave ili precizne. Ako susjedni razredi nemaju zajednicku granicu, onda segranice zovu nominalne. Ako razredu nedostaje jedna od granica, onda se razred zove otvoren.

Prije obrade distribucije distribucije s razredima, potrebno je priblizno procijeniti graniceotvorenih razreda. Takoder, potrebno je iz nominalnih granica odrediti precizne, sto to seuglavnom postize smanjivanjem donjih i povecavanjem gornjih nominalnih granica razreda, aliponekad je dovoljno napraviti samo jednu od te dvije operacije.

Precizne granice za distribucije iz tablice 4.10 prikazane su u tablici 4.11.

4-15

Page 45: Skripta iz statistike

Tablica 4.11. Precizne granice za distribucije iz tablice 4.10.

Visinau cm

149.5 – 159.5159.5 – 169.5169.5 – 179.5179.5 – 189.5

Vrijemeu sek.

11.95 – 12.4512.45 – 12.9512.95 – 13.4513.45 – 13.95

Navrsenegodine zivota

0 – 66 – 12

12 – 1717 – 2222 – 27

Trajanje tel.razgovora u min.

0 – 22 – 55 – 12

12 – 2020 – (60)

Broj automobilau 1/4 min.

(−0.5) – 2.52.5 – 3.53.5 – 4.54.5 – 7.57.5 – (15.5)

Zadaci

4.1. Tablica 4.12 prikazuje broj kupaca koji su stali u red na kasi u vremenskom intervalu oddeset minuta za 50 takvih intervala. Dane podatke grupirajte i potom:

(a) izracunajte aritmeticku sredinu, varijancu, standardnu devijaciju, medijan i kvartile,

(b) nacrtajte linijski grafikon i poligon frekvencija.

Tablica 4.12. Broj kupaca koji su stali u red na kasi u vremenskom intervalu od desetminuta.

5 2 7 3 4 1 4 3 3 20 0 8 3 3 5 1 3 2 13 9 4 5 3 1 2 3 7 62 2 2 6 4 4 2 4 8 65 1 5 4 6 5 2 7 3 3

4.2. Podatke o kolicini utocenog benzina iz tablice 4.13 grupirajte u razrede jednake velicine(pocnite s razredom 5–10) i zatim, za dobivenu distribuciju frekvencija:

(a) nacrtajte histogram i poligon frekvencija,

(b) izracunajte aritmeticku sredinu i standardnu devijaciju,

(c) odredite medijan, kvartile i raspon sredisnjih 90% vrijednosti.

Tablica 4.13. Kolicina utocenog benzina (u litrima) za 40 slucajno odabranih automi-bila koji su se zaustavili na benzinskoj stanici.

30.04 29.52 26.70 13.87 37.39 21.54 32.25 20.8425.91 25.02 26.14 16.40 33.67 35.00 28.70 17.3729.44 38.40 45.18 31.98 21.09 14.68 9.74 26.2520.31 31.90 17.66 32.82 36.47 26.94 20.00 21.9331.73 29.59 27.14 29.56 20.17 32.84 37.79 36.74

4.3. Za distribuciju iz tablice 4.14:

(a) nacrtajte histogram,

(b) procijenite udio stanova koji se placaju 162 EUR ili vise,

(c) izracunajte aritmeticku sredinu i standardnu devijaciju,

(d) odredite medijan i deveti decil.

4-16

Page 46: Skripta iz statistike

Tablica 4.14. Stanarina (u EUR) za jednosobne stanove u jednom gradu.

Stanarina % stanova

110 – 130 10.8130 – 140 15.9140 – 150 21.5150 – 170 32.3170 – 190 13.2190 – 250 6.3

4.4. Za distribuciju frekvencija iz tablice 4.15 izracunajte aritmeticku sredinu, varijancu, stan-dardnu devijaciju, medijan i kvartile.

Tablica 4.15. Trajnost automobilskih guma.

Trajnost (km) Broj guma

38500 – 39000 339000 – 39500 939500 – 40000 1940000 – 40500 2740500 – 41000 1041000 – 41500 841500 – 42000 4

4.5. Tablica 4.16 prikazuje zaposlenike jednog poduzeca prema navrsenim godinama radnogstaza.

(a) Nacrtajte histogram.

(b) Izracunajte prosjecan i medijalni radni staz zaposlenika.

Tablica 4.16. Zaposlenici prema radnom stazu.

Radni staz Broj(navrsene godine) zaposlenika

do 4 255 – 9 41

10 – 14 3315 – 19 2220 – 29 1030 i vise 8

4-17

Page 47: Skripta iz statistike

5. Bivarijatni podaci

Dosad smo uglavnom promatrali univarijatne podatke, tj. podatke koji se odnose na samojednu statisticku varijablu. Takvi su npr. podaci o duljini puta kocenja (tab. 2.1), temperaturi(tab. 2.2), velicini sanducica elektronicke poste (tab. 3.2) itd. Istovremenim promatranjemdviju statistickih varijabli dolazimo do bivarijatnih podataka. Bivarijatne podatke s jednomdihotomnom i jednom numerickom varijablom imali smo u tablici 3.1.

Ako jednu od promatranih varijabli oznacimo s X, a drugu s Y , onda bivarijatne podatke zan statistickih jedinica mozemo zamisliti kao niz od n uredenih parova podatkovnih vrijednosti

(5.1) (X1, Y1), (X2, Y2), . . . , (Xn, Yn) ,

koje obicno prikazujemo u obliku tablice s n redaka i dva stupca (tab. 5.1). U i-tom retkute tablice nalaze se podatkovne vrijednosti koje se odnose na i-tu jedinicu, dok se u stupcimanalaze podatkovne vrijednosti koje se odnose na pojedine varijable. Radi ustede prostora,tablicu bivarijatnih podataka cemo ponekad transponirati, tj. recima i stupcima zamijenitcemo mjesta.

Tablica 5.1. Opci oblik tablice s bivarijatnim podacima.

X Y

X1 Y1

X2 Y2

......

Xn Yn

Opcenito, podaci do kojih dolazimo promatranjem dvije ili vise statistickih varijabli zovuse multivarijatni. Dakle, bivarijatni podaci su specijalan slucaj multivarijatnih podataka.Multivarijatne podatke prikazujemo u tablici slicnoj onoj za bivarijatne podatke, s tim dastupaca u toj tablici ima koliko i varijabli.

Bivarijatne podatke obicno prikupljamo jer nas zanima veza (asocijacija, korelacija, kova-rijacija, zavisnost) izmedu varijabli. Npr. na osnovu podataka iz tablice 3.1, mogli bismo recida su spol i puls povezani, jer zene u prosjeku imaju veci puls od muskaraca (sl. 3.4).

Veze izmedu varijabli mogu biti deterministicke ili stohasticke. Veza se zove deterministicka(funkcijska) ako se na osnovu vrijednosti jedne varijable moze precizno odrediti vrijednostdruge varijable. Primjerice, ako smo na trznici kupili 2 kg naranci, koje se prodaju po cijeniod 10 kuna po kg, onda znamo da cemo platiti iznos od 20 kuna. Dakle, veza izmeduvarijabli “kolicina” i “placeni iznos” je deterministicka. Veza se zove stohasticka (slucajna,statisticka) ako na osnovu vrijednosti jedne varijable nije moguce sasvim precizno odreditivrijednosti druge varijable. Tako, premda je jasno da vrijeme koje je student ulozio u ucenjeza ispit utjece na ocjenu, na osnovu vrijednosti jedne, nije moguce precizno utvrditi vrijednostdruge varijable. Prema tome, veza izmedu varijabli “vrijeme ucenja” i “ocjena na ispitu” jestohasticka. Veza izmedu ranije promatranih varijabli “spol” i “puls” je takoder stohasticka.Kod stohastickih veza, za svaku vrijednost jedne varijable postoji citava distribucija vrijednostidruge varijble. Statistika se bavi iskljucivo stohastickim vezama, te cemo u nastavku, podpojmom veza, smatrati samo stohasticku vezu.

5-1

Page 48: Skripta iz statistike

Kovarijanca i koeficijent linearne korelacije

Primjer 5.1. Istrazuje se veza izmedu kolicine vremena kojega studenti tjedno trose na ucenjei prosjeka ocjena svih polozenih ispita. Podaci za skupinu od 15 slucajno odabranih studenataprikazani su u tablici 5.2.

(a) Nacrtajte dijagram rasprsenja.

(b) Izracunajte i interpretirajte koeficijent linearne korelacije.

Tablica 5.2. Vrijeme ucenja (sati tjedno) i prosjek ocjena.

Vrijeme ucenja 3 7 9 11 12 15 16 17 17 18 20 23 26 26 27Prosjek ocjena 2.0 2.2 2.3 2.8 3.9 3.6 3.4 4.1 3.7 3.3 4.0 4.1 4.9 4.1 4.6

Kad proucavamo povezanost varijabli, obicno se pitamo postoji li uopce veza, te ako pos-toji, koje je vrste i koliko je jaka. Ako su obje varijable numericke, onda se odgovori nanavedena pitanja najprije traze koristeci dijagram rasprsenja, kojega dobivamo tako da podat-kovne vrijednosti (5.1), koje se ovdje sastoje od parova numerickih vrijednosti, prikazemo kaotocke u pravokutnom koordinatnom sustavu. Tako, na slici 5.1 imamo dijagram rasprsenja zapodatke iz tablice 5.2. Pritom, vrijeme ucenja nalazi se na horizontalnoj, a prosjek ocjena navertikalnoj osi.

0 5 10 15 20 25 30

2.0

2.5

3.0

3.5

4.0

4.5

5.0

Vrijeme učenja (sati tjedno)

Pro

sjek

ocj

ena

Slika 5.1. Dijagram rasprsenja za podatke o vremenu ucenja i prosjeku ocjena.

Dijagrama rasprsenja na slici 5.1 pokazuje da studenti koji vise uce imaju uglavnom i veciprosjek ocjena. Dakle, izmedu vremena ucenja i prosjeka ocjena postoji veza ili korelacija. Op-cenito, ako tocke u dijagramu rasprsenja nisu rasporedene nasumice, nego njihov horizontalnipolozaj utjece na vertikalni i obratno, mozemo zakljuciti da su promatrane varijable povezaneili korelirane (sl. 5.2).

Veza izmedu varijabli moze biti linearna ili nelinearna, te rastuca ili padajuca (sl. 5.2). Akosu tocke u dijagramu rasprsenja rasporedene oko pravca, onda se veza zove linearna, dok ako sutocke rasporedene oko krivulje, onda se veza zove nelinearna. Kod rastuce, odnosno padajuceveze, porast vrijednosti jedne varijable uglavnom povlaci porast, odnosno pad vrijednosti druge

5-2

Page 49: Skripta iz statistike

(a) Varijable nisu povezane (b) Linearna veza (c) Nelinearna veza

(d) Rastuca veza (e) Padajuca veza

Slika 5.2. Vrste veza izmedu varijabli.

varijable. Za rastucu vezu kazemo jos da je pozitivna ili pozitivnog smjera, a za padajucu vezukazemo da je negativna ili negativnog smjera. Dakle, izmedu vremena ucenja i prosjeka ocjenapostoji pozitivna linearna korelacija.

Jakost veze govori o tome koliko precizno vrijednost jedne varijable odreduje vrijednostdruge varijable (sl. 5.3). Pritom, potpuna ili savrsena korelacija moguca je samo kod funkcijskeveze.

(a) Jaka korelacija (b) Slaba korelacija (c) Potpuna ili savrsenakorelacija

Slika 5.3. Jakost korelacije.

Korelacija se moze numericki iskazati raznim koeficijentima, a medu najpoznatijima jekoeficijent linearne korelacije, kojega je razvio F. Galton1, a usavrsio K. Pearson2, pa se

1Francis Galton (1822.-1911.) – britanski erudit i izumitelj2Karl Pearson (1857.-1936.) – britanski statisticar

5-3

Page 50: Skripta iz statistike

taj koeficijent cesto zove Pearsonov koeficijent linearne korelacije. Vazno je napomenuti daPearsonov koeficijent mjeri iskljucivo linearnu korelaciju.

Osnovna mjera linearne korelacije je zapravo kovarijanca, a kovarijanca Sxy numerickihvarijabli X i Y definira se kao aritmeticka sredina produkata njihovih devijacija, tj.

(5.2) Sxy =

∑(Xi −X)(Yi − Y )

n.

Ako su varijable X i Y npr. u pozitivnoj linearnoj vezi, onda ce dijagram rasprsenjaimati oblik kao na slici 5.4. U tom dijagramu prikazali smo vertikalni pravac koji prolazi kroztocku X na osi varijable X i horizontalni pravac koji prolazi kroz tocku Y na osi varijable Y .Navedeni pravci dijele dijagram rasprsenja u cetiri kvadranta, A, B, C i D.

AB

C D

Slika 5.4. Kovarijanca.

Lako se vidi da tocke u kvadrantima A i C imaju pozitivan, a tocke u kvadrantima B iD negativan produkt devijacija. Naime, tocke (Xi, Yi) u kvadrantima A i C, odnosno B i Dimaju devijacije Xi−X i Yi−Y istog, odnosno razlicitog predznaka, pa ce njihov produkt bitipozitivan, odnosno negativan.

Kod pozitivne linearne korelacije, vecina tocaka nalazi se u “pozitivnim” kvadrantima Ai C, a manji dio tocaka nalazi se u “negativnim” kvadrantima B i D, pa ce u brojnikuizraza (5.2) prevladavati pozitivni pribrojnici, te ce kovarijanca biti pozitivna. Takoder, stoje korelacija jaca, to ce pozitivni kvadranti sadrzavati vise tocaka od negativnih, pa ce se ivrijednost kovarijance povecati. Analogno razmisljanje mozemo provesti za negativnu linearnukorelaciju, kod koje ce kovarijanca biti negativna. Konacno, u slucaju kad varijable nisukorelirane, broj tocaka u svim kvadrantima bit ce priblizno jednak, sto znaci da ce kovarijancabiti priblizno nula. Uocimo takoder da ce kovarijanca biti nula kadgod su tocke simetricnorasporedene u odnosu na barem jedan od dva ucrtana pravaca na slici 5.4, a to je moguce caku slucaju funkcijske veze, koja doduse mora biti nelinearna.

Dakle, kovarijanca moze posluziti za mjerenje (iskljucivo) linearne korelacije. Medutim,vrijednost kovarijance zavisi o mjernim jedinicama. Primjerice, ako su vrijednosti jedne vari-jable dane u metrima i potom metre zamijenimo centimetrima, vrijednost kovarijance povecatce se sto puta. Mjernih jedinica se naravno mozemo rijesiti standardizacijom.

Koeficijent linearne korelacije r definira se kao kovarijanca standardiziranih varijabli.Dakle, ako su X i Y numericke varijable s vrijednostima (5.1), onda cemo njihovom stan-dardizacijom dobiti varijable U i V s vrijednostima Ui = (Xi − X)/Sx i Vi = (Yi − Y )/Sy.Koefijent linearne korelacije r varijabli X i Y po definiciji je jednak kovarijanci varijabli U i

5-4

Page 51: Skripta iz statistike

V , a buduci da je U = V = 0, slijedi da je

r = Suv =

∑(Ui − U)(Vi − V )

n=

∑UiVin

=

∑(Xi −X)(Yi − Y )

nSxSy,

odnosno

(5.3) r =Sxy

SxSy.

Prema tome, koeficijent linearne korelacije jednak je omjeru kovarijance i produkta stan-dardnih devijacija. Iz toga slijedi da je predznak od r jednak predznaku od Sxy, koji pokazujesmjer korelacije. Ocigledno, r = 0 ako i samo ako Sxy = 0, sto ce se dogoditi kada varijablenisu korelirane (ali ne samo tada).

Dok predznak koeficijenta linearne korelacije pokazuje smjer, dotle njegova apsolutna vri-jednost pokazuje jakost korelacije. Moze se dokazati da je uvijek

(5.4) |r| ≤ 1

te da je |r| = 1 ako i samo ako su varijable savrseno linearno korelirane. Sto je linearnakorelacija jaca, to ce |r| biti blize 1 i obratno.

Interpretacija jakosti linearne korelacije na osnovu koeficijenta r zavisi o podrucju primjene.Podaci koji se prikupljaju u drustvenim znanostima obicno sadrze vise “suma” od podatakado kojih dolazimo npr. provedbom kontroliranih eksperimenata u fizici ili kemiji, pa onosto smatramo jakom korelacijom u jednoj, moze biti slaba korelacija u drugoj situaciji. Udrustvenim znanostima popularna je klasifikacija koju je dao J. Cohen3 1988. godine, premakojoj kazemo da je korelacija jaka, odnosno srednja, odnosno slaba ako je |r| ≥ 0.5, odnosno0.3 ≤ |r| < 0.5, odnosno 0.1 ≤ |r| < 0.3, a vrijednosti manje od 0.1 smatraju se zanemarivima.

Konacno, kako se u racunanju kovarijance ne bismo morali koristiti devijacijama, zbrojprodukata devijacija transformirat cemo na sljedeci nacin:∑

(Xi −X)(Yi − Y ) =∑

(XiYi −XiY −XYi +X Y )

=∑XiYi − (

∑Xi)Y −X(

∑Yi) + nX Y

=∑XiYi − nX Y − nX Y + nX Y

=∑XiYi − nX Y .

Ako to uvrstimo u izraz (5.2), dobivamo

(5.5) Sxy =

∑XiYin

−X Y ,

sto znaci da je kovarijanca jednaka razlici aritmeticke sredine produkata i produkta aritmetic-kih sredina.

Izracunajmo sada koeficijent linearne korelacije za podatke o vremenu ucenja i prosjekuocjena, za koje je n = 15, a primjenom vec poznatih postupaka lako se dobiva X = 16.47,Y = 3.533, Sx = 6.975 i Sy = 0.8412. Kovarijanca iznosi

Sxy =

∑XiYin

−X Y =952.6

15− 16.47 · 3.533 = 5.324 ,

3Jacob Cohen (1923.-1998.) – americki statisticar i psiholog

5-5

Page 52: Skripta iz statistike

pa koeficijent linearne korelacije ima vrijednost

r =Sxy

SxSy=

5.324

6.975 · 0.8412= 0.9075 .

Stoga, izmedu vremena ucenja i prosjeka ocjena postoji jaka pozitivna linearna korelacija.

Primjer 5.2. Tablica 5.3 prikazuje podatke o radnom iskustvu (u tjednima) u sklapanjujednog elektronickog uredaja i broju sklopljenih uredaja s greskom, za slucajni uzorak od 10radnika. Nacrtajte dijagram rasprsenja, izracunajte koeficijent linearne korelacije i protuma-cite dobiveni rezultat.

Tablica 5.3. Radno iskustvo i broj uredaja s greskom.

Radno iskustvo (tjedni) 1 3 4 5 7 8 10 12 13 14Broj uredaja s greskom 15 29 27 14 22 4 11 16 13 20

Dijagram rasprsenja slici 5.5 pokazuje da su podaci u negativnoj korelaciji, koja bi moglabiti linearna, ali ne i osobito jaka. Jedinica ocigledno imamo n = 10, a iz tablice 5.3 lakoslijedi X = 7.7, Y = 17.1, Sx = 4.244 i Sy = 7.162.

0 5 10 15

05

1015

2025

3035

Radno iskustvo (tjedni)

Bro

j ure

đaja

s g

rešk

om

Slika 5.5. Dijagram rasprsenja za podatke o radnom iskustvu i broju uredaja s gre-skom.

Konacno, kovarijanca i koeficijent linearne korelacije iznose

Sxy =

∑XiYin

−X Y =1217

10− 7.7 · 17.1 = −9.97 ,

r =Sxy

SxSy=

−9.97

4.244 · 7.162= −0.328 .

Dakle, izmedu radnog iskustva i broja sklopljenih uredaja s greskom postoji srednja negativnalinearna korelacija.

Na kraju, istaknimo da iz (5.2) i (5.3) slijedi su kovarijanca i koeficijent linearne korelacijesimetricni u varijablama X i Y , tj. ako varijable zamijene uloge, kovarijanca i koeficijentlinearne korelacije nece promijeniti vrijednost. Takoder, iz (5.2) slijedi da je kovarijanca svakevarijable X sa samom sobom jednaka varijanci te varijable, tj. Sxx = S2

x.

5-6

Page 53: Skripta iz statistike

Bivarijatne distribucije frekvencija i tablice kontingencije

Primjer 5.3. U tablici 5.4 dani su podaci o studijskom smjeru i ocjeni za 50 slucajno oda-branih studenata koji su pristupili ispitu iz statistike. Podatke grupirajte i zatim izracunajtemarginalne i relativne frekvencije.

Tablica 5.4. Studijski smjer i ocjena na ispitu iz statistike.

Smjer Ocjena

B 3B 4A 4B 1C 5B 4B 2C 4B 3A 3B 4A 2A 1A 4A 1A 3C 5B 3C 3B 4B 2B 4A 1C 3C 2

Smjer Ocjena

A 2A 3B 2C 4A 3A 2A 5B 1C 2A 3B 5C 3B 4A 1C 2A 4C 3A 3B 4B 1C 4B 2B 3B 3A 4

Bivarijatni podaci u tablici 5.4 mogu se grupirati tako da se grupe sastoje od medusobnojednakih parova vrijednosti promatranih varijabli. Time dolazimo do bivarijatne distribucijefrekvencija prikazane u tablici 5.5, koju zovemo tablicom kontingencije. Opcenito, tablicekontingencije sluze klasifikaciji ili razvrstavanju statistickih jedinica prema vrijednostima dvijeili vise statistickih varijabli. Ovdje smo studente razvrstali prema vrijednostima dvije varijable– smjer i ocjena. S obzirom da smjer ima k = 3, a ocjena l = 5 razlicitih vrijednosti, zadobivenu tablicu kontingencije kazemo da je dimenzija 3× 5.

Tablica kontingencije 5.5 sadrzi vise razlicitih distribucija. Prije svega, sredisnjih 3 · 5 = 15polja te tablice sadrzi bivarijatnu distribuciju studenata prema smjeru i ocjeni, koju jos nazi-vamo zajednickom distribucijom tih varijabli. S obzirom da zajednicka distribucija ima oblikmatrice brojeva, apsolutne frekvencije te distribucije oznacit cemo s nij , pri cemu prvi indeksi oznacava redak, a drugi indeks j stupac u kojemu se nalazi frekvencija. Primjerice, u gornjojtablici imamo n15 = 1, n23 = 5, n32 = 3 itd. Naravno, zbroj svih zajednickih apsolutnihfrekvencija nij iznosi n = 50 i prikazan je u donjem desnom kutu tablice kontingencije.

Posljednji stupac u tablici zove se marginalni stupac i on sadrzi zbroj frekvencija u istomretku. Prema tome, marginalni stupac prikazuje univarijatnu distribuciju studenata prema

5-7

Page 54: Skripta iz statistike

Tablica 5.5. Distribucija studenata prema smjeru i ocjeni na ispitu iz statistike: apso-lutne frekvencije.

OcjenaSmjer 1 2 3 4 5 Ukupno

A 4 3 6 4 1 18B 3 4 5 7 1 20C 0 3 4 3 2 12

Ukupno 7 10 15 14 4 50

smjeru. Slicno tome, posljednji redak zove se marginalni redak i u njemu se nalaze zbrojevifrekvencija u istom stupcu, koji predstavljaju univarijatnu distribuciju studenata prema ocjeni.Univarijatne distribucije u marginalnom retku i stupcu zovemo marginalnim distribucijama.Marginalnu frekvenciju koju dobivamo zbrajanjem frekvencija u i-tom retku, odnosno j-tomstupcu oznacit cemo s ni+, odnosno n+j . Dakle, u gornjoj tablici imamo n1+ = 18, n2+ = 20,n3+ = 12, n+1 = 7, n+2 = 10 itd. Zroj apsolutnih frekvencija svake marginalne distribucijetakoder iznosi n.

Konacno, svaki stupac i redak u sredisnjem dijelu tablice kontinengencije (tj. u zajednickojdistribuciji varijabli smjer i ocjena) takoder predstavlja distribuciju studenata prema jednoj odpromatranih varijabli, ali uz uvjet da je druga varijabla poprimila odredenu fiksnu vrijednost.Zbog toga, te distribucije, kojih ovdje ima svega 3 + 5 = 8, zovu se uvjetne distribucije.Primjerice, treci stupac sadrzi distribuciju studenata prema smjeru, uz uvjet da je ocjenajednaka 3. Slicno tome, prvi redak sadrzi distribuciju studenata prema ocjeni, uz uvjet da jesmjer jednak A itd. Ocigledno, zbroj frekvencija uvjetne distribucije jednak je marginalnojfrekvenciji.

Relativne frekvencije se i ovdje dobivaju tako da se apsolutne frekvencije podijele sa svojimzbrojem. Dakle, zajednicke i marginalne relativne frekvencije dobivaju iz apsolutnih dijelje-njem s n, a uvjetne relativne frekvencije dobivaju se tako da se apsolutne frekvencije podijeles pripadnom marginalnom frekvencijom. Zajednicke relativne frekvencije oznacit cemo s pij ,a marginalne relativne frekvencija s pi+, odnosno p+j . Uvjetne relativne frekvencije necemooznacavati posebnom oznakom. Sve navedene relativne frekvencije prikazane su u tablici 5.6.

Bivarijatni numericki podaci mogu se grupirati slicno kao sto smo grupirali podatke osmjeru i ocjeni, koji su naravno kategoricki. Dakle, distribuciju bivarijatnih numerickih po-dataka takoder prikazujemo tablicom kontingencije, uz prilagodbe slicne onima koje smo pri-mijetili kod univarijatnih podataka – npr. ako je jedna od varijabli neprekidna, onda senjene vrijednosti trebaju grupirati u razrede. Medutim, tablice kontingencije imaju najvecuprimjenu upravo kod kategorickih podataka, jer je tablica kontingencije osnovno sredstvo zaistrazivanje veza izmedu kategorickih varijabli.

Primjer 5.4. Koristeci se distribucijom frekvencija iz primjera 5.3,

(a) utvrdite jesu li varijable smjer i ocjena statisticki nezavisne,

(b) odredite ocekivane frekvencije,

(c) izracunajte χ2 i Cramerov4 koeficijent V .

Dok smo zavisnost numerickih varijabli istrazivali kao odstupanje od funkcijske veze, kodkategorickih varijabli krenut cemo od suprotnog stajalista i promatrat cemo koliko varijableodstupaju od nezavisnosti.

4Harald Cramer (1893.-1985.) – svedski matematicar, aktuar i statisticar

5-8

Page 55: Skripta iz statistike

Tablica 5.6. Distribucija studenata prema smjeru i ocjeni na ispitu iz statistike: rela-tivne frekvencije.

(a) Zajednicke i marginalne relativne frekvencije

OcjenaSmjer 1 2 3 4 5 Ukupno

A 0.0800 0.0600 0.1200 0.0800 0.0200 0.3600B 0.0600 0.0800 0.1000 0.1400 0.0200 0.4000C 0.0000 0.0600 0.0800 0.0600 0.0400 0.2400

Ukupno 0.1400 0.2000 0.3000 0.2800 0.0800 1.0000

(b) Uvjetne relativne frekvencije – uvjetovanje po smjeru

OcjenaSmjer 1 2 3 4 5 Ukupno

A 0.2222 0.1667 0.3333 0.2222 0.0556 1.0000B 0.1500 0.2000 0.2500 0.3500 0.0500 1.0000C 0.0000 0.2500 0.3333 0.2500 0.1667 1.0000

Svi 0.1400 0.2000 0.3000 0.2800 0.0800 1.0000

(c) Uvjetne relativne frekvencije – uvjetovanje po ocjeni

Ocjena SveSmjer 1 2 3 4 5 ocjene

A 0.5714 0.3000 0.4000 0.2857 0.2500 0.3600B 0.4286 0.4000 0.3333 0.5000 0.2500 0.4000C 0.0000 0.3000 0.2667 0.2143 0.5000 0.2400

Ukupno 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000

5-9

Page 56: Skripta iz statistike

Ako su smjer i ocjena nezavisne varijable, onda npr. poznavanje smjera ne utjece nanasu mogucnost odredivanja ili predvidanja ocjene. Dakle, u slucaju nezavisnosti, uvjetnadistribucija studenata bilo kojeg smjera po ocjeni treba biti jednaka marginalnoj distribucijisvih studenata po ocjeni. S obzirom da studenata na odredenom smjeru ima manje od ukupnogbroja studenata na svim smjerovima, prethodni zahtjev o jednakosti uvjetne i marginalnedistribucije ne odnosi se na apsolutne, nego na relativne frekvencije, koje su prikazane utablici 5.6b. Kada ocjena ne bi zavisila o smjeru, u svakom retku te tablice imali bismo isti nizfrekvencija, sto naravno nemamo, a to znaci da ocjena zavisi o smjeru, odnosno da studentirazlicitih smjerova postizu razlicit uspjeh na ispitu.

Uocimo jos da uvjetne relativne frekvencije u i-tom retku tablice tablice 5.6b jesu nij/ni+,a marginalne relativne frekvencije, sadrzane u posljednjem retku, jesu n+j/n. Dakle, ako suvarijable smjer i ocjena nezavisne, onda za svaki par indeksa i, j imamo nij/ni+ = n+j/nodakle, mnozenjem s ni+, slijedi

(5.6) nij =ni+n+j

n, za svaki par indeksa i, j .

Naravno, svojstvo nezavisnosti je simetricno, pa smo prethodno razmatranje mogli provestipolazeci od pretpostavke da smjer ne zavisi o ocjeni, sto bi nas dovelo do usporedbe distri-bucija u tablici 5.6c, gdje bismo, kada bi varijable bile nezavisne, u svim stupcima imali istiniz relativnih frekvencija, sto naravno nemamo, te bismo donijeli zakljucak identican prethod-nome, tj. da su promatrane varijable zavisne. Uvjetne relativne frekvencije u tablici 5.6c dobilismo kao nij/n+j , a marginalne kao n+i/n, pa izjednacavanjem tih izraza i mnozenjem s n+j

ponovno slijedi da, u slucaju nezavisnosti vrijedi uvjet (5.6). Zbog toga se taj uvjet obicnouzima kao definicija statisticke nezavisnoti.

Dakle, za dvije varijable kazemo da su statisticki nezavisne (cesto kratko kazemo samonezavisne) ako za njihovu zajednicku distribuciju vrijedi (5.6). Ako jednakost u tom uvjetuza apsolutne frekvencije podijelimo s n, onda cemo na lijevoj strani dobiti nij/n = pij , ana desnoj (ni+/n)(n+j/n) = pi+p+j , pa slijedi da su varijable nezavisne ako i samo ako zarelativne frekvencije vrijedi

(5.7) pij = pi+p+j , za svaki par indeksa i, j .

Frekvencije nij i pij zovu se opazene ili empirijske, dok se izrazi ni+n+j/n i pi+p+j , koji sejavljaju s desne strane jednakosti u (5.6) i (5.7) zovu ocekivane ili teorijske frekvencije. Dakle,varijable su nezavisne ako i samo ako su opazene frekvencije jednake ocekivanima. Ocekivanefrekvencije za podatke o smjeru i ocjeni prikazane su u tablici 5.7, iz koje, usporedbom stablicom 5.5, odnosno 5.6a jos jednom zakljucujemo da su varijable smjer i ocjena zavisne.Takoder, uocimo da je zbroj ocekivanih frekvencija u istom retku ili stupcu jednak marginalnojfrekvenciji, a zbroj svih ocekivanih frekvencija iznosi n, odnosno 1.

S obzirom da sve opazene frekvencije trebaju biti jednake odgovarajucim ocekivanim frek-vencijama, odnosno da jednakost u uvjetima (5.6) i (5.7) treba vrijediti za svaki par indeksai, j, jasno je da je statisticka nezavisnost vrlo strog zahtjev, koji prakticki nikada nece biti ispu-njen za realan skup statistickih podataka. Zbog toga, svake dvije statisticke varijable su manjeili vise zavisne, a stupanj njihove zavisnosti mjerimo kao odstupanje opazenih frekvencija odocekivanih.

Upravo tome sluzi mjera koju zovemo hi-kvadrat i koju oznacavamo s χ2. Ako s eij =ni+n+j/n oznacimo ocekivane apsolutne frekvencije, onda se χ2 defira kao

(5.8) χ2 =∑ (nij − eij)2

eij,

5-10

Page 57: Skripta iz statistike

Tablica 5.7. Distribucija studenata prema smjeru i ocjeni na ispitu iz statistike: oce-kivane frekvencije.

(a) Ocekivane apsolutne frekvencije

OcjenaSmjer 1 2 3 4 5 Ukupno

A 2.52 3.60 5.40 5.04 1.44 18.00B 2.80 4.00 6.00 5.60 1.60 20.00C 1.68 2.40 3.60 3.36 0.96 12.00

Ukupno 7.00 10.00 15.00 14.00 4.00 50.00

(b) Ocekivane relativne frekvencije

OcjenaSmjer 1 2 3 4 5 Ukupno

A 0.0504 0.0720 0.1080 0.1008 0.0288 0.3600B 0.0560 0.0800 0.1200 0.1120 0.0320 0.4000C 0.0336 0.0480 0.0720 0.0672 0.0192 0.2400

Ukupno 0.1400 0.2000 0.3000 0.2800 0.0800 1.0000

gdje se zbrajanje vrsi po svim parovima indeksa i, j. Ocigledno, uvijek je χ2 ≥ 0, pri cemujednakost vrijedi ako i samo ako su opazene frekvencije jednake ocekivanima, tj. varijable sunezavisne. Takoder, sto se opazene frekvencije vise razlikuju od ocekivanih, to ce χ2 imativecu vrijednost.

Buduci da je

(nij − eij)2eij

=n2ij − 2nijeij + e2ij

eij=n2ijeij− 2nij + eij ,

te∑nij =

∑eij = n i neij = ni+n+j , slijedi da se χ2 moze izracunati kao

(5.9) χ2 =∑n2ijeij− n = n

(∑ n2ijni+n+j

− 1

),

pri cemu se zbrajanje i dalje vrsi po svim parovima indeksa i, j. Posljednjim dijelom gornjeformule moguce je izracunati χ2 bez koristenja ocekivanih frekvencija. S obzirom da smo zapodatke o smjeru i ocjeni vec odredili ocekivane frekvencije, za te podatke imamo

χ2 =∑n2ijeij− n = 55.181− 50 = 5.181 .

Premda je χ2 vrlo vazan u ispitivanju statisticke (ne)zavisnosti, njegova interpretacija nijejednostavna, jer mu najveca vrijednost zavisi o broju promatranja n i dimenzijama tablicekontingencije. Cramer je pokazao da je uvijek χ2 ≤ n(mink, l − 1), pri cemu jednakostvrijedi ako i samo su varijable u funkcijskoj vezi. Tako, za podatke o smjeru i ocjeni imamo

n(mink, l − 1) = 50(min3, 5 − 1) = 100 ,

sto znaci da je χ2 za te podatke prilicno malen, te da izmedu smjera i ocjene ne postoji jakazavisnost.

5-11

Page 58: Skripta iz statistike

Cramerov koeficijent V definirao se kao

(5.10) V =

√χ2

n(mink, l − 1).

Dakle, uvijek je 0 ≤ V ≤ 1, te je V = 0 ako i samo ako su varijable nezavisne i V = 1ako i samo ako su varijable funkcijski povezane. Prema Cohenu, koeficijent V se interpretirajednako kao koeficijent linearne korelacije r. Za podatke o smjeru i ocjeni dobivamo

V =

√χ2

n(mink, l − 1)=

√5.181

100= 0.2276 ,

sto predstavlja slabu zavisnost.

Zadaci

5.1. Da bi dobili ocjenu iz jednog kolegija, studenti trebaju rijesiti zadacu i poloziti zavrsniispit. Tablica 5.8 prikazuje bodovanje zadace i ispita za grupu od 12 slucajno odabranihstudenata.

(a) Nacrtajte dijagram rasprsenja i utvrdite jesu li bodovi za zadacu i ispit linearno korelirani.

(b) Izracunajte i interpretirajte koeficijent linearne korelacije.

(c) Vrijednost 95 u nizu bodova za ispit zamijenite s 5 i ponovno izracunajte koeficijentlinearne korelacije. Kako objasnjavate dobiveni rezultat?

Tablica 5.8. Bodovanje zadace i ispita.

Zadaca 37 43 44 47 49 56 62 72 73 76 85 92Ispit 51 31 78 40 57 43 74 84 53 74 79 95

5.2. Jedan biolog smatra da nakon odvajanja od kopna, otoci postupno gube zivotinjskuraznolikost. Tablica 5.9 prikazuje starost otoka (vrijeme proteklo od odvajanja od kopna) ibroj razlicitih vrsta gustera za 10 otoka.

(a) Nacrtajte dijagram rasprsenja.

(b) Izracunajte koeficijent linearne korelacije i protumacite dobivenu vrijednost.

Tablica 5.9. Starost otoka i broj razlicitih vrsta gustera.

Starost otoka (tis. god.) 10.2 7.5 14.6 5.3 4.3 14.3 7.9 10.5 8.4 11.7Vrste gustera 44 30 22 39 70 42 58 27 50 27

5.3. Ispituje se ovisnost izmedu visine dohotka i sklonosti kupnji odredenog casopisa. Rezul-tati za slucajni uzorak od 400 ispitanika prikazani su u tablici 5.10. Izracunajte

(a) marginalne frekvencije

(b) ocekivane frekvencije,

(c) hi-kvadrat i Cramerov koeficijent.

5-12

Page 59: Skripta iz statistike

Tablica 5.10. Dohodak i sklonost kupnji casopisa za 400 ispitanika.

Prosjecni dohodak u Sklonost kupnjiposljednjih 6 mj. (kn) Stalno kupuje Povremeno kupuje Ne kupuje

4000 56 14 174000 – 8000 87 45 228000 i vise 108 32 19

5.4. Tablica 5.11 prikazuje distribuciju studenata koji su ispunili upitnik o kvaliteti nastave nakraju semestra prema nazocnosti na nastavi i razumijevanju gradiva. Izracunajte hi-kvadrat iCramerov koeficijent. Sto zakljucujete?

Tablica 5.11. Nazocnost na nastavi i razumijevanje gradiva.

Nazocnost Razumijevanje gradivana nastavi Lose Srednje Dobro

Rijetko 46 11 11Povremeno 73 25 20Redovito 53 30 20

5-13

Page 60: Skripta iz statistike

6. Vjerojatnost

Jos u uvodnom poglavlju uocili smo potrebu da o populaciji donosimo zakljucke polazeciod uzorka. Premda je takvo zakljucivanje nesigurno i premda pomocu uzorka ne mozemodobiti precizno znanje o populaciji, ako je uzorak slucajan, onda mozemo precizno kvantifici-rati stupanj sigurnosti izrecenih tvrdnji o populaciji. Osnovnu ulogu u tom postupku imajusredstva i jezik teorije vjerojatnosti, grane matematike ciji poceci sezu u 17. stoljece i vezanisu uz proucavanje igara na srecu. Vjerojatnost nije samo temelj suvremene statistike, vec jeta disciplina nasla primjenu u brojnim podrucjima ljudskog rada: gospodarstvu, financijama,osiguranju, medicini i drugdje.

U ovom i sljedeceom poglavlju promotrit cemo osnovne ideje i metode teorije vjerojatnosti.Iako cemo se pritom sluziti jednostavnim primjerima, cesto vezanima upravo uz igre na srecu,rezultati koje cemo izvesti vrlo su vazni i imaju siroku primjenu.

Teorija vjerojatnosti snazno se oslanja na matematicki pojam skupa. Podsjecamo da seskup definira kao kolekcija objekata. Objekti koji pripadaju skupu nazivaju se njegovimclanovima ili elementima. Ako je e element skupa A, onda pisemo e ∈ A, u protivnom pisemoe /∈ A. Svaki skup je u potpunosti odreden elementima koji mu pripadaju, tj. dva skupa sjednakim elementima medusobno su jednaka. Skupove obicno zadajemo viticastim zagradama i , izmedu kojih nabrajamo elemente skupa ili navodimo uvjet koji mora biti ispunjen dabi neki objekt pripadao skupu. Skup koji nema elemenata zove se prazan skup i oznacava ses ∅. Ako je svaki element skupa A sadrzan u skupu B onda kazemo da je A podskup od B ilida je B nadskup od A i pisemo A ⊆ B. Prazan skup je podskup svakog skupa i svaki skupje podskup samog sebe. Osnovne operacije sa skupovima jesu komplement, unija, presjek irazlika, a o njima ce biti vise rijeci u nastavku.

Vjerojatnosni prostor

Vjerojatnost proucava slucajne pokuse, a slucajni pokus je bilo koji proces ili postupak cijirezultat ne mozemo sigurno predvidjeti, kao npr. bacanje novcica, bacanje igrace kocke, izvla-cenje karte iz dobro pomijesanog spila karata, gadanje u metu ili cekanje gradskog autobusa.Vjerojatnosni prostor je teorijski model slucajnog pokusa, a u nastavku cemo vidjeti da se onsastoji od ishoda, dogadaja i vjerojatnosne mjere.

Ishod ili elementarni dogadaj je rezultat slucajnog pokusa koji se ne moze rastaviti namanje dijelove. Skup svih ishoda zove se prostor ishoda ili prostor elementarnih dogadajai oznacit cemo ga s Ω. Npr. ishod bacanja igrace kocke je cijeli broj izmedu 1 i 6, dakleΩ = 1, 2, 3, 4, 5, 6. Ako se slucajni pokus sastoji u cekanju gradskog autobusa, pri cemu naszanima vrijeme u minutama koje smo proveli cekajuci autobus, onda Ω = [0,∞). Ako smospremni pretpostaviti da autobus necemo cekati vise od npr. pola sata, onda mozemo uzetiΩ = [0, 30].

Dogadaj je skup nekih (dakle, ne nuzno svih) ishoda. Prema tome, dogadaj je podskup odΩ. Npr. kod bacanja igrace kocke mozemo promatrati dogadaj “pojavio se paran broj”, kojiidentificiramo sa skupom 2, 4, 6. Slicno tome, ako cekamo autobus, onda dogadaj “cekalismo izmedu jedne i pet minuta” mozemo prikazati intervalom brojeva [1, 5]. Za dogadajkazemo da se dogodio ili da je nastupio ako je slucajni pokus rezultirao ishodom koji pripadatom dogadaju. Npr. ako kod bacanje igrace kocke dobijemo broj 6, onda mozemo reci daje nastupio dogadaj “pojavio se paran broj”, ali ne i dogadaj “pojavio se neparan broj”.

6-1

Page 61: Skripta iz statistike

Dogadaje cemo oznacavati velikim stampanim latinicnim slovima – A, B, C itd., a zadavatcemo ih rijecima ili nabrajanjem ishoda koji im pripadaju. Kod svakog slucajnog pokusa vrloje lako doci do dogadaja koji sadrze sve ishode ili ne sadrze niti jedan ishod. Npr. kod bacanjaigrace kocke mozemo promatrati dogadaje “pojavio se pozitivan broj” i “pojavio se broj veciod 6”, od kojih prvi sadrzi sve, a drugi ne sadrzi niti jedan ishod. Zbog toga, prostor ishodaΩ i prazan skup ∅ uvijek smatratmo dogadajima. Takoder, kako su dogadaji skupovi, nadogadaje mozemo primjenjivati sve skupovne operacije.

Skup svih dogadaja zove se prostor dogadaja i njega cemo oznaciti s F. Kad je prostor is-hoda Ω prebrojiv, tj. kad se njegovi elementi mogu napisati u obliku konacnog ili beskonacnogniza, kao npr. kod bacanje igrace kocke, onda mozemo slobodno uzeti da se prostor dogadaja F

sastoji od svih podskupova od Ω, tj. svaki podskup od Ω mozemo smatrati dogadajem. Medu-tim, skup realnih brojeva i svaki njegov neprekinut dio su neprebrojivi, pa vec neki jednostavnislucajni pokusi, kao npr. cekanje gradskog autobusa, imaju neprebrojiv prostor ishoda. Akoje Ω neprebrojiv, onda moramo postaviti ogranicenja na to koje podskupove od Ω smatramodogadajima. U svakom slucaju, od prostora dogadaja F uvijek zahtijevamo da sadrzi prazanskup ∅ i prostor ishoda Ω, kao “najmanji” i “najveci” dogadaj, te da se primjenom osnovnihskupovnih operacija – komplementa, unije, presjeka i razlike, na konacne i beskonacne nizovedogadaja ponovno dobiju dogadaji.

Primjer 6.1. Neka se slucajni pokus sastoji od bacanja igrace kocke. Komplement, uniju,presjek i razliku dogadaja E = pojavio se paran broj i F = pojavio se broj veci od 3zapisite rijecima i odredite od kojih se ishoda sastoje. Pokrivaju li dogadaji E i F prostorishoda, te jesu li ti dogadaji iskljucivi?

S obzirom da se pokus sastoji od bacanje igrace kocke, ovdje je Ω = 1, 2, 3, 4, 5, 6, adogadaje E i F mozemo zapisati i kao nizove ishoda: E = 2, 4, 6, F = 4, 5, 6.

Komplement predstavlja negaciju dogadaja i sastoji se od ishoda koji ne pripadaju tomdogadaju. Komplement dogadaja A oznacavamo s Ac. Dakle, za dogadaje E i F imamo

Ec = nije se pojavio paran broj = 1, 3, 5 ,F c = nije se pojavio broj veci od 3 = 1, 2, 3 .

Dogadaj Ac nazivamo jos suprotnim dogadajem od A. Uocimo da se komplementiranjemkomplementa ponovno dobiva polazni dogadaj, tj. (Ac)c = A, pa kazemo da je komplementinvolutivna operacija.

Unija dogadaja A i B ozncava se s A ∪ B i sastoji se od ishoda koji pripadaju baremjednom od tih dogadaja. Zbog toga, unija dogadaja odgovara spajanju dogadaja veznikom“ili”. Presjek dogadaja A i B oznacava se s A∩B i sastoji se od ishoda koji pripadaju svakomeod tih dogadaja. Presjek odgovara spajanju dogadaja veznikom “i”. Za promatrane dogadajeE i F imamo:

E ∪ F = pojavio se paran broj ili pojavio se broj veci od 3 = 2, 4, 5, 6 ,E ∩ F = pojavio se paran broj i pojavio se broj veci od 3 = 4, 6 .

Lako se vidi da su unija i presjek komutativne operacije, tj. da za svaka dva dogadaja A i Bvrijedi A ∪ B = B ∪ A i A ∩ B = B ∩ A, te da je A ∩ B, odnosno A ∪ B najveci podskup,odnosno najmanji nadskup dogadaja A i B. Takoder, prazan skup ∅ ima ulogu neutrala zauniju, a prostor ishoda Ω za presjek, jer je A ∪ ∅ = A i A ∩ Ω = A.

Za dogadaje cija je unija jednaka Ω kazemo da pokrivaju prostor ishoda. Dakle, dogadajipokrivaju prostor ishoda ako se pri izvodenju slucajnog pokusa mora dogoditi barem jedan

6-2

Page 62: Skripta iz statistike

od tih dogadaja. Dogadaji E i F ne pokrivaju prostor ishoda, jer u njihovoj uniji nedostajuishodi 1 i 3.

Za dva dogadaja A i B kazemo da su iskljucivi ili disjunktni ako im je presjek prazan,tj. ako je A ∩ B = ∅. Prema tome, iskljucivi su oni dogadaji koji se ne mogu istovremenodogoditi. Dogadaji E i F ocigledno nisu iskljucivi, jer im presjek sadrzi ishode 4 i 6. Uocimoda iz definicije komplementa neposredno slijedi da za svaki dogadaj A vrijedi A ∩ Ac = ∅ iA ∪Ac = Ω, sto znaci da su suprotni dogadaji A i Ac iskljucivi i pokrivaju prostor ishoda.

Razlika dogadaja A i B oznacava se s A \B i sastoji se od ishoda koji pripadaju dogadajuA i koji ne pripadaju dogadaju B. Razlika ocigledno nije komutativna operacija. Za dogadajeE i F imamo:

E \ F = pojavio se paran broj i nije se pojavio broj veci od 3 = 2 ,F \ E = pojavio se broj veci od 3 i nije se pojavio paran broj = 5 .

Primijetimo da je A \B = A ∩Bc i Ac = Ω \A.Operacije i odnosi medu skupovima graficki se prikazuju Vennovim1 dijagramima. Dija-

grami za komplement, uniju, presjek, razliku, podskup i iskljucive dogadaje prikazani su naslici 6.1.

Pogledajmo sada posljednju sastavnicu vjerojatnosnog prostora – vjerojatnosnu mjeru ilivjerojatnost. U vjerojatnosnom prostoru, svakom dogadaju pridruzujemo vjerojatnost – realanbroj izmedu 0 i 1 koji predstavlja mogucnost da dogadaj nastupi. Sto je vjerojatnost nekogdogadaja veca, to smo sigurniji da ce se dogadaj dogoditi kod izvodenja slucajnog pokusa.Dogadaj cija je vjerojatnost 1 smatramo sigurnim, a dogadaj cija je vjerojanost 0 nemogucim.Vjerojatnost dogadaja A oznacavat cemo s P(A). Kako Ω sadrzi sve ishode slucajnog pokusa,a ∅ ne sadrzi niti jedan ishod, logicno je da bude P(Ω) = 1 i P(∅) = 0. Vjerojatnost ostalihdogadaja je negdje izmedu ta dva ekstrema. Npr. kod bacanja igrace kocke mora se dogodititocno jedna od dvije stvari – “pojavio se paran broj” ili “pojavio se neparan broj”. Kakoparnih i neparnih brojeva na kocki ima jednako mnogo, razumno je ocekivati da ta dva doga-daja imaju jednaku mogucnost nastupanja, pa prema tome i jednaku vjerojatnost. Zbog toga,vjerojatnost dogadaja “pojavio se paran broj” i “pojavio se neparan broj” iznosi 1/2 = 0.5.

Vjerojatnost koju smo upravo odredili nazivamo teorijskom, jer smo je izracunali samo naosnovu poznavanja osobina slucajnog pokusa, oslanjajuci se na simetricnost igrace kocke i nacinjenicu da svi brojevi na kocki imaju jednaku mogucnost pojavljivanja. Medutim, nisu svislucajni pokusi tako jednostavni. Npr. kolika je vjerojatnost da ce slucajno odabran studentkoji ce pristupiti sljedecem ispitu iz statistike dobiti ocjenu izvrstan? Kolika je vjerojatnost dace nogometni klub Istra pobijediti na svojoj sljedecoj utakmici? Takve vjerojatnosti ociglednone mozemo odrediti kao teorijske. Prvu bismo mogli aproksimirati dugorocnom relativnomfrekvencijom studenata koji su na ispitu iz statistike dobili ocjenu izvrstan. Npr. ako je uposljednjih godinu dana na ispit iz statistike izaslo 500 studenata, medu kojima je njih 30 do-bilo ocjenu izvrstan, onda je trazena vjerojatnost 30/500 = 0.06. Tako dobivenu vjerojatnostnazivamo empirijskom, a mozemo je koristiti samo ako je slucajni pokus ponovljiv i ako raspo-lazemo rezultatima veceg broja pokusa. Ocigledno, sportske utakmice i brojni drugi slucajnipokusi ne ispunjavaju te uvjete. Premda se rezultat sportskog kluba na sljedecoj utakmicimoze djelomicno predvidjeti na osnovu prethodnih rezultata protiv istoga ili drugih protiv-nika, ishod sljedece utakmice je najvecim dijelom odreden trenutnim stanjem u klubovimakoji ce se suprotstaviti – spremnoscu ekipa, brojem ozljedenih igraca, materijalnim stanjem

1John Venn (1834.-1923.) – engleski logicar i filozof

6-3

Page 63: Skripta iz statistike

Ω

A

Ω

A B

Ac A ∪B

Ω

A B

Ω

A B

A ∩B A \B

Ω

A B

Ω

A B

A ⊆ B A ∩B = ∅Slika 6.1. Vennovi dijagrami.

6-4

Page 64: Skripta iz statistike

itd. Zbog toga, vjerojatnost pobjede mozemo odrediti samo kao stupanj osobnog uvjerenja unastupanje tog dogadaja i takvu vjerojatnost nazivamo subjektivnom.

Unatoc razlicitim definicijama, svaka vjerojatnost ima iste vazne osobine. Tako, svaka vje-rojatnost ima svojstvo koje zovemo aditivnost, koje kaze da je vjerojatnost unije dva iskljucivadogadaja jednaka zbroju vjerojatnosti tih dogadaja. Aditivnost smo presutno koristili kadasmo izracunali vjerojatnost pojavljivanja parnog i neparnog broja kod bacanja igrace kocke,jer su dogadaji “pojavio se paran broj” i “pojavio se neparan broj” suprotni. Primjerice,pretpostavimo da imamo empirijsku vjerojatnost, tj. da vjerojatnost racunamo kao relativnufrekvenciju, te da su A1 i A2 iskljucivi dogadaji koji su se u n izvodenja slucajnog pokusa javiliredom n1 i n2 puta. Buduci da su A1 i A2 iskljucivi, dogadaj A1 ∪A2 se u n izvodenja slucaj-nog pokusa javio tocno n1 + n2 puta (iskljucivost je presudna za donosenje ovog zakljucka),pa imamo

P(A1 ∪A2) =n1 + n2

n=n1n

+n2n

= P(A1) + P(A2) ,

kao sto smo tvrdili. Takva aditivnost zove se jos konacna aditivnost, jer se gornja formulamoze lako poopciti na svaki konacni niz iskljucivih dogadaja. Pritom, za proizvoljnu kolekcijudogadaja Ai kazemo da su iskljucivi ako su oni iskljucivi u parovima, tj. ako za svaka dvarazlicita indeksa i, j vrijedi Ai ∩Aj = ∅.

Da bi se dobila korisna teorija, od vjerojatnosne mjere treba traziti nesto vise od konacneaditivnosti. Naime, vjerojatnosna mjera treba biti prebrojivo aditivna, sto znaci da je vje-rojatnost unije svakog niza, konacnog ili beskonacnog, iskljucivih dogadaja jednaka zbrojuvjerojatnosti tih dogadaja. Dakle, ako je A1, A2, A3, . . . konacan ili beskonacan niz iskljucivihdogadaja, onda

(6.1) P(A1 ∪A2 ∪A3 ∪ · · · ) = P(A1) + P(A2) + P(A3) + · · · .

Rezimirajuci navedeno, vjerojatnosna mjera ili vjerojatnost na prostoru dogadaja F podefiniciji je svaka prebrojivo aditivna funkcija P : F → [0, 1] za koju je P(Ω) = 1.

Ako je Ω neprazan skup, F prostor dogadaja na Ω i P vjerojatnosna mjera na F, onda seuredena trojka (Ω,F,P) zove vjerojatnosni prostor.

Primjer 6.2. Odredite vjerojatnost da se

(a) kod slucajnog izvlacenja karte iz spila karata izvuce as,

(b) kod bacanja dva novcica barem jednom pojavi glava,

(c) slucajno izvuce bijela kuglica iz kutije u kojoj je 9 bijelih i 11 crnih kuglica.

Vazna primjer vjerojatnosnog prostora dobiva se kada je Ω = e1, e2, e3, . . . prebrojivskup. Tada mozemo uzeti da se prostor dogadaja F sastoji od svih podskupova od Ω, a ako jeA proizvoljan neprazan dogadaj, onda postoje medusobno razliciti indeksi i1, i2, i3, . . ., takvida je

A = ei1 , ei2 , ei3 , . . . = ei1 ∪ ei2 ∪ ei3 ∪ · · · .Buduci da su jednoclani skupovi u gornjoj uniji iskljucivi, koristeci prebroju aditivnost vjero-jatnosne mjere imamo da je

(6.2) P(A) = P(ei1) + P(ei2) + P(ei3) + · · · ,

sto znaci da je vjerojatnost dogadaja A jednaka zbroju vjerojatnosti ishoda koji mu pripadaju.

6-5

Page 65: Skripta iz statistike

Pretpostavimo li dodatno da je Ω = e1, e2, . . . , en konacan i da svi ishodi ei imajujednaku vjerojatnost P(ei) = p, onda iz (6.2) slijedi da je

1 = P(Ω) = P(e1) + P(e2) + · · ·+ P(en) = np ,

sto povlaci p = 1/n, tj. vjerojatnost svakog ishoda jednaka je reciprocnoj vrijednosti brojaelemenata od Ω. Ako je A dogadaj koji se sastoji od nA ishoda, onda ponovnom primjenom(6.2) dobivamo da vjerojatnost od A iznosi nA/n.

Dakle, ako slucajni pokus ima konacno mnogo ishoda koji su jednako vjerojatni, ondaje vjerojatnost svakog dogadaja jednaka omjeru broja ishoda koji pripadaju tom dogadaju iukupnog broja ishoda, tj.

(6.3) P(A) =#A

#Ω,

pri cemu smo s # oznacili broj elemenata skupa. Ishodi koji pripadaju nekom dogadajunazivaju se povoljnima za taj dogadaj, pa se formula (6.3) cesto izgovara kao “broj povoljnihishoda kroz broj mogucih ishoda”. Vazno je uociti da ta formula vrijedi samo u slucaju kadaje Ω konacan i kada su svi ishodi jednako vjerojatni.

Primjerice, ako se slucajni pokus sastoji u bacanju simetricne igrace kocke, onda je Ω =1, 2, 3, 4, 5, 6 i dogadaj A = pojavio se paran broj = 2, 4, 6 ima vjerojatnost

P(A) =#A

#Ω=

3

6=

1

2,

sto je naravno identicno rezultatu kojega smo prethodno vec izracunali.Slucajni pokusi u primjeru 6.2 sastoje se od konacnog broja jednako vjerjoatnih ishoda,

pa cemo trazene vjerojatnosti takoder izracunati primjenom formule (6.3). Ako nije drugacijenaznaceno, pod spilom karata uvijek cemo podrazumijevati tzv. francuski spil, koji se sastojiod 52 karte, podijeljene u cetiri znaka – tref ♣, pik ♠, karo ♦ i herc ♥, po trinaest karata.Karte svakog znaka numerirane su brojevima od 1 do 13, a karte s brojevima 1, 11, 12 i 13zovu se redom as, decko, dama i kralj. Jasno je da se prostor ishoda kod slucajnog izvlacenjakarte iz spila karata sastoji od svih mogucih karata, tj.

Ω = ♣1, . . . ,♣13,♠1, . . . ,♠13,♦1, . . . ,♦13,♥1, . . . ,♥13 .

Dogadaj A = izvucen je as = ♣1,♠1,♦1,♥1 sastoji se od 4 ishoda, pa je njegova vjero-jatnost

P(A) =#A

#Ω=

4

52=

1

13= 0.07692 .

Bacanje novcica je slucajni pokus koji ima dva jednako vjerojatna ishoda – pismo p iglavu g. Stoga, bacanje dva novcica ima svega 2 · 2 = 4 jednako vjerojatna ishoda, te je

Ω = pp, pg, gp, gg .

Dogadaj G = pojavila se barem jedna glava = pg, gp, gg sastoji se od 3 ishoda, odakleslijedi

P(G) =#G

#Ω=

3

4= 0.75 .

6-6

Page 66: Skripta iz statistike

Konacno, ako iz kutije u kojoj imamo 9 bijelih i 11 crnih kuglica slucajno izvlacimo jednukuglicu, onda se prostor ishoda sastoji od svih kuglica u kutiji. Ako bijele kuglice oznacimo sb, a crne s c, onda mozemo staviti

Ω = b1, b2, . . . , b9, c1, c2, . . . , c11 .

Dogadaj B = izvucena je bijela kuglica = b1, b2, . . . , b9 sastoji se od svih bijelih kuglica,pa je

P(B) =#B

#Ω=

9

20= 0.45 .

Primjer 6.3. U valjkastu posudu slucajno bacamo zanemarivo malen kamencic. Kolika jevjerojatnost da kamencic padne blize rubu nego sredistu posude?

Drugi vazan primjer vjerojatnosnog prostora dobiva se kada je Ω izmjeriv podskup pravca,ravnine ili prostora, pri cemu uzimamo da se prostor dogadaja F sastoji od svih izmjerivihpodskupova od Ω. Za neki podskup pravca, ravnine ili prostora kazemo da je izmjeriv akomu mozemo odrediti mjeru, sto znaci duljinu, povrsinu, ili volumen, koja ne mora nuzno bitikonacna. Naime, postoje podskupovi pravca, ravnine i prostora koji nisu izmjerivi, tj. nijemoguce dodjeliti im duljinu, povrsinu ili volumen. Medutim, vecina skupova s kojima se obicnosusrecemo – intervali, trokuti, pravokutnici, krugovi, poluravnine, kocke, kugle itd. – jesuizmjerivi skupovi. Prebrojivi skupovi su takoder izmjerivi, ali njihova mjera iznosi nula. Mjerunekog skupa A oznacavat cemo s m(A). Dakle, m(A) predstavlja duljinu, povrsinu, odnosnovolumen skupa A, ovisno o tome je li A podskup pravca, ravnine, odnosno prostora.

Neka je Ω izmjeriv podskup pravca, ravnine ili prostora, koji ima pozitivnu konacnu mjeru,tj. 0 < m(Ω) < ∞, te neka je vjerojatnost jednoliko rasporedena po tockama od Ω, sto znacida je vjerojatnost svakog dogadaja A proporcionalna mjeri m(A) tog dogadaja. Tada postojikonstanta k takva da za svaki dogadaj A vrijedi P(A) = km(A). Posebno, za A = Ω imamo

1 = P(Ω) = km(Ω) ,

sto povlaci k = 1/m(Ω). Iz toga slijedi

(6.4) P(A) =m(A)

m(Ω),

za svaki dogadaj A, tj. vjerojatnost svakog dogadaja jednaka je omjeru mjere tog dogadaja imjere prostora ishoda.

Rijesimo sada prethodni primjer. Kamencic koji je bacen u valjkastu posudu, past ce nadno posude, koje ima oblik kruga. S obzirom da kamencic smatramo zanemarivo malenim,njegov polozaj na dnu posude mozemo odrediti tockom kruga, a slucajno bacanje kamencicamozemo poistovjetiti sa slucajnim biranjem tocke. Prema tome, prostor ishoda Ω je ovdjekrug, a kako radijus dna posude nije odreden, pretpostavit cemo da Ω ima radijus r. DogadajA = kamencic je pao blize rubu nego sredistu posude sastoji se od tocaka koje su blize rubunego sredistu kruga, sto znaci da je A prsten odreden kruznicama radijusa r i r/2 (sl. 6.2).

Buduci da je bacanje kamencica slucajno, mozemo pretpostaviti da je vjerojatnost jedno-liko rasporedena po tockama kruga, odnosno da je vjerojatnost svakog izmjerivog dijela krugaproporcionalna povrsini tog dijela. Prema prethodnom razmatranju, to znaci da ce vjero-jatnost dogadaja A biti jednaka omjeru povrsine prstena A i povrsine kruga Ω. Iskoristimo

6-7

Page 67: Skripta iz statistike

Ω

A

r2

r

Slika 6.2. Bacanje kamencica u posudu valjkastog oblika.

li cinjenicu da je povrsina kruga jednaka kvadratu radijusa pomnozenom s π = 3.14159 . . .,imamo da je

P(A) =m(A)

m(Ω)=r2π − (r/2)2π

r2π=

3

4.

Dogadaji koje smo dosad promatrali bili su relativno jednostavni i vjerojatnost smo imneposredno izracunali polazeci od neke od definicija vjerojatnosti – teorijske, empirijske ilisubjektivne. Ako trazimo vjerojatnost slozenog dogadaja, koju ne mozemo tako neposrednoodrediti, onda trebamo promatrani dogadaj prikazati kao komplement, uniju, presjek ili razlikujednostavnijih dogadaja. Pritom, vazno je poznavati svojstva vjerojatnosti koja se odnose naskupovne operacije.

Primjerice, vjerojatnost je prebrojivo aditivna, sto znaci da je vjerojatnost unije svakogniza iskljucivih dogadaja jednaka zbroju vjerojatnosti tih dogadaja. Kako su dogadaji A iAc iskljucivi i pokrivaju prostor ishoda, iz prebrojive aditivnosti odmah slijedi da za svakidogadaj A vrijedi

(6.5) P(A) + P(Ac) = 1 ,

odnosno

(6.6) P(A) = 1− P(Ac) ,

sto zovemo formulom suprotne vjerojatnosti. Ako uzmemo A = ∅, onda je Ac = Ω, pa namformula suprotne vjerojatnosti potvrduje intuitivno jasno cinjenicu da je P(∅) = 0.

Dogadaji A i B \ A su takoder iskljucivi, a ako dodatno pretpostavimo da je A podskupod B, onda je A ∪ (B \A) = B, pa imamo

P(A) + P(B \A) = P(B) .

Dakle, za svaka dva dogadaja A i B takva da je A ⊆ B, vrijedi

(6.7) P(B \A) = P(B)− P(A) .

Kako je vjerojatnost uvijek nenegativna, iz gornje jednakosti slijedi 0 ≤ P(B)−P(A), odnosnoP(A) ≤ P(B), sto znaci da je vjerojatnost rastuca funkcija, jer “veci” dogadaj ima i “vecu”vjerojatnost.

Konacno, ako su A i B proizvoljni dogadaji, onda se njihova unija moze napisati kao

A ∪B = A ∪ (B \ (A ∩B)) ,

6-8

Page 68: Skripta iz statistike

a buduci da su dogadaji A i B \ (A ∩B) iskljucivi, te da je A ∩B podskup od B, neposrednozakljucujemo da je

(6.8) P(A ∪B) = P(A) + P(B)− P(A ∩B) .

Dakle, vjerojatnost unije svaka dva dogadaja jednaka je zbroju vjerojatnosti tih dogadajaumanjenom za vjerojatnost njihovog presjeka.

Primjer 6.4. Izracunajte vjerojatnost da se kod bacanje dvije kocke pojavi zbroj 9 ili veci.

Bacanje dvije igrace kocke rezultirat ce parom cijelih brojeva od 1 do 6. Dakle, prostorishoda se ovdje sastoji od 6 · 6 = 36 jednako vjerojatnih parova brojeva:

Ω = (1, 1), (1, 2), . . . , (1, 6),

(2, 1), (2, 2), . . . , (2, 6),

...

(6, 1), (6, 2), . . . , (6, 6) .

(6.9)

Ocigledno, zbroj brojeva na kockama moze poprimiti jednu od vrijednosti 2, 3, 4, . . . , 12.Neka je D = zbroj brojeva na kockama iznosi 9 ili vise. Premda nije nemoguce izbrojatiishode koji pripadaju dogadaju D, lakse je D rastaviti na jednostavnije dogadaje. Tako, akouzmemo da Zk oznacava dogadaj “zbroj brojeva na kockama iznosi k”, onda je Zk iskljucivi nizdogadaja (jer zbroj brojeva na kockama ne moze istovremeno imati dvije razlicite vrijednosti)i D = Z9 ∪ Z10 ∪ Z11 ∪ Z12. Lako se vidi da Z12 sadrzi jedan, Z11 dva, Z10 tri i Z9 cetiriishoda, pa je

P(D) = P(Z9) + P(Z10) + P(Z11) + P(Z12) =4 + 3 + 2 + 1

36=

5

18= 0.2778 .

Primjer 6.5. U skupini od 50 osoba, njih 23 zna engleski, 15 francuski, a 5 osoba zna obajezika. Odredite vjerojatnost da slucajno izabrana osoba iz te skupine zna barem jedan jezik.

Neka dogadaj E, odnosno F znaci “izabrana osoba zna engleski”, odnosno “francuski”.Dogadaj “izabrana osoba zna barem jedan jezik” je ustvari dogadaj E ∪ F , jer je iskaz “iz-abrana osoba zna barem jedan jezik” ekvivalentan iskazu “izabrana osoba zna engleski iliizabrana osoba zna francuski”. Buduci da dogadaji E i F nisu iskljucivi (jer postoje osobekoje istovremeno pricaju oba jezika), imamo da je

P(E ∪ F ) = P(E) + P(F )− P(E ∩ F ) =23 + 15− 5

50=

33

50= 0.66 .

Uvjetna vjerojatnost i nezavisnost dogadaja

Ponekad treba izracunati vjerojatnost jednog dogadaja, pri cemu je poznatno da je nastupioneki drugi dogadaj. Primjerice, pretpostavimo da se slucajni pokus sastoji u bacanju dvijeigrace kocke, sto znaci da se prostor ishoda sastoji od 36 jednako vjerojatnih parova cijelihbrojeva od 1 do 6, kao sto je prikazano u (6.9), te da je vjerojatnost svakog dogadaja jednakaomjeru broja povoljnih i broja mogucih ishoda. Neka je

F = zbroj brojeva na kockama iznosi 8 = (2, 6), (3, 5), (4, 4), (5, 3), (6, 2) .

6-9

Page 69: Skripta iz statistike

Vjerojatnost dogadaja F ocigledno iznosi P(F ) = 5/36.Uzmimo sada da znamo da je nastupio dogadaj

E = na prvoj kocki se pojavio broj 3 = (3, 1), (3, 2), (3, 3), (3, 4), (3, 5), (3, 6)

i ponovno izracunajmo vjerojatnost dogadaja F . Ocigledno, mogucih ishoda vise nema 36,nego samo 6 – to su ishodi dogadaja E, a buduci da je medu mogucim ishodima samo jedanpovoljan za F – ishod (3, 5), slijedi da vjerojatnost od F sada iznosi 1/6. Ovu vjerojatnostzovemo uvjetnom vjerojatnoscu dogadaja F uz uvjet E i oznacavamo je s P(F |E). Dakle,P(F |E) = 1/6.

Primijetimo da smo uvjetnu vjerojatnost P(F |E) izracunali tako sto smo sto broj zajed-nickih ishoda dogadaja E i F podijelili s brojem ishoda dogadaja E, odnosno

P(F |E) =#(E ∩ F )

#E=

#(E ∩ F )

#Ω#E

=P(E ∩ F )

P(E).

Navedenu jednakost obicno uzimamo kao definiciju uvjetne vjerojatnosti.Prema tome, ako je A dogadaj cija je vjerojatnost razlicita od nula, onda se uvjetna

vjerojatnost dogadaja B uz uvjet A definira kao

(6.10) P(B |A) =P(A ∩B)

P(A).

Iz gornje definicije neposredno slijedi

(6.11) P(A ∩B) = P(A)P(B |A) .

U prethodnom primjeru, bezuvjetna vjerojatnost dogadaja F iznosi P(F ) = 5/36, a uvjetnavjerojatnost od F uz uvjet E iznosi P(F |E) = 1/6, sto znaci da nastupanje dogadaja E mijenjavjerojatnost dogadaja F . Lako se vidi da vrijedi i obratno, jer je P(E) = 1/6 i P(F |E) = 1/5,zbog cega kazemo da su dogadaji E i F zavisni.

Dakle, dva dogadaja smatramo nezavisnima ako je uvjetna vjerojatnost jednaka bezuvjet-noj, odnosno ako nastupanje jednog ne mijenja vjerojatnost drugog dogadaja. Premda je takvadefinicija nezavisnosti intuitivno jasna, o uvjetnoj vjerojatnost mozemo govoriti samo kada do-gadaj po kojemu uvjetujemo ima vjerojatnost razlicitu od nula, pa nezavisnost definiramo nadrugaciji, ali logicki ekvivalentan nacin.

Za dogadaje A i B kazemo da su nezavisni ako je vjerojatnost presjeka tih dogadajajednaka produktu njihovih vjerojatnosti, tj. ako je

(6.12) P(A ∩B) = P(A)P(B) .

Dogadaje koje nisu nezavisni zovemo naravno zavisnima.Buduci da je A∩B podskup od A i B, ako barem jedan od dogadaja A i B ima vjerojatnost

nula, onda iz monotonosti vjerojatnosti slijedi da i njihov presjek ima vjerojatnost nula, pasu dogadaji A i B po definiciji nezavisni. Ako dogadaji A i B imaju vjerojatnost razlicitu odnula, onda iz (6.10), (6.11) i komutativnosti presjeka slijedi da su uvjeti P(A∩B) = P(A)P(B),P(B |A) = P(B) i P(A |B) = P(A) ekvivalentni.

Zavisnost, odnosno nezavisnost dogadaja A i B ponekad je jasna iz osobina slucajnogpokusa, a tada jednakost (6.11), odnosno (6.12) mozemo koristiti za odredivanje vjerojatnostipresjeka tih dogadaja.

6-10

Page 70: Skripta iz statistike

Primjer 6.6. Iz kutije u kojoj se nalazi 9 bijelih i 11 crnih kuglica izvlace se dvije kuglice,jedna za drugom. Izracunajte vjerojatnost da su obje kuglice bijele boje, ako se izvlacenje vrsi(a) s vracanjem, (b) bez vracanja.

Iskaz “obje kuglice su bijele” istovjetan je iskazu “prva kuglica je bijela i druga kuglica jebijela”, pa ovdje ocigledno trazimo vjerojatnost presjeka dogadaja B1 = prva izvucena kuglicaje bijela i B2 = druga izvucena kuglica je bijela. Ako se izvlacenje vrsi s vracanjem, ondace sadrzaj kutije u svakom izvlacenju biti jednak, pa su dogadaji B1 i B2 nezavisni i imajujednaku vjerojatnost 9/20, odakle slijedi

P(B1 ∩B2) = P(B1)P(B2) =

(9

20

)2

=81

400= 0.2025 .

S druge strane, ako se izvlacenje vrsi bez vracanja, onda ce sadrzaj kutije u drugom izvlacenjuzavisiti o nastupanju dogadaja B1, pa su B1 i B2 zavisni dogadaji i

P(B1 ∩B2) = P(B1)P(B2 |B1) =9

20· 8

19=

18

95= 0.1895 .

Primjer 6.7. U jednoj prodavaonici, na polici je 95 ispravnih i 5 neispravnih zarulja. Ako jekupac slucajno odabrao dvije zarulje, izracunajte vjerojatnost da

(a) obje budu ispravne,

(b) tocno jedna bude ispravna,

(c) barem jedna bude neispravna.

Ovaj problem slican je izvlacenju kuglica iz kutije bez vracanja, pa po ugledu na prethodniprimjer, uvedimo dogadaje I1 = prva zarulja je ispravna i I2 = druga zarulja je ispravna.Dogadaji I1 i I2 su naravno zavisni.

Kako ce pri biranju prve zarulje nastupiti tocno jedan od dogadaja I1 i Ic1 , a pri biranjudruge zarulje tocno jedan od dogadaja I2 i Ic2 , slijedi da se prostor ishoda moze pokriti scetiri iskljuciva dogadaja – I1 ∩ I2, I1 ∩ Ic2 , Ic1 ∩ I2 i Ic1 ∩ Ic2 , koji redom znace “obje zaruljesu ispravne”, “prva zarulja je ispravna i druga je neispravna”, “prva zarulja je neispravna idruga je ispravna” i “obje zarulje su neispravne”, te koji su pregledno prikazani dijagramomu obliku stabla na slici 6.3. Takav dijagram zove se vjerojatnosno stablo.

Kraj svakog brida vjerojatnosnog stabla upisali smo uvjetnu vjerojatnost dogadaja nadesnom vrhu brida, pod pretpostavkom da se dogodio dogadaj na lijevom vrhu brida. Zahva-ljujuci tome, sada mozemo lako izracunati vjerojatnost prethodno navedenih presjeka, jer jenpr.

P(I1 ∩ I2) = P(I1)P(I2 |I1) =95

100· 94

99= 0.9020

i slicno za ostala tri slucaja. Te vjerojatnosti su takoder prikazane na slici 6.3.Vjerojatnost da su obje zarulje ispravne ocigledno smo vec izracunali. Dogadaj “tocno

jedna zarulja je ispravna” jednak je uniji dogadaja I1 ∩ Ic2 i Ic1 ∩ I2, odakle slijedi

P(tocno jedna zarulja je ispravna) = 0.0480 + 0.0480 = 0.0960 .

Konacno, dogadaj “barem jedna zarulja je neispravna” jednak je uniji dogadaja I1∩Ic2 , Ic1 ∩I2i Ic1 ∩ Ic2 , pa je

P(barem jedna zarulja je neispravna) = 0.0480 + 0.0480 + 0.0020 = 0.0980 .

6-11

Page 71: Skripta iz statistike

Ω

I1

95100

I29499

Ic2

599

Ic1

5100

I29599

Ic2

499

P(I1 ∩ I2) =95

100· 9499

= 0.9020

P(I1 ∩ Ic2) =95

100· 5

99= 0.0480

P(Ic1 ∩ I2) =5

100· 9599

= 0.0480

P(Ic1 ∩ Ic2) =5

100· 4

99= 0.0020

Slika 6.3. Vjerojatnosno stablo za slucajno biranje dvije zarulje s police.

S obzirom da negacija tvrdnje “barem jedna zarulja je neispravna” glasi “obje zarulje suispravne”, ovu posljednju vjerojatnost mogli smo izracunati i koristeci formulu suprotne vje-rojatnosti, pomocu koje imamo

P(barem jedna zarulja je neispravna) = 1− 0.9020 = 0.0980 .

Primjer 6.8. Dva strijelca gadaju metu nezavisno jedan od drugoga. Prvi pogada u 60%slucajeva, a drugi u 70% slucajeva. Ako oba strijelca opale, kolika je vjerojatnost da ce metabiti pogodena.

Iskaz “meta je pogodena” ekvivalentan je iskazu “prvi strijelac je pogodio metu ili drugistrijelac je pogodio metu”, sto znaci da trazimo vjerojatnost unije dogadaja S1 i S2, pri cemuuzimamo Si = i-ti strijelac je pogodio metu. Dogadaji S1 i S2 su po pretpostavci nezavisni,te je P(S1) = 0.6 i P(S2) = 0.7, sto povlaci

P(S1 ∪ S2) = P(S1) + P(S2)− P(S1 ∩ S2) = 0.6 + 0.7− 0.6 · 0.7 = 0.88 .

Pogledajmo sada kako se formula (6.11) za vjerojatnost presjeka dva dogadaja, moze gene-ralizirati na presjek od tri ili vise dogadaja. U tu svrhu, neka su A, B, C dogadaji za koje jeP(A) 6= 0 i P(A ∩ B) 6= 0 (dovoljno je zapravo zahtijevati ovo posljednje, jer iz P(A ∩ B) 6= 0slijedi i P(A) 6= 0). Tada, dvostrukom primjenom (6.11), dobivamo da vjerojatnost presjekatri dogadaja iznosi

P(A ∩B ∩ C) = P(A ∩B)P(C |A ∩B)

= P(A)P(B |A)P(C |A ∩B) .

Ako imamo i dogadaj D, te ako je P(A∩B∩C) 6= 0, onda pomocu (6.11) i prethodne formule,slijedi da vjerojatnost presjeka cetiri dogadaja iznosi

P(A ∩B ∩ C ∩D) = P(A ∩B ∩ C)P(D |A ∩B ∩ C)

= P(A)P(B |A)P(C |A ∩B)P(D |A ∩B ∩ C) .

6-12

Page 72: Skripta iz statistike

Nastavljanjem gornjeg postupka, zakljucujemo da za svakih n dogadaja A1, . . . , An, za kojeje P(A1 ∩ · · · ∩An−1) 6= 0, vrijedi

(6.13) P(A1 ∩ · · · ∩An) = P(A1)P(A2 |A1)P(A3 |A1 ∩A2) · · ·P(An |A1 ∩ · · · ∩An−1) .

Po ugledu na (6.12), mogli bismo sada pokusati definirati nezavisnost tri dogadaja A, B, Ckroz uvjet da je P(A ∩B ∩C) = P(A)P(B)P(C). Medutim, moguce je naci takve dogadaje A,B, C koji ispunjavaju navedeni uvjet i koji su u parovima zavisni, sto je nelogicno, jer bi svakadva izabrana dogadaja u nizu od tri nezavisna dogadaja trebala takoder biti nezavisna. Slicnotome, moze se pokazati da nezavisnost u parovima dogadaja A, B, C nije uvijek dovoljnada vjerojatnost presjeka sva tri dogadaja bude jednaka produktu vjerojatnosti tih dogadaja.Prema tome, da bismo tri dogadaja A, B, C smatrali nezavisnima, moramo posebno zahtijevatida su oni nezavisni u parovima i da ispunjavaju uvjet P(A ∩B ∩ C) = P(A)P(B)P(C).

Opcenito, za proizvoljnu kolekciju dogadaja Ai kazemo da su nezavisni ako za svaki cijelibroj k > 1 i za svaki skup medusobno razlicitih indeksa i1, i2, . . . , ik vrijedi

(6.14) P(Ai1 ∩Ai2 ∩ · · · ∩Aik) = P(Ai1)P(Ai2) · · ·P(Aik) .

Posebno, ako imamo n nezavisnih dogadaja A1, . . . , An, onda je

(6.15) P(A1 ∩A2 ∩ · · · ∩An) = P(A1)P(A2) · · ·P(An) .

Primjer 6.9. U kutiji se nalazi 9 listica koji su oznaceni brojevima od 1 do 9. Iz kutijese slucajno izvlace tri listica, jedan za drugim, bez vracanja. Izracunajte vjerojatnost dasu brojevi na izvucenim listicima redom paran, neparan, paran, ako se izvlacenje vrsi (a) svracanjem, (b) bez vracanja.

Neka je Pi = i-ti listic je paran i Ni = i-ti listic je neparan = P ci . Trebamo odrediti

vjerojatnost dogadaja P1∩N2∩P3. Ako se izvlacenje listica vrsi s vracanjem, onda su dogadajiP1, N2 i P3 nezavisni, pa imamo

P(P1 ∩N2 ∩ P3) = P(P1)P(N2)P(P3) =4

9· 5

9· 4

9=

80

729= 0.1097 .

Ako se izvlacenje listica vrsi bez vracanja, onda su dogadaji P1, N2 i P3 zavisni, te je

P(P1 ∩N2 ∩ P3) = P(P1)P(N2 |P1)P(P3 |P1 ∩N2) =4

9· 5

8· 3

7=

5

42= 0.1190 .

Primjer 6.10. Neki stroj proizvodi 1% skarta Ako slucajno odaberemo 100 proizvoda pro-izvedenih na tom stroju, izracunajte vjerojatnost da barem jedan od odabranih proizvodabude skart.

Neka je Ai = i-ti proizvod je skart. Ako smo proizvode slucajno birali, onda dogadajeA1, A2, . . . , A100 mozemo smatrati nezavisnima. S obzirom da je P(Ai) = 0.01 za svaki i,dvostrukom primjenom formule suprotne vjerojatnosti dobivamo

P(barem jedan proizvod je skart) = 1− P(niti jedan proizvod nije skart)= 1− P(Ac

1 ∩Ac2 ∩ · · · ∩Ac

100)

= 1− P(Ac1)P(Ac

2) · · ·P(Ac100)

= 1− (1− 0.01)100

= 0.6340 .

6-13

Page 73: Skripta iz statistike

Formula potpune vjerojatnosti i Bayesov teorem

Neka je A dogadaj ciju vjerojatnost trebamo izracunati, te neka je H dogadaj ciju vjerojatnostznamo. Buduci da su dogadaji H i Hc iskljucivi i pokrivaju prostor ishoda, slijedi da je Ajednak uniji iskljucivih dogadaja H ∩A i Hc ∩A, pa je

P(A) = P(H ∩A) + P(Hc ∩A) .

Ako je jos vjerojatnost dogadaja H i Hc razlicita od nula, tj. ako je 0 < P(H) < 1, ondaprimjenom izraza za vjerojatnost presjeka (6.11), dobivamo da je

(6.16) P(A) = P(H)P(A |H) + P(Hc)P(A |Hc) .

Uocimo da je u izvodenju gornje formule kljucna bila cinjenica da su dogadaji H i Hc iskljucivii pokrivaju prostor ishoda, te pretpostavka da je vjerojatnost tih dogadaja razlicita od nula.

Za konacan ili beskonacan niz dogadaja H1, H2, H3, . . . kazemo da cine potpun sistemdogadaja ako su ti dogadaji iskljucivi i pokrivaju prostor ishoda, te ako im je vjerojatnostrazlicita od nula. Tada, za svaki dogadaj A imamo

A = (H1 ∩A) ∪ (H2 ∩A) ∪ (H3 ∩A) ∪ · · · ,

odakle slijedi

(6.17) P(A) = P(H1)P(A |H1) + P(H2)P(A |H2) + P(H3)P(A |H3) + · · · = ∑P(Hi)P(A |Hi) .

Prethodna formula zove se formula potpune vjerojatnosti i ona predstavlja poopcenje formule(6.16), jer ako je 0 < P(H) < 1, onda niz od dva dogadaja H1 = H i H2 = Hc cini potpunsistem dogadaja.

Ocigledno, da bismo pomocu formule potpune vjerojatnosti odredili vjerojatnost doga-daja A, za svaki indeks i trebamo poznavati vjerojatnosti P(Hi) i P(A |Hi), koje preglednoprikazujemo vjerojatnosnim stablom, kao na slici 6.4.

Ω

H1

P(H1)

AP(A |H1)

H2P(H2)

AP(A |H2)

H3

P(H3)AP(A |H3)

...

Slika 6.4. Vjerojatnosno stablo za formulu potpune vjerojatnosti.

Dogadaje Hi iz prethodnog razmatranja mozemo smatrati hipotezama koje imamo o odre-denoj pojavi, medu kojima je tocno jedna istinita. Da bismo saznali koja je to hipoteza,

6-14

Page 74: Skripta iz statistike

provodimo eksperiment, pri cemu vjerojatnost P(Hi) predstavlja nase uvjerenje u istinitost hi-poteze Hi prije eksperimenta. Ako je eksperiment rezultirao dogadajem A, cija je vjerojatnostpoznata i razlicita je od nula, onda nakon eksperimenta mozemo ponovno odrediti vjerojatnostpojedinih hipoteza, ovaj put uz dodatno znanje o nastupanju dogadaja A. Naime, s obziromda je presjek komutativna operacija, imamo da je A∩Hi = Hi∩A, odakle, primjenom formuleza vjerojatnost presjeka (6.11), slijedi da je

P(A)P(Hi |A) = P(Hi)P(A |Hi) ,

pa dijeljenjem s P(A) dobivamo

(6.18) P(Hi |A) =P(Hi)P(A |Hi)

P(A).

Gornji rezultat zove se Bayesov2 teorem. U ovom kontekstu, P(Hi) zove se pocetna ili a pri-orna, a P(Hi |A) konacna ili a posteriorna vjerojatnost od Hi. Ako je potrebno, opisanipostupak ponavljamo i pritom pocetne vjerojatnosti zamjenjujemo konacnima, sve dok sejedna hipoteza ne nametne kao gotovo sigurna.

Primijetimo da ako imamo samo dvije hipoteze H1 = H i H2 = Hc, onda iz Bayesovogteorema slijedi

(6.19) P(H |A) =P(H)P(A |H)

P(A),

a primjenom formule suprotne vjerojatnosti imamo da je P(Hc |A) = 1− P(H |A).

Primjer 6.11. Analiticar koji radi u podrucju telekomunikacija procjenjuje da vjerojatnostda ce jedna kompanija u odredenom razdoblju ponuditi konkurentske proizvode iznosi 60%.Ako kompanija ima takav plan, ona ce sa sigurnoscu izgraditi novi proizvodni pogon. Akokompanija nema takav plan, onda vjerojatnost izgradnje novog pogona iznosi 20%.

(a) Izracunajte vjerojatnost da se izgradi novi proizvodni pogon.

(b) Ako se pogon pocne graditi, kolika je vjerojatnost da kompanija planira ponuditi konku-rentske proizvode?

Uzmimo da je H = kompanija ce ponuditi konkurentske proizvode, te A = kompanijagradi novi proizvodni pogon. Znamo da je P(H) = 0.6, P(Hc) = 0.4, P(A |H) = 1 iP(A |Hc) = 0.2, kao sto je prikazano na slici 6.5.

Ω

H

0.6

A1

Hc

0.4 A0.2

Slika 6.5. Vjerojatnosno stablo za primjer 6.11.

2Thomas Bayes (1702.-1761.) – engleski matematicar i prezbiterijanski svecenik

6-15

Page 75: Skripta iz statistike

Primjenom formule potpune vjerojatnosti, dobivamo da vjerojatnost gradnje pogona iznosi

P(A) = P(H)P(A |H) + P(Hc)P(A |Hc)

= 0.6 · 1 + 0.4 · 0.2= 0.68 .

Koristeci Bayesov teorem, izracunat cemo vjerojatnost da kompanija planira ponuditi kon-kurentske proizvode uz uvjet da se gradi novi proizvodni pogon:

P(H |A) =P(H)P(A |H)

P(A)=

0.6 · 10.68

= 0.8824 .

Dakle, gradnja novog pogona bitno povecava vjerojatnost da ce kompanija ponuditi konku-rentske proizvode.

Primjer 6.12. U jednoj tvornici 50% proizvodnje otpada na prvi stroj, 30% na drugi stroj, aostatak na treci stroj. Poznato je da ti strojevi redom proizvode 2.5%, 5% i 6% skarta.

(a) Ako iz te tvornice slucajno odaberemo jedan proizvod, kolika je vjerojatnost da je on los?

(b) Ako je slucajno izabran proizvod los, na kojem stroju je taj proizvod najvjerojatnijeproizveden?

Svaki proizvod je proizveden na tocno jednom od promatranih strojeva, pa ako uzmemoda je Hi = proizvod je proizveden na i-tom stroju, onda H1, H2 i H3 tvore potpun sistemdogadaja, te je P(H1) = 0.5, P(H2) = 0.3 i P(H3) = 0.2. Neka je A = izabran proizvod je los.Znamo da je P(A |H1) = 0.025, P(A |H2) = 0.05 i P(A |H3) = 0.06. Navedene vjerojatnostipregledno su prikazane na vjerojatnosnom stablu na slici 6.6.

Ω

H1

0.5

A0.025

H20.3 A0.05

H3

0.2A0.06

Slika 6.6. Vjerojatnosno stablo za primjer 6.12.

Koristeci formulu potpune vjerojatnosti, imamo da je

P(A) =∑

P(Hi)P(A |Hi) = 0.5 · 0.025 + 0.3 · 0.05 + 0.2 · 0.06 = 0.0395 .

Ako znamo da je izabran proizvod los, onda primjenom Bayesog teorema dobivamo

P(H1 |A) =P(H1)P(A |H1)

P(A)=

0.5 · 0.025

0.0395= 0.3165 ,

P(H2 |A) =P(H2)P(A |H2)

P(A)=

0.3 · 0.05

0.0395= 0.3797 ,

P(H3 |A) =P(H3)P(A |H3)

P(A)=

0.2 · 0.06

0.0395= 0.3038 ,

pa je proizvod najvjerojatnije dosao s drugog stroja.

6-16

Page 76: Skripta iz statistike

Zadaci

6.1. Odredite vjerojatnost da se

(a) kod slucajnog izvlacenja karte iz spila karata izvuce herc,

(b) kod bacanja tri novcica tocno dvaput pojavi glava,

(c) slucajno izvuce plava kuglica iz kutije u kojoj je 18 crvenih, 12 bijelih i 20 plavih kuglica.

6.2. Dvije osobe imaju dogovoren sastanak na odredenom mjestu izmedu 1 i 2 sata posli-jepodne. Vremena njihovog dolaska na mjesto sastanka su slucajna i medusobno nezavisna.Odredite vjerojatnost da se osobe sretnu ako svaka od njih ima namjeru na mjestu sastankacekati najvise 15 minuta.

6.3. Vjerojatnost da ce marketinska kampanja biti uspjesna procjenjuje se na 70%. Vjerojat-nost da ce troskovi realizacije biti unutar predvidenog budzeta iznosi 80%. Vjerojatnost dace oba navedena cilja biti ostvarena procjenjuje se na 45%. Koliko iznosi vjerojatnost da cebarem jedan od navedenih ciljeva biti ostvaren?

6.4. Neka su A i B dva nezavisna dogadaja cija vjerojatnost iznosi P(A) = 1/4 i P(B) = 60%.Odredite P(Ac), P(Bc), P(B |A), P(A |B), te P(A ∪B).

6.5. (a) Moze li dogadaj A biti nezavisan sa samim sobom?

(b) Mogu li iskljucivi dogadaji A i B biti nezavisni?

6.6. Iz spila se izvlace dvije karte, jedna za drugom, bez vracanja. Odredite vjerojatnost da

(a) obje karte budu asevi,

(b) barem jedna izvucena karta bude as,

(c) tocno jedna karta bude as.

6.7. Da bi 3 dogadaja A1, A2, A3 bila nezavisna, sljedeca 4 uvjeta trebaju biti ispunjena:

P(A1 ∩A2) = P(A1)P(A2) ,

P(A1 ∩A3) = P(A1)P(A3) ,

P(A2 ∩A3) = P(A2)P(A3) ,

P(A1 ∩A2 ∩A3) = P(A1)P(A2)P(A3) .

Koliko uvjeta treba biti ispunjeno da bi 4 dogadaja A1, A2, A3, A4 bila nezavisna? Napisitete uvjete.

6.8. Iz kutije u kojoj se nalazi 18 crvenih, 12 bijelih i 20 plavih kuglica, izvlace se tri kuglice,jedna za drugom. Izracunajte vjerojatnost da su te tri kuglice redom crvena, bijela i plava,ako se izvlacenje vrsi (a) s vracanjem, (b) bez vracanja.

6.9. Proizvoda I. kvalitete ima 30%. Predlaze se kontrolni postupak po kojemu se za proizvodekoji su I. kvalitete dobiva pozitivan rezultat u 95% slucajeva, a za proizvode koji nisu I. kva-litete pozitivan rezultat se dobiva u 10% slucajeva. Izracunajte vjerojatnost da je kontroliraniproizvod I. kvalitete ako je kontrola provedena

(a) jednom i dobiven je pozitivan rezultat,

(b) dvaput i oba su rezultata pozitivna.

6-17

Page 77: Skripta iz statistike

6.10. Poligraf (detektor lazi) je uredaj koji se ponekad koristi za ispitivanje osumnjicenika ilikandidata za osjetljiva radna mjesta u javnom ili privatnom sektoru. Istrazivanja su pokazalada osoba koja laze ima na poligrafu pozitivan rezultat (tj. poligraf je pokazao da osoba laze)u 88% slucajeva, dok osoba koja govori istinu ima na poligrafu negativan rezultat u 86%slucajeva. Pretpostavimo da smo poligrafu podvrgli osobu koja nema posebnog razloga zadavanje laznog odgovora, te da vjerojatnost da osoba govori istinu iznosi 99%. Izracunajtevjerojatnost da je

(a) rezultat na poligrafu pozitivan,

(b) osoba rekla istinu premda je rezultat na poligrafu pozitivan.

6.11. Dva topa, svaki s jednom granatom, gadaju u isti cilj. Vjerojatnost da prvi top pogodicilj iznosi 0.35, dok vjerojatnost da drugi top pogodi cilj iznosi 0.40. Cilj ce sigurno biti unistenako ga pogode obje granate. Ako ga pogodi samo jedna granata, vjerojatnost unistenja je 0.60.

(a) Kolika je vjerojatnost da ce cilj biti unisten?

(b) Ako je doslo do unistenja cilja, izracunajte vjerojatnost da je pogoden s dvije granate.

6.12. U grupi od 20 strijelaca, 7 je odlicnih, 9 je dobrih, a 4 su losa. Vjerojatnost pogotka ucilj pri jednom gadanju iznosi 85% za odlicnog strijelca, 60% za dobrog strijelca i 40% za losegstrijelca.

(a) Ako slucajno izaberemo jednog strijelca, kolika je vjerojatnost da on pogodi metu?

(b) U koju grupu spada strijelac koji je u dva gadanja metu pogodio tocno jednom?

6-18

Page 78: Skripta iz statistike

7. Slucajne varijable

Ishod nekih slucajnih pokusa, kao npr. bacanja igrace kocke ili cekanja gradskog autobusa,je zapravo broj. Medutim, cak i kod drugih slucajnih pokusa, koji ne rezultiraju prirodnobrojem, moze biti korisno svakom ishodu pridruziti broj koji kazuje odredeno kvantitativnosvojstvo ishoda. Tako, ako slucajno biramo zarulje s police, moze nas zanimati broj ispravnihzarulja koje smo odabrali.

Pravilo koje svakom ishodu slucajnog pokusa pridruzuje realan broj zove se slucajna vari-jabla. Dakle, broj koji se pojavio kod bacanja igrace kocke, vrijeme cekanja gradskog autobusai broj ispravnih zarulja kod slucajnog biranja zarulja s police, primjeri su slucajnih varijabli.Za oznacavanje slucajnih varijabli koristit cemo velika stampana latinicna slova, uglavnoms kraja abecede – X, Y , Z itd. Primijetimo da unatoc nazivu “varijabla”, svaka slucajnavarijabla je ustvari funkcija iz prostora ishoda Ω u skup realnih brojeva R.

Slucajnom varijablom se vjerojatnosna mjera prirodno prenosi na podskupove skupa re-alnih brojeva. Naime, pretpostavimo da je X slucajna varijabla. Tada X svakom ishodu epridruzuje realan broj X(e). Ako je B podskup skupa realnih brojeva, onda s X ∈ B oznaca-vamo dogadaj koji se sastoji od svih ishoda e takvih da X(e) pripada skupu B, tj. takvih da jeX(e) ∈ B. Primjerice, ako je X broj ispravnih zarulja kod slucajnog biranja zarulja s police,onda se skup X ∈ [1,∞) sastoji od svih ishoda u kojima imamo najmanje jednu ispravnuzarulju. Drugim rijecima, to je dogadaj “izabrana je najmanje jedna ispravna zarulja”. Bu-duci da interval [1,∞) cine realni brojevi koji su veci ili jednaki 1, umjesto X ∈ [1,∞) obicnopisemo X ≥ 1. Slican zapis koristimo kad god B ima dovoljno jednostavan oblik. Npr. oznakea < X ≤ b, X = a, X 6= a redom predstavljaju dogadaje X ∈ (a, b], X ∈ a, X ∈ R \ a.

S obzirom da dogadajima mozemo pridruziti vjerojatnost, slijedi da putem slucajne vari-jable X, svakom podskupu B skupa realnih brojeva mozemo pridruziti vjerojatnost PX(B) =P(X ∈ B). Nije tesko provjeriti da je tako definirana funkcija PX vjerojatnosna mjera naskupu realnih brojeva, koju nazivamo distribucijom ili zakonom slucajne varijable X. Po-sebno, PX(R) = P(X ∈ R) = 1.

Zanimljivo je da je distribucija svake slucajne varijable X potpuno odredena svojim vri-jednostima na intervalima oblika (−∞, x], pri cemu je x proizvoljan realan broj. Ako je Xslucajna varijabla, onda se funkcija FX koja svakom realnom broju x pridruzuje vjerojatnost

(7.1) FX(x) = PX((−∞, x]) = P(X ∈ (−∞, x]) = P(X ≤ x)

zove kumulativna funkcija distribucije ili kratko funkcija distribucije od X. S obzirom da sudogadaji X ≤ x i X > x suprotni, slijedi da za svaki realni broj x vrijedi

(7.2) P(X > x) = 1− FX(x) .

Nadalje, ako su x i y realni brojevi takvi da je x ≤ y, onda je (−∞, x] ⊆ (−∞, y] i (−∞, y] \(−∞, x] = (x, y], pa je PX((x, y]) = PX((−∞, y])− PX((−∞, x]), odnosno

(7.3) P(x < X ≤ y) = FX(y)− FX(x) ,

sto znaci i da je FX rastuca funkcija, jer iz gornje jednakosti slijedi FX(x) ≤ FX(y). Takoder,lako se vidi da FX ima limes 1 u +∞ i 0 u −∞, jer je

FX(+∞) = limx→+∞

FX(x) = PX(R) = 1 i FX(−∞) = limx→−∞

FX(x) = PX(∅) = 0 .

7-1

Page 79: Skripta iz statistike

Diskretne slucajne varijable

Skup svih vrijednosti slucajne varijable X oznacit cemo s RX . Primjerice, ako slucajno biramo5 zarulja s police na kojoj je veliki broj zarulja i X je broj odabranih ispravnih zarulja, ondaje RX = 0, 1, 2, 3, 4, 5. Ocigledno, po definiciji je X ∈ RX za svaki ishod slucajnog pokusa,sto povlaci

PX(RX) = P(X ∈ RX) = P(Ω) = 1 .

Buduci da je svaki podskup B skupa realnih brojeva unija iskljucivih skupova B∩RX i B∩RcX ,

iz aditivnosti vjerojatnosne mjere PX slijedi da je

PX(B) = PX(B ∩ RX) + PX(B ∩ RcX) .

Medutim, s obzirom da je PX(RX) = 1, imamo da je PX(RcX) = 0, a zbog monotonosti

vjerojatnosti, to znaci da je i PX(B ∩ RcX) = 0. Prema tome,

(7.4) P(X ∈ B) = PX(B) = PX(B ∩ RX) = P(X ∈ B ∩ RX) ,

sto potvrduje intuitivno jasnu cinjenicu da je pri odredivanju vjerojatnosti da X pripada skupuB dovoljno promatrati vrijednosti varijable X u tom skupu.

Za slucajnu varijablu X kazemo da je diskretna ako je skup vrijednosti RX prebrojiv,tj. ako se njegovi elementi mogu napisati u obliku konacnog ili beskonacnog niza. Pritom,funkciju fX koja svakom realnom broju x pridruzuje vjerojatnost

(7.5) fX(x) = PX(x) = P(X ∈ x) = P(X = x)

nazivamo funkcijom vjerojatnosti ili funkcijom mase vjerojatnosti slucajne varijable X.Ocigledno, fX je nenegativna funkcija. Ako x nije vrijednost od X, onda dogadaj X = x

ne sadrzi niti jedan ishod, pa je fX(x) = P(X = x) = P(∅) = 0. Dakle, skup realnih brojeva xtakvih da je fX(x) 6= 0 je podskup od RX , sto znaci da je taj skup prebrojiv.

Ako je B podskup skupa realnih brojeva, onda je B ∩ RX , kao podskup od RX , takoderprebrojiv, pa njegove elemente mozemo napisati u obliku niza x1, x2, x3, . . . . To znaci da jeskup B ∩ RX unija prebrojivo mnogo jednoclanih skupova, tj.

B ∩ RX = x1 ∪ x2 ∪ x3 ∪ · · · .

Iz jednakosti (7.4), aditivnosti vjerojatnosne mjere PX i definicije funkcije vjerojatnosti, sadadobivamo

P(X ∈ B) = PX(B)

= PX(B ∩ RX)

= PX(x1) + PX(x2) + PX(x3) + · · ·= fX(x1) + fX(x2) + fX(x3) + · · · .

Dakle, vjerojatnost da slucajna varijabla X pripada skupu B iznosi

(7.6) P(X ∈ B) =∑x∈B

fX(x) ,

pri cemu se zbraja po svim vrijednostima x slucajne varijable X koje pripadaju skupu B, stosmo oznacili stavljanjem oznake x ∈ B ispod znaka zbroja (premda bi bilo korektnije da smokoristili x ∈ B ∩ RX).

7-2

Page 80: Skripta iz statistike

Ako u prethodnu formulu uvrstimo B = R, dobivamo da je

(7.7)∑x∈R

fX(x) = 1 ,

pri cemu se zbraja po svim vrijednostima x slucajne varijable X. S druge strane, ako uvrstimoB = (−∞, x], onda slijedi

(7.8) FX(x) =∑u≤x

fX(u) ,

pri cemu se zbraja po svim vrijednosti u slucajne varijable X koje su manje ili jednake x.

Primjer 7.1. Neka je X broj glava koje su se pojavile kod slucajnog bacanja dva novcica.

(a) Odredite funkciju vjerojatnosti fX slucajne varijable X i pomocu nje izracunajte vjero-jatnost da se kod bacanja dva novcica pojavi najmanje jedna glava.

(b) Nadite funkciju distribucije FX slucajne varijable X.

Ako s p oznacimo pismo, a s g glavu, onda ce prostor ishoda biti Ω = pp, pg, gp, gg. Sobzirom da X predstavlja broj glava koje su se pojavile, slijedi da je X(pp) = 0, X(pg) =X(gp) = 1 i X(gg) = 2. Dakle, ovdje je RX = 0, 1, 2, pa je X diskretna slucajna varijabla.

Za x ∈ RX , funkcija vjerojatnosti fX imat ce sljedece vrijednosti:

fX(0) = P(X = 0) = P(pp) = 1/4 ,

fX(1) = P(X = 1) = P(pg, gp) = 1/2 ,

fX(2) = P(X = 2) = P(gg) = 1/4 .

Naravno, za x /∈ RX bit ce fX(x) = 0. Prema tome,

fX(x) =

1/4 , x = 01/2 , x = 11/4 , x = 20 , inace

.

Premda bi, striktno gledano, osim za x ∈ RX , graf te funkcije trebao biti horizontalni pravackoji prolazi kroz 0 na vertikalnoj osi, korisnije je funkciju vjerojatnosti graficki prikazati kaona slici 7.1(a).

Dogadaj “pojavila se najmanje jedna glava” je ustvari dogadaj X ≥ 1, a prema (7.6),imamo

P(X ≥ 1) = fX(1) + fX(2) =1

2+

1

4=

3

4,

sto je identicno rezultatu kojega smo dobili u primjeru 6.3.Nadimo sada funkciju distribucije FX slucajne varijable X. U tu svrhu, neka je x proizvo-

ljan realan broj. Da bismo odredili FX(x), trebamo znati koje su vrijednosti slucajne varijableX manje ili jednake x, a to naravno zavisi o tome kakav je broj x. Naime, ako je x < 0, ondanema vrijednosti od X koje su manje ili jednake x, pa je FX(x) = 0. Ako je 0 ≤ x < 1, ondaje 0 jedina vrijednost od X koja je manja ili jednaka x, sto znaci da je FX(x) = fX(0) = 1/4.Ako je 1 ≤ x < 2, onda je ocigledno FX(x) = fX(0) + fX(1) = 1/4 + 1/2 = 3/4. Konacno,ako je x ≥ 2, onda su sve vrijednosti od X manje ili jednake x, pa je FX(x) = 1. Rezimirajucinavedeno, imamo da je

FX(x) =

0 , x < 01/4 , 0 ≤ x < 13/4 , 1 ≤ x < 21 , x ≥ 2

.

7-3

Page 81: Skripta iz statistike

Graf funkcije FX prikazan je na slici 7.1(b). Uocimo da je FX svugdje konstanta, osim zax ∈ RX , kada FX ima “skok” iznosa fX(x). Time smo zapravo utvrdili kako se iz funkcijedistribucije moze dobiti funkcija vjerojatnosti diskretne slucajne varijable.

0.0

0.1

0.2

0.3

0.4

0.5

x

f X(x

)

−1 0 1 2 3

0.0

0.2

0.4

0.6

0.8

1.0

xFX

(x)

−1 0 1 2 3

(a) (b)

Slika 7.1. Funkcija vjerojatnosti i funkcija distribucije iz primjera 7.1.

Distribucije slucajnih varijabli imaju iste osobine kao distribucije numerickih statistickihvarijabli, tj. lokaciju, disperziju i oblik, koje mozemo kvantitativno izraziti. Tako, mjeralokacije koja za slucajne varijable ima istu namjenu kao aritmeticka sredina za numerickestatisticke varijable, zove se ocekivanje ili ocekivana vrijednost. Ocekivanje slucajne varijableX oznacit cemo s E(X).

Kao sto vjerojatnost mozemo smatrati dugorocnom relativnom frekvencijom nekog doga-daja, tako ocekivanje mozemo smatrati dugorocnom aritmetickom sredinom neke slucajne vari-jable, do koje dolazimo ponavljanjem slucajnog pokusa velik broj puta. Na osnovu te analogije,izvest cemo sada definicijsku formulu za ocekivanje diskretne slucajne varijable. Stoga, pret-postavimo da je X diskretna slucajna varijabla sa skupom vrijednosti RX = x1, x2, x3, . . .i pretpostavimo da smo slucajni pokus ponovili velik broj puta. Ako vrijednost slucajnevarijable X u i-tom izvodenju slucajnog pokusa oznacimo s Xi, onda ce ocekivanje od Xbiti priblizno jednako aritmetickoj sredini X brojeva X1, X2, X3, . . . Medutim, svaki Xi,kao vrijednost slucajne varijable X, pripada skupu RX , tj. svaki Xi je jedan od brojevax1, x2, x3, . . ., pa ako s p1, p2, p3, . . . oznacimo relativnu frekvenciju vrijednosti x1, x2, x3, . . .onda dobivamo da je

X = x1p1 + x2p2 + x3p3 + · · · .S obzirom da smo pokus ponovili velik broj puta, relativne frekvencije p1, p2, p3, . . . bitce priblizno jednake vjerojatnostima fX(x1), fX(x2), fX(x3), . . . Prema tome, aritmetickasredina opazenih vrijednosti priblizno je jednaka izrazu

x1fX(x1) + x2fX(x2) + x3fX(x3) + · · · .

Upravo se taj izraz uzima kao definicija ocekivanja diskretne slucajne varijable.Prema tome, ocekivanje diskretne slucajne varijable X definira se kao

(7.9) E(X) =∑x∈R

xfX(x) ,

7-4

Page 82: Skripta iz statistike

pri cemu se zbraja po svim vrijednostima od X.

Primjer 7.2. Izracunajte ocekivanje slucajne varijable X iz primjera 7.1.

Prema prethodnom, ocekivani broj glava kod bacanja dva novicica iznosi

E(X) = 0fX(0) + 1fX(1) + 2fX(2) = 0 · 1

4+ 1 · 1

2+ 2 · 1

2= 1 .

Slucajne varijable cesto transformiramo primjenom raznih funkcija. Naime, ako je Xslucajna varijabla i g je funkcija iz R u R, onda ce Y = g(X) takoder biti slucajna varijabla.Primjerice, ako je X slucajna varijabla iz primjera 7.1, tj. broj glava koje su se pojavile kodbacanja dva novcica, onda ce Y = 2−X biti broj pisama koji su se pojavili u tom slucajnompokusu.

Skup vrijednosti slucajne varijable Y = g(X) sastojat ce se od svih vrijednosti g(x), pricemu je x vrijednost slucajne varijable X. Ako je X diskretna, onda ce ocigledno to biti i Y ,a prema (7.6), za svaku vrijednost y slucajne varijable Y bit ce

(7.10) fY (y) = P(Y = y) = P(g(X) = y) =∑

g(x)=y

fX(x) ,

pri cemu se zbraja po svim vrijednostima x slucajne varijable X za koje je g(x) = y. Stovise,ocekivanje slucajne varijable Y iznosit ce

E(Y ) =∑yfY (y) =

∑y∑fX(x) =

∑∑yfX(x) ,

pri cemu prvi zbroj vrsimo po svim vrijednostima y slucajne varijable Y , a drugi zbroj posvim vrijednostima x slucajne varijable X za koje je g(x) = y. Kako smo skup vrijednostislucajne varijable Y dobili primjenom funkcije g na vrijednosti slucajne varijable X, jasno jeda je zbrajanje dovoljno vrsiti po vrijednostima slucajne varijable X, sto povlaci

E(Y ) =∑x∈R

g(x)fX(x) ,

pri cemu se zbraja po svim vrijednostima slucajne varijable X.Rezimirajuci navedeno, ako je X diskretna slucajna varijabla i g proizvoljna funkcija iz R

u R, onda ce ocekivanje slucajne varijable g(X) iznositi

(7.11) E(g(X)) =∑x∈R

g(x)fX(x) ,

pri cemu se zbraja po svim vrijednostima slucajne varijable X. Uocimo da se iz prethodneformule, uzimanjem identicne transformacije g(x) = x, dobiva formula (7.9).

Primjenom funkcije g(x) = (x − E(X))2 dolazimo do varijable Y = g(X) = (X − E(X))2,koja predstavlja kvadrat devijacije slucajne varijable X, pa ocekivanje od Y nazivamo vari-jancom od X i oznacavamo s Var(X). Dakle, po definiciji je

(7.12) Var(X) = E((X − E(X))2) .

Naravno, korijen iz varijance nazivamo standardnom devijacijom. Varijanca i standardnadevijacija su mjere disperzije distribucije slucajne varijable.

Primjer 7.3. Izracunajte varijancu slucajne varijable X iz primjera 7.1.

7-5

Page 83: Skripta iz statistike

Prema prethodnom primjeru, E(X) = 1, pa ako stavimo g(x) = (x− 1)2, onda ce Var(X)biti ocekivanje slucajne varijable Y = g(X) = (X − 1)2, koje cemo izracunati na dva nacina.Prvi nacin je primjenom definicije ocekivanja (7.9), iz koje slijedi

E(Y ) =∑y∈R

yfY (y) ,

pri cemu se zbraja po svim vrijednostima od Y . Ocigledno, ovdje moramo prethodno naciRY i fY . S obzirom da je RX = 0, 1, 2 i da je g(0) = g(2) = 1, te g(1) = 0, slijedi da jeRY = 0, 1, a primjenom (7.10) imamo

fY (0) = fX(1) = 1/2 ,

fY (1) = fX(0) + fX(2) = 1/4 + 1/4 = 1/2 .

Prema tome,Var(X) = E(Y ) = 0 · 1/2 + 1 · 1/2 = 1/2 .

Drugi nacin je obicno jednostavniji i zasniva se na formuli za ocekivanje transformacijediskretne slucajne varijable (7.11), prema kojoj imamo

Var(X) = E(g(X))

= g(0)fX(0) + g(1)fX(1) + g(2)fX(2)

= (0− 1)2 · 1/4 + (1− 1)2 · 1/2 + (2− 1)2 · 1/4= 1/2 .

Istini za volju, postoji jos jedan nacin da odredimo varijancu. Naime, ako s µ = E(X)oznacimo ocekivanje diskretne slucajne varijable X, onda slijedi

Var(X) = E((X − µ)2)

=∑

(x− µ)2fX(x)

=∑

(x2 − 2xµ+ µ2)fX(x)

=∑x2fX(x)− 2µ

∑xfX(x) + µ2

∑fX(x) ,

pri cemu se svugdje zbraja po svim vrijednostima od X. Uzmemo li u obzir da je∑x2fX(x) =

E(X2),∑xfX(x) = E(X) = µ i

∑fX(x) = 1, onda imamo

Var(X) = E(X2)− 2µ2 + µ2 = E(X2)− µ2 ,

odnosno

(7.13) Var(X) = E(X2)− (E(X))2 .

S obzirom da za slucajnu varijablu X iz primjera 7.1 imamo

E(X2) = 02fX(0) + 12fX(1) + 22fX(2) = 02 · 1/4 + 12 · 1/2 + 22 · 1/4 = 3/2 ,

varijanca od X iznosi

Var(X) = E(X2)− (E(X))2 = 3/2− 1 = 1/2 .

7-6

Page 84: Skripta iz statistike

Najjednostavnija slucajna varijabla je ona koja poprima samo jednu vrijednost. Ako je Xslucajna varijabla i RX = a, onda je X zapravo konstantna funkcija, koja svakom ishodupridruzuje broj a, pa je P(X = a) = 1. Takoder, tada je E(X) = a i Var(X) = 0.

Medu slucajnim varijabla s dvije vrijednosti, cesto koristimo one ciji se skup vrijednosti sas-toji od brojeva 0 i 1. Ako je X slucajna varijabla i RX = 0, 1, onda se X zove Bernoullijeva1

slucajna varijabla. Ako s π = fX(1) = P(X = 1) oznacimo vjerojatnost da slucajna varijablapoprimi vrijednost 1 (dakle, π ovdje ne oznacava matematicku konstantu 3.14159. . . ), ondatakoder kazemo da X ima Bernoullijevu distribuciju s parametrom π. Naime, ako znamofX(1) = π, onda znamo i fX(0) = 1 − fX(1) = 1 − π, pa nam je funkcija vjerojatnosti slu-cajne varijable X potpuno poznata, a time nam je poznata i distribucija PX slucajne varijableX. Bernoullijevu distribuciju s parametrom π oznacit cemo s B(π), a cinjenicu da X ima tudistribuciju oznacit cemo s X ∼ B(π).

Bernoullijeva distribucija javlja se kod slucajnih pokusa cije ishode dijelimo u dvije sku-pine. Ishode u jednoj skupini smatramo uspjehom, a one u drugoj skupini neuspjehom. Takveslucajne pokuse nazivamo Bernoullijevim pokusima. Ako vjerojatnost uspjeha u Bernoul-lijevom pokusu iznosi π, onda vjerojatnost neuspjeha iznosi 1 − π, pa ako slucajna varija-bla X uspjehu dodjeljuje vrijednost 1, a neuspjehu vrijednost 0, onda X ima Bernoullijevudistribuciju s parametrom π. Uzmimo npr. da se slucajni pokus sastoji u bacanju igracekocke, sto znaci da je Ω = 1, 2, 3, 4, 5, 6, te da uspjehom smatramo pojavljivanje sestice.Ako je X slucajna varijabla definirana na Ω, koja oznacava pojavljivanje sestice, tj. ako jeX(6) = 1 i X(1) = · · · = X(5) = 0, onda X ima Bernoullijevu distribuciju s parametromπ = P(6) = 1/6.

Clanovi statistickih populacija cesto se dijele u dvije skupine, prema tome posjeduju liili ne posjeduju odredenu osobinu. Npr. studente mozemo podijeliti prema tome studirajuli u mjestu prebivanja ili ne, automobile mozemo podijeliti prema tome imaju li ili nemajupolicu osiguranja itd. Slucajno biranje jedne statisticke jedinice iz takve populacije moze sepromatrati kao Bernoullijev pokus, a formiranje slucajnog uzorka, tj. slucajno biranje nekolikostatistickih jedinica, kao niz Bernoullijevih pokusa.

Primjer 7.4. Izracunajte ocekivanje i varijancu slucajne varijable X koja ima Bernoullijevudistribuciju s parametrom π.

Buduci da je RX = 0, 1, fX(0) = 1− π i fX(1) = π, slijedi da ocekivanje od X iznosi

E(X) = 0fX(0) + 1fX(1) = fX(1) = π .

Takoder,E(X2) = 02fX(0) + 12fX(1) = fX(1) = π ,

odakle slijedi da varijanca od X iznosi

Var(X) = E(X2)− (E(X))2 = π − π2 = π(1− π) .

Primjerice, ako X oznacava pojavljivanje sestice kod bacanja igrace kocke, onda je E(X) =π = 1/6 i Var(X) = π(1− π) = 1/6 · 5/6 = 5/36.

Neprekidne slucajne varijable

U nacelu, neprekidne su one slucajne varijable ciji skup vrijednosti cini interval. Kao stosmo vidjeli, neprekidne statisticke varijable opisuju se gustocom frekvencije, koju graficki

1Jacob (Jacques) Bernoulli (1654.-1705.) – svicarski matematicar

7-7

Page 85: Skripta iz statistike

prikazujemo histogramom, a frekvencija bilo kojeg intervala jednaka je dijelu povrsine ispodhistograma koja odgovara tom intervalu. Ono sto je frekvencija za statisticku varijablu, to jevjerojatnost za slucajnu varijablu. Stoga, neprekidne slucajne varijable zadavat cemo putemnjihove gustoce vjerojatnosti, a vjerojatnost cemo odredivati kao povrsinu ispod grafa gustocevjerojatnosti. Pritom, gustoca vjerojatnosti imat ce oblik nenegativne funkcije iz R u R, pacemo navedenu povrsinu opcenito nalaziti integriranjem.

Preciznije, za slucajnu varijablu X kazemo da je neprekidna ako je RX nadskup baremjednog nepraznog intervala i ako postoji nenegativna funkcija fX iz R u R takva da je

(7.14) P(a ≤ X ≤ b) =b∫a

fX(x) dx ,

za svaka dva realna broja a i b za koja je a ≤ b (sl. 7.2). U tom slucaju, funkciju fX nazivamofunkcijom gustoce vjerojatnosti slucajne varijable X.

f X(x

)

a b

P(a ≤ X ≤ b)

Slika 7.2. Ako su a i b realni brojevi takvi da je a ≤ b, onda je vjerojatnost daneprekidna slucajna varijabla X poprimi vrijednost izmedu a i b jednaka povrsiniispod grafa funkcije gustoce vjerojatnosti fX u tom intervalu.

Iz navedenog slijedi zanimljiva osobina neprekidnih slucajnih varijabli. Naime, ako je Xneprekidna slucajna varijabla i a proizvoljan realan broj, onda iz (7.14) slijedi

P(X = a) = P(a ≤ X ≤ a) =a∫a

fX(x) dx = 0.

Dakle, vjerojatnost da X poprimi tocno vrijednost a iznosi 0. Zbog aditivnosti vjerojatnosti,slijedi da ce za svaki prebrojivi skup A = a1, a2, a3, . . . realnih brojeva takoder biti P(X ∈A) = 0. Stoga, ako je B proizvoljan skup realnih brojeva, onda se vjerojatnost dogadajaX ∈ B nece promijeniti ako skupu B dodamo ili oduzmemo prebrojivo mnogo elemenata.Posebno, ako je B interval, vjerojatnost dogadaja X ∈ B nece se promijeniti ako B sadrzi iline sadrzi svoje granice.

Ako je B skup realnih brojeva koji se moze prikazati kao unija prebrojivo mnogo iskljucivihomedenih intervala, onda iz (7.14) i aditivnosti vjerojatnosne mjere slijedi

(7.15) P(X ∈ B) =∫B

fX(x) dx .

7-8

Page 86: Skripta iz statistike

Posebno, ako uzmemo B = R, proizlazi da je

(7.16)∫RfX(x) dx = 1 ,

sto znaci da ukupna povrsina ispod grafa funkcije gustoce vjerojatnosti iznosi 1 (sl. 7.3(a)).Ako uzmemo B = (−∞, x], pri cemu je x realan broj, onda dobivamo da je

(7.17) FX(x) =x∫−∞

fX(u) du ,

odnosno FX(x) je povrsina ispod grafa funkcije gustoce vjerojatnosti u intervalu od −∞ do x(sl. 7.3(b)). To povlaci da je FX neprekidna funkcija, a ako je jos FX derivabilna u x, onda je

(7.18) F ′X(x) = fX(x) .

f X(x

)

1

f X(x

)

x

FX(x)

(a) (b)

Slika 7.3. (a) Ukupna povrsina ispod grafa funkcije gustoce vjerojatnosti iznosi 1.(b) Vrijednost funkcije distribucije u x jednaka je povrsini ispod grafa funkcije gustocevjerojatnosti u intervalu od −∞ do x.

Prema tome, kod neprekidnih slucajnih varijabli, integriranjem funkcije gustoce vjerojat-nosti dobiva se funkcija distribucije, a deriviranjem funkcije distribucije dobiva se funkcijagustoce vjerojatnosti.

Primjer 7.5. Slucajno smo zavrtili kazaljku na satu (sl. 7.4(a)). Neka je X vrijeme u satimakoje kazaljka pokazuje kad se zaustavi. Odredite funkciju gustoce vjerojatnosti i funkcijudistribucije slucajne varijable X, te izracunajte vjerojatnost da se kazaljka zaustavi izmedu 3i 6 sati.

Ocigledno, ovaj slucajni pokus ekvivalentan je slucajnom biranju broja u intervalu RX =(0, 12] (sl. 7.4(b)), pa ako s m oznacimo duljinu skupa tocaka na pravcu, onda prema (7.4) i(6.4), za svaki realni broj x imamo

FX(x) = PX((−∞, x]) = PX((−∞, x] ∩ RX) =m((−∞, x] ∩ RX)

m(RX)=m((−∞, x] ∩ RX)

12.

Ako je x < 0 onda je m((−∞, x] ∩ RX) = m(∅) = 0. Ako je 0 ≤ x < 12, onda je m((−∞, x] ∩RX) = m((0, x]) = x. Konacno, ako je x ≥ 12, onda je m((−∞, x] ∩ RX) = m(RX) = 12.Prema tome,

FX(x) =

0 , x < 0x/12 , 0 ≤ x < 121 , x ≥ 12

.

7-9

Page 87: Skripta iz statistike

3

6

9

12

(a) Sat s kazaljkom

3 6 9 120

(b) Interval (0, 12]

Slika 7.4. Ishod slucajne vrtnje kazaljke na satu bit ce realan broj u intervalu (0, 12].

Vjerojatnost da se kazaljka zaustavi izmedu 3 i 16 sati iznosi

P(3 ≤ X ≤ 6) = FX(6)− FX(3) = 6/12− 3/12 = 1/4 .

Deriviranjem funkcije distribucije dobit cemo funkciju gustoce vjerojatnosti. Pritom,uocimo da je FX derivabilna svugdje osim u 0 i 12, gdje ima siljak. FX je konstanta naintervalima (−∞, 0) i (12,∞), pa je za x u tim intervalima fX(x) = F ′X(x) = 0. Ako x pri-pada intervalu (0, 12) onda je FX(x) = x/12, pa je fX(x) = F ′X(x) = 1/12. Konacno, mozemoslobodno staviti da je fX(0) = fX(12) = 1/12, jer svojstva funkcije gustoce vjerojatnosti nezavise o njenoj vrijednosti u prebrojivo mnogo tocaka. Dakle,

fX(x) =

1/12 , 0 ≤ x ≤ 120 , inace

.

Grafovi funkcija fX i FX prikazani su na slici 7.5.Na osnovu prethodnog primjera zakljucujemo da slucajno biranje realnog broja u intervalu

od 0 do 12 mozemo predstaviti neprekidnom slucajnom varijablom cija funkcija gustoce vjero-jatnosti ima vrijednost 0 svugdje osim na intervalu od 0 do 12, gdje je ta funkcija konstantnai ima vrijednost 1/12, koja je jednaka reciprocnoj vrijednosti duljine promatranog intervala.Sukladno tome, slucajno biranje realnog broja u intervalu od a do b, pri cemu su a i b re-alni brojevi takvi da je a < b, moze se predstaviti neprekidnom slucajnom varijablom X cijafunkcija gustoce vjerojatnosti ima oblik

fX(x) =

1/(b− a) , a ≤ x ≤ b0 , inace

.

Pritom, za X kazemo da je uniformna slucajna varijabla, a njenu distribuciju nazivamo uni-formnom distribucijom s parametrim a i b i oznacavamo je s U(a, b). Tako, slucajna varijablaX iz primjera 7.5 ima uniformnu distribuciju s parametrima 0 i 12, tj. X ∼ U(0, 12).

Kako se izracunava ocekivanje neprekidne slucajne varijable? Da bismo to otkrili, ponovitcemo razmisljanje koje smo proveli kod disrektnih varijabli, gdje smo ocekivanje odredili kaodugorocnu aritmeticku sredinu. Naime, pretpostavimo da je X neprekidna slucajna varija-bla, te da smo slucajni pokus ponovili velik broj puta, pri cemu smo opazili vrijednosti X1,

7-10

Page 88: Skripta iz statistike

0.0

00.0

50.1

00.1

5

x

f X(x

)

−4 0 4 8 12 16

0.0

0.2

0.4

0.6

0.8

1.0

x

FX

(x)

−4 0 4 8 12 16

(a) (b)

Slika 7.5. Funkcija gustoce vjerojatnosti i funkcija distribucije iz primjera 7.5.

X2, X3, . . . S obzirom da je X neprekidna, pretpostavimo da smo te vrijednosti grupirali u krazreda, pri cemu smo dosli do relativnih frekvencija p1, p2, . . . , pk. Ako razredne sredine ozna-cimo s x1, x2, . . . , xk, a velicine razreda s h1, h2, . . . , hk, onda ce aritmeticka sredina vrijednostiX1, X2, X3, . . . priblizno iznositi

x1p1 + x2p2 + · · ·+ xkpk = x1p1h1h1 + x2

p2h2h2 + · · ·+ xk

pkhkhk .

Omjer pi/hi relativne frekvencije pi i velicine razreda hi je gustoca relativne frekvencije, kojace biti priblizno jednaka gustoci vjerojatnosti fX(xi), pa ce aritmeticka sredina opazenihvrijednosti priblizno iznositi

x1fX(x1)h1 + x2fX(x2)h2 + · · ·+ xkfX(xk)hk .

Gornji izraz je ustvari integralna suma funkcije xfX(x), pa je prirodno da ocekivanje nepre-kidne slucajne varijable X definiramo kao integral te funkcije.

Prema tome, ocekivanje neprekidne slucajne varijable X po definiciji iznosi

(7.19) E(X) =∫RxfX(x) dx .

Ako je g funkcija iz R u R, moze se pokazati da je onda

(7.20) E(g(X)) =∫Rg(x)fX(x) dx .

Izrazi za varijancu (7.12) i (7.13) vrijede i za neprekidne varijable.

Primjer 7.6. Izracunajte ocekivanje i varijancu slucajne varijable X iz primjera 7.5.

S obzirom da je ovdje fX(x) = 1/12 za x ∈ [0, 12] i fX(x) = 0 inace, slijedi da je

E(X) =12∫0

x

12dx =

x2

12 · 2

∣∣∣∣120

= 6 .

7-11

Page 89: Skripta iz statistike

Slicno tome,

Var(X) = E((X − 6)2) =12∫0

(x− 6)2

12dx =

(x− 6)3

12 · 3

∣∣∣∣120

= 12 .

S obzirom da je

E(X2) =12∫0

x2

12dx =

x3

12 · 3

∣∣∣∣120

= 48 ,

varijancu smo takoder mogli izracunati kao

Var(X) = E(X2)− (E(X))2 = 48− 62 = 12 .

Tablica 7.1 usporedno prikazuje osnovne osobine diskretnih i neprekidnih slucajnih vari-jabli. Ocigledno, formule za obje vrste slucajnih varijabli su prakticki identicne, s jedinomrazlikom da se kod disrektnih slucajnih varijabli koristi zbrajanje, a kod neprekidnih integri-ranje. Takoder, ne treba zaboraviti da se kod diskretne slucajne varijable X svi zbrojevi vrsepo vrijednostima od X koje zadovoljavaju napisane uvjete.

Tablica 7.1. Usporedba diskretnih i neprekidnih slucajnih varijabli.

X diskretna X neprekidna

Zadavanje Funkcija vjerojatnosti fX Funkcija gustoce vjerojatnosti fX(1) fX(x) ≥ 0, za svaki x (1) fX(x) ≥ 0, za svaki x(2)

∑x∈R

fX(x) = 1 (2)∫RfX(x) = 1

Vjerojatnost P(X ∈ B) =∑x∈B

fX(x) P(X ∈ B) =∫B

fX(x) dx

Funkcija distribucije FX(x) =∑u≤x

fX(u) FX(x) =x∫−∞

fX(u) du

Ocekivanje E(g(X)) =∑x∈R

g(x)fX(x) E(g(X)) =∫Rg(x)fX(x) dx

Linearna transformacija i standardizacija

Medu svim transformacijama koje mozemo primijeniti na slucajne varijable, linearna transfor-macija je posebno vazna. Stoga, uzmimo da su d i c realni brojevi i da je g(x) = dx+c linearnatransformacija. Ako je X diskretna slucajna varijabla, onda ce prema (7.11), ocekivanje slu-cajne varijable dX + c = g(X) iznositi

E(dX + c) =∑

(dx+ c)fX(x) = d∑xfX(x) + c

∑fX(x) ,

pri cemu se zbraja po svim vrijednostima od X. Uzmemo li u obzir da je∑xfX(x) = E(X) i∑

fX(x) = 1, onda proizlazi

(7.21) E(dX + c) = dE(X) + c .

7-12

Page 90: Skripta iz statistike

Ako u gornjoj formuli uzmemo c = 0, slijedi da za svaku diskretnu slucajnu varijablu isvaki realni broj d vrijedi

(7.22) E(dX) = dE(X) .

Navedeno svojstvo zove se homogenost ocekivanja.Oznacimo li s µ = E(X) ocekivanje slucajne varijable X, onda je E(dX+ c) = dµ+ c, pa je

Var(dX + c) = E((dX + c− (dµ+ c))2) = E(d2(X − µ)2) = d2 E((X − µ)2) ,

pri cemu smo za posljednju jednakost koristili homogenost ocekivanja. S obzirom da je E((X−µ)2) = Var(X), konacno zakljucujemo da je

(7.23) Var(dX + c) = d2 Var(X) .

Lako se provjerava da formule (7.21) i (7.23) vrijede i za neprekidne varijable.

Primjer 7.7. Ako je X slucajna varijabla iz primjera 7.5, izracunajte ocekivanje i varijancuslucajne varijable Y = X/3 + 7.

S obzirom da je E(X) = 6 i Var(X) = 12, imamo

E(Y ) = E(X

3+ 7

)=

1

3E(X) + 7 =

1

3· 6 + 7 = 9 ,

Var(Y ) = Var

(X

3+ 7

)=

(1

3

)2

Var(X) =1

9· 12 =

4

3.

Slucajne varijable mozemo takoder standardizirati. Ako je X slucajna varijabla s ocekiva-njem µ = E(X) i standardnom devijacijom σ =

√Var(X) 6= 0, onda slucajna varijabla

(7.24) Z =X − µσ

=X − E(X)√

Var(x)

ima ocekivanje

E(Z) = E(X − µσ

)=

1

σE(X − µ) =

1

σ(E(X)− µ) = 0

i varijancu

Var(Z) = Var

(X − µσ

)=

1

σ2Var(X − µ) =

1

σ2Var(X) = 1 .

Kvantili

Neka je X slucajna varijabla i p realan broj koji je veci od 0 i manji od 1, tj. 0 < p < 1.Kvantil razine p ili p-kvantil slucajne varijable X po definiciji je realni broj xp takav da je

P(X ≤ xp) ≥ p i P(X ≥ xp) ≥ 1− p .

Lako se vidi da je ta definicija istovjetna onoj koju smo dali za statisticke varijable, samo stosmo kod statistickih varijabli govorili o proporciji podatkovnih vrijednosti, dok ovdje govorimoo vjerojatnosti.

7-13

Page 91: Skripta iz statistike

Ako je X neprekidna, onda je P(X ≥ xp) = P(X > xp) = 1 − P(X ≤ xp), pa je uvjetP(X ≥ xp) ≥ 1 − p ekvivalentan uvjetu P(X ≤ xp) ≤ p, sto znaci da ce xp biti p-kvantilneprekidne slucajne varijable X ako i samo ako je

FX(xp) = P(X ≤ xp) = p .

Nazivi medijan, kvartili i slicni, zadrzavaju svoje znacenje.

Primjer 7.8. Odredite medijan i kvartile slucajne varijable X iz primjera 7.5.

S obzirom da je X neprekidna slucajna varijabla, trazene kvantile odredit cemo rjesavanjemjednadzbe

FX(x) = p

po x za p = 0.5, p = 0.25 i p = 0.75. Kako je FX(x) = 0 za x ≤ 0 i FX(x) = 1 za x ≥ 12,slijedi da x trebamo traziti u intervalu (0, 12), u kojemu je FX(x) = x/12. Dakle, jednadzbakoju treba rijesiti ima oblik

x/12 = p ,

odakle slijedi x = 12p. Prema tome, medijan od X je x0.5 = 6, a donji i gornji kvartil jesux0.25 = 3 i x0.75 = 9.

Zadaci

7.1. Neka je X broj koji se pojavio kod bacanja igrace kocke.

(a) Nadite i graficki prikazite funkciju vjerojatnosti i funkciju distribucije slucajne varijable X.

(b) Koristeci funkciju vjerojatnosti, izracunajte P(X ≥ 4) i P(X < 6 |X > 1).

(c) Odredite ocekivanje i varijancu od X.

7.2. Tri aviona, nezavisno jedan od drugoga, gadaju brod. Prvi avion pogada s vjerojatnoscu0.7, drugi s 0.6, a treci s 0.5. Neka je X broj aviona koji su pogodili brod.

(a) Nadite i graficki prikazite funkciju vjerojatnosti i funkciju distribucije slucajne varijable X.

(b) Da bi brod potonuo potrebno je da ga pogode najmanje dva aviona. Kolika je vjerojatnostda ce brod potonuti?

(c) Izracunajte ocekivanje i varijancu od X.

7.3. Kocka se baca dok se ne pojavi sestica. Neka je X broj izvedenih bacanja.

(a) Nadite funkciju vjerojatnosti od X.

(b) Kolika je vjerojatnost da se izvedu najmanje 4 bacanja?

(c) Izracunajte ocekivanje i varijancu od X.

7.4. Neka je X neprekidna slucajna varijabla s funkcijom gustoce vjerojatnosti

fX(x) =

1− |1− x|, 0 ≤ x ≤ 2

0, inace.

(a) Odredite funkciju distribucije od X, te izracunajte P(X ≥ 0.5) i P(X < 0.8 |X < 1.5).

(b) Nadite ocekivanje, varijancu, medijan i kvartile od X.

7-14

Page 92: Skripta iz statistike

(c) Koliko iznose ocekivanje i varijanca slucajne varijable 2X + 1?

7.5. Slucajna varijabla X ima uniformnu distribuciju s parametrima

(a) 0 i 1,

(b) a i b, pri cemu je a < b.

Nadite funkciju gustoce vjerojatnosti i funkciju distribucije od X i graficki ih prikazite, teizracunajte ocekivanje i varijancu od X.

7-15

Page 93: Skripta iz statistike

8. Slucajni vektori

Bivarijatni slucajni vektori

Ako ishodima nekog slucajnog pokusa istovremeno pridruzujemo vrijednost dvije slucajnevarijable X i Y , onda zapravo imamo funkciju koja svakom ishodu e pridruzuje ureden parrealnih brojeva (X(e), Y (e)), koju nazivamo bivarijatnim slucajnim vektorom i oznacavamos (X,Y ), a slucajne varijable X i Y nazivamo njegovim koordinatama ili komponentama.Skup vrijednosti RX,Y slucajnog vektora (X,Y ) je skup svih uredenih parova realnih brojeva(X(e), Y (e)), pri cemu je e ishod slucajnog pokusa.

Kao sto je poznato, ako su C i D skupovi, onda skup svih uredenih parova (c, d) takvih daje c ∈ C i d ∈ D nazivamo direktnim ili Kartezijevim1 produktom skupova C i D. Posebno,direktan produkt R×R skupa realnih brojeva R sa samim sobom je skup svih uredenih parovarealnih brojeva, kojega jos nazivamo realnom ravninom. Ocigledno, ako je (X,Y ) slucajnivektor, onda je RX,Y podskup realne ravnine.

Ako je B proizvoljan podskup realne ravnine, onda s (X,Y ) ∈ B oznacavamo dogadaj kojije sastoji od svih ishoda e takvih da ureden par (X(e), Y (e)) pripada skupu B. Distribucijaili zakon slucajnog vektora (X,Y ) je funkcija PX,Y koja svakom podskupu B realne ravninepridruzuje vjerojatnost PX,Y (B) = P((X,Y ) ∈ B). Lako se vidi da je PX,Y vjerojatnosnamjera na realnoj ravnini. Posebno, PX,Y (R× R) = P((X,Y ) ∈ R× R) = 1.

Ako su C i D podskupovi skupa realnih brojeva, onda se dogadaj (X,Y ) ∈ C×D ociglednosastoji od svih ishoda e takvih da X(e) pripada skupu C i Y (e) pripada skupu D, sto znaci daje taj dogadaj jednak presjeku dogadaja X ∈ C i Y ∈ D. Umjesto P(X ∈ C ∩ Y ∈ D) obicnopisemo P(X ∈ C, Y ∈ D), tj. umjesto znaka presjeka stavljamo zarez. Ako je C ili D intervalili drugi jednostavan skup, onda koristimo notaciju sa znakovima jednakosti i nejednakostikoju smo uveli kod slucajnih varijabli.

Distribuciju PX,Y slucajnog vektora (X,Y ) takoder nazivamo zajednickom distribucijomslucajnih varijabli X i Y , a distribucije PX i PY nazivamo njihovim marginalnim distribuci-jama. Iz zajednicke distribucije mozemo lako dobiti marginalne, jer ako su C i D proizvoljnipodskupovi skupa realnih brojeva, onda je

(8.1) PX(C) = P(X ∈ C) = P(X ∈ C, Y ∈ R) = PX,Y (C × R)

i slicno tome

(8.2) PY (D) = P(Y ∈ D) = P(X ∈ R, Y ∈ D) = PX,Y (R×D) .

Pokazuje se da je distribucija bivarijatnog slucajnog vektora potpuno odredena svojimvrijednostima na skupovima oblika (−∞, x]×(−∞, y], pri cemu su x i y realni brojevi. Pritom,funkciju FX,Y koja svakom uredenom paru (x, y) realnih brojeva pridruzuje vjerojatnost

FX,Y (x, y) = PX,Y ((−∞, x]× (−∞, y])

= P((X,Y ) ∈ (−∞, x]× (−∞, y])

= P(X ∈ (−∞, x], Y ∈ (−∞, y])

= P(X ≤ x, Y ≤ y)

(8.3)

1Rene Descartes (1596.-1650.) – francuski filozof

8-1

Page 94: Skripta iz statistike

nazivamo funkcijom distribucije slucajnog vektora (X,Y ). Takoder, FX,Y nazivamo zajednic-kom, dok FX i FY nazivamo marginalnim funkcijama distribucije slucajnih varijabli X i Y .Prema prethodnome, iz zajednicke funkcije distribucije mozemo dobiti marginalne, jer za svakirealni broj x vrijedi

(8.4) FX(x) = PX((−∞, x]) = PX,Y ((−∞, x]× R) = limy→+∞

FX,Y (x, y) = FX,Y (x,+∞) .

Slicno tome, za svaki realni broj y vrijedi

(8.5) FY (y) = PY ((−∞, y]) = PX,Y (R× (−∞, y]) = limx→+∞

FX,Y (x, y) = FX,Y (+∞, y) .

Za slucajni vektor (X,Y ) kazemo da je diskretan ako je skup njegovih vrijednosti RX,Y

prebrojiv. Nije tesko zakljuciti da je (X,Y ) diskretan slucajni vektor ako i samo ako su Xi Y diskretne slucajne varijable. Posebno, uocimo da za svaki slucajni vektor (X,Y ) vrijediRX,Y ⊆ RX ×RY .

Ako je (X,Y ) diskretan slucajni vektor, onda funkciju fX,Y koja svakom uredenom parurealnih brojeva (x, y) pridruzuje vjerojatnost

(8.6) fX,Y (x, y) = P(X = x, Y = y)

nazivamo funkcijom vjerojatnosti ili funkcijom mase vjerojatnosti slucajnog vektora (X,Y ).Ocigledno, fX,Y je nenegativna funkcija, a ako ureden par (x, y) ne pripada skupu vrijednostiRX,Y slucajnog vektora (X,Y ), onda je fX,Y (x, y) = P(∅) = 0. Nadalje, ako je B proizvoljanpodskup realne ravnine, onda bismo ponavljanjem razmisljanja slicnog onome kojega smoproveli kod slucajnih varijabli dobili da vjerojatnost da (X,Y ) pripada skupu B iznosi

(8.7) P((X,Y ) ∈ B) =∑

(x,y)∈BfX,Y (x, y) ,

pri cemu se zbraja po svim vrijednostima (x, y) slucajnog vektora (X,Y ) koje pripadaju skupuB. Ako u prethodnu formulu uvrstimo B = R× R, onda imamo

(8.8)∑

(x,y)∈R×RfX,Y (x, y) = 1 ,

pri cemu se zbraja po svim vrijednostima slucajnog vektora (X,Y ). Ako su x i y proizvoljnirealni brojevi, te ako uzmemo B = (−∞, x]× (−∞, y], onda slijedi

(8.9) FX,Y (x, y) =∑

u≤x, v≤yfX,Y (u, v) ,

pri cemu se zbraja po svim vrijednostima (u, v) od (X,Y ) takvima da je u ≤ x i v ≤ y.Takoder, ako stavimo B = x × R, odnosno B = R× y, onda slijedi

(8.10) fX(x) =∑y∈R

fX,Y (x, y) ,

odnosno

(8.11) fY (y) =∑x∈R

fX,Y (x, y) .

Pritom se u prvoj jednakosti zbraja po svim vrijednostima y slucajne varijable Y , a drugoj posvim vrijednostima x slucajne varijable X. Naravno, fX,Y nazivamo zajednickom, a fX i fYmarginalnim funkcijama vjerojatnosti slucajnih varijabli X i Y .

8-2

Page 95: Skripta iz statistike

Primjer 8.1. Slucajno se bacaju tri novcica. Neka je X broj glava na prva dva, a Y brojglava na posljednja dva novcica.

(a) Odredite zajednicku i marginalne funkcije vjerojatnosti slucajnih varijabli X i Y .

(b) Nadite zajednicku funkciju distribucije slucajnih varijabli X i Y .

(c) Izracunajte ocekivanje slucajne varijable Z = XY .

S obzirom da bacanje jednog novcica ima 2 ishoda – pismo p i glavu g, zakljucujemo dabacanje tri novcica ima 2 · 2 · 2 = 8 ishoda, te je ovdje

Ω = ppp, ppg, pgp, gpp, pgg, gpg, ggp, ggg .

Neka X oznacava broj glava na prva dva, a Y na posljednja dva novcica. Ocigledno suX i Y diskretne slucajne varijable, te je RX = RY = 0, 1, 2. S obzirom da je RX,Y ⊆RX ×RY = 0, 1, 2 × 0, 1, 2, te da je fX,Y (x, y) = 0 za (x, y) /∈ RX,Y , slijedi da je dovoljnoodrediti vrijednost zajednicke funkcije vjerojatnosti fX,Y (x, y) kada x i y pripadaju skupuRX = RY = 0, 1, 2:

fX,Y (0, 0) = P(X = 0, Y = 0) = P(ppp) = 1/8 ,

fX,Y (0, 1) = P(X = 0, Y = 1) = P(ppg) = 1/8 ,

fX,Y (0, 2) = P(X = 0, Y = 2) = P(∅) = 0 ,

fX,Y (1, 0) = P(X = 1, Y = 0) = P(gpp) = 1/8 ,

fX,Y (1, 1) = P(X = 1, Y = 1) = P(pgp, gpg) = 2/8 ,

fX,Y (1, 2) = P(X = 1, Y = 2) = P(pgg) = 1/8 ,

fX,Y (2, 0) = P(X = 2, Y = 0) = P(∅) = 0 ,

fX,Y (2, 1) = P(X = 2, Y = 1) = P(ggp) = 1/8 ,

fX,Y (2, 2) = P(X = 2, Y = 2) = P(ggg) = 1/8 .

Te vrijednosti smo pregledno prikazali u tablici kontingencije 8.1. Iz (8.10), odnosno (8.11)slijedi da cemo zbrajanjem vjerojatnosti u istom retku, odnosno stupcu tablice kontingencijedobiti vrijednost marginalne funkcije vjerojatnosti slucajne varijable X, odnosno Y , sto smotakoder prikazali u tablici 8.1. Dakle, fX(0) = 1/4, fX(1) = 1/2 i fX(2) = 1/4, te fX(x) =0 za svaki drugi x. Slicno vrijedi za slucajnu varijablu Y . Naravno, marginalne funkcijevjerojatnosti identicne su funkciji vjerojatnosti koju smo imali u primjeru 7.1, jer X i Ypredstavljaju broj glava na dva bacena novcica.

Tablica 8.1. Vrijednosti zajednicke i marginalnih funkcija vjerojatnosti slucajnih vari-jabli X i Y iz primjera 8.1.

yx 0 1 2

∑0 1/8 1/8 0 1/41 1/8 2/8 1/8 1/22 0 1/8 1/8 1/4∑

1/4 1/2 1/4 1

Vrijednosti slucajne varijable X dijele x-os na 4 intervala: (−∞, 0), [0, 1), [1, 2), [2,+∞).Na jednak nacin, vrijednosti slucajne varijable Y dijele y-os na ista 4 intervala. Kartezijevimproduktom tih intervala na x− i y-osi nastaje 16 pravokutnika u xy-ravnini, unutar kojih ce

8-3

Page 96: Skripta iz statistike

vrijednost funkcije distribucije FX,Y biti konstantna. Navedeni intervali i vrijednosti funkcijedistribucije u odgovarajucim pravokutnicima prikazani su u tablici 8.2.

Tablica 8.2. Vrijednosti zajednicke funkcije distribucije slucajnih varijabli X i Y izprimjera 8.1.

yx (−∞, 0) [0, 1) [1, 2) [2,+∞)

(−∞, 0) 0 0 0 0[0, 1) 0 1/8 1/4 1/4[1, 2) 0 1/4 5/8 3/4

[2,+∞) 0 1/4 3/4 1

Iz tablice 8.2 vidimo da za svaki realni broj x vrijedi

FX(x) = limy→+∞

FX,Y (x, y) =

0 , x < 01/4 , 0 ≤ x < 13/4 , 1 ≤ x < 21 , x ≥ 2

,

sto je jednako rezultatu kojega smo dobili u primjeru 7.1. Na slican nacin mozemo odreditimarginalnu funkciju distribucije slucajne varijable Y . Naravno, marginalne funkcije distribu-cije mogli bismo odrediti i iz marginalnih funkcija vjerojatnosti.

Konacno, izracunajmo ocekivanje slucajne varijable Z = XY = g(X,Y ). Vrijednostifunkcije g(x, y) = xy kada x i y pripadaju skupu RX = RY = 0, 1, 2 prikazane su utablici 8.3.

Tablica 8.3. Vrijednosti funkcije g(x, y) = xy za x i y iz skupa 0, 1, 2.

yx 0 1 2

0 0 0 01 0 1 22 0 2 4

Ocigledno, Z je diskretna slucajna varijabla sa skupom vrijednosti RZ = 0, 1, 2, 4. Koris-teci tablice 8.3 i 8.1, te jednakost (8.7), slijedi da funkcija vjerojatnosti od Z ima vrijednostifZ(0) = 3/8, fZ(1) = 2/8, fZ(2) = 2/8, fZ(4) = 1/8, te fZ(z) = 0 za svaki drugi z. Prematome, ocekivanje od Z iznosi

E(Z) = 0 · 3

8+ 1 · 2

8+ 2 · 2

8+ 4 · 1

8=

5

4.

Opcenito, ako je (X,Y ) bivarijatni slucajni vektor i g je funkcija iz R × R u R, onda jeZ = g(X,Y ) slucajna varijabla, ciji se skup vrijednosti sastoji od svih realnih brojeva g(x, y),pri cemu je (x, y) vrijednost slucajnog vektora (X,Y ). Ako je (X,Y ) diskretan, onda je Ztakoder diskretna, s funkcijom vjerojatnosti

(8.12) fZ(z) =∑

g(x,y)=z

fX,Y (x, y) ,

pri cemu se zbraja po svim vrijednostima (x, y) slucajnog vektora (X,Y ) za koje je g(x, y) = z.Stoga, ocekivanje od Z iznosi

E(Z) =∑zfZ(z) ,

8-4

Page 97: Skripta iz statistike

pri cemu se zbraja po svim vrijednostima z od Z. Razmisljanjem slicnim onome kojega smoproveli u izvodenju formule (7.11), zakljucili bismo da se ocekivanje od Z = g(X,Y ) mozedobiti kao

(8.13) E(g(X,Y )) =∑

(x,y)∈R×Rg(x, y)fX,Y (x, y) ,

pri cemu se zbraja po svim vrijednostima (x, y) slucajnog vektora (X,Y ).Primjenom gornje jednakosti na slucajni vektor (X,Y ) iz primjera 8.1 i funkciju g(x, y) =

xy, te uzimajuci u obzir da je g(0, y) = g(x, 0) = 0, imamo da je

E(XY ) = 1 · 1 · 2

8+ 1 · 2 · 1

8+ 2 · 1 · 1

8+ 2 · 2 · 1

8=

5

4,

sto se naravno podudara s rezultatom kojega smo prije dobili.Neprekidni slucajni vektori imaju funkciju gustoce vjerojatnosti. Medutim, funkcija gus-

toce vjerojatnosti neprekidnog bivarijatnog slucajnog vektora je realna funkcija dvije realnevarijable, ciji je graf ploha u prostoru, a vjerojatnost se odreduje kao volumen ispod te plohe,koji opcenito nalazimo dvostrukim integralom. Zbog slozenosti matematicke teorije potrebneza rad s neprekidnim slucajnim vektorima, ovdje cemo navesti samo osnovne definicije i pra-vila.

Za slucajni vektor (X,Y ) kazemo da je neprekidan ako postoji nenegativna funkcija fX,Y

iz R× R u R takva da je

(8.14) P((X,Y ) ∈ B) =∫B

fX,Y (x, y) d(x, y)

za svaki pravokutnik B = [a, b] × [c, d], pri cemu su a, b, c, d realni brojevi takvi da je a ≤ bi c ≤ d. Formula (8.14) zapravo vrijedi za siroku klasu podskupova B realne ravnine R × R.Posebno, ako je B podskup od R×R povrsine 0, kao sto su npr. prebrojivi skupovi ili dijelovipravca, onda je P((X,Y ) ∈ B) = 0. Ako uzmemo B = R× R, onda imamo da je

(8.15)∫

R×RfX,Y (x, y) d(x, y) = 1 ,

tj. ukupan volumen ispod grafa funkcije gustoce vjerojatnosti iznosi 1.Ako su x i y realni brojevi, te u (8.14) uvrstimo B = (−∞, x] × (−∞, y], onda dobivamo

vrijednost funkcije distribucije u (x, y):

(8.16) FX,Y (x, y) =∫

(−∞,x]×(−∞,y]

fX,Y (u, v) d(u, v) =x∫−∞

duy∫−∞

fX,Y (u, v) dv .

Dakle, funkciju gustoce vjerojatnosti mozemo dobiti deriviranjem funkcije distribucije:

(8.17) fX,Y (x, y) =∂2

∂y∂xFX,Y (x, y) .

Ako je x proizvoljan realan broj i u (8.14) uvrstimo B = (−∞, x]× R, onda imamo

FX(x) =x∫−∞

du∫RfX,Y (u, y) d(u, y) ,

8-5

Page 98: Skripta iz statistike

odakle, deriviranjem po x, slijedi da je X neprekidna slucajna varijabla s marginalnom funk-cijom gustoce vjerojatnosti

(8.18) fX(x) =∫RfX,Y (x, y) dy .

Slicnim razmisljanjem dobiva se da je Y takoder neprekidna slucajna varijabla, te da za svakirealni broj y vrijedi

(8.19) fY (y) =∫RfX,Y (x, y) dx .

Konacno, ako je g funkcija iz R×R u R, onda ocekivanje slucajne varijable g(X,Y ) iznosi

(8.20) E(g(X,Y )) =∫

R×Rg(x, y)fX,Y (x, y) d(x, y) .

Zbroj slucajnih varijabli

Jedna od najvaznijih funkcija koje mozemo primijeniti na dvije slucajne varijable X i Y ,definirane na istom prostoru ishoda, je upravo zbroj, tj. funkcija g iz R × R u R takva daje g(x, y) = x + y za svaka dva realna broja x i y. U nastavku cemo izracunati ocekivanje ivarijancu zbroja X + Y = g(X,Y ) slucajnih varijabli X i Y .

Pretpostavimo npr. da je (X,Y ) diskretan slucajni vektor sa zajednickom funkcijom vje-rojatnosti fX,Y . Prema (8.13), ocekivanje od X + Y iznosi

E(X + Y ) = E(g(X,Y ))

=∑g(x, y)fX,Y (x, y)

=∑

(x+ y)fX,Y (x, y)

=∑xfX,Y (x, y) +

∑yfX,Y (x, y) ,

pri cemu se zbraja po svim vrijednostima (x, y) slucajnog vektora (X,Y ).S obzirom da su X i Y takoder diskretne, njihove vrijednosti mogu se napisati u obliku

niza. Stoga, pretpostavimo da su x1, x2, x3, . . . vrijednosti slucajne varijable X, a y1, y2, y3, . . .vrijednosti slucajne varijable Y . Tada, vrijednosti slucajnog vektora (X,Y ) jesu sve sadrzaneu sljedecoj tablici:

(x1, y1) (x1, y2) (x1, y3) . . .(x2, y1) (x2, y2) (x2, y3) . . .(x3, y1) (x3, y2) (x3, y3) . . .

......

.... . .

.

Buduci da vrijednost zbroja ne zavisi o poretku pribrojnika, svejedno je zbrajamo li po ret-cima ili stupcima te tablice. Tako, zbrajamo li po retcima, onda koristeci izraze za marginalnufunkciju vjerojatnosti (8.10) i ocekivanje slucajne varijable (7.9), dobivamo da je∑

xfX,Y (x, y) =∑i

∑j

xifX,Y (xi, yj) =∑i

xi∑j

fX,Y (xi, yj) =∑i

xifX(xi) = E(X) .

Slicno tome, zbrajanjem po stupcima i koristenjem (8.11) i (7.9), zakljucujemo da je∑yfX,Y (x, y) =

∑j

∑i

yjfX,Y (xi, yj) =∑j

yj∑i

fX,Y (xi, yj) =∑j

yjfY (yj) = E(Y ) .

8-6

Page 99: Skripta iz statistike

Uvrstavanjem tih rezultata u izraz za ocekivanje zbroja, slijedi da je E(X+Y ) = E(X)+E(Y ).Moze se pokazati da ta jednakost vrijedi i kada slucajni vektor (X,Y ) nije diskretan.

Prema tome, ocekivanje zbroja svake dvije slucajne varijable X i Y , definirane na istomprostoru ishoda, jednako je zbroju njihovih ocekivanja, tj.

(8.21) E(X + Y ) = E(X) + E(Y ) .

Navedeno svojstvo zove se aditivnost ocekivanja. Sjetimo se da ocekivanje ima i svojstvo homo-genosti (7.22), a za operaciju koja je istovremeno aditivna i homogena, kazemo da je linearna.Pored ocekivanja, mnoge vazne matematicke operacije imaju svojstvo linearnosti – zbrojevi,limesi, derivacije, integrali i druge.

Ako su sada X, Y , Z tri slucajne varijable definirane na istom prostoru ishoda, ondaimamo

E(X + Y + Z) = E((X + Y ) + Z)

= E(X + Y ) + E(Z)

= (E(X) + E(Y )) + E(Z)

= E(X) + E(Y ) + E(Z) .

Jasno je da se gornji postupak moze ponoviti za cetiri ili vise slucajnih varijabli. Prematome, ako su X1, X2, . . . , Xn slucajne varijable definirane na istom prostoru ishoda, onda je

(8.22) E(X1 +X2 + · · ·+Xn) = E(X1) + E(X2) + · · ·+ E(Xn) ,

ili skraceno

(8.23) E(∑Xi) =

∑E(Xi) .

Primjer 8.2. Izracunajte ocekivanje slucajne varijable 5X − 2Y + 3, gdje su X i Y slucajnevarijable iz primjera 8.1.

Iz primjera 7.2 znamo da je E(X) = E(Y ) = 1, pa imamo

E(5X − 2Y + 3) = E(5X − 2Y ) + 3

= E(5X + (−2)Y ) + 3

= E(5X) + E((−2)Y ) + 3

= 5E(X) + (−2)E(Y ) + 3

= 5E(X)− 2E(Y ) + 3

= 5 · 1− 2 · 1 + 3

= 6 .

Izracunajmo sada varijancu zbroja slucajnih varijabli. Stoga, uzmimo jos jednom da su Xi Y slucajne varijable definirane na istom prostoru ishoda, te da je µX = E(X) i µY = E(Y ).Prema prethodnom, E(X + Y ) = µX + µY , odakle slijedi da kvadratna devijacija zbrojaslucajnih varijabli X i Y iznosi

((X + Y )− (µX + µY ))2 = ((X − µX) + (Y − µY ))2

= (X − µX)2 + 2(X − µX)(Y − µY ) + (Y − µY )2 .

8-7

Page 100: Skripta iz statistike

Varijanca je po definiciji jednaka ocekivanju kvadratne devijacije, pa primjenom ocekivanja nagornju jednakost, te koristeci aditivnost i homogenost, sada imamo

Var(X + Y ) = Var(X) + 2E((X − µX)(Y − µY )) + Var(Y ) .

Prema tome, varijanca zbroja opcenito nije jednaka zbroju varijanci. Slucajna varijabla(X − µX)(Y − µY ) je produkt devijacija slucajnih varijabli X i Y , pa se njeno ocekivanje,koje se javlja na desnoj strani gornje jednakosti za varijancu zbroja, u skladu s terminologijomkoju smo koristili kod statistickih varijabli, zove kovarijanca i oznacava se sa Cov(X,Y ). Uztu oznaku, formula za varijancu zbroja poprima oblik

(8.24) Var(X + Y ) = Var(X) + 2 Cov(X,Y ) + Var(Y ) .

Vratimo se sada kovarijanci. Kao sto smo rekli, kovarijanca Cov(X,Y ) slucajnih varijabliX i Y , definiranih na istom prostoru ishoda, po definiciji je ocekivanje produkta devijacija tihvarijabli, tj.

(8.25) Cov(X,Y ) = E((X − E(X))(Y − E(Y ))) .

Lako se vidi da je kovarijanca simetricna, tj. Cov(X,Y ) = Cov(Y,X), te da je kovarijancaslucajne varijable sa samom sobom jednaka njenoj varijanci, tj. Cov(X,X) = Var(X).

Nastavimo li koristiti oznake µX = E(X) i µY = E(Y ), onda se produkt devijacija slucajnihvarijabli X i Y moze zapisati u sljedecem obliku:

(X − µX)(Y − µY ) = XY −XµY − µXY + µXµY .

Primjenom ocekivanja na gornju jednakost, imajuci na umu da su µX i µY konstante, slijedi

Cov(X,Y ) = E(XY )− µXµY − µXµY + µXµY ,

odnosno

(8.26) Cov(X,Y ) = E(XY )− E(X)E(Y ) ,

sto znaci da kovarijancu mozemo dobiti tako da od ocekivanja produkta oduzmemo produktocekivanja.

Kovarijancu mozemo shvatiti kao funkciju koja svakom paru slucajnih varijabli (X,Y )pridruzuje broj. Dakle, kovarijanca je funkcija od dvije varijable ili dva argumenta. Pokazatcemo da je kovarijanca linearna, tj. aditivna i homogena, u svakom svojem argumentu, pa sekaze da je kovarijanca bilinearna. Zbog simetricnosti, linearnost je dovoljno provjeriti u npr.drugom argumentu.

Da bismo dobili homogenost, promotrit cemo nesto opcenitiji problem linearne transfor-macije slucajne varijable. Stoga, neka su c i d proizvoljni realni brojevi. Znamo da jeE(dY + c) = dµY + c, odakle slijedi

Cov(X, dY + c) = E((X − µX)((dY + c)− (dµY + c)))

= E((X − µX)(dY − dµY ))

= dE((X − µX)(Y − µY )) ,

odnosno

(8.27) Cov(X, dY + c) = dCov(X,Y ) .

8-8

Page 101: Skripta iz statistike

Homogenost dobivamo ako u gornjoj formuli uzmemo c = 0.Ako je Z slucajna varijabla definirana na istom prostoru ishoda kao X i Y , s ocekivanjem

µZ = E(Z), onda, iz aditivnosti ocekivanja slijedi E(Y + Z) = µY + µZ , pa jos jednomprimjenom aditivnosti ocekivanja dobivamo

Cov(X,Y + Z) = E((X − µX)((Y + Z)− (µY + µZ)))

= E((X − µX)((Y − µY ) + (Z − µZ)))

= E((X − µX)(Y − µY ) + (X − µX)(Z − µZ))

= E((X − µX)(Y − µY )) + E((X − µX)(Z − µZ)) ,

odnosno

(8.28) Cov(X,Y + Z) = Cov(X,Y ) + Cov(X,Z) ,

cime smo dokazali aditivnosti kovarijance.

Primjer 8.3. Neka su X i Y slucajne varijable iz primjera 8.1. Izracunajte

(a) kovarijancu slucajnih varijabli X i Y ,

(b) varijancu slucajne varijable 5X − 2Y + 3.

Kovarijancu mozemo izracunati kao razliku ocekivanja produkta i produkta ocekivanja, as obzirom da iz primjera 8.1 znamo da je E(XY ) = 5/4, slijedi

Cov(X,Y ) = E(XY )− E(X)E(Y ) = 5/4− 1 · 1 = 1/4 .

Iz primjera 7.3 znamo da je Var(X) = Var(Y ) = 1/2, pa varijanca slucajne varijable5X − 2Y + 3 iznosi

Var(5X − 2Y + 3) = Var(5X − 2Y )

= Var(5X + (−2)Y )

= Var(5X) + 2 Cov(5X, (−2)Y ) + Var((−2)Y )

= 52 Var(X) + 2 · 5 · (−2) Cov(X,Y ) + (−2)2 Var(Y )

= 25 · 1/2− 20 · 1/4 + 4 · 1/2= 19/2 .

Osobine kovarijance mozemo upotrijebiti da vrlo jednostavno izvedemo formulu (8.24).Naime, kovarijanca je bilinearna i simetricna, a kovarijanca neke varijable sa samom sobom jevarijanca te varijable, pa imamo

Var(X + Y ) = Cov(X + Y,X + Y )

= Cov(X,X + Y ) + Cov(Y,X + Y )

= Cov(X,X) + Cov(X,Y ) + Cov(Y,X) + Cov(Y, Y )

= Var(X) + 2 Cov(X,Y ) + Var(Y ) .

Uocimo da pretposljednji redak gornjeg izvoda sadrzi zbroj kovarijanci svih mogucih parovavarijabli X i Y , kojih ima svega 4 i koje mozemo pregledno prikazati u obliku kvadratnematrice reda 2: (

Cov(X,X) Cov(X,Y )Cov(Y,X) Cov(Y, Y )

).

8-9

Page 102: Skripta iz statistike

Tu matricu nazivamo kovarijacijskom matricom slucajnih varijabli X i Y . Uocimo da jekovarijacijska matrica simetricna i da se na njenoj glavnoj dijagonali nalaze varijance slucajnihvarjabli X i Y .

Prednost ove tehnike odredivanja varijance zbroja je da se lako moze poopciti na zbrojvise slucajnih varijabli. Naime, ako su X1, X2, . . . , Xn slucajne varijable definirane na istomprostoru ishoda, onda ce kovarijacijska matrica tih slucajnih varijabli imati oblik kvadratnematrice reda n:

Cov(X1, X1) Cov(X1, X2) · · · Cov(X1, Xn)Cov(X2, X1) Cov(X2, X2) · · · Cov(X2, Xn)

......

. . ....

Cov(Xn, X1) Cov(Xn, X2) · · · Cov(Xn, Xn)

.

Varijanca zbroja∑Xi jednaka je naravno zbroju svih elemenata kovarijacijske matrice. Uz-

memo li u obzir da je kovarijacijska matrica simetricna i da su na njenoj glavnoj dijagonalivarijance slucajnih varijabli X1, X2, . . . , Xn, onda slijedi

(8.29) Var(∑i

Xi) =∑i

Var(Xi) + 2∑i<j

Cov(Xi, Xj) .

Za slucajne varijable X1, X2, . . . , Xn kazemo da su nekorelirane ako za svaka dva razlicitaindeksa i, j vrijedi Cov(Xi, Xj) = 0, sto znaci da su svi elementi izvan glavne dijagonalekovarijacijske matrice tih slucajnih varijabli jednaki 0. Drugim rijecima, kovarijacijska matricaje dijagonalna. Ocigledno, to povlaci

(8.30) Var(∑Xi) =

∑Var(Xi) ,

tj. varijanca zbroja nekoreliranih slucajnih varijabli jednaka je zbroju njihovih varijanci.Na kraju, podsjetimo da je kovarijanca mjera linearne zavisnosti. Ako su X i Y slu-

cajne varijable definirane na istom prostoru ishoda, onda se koeficijent linearne korelacije tihslucajnih varijabli definira kao kovarijanca standardiziranih varijabli

X − E(X)√Var(X)

iY − E(Y )√

Var(Y ),

te se oznacava sa ρXY . S obzirom da je

Cov

(X − E(X)√

Var(X),Y − E(Y )√

Var(Y )

)=

Cov(X − E(X), Y − E(Y ))√Var(X)

√Var(Y )

=Cov(X,Y )√

Var(X)√

Var(Y ),

zakljucujemo da se koeficijent linearne korelacije ρXY slucajnih varijabli X i Y moze dobiti kaoomjer njihove kovarijance i produkta njihovih standardnih devijacija. Ocigledno, ρXY = ρY X

i ρXX = 1, tj. koeficijent linearne korelacije je simetrican i koeficijent linearne korelacijeslucajne varijable sa samom sobom iznosi 1.

Moze se pokazati da je uvijek |ρXY | ≤ 1, te da jednakost vrijedi ako i samo ako je jednaslucajna varijabla linearna transformacija druge.

Ako imamo niz X1, X2, . . . , Xn slucajnih varijabli definiranih na istom prostoru ishoda,onda anologno kovarijacijskoj matrici mozemo formirati korelacijsku matricu, ciji ce elementibiti koeficijenti linearne korelacije izmedu svih mogucih parova tih slucajnih varijabli. Korela-cijska matrica je simetricna matrica reda n, na cijoj su glavnoj dijagonali jedinice.

8-10

Page 103: Skripta iz statistike

Nezavisnost slucajnih varijabli

Po ugledu na nezavisnost statistickih varijabli, za dvije slucajne varijable rekli bismo da sunezavisne ako su njihove uvjetne distribucije jednake marginalnima. Primjerice, za diskretneslucajne varijable X i Y to bi znacilo da je

P(Y = y |X = x) = P(Y = y)

za sve realne brojeve x i y takve da je P(X = x) 6= 0, te istovremeno

P(X = x |Y = y) = P(X = x)

za sve realne brojeve x i y takve da je P(Y = y) 6= 0. Medutim, iz nezavisnosti dogadajaznamo da su gornja dva zahtjeva ekvivalentna zahtjevu da je

P(X = x, Y = y) = P(X = x)P(Y = y) ,

odnosno

(8.31) fX,Y (x, y) = fX(x)fY (y)

za sve realne brojeve x i y. Dakle, zajednicka funkcija vjerojatnosti nezavisnih diskretnihslucajnih varijabli jednaka je produktu njihovih marginalnih funkcija vjerojatnosti.

Neka su sada C i D proizvoljni podskupovi skupa realnih brojeva. Kao sto smo jednomvec napravili, vrijednosti (x, y) slucajnog vektora (X,Y ) u skupu C × D mozemo napisati uobliku tablice, pa zbrajanjem po retcima te tablice slijedi∑

x∈C

∑y∈D

fX,Y (x, y) =∑x∈C

∑y∈D

fX(x)fY (y) =∑x∈C

fX(x)∑y∈D

fY (y) ,

odakle, koristenjem (8.7) i (7.6), dobivamo

(8.32) P((X,Y ) ∈ C ×D) = P(X ∈ C)P(Y ∈ D) .

Prema definiciji Kartezijevog produkta, dogadaj (X,Y ) ∈ C × D jednak je presjeku do-gadaja X ∈ C i Y ∈ D, pa gornja jednakost zapravo znaci da su dogadaji X ∈ C i Y ∈ Dnezavisni.

Ako u (8.32) uzmemo C = x i D = y, pri cemu su x i y proizvoljni realni brojevi,onda dobivamo (8.31), sto znaci da su uvjeti (8.31) i (8.32) ekvivalentni. S obzirom da (8.32)ne sadrzi pretpostavku da su slucajne varijable X i Y diskretne, upravo taj uvjet obicnouzimamo kao definiciju nezavisnosti. Prema tome, za dvije slucajne varijable X i Y kazemoda su nezavisne ako su dogadaji X ∈ C i Y ∈ D nezavisni za bilo koje podskupove C i Dskupa realnih brojeva, tj. ako vrijedi (8.32).

Ako uzmemo C = (−∞, x] i D = (−∞, y], onda iz (8.32) dobivamo

(8.33) FX,Y (x, y) = FX(x)FY (y) ,

za svaka dva realna broja x i y. Drugim rijecima, zajednicka funkcija distribucije nezavisnihslucajnih varijabli jednaka je produktu njihovih marginalnih funkcija distribucije. S obziromda je vjerojatnosna mjera jednoznacno odredena funkcijom distribucije, slijedi da su uvjeti(8.33) i (8.32) takoder ekvivalentni.

8-11

Page 104: Skripta iz statistike

Konacno, kod neprekidnih slucajnih varijabli, deriviranjem funkcije distribucije dobiva sefunkcija gustoce vjerojatnosti, a integriranjem funkcije gustoce vjerojatnosti dobiva se funk-cija distribucije, pa ce dvije neprekidne slucajne varijable biti nezavisne ako i samo ako imje zajednicka funkcija gustoce vjerojatnosti jednaka produktu marginalnih funkcija gustocevjerojatnosti, sto formalno ima isti oblik kao uvjet (8.31).

Primjer 8.4. Neka su X i Y slucajne varijable iz primjera 8.1. Jesu li X i Y nezavisne?

Buduci da se slucajni pokus sastoji u bacanju tri novcica, a X je broj glava na prvadva, dok je Y broj glava na posljednja dva novcica, intuitivno nam je jasno da X i Y nisunezavisne, sto mozemo i formalno provjeriti. Naime, s obzirom da su X i Y diskretne, onece biti nezavisne ako i samo ako im je zajednicka funkcija vjerojatnosti jednaka produktumarginalnih funkcija vjerojatnosti. Medutim, npr. za x = 0 i y = 2 imamo

fX,Y (x, y) = fX,Y (0, 2) = 0 ,

fX(x)fY (y) = fX(0)fY (2) = 1/4 · 1/4 = 1/16 ,

te je ocigledno fX,Y (x, y) 6= fX(x)fY (y), pa uvjet nezavisnosti nije ispunjen.

Primjer 8.5. Slucajni pokus sastoji se u bacanju dvije igrace kocke. Ako je X broj na prvoj,a Y broj na drugoj kocki, jesu li slucajne varijable X i Y nezavisne?

Ovdje je RX = RY = 1, 2, 3, 4, 5, 6, pa su X i Y diskretne. Stovise, ocekujemo da ce Xi Y biti nezavisne. Da bismo to provjerili, moramo pokazati da jednakost (8.31) vrijedi za sverealne brojeve x i y. Medutim, ako su x i y takvi da x /∈ RX ili y /∈ RY , onda (x, y) /∈ RX,Y ,pa je fX,Y (x, y) = 0 i k tome fX(x) = 0 ili fY (y) = 0, sto znaci da je jednakost sigurnoispunjena. Prema tome, dovoljno je uvjet (8.31) provjeriti za x ∈ RX i y ∈ RY , tj. samo zavrijednosti slucajnih varijabli X i Y .

Stoga, pretpostavimo da su x i y elementi skupa RX = RY = 1, 2, 3, 4, 5, 6. Buduci da jefX,Y (x, y) vjerojatnost da se na kockama pojavio par (x, y), a mogucih parova ima 36, slijedida je fX,Y (x, y) = 1/36. S druge strane, fX(x), odnosno fY (y) je vjerojatnost da se na prvoj,odnosno drugoj kocki pojavio broj x, odnosno y, pa je fX(x) = fY (y) = 1/6, jer na svakojkocki ima svega 6 brojeva. Na osnovu navedenog, zakljucujemo da je

fX,Y (x, y) = 1/36 = 1/6 · 1/6 = fX(x)fY (y) ,

za sve x ∈ RX i y ∈ RY , sto znaci da su X i Y nezavisne.Zajednicka i marginalne funkcije vjerojatnosti slucajnih varijabli X i Y prikazane su u

tablici 8.4, iz koje jos jednom vidimo da je fX,Y (x, y) = fX(x)fY (y) za sve x ∈ RX i y ∈ RY .Sada cemo navesti dvije vazne osobine nezavisnih slucajnih varijabli. Prvo, funkcije neza-

visnih slucajnih varijabli su takoder nezavisne, tj. ako su X i Y nezavisne slucajne varijable,te ako su g i h funkcije iz R u R, onda su slucajne varijable g(X) i h(Y ) isto tako nezavisne.Da bismo to pokazali, upotrijebit cemo definiciju nezavisnosti slucajnih varijabli. Stoga, nekasu C i D proizvoljni podskupovi skupa realnih brojeva. Trebamo zakljuciti da su dogadajig(X) ∈ C i h(Y ) ∈ D nezavisni. U tu svrhu, neka se skup C ′ sastoji od svih realnih brojevax takvih da je g(x) ∈ C, te neka se skup D′ sastoji od svih realnih brojeva y takvih da jeh(y) ∈ D. Lako se vidi da se dogadaji g(X) ∈ C i X ∈ C ′ sastoje od istih ishoda, sto znacida su ti dogadaji jednaki. Dogadaji h(Y ) ∈ D i Y ∈ D′ su takoder jednaki. Konacno, po

8-12

Page 105: Skripta iz statistike

Tablica 8.4. Vrijednosti zajednicke i marginalnih funkcija vjerojatnosti slucajnih vari-jabli X i Y iz primjera 8.5.

yx 1 2 3 4 5 6

∑1 1/36 1/36 1/36 1/36 1/36 1/36 1/62 1/36 1/36 1/36 1/36 1/36 1/36 1/63 1/36 1/36 1/36 1/36 1/36 1/36 1/64 1/36 1/36 1/36 1/36 1/36 1/36 1/65 1/36 1/36 1/36 1/36 1/36 1/36 1/66 1/36 1/36 1/36 1/36 1/36 1/36 1/6∑

1/6 1/6 1/6 1/6 1/6 1/6 1

definiciji nezavisnosti slucajnih varijabli, dogadaji X ∈ C ′ i Y ∈ D′ su nezavisni, odakle slijedi

P(g(X) ∈ C, h(Y ) ∈ D) = P(X ∈ C ′, Y ∈ D′)= P(X ∈ C ′)P(Y ∈ D′)= P(g(X) ∈ C)P(h(Y ) ∈ D) ,

sto znaci da su g(X) ∈ C i h(Y ) ∈ D takoder nezavisni.Druga vazna osobina nezavisnih varijabli tice se ocekivanja njihovog produkta. Naime, ako

su X i Y nezavisne slucajne varijable, onda je

(8.34) E(XY ) = E(X)E(Y ) ,

tj. ocekivanje produkta nezavisnih slucajnih varijabli jednako je produktu njihovih ocekivanja.Da bismo se u to uvjerili, pretpostavimo da su X i Y nezavisne diskretne slucajne varijable, stoznaci da je fX,Y (x, y) = fX(x)fY (y) za svaka dva realna broja x i y. Ako vrijednosti slucajnogvektora (X,Y ) zapisemo u obliku tablice, kao sto smo ranije vec cinili, te ako zbrajamo poretcima te tablice, onda imamo∑∑

xyfX,Y (x, y) =∑∑

xyfX(x)fY (y) =∑xfX(x)

∑yfY (y) ,

pri cemu se prvi zbroj vrsi po svim vrijednostima od X, a drugi po svim vrijednostimaod Y . Primjenom (8.13) i (7.11) na gornju jednakost, neposredno dobivamo (8.34). Slicnorazmisljanje moze se provesti kada X i Y nisu nuzno diskretne.

Iz (8.34) zakljucujemo da za nezavisne slucajne varijable X i Y vrijedi

Cov(X,Y ) = E(XY )− E(X)E(Y ) = 0 ,

tj. nezavisne slucajne varijable su nekorelirane. Premda nezavisnost povlaci nekoreliranost,obrat opcenito ne vrijedi, tj. nekorelirane slucajne varijable ne moraju biti nezavisne. Naime,kao sto dobro znamo, kovarijanca je mjera linearne zavisnosti, a varijable mogu biti funkcijskizavisne, iako im kovarijanca iznosi nula.

Konacno, pogledajmo kako se definira nezavisnost tri ili vise slucajnih varijabli. Akoimamo proizvoljno mnogo slucajnih varijabli Xi definiranih na istom prostoru ishoda, onda zate varijable kazemo da su nezavisne ako su, za svaki cijeli broj k > 1 i svaki niz medusobnorazlicitih indeksa i1, i2, . . . , ik, dogadaji Xi1 ∈ C1, Xi2 ∈ C2, . . . , Xik ∈ Ck nezavisni, pri cemusu C1, C2, . . . , Ck proizvoljni podskupovi skupa realnih brojeva.

8-13

Page 106: Skripta iz statistike

Za vise nezavisnih slucajnih varijabli vrijede iste vazne osobine koje smo uocili kod dvijenezavisne slucajne varijable. Naime, funkcije nezavisnih slucajnih varijabli su nezavisne i oce-kivanje produkta konacno mnogo nezavisnih slucajnih varijabli jednako je produktu ocekivanjatih varijabli.

Zadaci

8.1. Neka su X i Y slucajne varijable iz primjera 8.1.

(a) Izracunajte P(X = Y ) i P(X < Y ).

(b) Odredite ocekivanje i varijancu slucajne varijable XY 2.

(c) Izracunajte Cov(X,XY 2).

8.2. S police na kojoj se nalazi 95 ispravnih i 5 neispravnih zarulja slucajno biramo dvijezarulje, bez vracanja. Neka slucajna varijabla X1 oznacava ispravnost prve, a X2 ispravnostdruge zarulje. Drugim rijecima, ako je prva zarulja ispravna, onda je X1 = 1, a inace jeX1 = 0. Slicno tome, ako je druga zarulja ispravna, onda je X2 = 1, a inace je X2 = 0.

(a) Odredite zajednicku i marginalne funkcije vjerojatnosti slucajnih varijabli X1 i X2. Stouocavate?

(b) Jesu li varijable X1 i X2 nezavisne?

(c) Izracunajte ocekivanje i varijancu od X1 i X2.

(d) Formirajte kovarijacijsku i korelacijsku matricu od X1 i X2.

(e) Izracunajte ocekivanje i varijancu slucajnih varijabli X1 +X2 i 3X1 − 2X2 + 1.

8.3. Rijesite prethodni zadatak ako se zarulje biraju s vracanjem.

8.4. Slucajni pokus se sastoji u bacanju dvije igrace kocke. Neka je X broj na prvoj kocki, aY veci od brojeva na obje kocke.

(a) Nadite zajednicku i marginalne funkcije vjerojatnosti slucajnih varijabli X i Y .

(b) Jesu li X i Y nezavisne?

(c) Izracunajte ocekivanje, varijancu i kovarijancu od X i Y .

8.5. Neka su X, Y , Z nezavisne slucajne varijable koje imaju uniformnu distribuciju s pa-rametrima 0 i 1. Izracunajte ocekivanje i varijancu aritmeticke sredine (X + Y + Z)/3 tihslucajnih varijabli.

8-14

Page 107: Skripta iz statistike

9. Normalna distribucija

Normalna distribucija

Normalna ili Gaussova1 distribucija smatra se najvaznijom distribucijom vjerojatnosti u sta-tistici.

Kazemo da je X normalna slucajna varijabla ili da X ima normalnu distribuciju s parame-trima µ i σ2, pri cemu su µ i σ2 realni brojevi i σ2 > 0, ako je X neprekidna sluacjna varijablacija funkcija gustoce vjerojatnosti ima oblik

(9.1) fX(x) =1

σ√

2πexp

(−1

2

(x− µσ

)2), x ∈ R .

U gornjoj formuli, π = 3.14159 . . . oznacava matematicku konstantu, a exp oznacava ekspo-nencijalnu funkciju. Normalnu distribuciju s parametrima µ i σ2 oznacavamo s N(µ, σ2), acinjenicu da slucajna varijabla X ima tu distribuciju ozncavamo s X ∼ N(µ, σ2).

Graf funkcije fX prikazan je na slici 9.1(a). Dakle, radi se o zvonolikoj krivulji, koja jesimetricna u odnosu na pravac x = µ, te koja se asimptotski priblizava pravcu y = 0, aliga nikada ne dodiruje, jer je fX(x) > 0 za svaki realni broj x. Funkcija fX postize svojmaksimum u x = µ, koji iznosi fX(µ) = 1/(σ

√2π), a u x = µ ± σ ima tocke infleksije.

Takoder, s obzirom da je fX funkcija gustoce vjerojatnosti, povrsina ispod grafa te funkcijeiznosi 1, a zbog simetrije, pravac x = µ dijeli tu povrsinu na dva jednaka dijela, svaki od kojihiznosi 1/2.

Funkcija distribucije normalne slucajne varijable X ima oblik

(9.2) FX(x) =x∫−∞

fX(u) du =1

σ√

x∫−∞

exp

(−1

2

(u− µσ

)2)du , x ∈ R ,

a njezin graf prikazan je na slici 9.1(b). Navedeni integral ne moze se egzaktno rijesiti, nego muvrijednost mozemo odrediti samo pribliznim numerickim metodama. Zbog toga, vrijednostifunkcije FX nalazimo racunalom ili koristenjem posebnih tablica.

Prisjetimo se da po definiciji, za svaki realni broj x vrijedi

(9.3) P(X ≤ x) = FX(x) ,

odakle, primjenom formule suprotne vjerojatnosti slijedi

(9.4) P(X > x) = 1− P(X ≤ x) = 1− FX(x) .

Takoder, ako su x i y realni brojevi takvi da je x ≤ y, onda iz 6.7 dobivamo

(9.5) P(x < X ≤ y) = P(X ≤ y)− P(X ≤ x) = FX(y)− FX(x) .

S obzirom da je X neprekidna, gornje vjerojatnosti ne zavise o strogosti napisanih nejedna-kosti, tj. svaki znak < zamjenjiv je sa znakom ≤, odnosno > sa ≥, pri cemu se vjerojatnostne mijenja.

1Johann Carl Friedrich Gauss (1777.-1855.) – njemacki matematicar i znanstvenik

9-1

Page 108: Skripta iz statistike

µ− σ µ µ+ σ

0

1

σ√

2π y = fX(x)

(a) Funkcija gustoce vjerojatnosti

µ

0

1

2

1

y = FX(x)

(b) Funkcija distribucije

Slika 9.1. Normalna distribucija s parametrima µ i σ2.

9-2

Page 109: Skripta iz statistike

Uocimo da je FX strogo rastuca funkcija koja R preslikava na otvoreni interval (0, 1), stoznaci da FX ima inverznu funkciju F−1X koja (0, 1) preslikava na R. Prema tome, ako je prealni broj koji je veci od 0 i manji od 1, tj. 0 < p < 1, onda jednadzba FX(x) = p imajedinstveno rjesenje x = F−1X (p) i tako dobiveni broj x je p-kvantil slucajne varijable X.

Moze se pokazati da ocekivanje i varijanca normalne slucajne varijable X iznose E(X) = µi Var(X) = σ2. Dakle, prvi parametar normalne slucajne varijable je njeno ocekivanje, a drugiparametar je varijanca.

Normalna distribucija ima jos dva vazna svojstva. Prvo, linearna transformacija cuvanormalnost. Preciznije, ako X ima normalnu distribuciju s parametrima µ i σ2, te ako jeY = dX + c, pri cemu su d i c realni brojevi i d 6= 0, onda slucajna varijabla Y ima normalnudistribuciju s parametrima E(Y ) = dµ+c i Var(Y ) = d2σ2. Drugo, zbroj nezavisnih normalnihslucajnih varijabli je ponovno normalna slucajna varijabla, tj. ako su X i Y nezavisne normalneslucajne varijable s parametrima µX i σ2

X , odnosno µY i σ2Y , onda je X +Y takoder normalna

slucajna varijabla s parametrima E(X + Y ) = µX + µY i Var(X + Y ) = σ2X + σ2

Y .S obzirom da linearna transformacija cuva normalnost, slijedi da se standardizacijom nor-

malne slucajne varijable ponovno dobiva normalna slucajna varijabla. Stoga, ako X imanormalnu distribuciju s parametrima E(X) = µ i Var(X) = σ2, onda slucajna varijabla

Z =X − E(X)√

Var(X)=X − µσ

ima normalnu distribuciju s parametrima E(Z) = 0 i Var(Z) = 1, koju nazivamo standardnomnormalnom distribucijom.

Funkciju gustoce vjerojatnosti standardne normalne distribucije oznacit cemo s ϕ, a funk-ciju distribucije s Φ. Ako u (9.1), odnosno (9.2) uvrstimo µ = 0 i σ2 = 1, te ako, kao sto jeobicaj, umjesto x pisemo z, onda dobivamo da je

(9.6) ϕ(z) =1√2π

exp

(−z

2

2

), z ∈ R ,

odnosno

(9.7) Φ(z) =z∫−∞

ϕ(u) du =1√2π

z∫−∞

exp

(−u

2

2

)du , z ∈ R .

Vrijednosti funkcija Φ i Φ−1 dane su u tablicama. Zbog simetrije, uocimo da za svaki realnibroj z vrijedi

(9.8) Φ(z) = 1− Φ(−z) .

Slicno tome, za svaki realni broj p veci od 0 i manji od 1 vrijedi

(9.9) Φ−1(p) = −Φ−1(1− p) .

Primjer 9.1. Neka slucajna varijabla Z ima standardnu normalnu distribuciju.

(a) Izracunajte P(Z ≤ 2.19), P(Z > −1.2789) i P(−0.23 ≤ Z ≤ 1.75).

(b) Odredite medijan, kvartile, te 5. i 95. percentil od Z.

9-3

Page 110: Skripta iz statistike

S obzirom da je Φ funkcija distribucije od Z, odmah zakljucujemo da je

P(Z ≤ 2.19) = Φ(2.19) = 0.9857 .

Buduci da je 1.2789 priblizno jednako 1.28, slijedi da je Φ(1.2789) priblizno jednako Φ(1.28) =0.8997, pa imamo

P(Z > −1.2789) = 1− Φ(−1.2789) = 1− 0.8997 = 0.1003 .

Konacno, posljednja trazena vjerojatnost iznosi

P(−0.23 ≤ Z ≤ 1.75) = Φ(1.75)− Φ(−0.23)

= Φ(1.75)− (1− Φ(0.23))

= Φ(1.75) + Φ(0.23)− 1

= 0.9599 + 0.5910− 1

= 0.5509 .

Koristeci Φ−1 i simetricnost standardne normalne distribucije, dobivamo da je

z0.5 = Φ−1(0.5) = 0 ,

z0.75 = Φ−1(0.75) = 0.6745 ,

z0.25 = −z0.75 = −0.6745 ,

z0.95 = Φ−1(0.95) = 1.645 ,

z0.05 = −z0.95 = −1.645 .

Uzmimo sada normalnu slucajnu varijablu X s proizvoljnim parametrima µ i σ2. Nejedna-kosti

X ≤ x iX − µσ

≤ x− µσ

ekvivalentne su, a kako slucajna varijabla Z = (X − µ)/σ ima standardnu normalnu distribu-ciju, slijedi da za svaki realni broj x vrijedi

(9.10) FX(x) = P(X ≤ x) = P(Z ≤ x− µ

σ

)= Φ

(x− µσ

).

Pomocu gornje jednakosti mozemo izracunati vjerojatnost ili kvantil za svaku normalnu slu-cajnu varijablu.

Primjer 9.2. Slucajna varijabla X ima normalnu distribuciju s ocekivanjem µ = 50 i varijan-com σ2 = 25.

(a) Izracunajte P(X ≤ 46) i P(40 < X < 60).

(b) Odredite prvi i deveti decil od X.

S obzirom da je ovdje µ = 50 i σ = 5, koristenjem jednakosti (9.10) lako dobivamo

P(X ≤ 46) = FX(46) = Φ

(46− 50

5

)= Φ(−0.8) = 1− Φ(0.8) = 1− 0.7881 = 0.2119 .

9-4

Page 111: Skripta iz statistike

Slicno tome,

P(40 < X < 60) = FX(60)− FX(40)

= Φ

(60− 50

5

)− Φ

(40− 50

5

)= Φ(2)− Φ(−2)

= Φ(2)− (1− Φ(2))

= 2 Φ(2)− 1

= 2 · 0.9772− 1

= 0.9544 .

Da bismo nasli deveti decil od X, trebamo rijesiti jednadzbu FX(x) = 0.9 po x. Primjenomjednakosti (9.10), ta jednadzba se svodi na

Φ

(x− µσ

)= 0.9 ,

odakle slijedix− µσ

= Φ−1(0.9) ,

odnosnox0.9 = x = σΦ−1(0.9) + µ = 5 · 1.282 + 50 = 56.41 .

Na jednak nacin mogli bismo odrediti prvi decil. Alternativno, prvi decil mozemo izracu-nati koristeci cinjenicu da je slucajna varijabla X simetricna u odnosu na µ, odakle slijedi dasu prvi i deveti decil jednako udaljeni od µ, odnosno µ− x0.1 = x0.9 − µ, pa je

x0.1 = 2µ− x0.9 = 2 · 50− 56.41 = 43.59

Primjer 9.3. Neto tezina marmelade u staklenki je normalno distribuirana s ocekivanjem 900grama i standardnom devijacijom 18 grama. Tezina staklenke je takoder normalno distribu-irana s ocekivanjem 50 grama i standardnom devijacijom 3 grama. Pod pretpostavkom dasu tezina marmelade i tezina staklenke nezavisne, izracunajte vjerojatnost da ukupna tezinamarmelade i staklenke prelazi 930 grama.

Oznacimo s X tezinu marmelade, a s Y tezinu staklenke. Slucajne varijable X i Y su popretpostavci nezavisne i imaju normalnu distribuciju, sto znaci da je ukupna tezina X + Ymarmelade i staklenke takoder normalna slucajna varijabla, s ocekivanjem

E(X + Y ) = E(X) + E(Y ) = 900 + 50 = 950

i varijancomVar(X + Y ) = Var(X) + Var(Y ) = 182 + 32 = 333 ,

pa vjerojatnost da X + Y prelazi 930 grama iznosi

P(X + Y > 930) = 1− FX+Y (930)

= 1− Φ

(930− 950√

333

)= 1− Φ(−1.10)

= Φ(1.10)

= 0.8643 .

9-5

Page 112: Skripta iz statistike

Centralni granicni teorem

Jedan od najvaznijih rezultata teorije vjerojatnosti zove se centralni granicni teorem i govorio distribuciji zbroja slucajnih varijabli. U nacelu, centralni granicni teorem tvrdi da zbrojdovoljno velikog broja nezavisnih jednako distribuiranih slucajnih varijabli ima priblizno nor-malnu distribuciju. Buduci da se mnogi prakticni problemi svode na izracunavanje zbroja,jasno je da centralni granicni teorem i s njim normalna distribucija imaju veliku primjenu. Unastavku cemo najprije precizno izreci centralni granicni teorem, a onda cemo pokazati kakoga primjenjujemo.

Neka su X1, X2, X3, . . . nezavisne jednako distribuirane slucajne varijable s ocekivanjem µi varijancom σ2, tj. E(Xi) = µ i Var(Xi) = σ2 za svaki indeks i. Sa Yn oznacimo zbroj prvihn slucajnih varijabli u tom nizu, tj.

Yn = X1 +X2 + · · ·+Xn =∑Xi .

Iz aditivnosti ocekivanja znamo da je tada

E(Yn) = E(∑Xi) =

∑E(Xi) = nµ ,

a iz nezavisnosti slijedi da je i

Var(Yn) = Var(∑Xi) =

∑Var(Xi) = nσ2 .

Neka je Zn slucajna varijabla koja nastaje standardizacijom slucajne varijable Yn, tj.

Zn =Yn − E(Yn)√

Var(Yn)=Yn − nµ√

nσ.

Centralni granicni teorem tvrdi da za svaki realni broj x, vrijednost funkcije distribucijeslucajne varijable Zn u x tezi k Φ(x) kada n tezi k +∞, tj.

(9.11) limn→+∞

FZn(x) = Φ(x) .

Dakle, ako je n dovoljno velik, onda slucajna varijabla Zn ima priblizno standardnu nor-malnu distribuciju, a kako su Yn i Zn povezane linearnom transformacijom, slijedi da Yntakoder ima priblizno normalnu distribuciju, doduse ne standardnu, nego normalnu distribu-ciju s ocekivanjem E(Yn) = nµ i varijancom Var(Yn) = nσ2.

Naravno, sto je n veci, to je aproksimacija bolja. Ako slucajne varijable Xi imaju sime-tricnu distribuciju, onda se dobra aproksimacija moze dobiti vec za n = 10 ili n = 20. Akoslucajne varijable Xi imaju asimetricnu distribuciju, onda je potrebno uzeti nesto veci n, a uliteraturi se cesto navodi granica n = 30.

Primjer 9.4. Vjerojatnost radanja djecaka iznosi 0.51. Izracunajte vjerojatnost da medu 100djece bude vise djecaka nego djevojcica.

Za svaki cijeli broj i izmedu 1 i n = 100, neka je Xi = 1 ako je i-to dijete djecak i Xi = 0ako je i-to dijete djevojcica. Tada je X1, X2, . . . , Xn niz nezavisnih slucajnih varijabli, svakaod kojih ima Bernoullijevu distribuciju s parametrom π = 0.51. Takoder, Y =

∑Xi je broj

djecaka, a n− Y je broj djevojcica medu n djece. Trazimo vjerojatnost da je Y > n− Y , kojumozemo izracunati pomocu funkcije distribucije slucajne varijable Y , jer je

P(Y > n− Y ) = P(Y > n/2) = 1− P(Y ≤ n/2) = 1− FY (n/2) .

9-6

Page 113: Skripta iz statistike

S obzirom da je Y jednaka zbroju velikog broja nezavisnih jednako distribuiranih slucaj-nih varijabli, prema centralnom granicnom teoremu, Y ima priblizno normalnu distribuciju socekivanjem

E(Y ) = E(∑Xi) =

∑E(Xi) = nπ

i varijancomVar(Y ) = Var(

∑Xi) =

∑Var(Xi) = nπ(1− π) ,

odakle slijedi

FY (n/2) = Φ

(n/2− E(Y )√

Var(Y )

)= Φ

(n/2− nπ√nπ(1− π)

),

pa konacno imamo

P(Y > n− Y ) = 1− Φ

(n/2− nπ√nπ(1− π)

)

= 1− Φ

(100/2− 100 · 0.51√100 · 0.51 · (1− 0.51)

)= 1− Φ(−0.20)

= Φ(0.20)

= 0.5793 .

Opcenito, ako je slucajna varijabla Y jednaka zbroju n nezavisnih Bernoullijevih slucajnihvarijabli s parametrom π, onda za Y kazemo da ima binomnu distribuciju s parametrima ni π, koju oznacavamo s B(n, π). Kao sto smo gore vidjeli, ocekivanje binomne distribucijeiznosi nπ, a varijanca nπ(1− π). Ako je n dovoljno velik, onda se binomna distribucija mozeaproksimirati normalnom.

χ2, t i F distribucija

U primjeni srecemo nekoliko vaznih distribucija vjerojatnosti koje se dobivaju iz normalnedistribucije.

Ako su Z1, Z2, . . . , Zn nezavisne standardne normalne slucajne varijable, onda za slucajnuvarijablu

(9.12) U = Z21 + Z2

2 + · · ·+ Z2n

kazemo da ima χ2 distribuciju s n stupnjeva slobode, koju oznacavamo s χ2(n). Za razliku odnormalne distribucije, χ2 distribucija je asimetricna, ali asimetrija opada s porastom stupnjevaslobode. Funkcija gustoce vjerojatnosti χ2 distribucije za nekoliko vrijednosti parametra nprikazana je na slici 9.2.

Ako su Z i U nezavisne slucajne varijable, te ako Z ima standardnu normalnu distribuciju,a U ima χ2 distribuciju s n stupnjeva slobode, onda za slucajnu varijablu

(9.13) T =Z√U/n

9-7

Page 114: Skripta iz statistike

0 2 4 6 8 10

0.0

0.1

0.2

0.3

0.4

0.5n = 1

n = 2

n = 3

n = 5n = 7

Slika 9.2. Funkcija gustoce vjerojatnosti χ2 distribucije s n stupenjeva slobode.

kazemo da ima Studentovu2 t distribuciju s n stupnjeva slobode, koju ozncavamo s t(n). Funk-cija gustoce vjerojatnosti t distribucije prikazana je na slici 9.3. Ocigledno, t distribucija jesimetricna u odnosu na nulu i nalikuje standardnoj normalnoj distribuciji, ali ima od nje “tezerepove”. Kada n tezi k +∞, t distribucija tezi standardnoj normalnoj distribuciji. Sto je nveci, to je aproksimacija t distribucije standardnom normalnom bolja.

-4 -2 0 2 4

0.0

0.1

0.2

0.3

0.4

0.5N(0, 1)

t(1)

t(3)

t(10)

Slika 9.3. Funkcija gustoce vjerojatnosti Studentove t i standardne normalne distribu-cije.

Ako su U i V nezavisne slucajne varijable, te ako U ima χ2 distribuciju s m stupnjeva

2William Sealy Gosset (1876.-1937.) – engleski kemicar i statisticar, objavljivao je radove pod pseudonimomStudent

9-8

Page 115: Skripta iz statistike

slobode, a V ima χ2 distribuciju s n stupnjeva slobode, onda za slucajnu varijablu

(9.14) W =U/m

V/n

kazemo da ima Snedecorovu3 F distribuciju s m i n stupnjeva slobode, koju oznacavamo sF (m,n). Za m kazemo da su stupnjevi slobode brojnika, a n stupnjevi slobode nazivnika.F distribucija je asimetricna, a funkcija gustoce vjerojatnosti za nekoliko vrijednosti parame-tara m i n prikazana je na slici 9.4.

0.0 0.5 1.0 1.5 2.0 2.5 3.0

0.0

0.5

1.0

1.5m = 1, n = 1

m = 3, n = 5

m = 20, n = 10

Slika 9.4. Funkcija gustoce vjerojatnosti Snedecorove F distribucije.

Kvantili χ2, t i F distribucije nalaze se pomocu racunala ili tablica. Za p-kvantil χ2

distribucije s n stupnjeva slobode koristit cemo oznaku χ2n,p. Slicno tome, s tn,p, odnosno

Fm,n,p ozncavat cemo p-kvantil t distribucije s n, odnosno F distribucije s m i n stupnjevaslobode.

Zadaci

9.1. Slucajna varijabla X ima normalnu distribuciju s ocekivanjem 5 i varijancom 9. Odredite:

(a) P (3 ≤ X ≤ 6),

(b) P (X > 7 |X > 4),

(c) 85. percentil od X.

9.2. Poznato je da kvocijent inteligencije ima normalnu distribuciju s ocekivanjem 100 i stan-dardnom devijacijom 15. Koliko ljudi ima kvocijent inteligencije:

(a) veci od 135,

(b) manji od 110,

(c) izmedu 95 i 129?

3George Waddel Snedecor (1881.-1974.) – americki matematicar i statisticar

9-9

Page 116: Skripta iz statistike

9.3. Prvi i deveti decil normalno distribuirane slucajne varijable X iznose 175 i 225. Odrediteocekivanje i standardnu devijaciju od X, te izracunajte vjerojatnost da X poprimi vrijednostizmedu 205 i 210.

9.4. Trajanje prve zarulje ima normalnu distribuciju s ocekivanjem 2500 sati i standardnomdevijacijom 150 sati. Trajanje druge zarulje ima normalnu distribuciju s ocekivanjem 2800 satii standardnom devijacijom 300 sati. Ako zarulja treba neprekidno raditi najmanje 90 dana,koju je zarulju bolje odabrati? Kolika je vjerojatnost da ce odabrana zarulja trajati navedenovrijeme?

9.5. Tvornica u jednoj smjeni proizvede 10000 komada nekog proizvoda. Udio skarta uproizvodnji iznosi 5%.

(a) Izracunajte vjerojatnost da u jednoj smjeni broj ispravnih proizvoda bude veci od 9477 imanji od 9510.

(b) S vjerojatnoscu 95%, koliko najmanje ispravnih proizvoda moze tvornica proizvesti ujednoj smjeni?

9-10

Page 117: Skripta iz statistike

10. Uzorkovanje

Slucajni uzorak

Pogledajmo sada kako se teorija vjerojatnosti, poglavito slucajne varijable i vektori, mogukoristiti u inferencijalnoj statistici. Kao sto smo vec objasnili, inferencijalna statistika ilistatisticko zakljucivanje bavi se donosenjem zakljucaka o populaciji na osnovu uzorka. Dabismo u tom postupku mogli koristiti teoriju vjerojatnosti, uzorak treba biti slucajan, stoznaci da odluku o tome koje ce statisticke jedinice biti ukljucene u uzorak donosimo naslucajan nacin, npr. nasumicnim izvlacenjem listica iz kutije ili generiranjem slucajnih brojevana racunalu. Prema tome, slucajni uzorak velicine n mozemo smatrati ishodom slucajnogpokusa u kojemu smo na slucajan nacin odabrali n statistickih jedinica iz zadane populacije.Ako nije drugacije naznaceno, pod uzorkom cemo ovdje uvijek smatrati slucajni uzorak, a poduzorkovanjem smatrat cemo proces formiranja slucajnog uzorka.

Uzorkovanje se u nacelu moze provesti na dva nacina – s ponavljanjem i bez ponavljanja.Kod oba oblika uzorkovanja, statisticke jedinice biramo jednu po jednu. Medutim, dok koduzorkovanja s ponavljanjem jedna te ista statisticka jedinica moze biti ukljucena u uzorak viseputa, dotle kod uzorkovanja bez ponavljanja svaka statisticka jedinica moze biti ukljucena uuzorak najvise jednom. Ako uzorkovanje vrsimo npr. izvlacenjem listica iz kutije, onda uzor-kovanje s ponavljanjem odgovara izvlacenju listica s vracanjem, a uzorkovanje bez ponavljanjaodgovara izvlacenju listica bez vracanja.

U praksi se uzorkovanje redovito provodi bez ponavljanja. Premda je matematicka teorijauzorkovanja s ponavljanjem jednostavnija, uzorkovanje bez ponavljanja je bolje od uzorkovanjas ponavljanjem, jer je uzorak bez ponavljanja slicniji populaciji od uzorka s ponavljanjemiste velicine. Da bismo to ilustrirali, pretpostavimo da imamo populaciju od samo dvijestatisticke jedinice, iz koje formiramo uzorak velicine takoder dva. Ako se uzorkovanje vrsibez ponavljanja, onda ce uzorak biti doslovce jednak populaciji, sto se ne mora dogoditi akose uzorkovanje vrsi s ponavljanjem.

Statisticke jedinice promatramo zato sto nas zanima jedna ili vise njihovih osobina. Primje-rice, ako promatramo ljude, onda nas moze zanimati spol, visina, tezina, politicko usmjerenjei tome slicno. Vrijednosti takvih osobina imaju distribuciju, a numericke karakteristike tedistribucije zovu se parametri populacije. Tako, ako smo za citavu populaciju osoba odrediliproporciju zena ili prosjecnu visinu, onda ta proporcija i prosjek jesu parametri populacije. Pa-rametre populacije oznacavat cemo grckim slovima – s π oznacit cemo poporciju, s µ sredinu,a sa σ standardnu devijaciju, sto znaci da cemo varijancu oznaciti sa σ2.

Za potrebe uzorkovanja, populaciju identificiramo s nekom distribucijom vjerojatnosti, i toonom koju bismo dobili kada bismo iz populacije slucajno odabrali jednu statisticku jedinicu.Npr. pretpostavimo da imamo populaciju od N osoba, te da je osobina koja nas zanima spol.Nadalje, pretpostavimo da smo muskarcima dodijelili vrijednost 0, a zenama vrijednost 1, teda u populaciji imamo M zena, iz cega naravno slijedi da imamo N −M muskaraca. Ako s Xoznacimo spol slucajno odabrane osobe iz takve populacije, onda je X slucajna varijabla kojaima Bernoullijevu distribuciju s parametrom π = M/N , a populaciju mozemo za sve potrebeidentificirati s tom distribucijom vjerojatnosti. Tako, iz primjera 7.4 znamo da ocekivanje ivarijanca od X iznose E(X) = π i Var(X) = π(1−π). Lako se vidi da su to upravo aritmetickasredina i varijanca populacije, jer se populacija sastoji od N −M nula i M jedinica, odakle

10-1

Page 118: Skripta iz statistike

slijedi

µ =0 · (N −M) + 1 ·M

N=M

N= π ,

a onda i

σ2 =02 · (N −M) + 12 ·M

N− µ2 = π − π2 = π(1− π) .

Ako o populaciji mozemo razmisljati kao o distribuciji vjerojatnosti, kako da razmisljamo oslucajnom uzorku? Opcenito, o slucajnom uzorku trebamo razmisljati kao o multivarijatnomslucajnom vektoru. Naime, ako imamo prethodno opisanu populaciju osoba, u kojoj proma-tramo spol, onda ce slucajni uzorak velicine n biti ishod slucajnog pokusa u kojemu smo naslucajan nacin odabrali n osoba. Prostor ishoda tog slucajnog pokusa je skup svih slucajnihuzoraka velicine n koje mozemo formirati iz te populacije. Ako sada s Xi oznacimo spol i-teodabrane osobe u uzorku, onda su X1, X2, . . . , Xn slucajne varijable definirane na istomprostoru ishoda, pa je (X1, X2, . . . , Xn) multivarijatni slucajni vektor.

Sto mozemo reci o zajednickoj distribuciji tog slucajnog vektora? Ako se uzorkovanje vrsis ponavljanjem, onda je odgovor vrlo jednostavan, jer svih n osoba u uzorku biramo iz istogskupa od N osoba, medu kojima je tocno M zena, sto znaci da su X1, X2, . . . , Xn Bernoullijeveslucajne varijable s parametrom π = M/N . Drugim rijecima, distribucija slucajnih varijabliX1, X2, . . . , Xn jednaka je distribuciji populacije. Osim toga, ocigledno spol bilo koje odabraneosobe ne zavisi o spolu prethodno odabranih osoba, pa su slucajne varijable X1, X2, . . . , Xn

nezavisne. Dakle, kod uzorkovanja s ponavljanjem, slucajni uzorak velicine n je niz od nnezavisnih slucajnih varijabli cija je distribucija jednaka distribuciji populacije.

S druge strane, ako se uzorkovanje vrsi bez ponavljanja, onda svaku sljedecu osobu u uzorkubiramo iz skupa koji broji sve manje osoba, te cija spolna struktura zavisi o spolu prethodnoodabranih osoba. Zbog toga su slucajne varijable X1, X2, . . . , Xn sada zavisne. Premda je tomozda iznenadujuce, vazno je primijetiti da je marginalna distribucija tih slucajnih varijablii dalje jednaka distribuciji populacije. Naime, jasno je da su X1, X2, . . . , Xn Bernoullijeveslucajne varijable, jer je RXi

= 0, 1. S obzirom da prvu osobu u uzorku biramo iz skupaod N osoba u kojemu je M zena, slijedi da vjerojatntost da prva osoba bude zena iznosiP(X1 = 1) = M/N = π, pa je distribucija od X1 jednaka distribuciji populacije. Drugu osobubiramo iz skupa od N − 1 osoba, u kojemu broj zena zavisi o ishodu prvog biranja. Buducida dogadaji X1 = 0 i X1 = 1 cine potpun sistem dogadaja, iz formule potpune vjerojatnostidobivamo da bezuvjetna vjerojatnost da druga osoba bude zena iznosi

P(X2 = 1) = P(X1 = 0)P(X2 = 1 |X1 = 0) + P(X1 = 1)P(X2 = 1 |X1 = 1)

=N −MN

· M

N − 1+M

N· M − 1

N − 1

=MN −M2 +M2 −M

N(N − 1)

=M(N − 1)

N(N − 1)

= π ,

sto znaci da je i distribucija od X2 jednaka distribuciji populacije. Slicno bismo zakljucili daje i distribucija preostalih slucajnih varijabli jednaka distribuciji populacije.

Prema tome, razlika izmedu uzorkovanja s ponavljanjem i bez ponavljanja nije u margi-nalnoj distribuciji slucajnih varijabli X1, X2, . . . , Xn, nego u tome da su kod uzorkovanja s

10-2

Page 119: Skripta iz statistike

ponavljanjem te slucajne varijable nezavisne, a kod uzorkovanja bez ponavljanja zavisne. Me-dutim, ako je uzorak relativno malen u odnosu na populaciju, onda ce promjena populacijenastala zbog izdvajanja statistickih jedinica koje su vec uvrstene u uzorak biti zanemariva,pa ce i kod uzorkovanja bez ponavljanja slucajne varijable X1, X2, . . . , Xn biti prakticki ne-zavisne. Uzorak se u tom smislu smatra malenim ako njegova velicina ne prelazi 5% velicinepopulacije. Primjerice, ako iz populacije od N = 1000 osoba biramo uzorak bez ponavljanjaod najvise n = 50 osoba, onda promatranja u uzorku mozemo smatrati nezavisnima.

Osim sto su populacije obicno velike u odnosu na uzorak, neke oblike prikupljanja podatakamozemo promatrati kao uzorkovanje iz zamisljene beskonacne populacije. To se dogada akopodatke prikupljamo provodenjem eksperimenta, kojega vise puta ponavljamo pod istim uvje-tima, a zamisljena populacija se pritom sastoji od svih mogucih rezultata tog eksperimenta.Primjerice, uzmimo da zelimo ispitati ispravnost igrace kocke, tj. osobinu kocke da se prilikombacanja svaki broj na kocki javlja s jednakom vjerojatnoscu. Ispitivanje mozemo provesti takoda kocku bacimo n puta, pri cemu je n dovoljno velik broj i pritom promatramo relativnefrekvencije pojedinih brojeva na kocki. Ako su te relativne frekvencije priblizno jednake, ondanemamo razloga sumnjati u ispravnost kocke, dok ako su one izrazito razlicite, onda kockavjerojatno nije ispravna. Populacija se ovdje sastoji od svih mogucih bacanja igrace kocke, stonaravno nije realna, nego zamisljena populacija, a mozemo je predociti diskretnom distribu-cijom vjerojatnosti koja se dobije jednim bacanjem igrace kocke. Rezultati ispitivanja, tj. nbacanja igrace kocke bit ce slucajne varijable X1, X2, . . . , Xn koje su nezavisne i distribuiranesu jednako kao populacija.

Prema tome, razliciti obilici uzorkovanja i prikupljanja podataka vode do istog matematic-kog modela, pa cemo pod slucajnim uzorkom velicine n podrazumijevati niz od n nezavisnihjednako distribuiranih slucajnih varijabli X1, X2, . . . , Xn, cija je distribucija jednaka distribu-ciji populacije.

Svaka transformacija Y = g(X1, X2, . . . , Xn) slucajnog uzorka bit ce takoder slucajnavarijabla, ciju distribuciju vjerojatnosti nazivamo distribucijom uzorkovanja. Ako Y ne zavisio nepoznatim parametrima populacije, onda takvu slucajnu varijablu nazivamo statistikom.Dvije najvaznije statistike jesu aritmeticka sredina uzorka

X =

∑Xi

n

i varijanca uzorka

S2 =

∑(Xi −X)2

n=

∑X2i

n−X2

.

Osim aritmeticke sredine i varijance, cesto se koristi i proporcija uzorka, koju cemo uskorodefinirati i za koju cemo pokazati da je specijalan slucaj aritmeticke sredine.

Aritmeticka sredina i proporcija uzorka

Pretpostavimo da smo iz populacije s ocekivanjem µ i varijancom σ2 formirali slucajni uzorakX1, X2, . . . , Xn. Dakle, slucajne varijable X1, X2, . . . , Xn su nezavisne i distribucija im jejednaka distribuciji populacije, sto znaci da je E(Xi) = µ i Var(Xi) = σ2 za svaki i. Buducida je ocekivanje aditivno, proizlazi da je

(10.1) E(∑Xi) =

∑E(Xi) = nµ ,

10-3

Page 120: Skripta iz statistike

a iz nezavisnosti slijedi da su X1, X2, . . . , Xn nekorelirane, pa je

(10.2) Var(∑Xi) =

∑Var(Xi) = nσ2 .

Koristeci formule za ocekivanje i varijancu linearne transformacije, sada imamo

(10.3) E(X) = E(∑

Xi

n

)=

E(∑Xi)

n=nµ

n= µ

i

(10.4) Var(X) = Var

(∑Xi

n

)=

Var(∑Xi)

n2=nσ2

n2=σ2

n.

Dakle, ocekivanje aritmeticke sredine uzorka jednako je ocekivanju populacije, a varijancaaritmeticke sredine uzorka je n puta manja od varijance populacije.

Ako populacija ima normalnu distribuciju, onda su X1, X2, . . . , Xn nezavisne normalneslucajne varijable, pa njihov zbroj

∑Xi ima takoder normalnu distribuciju, a kako je X =∑

Xi/n linearna transformacija zbroja, slijedi da i X ima normalnu distribuciju. Ako popula-cija nema normalnu distribuciju, onda prema centralnom granicnom teoremu,

∑Xi i X imaju

priblizno normalnu distribuciju kada je n dovoljno velik.

Primjer 10.1. Tezina narance je normalno distribuirana s ocekivanjem 150 grama i standard-nom devijacijom 14 grama. Izracunajte vjerojatnost da ukupna tezina 10 slucajno odabranihnaranci bude izmedu 1.4 i 1.6 kilograma.

O izabranim narancama mozemo razmisljati kao o slucajnom uzorku X1, X2, . . . , Xn veli-cine n = 10 iz normalne populacije s ocekivanjem µ = 150 i standardnom devijacijom σ = 14.Ukupna tezina Y naranci jednaka je zbroju uzorka, tj. Y =

∑Xi, te treba izracunati vjero-

jatnost da je 1400 ≤ Y ≤ 1600.Prema prethodnom, zbroj uzorka Y =

∑Xi iz normalne populacije ima takoder normalnu

distribuciju, s ocekivanjem E(Y ) = E(∑Xi) = nµ = 10 · 150 = 1500 i varijancom Var(Y ) =

Var(∑Xi) = nσ2 = 10 · 142 = 1960, odakle slijedi

P(1400 ≤ Y ≤ 1600) = FY (1600)− FY (1400)

= Φ

(1600− 1500√

1960

)− Φ

(1400− 1500√

1960

)= Φ(2.26)− Φ(−2.26)

= 2Φ(2.26)− 1

= 2 · 0.9881− 1

= 0.9762 .

Primjer 10.2. Racuni u jednoj maloprodaji u prosjeku iznose 435 kuna, sa standardnomdevijacijom 100 kuna. Izracunajte vjerojatnost da prosjecan iznos 50 slucajno odabranihracuna iz te maloprodaje ne prelazi 400 kuna.

Slucajno odabrani racuni predstavljaju slucajni uzorak X1, X2, . . . , Xn velicine n = 50 izpopulacije s poznatim ocekivanjem µ = 435 i poznatom standardnom devijacijom σ = 100, alis nepoznatom distribucijom vjerojatnosti. Treba izracunati vjerojatnost da je X ≤ 400.

10-4

Page 121: Skripta iz statistike

Buduci da je uzorak velik, prema centralnom granicnom teoremu sredina uzorka X imapriblizno normalnu distribuciju s ocekivanjem E(X) = µ = 435 i varijancom Var(X) = σ2/n =1002/50 = 200. Dakle, trazena vjerojatnost priblizno iznosi

P(X ≤ 400) = FX(400)

= Φ

(400− 435√

200

)= Φ(−2.47)

= 1− Φ(2.47)

= 1− 0.9932

= 0.0068 .

Pretpostavimo sada da imamo Bernoullijevu populaciju s parametrom π, kojega jos na-zivamo proporcijom populacije, jer je π proporcija clanova populacije kojima smo dodijelilivrijednost 1. Ako je X1, X2, . . . , Xn slucajni uzorak iz promatrane populacije, onda se pro-porcija P tih slucajnih varijabli koje su poprimile vrijednost 1 zove proporcija uzorka. Lako sevidi da je

(10.5) P =

∑Xi

n= X ,

jer je∑Xi upravo broj jedinica u nizu X1, X2, . . . , Xn. Dakle, proporcija uzorka je ustvari

aritmeticka sredina uzorka iz Bernoullijeve populacije.S obzirom da ocekivanje i varijanca Bernoullijeve distribucije iznose µ = π i σ2 = π(1−π),

iz (10.3) i (10.4) slijedi

(10.6) E(P ) = π

i

(10.7) Var(P ) =π(1− π)

n.

Naravno, ako je n velik, onda P ima priblizno normalnu distribuciju.

Primjer 10.3. Pretpostavlja se da je 12% ljudi ljevoruko. Izracunajte vjerojatnost da pro-porcija ljevorukih u slucajnom uzorku od 100 osoba osoba iznosi 17% ili vise.

Ovdje imamo slucajni uzorak od n = 100 osoba iz Bernoullijeve populacije s parametrmoπ = 0.12. Trazimo vjerojatnosti da proporcija uzorka P iznosi 0.17 ili vise. Kako je uzorakvelik, P ima priblizno normalnu distribuciju s ocekivanjem E(P ) = π i varijancom Var(P ) =π(1− π)/n. S obzirom da je

0.17− E(P )√Var(P )

=0.17− π√π(1− π)

n

=0.17− 0.12√0.12(1− 0.12)

100

= 1.54 ,

slijedi da je

P(P ≥ 0.17) = 1− FP (0.17) = 1− Φ(1.54) = 1− 0.9382 = 0.0618 .

10-5

Page 122: Skripta iz statistike

Varijanca uzorka

Sto mozemo reci o varijanci uzorka? Ako je X proizvoljna slucajna varijabla, onda iz (7.13)slijedi da je E(X2) = Var(X) + (E(X))2. Dakle, ako je X1, X2, . . . , Xn slucajni uozrak iz

populacije s ocekivanjem µ i varijancom σ2, onda je E(X2i ) = σ2 + µ2 i E(X

2) = σ2/n + µ2,

odakle slijedi

E(∑

(Xi −X2)) = E(

∑X2i − nX

2)

=∑

E(X2i )− nE(X

2)

= n(σ2 + µ2)− n(σ2/n+ µ2)

= (n− 1)σ2 ,

(10.8)

odnosno

(10.9) E(S2) = E(∑

(Xi −X)2

n

)=

E(∑

(Xi −X)2)

n=n− 1

nσ2 = σ2 − σ2

n.

Prema tome, ocekivanje varijance uzorka S2 nije jednako varijanci populacije σ2, nego jeod nje manje za σ2/n. Zbog toga se zbroj kvadratnih devijacija

∑(Xi − X)2 umjesto s n,

ponekad dijeli s n− 1, cime se dolazi do statistike

(10.10) s2 =

∑(Xi −X)2

n− 1=

n

n− 1S2 ,

cije je ocekivanje ocigledno jednako varijanci populacije, tj. E(s2) = σ2. Dijeljenje zbrojakvadratnih devijacija s n− 1, odnosno mnozenje varijance uzorka s n/(n− 1) poznato je podnazivom Besselova1 korekcija, a s2 nazivamo korigiranom varijancom uzorka. S obzirom da jen/(n− 1) > 1 za svaki n, slijedi da je uvijek s2 > S2, a kako n/(n− 1) tezi k 1 kada n tezi k+∞, zakljucujemo da su varijance S2 i s2 priblizno jednake kada je n velik.

Ako populacija ima normalnu distribuciju, onda varijanca uzorka ima dva vazna svojstva,koja necemo dokazivati jer je dokaz zahtjevan. Naime, ako populacija ima normalnu distribu-ciju, onda su statistike X i S2 nezavisne, a slucajna varijabla

(10.11) U = nS2/σ2

ima χ2 distribuciju s n− 1 stupnjeva slobode.Prema tome, ako populacija ima normalnu distribuciju, te ako stavimo

Z =X − E(X)√

Var(X)=X − µσ/√n

onda su Z i U , kao funkcije nezavisnih slucajnih varijabli takoder nezavisne. Stovise, Z imastandardnu normalnu distribuciju, a U ima χ2 distribuciju s n − 1 stupnjeva slobode, paslucajna varijabla

T =Z√

U/(n− 1)

1Friedrich Wilhelm Bessel (1784.-1846.) – njemacki matematicar i astronom

10-6

Page 123: Skripta iz statistike

ima t distribuciju s n− 1 stupnjeva slobode. Nakon uvrstavanja i sredivanja, dobiva se da je

(10.12) T =X − µs/√n.

Konacno, pogledajmo sto se dogada s varijancom uzorka ako se uzorkovanje vrsi iz Ber-noullijeve populacije. U tu svrhu, pretpostavimo da je X1, X2, . . . , Xn slucajni uzorak izBernoullijeve populacije s parametrom π, te neka je P proporcija uzorka. Buduci da slu-cajne varijable Xi poprimaju vrijednost u skupu 0, 1, slijedi da je X2

i = Xi, sto povlaci∑X2i =

∑Xi = nP , a iz toga dobivamo

(10.13) S2 =

∑X2i

n−X2

= P − P 2 = P (1− P ) .

Zadaci

10.1. Tezina limuna je normalno distribuirana s ocekivanjem 80 grama i standardnom devija-cijom 7 grama. Izracunajte vjerojatnost da ukupna tezina 12 slucajno odabranih limuna budeizmedu 927 i 1012 grama.

10.2. Vijek trajanja zarulje ima normalnu distribuciju s ocekivanjem 3000 sati i standardnomdevijacijom 200 sati. Izracunajte vjerojatnost da srednji vijek trajanja 5 slucajno odabranihzarulja bude:

(a) kraci od 2860 sati,

(b) izmedu 2750 i 3120 sati.

10.3. Stroj proizvodi 10% skarta. Izracunajte vjerojatnost da proporcija neispravnih pro-izvoda u slucajno odabranom uzorku od 200 proizvoda iznosi:

(a) vise od 11%,

(b) izmedu 6% i 14%.

10-7

Page 124: Skripta iz statistike

11. Procjenjivanje parametara

Tockovne procjene

Uzorak i njegove statistike koristimo da bismo saznali nesto o populaciji. Tako sredinu ivarijancu uzorka mozemo upotrijebiti da bismo procijenili, tj. priblizno odredili sredinu ivarijancu populacije – nakon sto odaberemo slucajni uzorak, izracunavamo sredinu i varijancuuzorka i dobivene rezultate smatramo pribliznim vrijednostima sredine i varijance populacije.

Statistiku koju koristimo s ciljem pribliznog odredivanja parametra populacije nazivamoprocjeniteljem. Dakle, aritmeticku sredinu uzorka X mozemo koristiti kao procjenitelj sredinepopulacije µ, a varijancu uzorka S2 kao procjenitelj varijance populacije σ2. Nakon sto odabe-remo uzorak, izracunavamo vrijednost procjenitelja, koju nazivamo procjenom. Primjerice, akosmo nakon formiranja uzorka izracunali da sredina i varijanca uzorka iznose X = 20 i S2 = 16,onda te vrijednosti smatramo procjenama sredine populacije µ i varijance populacije σ2, tj.uzimamo da µ iznosi priblizno 20, te da σ2 iznosi priblizno 16. S obzirom da smo parametarovdje procijenili jednim brojem ili jednom tockom na brojevnom pravcu, takve procjenitelje iprocjene nazivamo tockovnima.

Da je opisani postupak pribliznog odredivanja sredine i varijance populacije korektan,garantira nam svojstvo sredine i varijance uzorka koje se zove konzistentnost. Za procjeniteljkazemo da je konzistentan ako vjerojatnost da je procjenitelj dovoljno blizu parametra tezi k1 kada velicina uzorka n tezi k +∞. Drugim rijecima, ako je procjenitelj konzistentan, ondasmo prakticki sigurni da je vrijednost procjenitelja dovoljno blizu parametra populacije kadaje uzorak dovoljno velik. Aritmeticka sredina je konzistentan procjenitelj sredine populacije,a varijanca uzorka je konzistentan procjenitelj varijance populacije. Procjenitelji koji nisukonzistentni su nepozeljni, jer cak za veliki uzorak, vrijednost takvog procjenitelja moze bitijako udaljena od parametra.

Kako prepoznati konzistentan procjenitelj? Jedan nacin da utvrdimo da je neki procjeniteljkonzistentan je koristeci srednju kvadratnu pogresku. Ako je T procjenitelj parametra θ, ondase ocekivanje slucajne varijable (T − θ)2 zove srednja kvadratna pogreska od T i oznacava se sMSE(T ). Drugim rijecima, po definiciji je

(11.1) MSE(T ) = E((T − θ)2) .

Ako srednja kvadratna pogreska od T tezi k 0 kada n tezi k +∞, tj. ako je

(11.2) limn→+∞

MSE(T ) = 0 ,

onda je T konzistentan procjenitelj.Osim ispitivanja konzistentnosti, srednja kvadratna pogreska nam sluzi i kao mjera kvali-

tete procjenitelja. Ako mozemo birati izmedu vise procjenitelja istog parametra, onda biramoonaj s najmanjom srednjom kvadratnom pogreskom.

S obzirom da za svaku slucajnu varijablu X vrijedi E(X2) = Var(X) + (E(X))2, akouzmemo X = T − θ, onda dobivamo da je

MSE(T ) = Var(T − θ) + (E(T − θ))2 .

11-1

Page 125: Skripta iz statistike

Buduci da je θ konstanta, slijedi da je Var(T − θ) = Var(T ), a ocekivanje razlike T − θ zove sepristranost procjenitelja T i oznacava se s Bias(T ), tj.

(11.3) Bias(T ) = E(T − θ) = E(T )− θ .

Prema tome, srednja kvadratna pogreska procjenitelja jednaka je zbroju njegove varijance ikvadrata pristranosti, odnosno

(11.4) MSE(T ) = Var(T ) + (Bias(T ))2 .

Ako pristranost procjenitelja iznosi 0, tj. ako je Bias(T ) = 0 ili, sto je isto, E(T ) = θ,onda za procjenitelj T kazemo da je nepristran. Ocigledno, u tom slucaju je MSE(T ) =Var(T ), tj. srednja kvadratna pogreska nepristranog procjenitelja jednaka je njegovoj varijanci.Procjenitelj koji nije nepristran zove se pristran. Primjerice, aritmeticka sredina uzorka X jenepristran procjenitelj sredine populacije jer je E(X) = µ, odnosno Bias(X) = 0, ali varijancauzorka S2 je pristran procjenitelj varijance populacije jer je E(S2) = σ2 − σ2/n, odnosnoBias(S2) = −σ2/n. Buduci da Bias(S2) tezi k 0 kada n tezi k +∞, kazemo da je S2 asimptotskinepristran procjenitelj varijance populacije. Iako je korigirana varijanca uzorka s2 nepristranprocjenitelj varijance populacije, s2 nema uvijek manju srednju kvadratnu pogresku od S2.

Intervali povjerenja

Da bismo dobili potpuniju sliku o pravoj vrijednosti parametra, umjesto tockovne procjenemozemo koristiti intervalnu procjenu, pri cemu odredujemo interval brojeva koji bi trebaosadrzavati nepoznati parametar.

Prije svega, uocimo da svaki parametar populacije ima odreden skup mogucih vrijednostikoji se zove prostor parametra. Primjerice, prostor parametra π Bernoullijeve distribucije jeotvoreni interval (0, 1), jer po definiciji, π moze biti bilo koji broj u tom intervalu. Slicno tome,normalna distribucija ima dva parametra, ocekivanje µ i varijancu σ2. Prostor parametra µje skup realnih brojeva R = (−∞,+∞), a prostor parametra σ2 je skup pozitivnih realnihbrojeva R+ = (0,+∞).

Pretpostavimo da imamo parametar θ s prostorom (a, b), pri cemu je −∞ ≤ a < b ≤ +∞.Intervalni procjenitelj ili interval povjerenja parametra θ je interval

C = (V,W )

cije granice V i W mogu zavisiti o slucajnom uzorku, ali ne i o nepoznatim parametrima. Akosu obje granice intervala C slucajne, onda za C kazemo da je dvosmjerni ili dvostrani intervalpovjerenja. Ako je W = b, tj. ako se gornja granica intervala povjerenja podudara s gornjomgranicom prostora parametra, onda za V kazemo da je donja granica povjerenja za θ, a intervalC nazivamo gornjim intervalom povjerenja. Slicno tome, ako je V = a, onda za W kazemo daje gornja granica povjeranja za θ, a interval C nazivamo donjim intervalom povjerenja. Gornjii donji interval povjerenja zovu se jednosmjerni ili jednostrani intervali povjerenja.

Pretpostavimo npr. da procjenjujemo sredinu populacije µ, koja ima prostor R = (−∞,+∞).Ako je d fiksan pozitivan realan broj, onda je C1 = (X−d,X+d) dvostrani interval povjerenjaza µ. Interval C2 = (X − d,+∞) je gornji interval povjerenja, a njegova donja granica X − dje donja granica povjerenja za µ. Slicno tome, C3 = (−∞, X + d) je donji interval povjerenja,a X + d je gornja granica povjerenja za µ. Ako je d dovoljno velik, jasno je da ce svaki odnapisanih intervala s velikom (ali razlicitom) vjerojatnoscu sadrzavati sredinu populacije µ.

11-2

Page 126: Skripta iz statistike

Prema tome, interval povjerenja C za parametar θ treba imati osobinu da je θ ∈ C svelikom vjerojatnoscu, tj. P(θ ∈ C) treba biti blizu 1. Navedena vjerojatnost moze zavisiti ostvarnoj vrijednosti parametra, a najmanja takva vjerojatnost zove se razina povjerenja od C.Druga osobina intervala povjerenja koja nas zanima je njegova duljina. Sto je interval kraci, toje procjena preciznija. Dakle, dobar interval povjerenja treba biti malen i treba imati visokurazinu povjerenja. Medutim, kao sto cemo kasnije vidjeti, uz fiksnu velicinu uzorka, razinapovjerenja i velicina intervala su u rastucoj vezi, tj. povecanjem razine povjerenja povecava sei interval povjerenja i obratno.

Razinu povjerenja obicno zadajemo unaprijed, u obliku 1−α, pri cemu je α malen pozitivanbroj. Za α najcesce uzimamo 0.10, 0.05 ili 0.01, cime dobivamo razine povjerenja 0.90, 0.95,odnosno 0.99. Razinu povjerenja mozemo iskazati i u obliku postotka, pa tako govorimo orazini povjerenja od 90%, 95%, odnosno 99%.

Premda je θ ∈ C s vjerojatnoscu od barem 1−α, jednom kada odaberemo slucajni uzorak iizracunamo vrijednost granica intervala C, dobit cemo interval s fiksnim granicama, npr. C =(10, 20). Vazno je uociti da dobiveni brojevni interval moze i ne mora sadrzavati parametarθ i mi u nacelu ne znamo je li θ unutar ili izvan intervala. Medutim, ono sto znamo je dakada bismo interval povjerenja formirali velik broj puta, onda bi (1− α) · 100% rezultirajucihintervala sadrzavalo, a α · 100% intervala ne bi sadrzavalo θ.

Kako dolazimo do intervala povjerenja? Nacin izrade intervala povjerenja koji cemo ovdjeobjasniti zasniva se na koristenju pivota ili uporista. Pivot je slucajna varijabla

U = g(X1, X2, . . . , Xn, θ)

koja zavisi o slucajnom uzorku X1, X2, . . . , Xn i parametru θ, ali cija distribucija vjerojatnostine zavisi o θ. Koristeci distribuciju vjerojatnosti od U nalazimo skup realnih brojeva B takavda je P(U ∈ B) = 1− α. Skup B je obicno interval cije su granice prikladno odabrani kvantiliod U , pa dogadaj U ∈ B ima oblik nejednakosti, a rjesavanjem te nejednakosti po θ dolazimodo skupa rjesenja C, koji ce takoder imati oblik intervala. Buduci da su dogadaji θ ∈ C iU ∈ B jednaki, slijedi da je P(θ ∈ C) = P(U ∈ B) = 1− α, tj. C je interval povjerenja razine1− α.

U primjenama koje cemo uskoro razmotriti, pivot U bit ce neprekidna slucajna varijabla.Da bismo formirali dvostrani interval povjerenja razine 1−α, krenut cemo od kvantila u1 i u2od U razina α/2 i 1− α/2, koji su prikazani na slici 11.1. Ako stavimo B = (u1, u2), onda je

P(U ∈ B) = P(u1 < U < u2) = FU (u2)− FU (u1) = 1− α/2− α/2 = 1− α .Dakle, dvostrani interval povjerenja za θ dobit cemo rjesavanjem nejednadzbe u1 < U < u2po θ (ne treba zaboraviti da je U funkcija slucajnog uzorka i parametra θ). Za tako formiraniinterval povjerenja kazemo da je jednakorepan, jer kvantili u1 i u2 omeduju jednaku povrsinuα/2 ispod lijevog i desnog “repa” funkcije gustoce vjerojatnosti od U . Jednakorepni intervalpovjerenja nije uvijek najkraci, ali ga svejedno koristimo zbog njegove jednostavnosti.

Da bismo formirali jednostrani interval povjerenja, krenut cemo od kvantila u razine 1−αili α i rjesavat cemo nejednadzbu U < u ili U > u po θ.

Pretpostavimo sada da smo iz normalne populacije s nepoznatim ocekivanjem µ i poz-natom standardnom devijacijom σ formirali slucajni uzorak velicine n i nadimo dvostrani ijednostrane intervale povjerenja za µ razine 1 − α. Kako je populacija normalna, slijedi dasredina uzorka X takoder ima normalnu distribuciju s ocekivanjem µ i varijancom σ2/n, paslucajna varijabla

Z =X − µσ/√n

11-3

Page 127: Skripta iz statistike

f U(u

)

u1 u2

α/2 1− α α/2

Slika 11.1. Kvantili za formiranje jednakorepnog intervala povjerenja.

ima standardnu normalnu distribuciju. Uocimo da Z ne zavisi o nepoznatim parametrimapopulacije, te da distribucija vjerojatnosti od Z ne zavisi o µ. Dakle, Z mozemo koristiti kaopivot.

Neka je z = z1−α/2 = Φ−1(1−α/2) kvantil od Z razine 1−α/2. Zbog simetrije, tada je −zkvantil od Z razine α/2, pa je P(−z < Z < z) = 1− α, te cemo dvostrani interval povjerenjaza µ dobiti tako da nejednadzbu

−z < X − µσ/√n< z

rijesimo po µ. U tu svrhu, pomnozimo navedenu nejednadzbu s −σ/√n, nakon cega imamo

−z σ√n< µ−X < z

σ√n.

Ako svakoj strani sada dodamo X, konacno dobivamo

X − z σ√n< µ < X + z

σ√n.

Prema tome, uz pretpostavljene osobine populacije i uzimajuci u obzir da je z = z1−α/2,dvostrani interval povjerenja za µ razine 1− α ima oblik

(X − z1−α/2σ√n,X + z1−α/2

σ√n

) ,

sto skraceno zapisujemo kao

(11.5) X ± z1−α/2σ√n.

Primjer 11.1. Tezina u gramima 10 slucajno odabranih jabuka iznosi: 178, 170, 185, 192,199, 164, 186, 201, 180, 177. Pod pretpostavkom da tezina ima normalnu distribuciju spoznatom standardnom devijacijom od 15 grama, formirajte interval povjerenja razine 95% zasredinu populacije.

Buduci da je 1− α = 0.95, slijedi da je α = 0.05 i

z1−α/2 = z0.975 = Φ−1(0.975) = 1.960 ,

11-4

Page 128: Skripta iz statistike

pa ce za svaki uzorak velicine n = 10, interval povjerenja za sredinu populacije razine 95%imati oblik

X ± z1−α/2σ√n

= X ± 1.96015√10

= X ± 9.3 .

Dakle, ako iz opisane populacije jabuka slucajno odaberemo n = 10 jabuka, onda vjerojatnostda je X − 9.3 < µ < X + 9.3 iznosi 0.95.

Jednom kada odaberemo slucajni uzorak i izracunamo vrijednost aritmeticke sredine uzorkaX, dobit cemo realizaciju navedenog intervala povjerenja. Kako je za nas uzorak

X =

∑Xi

n=

1832

10= 183.2 ,

granice intervala povjerenja iznose

X ± 9.3 = 183.2± 9.3 = (173.9, 192.5) .

Istaknimo da kad izracunamo realizaciju intervala povjerenja, vise ne mozemo reci davjerojatnost da je 173.9 < µ < 192.5 iznosi 0.95, jer ta nejednakost sadrzi samo konstante ine sadrzi niti jednu slucajnu varijablu, pa joj ne mozemo pridruziti vjerojatnost. Navedenanejednakost je istinita ili lazna, tj. µ se nalazi ili se ne nalazi u napisanom intervalu, a minazalost ne znamo koja je od te dvije situacije nastupila. Doduse, ono sto znamo je da ce 95%slucajnih uzoraka proizvesti interval koji sadrzi sredinu populacije µ, a 5% nece. Preostajenam samo nadati se da nas uzorak pripada prvoj, a ne drugoj skupini.

Uocimo da polovica duljine intervala povjerenja (11.5) iznosi

(11.6) z1−α/2σ√n,

a taj broj nazivamo marginom ili rubom pogreske. Tako, margina pogreske u prethodnomprimjeru iznosi 9.3. Sto je margina pogreske veca, to je interval dulji i obratno. Ocigledno,margina pogreske zavisi o razini povjerenja (kroz kvantil z1−α/2), standardnoj devijaciji po-pulacije i o velicini uzorka. Sto je razina povjerenja veca, to ce kvantil z1−α/2 biti veci, pace margina pogreske takoder biti veca. Slicno je sa standardnom devijacijom, odnosno disper-zijom populacije. Sto populacija ima vecu disperziju, to je margina pogreske veca. S drugestrane, sto je uzorak veci, to je margina pogreske manja. Medutim, valja primijetiti da mar-gina pogreske pada s korijenom velicine uzorka. Dakle, da bismo marginu pogreske smanjili kputa, uzorak moramo povecati k2 puta.

U praksi cesto zelimo interval povjerenja odredene razine povjerenja cija margina pogre-ske ne prelazi zadani iznos h, sto znaci da moramo odabrati dovoljno velik uzorak. Akonejednakost

z1−α/2σ√n≤ h

rijesimo po n, slijedi da je

(11.7) n ≥(z1−α/2

σ

h

)2.

Istu tehniku odredivanja velicine uzorka za postizanje zadane margine pogreske mozemokoristiti i kod drugih intervala povjerenja. Medutim, u izrazu kojega na kraju dobijemo zan mogu se pojaviti nepoznate velicine koje treba priblizno procijeniti ili na drugi nacin uklo-niti. Spomenutu procjenu vrsimo koristeci rezultate prethodnih istrazivanja slicnog tipa, kojeobicno nalazimo u literaturi ili pomocu pilotnog, tj. probnog istrazivanja. Ako je potrebno, nkoji tako dobijemo uvecavamo radi dodatne sigurnosti.

11-5

Page 129: Skripta iz statistike

Primjer 11.2. Koliko velik uzorak treba uzeti u primjeru 11.1 ako margina pogreske trebaiznositi najvise 2 grama?

Primjenom formule (11.7) dobivamo

n ≥(z1−α/2

σ

h

)2=

(1.960

15

2

)2

= 216.09 .

Dakle, da bismo postigli marginu pogreske od najvise h = 2, trebamo uzeti n = 217 ili veci.Nadimo sada jednostrane intervale povjerenja za µ. U tu svrhu, uzmimo da je z = z1−α =

Φ−1(1− α) kvantil standardne normalne distribucije razine 1− α. Tada je P(Z < z) = 1− α,pa cemo jednostrani interval povjerenja za µ dobiti rjesavanjem nejednadzbe

X − µσ/√n< z

po µ. Mnozenjem s −σ/√n dobivamo

−z σ√n< µ−X ,

odakle slijedi

X − z σ√n< µ .

Stoga, uzimajuci u obzir da je z = z1−α, donja granica povjerenja za µ razine 1− α iznosi

(11.8) X − z1−ασ√n.

Slicno tome, promatranjem kvantila z = zα = −z1−α i nejednadzbe Z > z dobili bismogornju granicu povjerenja za µ razine 1− α, koja iznosi

(11.9) X + z1−ασ√n.

Primjer 11.3. Koristeci se podacima iz primjera 11.1, odredite jednostrane intervale povje-renja za sredinu populacije.

Kako je α = 0.05, slijedi da je

z1−α = z0.95 = 1.645 .

Dakle, donja granica povjerenja za µ iznosi

X − z1−ασ√n

= 183.2− 1.64515√10

= 175.4 ,

a gornji interval povjerenja je (175.4,+∞). Slicno tome, gornja granica povjerenja za µ iznosi

X + z1−ασ√n

= 183.2 + 1.64515√10

= 191.0 ,

a donji interval povjerenja je (−∞, 191.0).

11-6

Page 130: Skripta iz statistike

Vrijedi uociti da granice jednostranih intervala povjerenja imaju isti oblik kao granicedvostranog intervala povjerenja. Stovise, granice jednostranih intervala povjerenja mozemodobiti iz granica dvostranog intervala povjerenja tako da α/2 zamijenimo s α. Primjerice,donja granica dvostranog intervala povjerenja za µ iznosi X − z1−α/2σ/

√n, te ako u tom

izrazu α/2 zamijenimo s α, dobivamo X − z1−ασ/√n, sto je donja granica povjerenja za

µ. Takoder, u primjeni se najcesce javljaju upravo dvostrani intervali povjerenja, pa zbogsvega navedenog, u nastavku ovog poglavlja necemo posebno izvoditi formule niti izracunavatijednostrane intervale povjerenja.

Pretpostavka o poznavanju standardne devijacije populacije, na kojoj se zasnivaju pret-hodni intervali povjerenja za µ obicno je nerealna, tj. u praksi rijetko kad znamo σ. Ako jepopulacija normalna, onda sredinu populacije mozemo procijeniti i bez koristenja standardnedevijacije populacije, ali taj postupak ne polazi od normalne, nego od Studentove t distribucije.Naime, ako je populacija normalna, onda slucajna varijabla

T =X − µs/√n

ima t distribuciju s n− 1 stupnjeva slobode. Dakle, distribucija slucajne varijable T ne zavisio µ, pa T mozemo koristiti kao pivot u izradi intervala povjerenja za µ. U tu svrhu, neka jet = tn−1,1−α/2 kvantil Studentove t distribucije s n−1 stupnjeva slobode razine 1−α/2. Zbogsimetrije, dvostrani interval povjerenja za µ razine 1− α dobit cemo rjesavanjem nejednadzbe

−t < X − µs/√n< t

po µ. Rjesavanje tece prakticki jednako kao za slucaj poznate standardne devijacije, a rjesenjedo kojega se dolazi je

X − t s√n< µ < X + t

s√n.

Prema tome, dvostrani interval povjerenja za µ razine 1− α ima oblik

(X − tn−1,1−α/2s√n,X + tn−1,1−α/2

s√n

) ,

sto skraceno zapisujemo kao

(11.10) X ± tn−1,1−α/2s√n.

Ako je populacija normalna, onda slucajna varijabla

U = nS2/σ2

ima χ2 distribuciju s n−1 stupnjeva slobode, pa je mozemo koristiti kao pivot za formiranje in-tervala povjerenja za varijancu populacije σ2. Stoga, neka su u1 = χ2

n−1,α/2 i u2 = χ2n−1,1−α/2

kvantili χ2 distribucije s n−1 stupnjeva slobode razina α/2 i 1−α/2. Rjesavanjem nejednadzbe

u1 <nS2

σ2< u2

po σ2 dobit cemo dvostrani interval povjerenja za σ2 razine 1−α. Invertiranjem, tj. uzimanjemreciprocne vrijednosti svake strane gornje nejednakosti, slijedi da je

1

u2<

σ2

nS2<

1

u1,

11-7

Page 131: Skripta iz statistike

pa mnozenjem s nS2 dobivamonS2

u2< σ2 <

nS2

u1.

Dakle, dvostrani interval povjerenja za σ2 razine 1− α ima oblik

(11.11)

(nS2

χ2n−1,1−α/2

,nS2

χ2n−1,α/2

).

Buduci da se standardna devijacija dobiva korjenovanjem varijance, slijedi da cemo ko-rjenovanjem granica intervala povjerenja za varijancu dobiti granice intervala povjerenja zastandardnu devijaciju.

Primjer 11.4. Za slucajni uzorak od 12 upitnika dano je vrijeme u sekundama potrebno dase podaci s upitnika unesu u racunalo: 92, 93, 89, 86, 95, 91, 90, 91, 89, 97, 92, 85. Uzpretpostavku da vrijeme unosa ima normalnu distribuciju, na razini povjerenja 90% intervalnoprocijenite sredinu, varijancu i standardnu devijaciju populacije.

Ovdje imamo uzorak velicine n = 12, cija aritmeticka sredina iznosi

X =

∑Xi

n=

1090

12= 90.83 .

Kako ne bismo morali izracunavati dvije varijance – nekorigiranu S2 i korigiranu s2, uocimoda je s/

√n = S/

√n− 1 i nS2 = (n − 1)s2, pa se svaki od intervala (11.10) i (11.11) moze

odrediti pomocu jedne ili druge varijance. Jednostavnosti radi, izracunat cemo nekorigiranuvarijancu, koja ovdje iznosi

S2 =

∑X2i

n−X2

=99136

12− 90.832 = 10.64 ,

pa standardna devijacija S ima vrijednost

S =√S2 =

√10.64 = 3.262 .

Razina povjerenja je 1− α = 0.9, sto znaci da je α = 0.1, odakle slijedi

tn−1,1−α/2 = t11,0.95 = 1.796 .

Prema tome, interval povjerenja za µ je

X ± tn−1,1−α/2S√n− 1

= 90.83± 1.7963.262√

11= 90.83± 1.77 = (89.07, 92.60) .

Da bismo nasli interval povjerenja za σ2, trebaju nam kvantili χ2 distribucije, koji ovdjeiznose

χ2n−1,α/2 = χ2

11,0.05 = 4.575 ,

χ2n−1,1−α/2 = χ2

11,0.95 = 19.68 .

Dakle, interval povjerenja za σ2 je(nS2

χ2n−1,1−α/2

,nS2

χ2n−1,α/2

)=

(12 · 10.64

19.68,

12 · 10.64

4.575

)= (6.487, 27.91) .

11-8

Page 132: Skripta iz statistike

Korjenovanjem prethodnih granica dobivamo interval povjerenja za σ, koji je

(2.547, 5.283) .

Sto radimo ako populacija nema normalnu distribuciju? Prema centralnom granicnomteoremu, slucajna varijabla

X − µσ/√n

ima priblizno standardnu normalnu distribuciju kad je n velik. Pokazuje se da se taj zakljucakne mijenja ako u gornjem izrazu standardnu devijaciju populacije σ zamijenimo standardnomdevijacijom uzorka s, jer je s konzistentan procjenitelj od σ. Stoga, ako je n velik, ondaslucajna varijabla

Z =X − µs/√n

ima priblizno standardnu normalnu distribuciju i mozemo je koristiti kao pivot za formiranjeintervala povjerenja za sredinu populacije µ. Dvostrani interval povjerenja razine 1−α pritomiznosi

(11.12) X ± z1−α/2s√n.

Prethodno razmatranje se ne bi promijenilo da smo umjesto s koristili S, jer je S takoderkonzistentan procjenitelj od σ. Osim toga, ako je n velik, onda su standardne devijacije Si s priblizno jednake. Primjenom navedenog na Bernoullijevu distribuciju s parametrom π,kod koje je X = P i S2 = P (1− P ), dobivamo da dvostrani interval povjerenja za proporcijupopulacije π razine 1− α iznosi

(11.13) P ± z1−α/2√P (1− P )

n.

Primjer 11.5. Smatrajuci podatke o prodaji prijenosnih racunala iz tablice 4.3 slucajnimuzorkom, na razini povjerenja 99% intervalno procijenite sredinu populacije. Koristite serezultatima primjera 4.3.

Ovdje imamo slucajni uzorak velicine n = 40 iz populacije s nepoznatom distribucijom, aiz primjera 4.3 znamo da je X = 2.975 i S = 1.525. Vjezbe radi, izracunat cemo korigiranustandardnu devijaciju:

s = S

√n

n− 1= 1.525

√40

39= 1.544 .

Kao sto treba biti, s je vece od S, ali buduci da je n velik, S i s se vrlo malo razlikuju. Razinapovjerenja iznosi 1− α = 0.99, pa je α = 0.01, odakle dobivamo

z1−α/2 = z0.995 = Φ−1(0.995) = 2.576 .

Prema tome, interval povjerenja za µ iznosi

X ± z1−α/2s√n

= 2.975± 2.5761.544√

40= 2.975± 0.629 = (2.346, 3.604) .

11-9

Page 133: Skripta iz statistike

Primjer 11.6. Medu 200 slucajno odabranih studenata nekog sveucilista, njih 144 posjedujeosobno racunalo. Na razini povjerenja 95% intervalno procijenite proporciju studenata proma-tranog sveucilista koji posjeduju osobno racunalo. Koliko velik uzorak treba uzeti da marginapogreske ne prelazi 0.025?

Ovdje imamo slucajni uzorak iz Bernoullijeve populacije. S obzirom da je n = 200, uzoraksmatramo velikim i π mozemo procijeniti koristeci (11.13). Razina povjerenja je 1− α = 0.95,pa je α = 0.05 i

z1−α/2 = z0.975 = Φ−1(0.975) = 1.960 .

Proporcija uzorka iznosi P = 144/200 = 0.72, pa dolazimo do sljedeceg intervala povjerenjaza π:

P ± z1−α/2√P (1− P )

n= 0.72± 1.960

√0.72(1− 0.72)

200= 0.72± 0.0622 = (0.6578, 0.7822) .

Margina pogreske ovdje iznosi

z1−α/2

√P (1− P )

n.

pa ako zelimo da margina pogreske iznosi najvise h, onda treba biti

(11.14) n ≥(z1−α/2

√P (1− P )

h

)2

.

Da bismo prema gornjem izrazu izracunali donju granicu za n, ocigledno moramo znati P ,ali P cemo znati tek kad formiramo uzorak. Prema tome, P treba procijeniti, za sto mozemokoristiti rezultate prethodnih istrazivanja. Ako to nije moguce, koristimo se cinjenicom dafunkcija f(x) = x(1− x) = x− x2 postize svoj maksimum u x = 1/2, koji iznosi f(1/2) = 1/4,pa√P (1− P ) moze najvise iznositi

√1/4 = 1/2. Stoga, ako nemamo informacija o tome

koliko iznosi P , onda uzimamo

(11.15) n ≥(z1−α/2

2h

)2.

U nasem primjeru mozemo se koristiti rezultatima za uzorak studenata koji je vec formiran,za koji smo dobili P = 0.72, odakle slijedi da za postizanje margine pogreske od najviseh = 0.025 trebamo uzorak velicine

n ≥(z1−α/2

√P (1− P )

h

)2

=

(1.960

√0.72(1− 0.72)

0.025

)2

= 1239.15 ,

odnosno u uzorak trebamo odabrati najmanje n = 1240 studenata. Da nemamo spoznaja oP , koristili bismo se izrazom (11.15), iz kojega slijedi

n ≥(z1−α/2

2h

)2=

(1.960

2 · 0.025

)2

= 1536.64 ,

tj. u uzorak treba uzeti najmanje n = 1537 studenata.Intervali povjerenja koji su u ovom poglavlju obradeni pregledno su prikazani u tablici 11.1.

11-10

Page 134: Skripta iz statistike

Tablica 11.1. Pregled obradenih intervala povjerenja.

Populacija Parametar Interval povjerenja Napomena

N(µ, σ2) µ X ± z1−α/2σ√n

σ poznat

N(µ, σ2) µ X ± tn−1,1−α/2s√n

N(µ, σ2) σ2

(nS2

χ2n−1,1−α/2

,nS2

χ2n−1,α/2

)

Proizvoljna µ X ± z1−α/2s√n

n velik

B(π) π P ± z1−α/2√P (1− P )

nn velik

Zadaci

11.1. Iz populacije s ocekivanjem µ i varijancom σ2 biramo slucajni uzorak X1, X2, X3 iformiramo statistiku

T =X1 + 2X2 + 3X3

6.

Je li T nepristran procjenitelj od µ? Koliko iznosi srednja kvadratna pogreska od T? IzmeduX i T , koji procjenitelj ocekivanja µ biste odabrali?

11.2. Iz normalne populacije s nepoznatim ocekivanjem µ i poznatom standardnom devi-jacijom σ = 6, slucajno biramo uzorak velicine n = 9. Odredite razinu sljedecih intervalapovjerenja za µ:

(a) (X − 4, X + 3),

(b) (X − 2z,X + 2z), pri cemu je z pozitivan realan broj.

Koliki treba biti z da bi gornji intervali povjerenja imali istu razinu? Koji interval je u tomslucaju kraci?

11.3. Poznato je da su rezultati testa kojemu se podvrgavaju kandidati za pripravnicke poslovenormalno distribuirani sa standardnom devijacijom σ = 30 bodova. Slucajnim izborom 15testova iz trenutne skupine kandidata doslo se do sljedecih bodovnih rezultata: 226, 131, 186,207, 214, 238, 145, 230, 207, 227, 225, 186, 243, 218, 221.

(a) Formirajte interval povjerenja razine 95% za srednji broj bodova trenutne skupine kandi-data.

(b) Netko je na osnovu danih podataka formirao gornji interval povjerenja (188.9,+∞) zasredinu populacije. Kolika je razina tog intervala povjerenja?

11.4. U jednom rent-a-car poduzecu zainteresirani su za vrijeme koje njihovi automobili pro-vedu na servisu. Broj dana provedenih na servisu u proteklih godinu dana za slucajni uzorakod 9 automobila iznosi: 11, 13, 6, 12, 7, 8, 5, 3, 14. Pod pretpostavkom da vrijeme provedenona servisu ima normalnu distribuciju, na razini povjerenja 95% odredite

11-11

Page 135: Skripta iz statistike

(a) dvostrani interval povjerenja,

(b) gornju granicu povjerenja

sredine populacije.

11.5. Mjerenjem vremena da osoba reagira na neki podrazaj, dobiveni su ovi rezultati (umilisekundama): 214, 185, 185, 175, 216, 189, 193, 209, 194, 200, 209. Na razini povjerenja95% intervalno procijenite sredinu i standardnu devijaciju vremena reakcije. Pretpostavlja seda vrijeme reakcije ima normalnu distribuciju.

11.6. Smatrajuci podatke iz tablice 4.13 slucajnim uzorkom, na razini povjerenja (a) 90%(b) 98% intervalno procijenite srednju kolicinu utocenog benzina. Koristite se rezultatimazadatka 4.2.

11.7. Studenti statistike sudjelovali su u pokusu u kojemu su trebali prostim oko odreditisirinu predavaone u metrima. Prikupljeni podaci o sirini prikazani su u tabalici 11.2. Na razinipovjerenja 95% intervalno procijenite stvarnu sirinu predavaone.

Tablica 11.2. Sirina predavaone u metrima.

Sirina Brojpredavaone (m) studenata

6 – 8 28 – 10 15

10 – 12 2112 – 14 1714 – 16 1216 – 18 1

11.8. Od 417 pregledanih putnika u autobusima gradskog prometa, njih 31 bilo je bez putnekarte. Na razini povjerenja (a) 95% (b) 85% intervalno procijenite udio putnika koji se vozebez karte. Kako se odnose razina povjerenja i preciznost procjene?

11.9. U slucajnom uzorku od 150 glasaca, njih 51 izjavilo da ce na izborima glasati za kan-didata liberala. Na razini povjerenja 99% intervalno procijenite proporciju glasaca koji cena izborima svoj glas dati kandidatu liberala. Koliko velik uzorak treba uzeti da marginapogreske ne prelazi 0.03?

11-12

Page 136: Skripta iz statistike

12. Testiranje hipoteza

Statisticka hipoteza je tvrdnja o distribuciji populacije, a testiranje hipoteza je postupak ukojemu pomocu uzorka provjeravamo je li takva tvrdnja istinita ili lazna. Testiranje hipotezau obliku koji cemo ovdje opisati razvili su J. Neyman1 i E. Pearson2.

Statisticke hipoteze cesto imaju oblik tvrdnje o jednom ili vise parametara populacije.Primjerice, hipoteza µ = 0 tvrdi da sredina populacije iznosi 0, a hipoteza µ < 100 da jesredina populacije manja od 100. Hipoteza u kojoj parametar poprima samo jednu vrijednostzove se jednostavna, a hipoteza koja nije jednostavna zove se slozena. Tako, hipoteza µ = 0 jejednostavna, jer tvrdi da sredina populacije iznosi tocno 0, a hipoteza µ < 100 je slozena, jerkaze da sredina populacije moze biti bilo koji broj manji od 100.

Nul i alternativna hipoteza

Svaki postupak testiranja hipoteza ima dvije hipoteze, jednu od kojih nazivamo nul hipotezom,a drugu alternativnom hipotezom. Nul hipotezu oznacavamo s H0, a alternativnu s H1. Kaonul hipotezu uglavnom biramo tvrdnju za koju zelimo pokazati da je lazna, dok tvrdnju zakoju bismo htjeli pokazati da je istinita stavljamo u alternativnu hipotezu. Takoder, nulhipoteza obicno oznacava pocetno stanje, izostanak ucinka ili nepotrebnost poduzimanja nekeaktivnosti, a alternativna hipoteza tvrdi da je doslo do promjene, da postoji ucinak ili da jepotrebno nesto poduzeti.

Primjer 12.1. U narednim situacijama postavite nul i alternativnu hipotezu.

(a) Stroj puni kutije sladoledom. Tezina sladoleda u kutiji treba u prosjeku iznositi 500 g.Kontrolor zeli uzimanjem uzorka provjeriti ispravnost rada stroja.

(b) Poznato je da prosjecna potrosnja elektricne energije po kucanstvu na nekom podrucjuiznosi 1500 kWh. Kako bi se potrosnja smanjila, provest ce se kampanja slanjem indi-vidualnih obavijesti potrosacima. Ucinkovitost kampanje zeli se prethodno provjeriti nauzorku.

(c) Proporcija studenata koji na nastavi uspjesno ovladaju odredenim dijelom gradiva iznosi60%. Nakon uvodenja nove metode poucavanja ispituje se jesu li studenti uspjesniji uusvajanju znanja.

(d) Osim sto stroj treba u prosjeku puniti kutije s odredenom kolicinom sladoleda, tezinasladoleda treba biti sto je moguce bliza deklariranoj tezini, tj. standardna devijacijatezine sladoleda u kutiji ne smije biti velika. Uzorkom se zeli ispitati je li standardnadevijacija presla vrijednost 10 grama.

U primjeru (a) zanima nas sredina populacije µ. Ako stroj radi ispravno, onda je µ = 500.Ako je µ 6= 500, onda stroj treba podesiti. Dakle, nul i alternativna hipoteza imat ce oblik

H0 : µ = 500H1 : µ 6= 500

.

1Jerzy Neyman (1894.-1981.) – americki matematicar i statisticar porijeklom iz Poljske2Egon Pearson (1895.-1980.) – engleski statisticar, sin K. Pearsona

12-1

Page 137: Skripta iz statistike

U slucaju (b) takoder promatramo sredinu populacije µ. Prosjecna potrosnja elektricne ener-gije prije kampanje iznosi µ = 1500, a kampanjom se taj iznosi treba smanjiti. Dakle, hipotezece imati oblik

H0 : µ = 1500H1 : µ < 1500

.

Pod (c) ocigledno promatramo proporciju populacije π. U pocetku, koristeci staru metodupoucavanja, imamo da je π = 0.6. Zelimo dokazati da je nova metoda poucavanja ucinkovitijaod stare, pa stavljamo

H0 : π = 0.6H1 : π > 0.6

.

Konacno, u slucaju (d) imamo test o standardnoj devijaciji populacije σ. Ako je σ > 10, ondastroj treba odrzavanje. U protivnom, odrzavanje je nepotrebno. Stoga, ovdje imamo

H0 : σ = 10H1 : σ > 10

.

Uocimo da je u svakom slucaju u prethodnom primjeru nul hipoteza bila jednostavnahipoteza oblika θ = θ0, koja tvrdi da je odredeni parametar θ jednak nekoj vrijednosti θ0. Sdruge strane, u alternativnoj hipotezi tvrdili smo da je parametar θ razlicit, veci ili manji odθ0. Test u kojemu alternativna hipoteza ima oblik θ 6= θ0 zove se dvostrani ili dvosmjerni,a test u kojemu alternativna hipoteza ima oblik θ > θ0 ili θ < θ0 zove se jednostrani ilijednosmjerni. Dakle, test u slucaju (a) je dvostran, a testovi u slucajevima (b), (c) i (d) sujednostrani.

Nul hipoteza u jednostranom testu moze se izraziti u obliku nejednakosti. Primjerice, uslucaju (d) mogli bismo u nul hipotezi uzeti σ ≤ 10. Medutim, to ne mijenja nacin kako setest provodi, pa cemo nul hipotezu uglavnom pisati kao jednostavnu hipotezu.

Razina znacajanosti

U testiranju hipoteza, nul hipotezu suocavamo s dokazima koje pruza uzorak. Ako su opazanjaiz uzorka u skladu s nul hipotezom, onda nul hipotezu ne mozemo proglasiti neistinitom.Medutim, ako su opazanja iz uzorka u ociglednom neskladu s nul hipotezom, onda nul hipotezuodbacujemo kao neistinitu u korist alternativne hipoteze.

Odluka o odbacivanju ili neodbacivanju nul hipoteze donosi se na temelju unaprijed za-danog kriterija odluke, kojega formiramo prije uzimanja uzorka. Kriterij odluke sastoji se odneke prikladno odabrane statistike i skupa vrijednosti te statistike koje dovode do odbacivanjanul hipoteze. Statistika koju koristimo u kriteriju odluke zove se test statistika ili test veli-cina, a skup vrijednosti test statistike koje vode do odbacivanja nul hipoteze zove se podrucjeodbacivanja ili kriticno podrucje. Prema tome, ako nakon uzimanja uzorka vrijednost test sta-tistike ude u kriticno podrucje, onda odbacujemo nul hipotezu, te kazemo da je vrijednost teststatistike znacajna ili signifikantna. Kriticno podrucje je obicno omedeno jednim ili dvjemabrojevima, koje nazivamo kriticnim granicama.

Primjerice, ako testiramo H0 : µ = 0 u odnosu na H1 : µ 6= 0, onda bismo kao test statistikumogli uzeti aritmeticku sredinu uzorka X. Ako je nul hipoteza istinita, onda sredina populacijeiznosi 0, pa bi i aritmeticka sredina uzorka trebala iznositi priblizno 0. S druge strane, ako searitmeticka sredina uzorka dovoljno razlikuje od 0, onda imamo razloga sumnjati u istinitostnul hipoteze i nul hipotezu trebamo odbaciti u korist alternativne. Stoga, kriticno podrucje seu ovom testu treba sastojati od vrijednosti test statistike koje smatramo dovoljno razlicitima

12-2

Page 138: Skripta iz statistike

od 0. Neka je to npr. skup (−∞,−3] ∪ [3,+∞). Drugim rijecima, ako nakon uzimanjauzorka dobijemo da je X ≤ −3 ili X ≥ 3, onda odbacujemo nul hipotezu. U protivnom, neodbacujemo nul hipotezu. Vrijednosti 3 i −3 su ovdje kriticne granice.

S obzirom da su opazanja iz uzorka slucajna, jasno je da takav proces donosenja odlukenije savrsen i odluka koju na kraju donesemo moze biti pogresna. Naime, test statistika mozeuci u kriticno podrucje premda je nul hipoteza istinita, sto znaci da cemo odbaciti istinitunul hipotezu i to nazivamo pogreskom tipa I ili pogreskom odbacivanja. S druge strane, akoje nul hipoteza neistinita, test statistika ne mora nuzno uci u kriticno podrucje i ako se to nedogodi, neistinita nul hipoteza se nece odbaciti, sto zovemo pogreskom tipa II ili pogreskomneodbacivanja. Ispravne i pogresne odluke u testiranju hipoteza rezimirane su u tablici 12.1.

Tablica 12.1. Odluke u testiranju hipoteza.

H0 istinita H0 lazna

Odbaciti H0 Pogreska tipa I Ispravna odlukaNe odbaciti H0 Ispravna odluka Pogreska tipa II

Kriterij odluke u svakom testiranju hipoteza trebamo formirati tako da vjerojatnost pogre-ske bilo kojeg tipa bude sto je moguce manja. Jasno je da vjerojatnost pogreske odbacivanjazavisi o velicini kriticnog podrucja, odnosno vjerojatnost pogreske odbacivanja mozemo sma-njiti tako da smanjimo kriticno podrucje. Medutim, time ocigledno povecavamo vjerojatnostda se nul hipoteza ne odbaci, neovisno o njenoj istinitosti. Dakle, smanjivanjem vjerojatnostipogreske jednog tipa povecava se vjerojatnost pogreske drugog tipa. Vjerojatnost pogreski obatipa mozemo istovremeno smanjiti samo uzimanjem veceg uzorka.

Vjerojatnost pogreske u testiranju hipoteza zavisi o stvarnoj vrijednosti parametra kojegatestiramo, a najveca vjerojatnost pogreske odbacivanja zove se razina znacajnosti ili signi-fikantnosti testa i oznacava se s α. Razina znacajnosti α treba biti malen pozitivan broj.Uobicajene vrijednosti za α jesu 0.01, 0.05 i 0.10, odnosno 1%, 5% i 10%. Odluku o tomekoliko ce iznositi α donosimo uzimajuci u obzir posljedice pojedinih pogreski i cinjenicu dasmanjivanjem vjerojatnosti pogreske jednog tipa nuzno povecavamo vjerojatnost pogreske dru-gog tipa.

Primjer 12.2. Kod sljedecih testova postavite hipoteze i odredite prikladnu razinu znacaj-nosti.

(a) Smatra se da prosjecan sadrzaj katrana od 10 ili vise miligrama po cigareti, sa sigurnoscuuzrokuje ozbiljne zdravstvene probleme disnog sustava. Pusac zeli uzorkovanjem pronacimarku cigareta koje sadrze manje od 10 miligrama katrana po cigareti.

(b) Stroj treba puniti staklenke s tocno 900 grama marmelade. Uzorkom se zeli ispitatiispravnost rada stroja. Ako se utvrdi da stroj ne radi ispravno, sluzba za odrzavanjetreba podesiti stroj.

Pogledajmo najprije slucaj (a), u kojemu pusac pokusava otkriti “sigurnu” marku cigareta.Hipoteze ce imati oblik

H0 : µ = 10H1 : µ < 10

.

Nul hipoteza tvrdi da cigarete imaju previse katrana, pa su stoga stetne, a alternativnahipoteza tvrdi da katrana ima manje od granice koju se smatra opasnom za zdravlje. Pogreskaodbacivanja ce se dogoditi ako za cigarete koje imaju 10 ili vise miligrama katrana utvrdimoda sadrze manje od 10 miligrama katrana, te da ne predstavljaju opasnost za zdravlje. Stoga,

12-3

Page 139: Skripta iz statistike

pogreska odbacivanja je ovdje vrlo ozbiljna. S druge strane, pogreska neodbacivanja dogoditce se ako propustimo utvrditi da cigarete sadrze manje od 10 miligrama katrana, sto je manjeozbiljno od pogreske odbacivanja, jer ce jedina posljedica biti da cemo morati nastaviti traziticigarete koje nisu opasne za zdravlje. Buduci da je ovdje pogreska odbacivanja skuplja odpogreske neodbacivanja, uzet cemo sto je moguce manji α, npr. α = 0.01 ili cak α = 0.001.

Hipoteze u slucaju (b) imat ce oblik

H0 : µ = 900H1 : µ 6= 900

.

Nul hipoteza tvrdi da stroj radi ispravno i da odrzavanje nije potrebno, a alternativna hipo-teza tvrdi da stroj ne radi ispravno, te da je potrebno pozvati sluzbu odrzavanja. Pogreskaodbacivanja znaci da cemo podesiti stroj kojemu nije potrebno podesavanje, a pogreska neod-bacivanja znaci da stroj ne radi ispravno i da ga necemo podesiti. Ako podesavanje stroja nijeosobito skupa operacija, pogreska neodbacivanja je ovdje ozbiljnija od pogreske odbacivanja,pa cemo uzeti nesto veci α, npr. α = 0.05 ili α = 0.10.

Koraci u testiranju hipoteza rezimirani su u tablici 12.2.

Tablica 12.2. Koraci u testiranju hipoteza.

1. Postaviti nul i alternativnu hipotezu.2. Odabrati razinu znacajnosti.3. Odabrati test velicinu.4. Odrediti kriticno podrucje prema alternativnoj hipotezi.5. Provesti uzorkovanje i izracunati vrijednost test velicine.6. Donijeti odluku o odbacivanju ili neodbacivanju nul hipoteze.

Testovi o sredini, varijanci i proporciji

Pogledajmo sada kako se u nekim poznatijim slucajevima formira kriterij odluke i kako sepotom provodi test.

Primjer 12.3. Istrazivaci vjeruju da je prosjecan IQ studenata na jednom sveucilistu veciod nacionalnog prosjeka, koji iznosi 100. Prosjecan IQ 25 studenata iz uzorka iznosi 104. Izprethodnih promatranja poznato je da je IQ normalno distribuiran, sa standardnom devijaci-jom 10. Postavite hipoteze i testirajte na razini znacajnosti (a) 5% (b) 1%. Koliko iznosip-vrijednost testa?

Populaciju ovdje cini IQ studenata na promatranom sveucilistu. Stovise, pretpostavljamoda je populacija normalna s nepoznatim ocekivanjem µ i poznatom standardnom devijacijomσ = 10. Za ocekivanje populacije htjeli bismo dokazati da je vece od nacionalnog prosjeka,koji iznosi 100. Dakle, hipoteze imaju sljedeci oblik

H0 : µ = 100H1 : µ > 100

.

Nul hipotezu suocavamo s opazanjima iz uzorka velicine n = 25, za koji smo utvrdili srednjiIQ u iznosu X = 104. Aritmeticka sredina uzorka je nesto veca od pretpostavljene vrijednosti100. No, je li to odstupanje dovoljno maleno da ga mozemo smatrati slucajnim ili je dovoljnoveliko da imamo razloga sumnjati u istinitost nul hipoteze? Da bismo dali odgovor na to

12-4

Page 140: Skripta iz statistike

pitanje, trebamo formirati kriterij odluke, odnosno trebamo odabrati test statistiku i odreditikriticno podrucje.

S obzirom da se test odnosi na sredinu populacije, logicno je da kao test statistiku oda-beremo sredinu uzorka X. Dokaz protiv nul hipoteze i u korist alternativne hipoteze bit cevelike vrijednosti od X, pa ce podrucje odbacivanja imati oblik X ≥ c, pri cemu je c kriticnavrijednost koju treba odrediti tako da dogadaj X ≥ c ima vjerojatnost α kad je nul hipotezaistinita, tj. tako da je P(X ≥ c) = α kad je µ = 100.

Ako populacija ima normalnu distribuciju s ocekivanjem µ i varijancom σ2, onda sredinauzorka X ima takoder normalnu distribuciju s ocekivanjem E(X) = µ i varijancom Var(X) =σ2/n, odakle slijedi

P(X ≥ c) = 1− FX(c) = 1− Φ

(c− µσ/√n

).

Ako prethodni izraz izjednacimo s α i potom rijesimo po c, dobivamo da je

c = µ+ Φ−1(1− α)σ√n.

Stovise, c je kvantil razine 1− α slucajne varijable X.Podsjecamo da c racunamo pod pretpostavkom da je µ = 100, pa za α = 0.05 dobivamo

Φ−1(1− α) = Φ−1(0.95) = 1.645 i

c = 100 + 1.645 · 10√25

= 103.3 ,

sto znaci da pri toj razini znacajnosti odbacujemo nul hipotezu, jer je nejednakost X ≥ czadovoljena. Drugim rijecima, pri razini znacajnosti α = 0.05 tvrdimo da je prosjecan IQstudenata na sveucilistu veci od nacionalnog prosjeka. Za α = 0.01 imamo Φ−1(1 − α) =Φ−1(0.99) = 2.326 i

c = 100 + 2.326 · 10√25

= 104.7 ,

pa ne odbacujemo nul hipotezu, jer nejednakost X ≥ c sada nije ispunjena. Dakle, pri raziniznacajnosti α = 0.01 ne mozemo tvrditi da je prosjecan IQ studenata na sveucilistu veci odnacionalnog prosjeka.

Prethodni postupak testiranja bio bi nesto jednostavniji da smo test statistiku standardi-zirali, te da smo umjesto X koristili slucajnu varijablu

Z =X − µσ/√n,

koja ima standardnu normalnu distribuciju. Tada bismo kriticno podrucje trazili u oblikuZ ≥ z, pri cemu treba biti P(Z ≥ z) = α kad je µ = 100. Kako je P(Z ≥ z) = 1− Φ(z) slijedida je z = Φ−1(1−α), tj. z je kvantil standardne normalne distribucije razine 1−α. Dakle, zaα = 0.05 imamo z = Φ−1(0.95) = 1.645, a za α = 0.01 je z = Φ−1(0.99) = 2.326. Za µ = 100test statistika poprima vrijednost

Z =X − µσ/√n

=104− 100

10/√

25= 2 ,

pa se nul hipoteza odbacuje pri razini znacajnosti 0.05, ali ne i pri razini znacajnosti 0.01, stoje identicno zakljuccima koje smo prije dobili.

12-5

Page 141: Skripta iz statistike

Ocigledno, povecanjem razine znacajnosti povecavamo i kriticno podrucje, pa time i mo-gucnost da nul hipoteza bude odbacena. Korisno je stoga znati najmanju razinu znacajnostipotrebnu za odbacivanje nul hipoteze, koju zovemo p-vrijednost i koju cemo oznaciti s p. Dabi u ovom primjeru doslo do odbacivanja nul hipoteze, dovoljno je da kriticna granica poprimivrijednost z = 2, a kako je razina znacajnosti jednaka vjerojatnosti P(Z ≥ z), dobivamo dap-vrijednost iznosi

p = P(Z ≥ 2) = 1− Φ(2) = 1− 0.9772 = 0.0228 .

Buduci da se p-vrijednost definira kao najmanja razina znacajnosti pri kojoj dolazi doodbacivanja nul hipoteze, slijedi da se nul hipoteza odbacuje ako je α ≥ p, dok ako je α < ponda se nul hipoteza ne odbacuje. Prema tome, poznavajuci p-vrijednost nekog testa, odlukuo odbacivanju ili neodbacivanju mozemo donijeti za bilo koju razinu znacajnosti. Takoder,p-vrijednost mozemo shvatiti kao mjeru uskladenosti nul hipoteze i opazanja iz uzorka. Akoje p-vrijednost velika, onda su opazanja iz uzorka konzistentna s nul hipotezom, dok ako jep-vrijednost malena, onda opazanja iz uzorka ne idu u prilog nul hipotezi.

Pretpostavimo sada da imamo slucajni uzorak velicine n iz normalne populacije s poznatomstandardnom devijacijom i pogledajmo kako se nul hipoteza H0 : µ = µ0 testira u odnosu nadvostranu ili jednostranu alternativnu hipotezu. Kao test statistiku koristit cemo slucajnuvarijablu

Z =X − µ0

σ/√n,

koja ima standardnu normalnu distribuciju kad je nul hipoteza istinita.Ako alternativna hipoteza ima oblik H1 : µ > µ0, onda ce dokaz protiv nul hipoteze biti

vrijednosti test statistike Z koje su dovoljno vece od 0, tj. nul hipotezu cemo odbaciti ako jeZ ≥ z, pri cemu z biramo tako da dogadaj Z ≥ z ima vjerojatnost α. Iz P(Z ≥ z) = α slijedida je z kvantil standardne normalne distribucije razine 1−α, odnosno z = Φ−1(1−α) = z1−α.

Ako alternativna hipoteza ima oblik H1 : µ < µ0, onda se nul hipotezu odbacuje ako jeZ dovoljno manje od 0, tj. ako je Z ≤ z, pri cemu z biramo tako da je P(Z ≤ z) = α.Dakle, kriticna granica z je ovdje kvantil standardne normalne distribucije razine α, od-nosno z = Φ−1(α) = zα. Kako je α malen pozitivan broj, taj kvantil nemamo u tablicikvantila standardne normalne distribucije, ali iz simetrije normalne distribucije slijedi da jez = −Φ−1(1− α) = −z1−α.

Konacno, ako imamo dvostranu alternativnu hipotezu H1 : µ 6= µ0, onda se nul hipotezaodbacuje ako je Z dovoljno vece ili manje od 0, odnosno ako je |Z| dovoljno vece od 0, paje kriticno podrucje odredeno brojem z takvim da je P(|Z| ≥ z) = α. Buduci da je dogadaj|Z| ≥ z jednak uniji iskljucivih dogadaja Z ≥ z i Z ≤ −z, slijedi da je

P(|Z| ≥ z) = P(Z ≥ z) + P(Z ≤ −z)= 1− Φ(z) + Φ(−z)= 1− Φ(z) + 1− Φ(z)

= 2(1− Φ(z)) ,

(12.1)

pa iz jednakosti 2(1− Φ(z)) = α dobivamo da je z = Φ−1(1− α/2) = z1−α/2.Postupak testiranja navedenih hipoteza pregledno je prikazan u tablici 12.3.

Primjer 12.4. Kolicina kave kojom stroj puni vrecice normalno je distribuirana s poznatomstandardnom devijacijom σ = 3.5 grama. Uzimanjem slucajnog uzorka od 10 vrecica, doslo

12-6

Page 142: Skripta iz statistike

Tablica 12.3. Testiranje hipoteze o sredini populacije kad populacija ima normalnudistribuciju s poznatom standardnom devijacijom σ.

Nul Alternativna Test Kriticnohipoteza hipoteza statistika podrucje

H1 : µ 6= µ0 |Z| ≥ z1−α/2

H0 : µ = µ0 H1 : µ > µ0 Z =X − µ0

σ/√n

Z ≥ z1−α

H1 : µ < µ0 Z ≤ −z1−α

se do sljedecih podataka o tezini: 247, 251, 261, 253, 252, 248, 251, 259, 255, 250. Ako strojtreba puniti vrecice s tocno 250 grama kave, na razini 10% testirajte hipotezu o ispravnomradu stroja. Izracunajte i p-vrijednost testa.

Hipoteze ovdje imaju oblikH0 : µ = 250H1 : µ 6= 250

,

a s obzirom da je populacija normalna s poznatom standardnom devijacijom σ = 3.5, testiranjecemo provesti kako je opisano u tablici 12.3. Sredina danog uzorka velicine n = 10 iznosi

X =

∑Xi

n=

2527

10= 252.7 ,

pa test statistika ima vrijednost

Z =X − µ0

σ/√n

=252.7− 250

3.5/√

10= 2.439 .

Kriticno podrucje je oblika |Z| ≥ z1−α/2, pri cemu je α = 0.1 i

z1−α/2 = Φ−1(1− α/2) = Φ−1(0.95) = 1.645 .

Kako je nejednakost |Z| ≥ z1−α/2 ocigledno ispunjena, pri razini znacajnosti α = 0.1 odbacu-jemo nul hipotezu da stroj radi ispravno.

Da bismo izracunali p-vrijednost, trazimo razinu znacajnosti koja je potrebna da kriticnagranica bude jednaka vrijednosti test statistike. Kriticnu granicu odredili smo iz jednakostiP(|Z| ≥ z) = α, pa je

p = P(|Z| ≥ 2.439) = 2(1− Φ(2.439)) = 2(1− 0.9927) = 0.0146 ,

sto je relativno malo. Nul hipotezu bismo odbacili u korist alternativne pri razini α = 0.05,ali ne i pri razini α = 0.01.

Ako je populacija normalno distribuirana, ali standardna devijacija populacije σ nije poz-nata, onda u testiranju hipoteza o sredini populacije koristimo statistku

T =X − µ0

s/√n,

koja ima t distribuciju s n − 1 stupnjeva slobode. Kriticno podrucje odreduje se slicno kaou slucaju kad je σ poznato, ali umjesto standardne normalne, za kriticne granice koristimokvantile t distribucije. Postupak testiranja rezimiran je u tablici 12.4.

12-7

Page 143: Skripta iz statistike

Tablica 12.4. Testiranje hipoteze o sredini populacije kad populacija ima normalnudistribuciju.

Nul Alternativna Test Kriticnohipoteza hipoteza statistika podrucje

H1 : µ 6= µ0 |T | ≥ tn−1,1−α/2

H0 : µ = µ0 H1 : µ > µ0 T =X − µ0

s/√n

T ≥ tn−1,1−α

H1 : µ < µ0 T ≤ −tn−1,1−α

Primjer 12.5. Proizvodac jednog tipa baterija za rucne lampe tvrdi da njegove baterije imajuprosjecan vijek trajanja od najmanje 750 minuta. Uzimanjem uzorka od 15 baterija doslo se doovih podataka o trajanju: 730, 759, 725, 740, 754, 745, 750, 753, 730, 780, 725, 790, 719, 775,700. S obzirom na izmjerene vrijednosti, imamo li razloga na razini znacajnosti 1% sumnjatiu tvrdnju proizvodaca? Pretpostavlja se da vijek trajanja baterije ima normalnu distribuciju.

Hipoteze imaju oblikH0 : µ = 750H1 : µ < 750

.

Populacija ima normalnu distribuciju i iz nje smo uzeli uzorak velicine n = 15, za koji je

X =

∑Xi

n=

11175

15= 745

i

s =

(n

n− 1S2

)1/2

=

(n

n− 1

(∑X2i

n−X2

))1/2

=

(15

14

(8333867

15− 7452

))1/2

= 24.63 .

Dakle, test statistika ima vrijednost

T =X − µ0

s/√n

=745− 750

24.63/√

15= −0.7863 .

Kriticno podrucje je oblika T ≤ −tn−1,1−α, a kako je α = 0.01, iz tablice t distribucije imamoda je

tn−1,1−α = t14,0.99 = 2.624 .

S obzirom da test statistika ne pripada kriticnom podrucju, nul hipotezu ne mozemo odbaciti,odnosno pri danoj razini znacajnosti nemamo razloga sumnjati u tvrdnju proizvodaca. Tako-der, iz tablice t distribucije vidimo da bismo za α = 0.1 imali tn−1,1−α = t14,0.9 = 1.345, patest statistika i dalje ne bi pripadala kriticnom podrucju. Prema tome, p-vrijednost ovog testaveca je od 0.1. Racunalom se moze dobiti da tocna p-vrijednost iznosi 0.2224.

Ako je populacija normalna, onda se testiranje hipoteza o varijanci i standardnoj devijacijimoze provesti koristeci χ2 distribuciju. Detalji su u tablici 12.5.

Primjer 12.6. Podrzavaju li podaci iz primjera 12.4 tvrdnju da standardna devijacija popu-lacije iznosi 3.5? Testirajte na razini 0.05. Sto mozete reci o p-vrijednosti?

12-8

Page 144: Skripta iz statistike

Tablica 12.5. Testiranje hipoteze o varijanci populacije kad populacija ima normalnudistribuciju.

Nul Alternativna Test Kriticnohipoteza hipoteza statistika podrucje

H1 : σ2 6= σ20 U ≤ χ2

n−1,α/2 ili U ≥ χ2n−1,1−α/2

H0 : σ2 = σ20 H1 : σ2 > σ2

0 U =nS2

σ20

U ≥ χ2n−1,1−α

H1 : σ2 < σ20 U ≤ χ2

n−1,α

Ovdje testiramo hipotezeH0 : σ2 = 3.52

H1 : σ2 6= 3.52.

Populacija je normalna, a iz primjera 12.4 znamo da je X = 252.7, pa je

S2 =

∑X2i

n−X2

=638755

10− 252.72 = 18.21 .

Kako je 3.52 = 12.25, vidimo da je varijanca uzorka nesto veca od pretpostavljene varijancepopulacije. Testom cemo utvrditi mozemo li tu razliku smatrati slucajnom. Test statistikaima vrijednost

U =nS2

σ20

=10 · 18.21

3.52= 14.87 .

Test je dvostran, pa imamo dvije kriticne vrijednosti, koje iznose

χ2n−1,α/2 = χ2

9,0.025 = 2.7 ,

χ2n−1,1−α/2 = χ2

9,0.975 = 19.02 .

S obzirom da test statistika nije usla u kriticno podrucje, pri razini znacajnosti α = 0.05ne odbacujemo nul hipotezu. Uvidom u tablicu χ2 distribucije mozemo lako utvrditi da nulhipotezu ne bismo odbacili niti za α = 0.1, ali bismo je odbacili za za α = 0.2, sto znaci da jeovdje 0.1 < p < 0.2. Racunalom se dobiva da je p = 0.1894.

Ako populacija nema normalnu distribuciju, onda se testiranje hipoteze o sredini populacijemoze provesti koristeci centralni granicni teorem, ali pritom uzorak treba biti velik. Postupakje u nacelu isti kao kad je populacija normalna s poznatom standardnom devijacijom (tab.12.3), ali statistika Z ima ovdje oblik

Z =X − µ0

s/√n.

Primjer 12.7. Podrzavaju li podaci o prodaji prijenosnih racunala iz tablice 4.3 tvrdnju da seu promatranoj trgovini dnevno u prosjeku proda najmanje 3 prijenosnih racunala? Testirajtena razini znacajnosti 5% i izracunajte p-vrijednost testa. Koristite se rezultatima primjera 4.3.

Ovdje testiramo hipotezeH0 : µ = 3H1 : µ < 3

.

12-9

Page 145: Skripta iz statistike

Populacija nema normalnu distribuciju, ali je uzorak velicine n = 40 dovoljno velik za primjenucentralnog granicnog teorema na sredinu uzorka. Iz primjera 4.3 znamo da je X = 2.975 iS = 1.525. Vidimo da je X vrlo blizu pretpostavljenoj vrijednosti µ = 3, pa ocekujemo danece doci do odbacivanja nul hipoteze. Test statistika ima vrijednost

Z =X − µ0

s/√n

=X − µ0

S/√n− 1

=2.975− 3

1.525/√

39= −0.1024 .

Kriticno podrucje je oblika Z ≤ −z1−α, a kako je α = 0.05, imamo da je z1−α = Φ−1(1−α) =Φ−1(0.95) = 1.645, sto znaci da ne odbacujemo nul hipotezu. Dakle, pri razini znacajnostiα = 0.05, podaci iz uzorka nisu u kontradikciji s tvrdnjom da prosjecna dnevna prodajaprijenosnih racunala iznosi 3 ili vise.

Najmanja razina znacajnosti potrebna za odbacivanje nul hipoteze dobit ce se kad jekriticna granica jednaka vrijednosti test statistike, a kako smo kriticnu granicu odredili izuvjeta P(Z ≤ z) = α, slijedi da je

p = P(Z ≤ −0.1024) = Φ(−0.1024) = 1− Φ(0.1024) = 1− 0.5398 = 0.4602 ,

sto je vrlo velika p-vrijednost.S obzirom da je proporcija uzorka specijalan slucaj aritmeticke sredine, ako je uzorak

velik, onda se centralni granicni teorem moze koristiti i kod testova o parametru Bernoullijevepopulacije. Ako smo iz Bernoullijeve populacije formirali slucajni uzorak velicine n i ako je Pproporcija uzorka, onda je ocekivanje od P jednako proporciji populacije π, tj. E(P ) = π, avarijanca od P je n puta manja od varijance populacije π(1 − π), tj. Var(P ) = π(1 − π)/n.Dakle, ako je uzorak velik, onda ce statistika

Z =P − π√π(1− π)/n

imati priblizno standardnu normalnu distribuciju. Statistiku Z mozemo koristiti u testiranjuhipoteza o proporciji populacije π, a detalji su u tablici 12.6

Tablica 12.6. Testiranje hipoteze o poporciji populacije kad je uzorak velik.

Nul Alternativna Test Kriticnohipoteza hipoteza statistika podrucje

H1 : π 6= π0 |Z| ≥ z1−α/2

H0 : π = π0 H1 : π > π0 Z =P − π0√

π0(1− π0)/nZ ≥ z1−α

H1 : π < π0 Z ≤ −z1−α

Primjer 12.8. Iz jedne posiljke od 10000 proizvoda izabran je 2%-tni slucajni uzorak, u ko-jemu je pronadeno 12 ostecenih proizvoda. Treba li kupac prihvatiti posiljku ako je ugovoromodredeno kako u posiljkama smije biti najvise 3% skarta?

Ovdje treba provesti test o proporciji neispravnih proizvoda u posiljci i hipoteze jesu

H0 : π = 0.03H1 : π > 0.03

.

12-10

Page 146: Skripta iz statistike

Velicina uzorka je n = 2% · 10000 = 200, a proporcija uzorka iznosi P = 12/200 = 0.06. Cinise da u uzorku ima vise neispravnih proizvoda nego sto bi ih trebalo biti kada bi proporcijaneispravnih proizvoda u posiljci iznosila 3%. Test statistika ima vrijednost

Z =P − π0√

π0(1− π0)/n=

0.06− 0.03√0.03(1− 0.03)/200

= 2.487 .

Kriticno podrucje je oblika Z ≥ z1−α, ali kako razina α nije zadana, odluku cemo donijeti naosnovu p-vrijednosti, koja iznosi

p = P(Z ≥ 2.487) = 1− Φ(2.487) = 1− 0.9936 = 0.0064 .

Dakle, p-vrijednost je vrlo malena i nul hipotezu treba odbaciti, tj. proporcija neispravnihproizvoda u posiljici sasvim izvjesno prelazi dogovorenih 3%.

Test statistike koje su u ovom poglavlju obradene rezimirane su u tablici 12.7.

Tablica 12.7. Pregled obradenih test statistika i njihovih distribucija.

Distribucija testPopulacija Parametar Test statistika statistike Napomene

N(µ, σ2) µ Z =X − µ0

σ/√n

N(0, 1) σ poznat

N(µ, σ2) µ T =X − µ0

s/√n

t(n− 1)

N(µ, σ2) σ2 U =nS2

σ20

χ2(n− 1)

Proizvoljna µ Z =X − µ0

s/√n

N(0, 1) (priblizno) n velik

B(π) π Z =P − π0√

π0(1− π0)/nN(0, 1) (priblizno) n velik

Zadaci

12.1. Dani su podaci o mjesecnom ADSL prometu (u GB – gigabajtima) kojega je jedankorisnik ostvario tijekom 12 mjeseci: 1.74, 2.07, 2.38, 2.10, 2.20, 2.68, 2.10, 2.24, 2.44, 1.93,2.24, 1.84. Prelazi li prosjecan mjesecni promet tog korisnika kvotu od 2 GB? Testirajtena razini znacajnosti (a) 1%, (b) 5%. Pretpostavite da mjesecni promet ima normalnudistribuciju.

12.2. Jedna pekara pece kruh cija masa (u prosjeku) treba biti 900 grama. Zbog sumnjeda je doslo do smanjenja mase, slucajno je odabran uzorak od 25 komada kruha, za koje jeutvrdena srednja masa od 893 grama, sa standardnom devijacijom 17 grama. Postavite nul ialternativnu hipotezu i testirajte na razini 0.05. Pretpostavlja se da masa kruha ima normalnudistribuciju.

12.3. Mjerenjem promjera n = 10 cijevi odredenog tipa doslo se do sljedecih rezultata:∑Xi = 499.6,

∑(Xi −X)2 = 0.824. Na razini 5% testirajte hipotezu:

12-11

Page 147: Skripta iz statistike

(a) µ = 50 u odnosu na µ 6= 50,

(b) σ = 0.2 u odnosu na σ > 0.2.

Pretpostavite da se promjer cijevi ravna po normalnoj disribuciji.

12.4. Tvrdi se da najmanje 75% diplomanata nekog fakulteta nade posao u struci u roku odjedne godine od diplomiranja. Na razini znacajnosti 10% testirajte navedenu tvrdnju, ako jeu slucajnom uzorku od 80 diplomanata koji su diplomirali prije godinu dana, njih 54 nasloposao u struci. Odredite p-vrijednost testa.

12.5. Proizvodac tvrdi da najmanje 95% isporucenih proizvoda odgovara specifikacijama.Pregledom uzorka od 200 proizvoda nadeno je 16 neispravnih proizvoda. Na razini znacajnosti(a) 1%, (b) 5% testirajte tvrdnju proizvodaca. Izracunajte p-vrijednost testa.

12.6. U 1000 bacanja novcica, glava se pojavila 522 puta, a pismo 478 puta. Na raziniznacajnosti 5% testirajte hipotezu da se glava i pismo javljaju s jednakom vjerojatnoscu.Izracunajte p-vrijednost testa.

12.7. U jednoj kutiji nalazi se veliki broj kuglica od kojih su neke bijele, a druge crne boje.U slucajnom uzorku od 50 kuglica nadeno je 26 bijelih kuglica.

(a) Na razini znacajnosti 5% testirajte hipotezu da bijelih kuglica ima najmanje dvostrukovise od crnih.

(b) Bez racunanja p-vrijednosti navedite hoce li ista biti veca ili manja od zadane razineznacajnosti 5% i obrazlozite svoj odgovor.

(c) Ako stvarna proporcija bijelih kuglica u kutiji iznosi 50%, kolika je vjerojatnost pogresketipa II?

12-12

Page 148: Skripta iz statistike

1. Kumulativne vjerojatnosti standardne normalne distribucije

Primjer: Φ(1.35) = Φ(1.3 + 0.05) = 0.9115.

z 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09

0.0 .5000 .5040 .5080 .5120 .5160 .5199 .5239 .5279 .5319 .53590.1 .5398 .5438 .5478 .5517 .5557 .5596 .5636 .5675 .5714 .57530.2 .5793 .5832 .5871 .5910 .5948 .5987 .6026 .6064 .6103 .61410.3 .6179 .6217 .6255 .6293 .6331 .6368 .6406 .6443 .6480 .65170.4 .6554 .6591 .6628 .6664 .6700 .6736 .6772 .6808 .6844 .68790.5 .6915 .6950 .6985 .7019 .7054 .7088 .7123 .7157 .7190 .72240.6 .7257 .7291 .7324 .7357 .7389 .7422 .7454 .7486 .7517 .75490.7 .7580 .7611 .7642 .7673 .7704 .7734 .7764 .7794 .7823 .78520.8 .7881 .7910 .7939 .7967 .7995 .8023 .8051 .8078 .8106 .81330.9 .8159 .8186 .8212 .8238 .8264 .8289 .8315 .8340 .8365 .83891.0 .8413 .8438 .8461 .8485 .8508 .8531 .8554 .8577 .8599 .86211.1 .8643 .8665 .8686 .8708 .8729 .8749 .8770 .8790 .8810 .88301.2 .8849 .8869 .8888 .8907 .8925 .8944 .8962 .8980 .8997 .90151.3 .9032 .9049 .9066 .9082 .9099 .9115 .9131 .9147 .9162 .91771.4 .9192 .9207 .9222 .9236 .9251 .9265 .9279 .9292 .9306 .93191.5 .9332 .9345 .9357 .9370 .9382 .9394 .9406 .9418 .9429 .94411.6 .9452 .9463 .9474 .9484 .9495 .9505 .9515 .9525 .9535 .95451.7 .9554 .9564 .9573 .9582 .9591 .9599 .9608 .9616 .9625 .96331.8 .9641 .9649 .9656 .9664 .9671 .9678 .9686 .9693 .9699 .97061.9 .9713 .9719 .9726 .9732 .9738 .9744 .9750 .9756 .9761 .97672.0 .9772 .9778 .9783 .9788 .9793 .9798 .9803 .9808 .9812 .98172.1 .9821 .9826 .9830 .9834 .9838 .9842 .9846 .9850 .9854 .98572.2 .9861 .9864 .9868 .9871 .9875 .9878 .9881 .9884 .9887 .98902.3 .9893 .9896 .9898 .9901 .9904 .9906 .9909 .9911 .9913 .99162.4 .9918 .9920 .9922 .9925 .9927 .9929 .9931 .9932 .9934 .99362.5 .9938 .9940 .9941 .9943 .9945 .9946 .9948 .9949 .9951 .99522.6 .9953 .9955 .9956 .9957 .9959 .9960 .9961 .9962 .9963 .99642.7 .9965 .9966 .9967 .9968 .9969 .9970 .9971 .9972 .9973 .99742.8 .9974 .9975 .9976 .9977 .9977 .9978 .9979 .9979 .9980 .99812.9 .9981 .9982 .9982 .9983 .9984 .9984 .9985 .9985 .9986 .99863.0 .9987 .9987 .9987 .9988 .9988 .9989 .9989 .9989 .9990 .99903.1 .9990 .9991 .9991 .9991 .9992 .9992 .9992 .9992 .9993 .99933.2 .9993 .9993 .9994 .9994 .9994 .9994 .9994 .9995 .9995 .99953.3 .9995 .9995 .9995 .9996 .9996 .9996 .9996 .9996 .9996 .99973.4 .9997 .9997 .9997 .9997 .9997 .9997 .9997 .9997 .9997 .9998

Page 149: Skripta iz statistike

2. Kvantili standardne normalne distribucije

Primjer: Φ−1(0.975) = Φ−1(0.97 + 0.005) = 1.960.

p 0.000 0.001 0.002 0.003 0.004 0.005 0.006 0.007 0.008 0.0090.50 .000000 .002507 .005013 .007520 .01003 .01253 .01504 .01755 .02005 .022560.51 .02507 .02758 .03008 .03259 .03510 .03761 .04012 .04263 .04513 .047640.52 .05015 .05266 .05517 .05768 .06020 .06271 .06522 .06773 .07024 .072760.53 .07527 .07778 .08030 .08281 .08533 .08784 .09036 .09288 .09540 .097910.54 .1004 .1030 .1055 .1080 .1105 .1130 .1156 .1181 .1206 .12310.55 .1257 .1282 .1307 .1332 .1358 .1383 .1408 .1434 .1459 .14840.56 .1510 .1535 .1560 .1586 .1611 .1637 .1662 .1687 .1713 .17380.57 .1764 .1789 .1815 .1840 .1866 .1891 .1917 .1942 .1968 .19930.58 .2019 .2045 .2070 .2096 .2121 .2147 .2173 .2198 .2224 .22500.59 .2275 .2301 .2327 .2353 .2378 .2404 .2430 .2456 .2482 .25080.60 .2533 .2559 .2585 .2611 .2637 .2663 .2689 .2715 .2741 .27670.61 .2793 .2819 .2845 .2871 .2898 .2924 .2950 .2976 .3002 .30290.62 .3055 .3081 .3107 .3134 .3160 .3186 .3213 .3239 .3266 .32920.63 .3319 .3345 .3372 .3398 .3425 .3451 .3478 .3505 .3531 .35580.64 .3585 .3611 .3638 .3665 .3692 .3719 .3745 .3772 .3799 .38260.65 .3853 .3880 .3907 .3934 .3961 .3989 .4016 .4043 .4070 .40970.66 .4125 .4152 .4179 .4207 .4234 .4261 .4289 .4316 .4344 .43720.67 .4399 .4427 .4454 .4482 .4510 .4538 .4565 .4593 .4621 .46490.68 .4677 .4705 .4733 .4761 .4789 .4817 .4845 .4874 .4902 .49300.69 .4959 .4987 .5015 .5044 .5072 .5101 .5129 .5158 .5187 .52150.70 .5244 .5273 .5302 .5330 .5359 .5388 .5417 .5446 .5476 .55050.71 .5534 .5563 .5592 .5622 .5651 .5681 .5710 .5740 .5769 .57990.72 .5828 .5858 .5888 .5918 .5948 .5978 .6008 .6038 .6068 .60980.73 .6128 .6158 .6189 .6219 .6250 .6280 .6311 .6341 .6372 .64030.74 .6433 .6464 .6495 .6526 .6557 .6588 .6620 .6651 .6682 .67130.75 .6745 .6776 .6808 .6840 .6871 .6903 .6935 .6967 .6999 .70310.76 .7063 .7095 .7128 .7160 .7192 .7225 .7257 .7290 .7323 .73560.77 .7388 .7421 .7454 .7488 .7521 .7554 .7588 .7621 .7655 .76880.78 .7722 .7756 .7790 .7824 .7858 .7892 .7926 .7961 .7995 .80300.79 .8064 .8099 .8134 .8169 .8204 .8239 .8274 .8310 .8345 .83810.80 .8416 .8452 .8488 .8524 .8560 .8596 .8633 .8669 .8705 .87420.81 .8779 .8816 .8853 .8890 .8927 .8965 .9002 .9040 .9078 .91160.82 .9154 .9192 .9230 .9269 .9307 .9346 .9385 .9424 .9463 .95020.83 .9542 .9581 .9621 .9661 .9701 .9741 .9782 .9822 .9863 .99040.84 .9945 .9986 1.003 1.007 1.011 1.015 1.019 1.024 1.028 1.0320.85 1.036 1.041 1.045 1.049 1.054 1.058 1.063 1.067 1.071 1.0760.86 1.080 1.085 1.089 1.094 1.098 1.103 1.108 1.112 1.117 1.1220.87 1.126 1.131 1.136 1.141 1.146 1.150 1.155 1.160 1.165 1.1700.88 1.175 1.180 1.185 1.190 1.195 1.200 1.206 1.211 1.216 1.2210.89 1.227 1.232 1.237 1.243 1.248 1.254 1.259 1.265 1.270 1.2760.90 1.282 1.287 1.293 1.299 1.305 1.311 1.317 1.323 1.329 1.3350.91 1.341 1.347 1.353 1.359 1.366 1.372 1.379 1.385 1.392 1.3980.92 1.405 1.412 1.419 1.426 1.433 1.440 1.447 1.454 1.461 1.4680.93 1.476 1.483 1.491 1.499 1.506 1.514 1.522 1.530 1.538 1.5460.94 1.555 1.563 1.572 1.580 1.589 1.598 1.607 1.616 1.626 1.6350.95 1.645 1.655 1.665 1.675 1.685 1.695 1.706 1.717 1.728 1.7390.96 1.751 1.762 1.774 1.787 1.799 1.812 1.825 1.838 1.852 1.8660.97 1.881 1.896 1.911 1.927 1.943 1.960 1.977 1.995 2.014 2.0340.98 2.054 2.075 2.097 2.120 2.144 2.170 2.197 2.226 2.257 2.2900.99 2.326 2.366 2.409 2.457 2.512 2.576 2.652 2.748 2.878 3.090

Page 150: Skripta iz statistike

3. Kvantili χ2 distribucije

Primjer: χ25,0.975 = 12.83, tj. ako U ∼ χ2(5), onda FU (12.83) = P(U ≤ 12.83) = 0.975.

pd 0.005 0.010 0.025 0.050 0.100 0.900 0.950 0.975 0.990 0.995

1 .0000393 .0001571 .0009821 .003932 .01579 2.706 3.841 5.024 6.635 7.8792 .01003 .02010 .05064 .1026 .2107 4.605 5.991 7.378 9.210 10.603 .07172 .1148 .2158 .3518 .5844 6.251 7.815 9.348 11.34 12.844 .2070 .2971 .4844 .7107 1.064 7.779 9.488 11.14 13.28 14.865 .4117 .5543 .8312 1.145 1.610 9.236 11.07 12.83 15.09 16.756 .6757 .8721 1.237 1.635 2.204 10.64 12.59 14.45 16.81 18.557 .9893 1.239 1.690 2.167 2.833 12.02 14.07 16.01 18.48 20.288 1.344 1.646 2.180 2.733 3.490 13.36 15.51 17.53 20.09 21.959 1.735 2.088 2.700 3.325 4.168 14.68 16.92 19.02 21.67 23.5910 2.156 2.558 3.247 3.940 4.865 15.99 18.31 20.48 23.21 25.1911 2.603 3.053 3.816 4.575 5.578 17.28 19.68 21.92 24.72 26.7612 3.074 3.571 4.404 5.226 6.304 18.55 21.03 23.34 26.22 28.3013 3.565 4.107 5.009 5.892 7.042 19.81 22.36 24.74 27.69 29.8214 4.075 4.660 5.629 6.571 7.790 21.06 23.68 26.12 29.14 31.3215 4.601 5.229 6.262 7.261 8.547 22.31 25.00 27.49 30.58 32.8016 5.142 5.812 6.908 7.962 9.312 23.54 26.30 28.85 32.00 34.2717 5.697 6.408 7.564 8.672 10.09 24.77 27.59 30.19 33.41 35.7218 6.265 7.015 8.231 9.390 10.86 25.99 28.87 31.53 34.81 37.1619 6.844 7.633 8.907 10.12 11.65 27.20 30.14 32.85 36.19 38.5820 7.434 8.260 9.591 10.85 12.44 28.41 31.41 34.17 37.57 40.0021 8.034 8.897 10.28 11.59 13.24 29.62 32.67 35.48 38.93 41.4022 8.643 9.542 10.98 12.34 14.04 30.81 33.92 36.78 40.29 42.8023 9.260 10.20 11.69 13.09 14.85 32.01 35.17 38.08 41.64 44.1824 9.886 10.86 12.40 13.85 15.66 33.20 36.42 39.36 42.98 45.5625 10.52 11.52 13.12 14.61 16.47 34.38 37.65 40.65 44.31 46.9326 11.16 12.20 13.84 15.38 17.29 35.56 38.89 41.92 45.64 48.2927 11.81 12.88 14.57 16.15 18.11 36.74 40.11 43.19 46.96 49.6428 12.46 13.56 15.31 16.93 18.94 37.92 41.34 44.46 48.28 50.9929 13.12 14.26 16.05 17.71 19.77 39.09 42.56 45.72 49.59 52.3430 13.79 14.95 16.79 18.49 20.60 40.26 43.77 46.98 50.89 53.6735 17.19 18.51 20.57 22.47 24.80 46.06 49.80 53.20 57.34 60.2740 20.71 22.16 24.43 26.51 29.05 51.81 55.76 59.34 63.69 66.7745 24.31 25.90 28.37 30.61 33.35 57.51 61.66 65.41 69.96 73.1750 27.99 29.71 32.36 34.76 37.69 63.17 67.50 71.42 76.15 79.4960 35.53 37.48 40.48 43.19 46.46 74.40 79.08 83.30 88.38 91.9570 43.28 45.44 48.76 51.74 55.33 85.53 90.53 95.02 100.4 104.280 51.17 53.54 57.15 60.39 64.28 96.58 101.9 106.6 112.3 116.390 59.20 61.75 65.65 69.13 73.29 107.6 113.1 118.1 124.1 128.3100 67.33 70.06 74.22 77.93 82.36 118.5 124.3 129.6 135.8 140.2

Page 151: Skripta iz statistike

4. Kvantili Studentove t distribucije

Primjer: t15,0.950 = 1.753, tj. ako T ∼ t(15), onda FT (1.753) = P(T ≤ 1.753) = 0.950.

pd 0.900 0.950 0.975 0.990 0.995

1 3.078 6.314 12.706 31.821 63.6572 1.886 2.920 4.303 6.965 9.9253 1.638 2.353 3.182 4.541 5.8414 1.533 2.132 2.776 3.747 4.6045 1.476 2.015 2.571 3.365 4.0326 1.440 1.943 2.447 3.143 3.7077 1.415 1.895 2.365 2.998 3.4998 1.397 1.860 2.306 2.896 3.3559 1.383 1.833 2.262 2.821 3.25010 1.372 1.812 2.228 2.764 3.16911 1.363 1.796 2.201 2.718 3.10612 1.356 1.782 2.179 2.681 3.05513 1.350 1.771 2.160 2.650 3.01214 1.345 1.761 2.145 2.624 2.97715 1.341 1.753 2.131 2.602 2.94716 1.337 1.746 2.120 2.583 2.92117 1.333 1.740 2.110 2.567 2.89818 1.330 1.734 2.101 2.552 2.87819 1.328 1.729 2.093 2.539 2.86120 1.325 1.725 2.086 2.528 2.84521 1.323 1.721 2.080 2.518 2.83122 1.321 1.717 2.074 2.508 2.81923 1.319 1.714 2.069 2.500 2.80724 1.318 1.711 2.064 2.492 2.79725 1.316 1.708 2.060 2.485 2.78726 1.315 1.706 2.056 2.479 2.77927 1.314 1.703 2.052 2.473 2.77128 1.313 1.701 2.048 2.467 2.76329 1.311 1.699 2.045 2.462 2.75630 1.310 1.697 2.042 2.457 2.75035 1.306 1.690 2.030 2.438 2.72440 1.303 1.684 2.021 2.423 2.70445 1.301 1.679 2.014 2.412 2.69050 1.299 1.676 2.009 2.403 2.67860 1.296 1.671 2.000 2.390 2.66070 1.294 1.667 1.994 2.381 2.64880 1.292 1.664 1.990 2.374 2.63990 1.291 1.662 1.987 2.368 2.632100 1.290 1.660 1.984 2.364 2.626