skripta statistika

22
Skripta iz kolegija: Statistika i vjerojantost Svrha: Prolazak na usmenom Verzija: 0.9 Datum: 28.6.1999. @all rights reserved by homeboy. It's free to distribute but DO NOT MODIFY !!! STATISTIKA je znanost o metodama za istraživanje masovnih pojava pomoću brojčanog izražavanja. Predmet proučavanja statistike je masovna pojava I naziva se STATISTIČKA MASA ili STATISTIČKI SKUP. STATISTIČKI SKUP se sastoji od elemenata (bića, stvari ili događaji). Elementi istovremeno mogu biti ISTOVRSNI i VARIJABILNI. DEFINIRANJE SKUPA se izvodi: -VREMENSKI - utvrditi čas ili razdoblje u kojem će se obuhvatiti sve jedinice koje ulaze u st. skup, pa tako skup može biti definiran u određenom času ili definiran u određenom razdoblju. -GEOGRAFSKI - točno označiti prostor kojemu pripadaju elementi stat. skupa -POJMOVNO – točno odrediti obilježja koja mora imati svaki element da bi bio uključen u st.skup. OBILJEŽJA elemenata mogu biti: NOMINALNO – kada se svojstvo izražava riječima ili opisno. Može biti: a) atributivno – izražava svojstvo ili atribut elementa koje se izražava opisno ili riječima (npr. stanovništvo po nacionalnosti) b) geografsko – označava mjesto s kojim je element u nekoj vezi (stan. prema mjestu rođenja) REDOSLJEDNO – obilježje ranga – elementi se mogu poredati po intenzitetu (rangirati) (npr. uspjeh studenata na ispitu) VREMENSKO – označuje čas s kojim je element u nekoj vezi NUMERIČKO – kada se svojstvo elemenata izražava brojem. Broj kojim se izražava zove se VRIJEDNOST NUMERIČKOG OBILJEŽJA. Obilježje može biti: a) kontinuirano – obilježje koje se može izraziti i cijelim i dec. brojem b) diskontinuirano – može se izraziti samo cijelim brojem. FAZE RADA STATISTIKE: I) PROMATRANJE ILI PRIKUPLJANJE Može biti izvedeno na velik broj načina: mjerenjem, ocjenjivanjem, brojanjem, opažanjem, evidencijom, anketiranjem ili intervjuiranjem. Jedinice st. mase možemo promatrati s obzirom na : a) VRIJEME JEDNOKRATNO – za onu st. masu koja se može definirati samo u jednom kritičnom trenutku (npr. šteta od požara) 1

Upload: lordlurtz

Post on 15-Sep-2015

266 views

Category:

Documents


5 download

DESCRIPTION

statistika skripta

TRANSCRIPT

Statistika - skripta za usmeni

Skripta iz kolegija: Statistika i vjerojantost

Svrha: Prolazak na usmenom

Verzija: 0.9

Datum: 28.6.1999.

@all rights reserved by homeboy.

It's free to distribute but DO NOT MODIFY !!!

STATISTIKA je znanost o metodama za istraivanje masovnih pojava pomou brojanog izraavanja.

Predmet prouavanja statistike je masovna pojava I naziva se STATISTIKA MASA ili STATISTIKI SKUP.

STATISTIKI SKUP se sastoji od elemenata (bia, stvari ili dogaaji). Elementi istovremeno mogu biti ISTOVRSNI i VARIJABILNI.

DEFINIRANJE SKUPA se izvodi:

-VREMENSKI - utvrditi as ili razdoblje u kojem e se obuhvatiti sve jedinice koje ulaze u st. skup, pa tako skup moe biti definiran u odreenom asu ili definiran u odreenom razdoblju.

-GEOGRAFSKI - tono oznaiti prostor kojemu pripadaju elementi stat. skupa

-POJMOVNO tono odrediti obiljeja koja mora imati svaki element da bi bio ukljuen u st.skup.

OBILJEJA elemenata mogu biti:

NOMINALNO kada se svojstvo izraava rijeima ili opisno. Moe biti:

a) atributivno izraava svojstvo ili atribut elementa koje se izraava opisno ili rijeima(npr. stanovnitvo po nacionalnosti)

b) geografsko oznaava mjesto s kojim je element u nekoj vezi (stan. prema mjestu roenja)

REDOSLJEDNO obiljeje ranga elementi se mogu poredati po intenzitetu (rangirati) (npr. uspjeh studenata na ispitu)

VREMENSKO oznauje as s kojim je element u nekoj vezi

NUMERIKO kada se svojstvo elemenata izraava brojem. Broj kojim se izraava zove se VRIJEDNOST NUMERIKOG OBILJEJA. Obiljeje moe biti:

a) kontinuirano obiljeje koje se moe izraziti i cijelim i dec. brojem

b) diskontinuirano moe se izraziti samo cijelim brojem.

FAZE RADA STATISTIKE:

I) PROMATRANJE ILI PRIKUPLJANJE

Moe biti izvedeno na velik broj naina: mjerenjem, ocjenjivanjem, brojanjem, opaanjem, evidencijom, anketiranjem ili intervjuiranjem.

Jedinice st. mase moemo promatrati s obzirom na :

a) VRIJEME

JEDNOKRATNO za onu st. masu koja se moe definirati samo u jednom kritinom trenutku (npr. teta od poara)

PERIODSKO ako se predvia da e se jednokratno promatranje ponavljati u izvjesnim intervalima (npr. stanje na raunu)

b) TEKUE kada se radi o st. masi koja se ne moe definirati u nekom razdoblju. Stat. promatranje obavlja se tako da se promatra im se dogodi element.

c) OBUHVAT

ISCRPNO ispituju se svi elementi osnovnog skupa (5% mase)

REPREZENTATIVNO kada se istrauje samo dio elemenata osnovnog skupa ako su skupovi veliki.

II) GRUPIRANJE

Grupiranje se obavlja tako da se osnovni skup ralani na dijelove prema modalitetu obiljeja i to tako da u jednu grupu uu elementi skupa koji imaju isti ili slican modalitet obiljezja prema koje je bilo izvedeno grupiranje.

Grupiranje moe biti prema geogr., vremenskom, atribut. i numerikom obiljeju.

ALTERNATIVNO OBILJEJE obiljeje koje ima samo 2 modaliteta (dva oblik). Npr. spol, javni/drutveni.

Kod grupiranja moramo voditi brigu da zadovoljimo 2 osnovna principa:

PRAVILO ISCRPNOSTI svaki element mora pripasti jednoj od grupa koje smo definirali

PRAVILO ISKLJUIVOSTI element moe pripadati samo jednoj grupi koju smo definirali.

Numeriki niz nazivamo DISTRIBUCIJA FREKVENCIJA (to je broj elemenata u svakoj pojedinoj grupi-relativna,apsolutna i korigirana)

Grupiranjem jedinica prema numerikom obiljeju formiraju se grupe razliitog intenziteta (razredi ili klase). Broj kojim je izraen odreen stupanj intenziteta nekog num. obiljeja zove se VRIJEDNOST NUMERIKOG OBILJEJA. Kada num. obiljeje ima samo nekoliko vrijednosti onda se grupiranje vri tako da se u jednu grupu svrstajusve jedinice mase koje imaju istu vrijednost num. obiljeja. Kada num. obiljeje ima velik broj razliitih vrijednosti tada se formiraju grupe. Odredi se prvi broj koji odreuje donju granicu, a drugi gornju. Sve jedinice koje imaju vrij. num. obiljeja izmeu donje i gornje granice ulaze u tu grupu.

Da bi se niz skratio, prvi i zadnji razred su tzv. OTVORENI RAZREDI

Postoje NOMINALNE granice koje je potrebno korigirati. Nakon odreivanja prec. granica korigiraju se frekvencije tako da se svaka frekv. podijeli sa veliinom razreda kojem ta frekv. pripada.

VELIINA RAZREDA je raspon koji obuhvaa elemente skupa. Izraunava se tako da se donja granica razreda odbije od donje granice slijedeeg razreda. (uzimaju se prave granice)

Razredna sredina je polusuma donje i gornje granice pravih (korigiranih) a ne nominalnih granica.

KUMULATIVNI NIZ nastaje kad se vrijednosti stat. niza postupno zbrajaju (formira se iz vremenskih, redoslijednih i geografskih nizova). Postoji kum. niz manje od i vie od. Kod vremenskog obiljeja formira se samo manje od. Svaki lan kum. niza manje od pokazuje ukupan broj jedinica koje imaju vrijednost numerikog obiljeja jednaku ili manju od vrijednosti koju pokazuje gornja granica onog razreda ija je frekvencija poslijednja ula u zbroj. Poslijednji lan kumulativnog niza jednak je zbroju svih frekvencija (opsegu mase)

KOD KONTINUIRANOG OBILJEJA DONJA GRANICA JEDNAKA JE GORNJOJ GRANICI PRETHODNOG RAZREDA (radi se o godinama)

Grupiranje u tabele olakava usporeivanje brojeva i stavlja ih u meusoban odnos

GRAFIKI PRIKAZ

Slui za populariziranje rezultata. On mora biti jednostavan, jasan i precizan.

1) POVRINSKI podaci su prikazani pomou povrina geom. likova koje moraju biti proporcionalne s brojevima koje prikazuju

jednostavn stupci

histogram distribucija frekvencija num. niza grafiki se prikazuju jednostavnim stupcima izmeu kojih nema razmaka. Ordinate se diu iznad onih mjesta apscise koja predstavljaju donju. odn. gornju preciznu granicu svakog pojedinog razreda.Imamo j-distribucija (lijeva ili negativno simetrina), l-distribucija, pravokutna distribucija, unimodalna distribucija (dominira jedan vrh), bi-modalna, polimodalna

razdjeljeni stupci ako se u jednostavnom stupcu eli istaknuti prvi dio svake frekv. niza

dvostruki stupci ako graf eli usporediti 2 niza izraena u istim jedinicama i to da se frekvencije svake grupe usporede s odgovarajuim frekvencijama drugog niza

povrina kvadrata/kruga/polukruga/povr. koncentrinih krugova za usporeivanje 2 ili vie veliina. Polukrugom se usporeuju 2 mase, svaka masa se prikae polukrugom a dijelovi svake od njih sektorom.

2) KARTOGRAMI

-DIJAGRAMSKA KARTA ako elimo prikazati geografski niz s malim brojem grupa (frekv.)

-PIKTOGRAM koristimo ga u sluaju velikog broja grupa (tokice/gustoa toaka)

-STATISTIKA KARTA u sluaju velikog broja grupa i veliina, kada su frekv. geografskog niza izraene relativnim brojevima (postocima)

3) LINIJSKI GRAFIKONI

Distribucija frekv. se prikazuje linijskim graf. tako da se svaka originalna frekv. (korigirana) podie iznad onog mjesta apscise koje pokazuje razrednu sredinu rezreda. Razredna sredina je polusuma donje i gronje granice razreda.

POLIGON FREKVENCIJA (mnogokutnik)

KUMULATIVNI NIZOVI

RELATIVNI BROJEVI

Pod relativnim brojem podrazumijeva se odnos (omjer) izmeu dvaju brojeva. Izraunavaju se tako da se podijele dva broja. Razlikujui to je u brojniku a to u nazivniku dijele se na:

I) PORPORCIJA u brojnik rel. broja stavi se broj elemenata skupa a u nazivnik ukupan broj elemenata. Tako izraunate proporcije zove se RELATIVNE FREKVENCIJE (prikazuju se razdijeljenim stupcima). Mnoenjem sa 100 dobije se postotak, a sa 1000 promil.

II) RELATIVNI BROJ KOORDINACIJE pokazuje odnos dviju koordinatnih veliina. Relativna vanost frekvencija jednog niza prosuuje se na osnovi usporedbe s frekvencijama drugog niza. Taj broj pokazuje koliko jedinica jedne mase dolazi na 1,100,100 itd... jedinica druge mase u svakoj grupi obiljeja prema kojem su grupirane jedinice obiju nizova.

Grafiki se prikazuju Varzarovim znakom. Na apscisu se u nekom mjerilu nanese baza (nazivnik) rel. broja a na ordinaturel. broj koordinacije. Baza je razmjerna s nazivnikom rel. broja koordinacije, visina sa rel. br. koordinacije a povrina s brojnikom rel. br. koordinacije.

III) INDEKSNI BROJEVI Kada se eli izmjeriti smjer ili intenzitet varijacija frekvencija nekog niza sa smjerom i intenzitetom varijacija frekvencija drugog niza.

Pokazuje odnose izmeu lanova nekog stat. niza.

Mogu bit:

INDIVIDUALNI:

a) Lanani svako idue stanje stavljeno je u odnos sa prethodnim.

b) Sa stalnom bazom Izraunavaju se tako da se sve frekv. podijele sa frekvencijom one grupe koja je uzeta kao bazna (ona je 100) i pomnoi se sa 100.

SKUPNI: Kada se pojava sastojji od vie individualnih pojava (npr. proizvodnja, prodaja,uvoz...)

govori se o skupnoj pojavi. Skupne pojave analiziraju se pomou skupnih indeksa (index vrijednosti, index koliina, index cijena...) do kojih se dolazi metodom agregiranja ili metodom aritmetike sredine individualnih indexa.

Kada se od indexnog broja oduzme 100, dobije se za koliko % je pojava relativno manja ili vea od pojave kojom se usporeuje (kod lananih to je prethodna pojava a kod baznih to je bazna pojava).

Indexi jedne baze mogu se lako preraunati u indexe druge baze tako da se podijele s indexom grupe koja je uzeta za novu bazu.KARAKTERISTIKE DISTRIBUCIJE

I) SREDNJE VRIJEDNOSTI

II) MJERE DISPERZIJE

III) MJERE ASIMETRIJE

IV) MJERE ZAOBLJENOSTI

I) SREDNJE VRIJEDNOSTI

Srednja vrijednost je uopen izraz stanja numerikog obiljeja elemenata u masi i ima ulogu da zamijeni sve individualne vrijednosti num. obiljeja elemenata stat. mase.

a) ARITMETIKA SREDINA se dobije kada se zbroj vrijednosti num. obiljeja podijeli na sve jedinice. Ona najbolje zamjenjuje sve individualne vrijednosti obiljeja. Svojstva:

suma odstupanja individualnih vrijednosti obiljeja od aritm. sredine je nula.

-

Jednostavna (nevagana) ar. sredina:

Ako aritm. sred. raunamo iz grupiranih podataka (vagana aritm. sredina), imamo 2 sluaja:

1) Kada za sve elemente znamo tone vrijednosti. Ar. sredina e biti tona.

2) Kada su elementi grupoirani u razrede pa ne znamo tone vrij. num. obiljeja. Ar. sredina nee biti tona nego priblina.

ARITMETIKA SREDINA RELATIVNIH BROJEVA [koristi se kada je poznat ukupan broj neega]

Ako je za neki skup poznat niz rel. brojeva i ako su poznati nazivnici, prosjean relativan broj izraunava se kao vagana aritmetika sredina rel. brojeva.

[npr. imamo ukupan broj studenata i % studentica]

b) HARMONIJSKA SREDINA

Koristi se kada u st. skupu ima elemenata koji imaju ili veoma niske ili veoma visoke vrijednosti. Takvo obiljeje moe znaajno utjecati na vrijednost prosjeka obiljeja i zog toga ar. sredina ne daje dovoljno reprezentativan prosjek. Zato se koristi harmonijska sredina. To je reciprona vrijednost aritmetike sredine recipronih vrijednosti obiljeja elemenata.

nevagana (jednostavna) harmonijska sredina:

vagana harmonijska sredina:

HARMONIJSKA SREDINA RELATIVNIH BROJEVA [kada nemamo ukupan broj nego samo dio]

Ako je u nekom skupu poznat niz rel. brojeva i ako su poznati brojnici tih rel. brojeva, prosjean relativni broj izraunava se kao vagana harmonijska sredina relativnih brojeva:

EMBED Equation.3 c) MEDIJAN

Distribucije kod kojih se elementi meusobno jako razlikuju prema promatranom obiljeju ili distribucije kod kojih elementi imaju extremno visoke i niske vrijednosti numerikog obiljeja analiziraju se pomou medijana. Medijan je vrijednost (numerikog ili redoslijednog) obiljeja koja stat. skup dijeli na dva jednaka dijela, tako da 50% jedinica ima vrijednost svojeg obiljeja jednaku ili manju od vrijednosti medijana, a 50% jednaku ili veu.

L1-donja granica medijalnog razreda

fi-suma svih frekv. kumuliranih odozgo prema dolje do medijalnog razreda

fmed- frekv. medijalnog razreda

i veliina medijalnog razreda

d) MOD

Mod je obiljeje koje se unutar neke distribucije pojavljuje kod najveeg broja jedinica skupa. To je ona vrijednost numerikog ili redoslijednog obiljeja koja ima najvei broj elemenata u st. skupu. Oko moda jedinice skupa se najgue gomilaju s obzirom na promatrano obiljeje skupa.

Mod se koristi kada postoji dominantna vrijednost nekog obiljeja i ako se osjea tendencija nagomilavanja elemenata s obzirom na njihovo obiljeje oko te dominantne vrijednosti.

L1-donja granica modalnog razreda

b-frekv. modalnog razreda (najvea frekvencija)

a-frekv. iznad modalnog razreda

c-frekv. ispod modalnog razreda

i-veliina modalnog razreda

II) MJERE DISPERZIJE

Kada se neki stat. skup analizira srednjim vrijednostima, nije svejedno kolika je reprezentativnost upotrijebljenih srednjih vrijednosti. Upotrebljena srednja vrijednost u nekom skupu moe biti vrlo dobar pokazatelj stanja u obiljeju ali isto tako moe biti pretjerano uopen izraz koji nema veliki praktini smisao.

Rasprenost obiljeja elem. skupa oko srednjih vrijednosti moe biti vee ili manja tj. ima distribucija koje imaju veliku disperziju jedinica s obzirom na promatrana svojstva, te distribucija s malom ili umjerenom disperzijom.

Mjere disperzije mogu biti

APSOLUTNE i RELATIVNE.

Apsolutne su: Varijanca, Standardna devijacija, Interkvartil, Raspon Varijacija

Relativne su: Koeficijent varijacije, Koeficijent kvartilne devijacije, Standardizirano obiljeje

Ako su mjere disperzije velike, aritmetika sredina nije dobar reprezentant obiljeja, te je bolje koristiti medijan ili mod.

APSOLUTNE MJERE:

a) Raspon varijacija (vrlo gruba mjera disperzije) razlika izmeu najvee i najmanje vrijednosti num. obiljeja:

Rv=Xmax Xmin

Poto je to razlika samo dvije vrijednosti obiljeja, primjenjuje se u ogranienom broju sluajeva jer ne izraava distribuiranost svih elemenata u skupu.

b) INTERKVARTIL

Ubraja se u preciznije mjere disperzije. To je razlika izmeu gornjeg i donjeg kvartila:

Nije pogodan za usporeivanje disperzije raznorodnih skupova pa se koristi relativna mjera disperzije KOEFICIJENT KVARTILNE DEVIJACIJE (izraen u relativnom broju). To je odnos izmeu interkvartila te sume gornjeg i donjeg kvartila.

Moe poprimiti vrijednosti od 0 do 1. to je koef. kvartilne devijacije blii 0, disperzija je manja i obrnuto.

Ako su IQ i VQ velikih numerikih vrijednosti, disperzija distribucije je velika i veoma znaajna i obratno.

Donji kvartil (Q1) je srednja poziciona vrijednost koja dijeli elemente na 2 jednaka dijela i to tako da u prvom dijelu skupa se nalazi 25% jedinica koje imaju obiljeje manje ili jednako donjem kvartilu. U drugom dijelu nalazi se 75% jedinica koje imaju obiljeje veu ili jednaku donjem kvartilu.

Gornji kvartil (Q3) je srednja poziciona vrijednost koja dijeli elemente na 2 jednaka dijela i to tako da 75% elemenata imaju = vrijednost gornjem kvartilu.

L1- donja granica kvartilnog razreda

N/4 jedinica koja se nalazi na etvrtini skupa

3N/4 jedinica koja se nalazi na tri etvrtine skupa

- suma svih frekvencija kumuliranih od gore prema dolje do kvartilnog razreda

- originalna frekvencija kvart. razreda

i veliina razreda

MOMENTI OKO SREDINE aritmetika sredina odstupanja vrijednosti obiljeja od aritm. sredine tog obiljeja.

- je poznata mjera disp. izraena u 2. stupnju i naziva se VARIJANCA ()

- slui za mjerenje asimetrije

- slui za mjerenje zaobljenosti vrha krivulje distribucije frekvencija

EMBED Equation.3 Momenti oko sredine mogu biti pozitivni ili negativni. Pozitivnog predznaka su oni koji imaju paran eksponent (2. i 4. moment). Oni koji imaju neparan exponent mogu biti pozitivni ili negativni, pa je 3. moment oko sredine pozitivan ako je distribucija desnostrano asimetrina, a negativan ako je distr. lijevostrano asimetrina.

Pomoni momenti oko nule uvijek imaju pozitivan predznak. 2. i 4. pomoni mom. oko a su pozitivni, a 1. i 3. mogu biti + ili to zavisi da li je a manji/vei od vrijednosti aritmetike sredine skupa.

VARIJANCA ( - 2. moment oko sredine) je apsolutna mjera disperzije izraena u 2. stupnju

STANDARDNA DEVIJACIJA () se dobije vaenjem drugog korijena iz varijance. To je apsolutna mjera i pokazuje prosjeno (kvadratno) odstupanje num. obilj. od aritmetike sredine tog obiljeja:

RELATIVNE MJERE

IQ nije pogodan za usporeivanje disperzije raznorodnih skupova pa se koristi relativna mjera disperzije KOEFICIJENT KVARTILNE DEVIJACIJE (izraen u relativnom broju). To je odnos izmeu interkvartila te sume gornjeg i donjeg kvartila.

Moe poprimiti vrijednosti od 0 do 1. to je koef. kvartilne devijacije blii 0, disperzija je manja i obrnuto.

Ako su IQ i VQ velikih numerikih vrijednosti, disperzija distribucije je velika i veoma znaajna i obratno.

Disperziju aritm. sredine raznorodnih skupova nemogue je ocijeniti apsolutnim mjerrama pa se uvodi relativna mjera KOEFICIJENT VARIJACIJE. To je odnos standardne varijacije i aritm. sredine pomnoeno sa 100:

STANDARDIZIRANO OBILJEJE

Kada se u stat. analizi skupa eli ocijeniti disperzija s gledita pojedinanih vrij. num. obiljeja ili disperzija raznorodnih skupova, to se izvodi uz pomo standardiziranog obiljeja.

Standardizirano obiljeje predstavlja odstupanje vrijednosti num. obiljeja od aritmetike sredine tog obiljeja izraena u jedinicama standardne devijacije.

MJERE ASIMETRIJE

Ukoliko je u nekom skupu raspored jedinica takav da je isti broj jedinica s manjim tj. veim obiljejem od aritmetike sredine, skup je simetrian. Ako u skupu ima vie jedinica koje imaju obiljeje manje od aritm. sredine (ili vee) skup je asimetrian.

Zbog toga nastaje potreba da se po smjeru i jaini definira asimetrinost skupa.

Moe imati vrijednost od 2 do + 2 i izraava smjer i jakost asimetrije.

Ako je alfa tri nula, distribucija je simetrina, a to je blia granicama asimetrija je jaa.

Pearsonov koeficijent asimetrije: [-3 do 3]

Bowleyev koef. asimetrije: [-1 do 1]

Distribucija je jako pozitivna ili negativno asimetrina to su Sk i Skq blie granicama.

MJERA ZAOBLJENOSTI

Grafikim prikazivanjem distribucije frekvencija dobivaju se krivulje razliitih oblika, vrhova. Za mjerenje zaobljenosti vrha koristi se:

Ako je:

=3 normalna krivulja

>3 iljasti vrh

5%

za mali uzorak (n30

t-oitava se iz tablice kritinih vrijednosti za studentovu distribuciju n5%

- f