efzg - statisitka, prof. cizmic - predavanja
DESCRIPTION
Predavanja profesorice Cizmic, najbolja skripta za poloziti usmeni iz statistike kod svih profesora.TRANSCRIPT
Doc.dr.sc. Draženka Čizmić – predavanja 2009.g.
STATISTIKA
Doc.dr.sc.Draženka Čizmić - predavanja 2009.g -
1
Doc.dr.sc. Draženka Čizmić – predavanja 2009.g.
SADRŽAJ:1. UVOD
Statistički skup................................................................................... 4 Vrste i izvori statističkih podataka.................................................... 4
2. UREĐIVANJE PODATAKA
Statistički nizovi i tabele.............................................. 5 Numerički nizovi........................................................... 7
3. OSNOVNA ANALIZA VREMENSKIH NIZOVA ................................................................ Grafičko prikazivanje vremenskih nizova..................... 10 Individualni indeksi....................................................... 10
4. SREDNJE VRIJEDNOSTI STATISTIČKOG NIZA
Mod....................................................................................................
.....................................................................................12 Medijan.............................................................................................
.....................................................................................13 Aritmetička sredina...........................................................................
.....................................................................................15 Geometrijska sredina.......................................................................
.....................................................................................17 Skupni indeksi..................................................................................
.....................................................................................185. MJERE DISPERZIJE
Raspon varijacije, Interkvartil, Koeficijent kvartilne devijacije....... 19 Srednje apsolutno odstupanje (MAD)........................................... 22 Varijanca, Standardna devijacija, Koeficijent varijacije.................. 23 Standardizirana varijabla..................................................................
.....................................................................................256. MJERE ASIMETRIJE
Koeficijent asimetrije, Pearsonova mjera, Bowleyjeva mjera........ 267. MJERE ZAOBLJENOSTI
Koeficijent zaobljenosti....................................................................
.....................................................................................298. MJERE KONCENTRACIJE
Koncentracijski omjer, Ginijev koeficijent....................................... 319. OSNOVNI POJMOVI VJEROJATNOSTI
2
Doc.dr.sc. Draženka Čizmić – predavanja 2009.g.
Definicije i svojstva vjerojatnosti......................................................
.....................................................................................32 Modeli distribucija vjerojatnosti.......................................................
.....................................................................................3410................................................................OSNOVNI
POJMOVI INFERENCIJALNE STATISTIKE Plan uzorka.......................................................................................
.....................................................................................37 Sampling distribucija........................................................................
.....................................................................................3811................................................................PROCJENE
PARAMETRA Procjena aritmetičke sredine...........................................................
.....................................................................................39 Procjena totala osnovnog skupa..................................................... 42 Procjena proporcije osnovnog skupa............................................. 44
12................................................................TESTIRANJE HIPOTEZA O PARAMETRU Testiranje hipoteza o pretpostavljenoj vrijednosti aritmetičke
sredine osnovnog skupa................................................................ 44 Testiranje hipoteza o razlici aritmetičkih sredina dvaju
osnovnih skupova nezavisnim uzorcima.......................................... 4913................................................................REGRESIJSKA
ANALIZA Model jednostavne linearne regresije............................................... 52
- deskriptivno statistička analiza modela............................... 52- inferencijalno statistička analiza modela............................ 57- testiranje hipoteza o modelu................................................ 58
14................................................................MODEL VIŠESTRUKE REGRESIJE Analiza modela višestruke regresije................................................
.....................................................................................58 Testiranje hipoteza o modelu višestruke regresije......................... 59
15................................................................MODELI VREMENSKIH SERIJA Komponente vremenskih serija.......................................................
.....................................................................................60
3
Doc.dr.sc. Draženka Čizmić – predavanja 2009.g.
Modeli trenda....................................................................................
.....................................................................................61
4
Doc.dr.sc. Draženka Čizmić – predavanja 2009.g.
PREDAVANJE #1
STATISTIKA – znanstvena metoda koja se bavi prikupljanjem, uređivanjem, analizom i tumačenjem podataka.
DESKRIPTIVNA – u okviru deskriptivne statistike zaključci se donose na temelju svih podataka. Ona obuhvaća postupke uređivanja, grupiranja, tabeliranja, grafičkog prikazivanja te izračunavanja različitih statističko-analitičkih veličina
INFERENCIJALNA – u sklopu inferencijalne statistike zaključci se dodose na temelju dijela podataka (uzoraka). Temelji se na teoriji vjerojatnosti
STATISTIČKI SKUP – čine jedinice koje su predmetom promatranja statističkom metodom. Možemo promatrati osobe, poduzeća, zemlje, proizvode itd.OPSEG SKUPA – broj jedinica. S obzirom na opseg statistički skupovi se dijele na:
KONAČNI STATISTIČKI SKUP – studenti upisani na efzg BESKONAČNI STATISTIČKI SKUP – bacanje novčića ili proizvodnja
Statistički skupovi definiraju se pojmovno, prostorno i vremenski.
OSNOVNI SKUP (POPULACIJA) – skup podataka o promatranom svojstvu za svaku jedinicu statističkog skupa.UZORAK – podskup, dio osnovnog skupa. Dio podataka izdvojen iz cjelovite evidencije.
STATISTIČKO OBILJEŽJE (VARIJABLA) – svojstvo koje stupnjem ili oblikom varira od jedinice do jedinice statističkog skupa.
VRSTE STATISTIČKOG OBILJEŽJA:1. NUMERIČKO (KVANTITATIVNO) – izražava se brojevima
DISKRETNO (diskontinuirano) – poprima isključivo cjelobrojne vrijednosti. npr. broj učenika u razredu, broj djece u obitelji
KONTINUIRANO – može poprimiti bilo koju vrijednost iz nekog intervala. npr. visina, težina, cijena...
2. KVALITATIVNO NOMINALNO (atributivno i geografsko) – izražava se opisno ili riječima. npr.
atributivno – spol, zanimanje ; geografsko – mjesto rođenja REDOSLIJEDNO (obilježje ranga) – npr. ocijena, stupanj kvalitete
MJERENJE – postupak pridruživanja numeričkih i nenumeričkih oznaka jedinicama statističkih skupova na temelju određenog pravila. Temelji se na primjeni mjerih skala.MJERNE SKALE:
1. NOMINALNA – sastoji se od liste naziva2. ORDINALNA – ovom skalom jedinicama statističkih skupova pridružuju se slovne
oznake, simboli ili brojevi sukladno intenzitetu mjernog svojstva3. INTERVALNA - ovom skalom jedinicama statističkih skupova pridružuju se brojevi
sukladno intenzitetu mjernog svojstva. Za ovu skalu karakteristično je da ima definiranu mjernu jedinicu i dogovorno utvrđenu nulu. npr. temperaturna ljestvica.
5
Doc.dr.sc. Draženka Čizmić – predavanja 2009.g.
4. OMJERNA - ovom skalom jedinicama statističkih skupova pridružuju se brojevi sukladno intenzitetu mjernog svojstva. Za ovu skalu karakteristično je da ima definiranu mjernu jedinicu i nulu koja označava nepostojanje svojstva. npr. plaća, broj zastoja rada stroja.
IZVORI PODATAKA: PRIMARNI – prikupljaju se u skladu s ciljem istraživanja. SEKUNDARNI – prikupljaju ih razne institucije (državni zavod za statistiku,
banke, agencije za istraživanje tržišta, osiguravajući zavodi...)
PREDAVANJE #2
UREĐIVANJE PODATAKA – uređivanjem podataka nastaju statistički nizovi
STATISTIČKI NIZOVI:1. NOMINALNI NIZ – nastaje uređivanjem podataka o nominalnom obilježju2. REDOSLIJEDNI NIZ – nastaje uređivanjem podataka o rang varijabli3. NUMERIČKI NIZ – nastaje uređenjem podataka koji predstavljaju vrijednosti
numeričke varijable4. VREMENSKI NIZ – nastaje kronološkim nizanjem podataka o nekoj pojavi
(proizvodnja,uvoz,izvoz)
STATISTIČKE TABELE: JEDNOSTAVNA
SKUPNA – sadrži barem dva niza koji su grupirani prema modalitetima istog obilježja
Poljoprivredna površina po kategorijama u tisućama hektara u RH, 2003.g
KATEGORIJE POVRŠINAoranice i vrtovi 1460
voćnjaci 68vinogradi 57
livade 396pašnjaci 1156izvor: SLJRH, 2004.g., str.250
Izvoz i uvoz prema pretežnoj ekonomskoj namjeni u milijunima am. $ u RH, 2003.g.EKONOMSKA NAMJENA IZVOZ UVO
Zproizvodi za reprodukciju 2959 6583proizvodi za investicije 1341 3316
proizvodi za široku potrošnju
1886 4311
izvor: SLJRH, 2004.g., str.386
6
Doc.dr.sc. Draženka Čizmić – predavanja 2009.g.
KOMBINIRANA (TABELA KONTIGENCE, TABELA S DVA ULAZA) – podaci su grupirani prema modalitetima dvaju ili više varijabli
Stanovništvo prema spolu i starosti u tisućama u RH, popis iz 2001.g.
STAROST SPOLM Ž
0 – 14 388 37015 – 64 1482 1501
65 - 266 430izvor: SLJRH, 2004.g., str.95
RELATIVNI BROJEVI – omogućavaju elementarnu analizu podataka u sklopu deskriptivne statistike
proporcije (dio/cjelina), postoci (dio/cjelina*100) odnosno relativne frekvencije indeksi relativni brojevi koordinacije – omjerni brojevi koji nastaju diobom dvaju
koordinirajućih veličina (npr.gustoća stanovništva, dohodak po stanovniku, BDP per capita)
NIZOVI KVALITATIVNIH PODATAKAKvalitativni podaci su oblici nominalne ili redoslijedne varijable.
ako ih je mali broj navode se nekim redom odabranim po volji ili prema intenzitetu mjernog obilježja kod redoslijednih podataka (npr.ocjene od najmanje prema najvećoj)
ako se radi o većem broju podataka pristupa se grupiranju. Grupiranjem se skup podataka raščlanjuje na podskupove koji se međusobno ne preklapaju.
FREKVENCIJA – broj podataka istog ili sličnog modaliteta varijable
NOMINALNI ILI REDOSLIJEDNI NIZ čine parovi različitog oblika kvalitativne varijable o i
i pripadajućih frekvencija fi (oi, fi), i=1,2,....,k
Učenici i studenti koji su završili osnovnu ili srednju školu odnosno diplomirai na
visokim učilištima u RH, 2003.g.STUPANJ
OBRAZOVANJABROJ OSOBA
oi fi
osnovno 51211srednje 47092
stručni studij 6489sveuč.studij 9243
ukupno 114035izvor: SLJRH, 2004.g., str.487
OPSEG SKUPA – zbroj frekvencija
7
Doc.dr.sc. Draženka Čizmić – predavanja 2009.g.
RELATIVNA FREKVENCIJA – omjer frekvencije i opsega skupa POSTOTNA RELATIVNA FREKVENCIJA – relativna frekvencija pomonožena sa 100
nizovi sa relativnim frekvencijama (oi, pi) ili (oi, Pi)Kvalitativni nizovi grafički se prikazuju površinskim grafikonima:
STUPCI (položeni, uspravni) STRUKTURNI KRUGOVI I POLUKRUGOVI RAZDIJELNI STUPCI VIŠESTRUKI STUPCI
NUMERIČKI NIZOVI – nastaju uređenjem numeričkih podataka. Način njihova uređivanja ovisi o tome da li su podaci diskretni ili kontinuirani.NAČINI UREĐIVANJA:
1. mali broj podataka - uređuje se nizanjem po veličini. Pojedinačni numerički podaci grafički se prikazuju dijagramom s točkama i dijagramom stablo-list (S-L dijagram)Primjer 1.Podaci o prodaji proizvoda A za 15 dana jednog razdoblja:Xi: 8, 15, 9, 17, 20, 14, 34, 27, 30, 18, 10, 18, 24, 25, 29Podaci uređeni po veličini:Xi: 8, 9, 10, 14, 15, 17, 18, 18, 20, 24, 25, 27, 29, 30, 34
dijagram s točkama:
dijagram stablo-list:
0 8 91 0 4 5 7 8 82 0 4 5 7 93 0 4
O|8 predstavlja 8
2. diskretno obilježje - velik broj podataka i manji broj oblika – pristupa se grupiranju. Numerički niz odnosno distribucija frekvencija se sastoji od parova (xi, fi), i=1,2,....,k
xi – modaliteti numeričkog obilježja
8
Doc.dr.sc. Draženka Čizmić – predavanja 2009.g.
fi – pripadajuće frekvencije Primjer 2.
Dnevna prodaja garnitura sobnog namještaja
BROJ GARNITURA
BROJ DANA
xi fi1 12 53 84 265 196 12
ukupno 71
3. kontinuirano obilježje/ diskretno obilježje s većim brojem oblika – grupiranje se provodi na temelju razreda. Svaki razred ima donju i gornju granicu.frekvencija razreda – broj podataka omeđen donjom i gornjom granicom razredaNumerički niz odnosno distribucija frekvencija sastoji se od parova razreda i pripadajućih frekvencija (Li1 ≤ xi ≤ Li2, fi), i= 1,2,....,kLi1 – donja granica i-tog razreda; Li2 – gornja granica i-tog razreda; fi – frekvencija i-tog razredaPrimjer 3.
Radnici poduzeća A prema starosti
STAROST BROJ RADNIKA18 – 26 526 – 34 634 – 42 1042 – 50 550 – 58 4ukupno 30
Formiranju distribucije frekvencija prethodi određivanje broja razreda i njihove veličine. Za određivanje broja razreda koristi se Sturgesovo pravilo: k ≈ 1 + 3,3 logN k-broj razreda; N-zbroj frekvencija
Ako su razredi jednakih veličina, veličina im se aproksimira tako da se raspon
varijacije podijeli sa brojem razreda:
Razredi jednakih veličina primjenjuju se kada su podaci simetrično raspoređeni.Razredi različitih veličina primjenjuju se kada su podaci asimetrično raspoređeni.
9
Doc.dr.sc. Draženka Čizmić – predavanja 2009.g.
Pri brojčanoj analizi numeričkog niza potrebno je utvrditi da li su granice prave, a nakon toga odrediti veličinu razreda i rezredne sredine.
GRANICE RAZREDA: PRAVE – donja granica tekućeg razreda je jednaka gornjoj granici
prethodnog razreda NOMINALNE – pretvaraju se u prave tako da se svaka donja granica
umanji za polovicu jedinice, a svaka gornja se uveća za polovicu jedinice. To vrijedi za sve slučajeve osim za navršene godine života. Kod navršenih godina života svaka se gornja granica poveća za jedinicu.
VELIČINA RAZREDA – određuje se kao razlika gornje i donje prave granice razredaREZREDNA SREDINA i-tog razreda – određuje se kao poluzbroj gornje i donje prave granice razreda
Distribucija frekvencija grafički se prikazuje histogramom i poligonom frekvencija.
10
Doc.dr.sc. Draženka Čizmić – predavanja 2009.g.
Primjer 4.
Prvi i posljednji razred mogu biti otvoreni razredi. Njihove se veličine procjenjuju i procjena se stavlja u zagradu.
Kada su razredi različitih veličina potrebno je korigirati frekvencije:
- ova se formula koristi kada su svi razredi različitih veličina, a može se
koristiti i generalno
- bazna veličina razreda (najčešće se pojavljuje)
IZVEDENI NIZOVI: KUMULATIVNI NIZ – nastaje postupnim zbrajanjem apsolutnih ili relativnih
frekvencija. On se grafički prikazuje kumulantom.
Primjer 5.
Nepismeno stanovništvo staro 10.g. i više prema starosti u RH prema popisu iz 2001.g.
STAROST BROJ OSOBA
PRAVE GRANICE
RAZREDNA SREDINA
VELIČINA REZREDA
KORIGIRANE FREKVENCIJE
fi xi ii1 2 3 4 5 6
10-19 1845 9.5-19.5 14.5 10 276820-34 3160 19.5-34.5 27 15 316035-49 4457 34.5-49.5 42 15 445750-64 11108 49.5-64.5 57 15 11108
65-(99) 49207 64.5-(99.5) 82 35 21089UKUPNO 69777 - - - -
Stanovništvo prema starosti u RH u tisućama prema popisu iz 2001.g.
STAROST BROJ OSOBA PRAVE GRANICE
KUMULATIVNI NIZ
0-14 758 -0.5 – 14.5 75815-64 2983 14.5 – 64.5 3741
65-(99) 696 64.5 – (99.5) 4437
11
Doc.dr.sc. Draženka Čizmić – predavanja 2009.g.
PREDAVANJE #3
VREMENSKI NIZ – skup kronološki uređenih vrijednosti koje predstavljaju neku pojavu (proizvodnja, uvoz, izvoz).ČLANOVI NIZA – vrijednosti koje tvore niz
Vremenski niz nože biti: INTERVALNI – nastaje trajanjem vrijednosti pojave po intervalima vremena
(godina, kvartal, mjesec) npr. proizvodnja, uvoz, izvoz... TRENUTAČNI – sastoji se od kronološki uređenih vrijednosti koje
predstavljaju stanja pojave u odabranim vremenskim točkama (početak, sredina, kraj) npr. stanje na računima, zaključne cijene dionica..
GRAFIČKO PRIKAZIVANJE VREMENSKIH NIZOVA: INTERVALNI NIZOVI prikazuju se površinskim i linijskim grafikonima. TRENUTNI NIZOVI prikazuju se samo linijskim grafikonima
Radi lakšeg praćenja u grafikon se ucrtava mreža. Prikaz je u pravokutnom koordinatnom sustavu s aritmetičkim mjerilima na osima. Na osi apscisa je mjerilo za varijablu vrijeme, a na osi ordinata za članove vremenskog niza.
OKOMITI PREKID GRAFIKONA – ako se ne raspolaže podacima za dio razdoblja moguće je izostaviti dio mjerila na osi apscisa.VODORAVNI PREKID GRAFIKONA – ako neka pojava varira na velikim razinama moguće je izostaviti dio mjerila osi ordinata.Prekidaju se samo linijski grafikoni.
POLULOGARITAMSKI GRAFIKON – koristi se ako se na istom grafikonu uspoređuju raznorodni podaci (nizovi izraženi u različitim mjernim jedinicama). To je grafikon sa aritmetičkim mjerilom na osi apscisa, a logaritamskim na osi ordinata.
INDIVIDUALNI INDEKSI – njima se prati razvoj jedne pojave u vremenu verižni indeksi – njima se prati razvoj pojave u uzastopnim vremenskim
razdobljima. Verižni indeks Vt razdoblja t dobije se tako da se vrijednost toga
12
Doc.dr.sc. Draženka Čizmić – predavanja 2009.g.
razdoblja podijeli s vrijednošću prethodnog razdoblja te se pomnoži sa sto
Verižni indeksi se grafički prikazuju specifičnim linijskim grafikonom i grafikonom jednostavnih stupaca.KOEFICIJENT DINAMIKE – vrijednost tekućeg razdoblja podijeljena sa
vrijednošću prethodnog razdoblja ne pomnožena sa sto STOPA PROMJENE – od verižnog indeksa se odbije sto
Primjer 1.
Izvoz RH u milijunima US$ u razdoblju od 1999. do 2003.g.GODINA IZVOZ VERIŽNI INDEKSI STOPA
PROMJENEyt Vt St
1999 4302 - -2000 4432 103,2 3,022001 4665 105,26 5,262002 4904 105,12 5,122003 6197 126,36 26,36
izvor: SLJRH 2004., str.384
Indeks se interpretira kao postotna promjena u odnosu na 100. Ako je veći od 100 predstavlja postotno povećanje, a ako je manji od 100 predstavlja postotno smanjenje.npr. Izvoz u RH u 2003.g. povećao se za 26.36% u odnosu na 2002.g.
indeksi na stalnoj bazi – njima se mjere promjene u odnosu na neko odabrano bazno razdoblje. Izračunavaju se tako da se svaki član niza podijeli
s vrijednošću baznog razdoblja te pomnoži sa 100
BAZNO RAZDOBLJE – razdoblje u kojemu pojava nije bila izložena nekim neuobičajenim utjecajima (prirodne katastrofe, rat). Ponekad se uzima neka vrijednost izvan niza ili nekakav prosjek.STOPA PROMJENE – kad od indeksa odbijemo sto Bazni indeksi se grafički prikazuju linijskim grafikonom jednostavnih stupaca.
Primjer 2.GODINA IZVOZ BAZNI INDEKSI
1999 = 100STOPA
PROMJENE1999 4302 100,00 0,002000 4432 103,02 3,022001 4665 108,44 8,44
13
Doc.dr.sc. Draženka Čizmić – predavanja 2009.g.
2002 4904 113,99 13,992003 6197 144,05 44,05
U 2003.g. izvoz se povećao za 44.05% u odnosu na baznu 1999.g.
SREDNJE VRIJEDNOSTI STATISTIČKOG NIZA – konstante kojima se predstavljaju nizovi varijabilnih podataka.
POTPUNE – računaju se na temelju svih podataka. U njih se ubrajaju aritmetička, geometrijska i harmonijska sredina.
POLOŽAJNE – u pravilu su jednake jednom modalitetu statističke varijable. U njih se ubrajaju MOD i MEDIJAN.
MOD – najčešći modalitet varijable, odnosno to je modalitet varijable s najvećom frekvencijom
1. pojedinačni podaci – kod pojedinačnih podataka MOD je vrijednost koja se najčešće pojavljujePrimjer 3.Slijedeći niz predstavlja cijene jednog proizvoda evidentirane na 10 prodajnih
mjesta u kn:25 24 25 23 25 22 21 25 20 25 Najčešća prodajna cijena (MOD) je 25 kn.
2. distribucija frekvencija formirana na temelju pojedinačnih vrijednosti – tu je MOD modalitet varijable s najvećom frekvencijom
Primjer 4.
MOD distribucije dnevne prodaje garnitura namještaja iznosi 4, tj. najčešća dnevna prodaja iznosila je 4 garniture
3. distribucija frekvencija sa razredima – MOD se aproksimira pomoću izraza:
b – najveća korigirana frekvencijaa – frekvencija ispred njec – frekvencija iza njeL1 – donja prava granica modalnoga razredai – njegova veličina
Dnevna prodaja garnitura sobnog namještaja
BROJ GARNITURA
BROJ DANA
xi fi
1 12 53 84 265 196 12
UKUPNO 71
14
Doc.dr.sc. Draženka Čizmić – predavanja 2009.g.
MODALNI RAZRED – razred s najvećom korigiranom frekvencijom
Primjer 5.
Mo = 24.5 + (460.8-216.0)/(460.8-216.0)+(460.8-246.7) * 25 = 37.84 godNajčešća starost aktivnog stanovništva u RH u 2003.g. iznosi 37.84 godine.
MEDIJAN – srednja vrijednost koja numerički niz uređen po veličini dijeli na dva jednakobrojna dijela
1. pojedinačni podaci (neparan broj) – MEDIJAN je jednak vrijednosti varijable središnjeg člana u nizu
Primjer 6.Podaci moraju biti uređeni po veličini1 3 5 8 10 12 14 7/2 = 3.5 ; r =4 ; Me = x4 = 8
2. pojedinačni podaci (paran broj) – MEDIJAN je jednak poluzbroju vrijednosti varijable središnjih dvaju članova niza uređenog po veličini N/2 = INT ; Me = (xr+Xr+1)/2 ; r = N/2Primjer 7.11 24 29 37 40 53 65 72 N=8 ; r=4 ; Me = (37+40)/2 = 38.5
3. distribucija frekvencija formirana na temelju pojedinačnih vrijednosti – određivanje MEDIJANA se pojednostavljuje uporabom kumulativnog niza manje od. MEDIJAN je jednak vrijednosti varijable čija kumulativna frekvencija prva uključuje N/2.Primjer 8.
N/2 = 35.5
Aktivno stanovništvo u RH u 2003.g. (2.polugodište) u tisućamaSTAROST BROJ
OSOBAPRAVE
GRANICEVELIČINE RAZREDA
KORIGIRANE FREKVENCIJE
fi ii fci
15-24 216 14,5-24,5 10 216,025-49 1152 24,5-49,5 25 460,850-64 370 49,5-64,5 15 246,7
65-(74) 55 64,5-(74.5) 10 55,0
Dnevna prodajaBROJ
GARNITURABROJ DANA KUMULATIVNI
NIZ xi fi S(xi)1 1 12 5 63 8 144 26 405 19 596 12 71
UKUPNO 71 -15
Doc.dr.sc. Draženka Čizmić – predavanja 2009.g.
Me = 4
4. distribucija frekvencija s razredima – MEDIJAN se aproksimira pomoću izraza:
L1 – donja prava granica medijalnog razredaN – zbroj apsolutnih ili relativnih frekvencija∑fi – zbroj frekvencija do medijalnog razredafmed – frekvencija medijalnog razreda
i – veličina medijalnog razredaMEDIJALNI RAZRED – onaj čija kumulativna frekvencija prvi put uključuje N/2.
Primjer 9. STAROST BROJ OSOBA PRAVE
GRANICEVELIČINE RAZREDA
KUMULATIVNE
FREKVENCIJEfi ii S(xi)
15-24 216 14,5-24,5 10 21625-49 1152 24,5-49,5 25 136850-64 370 49,5-64,5 15 1738
65-(74) 55 64,5-(74,5) 10 1793
N/2 = 896.5Me = 24.5 + (896.5-216)/1152 * 25 = 39.27 godPrvih 50% osoba imalo je 39 godina i manje, a preostalih 50% osoba bilo je
starije od 39 godina
KVANTILI – numerički niz uređen po veličini dijele na jednakobrojne dijelove. Medijan spada među kvantile
KVARTILI – niz uređen po veličini dijele na 4 jednakobrojna dijela DECILI – niz uređen po veličini dijele na 10 jednakobrojnih dijelova PERCENTILI – niz uređen po veličini dijele na 100 jednakobrojnih dijelova
Broj kvartila je za jedan manji od njihova reda, tj. 3 su kvartila, 9 decila i 99 percentila
PREDAVANJE #4
ARITMETIČKA SREDINA – dobije se tako da se zbroje vrijednosti numeričke varijable i podijele sa njihovim brojem.TOTAL – zbroj vrijednosti numeričke varijable; aritmetička sredina je jednaki dio totala po jediniciSvojstva aritmetičke sredine:
1. zbroj vrijednosti odstupanja numeričke varijable od njezine aritmetičke sredine jednak je nuli
2. zbroj kvadrata odstupanja vrijednosti numeričke varijable od njezine aritmetičke sredine minimalan je
16
Doc.dr.sc. Draženka Čizmić – predavanja 2009.g.
3. aritmetička sredina nalazi se između najmanje i najveće vrijednosti niza za koji je izračunata
JEDNOSTAVNA ARITMETIČKA SREDINA – računa se kod pojedinačnih kvantitavnih
podataka
Primjer 1.Slijedeći niz predstavlja cijene jednog proizvoda evidentirane na 10 prodajnih mjesta u kn:25 24 25 23 25 22 21 25 20 25 235/10=23.5 prosječna prodaja iznosila je 23.5 kn
Aritmetička sredina izražena je u istim mjernim jedinicama kao i obilježje.VAGANA (PONDERIRANA) ARITMETIČKA SREDINA – primjenjuje se za grupirane podatke, tj. za distribuciju frekvencija
1. ponderi: APSOLUTNE FREKVENCIJE (fi)
2. ponderi: RELATIVNE FREKVENCIJE U VIDU POSTOTAKA (Pi)
3. ponderi: RELATIVNE FREKVENCIJE U VIDU PROPORCIJA (pi)
Primjer 2. Distribucija frekvencija formirana na temelju pojedinačnih vrijednosti
PRAVI TOTAL – ukupan broj
prodanih garnitura
garniture dnevno
Primjer 3. Distribucija frekvencija formirana na temelju razreda
Dnevna prodaja garnitura sobnog namještajaBROJ
GARNITURABROJ DANA kol. 1*2
xi fi fixi
1 1 12 5 103 8 244 26 1045 19 956 12 72
UKUPNO 71 306
17
Doc.dr.sc. Draženka Čizmić – predavanja 2009.g.
PROCIJENJENI PODTOTALI
PROCIJENJENI TOTAL-
ukupna starost promatranih
osoba
Prosječna starost aktivnog
ARITMETIČKA SREDINA ARITMETIČKIH SREDINA – određuje se kao vagana sredina u kojoj se za pondere uzima broj podataka za koje su pojedine sredine računate ili tom broju proporcionalne veličine.
Primjer 4.
Prosječna plaća za sve kompanije:
Aktivno stanovništvo u RH u 2003.g. (drugo polugodište) u tisućama
STAROST
BROJ OSOBA
PRAVE GRANICE
RAZREDNE
SREDINE
kol.2*4
fi xi fixi
15-24 216 14.5-24.5 19.5 4212.025-49 1152 24.5-49.5 37.0 42624.050-64 370 49.5-64.5 57.0 21090.0
65-(74) 55 64.5-(74.5) 69.5 3822.5UKUPN
O1793 - - 71746.5
Odabrane kompanije zaposlenih i prosječne mjesečne plaće u kn
KOMPANIJA BROJ ZAPOSLENI
H
PROSJEČNA PLAĆA
UKUPNA PLAĆA
Ni Ni
ALFA 550 3500 1925000GAMA 320 2300 736000TRADE 250 4200 1050000
UKUPNO 1120 - 3711000
18
Doc.dr.sc. Draženka Čizmić – predavanja 2009.g.
Ako se svaka individualna vrijednost numeričkog obilježja zamijeni aritmetičkom sredinom dobiva se polazna veličina tj. total ili zbroj vrijednosti numeričkog obilježja.
ARITMETIČKA SREDINA RELATIVNIH BROJEVA KOORDINACIJE – određuje se kao
vagana sredina u kojoj su ponderi baze tih brojeva
RELATIVNI BROJEVI KOORDINACIJE – omjerni su brojevi koji nastaju diobom dviju koordinirajućih veličina
Grafički se prikazuju na 2 načina:1. jednostavnim stupcima2. pravokutnicima čije su osnovice proporcionalne bazama tih brojeva, a visine
samim relativnim brojevima koordinacije
Primjer 5.
Prosječan broj stanovnika na km2 za sve navedene države:
GEOMETRIJSKA SREDINA – jednaka je N-tom korijenu produkta N pojedinačnih vrijednosti
Najveće države svijeta, površina u km2 i broj stanovnika na km2
DRŽAVA POVRŠINA U km2
STANOVNIŠTVO/ km2
UKUPAN BROJ STANOVNIKA
Bi Ri Vi= Ri*BiRUSIJA 17075400 8 136603200
KANADA 9970610 3 29911830SAD 9629091 30 288872730KINA 9596961 135 1295589735
BRAZIL 8514215 21 178798515UKUPNO 54786277 - 1929776010
19
Doc.dr.sc. Draženka Čizmić – predavanja 2009.g.
Za grupirane podatke geometrijska sredina dana je izrazom:
Primjer 6. zadani su koeficijenti dinamikeGODIN
A2000 2001 2002 2003 2004
Vt - 1,06 1,05 1,03 1,02prosječna stopa računata pomoću geometrijske sredine:
Promatrana pojava prosječno se godišnje povećavala
za 3.99%.
Geometrijska i harmonijska sredina relativno se rijetko primjenjuju. Geometrijska sredina se primjenjuje u analizi vremenskih nizova. Pomoću nje se računa prosječna stopa promjene pojave. Geometrijska sredina poprima nižu vrijednost od aritmetičke sredine.
HARMONIJSKA SREDINA – recipročna vrijednost aritmetičke sredine recipročnih vrijednosti varijable x
negrupirani pojedinačni podaci
grupirani podaci
Harmonijska sredina manja je od aritmetičke i geometrijske sredine
Primjer 7. Ugostiteljska poduzeća, ukupan promet (u tisućama kn) i promet po zaposlenom (u
tisućama kn)UGOSTITELJSKA
PODUZEĆAPROMET PROMET PO
ZAPOSLENOMZAPOSLENI
Vi Ri Vi/Ri = BiHOTELI 6272146 199 31518
KAMPOVI 272070 158 1722RESTORANI 814160 178 4574
BAROVI 716065 131 5466KANTINE 331094 137 2417UKUPNO 8405535 - 45697
20
Doc.dr.sc. Draženka Čizmić – predavanja 2009.g.
Prosječan promet po zaposlenom za sva ugostiteljska poduzeća:
Ako nazivnici relativnih brojeva koordinacije nisu poznati, a brojnici jesu ili se lakše procjenjuju do sredine će se doći pomoću izraza za vaganu ponderiranu harmonijsku sredinu:
Ako imamo zadano Bi koristimo formulu za aritmetičku, a ako su nam zadane Vi koristimo harmonijsku vaganu sredinu.
SKUPNI INDEKSI – njima se prati dinamika skupine pojava u vremenu npr.proizvodnja, uvoz, izvoz....
SKUPNI INDEKSI CIJENA SKUPNI INDEKSI KOLIČINA SKUPNI INDEKS VRIJEDNOSTI
U pravilu se računaju kao vagana aritmetička sredina individualnih indeksa. Ponderi su obično vrijednosti. Uglavnom se izračunavaju:
LASPEYRESOV INDEKS CIJENA I KOLIČINA PAASCHEOV INDEKS CIJENA I KOLIČINA FISHEROV INDEKS CIJENA I KOLIČINA INDEKS VRIJEDNOSTI
Skupne indekse izračunavaju i objavljuju statistički uredi. Obično su Laspeyresova tipa: INDEKS POTROŠAČKIH CIJENA – mjera inflacije; INDEKS INDUSTRIJSKE PROIZVODNJESkupni indeksi cijena koriste se u postupku deflacioniranja tj. uklanjanja utjecaja promjena cijena na vrijednosno izražene pojave.
PREDAVANJE #5
MJERE DISPERZIJEReprezentativnost srednje vrijednosti ovisi o stupnju varijabilnosti podataka.Varijabilnost numeričkog obilježja predočava se i pomoću grafičkih prikaza: dijagram s točkama i dijagram s pravokutnikomMjere za varijabilnost podataka su:
1. raspon varijacije2. interkvartil3. koeficijent kvartilne devijacije4. varijanca5. standardna devijacija6. koeficijent varijacije7. srednje apsolutno odstupanje (MAD)
21
Doc.dr.sc. Draženka Čizmić – predavanja 2009.g.
1. RASPON VARIJACIJE pojedinačni podaci – određuje se kao razlika između najveće i najmanje
vrijednosti
distribucija frekvencija formirana na temelju pojedinačnih podataka – određuje se kao razlika između posljednje i prve vrijednosti
distribucija frekvencija s razredima – aproksimira se kao razlika između gornje granice posljednjeg i donje granice prvog razreda ili kao razlika razrednih sredina posljednjeg i prvog razreda.
Raspon varijacije je apsolutna (izražena je u istim mjernim jedinicama kao i obilježje) i nepotpuna (dobiva se iz samo dvije vrijednosti) mjera disperzije.
2. INTERKVARTIL KVARTILI:
PRVI ILI DONJI KVARTIL (Q1) – vrijednost numeričke varijable koja članove niza dijeli u dvije skupine. U prvoj je skupini 25% elemenata s vrijednostima varijable koja je jednaka ili manja od donjeg kvartila, a u drugoj je skupini 75% elemenata s vrijednostima većim od donjeg kvartila.
DRUGI ILI MEDIJAN (Q2) TREĆI ILI GORNJI KVARTIL (Q3) - vrijednost numeričke varijable koja članove niza
dijeli u dvije skupine. U prvoj je skupini 75% elemenata s vrijednostima varijable koja je jednaka ili manja od gornjeg kvartila, a u drugoj je skupini 25% elemenata s vrijednostima većim od gornjeg kvartila.
Interkvartil se određuje kao razlika kvartila 50% Interpretira se kao raspon varijacije središnjih 50% podataka:
Interkvartil je također apsolutna i nepotpuna mjera disperzije.
3. KOEFICIJENT KVARTILNE DEVIJACIJE – njime se uspoređuje stupanj disperzije raznorodnih nizova. Određuje se kao omjer interkvartila i zbroja kvartila:
0 ≤ VQ < 1
Ovo je relativna i nepotpuna mjera disperzije.
GRAFIČKI PRIKAZ VARIJABILNOSTI PODATAKA – dijagram s pravokutnikom box-plot (B-P) dijagramZa njegovu konstrukciju koristi se 5 pokazatelja numeričkog niza – 5's (five summary numbers)
najmanja vrijednost najveća vrijednost medijan donji kvartil
22
Doc.dr.sc. Draženka Čizmić – predavanja 2009.g.
gornji kvartilNa ovom grafičkom prikazu oučava se raspon varijacije i interkvartilni raspon te se prosuđuje o mogućoj asimetriji kao i o pojavi netipičnih vrijednosti ( out lier)
23
Doc.dr.sc. Draženka Čizmić – predavanja 2009.g.
Primjer 1. Negrupirani tj. pojedinačni podaciMjereno je vrijeme u minutama potrebno za rješavanje jednog zadatka iz statistike za 10 studenata. Dobiveni su ovi rezultati : 20 22 25 27 28 28 30 30 33 35Podaci moraju biti uređeni po veličini.
raspon varijacije: 30–15 = 15 minVrijeme potrebno za rješavanje zadatka bilo je između 20 i 35 min. Odnosno u raponu od 15 min.
interkvartil: donji kvartil: N/4 = 10/4 = 2.5 ≠ INT
r = INT (N/4) + 1 = 2+1 = 3, Q1=x3=25 Prva četvrtina studenata imala je vrijeme 25 min i manje, a
preostale 3 četvrtine imale su vrijeme veće od 25 min.
gornji kvartil: 3N/4 = 30/4 = 7.5 ≠ INT r = INT (3N/4) + 1 =7+1=8, Q3=xr=x8=30 Prve tri četvrtine studenata imale su vrijeme 30 min i manje, a
preostala četvrtina imala je vrijeme veće od 30 min.
IQ = Q3 – Q1 = 30 - 25=5 minRaspon varijacije središnjih 50% studenata iznosio je 5 min, tj. njihova vremena bila su između 25 i 30 min.
koeficijent kvartilne devijacijeVQ= (Q3-Q1)/(Q3+Q1) = (30-25)/(30+25) = 0.09Raspon varijacije središnjih 50% studenata u relativnom iznosu je 0.09.
B-P dijagram N/2 = 10/2 = 5 = INT , r=5Me = (xr+Xr+1)/2 = (x5+x6)/2 = (28+28)/2 = 28
24
Doc.dr.sc. Draženka Čizmić – predavanja 2009.g.
Primjer 2. Distribucija frekvencija formirana na temelju pojedinačnih vrijednostiPismeni ispit iz statistike sadrži 5 zadataka. Distribucija frekvencija prema broju rješenih zadataka dana je u tabeli:
BROJ ZADATAKA
BROJ STUDENAT
A
KUMULATIVNI NIZ „manje od“
xi fi S(xi)0 10 101 25 352 55 903 125 2154 50 2655 15 280
UKUPNO 280 -
raspon varijacije: Rx = xk – x1 = 5-0 = 5 zadatakaBroj rješenih zadataka bio je između 0 i 5 odnosno u rasponu od 5 zadataka.
interkvartil: donji kvartil: N/4 = 70 ; Za Q1 se uzima vrijednosti varijable s prvom
kumulativnom frekvencijom koja sadrži vrijednost N/4 Q1= 2gornji kvartil: 3N/4 = 210 Q3=3IQ = Q3 – Q1= 3 – 2= 1Raspon varijacije središnjih 50% studenata iznosio je 1 zadatak, tj. broj rješenih
zadataka bio je između 2 i 3.
koeficijent kvartilne devijacije VQ= (Q3-Q1)/(Q3+Q1) = (3-2)/(3+2) = 0.2Raspon varijacije središnjih 50% studenata u relativnom iznosu je 0.2
Primjer 3. Distribucija frekvencija s razredimaDistribucija studenata prema vremenu potrebnom za rješavanje jednog zadatka iz statistike u min.
raspon varijacijeRx = 30 – 10 = 20 minRx = 27.5 – 12.5 = 15 min
UTROŠENO VRIJEME
BROJ STUDENAT
A
KUMULATIVNI NIZ „manje od“
VELIČINA RAZREDA
fi S(xi) ii10-15 15 15 515-20 20 35 520-25 30 65 525-30 10 75 5
UKUPNO 75 - -
25
Doc.dr.sc. Draženka Čizmić – predavanja 2009.g.
interkvartilN/4 = 75/4 = 18.75Kvartilni razred je razred čija kumulativna frekvencija prva uključuje vrijednost N/4
IQ = 23.5 – 15.9 = 7.6 minRaspon varijacije središnjih 50% studenata iznosio je 7.6 min.
VQ= (Q3-Q1)/(Q3+Q1) = (23.5 – 15.9)/(23.5 – 15.9) = 0.19Raspon varijacije središnjih 50% studenata u relativnom iznosu je 0.19.
4. SREDNJE APSOLUTNO ODSTUPANJE (MAD) – za mjerenje disperzije može se koristiti i prosječno apsolutno odstupanje vrijednosti varijable od njezine aritmetičke sredine ili medijana:
pojedinačni podaci:
za distiribuciju frekvencija apsolutne razlike ponderiraju se apsloutnim ili relativnim frekvencijama
Primjer 4.Dnevna prodaja hladnjaka u 10 prodavaonica iznosila je: 2 5 3 3 7 3 4 6 4 3
MAD = 12/10 = 1,2
2 3 3 3 3 4 4 5 6 7
N/2 = 5 = INT, r = 5
Me = (x5+x6)/2 = (3+4)/2 = 3.5
PREDAVANJE #6
PRODAJAxi
2 25 13 13 17 33 14 06 24 03 140 12
PRODAJAxi
2 1,55 1,53 0,53 0,57 3,53 0,54 0,56 2,54 0,53 0,540 12,0
26
Doc.dr.sc. Draženka Čizmić – predavanja 2009.g.
5. VARIJANCA – aritmetička sredina kvadrata odstupanja vrijednosti numeričke varijable od njezine aritmetičke sredine. Varijanca je mjera disperzije u drugom stupnju koju je potrebno vratiti u prvi stupanj.
negrupirani podaci
grupirani podaci
6. STANDARDNA DEVIJACIJA – pozitivni drugi korijen iz varijance. Potpuna i apsolutna mjera disperzije.
negrupirani podaci
grupirani podaci
7. KOEFICIJENT VARIJACIJE – realtivna mjera disperzije. Određuje se kao omjer srtandardne devijacije i aritmetičke sredine pomnožen sa sto.
Standardna devijacija se interpretira kao prosječno odstupanje od prosjeka izraženo apsolutno, a koeficijent varijacije kao to isto odstupanje izraženo relativno i to u vidu postotka.
Primjer 1. Negrupirani tj. pojedinačni podaciMjereno je vrijeme (u minutama) potrebno za rješavanje jednog zadatka iz statistike za 10 stuudenata. Dobiveni su ovi rezultati:
27
Doc.dr.sc. Draženka Čizmić – predavanja 2009.g.
Interpretacija:Prosječno vrijeme rješavanja zadataka iznosilo je 27.8
minuta s prosječnim odstupanjem od 4.38 minute odnosno 15.76%.
Primjer 2. Distribucija frekvencija formirana na temelju pojedinačnih podatakaPismeni ispit iz statistike sadrži 5 zadataka. Distribucija studenata prema broju rješenih zadataka dana je u tabeli:
Prosječni broj rješenih zadataka iznosio je 2.80 zadatka. S prosječnim odstupanjem od 1.11 zadataka odnosno 39.64%.
Primjer 3. Distribucija frekvencija s razredimaStruktura aktivnog stanovništva u drugom polugodištu 2003.g. u RH
STAROST
STAROST%
PRAVE GRANICE
RAZREDNE
SREDINE
kol. 2x4 VELIČINA
RAZREDA
KORIGIRANE
FREKVENCIJE
Pi xi Pixi Pci
15-24 12 14.5-24.5 19.5 234.0 5043.00 10 1225-49 64 24.5-49.5 37.0 2368.0 . 25 25.6
VRIJEMExi
20 60.8422 33.6425 .27 .28 .28 .30 .30 .33 .35 .
UKUPNO 191.60
BROJ ZADATAK
A
BROJ STUDENA
TA
kol. 1x2
xi fi fixi
0 10 0 78.41 25 25 81.02 55 110 .3 125 375 .4 50 200 .5 15 75 .
UKUPNO 280 785 344.2
28
Doc.dr.sc. Draženka Čizmić – predavanja 2009.g.
50-64 21 49.5-64.5 57.0 1197.0 . 15 14.065-(74) 3 64.5-
(74.5)69.5 208.5 . 10 3.0
UKUPNO
100 - - 4007.5 14298.75 - -
Interpretacija:Prosječna starost aktivnog stanovništva iznosila
je 40 godina. S prosječnim odstupanjem od
11.96 godina
STANDARDIZIRANA VARIJABLA – linearna transformacija numeričke varijable x. Određuje se tako da se odstupanja numeričke varijable od njezine aritmetičke sredine podijele sa standardnom devijacijom, tj. da se izraze u jedinicama standardnih devijacija. Aritmetička sredina standardizirane varijable jednaka je nuli, a standardna devijacija jednaka je jedan.
PRAVILO ČEBIŠEVA – govori da je najmanja proporcija članova bilo kojeg niza
obuhvaćenih bilo kojim intervalom .
U pojasu nalazi se najmanje 0.75 tj. 75% svih podataka.U pojasu nalazi se najmanje 0.889 tj. 88.89% svih podataka.
Ako su podaci raspoređeni po normalnoj distribuciji onda:
pojas obuhvaća oko 68% podataka pojas obuhvaća oko 95% podataka pojas obuhvaća oko 99.73%
podataka
Primjer 4.
29
Doc.dr.sc. Draženka Čizmić – predavanja 2009.g.
Prosječan broj bodova na 1. kolokviju iz statistike iznosi 15, a prosječno odstupanje od prosjeka iznosi 5. Na drugom kolokviju postignut je prosječan broj bodova 17 s prosječnim odstupanjem od prosjeka 4. Student je na prvom kolokviju postigao 20, a na drugome 22 boda. Što se može zaključiti o uspjehu studenta na kolokvijima?
Vrijednost standardiziranog obilježja na prvom kolokviju:
Vrijednost standardiziranog obilježja na drugom kolkviju:
Student je na oba kolokvija postigao iznad prosječan rezultat. Bolji je na drugom kolokviju jer je odstupanje od prosjeka na više 1.25 σ, a na prvome 1 σ.
Primjer 5.Mjereno je vrijeme u minutama potrebno za rješavanje jednog zadatka iz statistike za 10 studenata. Dobiveni su ovi rezultati: 20 22 25 27 28 28 30 30 33 35Je li vrijeme rješavanja od 35 minuta netipično?
Netipičan je podatak koji se nalazi izvan pojasa tj. ako od prosjeka odstupa za više od 2σ.Ako se podaci raspoređuju po normalnoj distribuciji netipičan je podatak koji se nalazi izvan pojasa tj. ako od prosjeka odstupa za više od 3σ.
Budući da se vrijeme od 35 minuta nalazi u pojasu ne može se
smatrati netipičnim.
PREDAVANJE #7
MJERE ASIMETRIJE – njima se mjeri način rasporeda podataka prema aritmetičkoj sredini ili nekoj drugoj vrijednosti.Najvažnije su:
1. Koeficijent asimetrije α3 - potpuna mjera2. Pearsonova mjera nepotpune3. Bowleyeva mjera mjere
1. KOEFICIJENT ASIMETRIJE α3 MOMENTI OKO SREDINE – aritmetičke sredine odstupanja vrijednosti numeričke
varijable od njezine aritmetičke sredine podignuti na neku potenciju
pojedinačni podaci
30
Doc.dr.sc. Draženka Čizmić – predavanja 2009.g.
grupirani podaci
- s obzirom na veličinu r govori se o nultom, prvom, drugom, trećem ili četvrtom momentu oko
sredine
- koeficijent asimetrije α3 je omjeru trećeg momenta oko sredine i standardne devijacije podignute
na treću potenciju obično se kreće u intervalu ±z, a u određenim
slučajevima može biti izvan toga intervala:
α3 = 0 simetrična distribucijaα3 < 0 negativno asimetrična
distribucijaα3 > 0 pozitivno asimetrična
distribucija
2. PEARSONOVA MJERA – temelji se na odnosu srednjih vrijednosti u distribucijama frekvencija
simetrična distribucija
pozitivno asimetrična distribucija
negativno asimetrična distibucija
31
Doc.dr.sc. Draženka Čizmić – predavanja 2009.g.
- Pearsonova mjera definira se kao standardizirano odstupanje vrijednosti medijana ili moda od aritmetičke sredine:
kreće se u intervalu ±
St = 0 simetrična distribucijaSt > 0 pozitivno asimetrična distribucijaSt < 0 negativno asimetrična distribucija
3. BOWLEYJEVA MJERA – temelji se na odnosu medijana i kvartila
simetrična distribucija
pozitivno asimetrična distribucija
negativno asimetrična distibucija
kreće se u intervalu ±1
Ska = 0 simetrična distribucija Ska > 0 pozitivno asimetrična distribucija
32
Doc.dr.sc. Draženka Čizmić – predavanja 2009.g.
Ska < 0 negativno asimetrična distribucija
Primjer 1. pojedinačni podaci Radi kontrole deklarirane težine izabran je uzorak od 10 proizvoda pakiranih u vrećice. Mjerenjem su dobiveni ovi rezultati u gramima: 10 12 15 13 10 11 12 11 11 15
1.koeficijent asimetrije
- α3 je pozitivan, distibucija je umjereno pozitivno asimetrična
2. Pearsonova mjera 3. Bowleyjeva mjera
Primjer 2. distribucija frekvencija s razredimaDistribucija studenata prema vremenu potrebnom za rješavanje
jednog zadatka iz statistikeUTROŠE
NO VRIJEME
BROJ STUDENAT
A
RAZREDNE SREDINE
10-15 15 12.5 187.5 187.5 -5907.4915-20 20 17.5 350 - -20-25 30 2.5 675 - -25-30 10 17.5 275 - -
UKUPNO 75 - 1487.5 1716.67 -1076.29
10 -2 4 -812 0 0 015 . . .13 . . .10 . . .11 . . .12 . . .11 . . .11 . . .15 . . .
120 0 30 36
33
Doc.dr.sc. Draženka Čizmić – predavanja 2009.g.
Distribucija je blago negativno asimetrična.
Pearsonova mjera:
Bowleyjeva mjera:
MJERA ZAOBLJENOSTI
KOEFICIJENT ZAOBLJENOSTI α4 – njime se mjeri zaobljenost modalnog vrha distribucije. Izračunava se kao omjer četvrtog momenta oko sredine i standardne
devijacije podignute na 4. potenciju
negrupirani podaci
grupirani podaci
- α4 = 3 NORMALNA DISTRIBUCIJA – najvažnija teorijska distribucija
- α4 > 3 šiljatija distribucija od normalne- α4 < 3 plosnatija distribucija od normalne
- α4 ≈ 1.8 pravokutna distribucija- α4 < 1.8 U-distibucija
34
Doc.dr.sc. Draženka Čizmić – predavanja 2009.g.
EKSCES – alternativna mjera zaobljenosti K = 0 ---- normalna distribucija K > 0 ---- šiljatija distribucija K < 0 ---- plosnatija distribucija
Primjer 3. pojedinačni podaci
Distribucija je plosnatija od normalne.
Primjer 4. distribucija frekvencija s razredima
Distribucija je plosnatija od normalne.
10 1612 015 .13 .10 .11 .12 .11 .11 .15 .
120 198
UTROŠENO VRIJEME
BROJ STUDENATA
RAZREDNE SREDINE
10-15 15 12.5 13 301.9215-20 20 17.5 .20-25 30 22.5 .25-30 10 27.5 .
UKUPNO 75 - 80 024.41
35
Doc.dr.sc. Draženka Čizmić – predavanja 2009.g.
MJERE KONCENTRACIJE – njima se mjeri način rasporeda totala po jedinicama niza apsolutne – najčešće se koriste koncentracijski omjeri relativne – najčešće se koristi Ginijev koeficijent
koncentracije
1. KONCENTRACIJSKI OMJER reda r se određuje tako da se zbroj r vrijednosti (od njih N) podijeli sa zbrojem N vrijednosti. Pri tome se pretpostavlja da su podaci poredani od najvećeg prema najmanjem.
Ako se radi o ravnomjernoj raspodjeli, koncentracijski omjer poprima vrijednost od 1 do N.
A ako se radi o maksimalnoj raspodijeli, koncentracijski omjer poprima vrijednost 1.
1) na osi apscisa nalazi se aritmetičko mjerilo za kumulativni niz relativnih frekvencija
2) na osi ordinata nalazi se aritmetičko mjerilo za kumulativni niz proporcija podtotala
3) prva točka ima koordinate (0,0); posljednja točka ima koordinate (1,1); koordinate ostalih točaka određene su vrijednostima članova kumulativnih nizova
4) u grafički prikaz ucrtava se pravac jednolike raspodjele, on prolazi točkama (0,0) i (1,1)
2. GINIJEV KOEFICIJENT – temelj za njegovo utvrđivanje je površina između pravca jednolike raspodjele i Lorenzove krivulje. Što je koncentacija veće to se Lorenzova krivulja više udaljuje od toga pravca
xi - pojedinačne vrijednosti varijable
negrupirani podaci i - redni broj podatka
- podaci moraju biti uređeni od najmanjeg prema najvećem- kreće se u intervalu od 0 do 1 - G = 0 ravnomjerna raspodjela- G = 1 maksimalna koncentracija
- NORMIRANI KOEFICIJENT GINIJA
36
Doc.dr.sc. Draženka Čizmić – predavanja 2009.g.
PREDAVANJE #8
OSNOVNI POJMOVI VJEROJATNOSTI
VJEROJATNOST – brojčana mjera nastanka neizvjesnih, tj. slučajnih događaja. Vjerojatnost nastanka događaja A jednaka je P(A) pri čemu je 0 ≤ P(A) ≤ 1. Nekada se izražava i u obliku postotka.
DEFINICIJE VJEROJATNOSTI
SLUČAJNI POKUS – pokus je slučajan ako se u definiranim uvjetima može ponavljati, ako postoje barem 2 različita ishoda te ako se ishodi ne mogu predvidjeti sa sigurnošću. PROSTOR UZORKA S – skup svih mogućih ishoda slučajnog pokusaSLUČAJNI DOGAĐAJ – jednočlani ili višečlani podskup skupa S te su sa događajima dopuštene skupovne operacije.
1. KLASIČNA DEFINICIJA (vjerojatnost a priori) – pretpostavlja se da se pokus ponavlja konačan broj puta, pri čemu se vjerojatnost određuje kao omjer povoljnog broja
ishoda m i ukupnog broja ishoda n
2. STATISTIČKA VJEROJATNOST (vjerojatnost a posteriori) – broj ponavljanja pokusa je beskonačan, a vjerojatnost se aproksimira relativnom frekvencijom, tj.omjerom apsolutne frekvencije opsega i opsega statističkog skupa.
3. SUBJEKTIVNA VJEROJATNOST – to je broj iz intervala [0,1] određen na temelju prosudbe okolnosti relevantnih za nastup slučajnog događaja.
SVOJSTVA VJEROJATNOSTI:1) vjerojatnost da događaj A neće nastupiti jednaka je P(Ā)=1-P(A)2) vjerojatnost istodobnog nastupa događaja A1 i A2 jednaka je P(A1∩A2)3) ako su događaji međusobno isključivi, vjerojatnost da će nastupiti događaj A1 ili A2
jednaka je P(A1UA2)=P(A1)+P(A2)4) ako događaji nisu međusobno isključivi, vjerojatnost nastupa barem jednog od njih
jednaka je P(A1UA2)=P(A1)+P(A2)-P(A1∩A2)5) ponekad je potrebno odrediti vjerojatnost nastupa događaja A uz uvjet da se
dogodio događaj B. Takva se vjerojatnost naziva uvjetnom vjerojatnošću
6) ako su događaji neovisni tada vrijedi da je P(A∩B)=P(A)P(B)
SLUČAJNA VARIJABLA X – numerička funkcija koja svakom ishodu slučajnog pokusa pridružuje realan broj.
diskretna- ako poprima konačan broj vrijednosti kontinuirana – može poprimiti bilo koju vrijednost iz nekog intervala
DISTRIBUCIJA VJEROJATNOSTI diskretne slučajne varijable – skup uređenih parova različitih vrijednosti slučajne
varijable xi i pripadajućih vjerojatnosti p(xi). Ima slijedeća svojstva:
37
Doc.dr.sc. Draženka Čizmić – predavanja 2009.g.
- p(xi) ≥ 0 - ∑p(xi) = 1
Kumulativna funkcija ili funkcija distribucije F(xi) – pokazuje kolika je vjerojatnost da slučajna
varijabla x poprimi vrijednost xi ili manju. kontinuirane slučajne varijable – opisuje razdiobu vjerojatnosti na intervalu
vrijednosti varijable. Njena svojstva: - f(x) ≥ 0
-
Primjer 1.KVALITETA PROIZVODA
(KLASA)
BROJ PROIZVODA UKUPNODOB A DOB B
I 20 10 30II 10 10 20III 30 20 50
UKUPNO 60 40 100
marginalne vjerojatnosti
a) Kolika je vjerojatnost odabira proizvoda I. klase? P(A1)=0.3b) Kolika je vjerojatnost odabira proizvoda dobavljača B? P(B2) = 0.4c) Kolika je vjerojatnost izbora proizvoda III. klase dobavljača A? P(A3∩B1) = 0.3d) Kolika je vjerojatnost izbora proizvoda I. ili III. klase? P(A1UA3) = P(A1)+P(A3) = 0.3+0.5 = 0.8e) Kolika je vjerojatnost da se izabere proizvod III. klase ili proizvod dobavljača B? P(A3UB2) = P(A3)+P(B2)-P(A3∩B2)= 0.5 + 0.4 – 0.2 =0.7f) Kolika je vjerojatnost izbora proizvoda dobavljača A ako je poznato da je III. klase?
g) Jesu li varijable kvaliteta i dobavljač neovisne? Ako bi varijable kvaliteta i dobavljač bile neovisne, vjerojatnosti bi u polju tabele bile jednake umnošku
marginalnih vjerojatnosti
Budući da je 0.2≠0.18, između kvalitete proizvoda i dobavljača postoji zavisnost.
Primjer 2.
KVALITETA PROIZVODA
(KLASA)
BROJ PROIZVODA UKUPNODOB A
(B1)DOB B
(B2)I (A1) 0.2 0.1 0.3II (A2) 0.1 0.1 0.2III (A3) 0.3 0.2 0.5
UKUPNO 0.6 0.4 1
38
Doc.dr.sc. Draženka Čizmić – predavanja 2009.g.
a) Pokažite da je navedena distribucija, distribucija vjerojatnosti!
DA
b) Odredite očekivanu vrijednost! c) Odredite vrijednosti funkcije distribucije! (tablica)d) Odredite vjerojatnost p(x≤2)!
MODELI DISTRIBUCIJA VJEROJATNOSTI – temelj inferencijalne statistikeDistribucije vjerojatnosti diskretne slučajne varijable: (najčešće se koriste binomna i poissonova)
1. BINOMNA2. POISSONOVA3. HIPERGEOMETRIJSKA4. UNIFORMNA
1. BINOMNA DISTRIBUCIJA – njena je definicija povezana sa Bernaulijevim pokusom. Bernaulijev pokus je slučajni pokus slijedećih svojstava: - ima dva ishoda (uspjeh i neuspjeh)
- vjerojatnost ishoda uspjeh je p, a neuspjeh q=1-p - pokusi su neovisni
n-broj ponavljanja Bernaulijevih pokusa p-vjerojatnst ishoda uspjeh x-slučajni broj ishoda uspjeha Očekivana vrijednost Varijanca
2. POISSONOVA DISTRIBUCIJA – granični slučaj binomne distribucije. Prikladna je za opis rijetkih događaja, tj. događaja koji se javljaju s malom vjerojatnošću.
x-broj povoljnih ishoda
Očekivana vrijednost Varijanca
Primjer 3. Prema raspoloživim podaciima banke u prosjeku 5 stranaka po satu zahtijeva usluge oročavanja depozita. Pretpostavi li se da stranke prispjevaju u banku neovisno, po satima u random vremenu s itom vjerojatnosti, kolika je vjerojatnost da se pred šelterom za oročavanje nađu: (broj stranaka koje u jednom satu za radnog vremena dolaze neovisno i s istom vjerojatnosti diskretna je slučajna varijabla koja se ravna prema Poissonovoj distribuciji s parametrom = 5.)
xi p(xi
)xi
p(xi)F(xi)
0 0.1 0 0.11 0.2 0.2 0.32 0.4 0.8 0.73 0.2 0.6 0.94 0.1 0.4 1.0
UKUPNO
1.0 2.0 -
39
Doc.dr.sc. Draženka Čizmić – predavanja 2009.g.
a) 3 stranke?
b) više od 1 stranke?
PREDAVANJE #9
Distribucije vjerojatnosti kontinuirane slučajne varijable:1. NORMALNA (GAUSSOVA)2. STUDENTOVA (T-DISTRIBUCIJA)3. (HI-KVADRAT)4. F-DISTRIBUCIJA5. UNIFORMNA KONTINUIRANA6. EKSPONENCIJALNA
1. NORMALNA (GAUSSOVA) DISTRIBUCIJA – najvažnija distribucija vjerojatnosti.- dvoparametarska funkcija (određena s 2 parametra) : očekivana vrijednost i varijanca - zvonolika je i simtrična- budući da aritmetička sredina i standardna devijacija ovise o mjernim jedinicama varijable uvodi se
jedinična (standardizirana) normalna distribucija
Jedinična normalna distribucija je tabelirana. U poljima tabele nalaze se površine koje predstavljaju vjerojatnosti. U pred-stupcu tabele su sve vrijednosti izražene kao brojevi s jednom decimalom. Druga decimala nalazi se u zaglavlju.Budući da je distribucija simetrična u tabeli su dane samo vrijednosti z.
označena površina označava vjerojatnost da
slučajna varijabla poprimi vrijednost iz intervala od 0 do z.
Primjer 1.Slučajna varijabla x distribuirana je po normalnoj distribuciji N ( μ,σ2 ). Odredite vjerojatnost da varijabla poprimi vrijednost:
40
Doc.dr.sc. Draženka Čizmić – predavanja 2009.g.
a) μ-σ < x < μ+σ
Kažemo da je 68.26% vjerojatno da će slučajna varijabla z zauzeti vrijednosti između -1 i 1 ili da će slučajna varijabla x zauzeti vrijednost između μ-σ i μ+σ.
41
Doc.dr.sc. Draženka Čizmić – predavanja 2009.g.
b) μ-2σ < x < μ+2σ
Kažemo da je 95,44% vjerojatno da će slučajna varijabla z zauzeti vrijednost između -2 i 2 ili da će slučajna varijabla x zauzeti vrijednost između μ-2σ i μ+2σ.
2. STUDENTOVA DISTRIBUCIJA- njen oblik je određen veličinom n- za n>30 (veliki uzorak) distribucija se po obliku približava normalnoj distribuciji- za n<30 (mali uzorak) distribucija je više razvučena na obje strane uzduž apscise - i ona je zvonolika i simetrična te tabelirana- u pred-stupcu tablice nalaze se stupnjevi slobode, u zaglavlju su vjerojatnosti. U poljima tabele su kritične vrijednosti.
Vjerojatnost da će slučajna varijabla koja se ravna po Studentovoj distribuciji poprimiti vrijednost veću od tα
iznosi α.
Primjer 2. Slučajna varijabla t distibuirana je po Studentovoj distribuciji s 8 stupnjeva slobode. Odredite slijedeće vjerojatnosti:a) P (t ≤ 1.397)
b) P (t ≤ -1.397)
42
Doc.dr.sc. Draženka Čizmić – predavanja 2009.g.
43
Doc.dr.sc. Draženka Čizmić – predavanja 2009.g.
OSNOVNI POJMOVI INFERENCIJALNE STATISTIKE
INFERENCIJALNA STATISTIKA – skup analitičkih metoda koje polaze od uzorka.. Budući da se zaključci donose na temelju dijela podataka oni sadrže pogrešku nastalu zbog primjene uzorka (Sampling error).
Faktori koji uvjetuju primjenu uzorka su slijedeći:1. pojedini konačni skupovi sadrže veliki broj članova pa bi njihovo istraživanje
zahtijevalo velika financijska sredstva2. do rezultata se dolazi u kraćem vremenu3. uzorak se primjenjuje kada bi se istraživanjem uništio čitav statistički skup
(npr.istraživanje trajnosti električnih žarulja)4. beskonačni skupovi istražuju se isključivo metodom uzorka (pr.beskonačnog
skupa:proizvodnja)
Dvije su osnovne zadaće metode uzorka:1. procjenjivanje parametra2. testiranje hipoteza
PLAN UZORKA – plan izbora jedinica u uzorak. Osnovna svrha plana je izbor reprezentativnog uzorka, tj. uzorak mora biti umanjena slika osnovnog skupa.S obzirom na način izbora jedinica uzorka razlikuju se namjerni i slučajni uzorci.
1. namjerni uzorci – jedinice uzorka izabiru se prema odluci istraživača prigodni uzorak – ispituju se dostupne jedinice (npr.javno mišljenje) uzorak izabran na temelju prosudbe istraživača – istraživač izabire
reprezentativne jedinice pri čemu je potrebno da dobro poznaje osnovni skup
kvotni uzorak – anketari se slobodno odlučuju za jedinice u sklopu kvota Namjerni uzorci jednostavni su za primjenu te se često koriste. Analiziraju se metodama deskriptivne statistike. Nedostatak: nije moguće izračunati grešku nastalu zbog primjene uzorka.
2. slučajni uzorci – svaki elemnt ima vjerojatnost izbora veću od nule. Kod ovih uzoraka moguće je izračunati grešku. Analiziraju se metodama inferencijalne statistike.
jednostavni slučajni uzorak – svaki element ima jednaku vjerojatnost izbora. primjenjuje se kod homogenih skupova.
stratificirani uzorak – prikladniji je kod skupova koji pokazuju veći stupanj varijabilnosti. Jedinice se izabiru iz homogenih dijelova osnovnog skupa koji se nazivaju STRATUMI.
uzorak skupina – u uzorak se ne izabiru pojedini elementi nego njihove skupine.
Ponekad se primjenjuje sistematski izbor (npr.ako iz skupa od 10 000 članova biramo uzorak veličine 1000 birat ćemo svaki 10. član). Budući da se radi o slučajnom uzorku potrebno je odrediti slučajni početak.
44
Doc.dr.sc. Draženka Čizmić – predavanja 2009.g.
OKVIR IZBORA – popis članova statističkog skupa (npr.birački popis)
45
Doc.dr.sc. Draženka Čizmić – predavanja 2009.g.
PREDAVANJE #10
SAMPLING DISTRIBUCIJA – teorijska distribucija vjerojatnosti procjenitelja parametra. Zasniva se na konceptu ponovljenih izbora slučajnih uzoraka iz danog osnovnog skupa pri čemu različiti uzorci dovode do različitih vrijednosti procjena.
Primjer 1.Vrijednosti numeričke varijable x koje tvore osnovni skup su 1, 3 i 5. Iz skupa se izabiru uzorci veličine n=2. Izbor je s jednakom vjerojatnošću svakog elementa skupa odnosno svakog uzorka.
aritmetička sredina osnovnog skupa (μ)
standardna devijacija osnovnog skupa
vrijednosti varijabla
elemenata u uzorku
1 ; 1 1 ; 3 1 ; 5 3 ; 3 3 ; 1 3 ; 5 5 ; 1 5 ; 3 5 ; 5
aritmetička sredina uzorka
1 2 3 3 2 4 3 4 5
Provest ćemo izbor s ponavljanjem – izbor u kojem se svaki izabrani element za uzorak nakon izbora vraća u osnovni skup i tako sudjeluje u izboru sljedećeg elementa za uzorak.Budući da je vjerojatnost izbora svakog slučajnog uzorka veličine n=2 jednaka, iznosi 1/9, distribucija je sredina:
sampling distribucija
Očekivana vrijednost sampling distribucije aritmetičkih sredina uzoraka jednaka je aritmetičkoj sredini osnovnog skupa. Standardna devijacija sampling distribucije sredina prosječno je odstupanje aritmetičkih sredina od aritmetičke sredine osnovnog skupa.
aritmetička sredina uzorka
1 1/9 1/92 2/9 4/93 3/9 9/94 2/9 8/95 1/9 5/9
ukupno 1 27/9=3
46
Doc.dr.sc. Draženka Čizmić – predavanja 2009.g.
Ona izražava pogrešku koja nastaje zbog primjene uzorka, stoga se naziva standardnom pogreškom aritmetičke sredine.
47
Doc.dr.sc. Draženka Čizmić – predavanja 2009.g.
PROCJENE PARAMETARA – parametar se procjenjuje brojem i intervalom. Intervalna procjena sastoji se od određivanja granica u kojima će se naći nepoznati parametar.
- karakteristika uzorka, a ujedno i procjena broja - karakteristika osnovnog skupa koja se procjenjuje (npr. aritmetička sredina, total i
proporcija) Procjenitelj :
nepristran – ako je njegova očekivana vrijednost jednaka parametru koji se procjenjuje
konzistentan – ako njegova standardna devijacija s porastom uzorka teži nuli
PROCJENA ARITMETIČKE SREDINE – može biti brojem i intervalom procjena brojem – jednaka je aritmetičkoj sredini uzorka intervalna procjena za veliki uzorak (n>30) – koristi se normalna distribucija
(Gaussova)
aritmetička sredina uzorka
koeficijent pouzdanosti koji se određuje na temelju
površina ispod normalne krivulje standardna pogreška procjene aritm.sredine aritmetčka sredina osnovnog skupa,a ujedno i parametar koji se procjenjuje razina signifikantnosti
intervalna promjena za mali uzorak (n≤30) – koristi se Studentova T – distribucija
-koeficijent pouzdanosti koji se određuje na temelju
studentove distribucije
Primjer 2.Odredite vrijednost standardne pogreške procjene aritmetičke sredine osnovnog skupa za ove slučajeve:a) Procjenjuje se sredina konačnog skupa od 125 768 članova pomoću slučajnog uzorka veličine 1250 članova. Standardna devijacija osnovnog skupa iznosi 64.
N-broj elemenata osnovnog skupa n-broj elemanata uzorka
Frakcija izbora (f) pokazuje da je u uzorak izabrano približno 1% osnovnog skupa.
48
Doc.dr.sc. Draženka Čizmić – predavanja 2009.g.
b) Sredina se procjenjuje pomoću slučajnog uzorka veličine 600 formiranog izborom svakog desetog člana konačnog osnovnog skupa, a varijanca skupa iznosi 100.
c) Uzorak veličine 36 izabran je iz beskonačnog osnovnog skupa N(μ, 52) beskonačni skup f<0.05 (kad u zadatku nemamo N pretpostavljamo da je skup beskonačan i f<0.05)
d)
- nepristrani procjenitelj standardne devijacije populacije
(osnovnog skupa)
e) Veličina je uzorka 256 i čini 2% osnovnog skupa, a standardna devijacija uzorka je 32.s – standardna devijacija uzorka
faktor korekcije
Primjer 3.Tvrtka isporučuje vijke pakovanih po 100 komada. Kupac je primio pošiljku od 10000
49
Doc.dr.sc. Draženka Čizmić – predavanja 2009.g.
pakovanja. Radi kontrole izabran je slučajni uzorak od 60 pakovanja. Kontrolom je ustanovljen slijedeći broj neispravnih vijaka po pakovanju: 4, 3, 3, 1, 3,…. Njihov zbroj je
117.
Procjenite brojem i intervalom prosječan broj neispravnih vijaka po pakovanju za cijelu pošiljku. Razina povjerenja je 95%.
procjena brojem – procjenitelj aritmetičke sredine je aritmetička sredina uzorka
procjena prosječnog broja neispravnih vijaka po pakovanju
intervalni procjenitelj
0.95:2 = 0.4750z(P=0.4750) = 1.96
Kako nije poznata standardna devijacija osnovnog skupa potrebno je izračunati njezinu procjenu pomoću podataka iz uzorka.
Interpretacija: S vjerojatnošću od 0.95 odnosno 95% očekuje se da će se prosječan broj neispravnih vijaka po pakovanju kretati između 0.68471 i 2.21529.
Primjer 4.Ispituje se prosječno trajanje pozivnih telefonskih razgovora preko telefonske centrale poduzeća Market. Trajanje u minutama 10 slučajno odabranih razgovora iz evidencije 8967 razgovora bilo je slijedeće:xi : 2 1 1 2 3 4 2 1 1 3
50
Doc.dr.sc. Draženka Čizmić – predavanja 2009.g.
Pretpostavlja se da je trajanje pozivnih razgovora na centrali normalno distribuirano s nepoznatom aritmetičkom sredinom i nepoznatom standardnom devijacijom.Odredite granice za koje se može očekivati da obuhvaćaju prosječno trajanje razgovora za osnovni skup. Pouzdanost procjene je 90%.
koeficijent pouzdanosti t određuje se pomoću tablice studentove T-distribucije.
S vjerojatnošću od 90% očekuje se da će se prosječno trajanje razgovora za osnovni skup kretati između 1.38901 i 2.61099.
PREDAVANJE #11
PROCJENA TOTALA OSNOVNOG SKUPA
TOTAL – zbroj vrijednosti numeričkog obilježja. Taj je parametar povezan s aritmetičkom sredinom.
Zbog toga se postupak procjenjivanja totala svodi na postupak procjenjivanja aritmetičke sredine.
procjena totala brojem -
51
Doc.dr.sc. Draženka Čizmić – predavanja 2009.g.
-
intervalna procjena za veliki uzorak -
- koeficijent pouzdanosti
- standardna pogreška procjene totala - razina pouzdanosti (povjerenja)
intervalna procjena za mali uzorak – kao koeficijent korisnosti koristi se .
ODREĐIVANJE VELIČINE UZORKA ZA PROCJENU ARITMETIČKE SREDINE OSNOVNOGA SKUPAVeličina uzorka ovisi o slijedećim elementima:
1. vrsti osnovnog skupa (konačan ili beskonačan)2. razini pouzdanosti procjene3. željenoj pouzdanosti procjene4. stupnju varijabilnosti podataka
PRETHODNA VELIČINA UZORKA n0 :
ako su pogreška (d) i stupanj varijabilnosti izraženi apsolutno:
ako su pogreška (dr) i stupanj varijabilnosti izraženi relativno:
KONAČNA VELIČINA UZORKA:
frakcija:
Primjer 1.U grafičkoj djelatnosti zaposlena su 9 754 zaposlenika. Koliko zaposlenika treba izabrati u uzorak pomoću kojega se procjenjuje prosječni radni staž svih zaposlenika. Procjenjuje se s 95% pouzdanosti. Tolerira se pogreška od najviše ±0.5 godine. Pretpostavlja se da je σ osnovnog skupa 6 godina.
52
Doc.dr.sc. Draženka Čizmić – predavanja 2009.g.
Prema navedenim uvjetima u uzorak treba izabrati 523 zaposlenika. PROCJENA PROPORCIJE OSNOVNOG SKUPA
PROPORCIJA OSNOVNOG SKUPA – parametar koji predstavlja omjer broja članova osnovnog skupa s određenim modalitetom obilježja i opsega statističkog skupa
procjenitelj procjene brojem: m - broj elemenata s određenim modalitetom
obilježja u uzorku n - broj elemenata uzorkaSampling distribucija proporcija uzoraka ima oblik binomne ili hipergeometrijske distribucije. Za dovoljno veliki uzorak aproksimira se normalnom distribucijom.
intervalna procjena za veliki uzorak:
p-proporcija osnovnog skupa
TESTIRANJE HIPOTEZA O PARAMETRU
STATISTIČKA HIPOTEZA – tvrdnja o veličini parametra ili o obliku distribucije osnovnog skupa čija se istinitost ispituje pomoću slučajnog uzorka.TESTIRANJE STATISTIČKIH HIPOTEZA – postupak kojim se donosi odluka o prihvaćanju ili ne prihvaćanju tvrdnje.
STATISTIČKI TESTOVI: parametarski – polazi se od danog oblika numeričke varijable u osnovnom skupu neparametarski
Svaki postupak testiranja polazi od nulte (H0) i alternativne hipoteze (H1)
U postupku donošenja odluka mogu se pojaviti dvije vrste pogrešaka: POGREŠKA TIPA I – nastaje ako se odbaci istinita nulta hipoteza POGREŠKA TIPA II – nastaje ako se prihvati lažna nulta hipoteza
RAZINA ZNAČAJNOSTI (RAZINA SIGNIFIKANTNOSTI) α – vjerojatnost odbacivanja istinite nulte hipotezeβ – vjerojatnost prihvaćanja lažne nulte hipotezeSNAGA TESTA (1-β)– vjerojatnost odbacivanja lažne nulte hipoteze
53
Doc.dr.sc. Draženka Čizmić – predavanja 2009.g.
TESTIRANJE HIPOTEZA O PRETPOSTVLJENOJ VRIJEDNOSTI ARITMETIČKE SREDINE OSNOVNOG SKUPA – ovo se testiranje provodi na temelju slučajnog uzorka od N članova
N > 30 veliki uzorak – TEST VELIKIM UZORKOMN ≤ 30 mali uzorak – TEST MALIM UZORKOM
Testiranje se provodi u slijedećim koracima:1. postavljanje hipoteza2. identificiranje izraza za testnu veličinu i određivanje njene vrijednosti3. odabir razine signifikantnosti i određivanje kritičnih granica4. donošenje odluke
Test može biti: dvosmjeran jednosmjeran (na donju ili na gornju granicu)
Odluka se može donijeti na iduće načine: pomoću kritičnih granica Z-test ; T-test pomoću empirijske razine signifikantnosti tj. p-vrijednosti
DVOSMJERNI TEST – nije ograničen smjer odstupanja. Pretpostavka je da je aritmetička sredina jednaka pretpostavljenoj. Pretpostavka se formulira kao nulta hipoteza.
Primjer 2.Prema standardu prosječna trajnost električnih žarulja od 75W iznosi 2000 h s prosječnim odstupanjem 250 h. Iz serije žarulja izabran je, uz frakciju izbora manju od 5%, slučajni uzorak 64 žarulje. Ispitivanjem je ustanovljeno da je prosječna trajnost žarulja u uzorku 1935 h. Može li se prihvatiti pretpostavka da je uzorak izabran iz osnovnog skupa kojemu je aritmetička sredina prema standardu tj.2000 h. testirati na razini značajnosti 5%.
veliki uzorak normalna distribucija
Koeficijent značajnosti za danu razinu značajnosti određuje se pomoću površina ispod normalne krivulje. Postupak određivanja toga koeficijenta jednak je postupku određivanja koeficijenta povjerenja pri procjeni parametra. Međutim koeficijent značajnosti odražava razinu značajnosti tj. vjerojatnost pogreške tipa I., a koeficijent povjerenja razinu povjerenja procjene.
54
Doc.dr.sc. Draženka Čizmić – predavanja 2009.g.
1.
Ove kritične granice izražene su u mjernim jedinicama varijable.
ODLUKA:
Na danoj razini značajnosti odbacuje se nulta hipoteza tj. ne prihvaća se pretpostavka da je uzorak izabran iz skupa žarulja s prosječnom trajnošću 2000 h.
2. Z-testtest veličina ( empirijski z-omjer)
ODLUKA:
3. Pomoću empirijske razine signifikantnosti tj. p-vrijednostiTeorijska razina signifikantnosti sastavni je element. Ona predstavlja odabranu vjerojatnost odbacivanja istinite nulte hipoteze.Empirijska razina signifikantnosti ili opažena razina signifikantnosti (p-vrijednost) vjerojatnost je odbacivanja istinite nulte hipoteze izračunata pomoću podataka iz uzorka odnosno test veličina (empirijskog z odnosno t omjera)
ODLUKA:
JEDNOSMJERNI TEST NA GORNJU GRANICU - od interesa je promatrati odstupanje na više. Pretpostavlja se da je aritmetička sredina osnovnog skupa veća od pretpostavljene. Pretpostavka se formulira kao alternativna hipoteza. (“više od”, “najmanje”, “barem”)
55
Doc.dr.sc. Draženka Čizmić – predavanja 2009.g.
Primjer 3.Radi povećanja produktivnosti strojeva predložena je njihova preinaka. Prema proračunima preinaka je poslovno opravdana ako se postigne povećan broj operacija po satu i ako u prosjeku iznosi više od 120. Na jednom stroju provedena je preinaka i evidentiran je broj operacija po satu 144 mjerenja. Prosječan broj operacija po satu iznosi je 125. Zbroj kvadrata vrijednosti mjerenja iznosi 2 307 600. Do kojeg se zaključka dolazi na temelju provedenog ispitivanja? Vjerojatnost odbacivanja istinite nulte hipoteze iznosi 5%.
1. pomoću kritičnih granica
ODLUKA:
Odstupanje aritmetičke sredine uzorka na više značajno je pa se prihvaća pretpostavka da je preinaka strojeva opravdana.
2. Z-test
ODLUKA:
3. pomoću empirijske razine signifikantnosti tj. p-vrijednost
ODLUKA:
56
Doc.dr.sc. Draženka Čizmić – predavanja 2009.g.
57
Doc.dr.sc. Draženka Čizmić – predavanja 2009.g.
PREDAVANJE#12
JEDNOSMJERNI TEST NA DONJU GRANICU – od interesa je promatrati odstupanje na niže. Pretpostavlja se da je aritmetička sredina osnovnog skupa manja od pretpostavljene. Pretpostavka se formulira kao alternativna hipoteza. (“manje od”, “najviše”, “ne više od”)
Primjer 1.Poslovodstvo banke odlučilo je promijeniti programsku potporu šalterskog poslovanja kako bi se smanjio prosječni utrošak vremena obrade naloga stranaka i time skratilo vrijeme čekanja stranaka. Analizom je utvrđeno da se promjena potpore isplati ako prosječno vrijeme obrade iznosi najviše 30 sekundi po nalogu. Razvojna služba banke izradila je programsku potporu koja se testira u odabranom broju poslovnica. Na temelju podataka o trajanju obrade pomoću nove programske potpore za 453 slučajno odabrana naloga izračunano je prosječno utrošeno vrijeme po nalogu koje iznosi 28 sekundi s prosječnim odstupanjem 4 sekunde. Do kojeg se zaključka dolazi na temelju provjere rada s novim programom? Testirati na razini značajnosti 2%.
Uzorak je velik pa koristimo normalnu distribuciju.
1. pomoću kritične granice
ODLUKA:
Odstupanje aritmetičke sredine uzorka naniže je značajno na danoj razini signifikantnosti pa se zaključuje da nova programska potpora skraćuje vrijeme obrade naloga.
2. Z-testtest veličina (empirijski z-omjer) je:
ODLUKA:
58
Doc.dr.sc. Draženka Čizmić – predavanja 2009.g.
Empirijski z-omjer manji je od teorijske vrijednosti pa se na danoj razini signifikantnosti odbacuje nulta hipoteza.
TESTIRANJE HIPOTEZA O RAZLICI ARITMETIČKIH SREDINA DVAJU OSNOVNIH SKUPOVA NEZAVISNIM UZORCIMA
Uzorci su nezavisni ako rezultati opažanja i mjerenja u jednome uzorku ne ovise o rezultatima opažanja i mjerenja u drugome uzorku, npr. ispitivanje efikasnosti rada radnika u dvije tvornice.
Uzorci su zavisni ako se vrijednosti iz uzorka dobivaju ponovljenim opažanjem odnosno mjerenjem odabrane varijable na istim jedinicama u različitim vremenskim terminima, npr. mjerenje efikasnosti rada radnika u istoj tvornici prije i nakon provedenog programa stručnog usavršavanja.
DVOSMJERNI TEST – pretpostavlja se da su aritmetičke sredine osnovnih skupova jednake (μ1,μ2). Pretpostavka se formulira kao nulta hipoteza.
Primjer 2.Pomoću uzorka se ispituje razlika u prosječnoj mjesečnoj potrošnji mlijeka četveročlanih kućanstava u dva naselja. U naselju Lug je 2500 četveročlanih kućanstava, a u naselju Gaj 2000. Kod četveročlanih kućanstava u naselju Lug izabrano je u uzorak svako 50. kućanstvo, a od ukupnog broja četveročlanih kućanstava u naselju Gaj u uzorak je izabrano 2% kućanstava. Na temelju podataka iz uzorka kućanstava naselja Lug utvrđena je prosječna mjesečna potrošnja po kućanstvu 53 litre s prosječnim odstupanjem od 1 litre. Pomoću vrijednosti iz uzorka kućanstava iz naselja Gaj utvrđena je prosječna mjesečna potrošnja po kućanstvu 50 litara s prosječnim odstupanjem od 1.41 litre. Može li se prihvatiti pretpostavka da se prosječna mjesečna potrošnja mlijeka četveročlanih kućanstava u naseljima Lug i Gaj signifikantno ne razlikuju? Razini signifikantnosti je 3%.
standardna pogreška za velike uzorke:
59
Doc.dr.sc. Draženka Čizmić – predavanja 2009.g.
1. pomoću kritičnih granica
test veličina:
ODLUKA:
Ne može se prihvatiti pretpostavka da se prosječna mjesečna potrošnja mlijeka četveročlanih kućanstava u naselju Lug i Gaj signifikantno se ne razlikuju.
2. Z-testtest veličina (empirijski z-omjer)
ODLUKA:
JEDNOSMJERNI TEST NA GORNJU GRANICU – pretpostavlja se da je aritmetička sredina prvog osnovnog skupa veća od aritmetičke sredine drugog osnovnog skupa. Pretpostavka se formulira kao alternativna hipoteza.
Primjer 3.Ispituje se pretpostavka da su prosječni izdaci za odjeću poljoprivrednih kućanstava veći od prosječnih izdataka za odjeću nepoljoprivrednih kućanstava. U tu svrhu odabrani su slučajni uzorci od po 500 kućanstava. Promatrani su godišnji izdaci.
poljoprivredna kućanstva nepoljoprivredna kućanstva
60
Doc.dr.sc. Draženka Čizmić – predavanja 2009.g.
standardna pogreška za velike uzorke:
1. pomoću kritične granice
test veličina: ODLUKA:
Ne može se prihvatiti pretpostavka da su prosječni izdaci za odjeću poljoprivrednih kućanstava veči od prosječnih izdataka za odjeću nepoljoprivrednih kućanstava.
2. Z-testtest veličina (empirijski z-omjer)
ODLUKA:
3. pomoću empirijske razine signifikantnosti (p-vrijednost)
ODLUKA:
JEDNOSMJERNI TEST NA DONJU GRANICU – pretpostavlja se da je aritmetička sredina prvog osnovnog skupa manja od aritmetičke sredine drugog osnovnog skupa. Pretpostavka se formulira kao alternativna hipoteza.
Primjer 4.Ispituje se tvrdnja da su maloprodajne cijene prehrambenih proizvoda niže u diskontima nego u klasičnim prodavaonicama. U tu su svrhu odabrani slučajni uzorci od 50 maloprodajnih cijena u diskontima i 80 maloprodajnih cijena u klasičnim prodavaonicama. Uzorci cijena prikupljeni su u istom vremenskom razdoblju i za isti prehrambeni proizvod.
61
Doc.dr.sc. Draženka Čizmić – predavanja 2009.g.
diskonti klasične prodavaonice
Može li se na osnovi podataka iz uzorka zaključiti da je prosječna maloprodajna cijena prehrambenih proizvoda niža u diskontima nego u klasičnim prodavaonicama? Razina signifikantnosti je 1%.
standardna pogreška za velike uzorke:
1. Z-testtest veličina (empirijski z-omjer)
ODLUKA:
Može se prihvatiti pretpostavka da je prosječna maloprodajna cijena prehrambenih proizvoda niža u diskontima nego u klasičnim prodavaonicama.
PREDAVANJE #13
REGRESIJSKA ANALIZA – njom se ispituje ovisnost jedne varijable o drugoj varijabli ili o više drugih varijabli, npr.proizvodnja o broju zaposlenih, potrošnja o visini plaće
ZAVISNA VARIJABLA – varijabla čije se varijacije objašnjavaju NEZAVISNE VARIJABLE – varijable kojima se objašnjavaju varijacije zavisne varijableREGRESIJSKI MODEL – jednadžba ili skup jednadžbi s konačnim brojem parametara i varijabli
linearni nelinearni
62
Doc.dr.sc. Draženka Čizmić – predavanja 2009.g.
MODEL JEDNOSTAVNE LINEARNE REGRESIJE – njime se izražava odnos među dvjema pojavama. Model sadrži jednu zavisnu i jednu nezavisnu varijablu. Primjenjuje se za varijable koje su u linearnom statističkom odnosu.
DESKRIPITVNO STATISTIČKA ANALIZA MODELA JEDNOSTAVNE LINEARNE REGRESIJEopći oblik modela jednostavne regresije:f(x) – funkcionalni dio modelae – stohastička varijabla koja odražava nesistemske utjecaje na zavisnu varijablu
Ako je funkcionalni dio modela oblika model postaje: Ako su a i b procjene nepoznatih parametara α i β, a ui procjene nepoznatih vrijednosti varijable e, model se može izraziti na slijedeći način:
linearna regresijska jednadžba:
Do procjene a i b dolazi se primjenom metode najmanjih kvadrata:
KONSTANTNI ČLAN a - predstavlja vrijednost regresije u slučaju kada je nezavisna varijabla jednaka nuliREGRESIJSKI KOEFICIJENT b - pokazuje za koliko se u prosjeku mijenja zavisna varijabla ako se nezavisna varijabla poveća za jedinicu.
JEDNADŽBA ANALIZE VARIJANCE
ST – ukupan zbroj kvadrataSP – protumačeni zbroj kvadrataSR – rezidualni ili neprotumačeni zbroj kvadrata
- empirijske ili stvarne vrijednosti zavisne
varijable - aritmetička sredina zavisne varijable
- regresijske vrijednosti
Osnove za mjerenje reprezentativnosti regresije su rezidualna odstupanja.Varijanca regresije aritmetička je sredina kvadrata rezidualnih odstupanja:
63
Doc.dr.sc. Draženka Čizmić – predavanja 2009.g.
Standardna devijacija regresije:
Koeficijent varijacije regresije:
Standardna devijacija regresije interpretira se kao prosječno odstupanje empirijskih vrijednosti od regresijskih izraženo apsolutno. Koeficijent varijacije je to isto odstupanje izraženo relativno.
Specifičan pokazatelj reprezentativnosti regresije je koeficijent determinacije:
Regresija je to reprezentativnija što se koeficijent determinacije više približava jedinici.
KORELACIJSKA ANALIZA – njome se određuju jakosti veze. Mjera jakosti veze je koeficijent korelacije.Koeficijent korelacije drugi je korijen iz koeficijenta determinacije:
Ako je koeficijent korelacije jednak nula, među pojavama ne postoji veza.Ako je koeficijent korelacije jednak -1, veza je potpuna i negativnog smjera.Ako je koeficijent korelacije jendak +1, veza je potpuna i pozitivnog smjera.
Primjer 1.U 6 prodavaonica na području A registriran je slijedeći broj zaposlenih i ostvareni promet u tisućama kn.
broj zaposleni
h
promet
2 25 4 625 503 31 9 961 938 85 . . .4 51 . . .7 69 . . .6 65 . . .30 326 178 20 398 1900
a) Odredite status varijabli u modelu! Zavisna varijabla (y) – promet u tisućama kuna Nezavisna varijabla (x) – broj zaposlenih
b) Nacrtajte dijagram rasipanja! Konstruira se u pravokutnom koordinatnom sustavu. Na osi-x nalazi se aritmetičko mjerilo za nezavisnu varijablu (x), a na osi-y mjerilo za zavisnu varijablu (y). Predstavlja pomoćno sredstvo za izbor oblika
64
Doc.dr.sc. Draženka Čizmić – predavanja 2009.g.
funkcije u modelu.
Iz dijagrama rasipanja se zaključuje o :1. obliku veze – oblik veze je linearan2. smjeru veze – smjer je pozitivan3. jakosti veze – veza je relativno jak
c) Kako glasi linearna regresijska jednadžba s procijenjenim parametrima?
Interpretacija: a (konstantni član) – Kada je broj zaposlenih jednak 0 regresijska vrijednost ukupnog prometa je 6.08 tisuća kuna. b (regresijski koeficijent) – Ako se broj zaposlenih poveća za jednu osobu tada će se ukupan promet povećati linearno i u prosjeku za 9.65 tisuća kuna.
d) Odredite regresijske vrijednosti i vrijednosti rezidualnih odstupanja te relativnih rezidualnih odstupanja! Regresijske vrijednosti određuju se tako da se u regresijsku jednadžbu redom uvrštavaju stvarne vrijednosti nezavisne varijable.
Interpretacija: Za dva zaposlena očekivana vrijednost ukupnog prometa iznosi 25.38 tisuća kuna.
65
Doc.dr.sc. Draženka Čizmić – predavanja 2009.g.
Rezidualna odstupanja izračunavaju se tako da se od stvarne varijable oduzme pripadajuća regresijska vrijednost :
Relativna rezidualna odstupanja definiraju se izrazom:
Interpretacija: Prema regresiji za 2 zaposlena precijenjen je ukupan promet za 0.38 tisuća kuna ili 1,52%.
e) Regresijski pravac ucrtajte u dijagram rasipanja!f) Kolika varijanca, standardna devijacija i koeficijent varijacije regresije?
Prosječno odstupanje empirijskih vrijednosti prometa od regresijskih vrijednosti iznosi 3.67 tisuća kuna ili relativno 6.76%
g) Izračunajte vrijednosti članova u jednadžbi raščlambe zbroja kvadrata odstupanja vrijednosti zavisne varijable od njezine aritmetičke sredine! (jednadžba analize varijance)
h) Odredite koeficijent determinacije i koeficijent linearne korelacije!
Interpretacija: Linearnom regresijskom vezom protumačeno je 97% svih odstupanja. Na temelju toga može se zaključiti da je model reprezentativan.
66
Doc.dr.sc. Draženka Čizmić – predavanja 2009.g.
koeficijent determinacije
apsolutna vrijednost koeficijenta linearne
korelacije
tumačenje
0 0 odsutnost korelacije0,00-0,25 0,00-0,50 slaba korelacija0,25-0,64 0,50-0,80 korelacija srednje jačine
0,64-1 0,80-1 čvrsta korelacija1 1 potpuna korelacija
(perfektna)
Radi se o čvrstoj korelaciji pozitivnog smjera
i) Koliko iznosi korigirani koeficijent determinacije?
j) Sastavite tabelu ANOVA! Tabela ANOVA za jednostavnu regresiju:
izvor varijacije
stupnjevi slobode
zbroj kvadrata
sredina kvadrata
empirijski t-omjer
protumačen modelom
11
SP2606.59
SP/12606.59 128.85
neprotumačena
(rezidualna) odstupanja
n-24
SR80.92
SR/(n-2)20.23
/
UKUPNO n-15
ST2687.51
/ /
PREDAVANJE #14
INFERENCIJALNO-STATISTIČKA ANALIZA MODELA JEDNOSTAVNE LINEARNE REGRESIJE – empirijske vrijednosti zavisne varijable smatraju se uzorkom iz zamišljenoga beskonačnoga osnovnog skupa. U sklopu inferencijalno-statističke analize provodi se procjenjivanje parametara i testiranje hipoteza.
model osnovnog skupa (populacije): α i β – nepoznati parametri populacijee – nepoznate vrijednosti slučajne varijable
model uzorka: - procjene nepoznatih parametara
- procjene nepoznatih vrijednosti slučajne varijable
67
Doc.dr.sc. Draženka Čizmić – predavanja 2009.g.
Procjene parametara brojem u sklopu inferencijalne statistike jednake su procjenama u sklopu deskriptivne statistike, tj.
procjena varijance brojem:
procjena standardne devijacije:
intervalna procjena parametra β:
mali uzorak
veliki uzorak
Primjer 1.
Dana je regresijska jednadžba :
U kojim se granicama može očekivati da će se naći parametar β? Pouzdanost procjene je 95%, a n=25.
Uz pouzdanost od 95% očekuje se da će se nepoznati parametar naći unutar ovih granica.
TESTIRANJE HIPOTEZA U MODELU JEDNOSTAVNE LINEARNE REGRESIJE – može se provesti na više ekvivalentnih načina:
1. F-TEST
ili alternativno (češće)
test veličina (empirijski f-omjer) :
Odluka se donosi usporedbom empirijskog f-omjera sa teorijskom vrijednošću koja se očitava iz tablica.
2. T-TEST
test veličina (empirijski t-omjer) :
68
Doc.dr.sc. Draženka Čizmić – predavanja 2009.g.
Odluka se donosi usporedbom empirijskog t-omjera sa teorijskom vrijednošću koja se očitava iz tablica.Test se može provesti kao dvosmjerni ili jednosmjerni (na donju ili gornju granicu). Ako je β<0 jednosmjerni test na donju granicu
Ako je β>0 jednosmjerni test na gornju granicu
Primjer 2.
Dana je regresijska jednadžba:
Može li se prihvatiti pretpostavka da je varijabla x suvišna u modelu? Testirati na razini 5% signifikantnosti. n=25. Primjenite t-test.
dvosmjerni test
ODLUKA:
Nezavisna varijabla x nije suvišna u modelu.
MODEL VIŠESTRUKE REGRESIJE (MULTIPLA REGRESIJA) – njime se izražava ovisnost jedne varijable o više drugih varijabli.
ANALIZA MODELA VIŠESTRUKE LINEARNE REGRESIJE
model osnovnog skupa (populacije): model uzorka: alternativno linearna regresijska jednadžba s procijenjenim parametrima:
Za procjenjivanje parametra koristi se metoda najmanjeg kvadrata.- konstantni član – predstavlja vrijednost regresije kada su nezavisne varijable jednake
0.- regresijski koeficijent – pokazuje za koliko se u prosjeku mijenja zavisna varijabla ako
se nezavisna varijabla xj poveća za jedan uz uvjet da ostale nezavisne varijable ostanu nepromijenjene.
REGRESIJSKE VRIJEDNOSTI – određuju se uvrštavanjem vrijednosti nezavisnih varijabli u regresijsku jednadžbu.REZIDUALNA ODSTUPANJA – odstupanja empirijskih vrijednosti od regresijskih izražena apsolutno
RELATIVNA REZIDUALNA ODSTUPANJA -
69
Doc.dr.sc. Draženka Čizmić – predavanja 2009.g.
STANDARDIZIRANA REZIDUALNA ODSTUPANJE -
NEPRISTRANA PROCJENA VARIJANCE BROJEM -
INTERVALNE PROCJENE PARAMETARA -
KOEFICIJENT VIŠESTRUKE DETERMINACIJE - opći pokazatelj
kvalitete modelaModel je to reprezentativniji što je koeficijent determinacije bliže jedinici.
TESTIRANJE HIPOTEZA O MODELU VIŠESTRUKE REGRESIJE – najčešće se koriste slijedeći testovi:
1. PARCIJALNI TEST – testira se značajnost podskupa nezavisne varijable
2. POJEDINAČNI TEST – testira se značajnost jedne nezavisne varijable. Može se
provesti i kao f-test i kao t-test3. SKUPNI TEST – testira se značajnost svih nezavisnih varijabli u
modelu. Uvijek se provodi kao f-test.
U hipotezi H0 stoji da nijedna nezavisna varijabla nije značajna za model. U hipotezi H1 stoji da je barem jedna nezavisna varijabla značajna za model.
Test veličina je empirijski f-omjer iz tabele ANOVA.Odluka se donosi usporedbom empirijskog f-omjera sa teorijskom vrijednošću koja se očitava iz tablica.
TABLICA ANOVA ZA VIŠESTRUKU REGRESIJU:
izvor varijacije
stupnjevi slobode
zbroj kvadrat
a
sredine kvadrata
empirijski f-
omjerprotumačen
modelomk SP
neprotumačena modelom (rezidualna) odstupanja
n-(k+1) SR /
ukupno n-1 ST / /
70
Doc.dr.sc. Draženka Čizmić – predavanja 2009.g.
k – broj nezavisnih varijabli
ukupna odstupanja: empirijske vrijednosti od prosjekaprotumačena odstupanja: regresijske vrijednosti od prosjekaneprotumačena odstupanja: empirijske vrijednosti od regresijskih
PREDAVANJE #15
MODELI VREMENSKIH SERIJA – njima se opisuje razvoj pojava u vremenu.
Vremenska serija se može raščlaniti na slijedeće komponente: KOMPONENTA TRENDA – predstavlja osnovnu tendenciju razvoja pojave u
vremenu. Izražava se nekom funkcijom vremena. S obzirom na tu funkciju vremena trend može biti linearni i eksponencijalni.
SEZONSKA KOMPONENTA – posljedica je klimatskih faktora, ritma, proizvodnje, potrošnje… Očituje se onda kada se vremenska pojava obnavlja na približno isti način unutar jedne godine.
CIKLIČKA KOMPONENTA – očituje se onda kada se vremenska pojava obnavlja na približno isti način s periodom od 2 ili više godine.
SLUČAJNA (STOHASTIČKA) KOMPONENTA – odražava nesistematske utjecaje na pojavu
opći oblik aditivnog modela: Y – pojava koju promatramo T – vrijednost komponente trenda C – vrijednost cikličke komponente S – vrijednost sezonske komponente e – vrijednost slučajne komponente
U kratkom vremenskom razdoblju trend i ciklus komponente se ne razdvajaju pa se model može pisati:
ili T – komponenta trend ciklusa
opći oblik multiplikativnog modela:
MODELI TRENDA – njima se statistički opisuje dugoročna kovarijacija pojave sa vremenom
1. ADITIVNI MODEL: 2. MULTIPLIKATIVNI MODEL:
71
Doc.dr.sc. Draženka Čizmić – predavanja 2009.g.
3. MODEL LINEARNOG TRENDA:
4. MODEL EKSPONENCIJALNOG TRENDA:
Primjer 1. Linearni trendModel linearnog trenda identičan je modelu jednostavne linearne regresije u kojemu je vrijeme nezavisna varijabla. Prikladan je kada se vremenska pojava mijenja od razdoblja do razdoblja za približno isti apsolutni iznos, tj. kada su prve diferencije približno konstantne.
Stanovništvo SAD-a u milijunima, stanje sredinom godinegodin
astanovništ
voprve
diferencije
varijabla
vrijeme
trend vrijedno
sti
rezidualna
odstupanja
1992 255 - 1 255 1 65025 255.32 -0.321993 258 3 2 516 4 . 257.93 0.071994 261 3 3 . . . 260.53 0.471995 263 2 4 . . . 263.13 -0.131996 266 3 5 . . . 265.73 0.271997 268 2 6 . . . 268.33 -0.33ukupn
o1571 - 21 5544 91 41145
91571.00 0.00
a) Odredite vrijednosti prvih diferencija! Što se zaključuje na temelju grafa i prvih diferencijacija?
Ako su prve diferencije približno konstantne radi se o linearnom trendu.
b) Procijenite parametre modela linearnog trenda metodom najmanjih kvadrata! Varijabla vrijeme – koliko podataka imamo toliko brojeva poprima (1,….,n)
jednadžba linearnog trenda:
Interpretacija: a (konstantni član) = 252.716
72
Doc.dr.sc. Draženka Čizmić – predavanja 2009.g.
Vrijednost trenda broja stanovnika za godinu koja prethodi prvoj godini u nizu tj.za 1991. iznosi 252.716 milijuna.
b (koeficijent linearnog trenda) = 2.604 Pokazuje prosječnu linearnu pojavu razine pojave za jedinični porast vrijednostii varijable vrijeme, dakle broj stanovnika povećavao se u prosjeku linearno 2.604 milijuna godišnje
c) Odredite trend vrijednosti! Računaju se uvrštavanjem varijable vrijeme u jednadžbu trenda. Procjena broja stanovnika prema trendu za 1992. iznosi 255.32 milijuna.
d) Odredite rezidualna osdtupanja i protumačite im značenje!
za malu decimalu se može razlikovati od 0 zbog
zaokruživanja Interpretacija: Stvarni broj stanovnika zta 1992.g. iznosi 255 milijuna, a vrijednost trenda broja stanovnika za tu godinu 255.32 milijuna. Razlika predstavlja rezidualno odstupanje, tj. prema trendu broj stanovnika je precijenjen za 0.32 milijuna
e) Formulirajte tabelu ANOVA!
izvor
varijacijestupnjev
i slobode
zbroj kvadrat
a
sredina kvadrata
empirijski f-omjer
protumačen modelom
k1
SP123.72
SP/k123.72 88.37
neprotumačena
odstupanja
n-(k+1)4
SR5.59
SR/n-(k+1)1.40
/
ukupno n-15
ST129.31
/ /
f) Izračunajte varijancu, standardnu devijaciju i koeficijent varijacije trenda! to su mjere reprezentativnosti trenda.
Interpretacija:
73
Doc.dr.sc. Draženka Čizmić – predavanja 2009.g.
Prosječno odstupanje stvarnog broja stanovnika od vrijednosti trenda iznosi 0.30 milijuna ili relativno 0.11%. Na temelju ovih pokazatelja može se zaključiti da je reprezentativnost trenda velika.
Primjer 2. Eksponencijalni trendPrikladan je kada se vremenska pojava mijenja od razdoblja do razdoblja za približno isti relativni iznos, tj. kada su verižni indeksi približno konstantni.primjer eksponencijalnog trenda
Logaritamskom transformacijom model eksponencijalnog trenda svodi se na model linearnog trenda. U linegriziranom modelu se umjesto originalnih vrijednosti koriste njihovi logaritmi.
Interpretacija:a (konstantni član)To je trend vrijednost za razdoblje prije prvoga.
b (koeficijent eksponencijalnog trenda)Pokazuje za koliko će se puta promijeniti trend vrijednost ako se varijabla vrijeme poveća za 1.
74