analiza i prikazivanje podataka - naslovnica | pmf · najomiljenijoj vrsti vo´ca. njihovi odgovori...
TRANSCRIPT
Analiza i prikazivanje podataka
prof.dr.sc. Sanja Varosanec
23.9.2012.
1
HNOS (iz 2006.)
Kljucni pojmovi: obiljezje skupa podataka, frekven-cija i relativna frekvencija, tablicni prikaz, stupcasti di-jagram, kruzni dijagram
Obrazovna postignuca: prepoznati obiljezje skupapodataka
odredivati vrijednosti tog obiljezja,prikazivati prikupljene podatke pomocu tablice frekven-
cije i relativne frekvencije,graficki pomocu stupcastog i kruznog dijagramaizracunavati aritmeticku sredinuinterpretirati rezultate.
2
NOK 1. ciklus
Ucenici ce:– prikupiti, razvrstati i organizirati podatke koji proi-
zlaze iz svakodnevnoga zivota te ih prikazati jednostavnimtablicama, piktogramima (slikovnim dijagramima) i stupcastimdijagramima
– procitati i protumaciti podatke prikazane jednos-tavnim tablicama, piktogramima i stupcastim dijagramima
3
NOK 2. ciklus
Ucenici ce:– prikupiti, razvrstati i organizirati podatke te ih na
prikladan nacin prikazati tablicom, tablicom frekvencija,piktogramom, stupcastim i kruznim dijagramom te sus-tavnom listom
– procitati i protumaciti podatke prikazane tablicama,slikama, listama te razlicitim grafovima i dijagramima
– odrediti i primijeniti aritmeticku sredinu, raspon imedijan niza numerickih podataka
4
NOK 3. ciklus
Ucenici ce:– prikupiti, klasificirati i organizirati podatke te ih na
prikladan nacin, pomocu racunala i bez njega, prikazatisustavnom listom, tablicom, tablicom frekvencija, lin-ijskim, stupcastim i kruznim dijagramom, grafikonom,brkatom kutijom (box and whiskers dijagram) i grafom
– procitati, tumaciti i analizirati podatke prikazanena razlicite nacine
– odrediti i primijeniti frekvenciju i relativnu frekven-ciju za dane podatke te aritmeticku sredinu, medijan,kvartile, mod, raspon i interkvartilni raspon niza nu-merickih podataka
5
Ucenicka postignuca na kraju cetvrtogodgojno-obrazovnog ciklusa
(srednjoskolsko strukovno obrazovanje)
Ucenici ce:J1. prikupiti, klasificirati i organizirati podatke, te
ih na prikladan nacin, pomocu racunala i bez njega,prikazati za potrebe statisticke analize,
J2. procitati, tumaciti i analizirati podatke prikazanena razlicite nacine,
J3. odrediti i primijeniti srednje vrijednosti (arit-meticka sredina, medijan, mod) i rasprsenost (raspon,interkvartilni raspon) niza numerickih podataka,
J4. rabiti jednostavne racunalne programe za statistickuobradu podataka.
6
Ucenicka postignuca na kraju cetvrtogodgojno-obrazovnog ciklusa
(srednjoskolsko gimnazijsko obrazovanje)
Ucenici ce:J1. sustavno prikupiti, klasificirati i organizirati po-
datke, te ih prikazati i analizirati pomocu srednjih vrijed-nosti (aritmeticka sredina, medijan, mod) i rasprsenosti(raspon, interkvartilni raspon, standardna devijacija),
J2. procijeniti parametar srednje vrijednosti uz zadanipouzdani interval
J3. prepoznati pribliznu linearnu vezu dviju vari-jabli, odrediti njezine koeficijente, te ju rabiti pri mod-eliranju,
J4. interpretirati slozene dogadaje pomocu skupovnihoperacija te izracunati njihovu vjerojatnost,
J5. primijeniti normalnu razdiobu.
7
Medicinske skole - novi program od 2012.2013.1. razred Ucenici ce:- prikupiti podatke iz primarnih izvora pomocu up-
itnika i eksperimenta, biljezeci opazanja, mjerenja i/ilirezultate, te raspraviti je li metoda prikupljanja podatakavaljana
- prikupiti podatke iz sekundarnih izvora (tzv. sekun-darni podatci)
- razvstati i organizirati diskretne (npr. krvna grupa,spol, boja ociju) i kontinuirane (npr. visina, tjelesnamasa, temperatura) primarne i sekundarne podatke
- prikazati podatke na primjeran nacin pomocu tablicei kruznog dijagrama te stupcastog dijagrama i histogramas pravilno oznacenim osima, nazivima, skalama te razred-ima jednake sirine
- procitati, protumaciti i donijeti zakljucke o pri-marnim i sekundarnim podatcima prikazanima tablicom,dijagramom (ukljucujuci stupcasti dijagram, visestrukistupcasti dijagram, kruzni dijagram) i drugim grafickimprikazima
- odrediti i primijeniti srednje vrijednosti (aritmetickasredina, medijan, mod) niza numerickih podataka
- prikupiti, organizirati, prikazati i protumaciti po-datke iz svakodnevnog zivota, drugih nastavnih pred-meta i zdravstvene struke
- rabiti dzepno racunalo i primjenski program za izraduproracunskih tablica za organizaciju i prikazivanje po-dataka.
8
2. razred Ucenici ce:- radeci timski, isplanirati, organizirati i provesti statisticko
istrazivanje- prikazati podatke pomocu tablice, kruznog i stupcastog
dijagrama, histograma i linijskog dijagrama (razloml-jenog - diskretni podatci na x-osi, a kontinuirani na y-osi;kontinuirani podatci na obje osi)
-procitati, protumaciti i donijeti zakljucke o primarnimi sekundarnim podatcima prikazanim tablicom, dijagramom(ukljucujuci stupcasti dijagram, dvostruki stupcasti di-jagram, kruzni dijagram, linijski dijagram, percentilnukrivulju) i drugim grafickim prikazima
- odrediti, usporediti i protumaciti srednje vrijednosti(aritmeticka sredina, medijan, mod, kvartili, percentili)i mjere rasprsenosti (raspon, interkvartilni raspon) nizanumerickih podataka
9
- protumaciti utjecaj dodavanja ili uklanjanja jednogili vise podataka na srednje vrijednosti niza numerickihpodataka
- usporediti slicnosti i razlike izmedu dva srodna skupapodataka rabeci razne strategije (npr. prikazivanjem po-dataka pomocu tablica crtica ili visestrukog stupcastogdijagrama; usporedbom srednjih vrijednosti i mjera rasprsenosti;opisujuci oblik grafickog prikaza podataka)
- prepoznati grafove u kojima se manipulira podatcima(npr. grafove koji prenaglasuju promjenu pocinjuci navertikalnoj osi od tocke pridruzene broju vecem od nule)
- razlikovati reprezentativni uzorak, slucajni uzoraki populaciju
- protumaciti trendove u podatcima- rabiti dzepno racunalo i primjenski program za izradu
proracunskih tablica za organizaciju i prikazivanje po-dataka.
10
Statisticki skup ili populacija je skup istovrsnihelemenata.
Primjeri: skup svih ucenika jednog razrednog odjela,skup svih zaposlenih stanovnika RH na dan 1.10.2011.
Statisticko obiljezje je ono svojstvo elemenatapopulacije po kojem se ti elementi razlikuju i nalikuju.
Primjeri: spol, strucna sprema, mjesto rodenja, nacinstudiranja, ocjena na ispitu, povrsina stana
Vrijednosti obiljezja - stanja koja to obiljezje mozeimati
11
Vrste podataka: primarni i sekundarni
Klasifikacija obiljezja:
- kategorijalna obiljezja - nominalna i redoslijedna(ordinalna, rangirana)
- numericka - diskretna i kontinuirana
12
Faze statisticke djelatnosti
- statisticko promatranje (mjerenje, brojenje, ocjen-jivanje, opazanje, evidencija, anketiranje)
- klasificiranje (grupiranje)- analiza
13
Vrste podataka
Primjer 1.1. (kategorijsko nominalno obiljezje)Prosli tjedan u Zavodu za transfuziju 50 je osoba dobro-voljno dalo krv. Svakom je davatelju odredena krvnagrupa i dobiven je ovaj niz podataka
A A B 0 B AB 0 0 0 00 0 B AB AB 0 0 B A AA 0 0 0 B 0 0 A A AB B 0 A 0 A 0 0 0 00 0 0 A B 0 0 0 B 0
tip krvne grupe broja osoba kojeimaju taj tip grupe (frekvencija)
0 27A 11B 9
AB 3
14
Primjer 1.2. (kategorijsko rangirano (redosli-jedno) obiljezje) Na ispitu znanja iz matematike ucenici1.b razreda postigli su sljedece rezultate: ocjenu odlicandobilo je 3 ucenika, ocjenu vrlo dobar 9 ucenika, ocjenudobar 9 ucenika, ocjenu dovoljan 5 ucenika, a ocjenu ne-dovoljan 4 ucenika.
Prikazimo te podatke u tablici i odredimo frekvencijupojedine ocjene.
Sto je obiljezje, a sto vrijednost obiljezja?
ocjena broj ucenika
odlican 3vrlo dobar 9
dobar 9dovoljan 5
nedovoljan 4
15
Primjer 1.3. (numericko diskretno obiljezje)Bolnicki je administrator pregledavajuci kartone paci-jenata primljenih na bolnicko lijecenje u rujnu dobiosljedeci niz podataka koji sadrzi broj dana provedenihna bolnickom lijecenju:
6 3 2 4 4 6 6 6 2 1 1 3 3 8 53 4 4 5 6 1 2 9 7 3 2 2 6 6 6
broj dana broj pacijenata koji subolnickog lijecenja proveli u bolnici taj broj dana
1 32 53 54 45 26 87 18 19 1
16
Primjer 1.4. (numericko kontinuirano obiljezje)Ucenicima 1.a razreda izmjerena je visina i dobiveni suovi podatci (iskazani u centimetrima):
182 153 164 173 184 175 180 155201 177 180 183 186 188 182 178169 168 173 159 152 162 163 185
17
Razredi
Grupiranje u 6 razreda jednake sirine.Vrijednosti ima 201 − 152 + 1 = 50.
50 : 6 = 8.3,
broj 8.3 zaokruzimo na 9. Sirina razreda je 9.
visina x ucenika (u cm) frekvencija
152 ≤ x ≤ 160 4161 ≤ x ≤ 169 5
170 ≤ x ≤ 178 5179 ≤ x ≤ 187 8188 ≤ x ≤ 196 1197 ≤ x ≤ 205 1
18
precizne granice razreda
visina ucenika (u cm) precizne granice frekvencijarazreda
152 − 160 151.5 − 160.5 4161 − 169 160.5 − 169.5 5170 − 178 169.5 − 178.5 5179 − 187 178.5 − 187.5 8188 − 196 187.5 − 196.5 1197 − 205 196.5 − 205.5 1
19
peteljka-list dijagram (”stem-leaf” dijagram ili STdijagram)
15 235916 2348917 3357818 0022345681920 1
Legenda: 15|2=152 cm
20
Graficki prikaz pomocu piktograma:Primjer 1.1.
tip krvne grupe broja osoba kojeimaju taj tip grupe (frekvencija)
0 27A 11B 9
AB 3
SLIKA
21
Primjer 2.1. Ucenici 1a razreda anketirani su onajomiljenijoj vrsti voca. Njihovi odgovori i frekvencijesvakog od voca dani su u ovoj tablici:
najomiljenija broj ucenika kojimavrsta voca je to voce najomiljenije
jabuke 6kruske 2narance 4banane 9sljive 4
Prikazimo ove podatke graficki.
22
Stupci mogu biti polegnuti i vodoravno.
23
najomiljenija broj ucenika relativna relativnavrsta voca kojima je to voce frekvencija frekvencija
(frekvencija) najomiljenije u %
jabuke 6 0.24 24%kruske 2 0.08 8%narance 4 0.16 16%banane 9 0.36 36%sljive 4 0.16 16%
Stupcasti dijagram relativnih frekvencija
Korelacija: proporcionalnost, postotci
24
Primjer 2.2. Podatke o dobrovoljnim davateljimakrvi iznesenima u Primjeru 1.1 pomocu kruznog dija-grama.
tip krvne grupe frekvencija
0 27A 11B 9
AB 3zbroj: 50
27 : 50 = α : 360◦
α =27 · 360◦
50α = 194.4◦
25
Korelacija: proporcionalnost, krug, kut
26
Histogram - spojeni stupci cija je povrsina pro-porcionalna frekvencijama, odnosno relativnim frekven-cijama.
Primjer 2.3. Ispitujuci kolicinu lijekova koje dnevnouzimaju pacijenti, doslo se do sljedecih podataka o brojulijekova u obliku tableta koje svaki dan uzimaju pacijentibolnickog odjela:
broj tableta broj pacijenatakoje se uzimaju svakodnevno koji uzimaju taj broj lijekova
1 242 433 124 25 1
a) Izracunajmo relativne frekvencije danih podataka.b) Prikazimo ih graficki.
27
broj tableta broj pacijenata (fi) relativne frekvencije
1 24 2482
= 29.3%
2 43 4382
= 52.4%
3 12 2482
= 14.6%
4 2 2482
= 2.4%
5 1 2482
= 1.2%
28
broj precizne granice sredina frekvencijetableta razreda razreda
1 0.5 – 1.5 1 242 1.5 – 2.5 2 433 2.5 – 3.5 3 124 3.5 – 4.5 4 25 4.5 – 5.5 5 1
29
30
31
Primjer 2.4. Prikazimo stupcastim i linijskim dija-gramom, te histogramom podatke dane u primjeru 1.4.
visina precizne granice frekvencija sredinaucenika razreda razreda
152 − 160 151.5 − 160.5 4 156
161 − 169 160.5 − 169.5 5 165170 − 178 169.5 − 178.5 5 174179 − 187 178.5 − 187.5 8 183188 − 196 187.5 − 196.5 1 192197 − 205 196.5 − 205.5 1 201
32
Za histogram su potrebne i korigirane relativne frekven-cije (gustoca). To je kvocijent relativne frekvencije isirine razreda. Dodamo jos dva stupca.
visina precizne granice frek. sredina rel. korig.ucenika razreda razreda frek. rel. frekv.
152 − 160 151.5 − 160.5 4 156 424
4216
161 − 169 160.5 − 169.5 5 165 524
5216
170 − 178 169.5 − 178.5 5 174 524
5216
179 − 187 178.5 − 187.5 8 183 824
8216
188 − 196 187.5 − 196.5 1 192 124
1216
197 − 205 196.5 − 205.5 1 201 124
1216
33
34
Visestruki stupcasti dijagrami
35
Aritmeticka sredina, medijan i modAritmeticka sredina
x =x1 + x2 + . . . + xn
n.
Tezinska (vagana, ponderirana) aritmeticka sredina
x =f1x1 + f2x2 + . . . + fkxk
n.
Zaokruzuje se na jedno decimalno mjesto vise od onogakako su dani podaci.
Primjer 3.4. Mjereno je vrijeme (u satima) tra-janja baterija tipa AA. Dobiveni su podatci grupirani u7 razreda i dani su u tablici frekvencija. Izracunajmoprosjecno vrijeme trajanja baterija.
vrijeme trajanja u satima Broj baterijaprecizne granice razreda (frekvencija)
25.5 – 85.5 2585.5 – 145.5 128145.5 – 205.5 423205.5 – 265.5 398265.5 – 325.5 154325.5 – 385.5 73
36
precizne granice broj baterija sredina razreda xifi
razreda (frekvencija) fi xi
25.5 – 85.5 25 55.5 1387.5
85.5 – 145.5 128 115.5 14784145.5 – 205.5 423 175.5 74236.5205.5 – 265.5 398 235.5 93729265.5 – 325.5 154 295.5 45507325.5 – 385.5 73 355.5 25951.5
Ukupno: 1201 255595.5
x =x1f1 + . . . + xnfn
n=
255595.5
1201≈ 212.81890
x = 212.8
37
Medijan je broj koji se u nizu podataka poredanihpo velicini nalazi u sredini.
Primjer 3.5. Odredimo medijan nizovaa) 35, 38, 47, 49, 52, 56, 60;b) 35, 38, 47, 49, 52, 56.Rjesenje. a) Niz ima 7 brojeva. Sredina niza je
cetvrti broj. M = 49.b) Niz ima 6 clanova i sredina se nalazi izmedu treceg
i cetvrtog clana.
M =47 + 49
2= 48.
38
Kada imamo neparan broj podataka, tj. kad ih ima2k − 1, tada je medijan jednak k-tom podatku, tj.
M = xk.
Kada imamo paran broj podataka, tj. kad ih ima2k, tada je medijan jednak aritmetickoj sredini k-tog i(k + 1)-ovog podatka, tj.
M =xk + xk+1
2.
39
Mod je jednak podatku koji se javlja najveci brojputa (ali vise od jedanput).
Primjer 3.6. Odredite mod niza podataka danihpeteljka-list dijagramom:
2 0012393 0044557774 011122223755 1235788
Legenda: 2|0 = 20.
Broj 42 se u dijagramu pojavljuje 4 puta, a svi ostalibrojevi se pojavljuju manje puta. Mo = 42.
unimodalna, bimodalna, visemodalna razdioba
40
Primjer 3.8. Ucenici 1.a razreda su na pitanje ko-liko imaju brace i sestara dali ove odgovore
broj brace i sestara broj ucenika koji imajutoliki broj brace i sestara (fi)
0 121 82 23 14 2
x =0.12 + 1.8 + 2.2 + 3.1 + 4.2
25= 0.9.
Mo = 0, tj. u 1.a razredu najvise ucenika nema nibrata ni sestru.
41
Mjere varijabilnosti ili rasprsenja - raspon, va-rijanca i standardna devijacija
σ2 =(x1 − x)2 + (x2 − x)2 + . . . (xn − x)2
n.
σ =
√(x1 − x)2 + (x2 − x)2 + . . . (xn − x)2
n.
Unutar dvije standardne devijacije oko aritmetickesredine nalazi se 75% podataka. Barem 88.89% podatakase nalazi unutra 3 standardne devijacije oko aritmetickesredine.
42
Standardna vrijednost ili z-vrijednost podatka xi jebroj z1 definiran kao
zi =xi − x
σ
Taj nam broj kazuje za koliko standardnih devijacija jepodatak xi udaljen od aritmeticke sredine niza.
43
Primjer 4.1 Ucenici 1a razreda pisali su test iz hrvatskogjezika i iz matematike. Test iz hrvatskog jezika imao jearitmeticku sredinu 40 i standardnu devijaciju 10, dok jetest iz matematike imao aritmeticku sredinu 25 i stan-dardnu devijaciju 5. Marko je na testu iz hrvatskog os-vojio 50 bodova, dok je na testu iz matematike osvojio35 bodova. Na kojem je testu postigao bolji uspjeh?
Rjesenje.
zH =xi − x
σ=
50 − 40
10= 1,
Markov se rezultat iz testa iz hrvatskog nalazi 1 stan-dardnu devijaciju od aritmeticke sredine.
zM =xi − x
σ=
35 − 25
5= 2,
Markov se rezultat iz matematike nalazi 2 standardnedevijacije od aritmeticke sredine.
44
Kvartili i percentiliDonji kvartil (u oznaci Q1) je ona vrijednost nu-
merickog obiljezja koja sve podatke dijeli na jednu cetvrtinupodataka i oni su jednaki ili manji od donjeg kvartila, ina tri cetvrtine podataka, koji su jednaki ili veci od don-jeg kvartila.
Gornji kvartil (u oznaci Q3) je ona vrijednost nu-merickog obiljezja koja sve podatke dijeli na tri cetvrtinepodataka i oni su jednaki ili manji od gornjeg kvartila, ina cetvrtinu podataka, koji su jednaki ili veci od gornjegkvartila.
Interkvartilni raspon ili krace interkvartil (u oz-naci IQR) je razlika izmedu gornjeg i donjeg kvartila.
45
Primjer 5.1. Odredimo medijan, kvartile i interk-vartilni raspon nizova podataka:
a) 51, 62, 78, 94, 96, 99, 105b) 4, 6, 12, 13, 15, 17, 22, 45.a) n = 7, M = 94.
Donji je kvartil medijan niza 51, 62, 78. Medijan togpodniza je 62, tj. Q1 = 62.
Gornji kvartil je medijan niza onih brojeva koji suveci od medijana, tj. Q3 = 99.
Interkvartilni je raspon jednak IQR = 99 − 62 = 37.b) n = 8, M = 13+15
2= 14.
Donji kvartil je medijan niza 4,6,12,13, Q1 = 6+122
=9.
Gornji kvartil je medijan niza 15,17,22,45, a to jeQ3 = 17+22
2= 19.5.
Interkvartilni je raspon jednak IQR = 19.5 − 9 =10.5.
46
Q1 =
xk+1 ako n4
nije cijeli i k je cijeli dio broja n4
xk + xk+1
2ako je n
4cijeli i k = n
4
Q3 =
xk+1 ako 3n4
nije cijeli i k je cijeli dio broja 3n4
xk + xk+1
2ako je 3n
4cijeli i k = 3n
4
47
Dijagram pravokutnika (eng. box-plot diagram,eng. box and whisker diagram, brkata kutija).
51, 62, 78, 94, 96, 99, 105
Q1 = 62, M = 94, Q3 = 99, IQR = Q3 − Q1 = 37.
32IQR = 37·3
2= 55.6,
Q1 − 32IQR = 62 − 55.5 = 6.5
Q3 + 32IQR = 99 + 55.5 = 154.5
Granice (6.5, 154.5) - brkovi.
48
4,6,12,13,15,17,22,45,
Q1 = 9, M = 14, Q3 = 19.5, IQR = Q3 − Q1 = 10.5.
Granice brkova su Q1 − 32IQR = 9 − 15.75 = −6.75
i Q3 + 32IQR = 35.25.
45 > 35.25 outlier.
49
Percentili
Pp =
xk+1 ako pn100
nije cijeli i k je cijeli dio broja pn100
xk + xk+1
2ako je pn
100cijeli i k = pn
100
Q1 = P25, M = P50, Q3 = P75
Primjer 5.2. Odredimo 40. percentil ovog niza po-dataka
51, 62, 78, 94, 96, 99, 105.
Podataka ima 7.Broj pn
100= 40·7
100= 2.8 nije cijeli broj.
Njegov cijeli dio je 2, a uvecamo li ga za 1 dobivamo3.
P40 = 78.
50
Primjer 5.4. Promotrimo podatke dane u Primjeru3.4. i odredimo medijan, kvartile i 15. percentil tihpodataka.
vrijeme trajanja u satima Broj baterijaprecizne granice razreda (frekvencija)
25.5 – 85.5 25
85.5 – 145.5 128145.5 – 205.5 423205.5 – 265.5 398265.5 – 325.5 154325.5 – 385.5 73
51
precizne granice razreda broj baterija kumulativne
(frekvencija) relativne frekvencije
25.5 – 85.5 25 251201
= 2.08%
85.5 – 145.5 128 1531201
= 12.74%
145.5 – 205.5 423 5761201
= 47.96
205.5 – 265.5 398 9741201
= 81.1%
265.5 – 325.5 154 11281201
= 93.92%
325.5 – 385.5 73 1 = 100%
52
Kumulativne relativne frekvencije -
Baterije
0 2.08
12.74
47.96
81.1
93.92100
0
20
40
60
80
100
120
25
.5
85
.5
14
5.5
20
5.5
26
5.5
32
5.5
38
5.5
trajanje baterija u satima
ku
m.re
l.fr
ek
v.u
%
53
T1(205.5, 47.96) i T2(265.5, 81.1).
y − y1 =y2 − y1
x2 − x1
(x − x1)
y − 47.96 =81.1 − 47.96
265.5 − 205.5(x − 205.5)
y − 41.96 =33.14
60(x − 205.5)
y = 0.5523x − 65.54
Za y = 50 x = 209.2 = MZa y = 75 x = 254.5, tj. Q3 = 254.5.
54