primena statistike u konstruisanju · mogućnosti interpertacije empirijske raspodele pouzdanosti...
TRANSCRIPT
Osnovne statističke veličine u
konstruisanju
• Srednja vrednost
• Medijana
• Moda
• Mera rasipanja oko srednje vrednosti –
disperzija
• Granice poverenja
Osobine numeričkih podataka-
mere
3
aritmetička
srednja vrednost
medijana
modus
Numeričko opisivanje podataka
varijansa
standardna devijacija
koeficijent varijacije
raspon
interkvartilini raspon
geometrijska
srednja vrednost
zakrivljenost
Centralna
tendencija
Varijacija Asimetrija Kvartili
zašiljenost
Osobine numeričkih podataka
4
Centralna tendencija
(lokacija centra)
Varijacija (Rasipanje)
Asimetrija
5
Mere centralne tendencije
Centralna tendencija
Aritmetička
srednja vrednost
Medijana Modus Geometrijska
srednja vrednost
N
x
x
N
1i
i
n/1n21G )xxx(x
sredina rangiranih vrednosti
najfrekventnija vrednost
Srednja vrednost
• Slučajne veličine: diskretne (prekidne) i
kontinualne (neprekidne).
f(t)
f(t)
t
t
a
b
Funkcija raspodele slučajne
veličine: a) kontinualne; b) diskretne
Srednja vrednost
• Srednja vrednost populacije (m), odnosno
nezavisno promenljive t čija je gustina
raspodele data funkcijom f(t) određena je
izrazom:
ni
i
iii tptm1
)( Za diskretne veličine
dttftm )( Za kontinualne veličine
ti – srednja vrednost diskretne slučajne veličine
p(ti)– verovatnoća realizacije veličine ti
• Ako populacija ima ograničen broj uzoraka kao
dela cele populacije, srednju vrednost
posmatrane slučajne promenljive predstavlja
aritmetička sredina:
n– ukupan broj podataka
Ova srednja vrednost je utoliko bliža srednjoj
vrednosti cele populacije ukoliko je broj posmatranih
podataka veći.
n
t
m
ni
i
i
1
9
Aritmetička srednja vrednost
(average, mean)
• Najčešće korišćena mera
• Ponaša se kao ”ravnotežna tačka”
• Na njenu vrednost utiču ekstremne vrednosti (”outliers”)
• Izražava se u istim jedinicama kao i osnovni podaci
• Izraz za izračunavanje:
N
xxx
N
xx N21
broj podataka dobijena vrednost
10
Aritmetička srednja vrednost
0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10
srednja vrednost = 3
35
15
5
54321
4
5
20
5
104321
srednja vrednost = 4
Uticaj ekstremnih vrednosti
11
Prosta srednja vrednost vs.
ponderisana – težinska srednja vrednost
• Ponderisana aritmetička srednja vrednost izračunava se kada su podaci prikazani kao frekvence:
• Ako su podaci grupisani u klasne intervale, ponderisana srednja vrednost se izračunava:
i
i
f
xfx
i
is
f
)x(fx
12
Geometrijska srednja vrednost
• n-ti koren proizvoda svih članova skupa
• Primer: 1,2,3,10
• Gx = 4-ti koren iz 60 = 2.78
• II način izračunavanja Gx:
1. logaritmovanje svakog broja u skupu
2. računanje aritmetičke sredine tih logaritama
3.dizanje osnove logaritma (ln-2.718 ili log-10)
na izračunatu aritmetičku sredinu logaritama
(korak 2)
13
Medijana (Me)
• Medijana je centralna vrednost u nizu podataka
– 50% vrednosti je iznad, 50% ispod medijane
• Pre određivanje medijane podaci se urede po veličini
• Na Me ne utiču ekstremne vrednosti
0 1 2 3 4 5 6 7 8 9 10
medijana = 3
0 1 2 3 4 5 6 7 8 9 10
medijana = 3
14
Određivanje medijane
• Pozicija medijane (u uređenim podacima):
• Ako je broj podataka neparan, medijana je vrednost u sredini niza
• Ako je broj podataka paran, medijana je srednja vrednost dve vrednosti u sredini niza (između N/2 i (N+2)/2)
• Napomena:
– izraz nije vrednost medijane, već redni broj vrednosti koja predstavlja medijanu
2
1Nmedijanepozicija
2
1N
Medijana
• Označava vrednost nezavisno promenljive, čija je
kumulativna verovatnoća realizacije 0.5 (jednaka
verovatnoći da će bilo koji rezultat biti manji ili veći
od 0.5 – 50%).
Za kontinualne veličine
Medijana
50
)(5.0
t
dttf
f(t)
tt50
50% 50%
16
Moda - Modus (Mo)
• Vrednost koja se pojavljuje najčešće
• Na Mo ne utiču ekstremne vrednosti
• U skupu može biti jedan ili više modusa
• Skup može biti bez modusa
• Mo može da se odredi i za numeričke i kategoričke
podatke
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14
modus = 9
0 1 2 3 4 5 6
nema modusa
Moda
• Vrednost slučajne veličine koja odgovara najvećoj
verovatnoći njene realizacije, bez obzira da li je
diskretna ili kontinualna.
Za kontinualne veličine
Moda
0)(
dt
tdf
f(t)
t
19
Skale merenja- mere centralne
tendencije
• intervalna/skala odnosa - x, Me, Mo
• ordinalna – Me, Mo
• nominalna – samo Mo!!!
20
Kvartili • Kvartili dele skup uređenih podataka na četiri
jednaka dela
• Pozicione veličine
25% 25% 25% 25%
Q1 Q2 Q3
25% 25% 25%
Prvi kvartil, Q1 – 25% vrednosti su manje od Q1 Drugi kvartil, Q2 = medijana Treći kvartil, Q3 = 25% vrednosti su veće od Q1 Q1 i Q3 nisu mere centralne tendencije
21
Određivanje kvartila
• Pozicija (redni broj vrednosti) prvog
kvartila:
Q1 = (N+1)/4
• Pozicija (redni broj vrednosti) drugog
kvartila:
Q2 = (N+1)/2
• Pozicija (redni broj vrednosti) trećeg
kvartila:
Q3 = 3(N+1)/4
gde je N ukupan broj podataka
22
Percentili
Pozicija percentila:
• Prvi percentil P1: odvaja 1% vrednosti
• Q1 = P25
• Q2 = Me = P50
• Q3 = P75
)1N(100
PNP
23
Mere varijacije
isti centar,
različita varijacija
Mere varijacije daju informaciju
o rasipanju ili varijabilnosti
podataka
varijacija
varijansa standardna
devijacija
koeficijent
varijacije
raspon interkvartilni
raspon
24
Raspon • Najjednostavnija mera varijacije
• Raspon – razlika između najveže i najmanje vrednosti
u skupu
raspon = xmax – xmin
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14
raspon = 14 - 1 = 13
primer:
25
Nedostatak raspona • Ignoriše oblik raspodele podataka
• Osetljiv na ekstremne vrednosti
7 8 9 10 11 12
raspon = 12 - 7 = 5
7 8 9 10 11 12
raspon = 12 - 7 = 5
1, 1, 1, 1, 1, 1, 1, 1, 1,1,1, 2, 2, 2, 2, 2, 2, 2, 2, 3, 3, 3, 3, 4, 5
1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 3, 3, 3, 3, 4, 120
raspon = 5 - 1 = 4
raspon = 120 - 1 = 119
26
Varijansa
• Prosečno (približno) kvadratno odstupanje vrednosti od srednje vrednosti
– Izraz za izračunavanje:
– N – 1 – broj stepena slobode
1-N
)x(x
V
n
1i
2i
Disperzija
• Mera rasipanja promenljive t oko ose srednje
vrednosti.
Za diskretne veličine
ni
i
ii tpmt1
22 )()(
Koristi se za informacije iz ograničenog
skupa podataka ako nije poznat zakon
raspodele.
dttfmt )()( 22
• Standardna devijacija:
2
Za kontinualne veličine
• Procenjena standardna devijacija:
Standardna devijacija normalnog zakona raspodele
1
)(1
2
n
mt
S
ni
i
i
• Najčešće korišćena mera varijacije
• Pokazuje varijaciju oko srednje
vrednosti
• Kvadratni koren iz varijanse
• Izražava se u istim jedinicama kao i
osnovni podaci
29
Broj stepena slobode - df, θ, φ
• φ = N - 1
• φ - broj nezavisnih poredjenja
• x1 i x2 nezavisne vrednosti, φ = 2
321
321
xxxx3
3
xxxx
32
Poređenje standardnih
devijacija
sr. vrednost = 15.5 SD = 3,338
11 12 13 14 15 16 17 18 19 20 21
11 12 13 14 15 16 17 18 19 20 21
grupa B
grupa A
sr. vrednost = 15.5
Sd = 0,926
11 12 13 14 15 16 17 18 19 20 21
sr. vrednost = 15.5
Sd = 4,567
grupa C
33
Asimetrija raspodele
• Pokazuju kako su podaci distribuirani
– zakrivljenost i zašiljenost
desnostrana levostrana simetrična
Me Mo Mo Me = Me = Mo x xx
34
Numeričke mere za populaciju
i uzorak
• Statistički parametri koji se izračunavaju iz populacije
opisuju osobine populacije
• Statistički parametri koji se izračunavaju iz uzorka
opisuju osobine uzorka
• Srednja vrednost populacije – μ
• Srednja vrednost uzorka –
• Standardna devijacija populacije – σ
• Standardna devijacija uzorka – Sd
x
35
Osobine varijanse i standardne
devijacije • Svaka vrednost se koristi u izračunavanju
– razlika u odnosu na raspon i interkvartilni
raspon
• Veliki uticaj ekstremnih vrednosti
– izračunava se kvadrat odstupanja od srednje
vrednosti
36
Koeficijent varijacije - Kv
• Mera relativne varijacije (u odnosu na srednju
vrednost)
• Uvek se izražava u %
• Omogućava poredjenje više grupa podataka, čak i
kada su izraženi u različitim jedinicama
100 x
Sd = Kv
Granice poverenja
• Interval poverenja predstavlja dijapazon u kome se
sa određenom zadatom verovanoćom nalazi
stvarna vrednost, koja odgovara svim mogućim
realizacijama posmatane slučajne veličine dobjene
kao rezultat merenja. Isti smisao imaju i granice
poverenja kod utvrđivanja zakona raspodele.
Cα/2 – granice poverenja –
odgovaraju verovatnoći
realizacije u %, odnosno
kumulativnoj verovatnoći α.
m - Cα/2 ≤ m ≤ m + Cα/2
Granice poverenja
Histogram i poligon
• Izračunavanje relativnih i
kumulativnih učestanosti,
prikazivanje u obliku
histograma i poligona.
Histogram
a - Stepenasti dijagram;
b - poligon
• Svi rezultati merenja treba da se grupišu u određene klase – intervale promene posmatrane veličine.
relativna učestanost
Grafički prikaz: stepenasti dijagram i poligon. Za objektivno
odlučivanje je neophodno tačnije procenjivanje stvarnih
zakona raspodele.
%100n
nf ir
%1001
n
i
iq
n
nf kumulativna vrednost
učestanosti
ni – broj rezultata merenja u svakoj pojedinačnoj klasi
n – ukupan broj rezultata merenja
Teorijske raspodele verovatnoće
• Pouzdanost je jednaka verovatnoći rada bez otkaza.
f(t) – gustina intervala vremena rada do pojave otkaza
t
dttftR )()(
• Nepouzdanost je:
t
dttftRtF0
)()(1)(
• Intenzitet otkaza:
)(
)()(
tR
tft
Koriste se: • Eksponencijalna • Normalna i • Vejbulova raspodela
Eksponencijalna raspodela
• Pripada grupi neprekidnih zakona raspodele.
• Funkcija gustine raspodele ima oblik:
0,)( tetf t -parametar raspodele
Normalna raspodela
• Pripada grupi neprekidnih zakona raspodele.
• Funkcija gustine raspodele ima oblik:
– mera rasipanja oko srednje vrednosti
2
2
2
)(
2
1)(
t
etf –očekivana vrednost
Funkcija pouzdanosti
Intenzitet otkaza
t
t
dtetR2
2
2
)(
2
1)(
t
t
t
dte
e
tR
tft
2
2
2
2
2
)(
2
)(
)(
)()(
Vejbulova raspodela
• Pripada grupi neprekidnih zakona raspodele.
• Funkcija gustine raspodele ima oblik:
k –parametar oblika
– parametar razmere
ktk
etk
tf
1
)(
• Verovatnosni papiri se koriste za proveru mogućnosti interpertacije empirijske raspodele pouzdanosti nekom teorijskom raspodelom.
• Ukoliko se podaci o kumulativnim učestanostima otkaza, koji su uneti u verovatnosni papir nalaze približno na pravoj liniji, hipoteza o valjanosti teorijskog zakona se prihvata.
• Podaci uneti u verovatnosni papir daju mogućnost da se odrede i svi parametri teorijskog zakona za taj slučaj.
Statistički testovi
• Koriste se za proveru da li je prava provučena kroz tačke koje odgovaraju eksperimentu, tj. empirijskoj raspodeli u verovatnosnom papiru, zaista odgovara toj raspodeli.
Test Kolmogorov-Smirnov d-test – test Henrijeva prava ...