statistické charakteristiky variability

26
Statistické charakteristiky variability

Upload: louisa

Post on 21-Jan-2016

53 views

Category:

Documents


0 download

DESCRIPTION

Statistické charakteristiky variability. Variabilita (proměnlivost) v datech. hodnoty mohou být více či méně rozptýleny okolo aritmetického průměru analogie s terčem – menší nebo větší rozptyl zásahů. Charakteristiky (míry) variability. rozptyl směrodatná odchylka variační koeficient - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Statistické charakteristiky variability

Statistické charakteristiky variability

Page 2: Statistické charakteristiky variability

Variabilita (proměnlivost) v datech

• hodnoty mohou být více či méně rozptýleny okolo aritmetického průměru

• analogie s terčem – menší nebo větší rozptyl zásahů

Page 3: Statistické charakteristiky variability
Page 4: Statistické charakteristiky variability

Charakteristiky (míry) variability

• rozptyl

• směrodatná odchylka

• variační koeficient

• kvartilová odchylka

Page 5: Statistické charakteristiky variability

Rozptyl

Příklad 1: Zjištěnými hodnotami budou v jednom případě čísla 5, 6, 7 a ve druhém případě čísla 1, 7, 10.

aritmetický průměr je v obou případech 6

Hodnota Odchylka Hodnota Odchylka 5 5 – 6 = -1 1 1 – 6 = -5 6 6 – 6 = 0 7 7 – 6 = 1 7 7 – 6 = 1 10 10 – 6 = 4

ve druhém případě jsou hodnoty mnohem více rozptýleny

Page 6: Statistické charakteristiky variability

Rozptyl (značíme s2)

• Příklad 1 (pokračování):

Pro hodnoty 5, 6, 7 je rozptyl roven 2/3.

Pro hodnoty 1, 7, 10 je rozptyl roven 14.

n

xxxxxx

ns n

n

ii

221

1

22 )(...)()(

1

Page 7: Statistické charakteristiky variability

Odvození výpočetního tvaru rozptylu

2

1

2222

1

2222

12

122

1

21

221

21

221

2221

21

221

1

22

1...

2......

2...

)...(2...2...2...

2...2)(...)(

)(1

xxn

xn

xx

xxn

xx

n

xn

n

xxx

n

xx

n

xnxxxxx

n

xnxxxxxx

n

xxxxxxxx

n

xxxx

xxn

s

n

ii

n

nnn

nnnn

nnn

n

ii

Page 8: Statistické charakteristiky variability

Výpočetní tvar rozptylu

• Tento tvar je často vhodnější pro ruční výpočet

• Příklad 1 (pokračování):

Pro hodnoty 5, 6, 7 je rozptyl samozřejmě opět roven 2/3 a podobně pro hodnoty 1, 7, 10 je rozptyl opět roven 14.

222

12

1

22 ...1x

n

xxxx

ns n

n

ii

Page 9: Statistické charakteristiky variability

Rozptyl – varianta pro data zadaná tabulkou četností

k

kkk

ii

k

iii

nn

xxnxxn

n

xxns

...

)(...)()(

1

2211

1

1

2

2

Výpočetní tvar (označíme n = n1+…+ nk):

222

112

1

22 ...1x

n

xnxnxxn

ns kk

k

iii

Page 10: Statistické charakteristiky variability

•Příklad 2: Určete rozptyl a směrodatnou odchylku výšek chlapců ve věku 16 let.

Snadno spočítáme, že průměrná výška je 174,3 cm.

výška (xi) 160 165 170 175 180 185 190

četnost (ni) 9 20 36 82 35 14 4

01,40200

8002

4...209

5,2464...5,86205,2049

4...209

27,154...2)3,9(202)3,14(9

4...209

2)3,174190(4...2)3,174165(202)3,174160(92

s

Page 11: Statistické charakteristiky variability

• Tentýž příklad řešený výpočetním tvarem rozptylu

(pro ruční výpočet je jednodušší a často i přesnější):

01,4049,30380200

6084100

3,174200

1904...165201609

...

2222

222

112

xn

xnxns kk

výška (xi) 160 165 170 175 180 185 190

četnost (ni) 9 20 36 82 35 14 4

Page 12: Statistické charakteristiky variability

Směrodatná odchylka

2ss

cm3,601,40 s

Výhoda – charakterizuje variabilitu v týchž jednotkách, v jakých jsou udány hodnoty stat. znaku (kdežto rozptyl v druhých mocninách těchto jednotek)

V předchozím příkladě je:

Page 13: Statistické charakteristiky variability

Variační koeficient

• použijeme jej, pokud chceme charakterizovat variabilitu bezrozměrným číslem

• vyjadřuje se obvykle v procentech

%)100(x

sV

Page 14: Statistické charakteristiky variability

Příklad 3: Máme porovnat dvě firmy co se týče variability platů.

• V první firmě je průměrný plat 15 000 Kč a směrodatná odchylka 3 000 Kč.

• Ve druhé je průměrný plat 30 000 Kč a směrodatná odchylka 4 000 Kč.

• Na první pohled se zdá, že variabilita je vyšší ve druhé firmě, protože je tam vyšší směrodatná odchylka. Je tam však i vyšší plat.

• Lepším kriteriem je porovnat to, jakou část aritmetického průměru tvoří směrodatná odchylka:1. firma …V = 3 000 : 15 000 = 0,20 = 20 %, 2. firma …V = 4 000 : 30 000 = 0,13 = 13 %,

• Vidíme, že ve druhé firmě je variabilita platů výrazně nižší než v první.

Page 15: Statistické charakteristiky variability

Hodnoty variačního koeficientu

• Hodnoty variačního koeficientu do 0,10 (tj. 10 %) svědčí o malé variabilitě – aritmetický průměr je možné považovat za typickou hodnotu datového souboru.

• Hodnoty do 0,4 (tj. 40 %) svědčí o vyšší variabilitě – aritmetický průměr je možné považovat pouze za hodnotu orientační.

• Pokud je variační koeficient ještě vyšší, není dobré dávat aritmetickému průměru nějaký zvláštní význam, nemusí se jednat se o typickou hodnotu v datovém souboru.

Page 16: Statistické charakteristiky variability

• Je chybou popsat datový soubor pouze hodnotu aritmetického průměru.

• Aby se zabránilo jeho špatné interpretaci (nebo dokonce úmyslnému zneužití), je nutné doplnit jej některým z údajů o variabilitě (tj. rozptylem, směrodatnou odchylkou nebo variačním koeficientem).

Pozor!

Page 17: Statistické charakteristiky variability

Kvantily (percentily)

• p-procentní kvantil – je taková hodnota statistického znaku, před níž leží právě p procent shromážděných dat (seřazených podle velikosti).

• Značíme jej

• Příklad: 10% kvantil pro statistický znak příjem rodiny udává takovou hodnotu, že 10 % rodin má nižší nebo stejný příjem.

px~

Page 18: Statistické charakteristiky variability
Page 19: Statistické charakteristiky variability

Výpočet kvantilu

• Označíme-li z pořadové číslo p% kvantilu, pak platí:

1100100

pn

zpn

Page 20: Statistické charakteristiky variability

• Příklad určení pořadového čísla 20% kvantilu v souboru o rozsahu 153:

• tj. 20% kvantil je v pořadí 31. hodnota mezi 153 údaji.• Příklad určení pořadového čísla 25% kvantilu v souboru

o rozsahu 108:

• tj. 25% kvantil leží mezi v pořadí 27. a 28. hodnotou v rozsahu 108 dat.

316,316,301100

20153

100

20153

zzz

28,2728271100

25108

100

25108

zzz

Page 21: Statistické charakteristiky variability

Příklad 2 (pokračování): Určete 75% kvantil v souboru tělesných výšek chlapců:

výška (xi) 160 165 170 175 180 185 190

četnost (ni) 9 20 36 82 35 14 4

kumulativní četnost

9 29 65 147 182 196 200

1511501100

75200100

75200 zz

Hledáme 150. a 151. hodnotu v pořadí – obě jsou rovny 180 cm (obě tyto hodnoty se nachází v pátém sloupci tabulky, což poznáme podle kumulativních četností).

Závěr: 75% kvantil je 180 cm.

148. – 182.

Page 22: Statistické charakteristiky variability

Ve statistice se pro některé kvantily užívá dalšího pojmenování:

• Kvartily – dělí data na čtyři části:

dolní kvartil = 25% kvantil

medián = 50% kvantil

horní kvartil = 75% kvantil• Decily – dělí data na deset částí:

první decil = 10% kvantil

druhý decil = 20% kvantil

devátý decil = 90% kvantil

Page 23: Statistické charakteristiky variability

Kvartilové míry variability

• Mezikvartilové rozpětí:

• Kvartilová odchylka

• Koeficient kvartilové odchylky

2575

2575~~

~~

xx

xxIQD

2

~~2575 xx

QD

2575~~ xxIQR

Page 24: Statistické charakteristiky variability

Krabičkový diagram (box plot)

medián horní kvartildolní kvartil

„vous“ = 1,5 IQR„vous“ = 1,5 IQR

Pokud minimum hodnot je větší než dolní kvartil minus 1,5 IQR, zkracuje se levý „vous“ na tuto délku.

Pokud maximum hodnot je menší než horní kvartil plus 1,5 IQR, zkracuje se pravý „vous“ na tuto délku.

Page 25: Statistické charakteristiky variability

• Může se stát, že „vous“ zcela zmizí, pokud se minimum nebo maximum rovná dolnímu nebo hornímu kvartilu.

• Naopak, vyskytnou-li se hodnoty, které se nacházejí mimo maximální rozpětí, dané jeden a půl násobkem mezikvartilového rozpětí, jsou považovány za "podezřelé" (odlehlé) a je jim třeba věnovat zvláštní pozornost, neboť mohou obzvláště při malém počtu pozorování značně ovlivnit některé ukazatele.

• Odlehlé hodnoty mohou být zaviněny hrubou chybou při měření nebo při přenosu dat do počítače, ale mohou být také správné (existuje skutečně takový extrém). Pak závisí na zpracovateli, zda pro dané účely tento extrém do zpracování zahrne či nikoliv.

• V grafu bývají odlehlé hodnoty znázorněny tečkou nebo hvězdičkou.

Page 26: Statistické charakteristiky variability