matematická statistika i

Matematická statistika I.Matematická statistika I.

Jestliže má jednotlivec rád čísla, pokládá se to za neurozu. Celá společnost se ale sklání před statistickými čísly.

Alfred Paul Schmidt

Statistika je jako naivní stará dáma. Podle toho, jak se jí otážeme, tak odpoví.

Helmut Müller

Japonci jedí velmi málo tuků a mají mnohem méně infarktů než Britové a Američani. Na druhé straně Francouzi jedí mnoho tuků a také mají mnohem méně infarktů než Britové a Američani. Japonci velmi málo červeného vína a a mají mnohem méně infarktů než Britové a Američani. Italové pijí mnoho červeného vína a také mají mnohem méně infarktů než Britové a Američani.Závěr: Jezte a pijte co chcete, zabíjí Vás angličtina.

Pokrok vědy vedl k tomu, že bylo možno podávat látku v pilulkách. Filozofii objedná si student a obdrží hezkou modrou pilulku. Literaturu objedná si druhý a dostane roztomilou růžovou pilulku. Statistiku objedná si další a farmaceut přikutálí obrovskou hnědou piluli. Co to má znamenat? ptá se student. Víte, statistika byla vždycky trochu těžší k zažití, odvětí prodavač.

Ing. Pavla Hošková, Ph.D.

Katedra statistikyPEF 3. patro, dveře č. 419tel.: 224 382 392e-mail: [email protected]ční hodiny:

úterý 11 – 13 hod.

Předmět MS I. je zakončen zápočtem.

Podmínky pro udělení zápočtu: řádná účast na cvičení (s tolerancí 3 absencí) 2 kontrolní testy

Pro udělení zápočtu je potřeba z každého testu získat alespoň 60 % bodů (60 % u prvého testu a 60 % u druhého testu).

Hodnocení se započítává 1/3 do známky předmětu MS II., který je zařazen do ZS III. ročníku a je ukončen zkouškou.

Testy nelze psát opakovaně (tzn. opravit si hodnocení).

Pokud se někdo nebude schopen z vážných důvodů dostavit na test v daném termínu (delší nemoc apod.), může si napsat test v náhradním termínu po individuální domluvě (nejpozději do zápočtového týdne).

V případě, že student nezíská potřebný počet bodů, má možnost si test v termínu, který bude dopředu vyhlášen, opravit a to ve dvou možných termínech. Pokud ani poté student nezíská potřebný počet bodů, nebude mu zápočet z daného předmětu přiznán (zapsán).

Důležitou pomůckou pro práci na cvičeních je kalkulačka – bez kalkulačky je student na cvičení zbytečný, protože opisovat umí každý!!!!!!!

Doporučená literaturaPráce na cvičeních:

Prášilová, Svatošová: Cvičení ze statistiky. PEF ČZU

Literatura pro přednášky:

Kába, Svatošová: Matematická statistika I. PEF ČZU

Kába, Svatošová, Prášilová: Zdroje a zpracování sociálních a ekonomických dat (učební texty). PEF ČZU

Hindls, Hronová, Seger: Statistika pro ekonomy. Professional Publishing

Hendl: Přehled statistických metod zpracování dat. Portál

a další statistická literatura

Stručný obsah předmětu

Základní statistické pojmy, výpočet statistických charakteristik

Metody statistické indukce – podstata náhodného výběru, teorie odhadu, testování statistických hypotéz

Regresní a korelační analýza

Základní statistické pojmy

Co je statistika?

1) číselné údaje o hromadných jevech (jevy vyskytující se u velkého množství prvků)

2) praktická činnost spočívající ve sběru, zpracování a vyhodnocování statistických údajů

3) teoretická disciplina zabývající se metodami sloužícími k popisu odhalování zákonitostí při působení podstatných, relativně stálých činitelů na hromadné jevy

Statistická jednotka – elementární jednotka statistického pozorování (např. rostliny, zvířata, osoby, věci, události)

Statistický znak – vlastnost statistických jednotek

Statistický soubor – množina všech statistických jednotek, u nichž zkoumáme příslušné statistické znaky

• jednorozměrné – jeden statistický znak

• dvourozměrné – dva statistické znaky u každé

jednotky

• vícerozměrné – více jak dva statistické znaky

Základní soubor – soubor všech jednotek se sledovaným znakem

Cenzus – metoda sběru dat, v níž se do zkoumání zahrnují všechny jednotky populace (např. sčítání lidu, v zemědělství)

Výběrový soubor – ze základního souboru se určitým způsobem vyberou pouze některé jednotky

Rozsah souboru – počet statistických jednotek, obsažených v daném souboru

Statistické znaky

kvantitativní kvalitativní

měřitelné pořadové alternativní množné

nespojité spojité

Statistická práce – 3 etapy

1) etapa statistického zjišťování (šetření)

2) etapa statistického zpracování zjištěných údajů (dat)

3) etapa statistického vyhodnocování (analýzy)

Statistické zjišťování - získávání statistických údajů

Je nutno stanovit:

cíl zjišťování, kdo, kdy a jakým způsobem bude zjišťování

provádět,

rozhodnou dobu nebo rozhodný okamžik,

dobu zjišťování (lhůta, v níž musí být zjišťování provedeno),

rozsah zjišťování (zjišťování vyčerpávající či výběrové).

Vyčerpávající (úplné) – prověří se všechny jednotky v souboru (soupis hospodářského zvířectva, sčítání lidu, agrocenzus apod.).

Výběrové (neúplné, dílčí) – zjišťování nejsou podrobeny všechny statistické jednotky, ale pouze určitá část celého souboru, sledují se pouze vybrané statistické znaky.

Způsoby zjišťování statistických údajů

přímé pozorování (vážení, měření, sčítání apod.)

dotaz – metoda expediční (sčítací komisaři)

– metoda korespondenční

výkaznictví – předem navržený a schválený

formulář

– státní, rezortní, podnikové (základní zdroj

informací o stavu NH na různých úrovních)

zvláštní statistické šetření – v případech, že některé jevy, které zjišťujeme, nejsou evidovány nebo že občas je nutno zjistit stav přímým měřením, sečtením nebo zhodnocením

- soupisy (cenzy) – sepisuje se stav, který je zjištěn přímo na místě

- znalecký odhad

- anketa

- výběrová šetření apod.

Statistické zpracování

- tabelování, třídění, výpočet statistických charakteristik, grafické znázorňování výsledků, odhady, testování apod.

Nutno provádět kontrolu vstupních dat a to z hlediskaa) formálního – přezkoušení správnosti početních

úkonůa) logického – zda hodnoty jsou reálnéb) početního

Statistické vyhodnocování – rozbor získaných výsledků, slovní vyhodnocení, formulace závěrů

Elementární zpracování statistických údajů

Cílem analýzy statistických dat je přehledně zpřístupnit data graficky, tabulkově a výpočtem různých statistických charakteristik tak, aby byly dobře patrné jejich statistické vlastnosti a umožnilo se také srovnání různých podskupin dat a kategorií, které jsou předem dány nebo je výzkumník vytváří v průběhu analýzy dat.

Před vlastní analýzou je potřeba provést podrobnější kontrolu dat, zvláště se zaměřením na diagnostiku chyb v údajích a to pomocí grafického znázornění.

Graf může prozradit např. špatně zapsané nebo naměřené údaje, pomáhá odhalit přítomnost odlehlých hodnot, které mohou zcela zkreslit výsledky další analýzy.

Statistické grafy spojnicové (polygon četností) – prosté

rozdělení četností

sloupcové (histogram) – intervalové rozdělení četností

bodové

výsečové – pro relativní četnosti

krabicové (boxplot)

grafy STEM-and-Leaf (lodyha s listy)

Při popisu a analýze toho, co graf zobrazujeme, si všímáme nejdříve základní konfigurace a pak deviací od tohoto vztahu.

Hodnotíme:

zhuštění – kde se nalézá místo nebo místa nejvyšší četnosti hodnot,

shluky – existuje jeden nebo více shluků dat v grafu,

mezery – jsou v grafu intervaly nebo oblasti bez hodnot,

odlehlé hodnoty – existují v grafu údaje podstatně rozdílné od zbytku dat,

tvar rozdělení – lze popsat jednoduše tvar rozdělení dat?

Třídění rozdělení jednotek souboru do takových skupin,

aby co nejlépe vynikly charakteristické vlastnosti zkoumaných jevů

uspořádání údajů do přehledné formy včetně jejich zhuštění

jednostupňové – podle obměn jednoho znaku

vícestupňové – podle obměn více znaků najednou

Prosté rozdělení četností nespojité statistické znaky

údaje uspořádáme do rostoucí posloupnosti a každé hodnotě znaku přiřadíme počty (četnosti) příslušných statistických jednotek

Četnosti lze vyjádřit různým způsobem:

absolutní četnost ni – skutečný počet jednotek; udává, kolikrát se která hodnota znaku v souboru vyskytuje; jejich součet je roven rozsahu souboru

k

1iik321 nnnnnn

relativní četnost fi – pro porovnávání různých rozdělení, nejčastěji se vyjadřuje v %

kumulativní četnost – absolutní (Ni), relativní (Fi)

podávají informaci o tom, kolik jednotek souboru, resp. jaká poměrná část souboru má variantu znaku menší nebo rovnou určité dané obměně

N1 = n1 N2 = n1 + n2 N3 = n1 + n2 + n3

k

1iik321k nnnnnN

k

1iik321

ii 1fffff,

n

nf

Prosté rozdělení četností

Četnost Kumulativní četnost Varianta znaku xi absolutní ni relativní fi absolutní Ni relativní Fi

x1 n1 f1 n1 f1 x2 n2 f2 n1 + n2 f1 + f2

… … … … …

xk nk fk

k

1ii nn

k

1ii 1f

celkem n 1 x x

Intervalové rozdělení četnostíznak spojitý nebo diskrétní s velkým počtem

obměn

Je nutno řídit se několika pravidly: počet intervalů musí být takový, aby vynikly

podstatné a charakteristické rysy souboru

stanovení počtu intervalů

Sturgesovo pravidlonk

nlog3,31k

délka intervalu – spíše stejná

R = variační rozpětí (R = xmax – xmin)

- extrémní hodnota – otevřené intervaly

Při zařazování jednotlivých hodnot znaku do intervalů musí být jednoznačně určeno, kam kterou jednotku zařadit.

k

Rh

PříkladMáme k dispozici údaje o výdajích (Kč) vybraných domácností. Uvedená data je potřeba setřídit do přehlednější formy.

5 800 12 800 8 400 9 200 6 900 9 400 6 200 5 100 8 300 8 500 8 500 4 200 8 400 11 600 7 300 11 800 11 200 9 700 7 200 13 400 12 400 9 700 9 500 8 200 5 400 9 800 15 100 5 200 5 300 6 900

Sice jde o znak diskrétní, ale nabývá velkého počtu obměn. Proto bude vhodné uspořádat daný soubor do intervalového rozdělení četností.

Nejprve určíme počet intervalů.

477,530nk Zde je potřeba zvážit, jaký počet intervalů požadujeme. Vhodnější bude zvolení 6 intervalů.

Dále určíme šířku intervalu.

666,18166

420015100

k

Rh

Vzhledem k hodnotě, která vychází, je optimální zaokrouhlovat na celá čísla, v tomto případě na hodnotu 2000. Následně je důležité správně určit počátek prvního intervalu (blízko nejmenší hodnoty).

Výdaj (Kč) ni fi Ni Fi 4 000 – 5 999 6 0,2000 6 0,2000 6 000 – 7 999 5 0,1667 11 0,3667 8 000 – 9 999 12 0,4000 23 0,7667 10 000 – 11 999 3 0,1000 26 0,8667 12 000 – 13 999 3 0,1000 29 0,9667 14 000 – 15 999 1 0,0333 30 1,0000 celkem 30 1,0000 --- ---

V případě použití Sturgesova pravidla je počet intervalů zhruba stejný.

87,530log3,31nlog3,31k

Rozložení výdajů domácností

65

12

3 3

1

0

2

4

6

8

10

12

14

4 000 – 5 999 6 000 – 7 999 8 000 – 9 999 10 000 – 11 999 12 000 – 13 999 14 000 – 15 999

Výdaj

Čet

no

st

Procentické zastoupení jednotlivých skupin výdajů

20%

17%

40%

10%

10%3%

4 000 – 5 999

6 000 – 7 999

8 000 – 9 999

10 000 – 11 999

12 000 – 13 999

14 000 – 15 999

Příklad

Sledujeme věk pojištěnce a stáří auta u 100 klientů pojišťovny. Chceme provést základní analýzu dat.

21 27 33 39 45 51 57 63

vekpojistence

0

0.02

0.04D

e

n

s

i

t

y

Frequency Counts

Value

23.0000 24.0000 26.0000 27.0000 28.0000 29.0000 30.0000 31.0000 32.0000 34.0000 35.0000 36.0000 37.0000 38.0000 39.0000 42.0000 43.0000 45.0000 46.0000 47.0000 48.0000 49.0000 54.0000 57.0000 58.0000 59.0000

Count

2 1 1 5 2 3 1 3 3 6 4 2 11 5 6 2 2 4 13 5 7 4 2 2 2 2

Cell Percent

2.0 1.0 1.0 5.0 2.0 3.0 1.0 3.0 3.0 6.0 4.0 2.0 11.0 5.0 6.0 2.0 2.0 4.0 13.0 5.0 7.0 4.0 2.0 2.0 2.0 2.0

Cum Percent

2.0 3.0 4.0 9.0 11.0 14.0 15.0 18.0 21.0 27.0 31.0 33.0 44.0 49.0 55.0 57.0 59.0 63.0 76.0 81.0 88.0 92.0 94.0 96.0 98.0 100.0

Věk pojištěnce

21 27 33 39 45 51 57 63

vekpojistence

0

0.02

0.04D

e

n

s

i

t

y

30 40 50

vekpojistence

vekpojiste

Moments

N 100.0000Mean 40.1100Std Dev 8.6945Skewness 0.1212USS 168365.000CV 21.6766

Sum Wgts 100.0000Sum 4011.0000Variance 75.5938Kurtosis -0.5578CSS 7483.7900Std Mean 0.8694

Kmen List # 58 0000 4 56 00 2 54 00 2 52 50 48 00000000000 11 46 000000000000000000 18 44 0000 4 42 0000 4 40 38 00000000000 11 36 0000000000000 13 34 0000000000 10 32 000 3 30 0000 4 28 00000 5 26 000000 6 24 0 1 22 00 2

Rozložení věku pojištěnců

0

2

4

6

8

10

12

14

23 24 26 27 28 29 30 31 32 34 35 36 37 38 39 42 43 45 46 47 48 49 54 57 58 59

Věk

Če

tno

st

Stáří auta

0.0 1.5 3.0 4.5 6.0 7.5 9.0 10.5

stariauta

0

0.1

0.2D

e

n

s

i

t

y

Frequency Counts

Value

1.0000 2.0000 3.0000 4.0000 5.0000 6.0000 7.0000 8.0000 9.0000 10.0000

Count

10 19 27 10 9 7 8 5 3 2

Cell Percent

10.0 19.0 27.0 10.0 9.0 7.0 8.0 5.0 3.0 2.0

Cum Percent

10.0 29.0 56.0 66.0 75.0 82.0 90.0 95.0 98.0 100.0

Moments

N 100.0000Mean 3.9900Std Dev 2.3116Skewness 0.8135USS 2121.0000CV 57.9340

Sum Wgts 100.0000Sum 399.0000Variance 5.3433Kurtosis -0.2004CSS 528.9900Std Mean 0.2312

2 4 6 8 10

stariauta

stariauta

0.0 4.5 9.0

stariauta

0

0.1

0.2D

e

n

s

i

t

y

Věk auta - procentické zastoupení

10%

19%

27%10%

9%

7%

8%

5%3% 2%

1

2

3

4

5

6

7

8

9

10

30

40

50

v

e

k

p

o

j

i

s

t

e

n

1 2 3 4 5 6 7 8 9 10

stariauta

Základní statistické charakteristiky

Rozlišujeme charakteristiky:

polohy (úrovně),

variability (rozptýlenosti, měnlivosti),

šikmosti (asymetrie),

špičatosti.

Charakteristiky polohy (střední hodnoty)

a) průměry – počítají se ze všech hodnot souboru,

b) ostatní střední hodnoty – jsou založeny pouze na některých vybraných hodnotách souboru.

Mohou být vyjádřeny ve formě:

prosté – není provedeno třídění,

vážené – bylo provedeno třídění.

Průměr

aritmetický – nejčastější

geometrický – časové řady, indexní analýza

harmonický – indexní analýza

chronologický – časové řady

Prostý aritmetický průměr

Vážený aritmetický průměr

k

1ii

k

1iii

k21

kk2211

n

nx

nnn

nxnxnxx

n

x

n

xxxx

n

1ii

n21

Vlastnosti aritmetického průměruSoučet jednotlivých odchylek od průměru je

nulový.Aritmetický průměr konstanty je opěr roven

konstantě.Přičteme-li k jednotlivým hodnotám znaku

konstantu, zvýší se o tuto konstantu i aritmetický průměr.

Násobíme-li jednotlivé hodnoty konstantou, je touto konstantou násoben i průměr.

Násobíme-li váhy aritmetického průměru konstantou, průměr se nezmění.

Je-li statistický soubor rozdělen do dílčích podsouborů, v nichž známe dílčí průměry

a počty pozorování n1, n2, …, nk, pak průměr celkového souboru je váženým aritmetickým průměrem těchto dílčích průměrů, kde vahami jsou četnosti těchto podsouborů. Platí tedy

k1 x...,,x

k

1ii

k

1iii

n

nxx

PříkladZajímá nás průměrný věk pojištěných aut. Vzhledem k provedenému třídění (prosté rozdělení četností) je nutno použít vážené formy aritmetického průměru.

Frequency Counts

Value

1.0000 2.0000 3.0000 4.0000 5.0000 6.0000 7.0000 8.0000 9.0000 10.0000

Count

10 19 27 10 9 7 8 5 3 2

Cell Percent

10.0 19.0 27.0 10.0 9.0 7.0 8.0 5.0 3.0 2.0

Cum Percent

10.0 29.0 56.0 66.0 75.0 82.0 90.0 95.0 98.0 100.0

)rok(99,3100

399x

100

2103958877695104273192101x

Průměrný věk auta je 3,99 roku, tzn. zhruba 4 roky.

i

ii

n

nxx

Výpočet aritmetického průměru z intervalového rozdělení četností

- vždy se použije vzorec pro váženou formu,

- je potřeba zastoupit interval jednou hodnotou,

- je-li interval uzavřený, potom se předpokládá, že průměr v každém intervalu je roven jeho středu a jednotlivé intervaly nahrazujeme jejich středy,

- dopouštíme se však chyby, jejíž maximum je rovno polovině délky intervalu,

- pokud interval není uzavřen (dolní nebo horní), pak v takovém případě se interval považuje za stejně široký jako bezprostředně následující (předcházející) interval.

PříkladZajímá nás průměrná výše měsíčních výdajů sledovaných domácností.

Výdaj (Kč) ni xi xi.ni 4 000 – 5 999 6 5 000 30 000 6 000 – 7 999 5 7 000 35 000 8 000 – 9 999 12 9 000 108 000 10 000 – 11 999 3 11 000 33 000 12 000 – 13 999 3 13 000 39 000 14 000 – 15 999 1 15 000 15 000 celkem 30 --- 260 000

67,866630

260000

n

nxx

i

ii

Určení středu intervalu

Je možné určit jako průměr dolní a horní meze v rámci jednoho intervalu nebo v případě stejně širokých intervalů jako průměr dvou po sobě jdoucích mezí.

5,49992

59994000

50002

60004000

Univerzální způsob

Použitelné pouze tehdy, jestliže všechny intervaly mají stejnou šířku.

Harmonický průměr

Geometrický průměr

n

1i i

H

x1

nx

k

1i i

i

k

1ii

H

xn

nx

n

n

1ii

nn21G xxxxx

Ostatní střední hodnoty

Medián

- prostřední hodnota řady pozorování, uspořádané podle velikosti

- rozsah souboru je vyjádřen lichým číslem – mediánem bude hodnota s pořadovým číslem

- rozsah souboru je vyjádřen sudým číslem – mediánem je průměr dvou prostředních hodnot

- je málo citlivý k odlehlým hodnotám

Modus

- nejčetnější hodnota znaku

x~

x̂

2

1n

Aritmetický průměr se má používat: jestliže data jsou získána minimálně v intervalovém

měřítku (tzn. průměr neužíváme pro údaje kategoriální),

jestliže je rozdělení symetrické, jestliže chceme použít statistické testy.

Medián se má použít: jestliže data jsou získána minimálně v ordinálním

měřítku (pořadové znaky), jestliže chceme znát střed rozdělení dat, jestliže data mohou obsahovat odlehlé hodnoty, jestliže rozdělení dat je silně zešikmené.

Modus se má použít:

jestliže rozdělení má více vrcholů,

jestliže chceme získat o rozdělení jenom základní přehled,

jestliže se slovem „průměrně“ míní nejčastější hodnota,

nalézá uplatnění především u kategoriálních dat.

V případě, že data jsou symetricky rozdělená, všechny uvedené charakteristiky jsou přibližně stejné.

Příklad – výsledky zkoušky z TP 2006/2007Výsledky (známky) jsou následující:

1, 3, 3, 2, 4, 2, 3, 4, 1, 3, ………….

Vhodnější je uspořádat výsledky do tabulky prostého rozdělení četností.

xi ni fi Ni Fi

1 18 0,0878 18 0,0878

2 49 0,2390 67 0,3268

3 72 0,3512 139 0,6780

4 60 0,2927 199 0,9707

neúčast 6 0,0293 205 1

Celkem 205 1 X X

Výsledky zkoušky z TP

0

10

20

30

40

50

60

70

1 2 3 4 neúčast

Známka

Poče

t stu

dent

ů

Výsledky zkoušky z TP

18

49

72

60

6

0

10

20

30

40

50

60

70

80

1 2 3 4 neúčast

Známka

Poče

t stu

dent

ů

Výsledky zkoušky

8,78%

23,90%

35,12%

2,93%

29,27%

1 2 3 4 neúčast

Průměrná známka z předmětu

Forma prostá

Forma vážená

3x~Medián

Modus

3x̂

87,2199

572

60724918

604723492181x

199

3143242331x

Závěry

zkoušky se celkem zúčastnilo 199 studentů,

6 studentů, tj. 2,93 % se ke zkoušce nedostavilo,

35,12 % studentů získalo známku dobře,

67 studentů, tj. 32,68 % studentů II. ročníku získalo známku výborně nebo velmi dobře,

podle grafu rozdělení četností jde o soubor jednovrcholový s mírnou levostrannou asymetrií a relativně souměrný okolo hlavního vrcholu,

průměrná známka z tohoto předmětu 2,87

nejčastější obdrženou známkou byla 3

matematická statistika i

Documents