matematická statistika i
DESCRIPTION
Matematická statistika I. Jestliže má jednotlivec rád čísla, pokládá se to za neurozu. Celá společnost se ale sklání před statistickými čísly. Alfred Paul Schmidt Statistika je jako naivní stará dáma. Podle toho , jak se jí otážeme , tak odpoví. Helmut Müller. - PowerPoint PPT PresentationTRANSCRIPT
Matematická statistika I.Matematická statistika I.
Jestliže má jednotlivec rád čísla, pokládá se to za neurozu. Celá společnost se ale sklání před statistickými čísly.
Alfred Paul Schmidt
Statistika je jako naivní stará dáma. Podle toho, jak se jí otážeme, tak odpoví.
Helmut Müller
Japonci jedí velmi málo tuků a mají mnohem méně infarktů než Britové a Američani. Na druhé straně Francouzi jedí mnoho tuků a také mají mnohem méně infarktů než Britové a Američani. Japonci velmi málo červeného vína a a mají mnohem méně infarktů než Britové a Američani. Italové pijí mnoho červeného vína a také mají mnohem méně infarktů než Britové a Američani.Závěr: Jezte a pijte co chcete, zabíjí Vás angličtina.
Pokrok vědy vedl k tomu, že bylo možno podávat látku v pilulkách. Filozofii objedná si student a obdrží hezkou modrou pilulku. Literaturu objedná si druhý a dostane roztomilou růžovou pilulku. Statistiku objedná si další a farmaceut přikutálí obrovskou hnědou piluli. Co to má znamenat? ptá se student. Víte, statistika byla vždycky trochu těžší k zažití, odvětí prodavač.
Ing. Pavla Hošková, Ph.D.
Katedra statistikyPEF 3. patro, dveře č. 419tel.: 224 382 392e-mail: [email protected]ční hodiny:
úterý 11 – 13 hod.
Předmět MS I. je zakončen zápočtem.
Podmínky pro udělení zápočtu: řádná účast na cvičení (s tolerancí 3 absencí) 2 kontrolní testy
Pro udělení zápočtu je potřeba z každého testu získat alespoň 60 % bodů (60 % u prvého testu a 60 % u druhého testu).
Hodnocení se započítává 1/3 do známky předmětu MS II., který je zařazen do ZS III. ročníku a je ukončen zkouškou.
Testy nelze psát opakovaně (tzn. opravit si hodnocení).
Pokud se někdo nebude schopen z vážných důvodů dostavit na test v daném termínu (delší nemoc apod.), může si napsat test v náhradním termínu po individuální domluvě (nejpozději do zápočtového týdne).
V případě, že student nezíská potřebný počet bodů, má možnost si test v termínu, který bude dopředu vyhlášen, opravit a to ve dvou možných termínech. Pokud ani poté student nezíská potřebný počet bodů, nebude mu zápočet z daného předmětu přiznán (zapsán).
Důležitou pomůckou pro práci na cvičeních je kalkulačka – bez kalkulačky je student na cvičení zbytečný, protože opisovat umí každý!!!!!!!
Doporučená literaturaPráce na cvičeních:
Prášilová, Svatošová: Cvičení ze statistiky. PEF ČZU
Literatura pro přednášky:
Kába, Svatošová: Matematická statistika I. PEF ČZU
Kába, Svatošová, Prášilová: Zdroje a zpracování sociálních a ekonomických dat (učební texty). PEF ČZU
Hindls, Hronová, Seger: Statistika pro ekonomy. Professional Publishing
Hendl: Přehled statistických metod zpracování dat. Portál
a další statistická literatura
Stručný obsah předmětu
Základní statistické pojmy, výpočet statistických charakteristik
Metody statistické indukce – podstata náhodného výběru, teorie odhadu, testování statistických hypotéz
Regresní a korelační analýza
Základní statistické pojmy
Co je statistika?
1) číselné údaje o hromadných jevech (jevy vyskytující se u velkého množství prvků)
2) praktická činnost spočívající ve sběru, zpracování a vyhodnocování statistických údajů
3) teoretická disciplina zabývající se metodami sloužícími k popisu odhalování zákonitostí při působení podstatných, relativně stálých činitelů na hromadné jevy
Statistická jednotka – elementární jednotka statistického pozorování (např. rostliny, zvířata, osoby, věci, události)
Statistický znak – vlastnost statistických jednotek
Statistický soubor – množina všech statistických jednotek, u nichž zkoumáme příslušné statistické znaky
• jednorozměrné – jeden statistický znak
• dvourozměrné – dva statistické znaky u každé
jednotky
• vícerozměrné – více jak dva statistické znaky
Základní soubor – soubor všech jednotek se sledovaným znakem
Cenzus – metoda sběru dat, v níž se do zkoumání zahrnují všechny jednotky populace (např. sčítání lidu, v zemědělství)
Výběrový soubor – ze základního souboru se určitým způsobem vyberou pouze některé jednotky
Rozsah souboru – počet statistických jednotek, obsažených v daném souboru
Statistické znaky
kvantitativní kvalitativní
měřitelné pořadové alternativní množné
nespojité spojité
Statistická práce – 3 etapy
1) etapa statistického zjišťování (šetření)
2) etapa statistického zpracování zjištěných údajů (dat)
3) etapa statistického vyhodnocování (analýzy)
Statistické zjišťování - získávání statistických údajů
Je nutno stanovit:
cíl zjišťování, kdo, kdy a jakým způsobem bude zjišťování
provádět,
rozhodnou dobu nebo rozhodný okamžik,
dobu zjišťování (lhůta, v níž musí být zjišťování provedeno),
rozsah zjišťování (zjišťování vyčerpávající či výběrové).
Vyčerpávající (úplné) – prověří se všechny jednotky v souboru (soupis hospodářského zvířectva, sčítání lidu, agrocenzus apod.).
Výběrové (neúplné, dílčí) – zjišťování nejsou podrobeny všechny statistické jednotky, ale pouze určitá část celého souboru, sledují se pouze vybrané statistické znaky.
Způsoby zjišťování statistických údajů
přímé pozorování (vážení, měření, sčítání apod.)
dotaz – metoda expediční (sčítací komisaři)
– metoda korespondenční
výkaznictví – předem navržený a schválený
formulář
– státní, rezortní, podnikové (základní zdroj
informací o stavu NH na různých úrovních)
zvláštní statistické šetření – v případech, že některé jevy, které zjišťujeme, nejsou evidovány nebo že občas je nutno zjistit stav přímým měřením, sečtením nebo zhodnocením
- soupisy (cenzy) – sepisuje se stav, který je zjištěn přímo na místě
- znalecký odhad
- anketa
- výběrová šetření apod.
Statistické zpracování
- tabelování, třídění, výpočet statistických charakteristik, grafické znázorňování výsledků, odhady, testování apod.
Nutno provádět kontrolu vstupních dat a to z hlediskaa) formálního – přezkoušení správnosti početních
úkonůa) logického – zda hodnoty jsou reálnéb) početního
Statistické vyhodnocování – rozbor získaných výsledků, slovní vyhodnocení, formulace závěrů
Elementární zpracování statistických údajů
Cílem analýzy statistických dat je přehledně zpřístupnit data graficky, tabulkově a výpočtem různých statistických charakteristik tak, aby byly dobře patrné jejich statistické vlastnosti a umožnilo se také srovnání různých podskupin dat a kategorií, které jsou předem dány nebo je výzkumník vytváří v průběhu analýzy dat.
Před vlastní analýzou je potřeba provést podrobnější kontrolu dat, zvláště se zaměřením na diagnostiku chyb v údajích a to pomocí grafického znázornění.
Graf může prozradit např. špatně zapsané nebo naměřené údaje, pomáhá odhalit přítomnost odlehlých hodnot, které mohou zcela zkreslit výsledky další analýzy.
Statistické grafy spojnicové (polygon četností) – prosté
rozdělení četností
sloupcové (histogram) – intervalové rozdělení četností
bodové
výsečové – pro relativní četnosti
krabicové (boxplot)
grafy STEM-and-Leaf (lodyha s listy)
Při popisu a analýze toho, co graf zobrazujeme, si všímáme nejdříve základní konfigurace a pak deviací od tohoto vztahu.
Hodnotíme:
zhuštění – kde se nalézá místo nebo místa nejvyšší četnosti hodnot,
shluky – existuje jeden nebo více shluků dat v grafu,
mezery – jsou v grafu intervaly nebo oblasti bez hodnot,
odlehlé hodnoty – existují v grafu údaje podstatně rozdílné od zbytku dat,
tvar rozdělení – lze popsat jednoduše tvar rozdělení dat?
Třídění rozdělení jednotek souboru do takových skupin,
aby co nejlépe vynikly charakteristické vlastnosti zkoumaných jevů
uspořádání údajů do přehledné formy včetně jejich zhuštění
jednostupňové – podle obměn jednoho znaku
vícestupňové – podle obměn více znaků najednou
Prosté rozdělení četností nespojité statistické znaky
údaje uspořádáme do rostoucí posloupnosti a každé hodnotě znaku přiřadíme počty (četnosti) příslušných statistických jednotek
Četnosti lze vyjádřit různým způsobem:
absolutní četnost ni – skutečný počet jednotek; udává, kolikrát se která hodnota znaku v souboru vyskytuje; jejich součet je roven rozsahu souboru
k
1iik321 nnnnnn
relativní četnost fi – pro porovnávání různých rozdělení, nejčastěji se vyjadřuje v %
kumulativní četnost – absolutní (Ni), relativní (Fi)
podávají informaci o tom, kolik jednotek souboru, resp. jaká poměrná část souboru má variantu znaku menší nebo rovnou určité dané obměně
N1 = n1 N2 = n1 + n2 N3 = n1 + n2 + n3
k
1iik321k nnnnnN
k
1iik321
ii 1fffff,
n
nf
Prosté rozdělení četností
Četnost Kumulativní četnost Varianta znaku xi absolutní ni relativní fi absolutní Ni relativní Fi
x1 n1 f1 n1 f1 x2 n2 f2 n1 + n2 f1 + f2
… … … … …
xk nk fk
k
1ii nn
k
1ii 1f
celkem n 1 x x
Intervalové rozdělení četnostíznak spojitý nebo diskrétní s velkým počtem
obměn
Je nutno řídit se několika pravidly: počet intervalů musí být takový, aby vynikly
podstatné a charakteristické rysy souboru
stanovení počtu intervalů
Sturgesovo pravidlonk
nlog3,31k
délka intervalu – spíše stejná
R = variační rozpětí (R = xmax – xmin)
- extrémní hodnota – otevřené intervaly
Při zařazování jednotlivých hodnot znaku do intervalů musí být jednoznačně určeno, kam kterou jednotku zařadit.
k
Rh
PříkladMáme k dispozici údaje o výdajích (Kč) vybraných domácností. Uvedená data je potřeba setřídit do přehlednější formy.
5 800 12 800 8 400 9 200 6 900 9 400 6 200 5 100 8 300 8 500 8 500 4 200 8 400 11 600 7 300 11 800 11 200 9 700 7 200 13 400 12 400 9 700 9 500 8 200 5 400 9 800 15 100 5 200 5 300 6 900
Sice jde o znak diskrétní, ale nabývá velkého počtu obměn. Proto bude vhodné uspořádat daný soubor do intervalového rozdělení četností.
Nejprve určíme počet intervalů.
477,530nk Zde je potřeba zvážit, jaký počet intervalů požadujeme. Vhodnější bude zvolení 6 intervalů.
Dále určíme šířku intervalu.
666,18166
420015100
k
Rh
Vzhledem k hodnotě, která vychází, je optimální zaokrouhlovat na celá čísla, v tomto případě na hodnotu 2000. Následně je důležité správně určit počátek prvního intervalu (blízko nejmenší hodnoty).
Výdaj (Kč) ni fi Ni Fi 4 000 – 5 999 6 0,2000 6 0,2000 6 000 – 7 999 5 0,1667 11 0,3667 8 000 – 9 999 12 0,4000 23 0,7667 10 000 – 11 999 3 0,1000 26 0,8667 12 000 – 13 999 3 0,1000 29 0,9667 14 000 – 15 999 1 0,0333 30 1,0000 celkem 30 1,0000 --- ---
V případě použití Sturgesova pravidla je počet intervalů zhruba stejný.
87,530log3,31nlog3,31k
Rozložení výdajů domácností
65
12
3 3
1
0
2
4
6
8
10
12
14
4 000 – 5 999 6 000 – 7 999 8 000 – 9 999 10 000 – 11 999 12 000 – 13 999 14 000 – 15 999
Výdaj
Čet
no
st
Procentické zastoupení jednotlivých skupin výdajů
20%
17%
40%
10%
10%3%
4 000 – 5 999
6 000 – 7 999
8 000 – 9 999
10 000 – 11 999
12 000 – 13 999
14 000 – 15 999
Příklad
Sledujeme věk pojištěnce a stáří auta u 100 klientů pojišťovny. Chceme provést základní analýzu dat.
21 27 33 39 45 51 57 63
vekpojistence
0
0.02
0.04D
e
n
s
i
t
y
Frequency Counts
Value
23.0000 24.0000 26.0000 27.0000 28.0000 29.0000 30.0000 31.0000 32.0000 34.0000 35.0000 36.0000 37.0000 38.0000 39.0000 42.0000 43.0000 45.0000 46.0000 47.0000 48.0000 49.0000 54.0000 57.0000 58.0000 59.0000
Count
2 1 1 5 2 3 1 3 3 6 4 2 11 5 6 2 2 4 13 5 7 4 2 2 2 2
Cell Percent
2.0 1.0 1.0 5.0 2.0 3.0 1.0 3.0 3.0 6.0 4.0 2.0 11.0 5.0 6.0 2.0 2.0 4.0 13.0 5.0 7.0 4.0 2.0 2.0 2.0 2.0
Cum Percent
2.0 3.0 4.0 9.0 11.0 14.0 15.0 18.0 21.0 27.0 31.0 33.0 44.0 49.0 55.0 57.0 59.0 63.0 76.0 81.0 88.0 92.0 94.0 96.0 98.0 100.0
Věk pojištěnce
21 27 33 39 45 51 57 63
vekpojistence
0
0.02
0.04D
e
n
s
i
t
y
30 40 50
vekpojistence
vekpojiste
Moments
N 100.0000Mean 40.1100Std Dev 8.6945Skewness 0.1212USS 168365.000CV 21.6766
Sum Wgts 100.0000Sum 4011.0000Variance 75.5938Kurtosis -0.5578CSS 7483.7900Std Mean 0.8694
Kmen List # 58 0000 4 56 00 2 54 00 2 52 50 48 00000000000 11 46 000000000000000000 18 44 0000 4 42 0000 4 40 38 00000000000 11 36 0000000000000 13 34 0000000000 10 32 000 3 30 0000 4 28 00000 5 26 000000 6 24 0 1 22 00 2
Rozložení věku pojištěnců
0
2
4
6
8
10
12
14
23 24 26 27 28 29 30 31 32 34 35 36 37 38 39 42 43 45 46 47 48 49 54 57 58 59
Věk
Če
tno
st
Stáří auta
0.0 1.5 3.0 4.5 6.0 7.5 9.0 10.5
stariauta
0
0.1
0.2D
e
n
s
i
t
y
Frequency Counts
Value
1.0000 2.0000 3.0000 4.0000 5.0000 6.0000 7.0000 8.0000 9.0000 10.0000
Count
10 19 27 10 9 7 8 5 3 2
Cell Percent
10.0 19.0 27.0 10.0 9.0 7.0 8.0 5.0 3.0 2.0
Cum Percent
10.0 29.0 56.0 66.0 75.0 82.0 90.0 95.0 98.0 100.0
Moments
N 100.0000Mean 3.9900Std Dev 2.3116Skewness 0.8135USS 2121.0000CV 57.9340
Sum Wgts 100.0000Sum 399.0000Variance 5.3433Kurtosis -0.2004CSS 528.9900Std Mean 0.2312
2 4 6 8 10
stariauta
stariauta
0.0 4.5 9.0
stariauta
0
0.1
0.2D
e
n
s
i
t
y
Věk auta - procentické zastoupení
10%
19%
27%10%
9%
7%
8%
5%3% 2%
1
2
3
4
5
6
7
8
9
10
30
40
50
v
e
k
p
o
j
i
s
t
e
n
1 2 3 4 5 6 7 8 9 10
stariauta
Základní statistické charakteristiky
Rozlišujeme charakteristiky:
polohy (úrovně),
variability (rozptýlenosti, měnlivosti),
šikmosti (asymetrie),
špičatosti.
Charakteristiky polohy (střední hodnoty)
a) průměry – počítají se ze všech hodnot souboru,
b) ostatní střední hodnoty – jsou založeny pouze na některých vybraných hodnotách souboru.
Mohou být vyjádřeny ve formě:
prosté – není provedeno třídění,
vážené – bylo provedeno třídění.
Průměr
aritmetický – nejčastější
geometrický – časové řady, indexní analýza
harmonický – indexní analýza
chronologický – časové řady
Prostý aritmetický průměr
Vážený aritmetický průměr
k
1ii
k
1iii
k21
kk2211
n
nx
nnn
nxnxnxx
n
x
n
xxxx
n
1ii
n21
Vlastnosti aritmetického průměruSoučet jednotlivých odchylek od průměru je
nulový.Aritmetický průměr konstanty je opěr roven
konstantě.Přičteme-li k jednotlivým hodnotám znaku
konstantu, zvýší se o tuto konstantu i aritmetický průměr.
Násobíme-li jednotlivé hodnoty konstantou, je touto konstantou násoben i průměr.
Násobíme-li váhy aritmetického průměru konstantou, průměr se nezmění.
Je-li statistický soubor rozdělen do dílčích podsouborů, v nichž známe dílčí průměry
a počty pozorování n1, n2, …, nk, pak průměr celkového souboru je váženým aritmetickým průměrem těchto dílčích průměrů, kde vahami jsou četnosti těchto podsouborů. Platí tedy
k1 x...,,x
k
1ii
k
1iii
n
nxx
PříkladZajímá nás průměrný věk pojištěných aut. Vzhledem k provedenému třídění (prosté rozdělení četností) je nutno použít vážené formy aritmetického průměru.
Frequency Counts
Value
1.0000 2.0000 3.0000 4.0000 5.0000 6.0000 7.0000 8.0000 9.0000 10.0000
Count
10 19 27 10 9 7 8 5 3 2
Cell Percent
10.0 19.0 27.0 10.0 9.0 7.0 8.0 5.0 3.0 2.0
Cum Percent
10.0 29.0 56.0 66.0 75.0 82.0 90.0 95.0 98.0 100.0
)rok(99,3100
399x
100
2103958877695104273192101x
Průměrný věk auta je 3,99 roku, tzn. zhruba 4 roky.
i
ii
n
nxx
Výpočet aritmetického průměru z intervalového rozdělení četností
- vždy se použije vzorec pro váženou formu,
- je potřeba zastoupit interval jednou hodnotou,
- je-li interval uzavřený, potom se předpokládá, že průměr v každém intervalu je roven jeho středu a jednotlivé intervaly nahrazujeme jejich středy,
- dopouštíme se však chyby, jejíž maximum je rovno polovině délky intervalu,
- pokud interval není uzavřen (dolní nebo horní), pak v takovém případě se interval považuje za stejně široký jako bezprostředně následující (předcházející) interval.
PříkladZajímá nás průměrná výše měsíčních výdajů sledovaných domácností.
Výdaj (Kč) ni xi xi.ni 4 000 – 5 999 6 5 000 30 000 6 000 – 7 999 5 7 000 35 000 8 000 – 9 999 12 9 000 108 000 10 000 – 11 999 3 11 000 33 000 12 000 – 13 999 3 13 000 39 000 14 000 – 15 999 1 15 000 15 000 celkem 30 --- 260 000
67,866630
260000
n
nxx
i
ii
Určení středu intervalu
Je možné určit jako průměr dolní a horní meze v rámci jednoho intervalu nebo v případě stejně širokých intervalů jako průměr dvou po sobě jdoucích mezí.
5,49992
59994000
50002
60004000
Univerzální způsob
Použitelné pouze tehdy, jestliže všechny intervaly mají stejnou šířku.
Harmonický průměr
Geometrický průměr
n
1i i
H
x1
nx
k
1i i
i
k
1ii
H
xn
nx
n
n
1ii
nn21G xxxxx
Ostatní střední hodnoty
Medián
- prostřední hodnota řady pozorování, uspořádané podle velikosti
- rozsah souboru je vyjádřen lichým číslem – mediánem bude hodnota s pořadovým číslem
- rozsah souboru je vyjádřen sudým číslem – mediánem je průměr dvou prostředních hodnot
- je málo citlivý k odlehlým hodnotám
Modus
- nejčetnější hodnota znaku
x~
x̂
2
1n
Aritmetický průměr se má používat: jestliže data jsou získána minimálně v intervalovém
měřítku (tzn. průměr neužíváme pro údaje kategoriální),
jestliže je rozdělení symetrické, jestliže chceme použít statistické testy.
Medián se má použít: jestliže data jsou získána minimálně v ordinálním
měřítku (pořadové znaky), jestliže chceme znát střed rozdělení dat, jestliže data mohou obsahovat odlehlé hodnoty, jestliže rozdělení dat je silně zešikmené.
Modus se má použít:
jestliže rozdělení má více vrcholů,
jestliže chceme získat o rozdělení jenom základní přehled,
jestliže se slovem „průměrně“ míní nejčastější hodnota,
nalézá uplatnění především u kategoriálních dat.
V případě, že data jsou symetricky rozdělená, všechny uvedené charakteristiky jsou přibližně stejné.
Příklad – výsledky zkoušky z TP 2006/2007Výsledky (známky) jsou následující:
1, 3, 3, 2, 4, 2, 3, 4, 1, 3, ………….
Vhodnější je uspořádat výsledky do tabulky prostého rozdělení četností.
xi ni fi Ni Fi
1 18 0,0878 18 0,0878
2 49 0,2390 67 0,3268
3 72 0,3512 139 0,6780
4 60 0,2927 199 0,9707
neúčast 6 0,0293 205 1
Celkem 205 1 X X
Výsledky zkoušky z TP
0
10
20
30
40
50
60
70
1 2 3 4 neúčast
Známka
Poče
t stu
dent
ů
Výsledky zkoušky z TP
18
49
72
60
6
0
10
20
30
40
50
60
70
80
1 2 3 4 neúčast
Známka
Poče
t stu
dent
ů
Výsledky zkoušky
8,78%
23,90%
35,12%
2,93%
29,27%
1 2 3 4 neúčast
Průměrná známka z předmětu
Forma prostá
Forma vážená
3x~Medián
Modus
3x̂
87,2199
572
60724918
604723492181x
199
3143242331x
Závěry
zkoušky se celkem zúčastnilo 199 studentů,
6 studentů, tj. 2,93 % se ke zkoušce nedostavilo,
35,12 % studentů získalo známku dobře,
67 studentů, tj. 32,68 % studentů II. ročníku získalo známku výborně nebo velmi dobře,
podle grafu rozdělení četností jde o soubor jednovrcholový s mírnou levostrannou asymetrií a relativně souměrný okolo hlavního vrcholu,
průměrná známka z tohoto předmětu 2,87
nejčastější obdrženou známkou byla 3