„statistika nuda je, …“
DESCRIPTION
„Statistika nuda je, …“. Martina Litschmannová VŠB-TU Ostrava, Fakulta elektrotechniky a informatiky, Katedra aplikované matematiky. „Statistika nuda je, …“ Nebo není?. Martina Litschmannová VŠB-TU Ostrava, Fakulta elektrotechniky a informatiky, Katedra aplikované matematiky. - PowerPoint PPT PresentationTRANSCRIPT
![Page 1: „Statistika nuda je, …“](https://reader035.vdocuments.mx/reader035/viewer/2022081722/56815ac5550346895dc89257/html5/thumbnails/1.jpg)
„Statistika nuda je, …“
Martina LitschmannováVŠB-TU Ostrava, Fakulta elektrotechniky a informatiky,
Katedra aplikované matematiky
![Page 2: „Statistika nuda je, …“](https://reader035.vdocuments.mx/reader035/viewer/2022081722/56815ac5550346895dc89257/html5/thumbnails/2.jpg)
„Statistika nuda je, …“Nebo není?
Martina LitschmannováVŠB-TU Ostrava, Fakulta elektrotechniky a informatiky,
Katedra aplikované matematiky
![Page 3: „Statistika nuda je, …“](https://reader035.vdocuments.mx/reader035/viewer/2022081722/56815ac5550346895dc89257/html5/thumbnails/3.jpg)
Čím se zabývá statistika?
Motto:Chceme-li vědět, jak chutná víno v sudu,
nemusíme vypít celý sud. Stačí jenom malý doušek a víme, na čem jsme.
![Page 4: „Statistika nuda je, …“](https://reader035.vdocuments.mx/reader035/viewer/2022081722/56815ac5550346895dc89257/html5/thumbnails/4.jpg)
Čím se zabývá statistika?
• proměnné (znaky, veličiny) - údaje, které u výběrového souboru sledujeme• varianty proměnné – jednotlivé obměny (hodnoty) proměnných
![Page 5: „Statistika nuda je, …“](https://reader035.vdocuments.mx/reader035/viewer/2022081722/56815ac5550346895dc89257/html5/thumbnails/5.jpg)
Co je to exploratorní statistika?(EDA)
• Exploratorní = popisná
• Exploratory Data Analysis– uspořádání proměnných do názornější formy a
jejich popis několika málo hodnotami, které by obsahovaly co největší množství informací obsažených v původním souboru.
![Page 6: „Statistika nuda je, …“](https://reader035.vdocuments.mx/reader035/viewer/2022081722/56815ac5550346895dc89257/html5/thumbnails/6.jpg)
Typy proměnných
Typy proměnných
Kvalitativní proměnná
(kategoriální, slovní...)Ordinální proměnná
(lze uspořádat)
Nominální proměnná(nelze uspořádat)
Kvantitativní proměnná (numerická,
číselná ...)
![Page 7: „Statistika nuda je, …“](https://reader035.vdocuments.mx/reader035/viewer/2022081722/56815ac5550346895dc89257/html5/thumbnails/7.jpg)
EDA pro kategoriální data
![Page 8: „Statistika nuda je, …“](https://reader035.vdocuments.mx/reader035/viewer/2022081722/56815ac5550346895dc89257/html5/thumbnails/8.jpg)
Kategoriální proměnná nominální (nemá smysl uspořádání)
(např. Okres, Kraj, Pohlaví, …)
![Page 9: „Statistika nuda je, …“](https://reader035.vdocuments.mx/reader035/viewer/2022081722/56815ac5550346895dc89257/html5/thumbnails/9.jpg)
Číselné charakteristiky
TABULKA ROZDĚLENÍ ČETNOSTI
Variantyxi
Absolutní četnostini
Relativní četnostipi
x1 n1
x2 n2
xk nk
Celkem: 1
+ Modus (název nejčetnější varianty)
![Page 10: „Statistika nuda je, …“](https://reader035.vdocuments.mx/reader035/viewer/2022081722/56815ac5550346895dc89257/html5/thumbnails/10.jpg)
Číselné charakteristiky
TABULKA ROZDĚLENÍ ČETNOSTI
Pohlaví Absolutní četnosti Relativní četnosti[%]
Muž 457 58,2
Žena 328 41,8
Celkem: 785 100,0
Modus = Muž
![Page 11: „Statistika nuda je, …“](https://reader035.vdocuments.mx/reader035/viewer/2022081722/56815ac5550346895dc89257/html5/thumbnails/11.jpg)
Grafické znázornění
A) Sloupcový graf (bar chart)
Výborně Chvalitebně Prospěl Neprospěl0
5
10
15
20
25Počet
![Page 12: „Statistika nuda je, …“](https://reader035.vdocuments.mx/reader035/viewer/2022081722/56815ac5550346895dc89257/html5/thumbnails/12.jpg)
Grafické znázornění
A) Sloupcový graf (bar chart)
VýborněChvalitebně
ProspělNeprospěl
02468
101214161820Počet
![Page 13: „Statistika nuda je, …“](https://reader035.vdocuments.mx/reader035/viewer/2022081722/56815ac5550346895dc89257/html5/thumbnails/13.jpg)
Grafické znázornění
A) Sloupcový graf (bar chart)
VýborněChvalitebně
ProspělNeprospěl
02468
101214161820Počet
![Page 14: „Statistika nuda je, …“](https://reader035.vdocuments.mx/reader035/viewer/2022081722/56815ac5550346895dc89257/html5/thumbnails/14.jpg)
Grafické znázornění
A) Sloupcový graf (bar chart)
VýborněChvalitebně
ProspělNeprospěl
02468
101214161820Počet
![Page 15: „Statistika nuda je, …“](https://reader035.vdocuments.mx/reader035/viewer/2022081722/56815ac5550346895dc89257/html5/thumbnails/15.jpg)
Grafické znázornění
A) Sloupcový graf (bar chart)
VýborněChvalitebně
ProspělNeprospěl
02468
101214161820Počet
![Page 16: „Statistika nuda je, …“](https://reader035.vdocuments.mx/reader035/viewer/2022081722/56815ac5550346895dc89257/html5/thumbnails/16.jpg)
Grafické znázornění
A) Sloupcový graf (bar chart)
VýborněChvalitebně
ProspělNeprospěl
02468
101214161820Počet
![Page 17: „Statistika nuda je, …“](https://reader035.vdocuments.mx/reader035/viewer/2022081722/56815ac5550346895dc89257/html5/thumbnails/17.jpg)
Grafické znázornění
B) Výsečový graf – koláčový graf (pie chart)
5; 12%
10; 24%
20; 48%
7; 17%
VýborněChvalitebněProspělNeprospěl
5; 12%10;
24%
20; 48%
7; 17%
VýborněChvalitebněProspělNeprospěl
![Page 18: „Statistika nuda je, …“](https://reader035.vdocuments.mx/reader035/viewer/2022081722/56815ac5550346895dc89257/html5/thumbnails/18.jpg)
Grafické znázornění
B) Výsečový graf – koláčový graf (pie chart)
5; 12%
10; 24%
20; 48%
7; 17%
VýborněChvalitebněProspělNeprospěl
5; 12%10;
24%
20; 48%
7; 17%
VýborněChvalitebněProspělNeprospěl
![Page 19: „Statistika nuda je, …“](https://reader035.vdocuments.mx/reader035/viewer/2022081722/56815ac5550346895dc89257/html5/thumbnails/19.jpg)
Anketa
Jste pro rozšíření úředních hodin na ÚP? (2x týdně do 20h)
50%50%
PRO PROTI
TAKHLE NE!!!
![Page 20: „Statistika nuda je, …“](https://reader035.vdocuments.mx/reader035/viewer/2022081722/56815ac5550346895dc89257/html5/thumbnails/20.jpg)
Kategoriální proměnná ordinální (má smysl uspořádání)
(např. míra nezaměstnanosti (nízká, střední, vysoká), kvalita poskytovaných služeb, …)
![Page 21: „Statistika nuda je, …“](https://reader035.vdocuments.mx/reader035/viewer/2022081722/56815ac5550346895dc89257/html5/thumbnails/21.jpg)
Číselné charakteristikyTABULKA ROZDĚLENÍ ČETNOSTI
Variantyxi
Absolutní četnostini
Relativní četnostipi
Kumulativní četnostimi
Kumulativní relativní četnosti
Fi
x1 n1
x2 n2
xk nk
Celkem: 1
+ Modus
Seřa
zené
pod
le v
elik
osti
![Page 22: „Statistika nuda je, …“](https://reader035.vdocuments.mx/reader035/viewer/2022081722/56815ac5550346895dc89257/html5/thumbnails/22.jpg)
Číselné charakteristiky
TABULKA ROZDĚLENÍ ČETNOSTI
Míra nezaměstnanosti
Absolutní četnosti
Relativní četnosti
[%)
Kumulativní četnosti
Kumulativní relativní četnosti
[%)
nízká 27 13,6 27 13,6
střední 146 73,7 173 87,4
vysoká 25 12,6 198 100,0
Celkem: 198 100,0
Modus = střední
![Page 23: „Statistika nuda je, …“](https://reader035.vdocuments.mx/reader035/viewer/2022081722/56815ac5550346895dc89257/html5/thumbnails/23.jpg)
Grafické znázornění
A) Sloupcový graf (bar chart)
B) Výsečový graf – koláčový graf (pie chart)
![Page 24: „Statistika nuda je, …“](https://reader035.vdocuments.mx/reader035/viewer/2022081722/56815ac5550346895dc89257/html5/thumbnails/24.jpg)
EDA pro numerická data
![Page 25: „Statistika nuda je, …“](https://reader035.vdocuments.mx/reader035/viewer/2022081722/56815ac5550346895dc89257/html5/thumbnails/25.jpg)
Číselné charakteristiky
A) Míry polohyB) Míry variability
![Page 26: „Statistika nuda je, …“](https://reader035.vdocuments.mx/reader035/viewer/2022081722/56815ac5550346895dc89257/html5/thumbnails/26.jpg)
Míry polohy
![Page 27: „Statistika nuda je, …“](https://reader035.vdocuments.mx/reader035/viewer/2022081722/56815ac5550346895dc89257/html5/thumbnails/27.jpg)
Aritmetický průměr
n
xx
n
ii
1
![Page 28: „Statistika nuda je, …“](https://reader035.vdocuments.mx/reader035/viewer/2022081722/56815ac5550346895dc89257/html5/thumbnails/28.jpg)
Geometrický průměr
• Pracujeme-li s nezápornou proměnnou představující relativní změny (růstové indexy, cenové indexy, koeficienty růstu...).
nnxxxx 21
![Page 29: „Statistika nuda je, …“](https://reader035.vdocuments.mx/reader035/viewer/2022081722/56815ac5550346895dc89257/html5/thumbnails/29.jpg)
Předloni byla výše ročního platu zaměstnance ve firmě 200 000 Kč, loni 220 000 Kč a letos 250 000 Kč. Jaký je průměrný koeficient růstu jeho platu?
Plat [Kč] Koeficient růstu
Relativní přírůstek [%]
předloni 200 000
loni 220 000 10,0%
letos 250 000 13,6%
![Page 30: „Statistika nuda je, …“](https://reader035.vdocuments.mx/reader035/viewer/2022081722/56815ac5550346895dc89257/html5/thumbnails/30.jpg)
Průměr není rezistentní vůči odlehlým pozorováním
!!!!
![Page 31: „Statistika nuda je, …“](https://reader035.vdocuments.mx/reader035/viewer/2022081722/56815ac5550346895dc89257/html5/thumbnails/31.jpg)
Kvantily
100p %-ní kvantil xp odděluje 100p% menších hodnot od zbytku souboru
(100p% hodnot datového souboru je menších než toto číslo.)
![Page 32: „Statistika nuda je, …“](https://reader035.vdocuments.mx/reader035/viewer/2022081722/56815ac5550346895dc89257/html5/thumbnails/32.jpg)
Význačné kvantily
• KvartilyDolní kvartil x0,25
Medián x0,5 Horní kvartil x0,75
• Decily – x0,1; x0,2; ... ; x0,9
• Percentily – x0,01; x0,02; …; x0,99
• Minimum xmin a Maximum xmax
![Page 33: „Statistika nuda je, …“](https://reader035.vdocuments.mx/reader035/viewer/2022081722/56815ac5550346895dc89257/html5/thumbnails/33.jpg)
Interkvartilové rozpětí
25,075,0 xxIQR
Užití: např. při identifikaci odlehlých pozorování
![Page 34: „Statistika nuda je, …“](https://reader035.vdocuments.mx/reader035/viewer/2022081722/56815ac5550346895dc89257/html5/thumbnails/34.jpg)
Identifikace odlehlých pozorování• Metoda vnitřních hradeb
mpozorováníodlehlýmjexIQRxxIQRxx iii 5,15,1 75,025,0
Dolní mez vnitřních hradeb
Horní mez vnitřních hradeb
![Page 35: „Statistika nuda je, …“](https://reader035.vdocuments.mx/reader035/viewer/2022081722/56815ac5550346895dc89257/html5/thumbnails/35.jpg)
Identifikace extrémních pozorování• Metoda vnějších hradeb
mpozorováníodlehlýmjexIQRxxIQRxx i,i,i 33 750250
Dolní mez vnějších hradeb
Horní mez vnějších hradeb
![Page 36: „Statistika nuda je, …“](https://reader035.vdocuments.mx/reader035/viewer/2022081722/56815ac5550346895dc89257/html5/thumbnails/36.jpg)
PříkladV předložených datech identifikujte odlehlá pozorování:
MN [%]8,77,86,86,87,89,7
15,76,84,96,8
![Page 37: „Statistika nuda je, …“](https://reader035.vdocuments.mx/reader035/viewer/2022081722/56815ac5550346895dc89257/html5/thumbnails/37.jpg)
MN [%]4,96,86,86,86,87,87,88,79,7
15,7
MN0,5=7,3
MN0,25=6,8
MN0,75=8,7
IQR=MN0,75-MN0,25=1,9
Vnitřní hradby:Dolní mez: 6,8-2,85=3,95 Horní mez: 8,7+2,85=11,55
1,5.IQR=2,85
PříkladV předložených datech identifikujte odlehlá pozorování:
![Page 38: „Statistika nuda je, …“](https://reader035.vdocuments.mx/reader035/viewer/2022081722/56815ac5550346895dc89257/html5/thumbnails/38.jpg)
MN [%]4,96,86,86,86,87,87,88,79,7
15,7
MN0,5=7,3
MN0,25=6,8
MN0,75=8,7
IQR=MN0,75-MN0,25=1,9
Vnitřní hradby:Dolní mez: 6,8-2,85=3,95 Horní mez: 8,7+2,85=11,55
1,5.IQR=2,85
PříkladV předložených datech identifikujte odlehlá pozorování:
![Page 39: „Statistika nuda je, …“](https://reader035.vdocuments.mx/reader035/viewer/2022081722/56815ac5550346895dc89257/html5/thumbnails/39.jpg)
MN [%]4,96,86,86,86,87,87,88,79,7
15,7
MN0,5=7,3
MN0,25=6,8
MN0,75=8,7
IQR=MN0,75-MN0,25=1,9
Vnitřní hradby:Dolní mez: 6,8-2,85=3,95 Horní mez: 8,7+2,85=11,55
1,5.IQR=2,85
PříkladV předložených datech identifikujte odlehlá pozorování:
![Page 40: „Statistika nuda je, …“](https://reader035.vdocuments.mx/reader035/viewer/2022081722/56815ac5550346895dc89257/html5/thumbnails/40.jpg)
Míry variability
![Page 41: „Statistika nuda je, …“](https://reader035.vdocuments.mx/reader035/viewer/2022081722/56815ac5550346895dc89257/html5/thumbnails/41.jpg)
Výběrový rozptyl
1
1
2
2
n
xxs
n
ii
![Page 42: „Statistika nuda je, …“](https://reader035.vdocuments.mx/reader035/viewer/2022081722/56815ac5550346895dc89257/html5/thumbnails/42.jpg)
Nevýhoda výběrového rozptylu
Rozměr rozptylu charakteristiky je druhou mocninou rozměru proměnné.
![Page 43: „Statistika nuda je, …“](https://reader035.vdocuments.mx/reader035/viewer/2022081722/56815ac5550346895dc89257/html5/thumbnails/43.jpg)
Výběrová směrodatná odchylka
1
1
2
2
n
xxss
n
ii
![Page 44: „Statistika nuda je, …“](https://reader035.vdocuments.mx/reader035/viewer/2022081722/56815ac5550346895dc89257/html5/thumbnails/44.jpg)
Nevýhoda výb. směr. odchylky a výb. rozptylu
Neumožňují srovnání rozptylu proměnných, které mají různé rozměry (jednotky).
![Page 45: „Statistika nuda je, …“](https://reader035.vdocuments.mx/reader035/viewer/2022081722/56815ac5550346895dc89257/html5/thumbnails/45.jpg)
Variační koeficient
%100x
sVx
(Směrodatná odchylka v procentech aritmetického průměru)
• Čím nižší var. koeficient, tím homogennější soubor.
• Vx>50% značí silně rozptýlený soubor.
![Page 46: „Statistika nuda je, …“](https://reader035.vdocuments.mx/reader035/viewer/2022081722/56815ac5550346895dc89257/html5/thumbnails/46.jpg)
Výběrová špičatost (normovaná)
32
13
321
1 2
41
4
nn
n
s
xx
nnn
nnb
n
ii
0
10
20
30
40
50
60
70
1 2 3 4 5 6 7
0
20
40
60
80
100
1 2 3 4 5 6 7
0
5
10
15
20
25
30
1 2 3 4 5 6 7
b=0 b>0 b<0
Popisuje koncentraci dat kolem průměru.
![Page 47: „Statistika nuda je, …“](https://reader035.vdocuments.mx/reader035/viewer/2022081722/56815ac5550346895dc89257/html5/thumbnails/47.jpg)
Výběrová šikmost
3
1
3
21 s
xx
nn
na
n
ii
0
10
20
30
40
50
60
1 2 3 4 5 6 7
0
10
20
30
40
50
60
1 2 3 4 5 6 7
0
10
20
30
40
50
60
1 2 3 4 5 6 7
a=0 a>0 a<0
Popisuje tvar rozdělení (histogramu).
![Page 48: „Statistika nuda je, …“](https://reader035.vdocuments.mx/reader035/viewer/2022081722/56815ac5550346895dc89257/html5/thumbnails/48.jpg)
Jaký je vztah mezi šikmostí, mediánem a průměrem?
Symetrická data Pozitivně zešikmená data
Negativně zešikmená data
0
10
20
30
40
50
60
1 2 3 4 5 6 7
0
10
20
30
40
50
60
1 2 3 4 5 6 7
0
10
20
30
40
50
60
1 2 3 4 5 6 7
Průměr = medián
Polovina dat.souboru je menší než průměr
Průměr > medián Průměr < medián
Nadpoloviční většina dat.souboru je menší než průměr
Nadpoloviční většina dat.souboru je větší než průměr
![Page 49: „Statistika nuda je, …“](https://reader035.vdocuments.mx/reader035/viewer/2022081722/56815ac5550346895dc89257/html5/thumbnails/49.jpg)
Přesnost číselných charakteristik
Směrodatnou odchylku jakožto míru nejistoty měření zaokrouhlujeme nahoru na jednu, maximálně dvě platné cifry a míry polohy (průměr, kvantily…) zaokrouhlujeme tak, aby nejnižší zapsaný řád odpovídal nejnižšímu zapsanému řádu směrodatné odchylky.
![Page 50: „Statistika nuda je, …“](https://reader035.vdocuments.mx/reader035/viewer/2022081722/56815ac5550346895dc89257/html5/thumbnails/50.jpg)
Přesnost číselných charakteristik
Délka [m] Váha [kg] Teplota [0C]
Průměr 2,26 127,6 14 567Medián 2,675 117,8 13 700Směrodatná odchylka 0,78 23,7 1 200
(před zaokrouhlením 1235)
Proč je zápis chybný?
![Page 51: „Statistika nuda je, …“](https://reader035.vdocuments.mx/reader035/viewer/2022081722/56815ac5550346895dc89257/html5/thumbnails/51.jpg)
Přesnost číselných charakteristik
Délka [m] Váha [kg] Teplota [0C]
Průměr 2,26 127,6 14 567Medián 2,675 117,8 13 700Směrodatná odchylka 0,78 23,7 1 200
(před zaokrouhlením 1235)
Proč je zápis chybný?
Různý počet des.
míst.
![Page 52: „Statistika nuda je, …“](https://reader035.vdocuments.mx/reader035/viewer/2022081722/56815ac5550346895dc89257/html5/thumbnails/52.jpg)
Přesnost číselných charakteristik
Délka [m] Váha [kg] Teplota [0C]
Průměr 2,26 127,6 14 567Medián 2,675 117,8 13 700Směrodatná odchylka 0,78 23,7 1 200
(před zaokrouhlením 1235)
Proč je zápis chybný?
Různý počet des.
míst.
3 platné cifry
u směrodatné
odchylky.
![Page 53: „Statistika nuda je, …“](https://reader035.vdocuments.mx/reader035/viewer/2022081722/56815ac5550346895dc89257/html5/thumbnails/53.jpg)
Přesnost číselných charakteristik
Délka [m] Váha [kg] Teplota [0C]
Průměr 2,26 127,6 14 567Medián 2,675 117,8 13 700Směrodatná odchylka 0,78 23,7 1 200
(před zaokrouhlením 1235)
Proč je zápis chybný?
Různý počet des.
míst.
3 platné cifry
u směrodatné
odchylky.
Nejnižší zapsaný řád průměru (jednotky)
neodpovídá nejnižšímu zapsanému řádu směrodatné
odchylky (stovky).
![Page 54: „Statistika nuda je, …“](https://reader035.vdocuments.mx/reader035/viewer/2022081722/56815ac5550346895dc89257/html5/thumbnails/54.jpg)
Přesnost číselných charakteristik
Délka [m] Váha [kg] Teplota [0C]
Průměr 2,26 127,6 14 567Medián 2,675 117,8 13 700Směrodatná odchylka 0,78 23,7 1 200
(před zaokrouhlením 1235)
SPRÁVNĚ
Délka [m] Váha [kg] Teplota [0C]
Průměr 2,26 128 14 600Medián 2,68 118 13 700Směrodatná odchylka 0,78 24 1 200
![Page 55: „Statistika nuda je, …“](https://reader035.vdocuments.mx/reader035/viewer/2022081722/56815ac5550346895dc89257/html5/thumbnails/55.jpg)
Grafické znázornění num. proměnné
A.) Krabicový graf (Box plot)
![Page 56: „Statistika nuda je, …“](https://reader035.vdocuments.mx/reader035/viewer/2022081722/56815ac5550346895dc89257/html5/thumbnails/56.jpg)
Grafické znázornění num. proměnné
B.) Histogram<5
,2; 5
,7>
(5,7
; 6,3
>
(6,3
; 6,8
>
(6,8
; 7,3
>
(7,3
; 7,9
>
(7,9
; 8,4
>
(8,4
; 9>
(9; 9
,5>
(9,5
; 10>
(10;
10,
6>
(10,
6; 1
1,1>
(11,
1; 1
1,6>
(11,
6; 1
2,2>
(12,
2; 1
2,7>
(12,
7; 1
3,2>
(13,
2; 1
3,8>
(13,
8; 1
4,3>
(14,
3; 1
4,8>
(14,
8; 1
5,4>
0
2
4
6
8
10
12
14
Míra nezaměstnanosti [%]
Četnost
![Page 57: „Statistika nuda je, …“](https://reader035.vdocuments.mx/reader035/viewer/2022081722/56815ac5550346895dc89257/html5/thumbnails/57.jpg)
Grafické znázornění num. proměnné
B.) Histogram
![Page 58: „Statistika nuda je, …“](https://reader035.vdocuments.mx/reader035/viewer/2022081722/56815ac5550346895dc89257/html5/thumbnails/58.jpg)
Souvislosti mezi číselnými charakteristikami a grafickým znázorněním numerické proměnné
Java animace: Výběrové charakteristiky (jar)http://mi21.vsb.cz/modul/uvod-do-statistiky
![Page 59: „Statistika nuda je, …“](https://reader035.vdocuments.mx/reader035/viewer/2022081722/56815ac5550346895dc89257/html5/thumbnails/59.jpg)
Analýza závislostí
![Page 60: „Statistika nuda je, …“](https://reader035.vdocuments.mx/reader035/viewer/2022081722/56815ac5550346895dc89257/html5/thumbnails/60.jpg)
K čemu slouží analýza závislosti?
Analýza vztahů mezi dvojicemi znaků pozorovanými u statistických jednotek (pozorovaných osob nebo jiných objektů)
Např:• Vztah mezi vzděláním klienta a délkou jeho registrace na ÚP (do 6 měsíců, 6-12 měsíců, více než 12 měsíců).
• Vztah mezi počtem ekonomicky aktivních obyvatel a celkovým počtem nezaměstnaných.
![Page 61: „Statistika nuda je, …“](https://reader035.vdocuments.mx/reader035/viewer/2022081722/56815ac5550346895dc89257/html5/thumbnails/61.jpg)
Jaké jsou základní metody analýzy závislosti?
Typ znaku Y
kategoriální diskrétní spojitá
Typ znaku X
kategoriálníanalýza závislosti v kontingenčních
tabulkách,
diskrétníanalýza závislosti ordinálních znaků
spojitá
analýza závislosti
v normálním rozdělení
![Page 62: „Statistika nuda je, …“](https://reader035.vdocuments.mx/reader035/viewer/2022081722/56815ac5550346895dc89257/html5/thumbnails/62.jpg)
Analýza kontingenčních tabulek
Flash animace: Analýza závislosti dvou kategoriálních veličin (swf)
http://mi21.vsb.cz/flash-animace/analyza-zavislosti-dvou-kategorialnich-velicin
(str. 1 – 36)
![Page 63: „Statistika nuda je, …“](https://reader035.vdocuments.mx/reader035/viewer/2022081722/56815ac5550346895dc89257/html5/thumbnails/63.jpg)
Úvod do korelační analýzy
Co je to korelační koeficient?Míra LINEÁRNÍ závislosti mezi dvěma numerickými proměnnými.
Jakých nabývá hodnot?<-1;1>
Co si představit pod konkrétní hodnotou korel. koeficientu?
http://mi21.vsb.cz/modul/vybrane-kapitoly-z-pravdepodobnostiJava applet: Korelační koeficient (jar)
![Page 64: „Statistika nuda je, …“](https://reader035.vdocuments.mx/reader035/viewer/2022081722/56815ac5550346895dc89257/html5/thumbnails/64.jpg)
Úvod do korelační analýzy
Pearsonův vs. Spearmanův korelační koeficient
Obě numerické proměnné musí být výběrem z normálního rozdělení.
![Page 65: „Statistika nuda je, …“](https://reader035.vdocuments.mx/reader035/viewer/2022081722/56815ac5550346895dc89257/html5/thumbnails/65.jpg)
Velmi stručný úvod do regresní analýzy
![Page 66: „Statistika nuda je, …“](https://reader035.vdocuments.mx/reader035/viewer/2022081722/56815ac5550346895dc89257/html5/thumbnails/66.jpg)
160 165 170 175 180 185 190 195
160
170
180
190
Výška otce
Výš
ka s
yna
Vysvětlující (nezávisle) proměnná
Vysv
ětlo
vaná
(z
ávis
le)
prom
ěnná
Regresní model(vyrovnávací křivka)
Korelační pole (rozptylogram)
Naměřená hodnota yi
Vyrovnaná hodnota iy Reziduum ei
iii yye ˆ
xi
![Page 67: „Statistika nuda je, …“](https://reader035.vdocuments.mx/reader035/viewer/2022081722/56815ac5550346895dc89257/html5/thumbnails/67.jpg)
Jak posoudit kvalitu regresního modelu?
• Index determinace R2 – udává kolik procent celkového rozptylu bylo vysvětleno modelem– Hodnoty 0-1 (resp. 0-100 %)– Čím větší, tím lepší
•Předpoklady lineárního regresního modelu:– Rezidua jsou rovnoměrně rozložena kolem nuly.– Histogram reziduí je symetrický, jeho tvar odpovídá
přibližně Gaussově křivce.– Rozptyl reziduí je konstantní.– Graf reziduí nevykazuje funkční závislost.
![Page 68: „Statistika nuda je, …“](https://reader035.vdocuments.mx/reader035/viewer/2022081722/56815ac5550346895dc89257/html5/thumbnails/68.jpg)
EDA pro časové řady
![Page 69: „Statistika nuda je, …“](https://reader035.vdocuments.mx/reader035/viewer/2022081722/56815ac5550346895dc89257/html5/thumbnails/69.jpg)
Co je to časová řada?
• numerická proměnná, jejíž hodnoty podstatně závisí na čase, v němž byly získány. Časové okamžiky, kdy byla data získána, jsou od sebe většinou stejně vzdáleny.
• Např.:– počty nezaměstnaných v jednotlivých měsících, – počty automobilových nehod na Barandovském mostě
v jednotlivých měsících, – denní produkce mléka Veselé krávy.
![Page 70: „Statistika nuda je, …“](https://reader035.vdocuments.mx/reader035/viewer/2022081722/56815ac5550346895dc89257/html5/thumbnails/70.jpg)
Jaké typy časových řad rozlišujeme?
• Intervalové - data závisí na délce intervalu, který je sledován. – Měsíční produkce cementu v ČR
Nutné očištění na standardní měsíc!!!!
• Okamžikové - data se vztahují k určitému okamžiku. – Měsíční záznamy o počtech nezaměstnaných
![Page 71: „Statistika nuda je, …“](https://reader035.vdocuments.mx/reader035/viewer/2022081722/56815ac5550346895dc89257/html5/thumbnails/71.jpg)
Grafická analýza časových řad
• Spojnicový graf jedné časové řady
1 2 3 4 5 6 7 8 9 10 11 126789
101112131415
Vývoj nezaměstnanosti (Rybitví, 2010)
Měsíc
Míra
nez
aměs
tnan
osti
[%]
![Page 72: „Statistika nuda je, …“](https://reader035.vdocuments.mx/reader035/viewer/2022081722/56815ac5550346895dc89257/html5/thumbnails/72.jpg)
• Spojnicový graf dvou a více časových řad
1 2 3 4 5 6 7 8 9 10 11 122
7
12
17
Vývoj nezaměstnanosti (2010)
Rybitví Barchov
Měsíc
Míra
nez
aměs
tnan
osti
[%]
Grafická analýza časových řad
![Page 73: „Statistika nuda je, …“](https://reader035.vdocuments.mx/reader035/viewer/2022081722/56815ac5550346895dc89257/html5/thumbnails/73.jpg)
Grafická analýza časových řad
• Graf ročních hodnot sezónních časových řad
1 2 3 4 5 6 7 8 9 10 11 122500300035004000450050005500
Vývoj počtu nezaměstnaných absolventů gymnázií v SR
1993199419951996
Měsíc
Poče
t [tis
.]
![Page 74: „Statistika nuda je, …“](https://reader035.vdocuments.mx/reader035/viewer/2022081722/56815ac5550346895dc89257/html5/thumbnails/74.jpg)
Průměrování časových řad
• Intervalové časové řady – klasický aritmetický průměr
• Okamžikové časové řady – chronologický průměr
122 12
1
n
yy...y
y
y
nn
![Page 75: „Statistika nuda je, …“](https://reader035.vdocuments.mx/reader035/viewer/2022081722/56815ac5550346895dc89257/html5/thumbnails/75.jpg)
Míry dynamiky časových řad
• Absolutní přírůstky - „o kolik“ se změnila časová řada mezi jednotlivými okamžiky.• Průměrný absolutní přírůstek - „o kolik“ se průměrně změnila časová řada za
období mezi dvěma měřeními během sledovaného období.
• Koeficienty růstu - „kolikrát“ se změnila časová řada mezi jednotlivými okamžiky.• Průměrný koeficient růstu - „kolikrát“ se průměrně změnila časová řada za období
mezi dvěma měřeními během sledovaného období. (geometrický průměr.!!!)• Meziroční koeficienty růstu - podíly hodnot časové řady ve stejných obdobích
(sezónách) v po sobě jdoucích letech.
• Relativní přírůstky [%] - „o kolik procent“ se změnila časová řada mezi jednotlivými okamžiky.
• Průměrný relativní přírůstek [%] - „o kolik %“ se průměrně změnila časová řada za období mezi dvěma měřeními během sledovaného období.
![Page 76: „Statistika nuda je, …“](https://reader035.vdocuments.mx/reader035/viewer/2022081722/56815ac5550346895dc89257/html5/thumbnails/76.jpg)
Dekompozice časových řad
Rozklad časové řady na trendovou, sezónní, cyklickou a náhodnou složku.
• Trend - dlouhodobý vývoj
![Page 77: „Statistika nuda je, …“](https://reader035.vdocuments.mx/reader035/viewer/2022081722/56815ac5550346895dc89257/html5/thumbnails/77.jpg)
Dekompozice časových řad
Rozklad časové řady na trendovou, sezónní, cyklickou a náhodnou složku.
• Trend - dlouhodobý vývoj• Sezónní složka - odráží periodické změny, jejichž perioda je
svázána s kalendářem
![Page 78: „Statistika nuda je, …“](https://reader035.vdocuments.mx/reader035/viewer/2022081722/56815ac5550346895dc89257/html5/thumbnails/78.jpg)
Dekompozice časových řad
Rozklad časové řady na trendovou, sezónní, cyklickou a náhodnou složku.
• Trend - dlouhodobý vývoj• Sezónní složka - odráží periodické změny, jejichž perioda je
svázána s kalendářem • Cyklická složka - odráží periodické změny, jejichž perioda
neodpovídá délce nějaké kalendářní jednotky.
![Page 79: „Statistika nuda je, …“](https://reader035.vdocuments.mx/reader035/viewer/2022081722/56815ac5550346895dc89257/html5/thumbnails/79.jpg)
Dekompozice časových řad
Rozklad časové řady na trendovou, sezónní, cyklickou a náhodnou složku.
• Trend - dlouhodobý vývoj• Sezónní složka - odráží periodické změny, jejichž perioda je
svázána s kalendářem • Cyklická složka - odráží periodické změny, jejichž perioda
neodpovídá délce nějaké kalendářní jednotky.• Náhodná (reziduální) složka - náhodné fluktuace, které
nemají žádný systematický charakter.
![Page 80: „Statistika nuda je, …“](https://reader035.vdocuments.mx/reader035/viewer/2022081722/56815ac5550346895dc89257/html5/thumbnails/80.jpg)
Dekompozice časových řad
Rozklad časové řady na trendovou, sezónní, cyklickou a náhodnou složku.
Znalost každé jednotlivé složky nám umožní například lepší odhad vývoje daného procesu do budoucna (predikci).
![Page 81: „Statistika nuda je, …“](https://reader035.vdocuments.mx/reader035/viewer/2022081722/56815ac5550346895dc89257/html5/thumbnails/81.jpg)
Hledání trendu
• Regresní metody
• Adaptivní přístup
![Page 82: „Statistika nuda je, …“](https://reader035.vdocuments.mx/reader035/viewer/2022081722/56815ac5550346895dc89257/html5/thumbnails/82.jpg)
Hledání trendu(Metoda klouzavých průměrů)
2
4
6
8
10
12
14
16
18
leden 04 květen 05 říjen 06 únor 08 červenec 09 listopad 10 duben 12
Míra
nez
aměs
tnan
osti
[%]
Vývoj nezaměstnanosti (Rybitví)
MN Klouzavé průměry řádu 7 Klouzavé průměry řádu 13
Cíl: Odstranit šum vznikající působením náhodných vlivů.
![Page 83: „Statistika nuda je, …“](https://reader035.vdocuments.mx/reader035/viewer/2022081722/56815ac5550346895dc89257/html5/thumbnails/83.jpg)
Metoda klouzavých průměrů
• Prosté klouzavé průměry – úseky časové řady o délce 2p+1 vyrovnáme tak, že je nahradíme prostým aritmetickým průměrem:
• p hodnot na začátku a p hodnot na konci časové řady zůstává nevyrovnáno.
• Sudá délka klouzavých průměrů se volí jen velmi zřídka.• Čím větší je délka klouzavého průměru, tím větší je
„vyhlazení“ časové řady.
pnpptp
yyyyy
py
p
pi
ptptptptitt
,...,2,1
12
...
12
1 11
![Page 84: „Statistika nuda je, …“](https://reader035.vdocuments.mx/reader035/viewer/2022081722/56815ac5550346895dc89257/html5/thumbnails/84.jpg)
Očištění časové řady od sezónní složky
1 2 3 4 5 6 7 8 9 10 11 120.02.04.06.08.0
10.012.014.0
Míra nezaměstnanosti (Rybitví)
2006 2007 2008
Měsíc
Mír
a ne
zam
ěstn
anos
ti [%
]
![Page 85: „Statistika nuda je, …“](https://reader035.vdocuments.mx/reader035/viewer/2022081722/56815ac5550346895dc89257/html5/thumbnails/85.jpg)
• Sezónní faktor stanovíme pomocí odchylky časové řady a centrovaných klouzavých průměru o délce rovné periodě časové řady, nejčastěji o délce 12).
• Sezónní faktor pro určitý měsíc pak určíme jako průměrnou měsíční odchylku, tj. lednový sezónní faktor se určí jako průměr všech lednových odchylek.
Očištění časové řady od sezónní složky
![Page 86: „Statistika nuda je, …“](https://reader035.vdocuments.mx/reader035/viewer/2022081722/56815ac5550346895dc89257/html5/thumbnails/86.jpg)
Očištění časové řady od sezónní složky
![Page 87: „Statistika nuda je, …“](https://reader035.vdocuments.mx/reader035/viewer/2022081722/56815ac5550346895dc89257/html5/thumbnails/87.jpg)
• Časovou řadu očištěnou od sezónní složky získáme tak, že sezónní faktor odečteme od původní časové řady. Takto očištěná časová řada se pak používá pro další statistické vyhodnocení (regresní analýza, modelování časových řad, ...).
Očištění časové řady od sezónní složky
![Page 88: „Statistika nuda je, …“](https://reader035.vdocuments.mx/reader035/viewer/2022081722/56815ac5550346895dc89257/html5/thumbnails/88.jpg)
Děkuji za pozornost!