Download - Okna vesmíru statistiky dokořán
Okna vesmíru statistiky dokořán
Martina LitschmannováKatedra aplikované matematiky, FEI, VŠB-TU Ostrava
Co je to statistika?Google – 196.106 odkazů (čeština), 2,88.109 odkazů (angličtina)
• Uspořádaný datový soubor (statistika přístupů na web. stránky, statistika střel na branku, statistika nehodovosti, ekonomické statistiky, …) Český statistický úřad, Real Time Statistics Project
• Teoretická disciplína, která se zabývá metodami sběru a analýzy dat (matematická statistika vs. aplikovaná statistika)
• Číselný údaj „syntetizující“ vlastnosti datových souborů (četnost, průměr, rozptyl, …)
Proč je dobré znát (alespoň) základy statistiky?
Kvantitativní výzkum
Hypotéza Sběr dat
Analýza dat
Vyhodnocení
Zdroj: technet.idnes.cz
„Informace, informace….“„Ó, data! “
Číslo 5 žije
Teorie
Hledání pravdy
Proč je dobré znát (alespoň) základy statistiky?
Kvantitativní výzkum
Hypotéza Sběr dat
Analýza dat
Vyhodnocení
Zdroj: technet.idnes.cz
„Informace, informace….“„Ó, data! “
Číslo 5 žije
Teorie
Hledání pravdy
Základní pojmy ze statistické metodologie
• Populace (základní soubor) je množina všech prvků, které sledujeme při statistickém výzkumu. Je dána výčtem prvků nebo vymezením jejich společných vlastností.• (Statistické) jednotky - prvky populace• (Statistické) znaky (proměnné, veličiny) – kvantitativní údaje, které u výběrového souboru sledujeme• Pokus (sledování vlivů různých faktorů) vs. šetření (výzkumník je pouze pozorovatelem)
Základní pojmy ze statistické metodologie
výběrové šetření
úplné šetření
• Populace (základní soubor) je množina všech prvků, které sledujeme při statistickém výzkumu. Je dána výčtem prvků nebo vymezením jejich společných vlastností.• (Statistické) jednotky - prvky populace• (Statistické) znaky (proměnné, veličiny) – kvantitativní údaje, které u výběrového souboru sledujeme• Pokus (sledování vlivů různých faktorů) vs. šetření (výzkumník je pouze pozorovatelem)
Základní pojmy ze statistické metodologie
• Reprezentativní výběr (odráží strukturu populace) vs. selektivní výběr• Metody vybírání prvků z populace: záměrný výběr (založen na expertním stanovisku), náhodný výběr
výběrové šetření
Exploratorní (popisná) statistika
Základní pojmy ze statistické metodologie
výběrové šetření
Exploratorní (popisná) statistika
• Popisná statistika (angl. Exploratory Data Analysis, EDA) - uspořádání proměnných do názornější formy a jejich popis několika málo hodnotami, které by obsahovaly co největší množství informací obsažených v původním souboru.
Základní pojmy ze statistické metodologie
výběrové šetření
Exploratorní (popisná) statistika
Exploratorní analýza dat
Typy proměnných
Typy proměnných
Kvalitativní proměnná (kategoriální, slovní...)
Ordinální proměnná(lze uspořádat)
Nominální proměnná(nelze uspořádat)
Kvantitativní proměnná (numerická,
číselná ...)
EDA pro kategoriální veličinu
Kategoriální veličina nominální (nemá smysl uspořádání)
(např. Typ SŠ, Barva auta, Pohlaví, …)
Číselné charakteristiky
+ Modus (název nejčetnější varianty)
TABULKA ROZDĚLENÍ ČETNOSTI
Variantyxi
Absolutní četnostini
Relativní četnosti
pi
x1 n1 p1=n1 /n
x2 n2 p2=n2 /n
xk nk pk=nk /n
Celkem: n1+n2+…+nk=n 1
Číselné charakteristiky
TABULKA ROZDĚLENÍ ČETNOSTI
Pohlaví Absolutní četnosti Relativní četnosti[%]
Muž 457 58,2
Žena 328 41,8
Celkem: 785 100,0
Modus = Muž
Grafické znázorněníA) Sloupcový graf (bar chart)
Výborně Chvalitebně Prospěl Neprospěl0
5
10
15
20
25Počet
„…můžete vytvořit sloupcový graf a dodat mu zcela nový a přitažlivý vzhled“http://office.microsoft.com/cs-cz/excel-help/prezentace-dat-ve-sloupcovem-grafu-HA010218663.aspx
Grafické znázorněníA) Sloupcový graf (bar chart)
VýborněChvalitebně
ProspělNeprospěl
02468
101214161820Počet
Grafické znázorněníA) Sloupcový graf (bar chart)
VýborněChvalitebně
ProspělNeprospěl
02468
101214161820Počet
Grafické znázorněníA) Sloupcový graf (bar chart)
VýborněChvalitebně
ProspělNeprospěl
02468
101214161820Počet
Grafické znázorněníA) Sloupcový graf (bar chart)
VýborněChvalitebně
ProspělNeprospěl
02468
101214161820Počet
Grafické znázorněníA) Sloupcový graf (bar chart)
VýborněChvalitebně
ProspělNeprospěl
02468
101214161820Počet
Grafické znázorněníA) Sloupcový graf (bar chart)
Na co si dát pozor?
• Subjektivně vnímáme plochu (objem), nikoliv výšku jednotlivých „sloupců“.
Grafické znázorněníA) Sloupcový graf (bar chart)
1993 20070
5000
10000
15000
20000
25000
Sloupcový graf
USAČR
Prod
ukce
CO
2 [k
g] n
a os
obu
Na co si dát pozor?
zdroj dat:http://en.wikipedia.org/wiki/List_of_countries_by_carbon_dioxide_emissions_per_capita
Grafické znázorněníA) Sloupcový graf (bar chart)
Na co si dát pozor?
• Subjektivně vnímáme plochu (objem), nikoliv výšku jednotlivých „sloupců“.
• Nadbytečné názvy grafu, legendy, …
• Neefektivní nuly
A na co ještě?
1993 20070
5
10
15
20
25
USA ČR
Prod
ukce
CO
2 [t
un] n
a os
obu
1993 20070%
20%40%60%80%
100%120%
USA ČR
Prod
ukce
CO
2 [t
un] n
a os
obu
(% ro
ku 1
993)
1993 200710
12
14
16
18
20
USA ČR
1993 200790%
92%
94%
96%
98%
100%
USA ČR
Který z grafů je „správný“?
Grafické znázorněníB) Výsečový graf – koláčový graf (pie chart)
5; 12%
10; 24%
20; 48%
7; 17%
VýborněChvalitebněProspělNeprospěl
5; 12%10;
24%
20; 48%
7; 17%
VýborněChvalitebněProspělNeprospěl
Grafické znázorněníB) Výsečový graf – koláčový graf (pie chart)
5; 12%
10; 24%
20; 48%
7; 17%
VýborněChvalitebněProspělNeprospěl
5; 12%10;
24%
20; 48%
7; 17%
VýborněChvalitebněProspělNeprospěl
Grafické znázorněníB) Výsečový graf – koláčový graf (pie chart)
Na co si dát pozor?
Anketa
Jste pro navýšení hodinové dotace matematiky na SŠ?
50%50%
PRO PROTI
TAKHLE NE!!!
Grafické znázorněníB) Výsečový graf – koláčový graf (pie chart)
Na co si dát pozor?
• Neuvádění absolutních četností, resp. celkového počtu respondentů v „blízkosti“ grafu
• Nadbytečné názvy grafu
38%
34%
9%
3% 7%6%
2% 1%
Výskyt krevních skupin a Rh faktoru [%] v USA
0+A+B+AB+0-A-B-AB-
Krevní skupina
Rh faktorCelkemRh+ Rh-
0 38 7 45A 34 6 40B 9 2 11
AB 3 1 4Celkem 84 16 100
Grafické znázorněníB) Výsečový graf – koláčový graf (pie chart)
Na co si dát pozor?
• Neuvádění absolutních četností, resp. celkového počtu respondentů v „blízkosti“ grafu
• Nadbytečné názvy grafu, legendy, …
• Ne vždy je graf přehlednější než tabulka
A na co ještě?
64; 29%
114; 53%
32; 15%
6; 3% 1; 0%
Srozumitelnost výkladu
Hodnocení 1Hodnocení 2Hodnocení 3Hodnocení 4Hodnocení 5
76; 35%
103; 47%
37; 17% 2; 1%
Srozumitelnost řešených příkladů
Hodnocení 1Hodnocení 2Hodnocení 3Hodnocení 4Hodnocení 5
73; 34%
80; 37%
48; 22%
15; 7% 1; 0%
Množství řešených příkladů
Hodnocení 1Hodnocení 2Hodnocení 3Hodnocení 4Hodnocení 5
82; 38%
96; 44%
34; 16%5; 2%
Užitečnost úloh k samostatné práci
Hodnocení 1Hodnocení 2Hodnocení 3Hodnocení 4Hodnocení 5
31; 15%
75; 36%
81; 39%
18; 9% 3; 1%
Praktické aplikace
Hodnocení 1Hodnocení 2Hodnocení 3Hodnocení 4Hodnocení 5
89; 41%
92; 42%
25; 11%8; 4% 5; 2%
Grafická úprava
Hodnocení 1Hodnocení 2Hodnocení 3Hodnocení 4Hodnocení 5
2 grafy ještě chybí …
Srozumitelnost výkladu
Srozumitelnost řešených příkladů
Množství řešených příkladů
Užitečnost úloh k samostatné práci
Praktické aplikace
Grafická úprava
Míra používání textu
Dostatečnost textu
0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%
64
76
73
82
31
89
76
66
114
103
80
96
75
92
67
85
32
37
48
34
81
25
52
55
6
2
15
5
18
8
23
6
1
1
3
5
1
3
Hodnocení modulu PRA(220 respondentů)
1 2 3 4 5
100% skládaný pruhový graf
Grafické znázorněníB) Výsečový graf – koláčový graf (pie chart)
Na co si dát pozor?
• Neuvádění absolutních četností, resp. celkového počtu respondentů v „blízkosti“ grafu
• Nadbytečné názvy grafu, legendy, …
• Ne vždy je graf přehlednější než tabulka
• „Jediná věc je horší než výsečový graf – několik nebo dokonce mnoho výsečových grafů“
Van Belle
Kategoriální proměnná ordinální (má smysl uspořádání)
(např. míra nezaměstnanosti (nízká, střední, vysoká), dosažené vzdělání, …)
Číselné charakteristikyTABULKA ROZDĚLENÍ ČETNOSTI
Variantyxi
Absolutní četnosti
ni
Relativní četnosti
pi
Kumulativní četnosti
mi
Kumulativní relativní četnosti
Fi
x1 n1 p1=n1/n n1 p1
x2 n2 p2=n2/n n1+n2 p1+p2
xk nk pk=nk/n n1+n2+…+nk=n p1+p2+…+pk=1
Celkem: n1+n2+…+nk=n 1 ---- ----
+ Modus
Seřa
zené
pod
le v
elik
osti
Číselné charakteristiky
TABULKA ROZDĚLENÍ ČETNOSTI
Míra nezaměstnanosti
Absolutní četnosti
Relativní četnosti
[%)
Kumulativní četnosti
Kumulativní relativní četnosti
[%)nízká 27 13,6 27 13,6
střední 146 73,7 173 87,4
vysoká 25 12,6 198 100,0
Celkem: 198 100,0
Modus = střední
Grafické znázornění
A) Sloupcový graf (bar chart)
B) Výsečový graf – koláčový graf (pie chart)
EDA pro numerická data
Číselné charakteristiky
A) Míry polohyB) Míry variability
Míry polohy
Aritmetický průměr
n
xx
n
ii
1
Na co si dát pozor?
• Harmonický průměr (proměnné vyjadřující čas na jednotku výkonu, poměrná čísla)• Geometrický průměr (tempa růstu)
• Vážený průměr• Průměrování dat na cirkulární škále
• Průměr není rezistentní vůči odlehlým pozorováním!
Circular Statistics Toolbox
Kvantily
100p %-ní kvantil xp odděluje 100p% menších hodnot od zbytku souboru
(100p% hodnot datového souboru je menších než toto číslo.)
Význačné kvantily
• KvartilyDolní kvartil x0,25
Medián x0,5 Horní kvartil x0,75
• Decily – x0,1; x0,2; ... ; x0,9
• Percentily – x0,01; x0,02; …; x0,99
• Minimum xmin a Maximum xmax
Interkvartilové rozpětí
25,075,0 xxIQR
Užití: např. při identifikaci odlehlých pozorování
Identifikace odlehlých pozorování• Metoda vnitřních hradeb
mpozorováníodlehlýmjexIQRxxIQRxx iii 5,15,1 75,025,0
Dolní mez vnitřních hradeb
Horní mez vnitřních hradeb
Identifikace extrémních pozorování• Metoda vnějších hradeb
mpozorováníextrémnímjexIQRxxIQRxx i,i,i 33 750250
Dolní mez vnějších hradeb
Horní mez vnějších hradeb
PříkladV předložených datech identifikujte odlehlá pozorování:
MN [%]8,77,86,86,87,89,7
15,76,84,96,8
MN [%]4,96,86,86,86,87,87,88,79,7
15,7
MN0,5=7,3
MN0,25=6,8
MN0,75=8,7
IQR=MN0,75-MN0,25=1,9
Vnitřní hradby:Dolní mez: 6,8-2,85=3,95 Horní mez: 8,7+2,85=11,55
1,5.IQR=2,85
PříkladV předložených datech identifikujte odlehlá pozorování:
MN [%]4,96,86,86,86,87,87,88,79,7
15,7
MN0,5=7,3
MN0,25=6,8
MN0,75=8,7
IQR=MN0,75-MN0,25=1,9
Vnitřní hradby:Dolní mez: 6,8-2,85=3,95 Horní mez: 8,7+2,85=11,55
1,5.IQR=2,85
PříkladV předložených datech identifikujte odlehlá pozorování:
MN [%]4,96,86,86,86,87,87,88,79,7
15,7
MN0,5=7,3
MN0,25=6,8
MN0,75=8,7
IQR=MN0,75-MN0,25=1,9
Vnitřní hradby:Dolní mez: 6,8-2,85=3,95 Horní mez: 8,7+2,85=11,55
1,5.IQR=2,85
PříkladV předložených datech identifikujte odlehlá pozorování:
Míry variability
Výběrový rozptyl
1
1
2
2
n
xxs
n
ii
Na co si dát pozor?
Rozměr rozptylu charakteristiky je druhou mocninou rozměru proměnné.
Výběrová směrodatná odchylka
1
1
2
2
n
xxss
n
ii
Empirické pravidlo 6 sigma
k1 0,6822 0,9543 0,998
kkP X
Variační koeficient
%100xsVx
(Směrodatná odchylka v procentech aritmetického průměru)
• Čím nižší var. koeficient, tím homogennější soubor.
• Vx > 50% značí silně rozptýlený soubor.
Proč potřebujeme bezrozměrnou míru variability?Umožňuje srovnání variability proměnných, které mají různé jednotky.
Grafické znázornění num. proměnné
A.) Krabicový graf (Box plot)
Grafické znázornění num. proměnné
B.) Histogram
05
1015202530354045
<27,
1; 5
7,2>
(57,
2; 8
7,3>
(87,
3; 1
17,4
>
(117
,4; 1
47,4
>
(147
,4; 1
77,6
>
Četnost
02468
10121416
<27,
1; 3
6,5>
(45,
9; 5
5,3>
(64,
7; 7
4,1>
(83,
5; 9
2,9>
(102
,3; 1
11,7
>
(121
,1; 1
30,5
>
(139
,9; 1
49,3
>
(158
,7; 1
68,1
>
Četnost
Na co si dát pozor?
Grafické znázornění num. proměnné
B.) Histogram
Grafické znázornění num. proměnné
B.) Histogram
27,1 43,8 60,6 77,3 94,0 110,7 127,4 144,1 160,8 Další0
5
10
15
20
25
30
Data
Četn
ost
05
1015202530354045
<27,
1; 5
7,2>
(57,
2; 8
7,3>
(87,
3; 1
17,4
>
(117
,4; 1
47,4
>
(147
,4; 1
77,6
>
Četnost
Na co si dát pozor?
MS Excel 2007, funkce Histogram
Výpočetní applet Explorační analýza (excel, projekt MI21)
Souvislost mezi číselnými charakteristikami a grafy
Java applet – Výběrové charakteristiky projekt MI21
Odkazy• LITSCHMANNOVÁ, M. (2011), Úvod do statistiky, skripta -
pilotní verze
• Interstat – sylabus popisné statistiky (nedokončeno)
• Jak nevytvářet grafy (anglicky) The Evil Tutor‘s Guide
• Real Time Statistics Project
• Circular Statistics Toolbox (Matlab)
A jsme téměř na konci…
Ještě otázka pro ŠKOMAM CUP!
Volíme-li odpověď na tuto otázku náhodně, jaká je šance, že odpovíme správně?
A) 25%B) 50%C) 0%D) 25%
A to už je opravdu konec!
Děkuji za pozornost