okna vesmíru statistiky dokořán

66
Okna vesmíru statistiky dokořán Martina Litschmannová Katedra aplikované matematiky, FEI, VŠB- TU Ostrava

Upload: harry

Post on 08-Feb-2016

50 views

Category:

Documents


0 download

DESCRIPTION

Okna vesmíru statistiky dokořán. Martina Litschmannová Katedra aplikované matematiky, FEI, VŠB-TU Ostrava. Co je to statistika?. Google – 196.10 6 odkazů (čeština), 2,88.10 9 odkazů (angličtina) Uspořádaný datový soubor (statistika přístupů na web. stránky, - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Okna  vesmíru  statistiky dokořán

Okna vesmíru statistiky dokořán

Martina LitschmannováKatedra aplikované matematiky, FEI, VŠB-TU Ostrava

Page 2: Okna  vesmíru  statistiky dokořán

Co je to statistika?Google – 196.106 odkazů (čeština), 2,88.109 odkazů (angličtina)

• Uspořádaný datový soubor (statistika přístupů na web. stránky, statistika střel na branku, statistika nehodovosti, ekonomické statistiky, …) Český statistický úřad, Real Time Statistics Project

• Teoretická disciplína, která se zabývá metodami sběru a analýzy dat (matematická statistika vs. aplikovaná statistika)

• Číselný údaj „syntetizující“ vlastnosti datových souborů (četnost, průměr, rozptyl, …)

Page 3: Okna  vesmíru  statistiky dokořán

Proč je dobré znát (alespoň) základy statistiky?

Kvantitativní výzkum

Hypotéza Sběr dat

Analýza dat

Vyhodnocení

Zdroj: technet.idnes.cz

„Informace, informace….“„Ó, data! “

Číslo 5 žije

Teorie

Hledání pravdy

Page 4: Okna  vesmíru  statistiky dokořán

Proč je dobré znát (alespoň) základy statistiky?

Kvantitativní výzkum

Hypotéza Sběr dat

Analýza dat

Vyhodnocení

Zdroj: technet.idnes.cz

„Informace, informace….“„Ó, data! “

Číslo 5 žije

Teorie

Hledání pravdy

Page 5: Okna  vesmíru  statistiky dokořán

Základní pojmy ze statistické metodologie

• Populace (základní soubor) je množina všech prvků, které sledujeme při statistickém výzkumu. Je dána výčtem prvků nebo vymezením jejich společných vlastností.• (Statistické) jednotky - prvky populace• (Statistické) znaky (proměnné, veličiny) – kvantitativní údaje, které u výběrového souboru sledujeme• Pokus (sledování vlivů různých faktorů) vs. šetření (výzkumník je pouze pozorovatelem)

Page 6: Okna  vesmíru  statistiky dokořán

Základní pojmy ze statistické metodologie

výběrové šetření

úplné šetření

• Populace (základní soubor) je množina všech prvků, které sledujeme při statistickém výzkumu. Je dána výčtem prvků nebo vymezením jejich společných vlastností.• (Statistické) jednotky - prvky populace• (Statistické) znaky (proměnné, veličiny) – kvantitativní údaje, které u výběrového souboru sledujeme• Pokus (sledování vlivů různých faktorů) vs. šetření (výzkumník je pouze pozorovatelem)

Page 7: Okna  vesmíru  statistiky dokořán

Základní pojmy ze statistické metodologie

• Reprezentativní výběr (odráží strukturu populace) vs. selektivní výběr• Metody vybírání prvků z populace: záměrný výběr (založen na expertním stanovisku), náhodný výběr

výběrové šetření

Exploratorní (popisná) statistika

Page 8: Okna  vesmíru  statistiky dokořán

Základní pojmy ze statistické metodologie

výběrové šetření

Exploratorní (popisná) statistika

• Popisná statistika (angl. Exploratory Data Analysis, EDA) - uspořádání proměnných do názornější formy a jejich popis několika málo hodnotami, které by obsahovaly co největší množství informací obsažených v původním souboru.

Page 9: Okna  vesmíru  statistiky dokořán

Základní pojmy ze statistické metodologie

výběrové šetření

Exploratorní (popisná) statistika

Page 10: Okna  vesmíru  statistiky dokořán

Exploratorní analýza dat

Page 11: Okna  vesmíru  statistiky dokořán

Typy proměnných

Typy proměnných

Kvalitativní proměnná (kategoriální, slovní...)

Ordinální proměnná(lze uspořádat)

Nominální proměnná(nelze uspořádat)

Kvantitativní proměnná (numerická,

číselná ...)

Page 12: Okna  vesmíru  statistiky dokořán

EDA pro kategoriální veličinu

Page 13: Okna  vesmíru  statistiky dokořán

Kategoriální veličina nominální (nemá smysl uspořádání)

(např. Typ SŠ, Barva auta, Pohlaví, …)

Page 14: Okna  vesmíru  statistiky dokořán

Číselné charakteristiky

+ Modus (název nejčetnější varianty)

TABULKA ROZDĚLENÍ ČETNOSTI

Variantyxi

Absolutní četnostini

Relativní četnosti

pi

x1 n1 p1=n1 /n

x2 n2 p2=n2 /n

xk nk pk=nk /n

Celkem: n1+n2+…+nk=n 1

Page 15: Okna  vesmíru  statistiky dokořán

Číselné charakteristiky

TABULKA ROZDĚLENÍ ČETNOSTI

Pohlaví Absolutní četnosti Relativní četnosti[%]

Muž 457 58,2

Žena 328 41,8

Celkem: 785 100,0

Modus = Muž

Page 17: Okna  vesmíru  statistiky dokořán

Grafické znázorněníA) Sloupcový graf (bar chart)

VýborněChvalitebně

ProspělNeprospěl

02468

101214161820Počet

Page 18: Okna  vesmíru  statistiky dokořán

Grafické znázorněníA) Sloupcový graf (bar chart)

VýborněChvalitebně

ProspělNeprospěl

02468

101214161820Počet

Page 19: Okna  vesmíru  statistiky dokořán

Grafické znázorněníA) Sloupcový graf (bar chart)

VýborněChvalitebně

ProspělNeprospěl

02468

101214161820Počet

Page 20: Okna  vesmíru  statistiky dokořán

Grafické znázorněníA) Sloupcový graf (bar chart)

VýborněChvalitebně

ProspělNeprospěl

02468

101214161820Počet

Page 21: Okna  vesmíru  statistiky dokořán

Grafické znázorněníA) Sloupcový graf (bar chart)

VýborněChvalitebně

ProspělNeprospěl

02468

101214161820Počet

Page 22: Okna  vesmíru  statistiky dokořán

Grafické znázorněníA) Sloupcový graf (bar chart)

Na co si dát pozor?

• Subjektivně vnímáme plochu (objem), nikoliv výšku jednotlivých „sloupců“.

Page 23: Okna  vesmíru  statistiky dokořán

Grafické znázorněníA) Sloupcový graf (bar chart)

1993 20070

5000

10000

15000

20000

25000

Sloupcový graf

USAČR

Prod

ukce

CO

2 [k

g] n

a os

obu

Na co si dát pozor?

zdroj dat:http://en.wikipedia.org/wiki/List_of_countries_by_carbon_dioxide_emissions_per_capita

Page 24: Okna  vesmíru  statistiky dokořán

Grafické znázorněníA) Sloupcový graf (bar chart)

Na co si dát pozor?

• Subjektivně vnímáme plochu (objem), nikoliv výšku jednotlivých „sloupců“.

• Nadbytečné názvy grafu, legendy, …

• Neefektivní nuly

A na co ještě?

Page 25: Okna  vesmíru  statistiky dokořán

1993 20070

5

10

15

20

25

USA ČR

Prod

ukce

CO

2 [t

un] n

a os

obu

1993 20070%

20%40%60%80%

100%120%

USA ČR

Prod

ukce

CO

2 [t

un] n

a os

obu

(% ro

ku 1

993)

1993 200710

12

14

16

18

20

USA ČR

1993 200790%

92%

94%

96%

98%

100%

USA ČR

Který z grafů je „správný“?

Page 26: Okna  vesmíru  statistiky dokořán

Grafické znázorněníB) Výsečový graf – koláčový graf (pie chart)

5; 12%

10; 24%

20; 48%

7; 17%

VýborněChvalitebněProspělNeprospěl

5; 12%10;

24%

20; 48%

7; 17%

VýborněChvalitebněProspělNeprospěl

Page 27: Okna  vesmíru  statistiky dokořán

Grafické znázorněníB) Výsečový graf – koláčový graf (pie chart)

5; 12%

10; 24%

20; 48%

7; 17%

VýborněChvalitebněProspělNeprospěl

5; 12%10;

24%

20; 48%

7; 17%

VýborněChvalitebněProspělNeprospěl

Page 28: Okna  vesmíru  statistiky dokořán

Grafické znázorněníB) Výsečový graf – koláčový graf (pie chart)

Na co si dát pozor?

Page 29: Okna  vesmíru  statistiky dokořán

Anketa

Jste pro navýšení hodinové dotace matematiky na SŠ?

50%50%

PRO PROTI

TAKHLE NE!!!

Page 30: Okna  vesmíru  statistiky dokořán

Grafické znázorněníB) Výsečový graf – koláčový graf (pie chart)

Na co si dát pozor?

• Neuvádění absolutních četností, resp. celkového počtu respondentů v „blízkosti“ grafu

• Nadbytečné názvy grafu

Page 31: Okna  vesmíru  statistiky dokořán

38%

34%

9%

3% 7%6%

2% 1%

Výskyt krevních skupin a Rh faktoru [%] v USA

0+A+B+AB+0-A-B-AB-

Krevní skupina

Rh faktorCelkemRh+ Rh-

0 38 7 45A 34 6 40B 9 2 11

AB 3 1 4Celkem 84 16 100

Page 32: Okna  vesmíru  statistiky dokořán

Grafické znázorněníB) Výsečový graf – koláčový graf (pie chart)

Na co si dát pozor?

• Neuvádění absolutních četností, resp. celkového počtu respondentů v „blízkosti“ grafu

• Nadbytečné názvy grafu, legendy, …

• Ne vždy je graf přehlednější než tabulka

A na co ještě?

Page 33: Okna  vesmíru  statistiky dokořán
Page 34: Okna  vesmíru  statistiky dokořán

64; 29%

114; 53%

32; 15%

6; 3% 1; 0%

Srozumitelnost výkladu

Hodnocení 1Hodnocení 2Hodnocení 3Hodnocení 4Hodnocení 5

76; 35%

103; 47%

37; 17% 2; 1%

Srozumitelnost řešených příkladů

Hodnocení 1Hodnocení 2Hodnocení 3Hodnocení 4Hodnocení 5

73; 34%

80; 37%

48; 22%

15; 7% 1; 0%

Množství řešených příkladů

Hodnocení 1Hodnocení 2Hodnocení 3Hodnocení 4Hodnocení 5

82; 38%

96; 44%

34; 16%5; 2%

Užitečnost úloh k samostatné práci

Hodnocení 1Hodnocení 2Hodnocení 3Hodnocení 4Hodnocení 5

31; 15%

75; 36%

81; 39%

18; 9% 3; 1%

Praktické aplikace

Hodnocení 1Hodnocení 2Hodnocení 3Hodnocení 4Hodnocení 5

89; 41%

92; 42%

25; 11%8; 4% 5; 2%

Grafická úprava

Hodnocení 1Hodnocení 2Hodnocení 3Hodnocení 4Hodnocení 5

2 grafy ještě chybí …

Page 35: Okna  vesmíru  statistiky dokořán

Srozumitelnost výkladu

Srozumitelnost řešených příkladů

Množství řešených příkladů

Užitečnost úloh k samostatné práci

Praktické aplikace

Grafická úprava

Míra používání textu

Dostatečnost textu

0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%

64

76

73

82

31

89

76

66

114

103

80

96

75

92

67

85

32

37

48

34

81

25

52

55

6

2

15

5

18

8

23

6

1

1

3

5

1

3

Hodnocení modulu PRA(220 respondentů)

1 2 3 4 5

100% skládaný pruhový graf

Page 36: Okna  vesmíru  statistiky dokořán

Grafické znázorněníB) Výsečový graf – koláčový graf (pie chart)

Na co si dát pozor?

• Neuvádění absolutních četností, resp. celkového počtu respondentů v „blízkosti“ grafu

• Nadbytečné názvy grafu, legendy, …

• Ne vždy je graf přehlednější než tabulka

• „Jediná věc je horší než výsečový graf – několik nebo dokonce mnoho výsečových grafů“

Van Belle

Page 37: Okna  vesmíru  statistiky dokořán

Kategoriální proměnná ordinální (má smysl uspořádání)

(např. míra nezaměstnanosti (nízká, střední, vysoká), dosažené vzdělání, …)

Page 38: Okna  vesmíru  statistiky dokořán

Číselné charakteristikyTABULKA ROZDĚLENÍ ČETNOSTI

Variantyxi

Absolutní četnosti

ni

Relativní četnosti

pi

Kumulativní četnosti

mi

Kumulativní relativní četnosti

Fi

x1 n1 p1=n1/n n1 p1

x2 n2 p2=n2/n n1+n2 p1+p2

xk nk pk=nk/n n1+n2+…+nk=n p1+p2+…+pk=1

Celkem: n1+n2+…+nk=n 1 ---- ----

+ Modus

Seřa

zené

pod

le v

elik

osti

Page 39: Okna  vesmíru  statistiky dokořán

Číselné charakteristiky

TABULKA ROZDĚLENÍ ČETNOSTI

Míra nezaměstnanosti

Absolutní četnosti

Relativní četnosti

[%)

Kumulativní četnosti

Kumulativní relativní četnosti

[%)nízká 27 13,6 27 13,6

střední 146 73,7 173 87,4

vysoká 25 12,6 198 100,0

Celkem: 198 100,0

Modus = střední

Page 40: Okna  vesmíru  statistiky dokořán

Grafické znázornění

A) Sloupcový graf (bar chart)

B) Výsečový graf – koláčový graf (pie chart)

Page 41: Okna  vesmíru  statistiky dokořán

EDA pro numerická data

Page 42: Okna  vesmíru  statistiky dokořán

Číselné charakteristiky

A) Míry polohyB) Míry variability

Page 43: Okna  vesmíru  statistiky dokořán

Míry polohy

Page 44: Okna  vesmíru  statistiky dokořán

Aritmetický průměr

n

xx

n

ii

1

Na co si dát pozor?

• Harmonický průměr (proměnné vyjadřující čas na jednotku výkonu, poměrná čísla)• Geometrický průměr (tempa růstu)

• Vážený průměr• Průměrování dat na cirkulární škále

• Průměr není rezistentní vůči odlehlým pozorováním!

Circular Statistics Toolbox

Page 45: Okna  vesmíru  statistiky dokořán

Kvantily

100p %-ní kvantil xp odděluje 100p% menších hodnot od zbytku souboru

(100p% hodnot datového souboru je menších než toto číslo.)

Page 46: Okna  vesmíru  statistiky dokořán

Význačné kvantily

• KvartilyDolní kvartil x0,25

Medián x0,5 Horní kvartil x0,75

• Decily – x0,1; x0,2; ... ; x0,9

• Percentily – x0,01; x0,02; …; x0,99

• Minimum xmin a Maximum xmax

Page 47: Okna  vesmíru  statistiky dokořán

Interkvartilové rozpětí

25,075,0 xxIQR

Užití: např. při identifikaci odlehlých pozorování

Page 48: Okna  vesmíru  statistiky dokořán

Identifikace odlehlých pozorování• Metoda vnitřních hradeb

mpozorováníodlehlýmjexIQRxxIQRxx iii 5,15,1 75,025,0

Dolní mez vnitřních hradeb

Horní mez vnitřních hradeb

Page 49: Okna  vesmíru  statistiky dokořán

Identifikace extrémních pozorování• Metoda vnějších hradeb

mpozorováníextrémnímjexIQRxxIQRxx i,i,i 33 750250

Dolní mez vnějších hradeb

Horní mez vnějších hradeb

Page 50: Okna  vesmíru  statistiky dokořán

PříkladV předložených datech identifikujte odlehlá pozorování:

MN [%]8,77,86,86,87,89,7

15,76,84,96,8

Page 51: Okna  vesmíru  statistiky dokořán

MN [%]4,96,86,86,86,87,87,88,79,7

15,7

MN0,5=7,3

MN0,25=6,8

MN0,75=8,7

IQR=MN0,75-MN0,25=1,9

Vnitřní hradby:Dolní mez: 6,8-2,85=3,95 Horní mez: 8,7+2,85=11,55

1,5.IQR=2,85

PříkladV předložených datech identifikujte odlehlá pozorování:

Page 52: Okna  vesmíru  statistiky dokořán

MN [%]4,96,86,86,86,87,87,88,79,7

15,7

MN0,5=7,3

MN0,25=6,8

MN0,75=8,7

IQR=MN0,75-MN0,25=1,9

Vnitřní hradby:Dolní mez: 6,8-2,85=3,95 Horní mez: 8,7+2,85=11,55

1,5.IQR=2,85

PříkladV předložených datech identifikujte odlehlá pozorování:

Page 53: Okna  vesmíru  statistiky dokořán

MN [%]4,96,86,86,86,87,87,88,79,7

15,7

MN0,5=7,3

MN0,25=6,8

MN0,75=8,7

IQR=MN0,75-MN0,25=1,9

Vnitřní hradby:Dolní mez: 6,8-2,85=3,95 Horní mez: 8,7+2,85=11,55

1,5.IQR=2,85

PříkladV předložených datech identifikujte odlehlá pozorování:

Page 54: Okna  vesmíru  statistiky dokořán

Míry variability

Page 55: Okna  vesmíru  statistiky dokořán

Výběrový rozptyl

1

1

2

2

n

xxs

n

ii

Na co si dát pozor?

Rozměr rozptylu charakteristiky je druhou mocninou rozměru proměnné.

Page 56: Okna  vesmíru  statistiky dokořán

Výběrová směrodatná odchylka

1

1

2

2

n

xxss

n

ii

Empirické pravidlo 6 sigma

k1 0,6822 0,9543 0,998

kkP X

Page 57: Okna  vesmíru  statistiky dokořán

Variační koeficient

%100xsVx

(Směrodatná odchylka v procentech aritmetického průměru)

• Čím nižší var. koeficient, tím homogennější soubor.

• Vx > 50% značí silně rozptýlený soubor.

Proč potřebujeme bezrozměrnou míru variability?Umožňuje srovnání variability proměnných, které mají různé jednotky.

Page 58: Okna  vesmíru  statistiky dokořán

Grafické znázornění num. proměnné

A.) Krabicový graf (Box plot)

Page 59: Okna  vesmíru  statistiky dokořán

Grafické znázornění num. proměnné

B.) Histogram

05

1015202530354045

<27,

1; 5

7,2>

(57,

2; 8

7,3>

(87,

3; 1

17,4

>

(117

,4; 1

47,4

>

(147

,4; 1

77,6

>

Četnost

02468

10121416

<27,

1; 3

6,5>

(45,

9; 5

5,3>

(64,

7; 7

4,1>

(83,

5; 9

2,9>

(102

,3; 1

11,7

>

(121

,1; 1

30,5

>

(139

,9; 1

49,3

>

(158

,7; 1

68,1

>

Četnost

Na co si dát pozor?

Page 60: Okna  vesmíru  statistiky dokořán

Grafické znázornění num. proměnné

B.) Histogram

Page 61: Okna  vesmíru  statistiky dokořán

Grafické znázornění num. proměnné

B.) Histogram

27,1 43,8 60,6 77,3 94,0 110,7 127,4 144,1 160,8 Další0

5

10

15

20

25

30

Data

Četn

ost

05

1015202530354045

<27,

1; 5

7,2>

(57,

2; 8

7,3>

(87,

3; 1

17,4

>

(117

,4; 1

47,4

>

(147

,4; 1

77,6

>

Četnost

Na co si dát pozor?

MS Excel 2007, funkce Histogram

Výpočetní applet Explorační analýza (excel, projekt MI21)

Page 62: Okna  vesmíru  statistiky dokořán

Souvislost mezi číselnými charakteristikami a grafy

Java applet – Výběrové charakteristiky projekt MI21

Page 64: Okna  vesmíru  statistiky dokořán

A jsme téměř na konci…

Ještě otázka pro ŠKOMAM CUP!

Page 65: Okna  vesmíru  statistiky dokořán

Volíme-li odpověď na tuto otázku náhodně, jaká je šance, že odpovíme správně?

A) 25%B) 50%C) 0%D) 25%

Page 66: Okna  vesmíru  statistiky dokořán

A to už je opravdu konec!

Děkuji za pozornost