beschrijvende statistiek l inleiding l beschrijving van een verdeling mbv tabellen en figuren l...
TRANSCRIPT
Beschrijvende statistiek
Inleiding Beschrijving van een verdeling mbv tabellen en figuren Kengetallen Het beschrijven van verbanden tussen twee variabelen
Beschrijvende statistiek
Inleiding
beschrijvende vs inferentiele statistiek
kwalitatieve variabelennominale variabelen
ras, geslacht, bloedgroep,...ordinale variabelen
behandelingsresultaat, SES, opleidingsniveau,…categorisch: polytoom vs. dichotoom
numerieke variabelennumeriek discrete variabelen
aantal kinderen in gezin, …numeriek continue variabelen
lichaamslengte, bloeddruk, lichaamstemperatuur,… ratioschaal vs intervalschaal
Beschrijvende statistiek
Inleiding: data-set: astma-studie
VARIABLE SPECIFICATIONS: No Name Format MD Code Lon g Label 1 Q5 3.0 -1 WAKKER KORTADEMIG 12M 2 Q13 3.0 -1 OOIT ASTMA GEHAD 3 AREA2 6.0 -1 REGIO (0=ZUID, 1=CENTRUM) 4 LEEFTIJD 8.2 -1 5 LFTDSGRP 9.0 -1 5-jaarsgroepen vanaf 20 6 GESLACHT 8.0 -1 0 = vrouw, 1 = man 7 ANAMNESE 9.0 -1 0 = negatief, 1 = pos.astma, 2 = atopie 8 ATOPIE 8.0 -1 9 ROKEN 6.0 -1 ROOKGEDRAG (NOOIT, EX-, <20, VANAF 20) 10 JOBBLOOT 9.0 -1 OOIT JOB DAMPEN,GASSEN,STOF,ROOK 11 CENSOR 7.0 -1 12 T1 5.0 -1 13 CENSOR2 7.0 -1 14 T2 5.0 -1 15 SAMPLE 6.0 -1
SPSS
Statistica
Excel
Beschrijvende statistiek
data file: 2.STA [ 1121 cases with 15 variables ] 1 2 3 4 5 6 7 8 9 10 Q 5 Q13 AREA2 LEEFTIJD LFTD SG RP G ES LA CH T A NA MNESE A TO PIE ROK EN JOBBLOO T
1 0 0 1 24,43 1 1 0 0 0 0 2 0 0 1 23,10 1 1 2 1 0 0 3 0 0 1 34,34 3 1 0 0 0 0 4 0 0 1 33,51 3 0 0 0 0 0 5 0 0 1 39,76 4 1 0 0 1 0 6 0 0 1 28,08 2 0 1 1 0 0 7 1 0 1 44,72 5 0 2 1 1 0 8 0 0 1 29,05 2 1 2 1 0 0 9 0 0 1 43,84 5 1 2 1 0 1 10 0 0 1 38,37 4 1 0 0 3 1 11 12 13 14 15 C EN SO R T1 CENSO R2 T2 SA MPLE
1 1 25 1 20 2 2 1 23 1 20 2 3 1 34 1 20 2 4 1 33 1 20 2 5 1 40 1 20 2 6 1 28 1 20 2 7 1 45 1 20 2 8 1 29 1 20 2 9 1 44 1 20 2 10 1 39 1 20 2
data file: 2.STA [ 1121 cases with 15 variables ]
SPSS
Statistica
Beschrijvende statistiek
Beschrijving van een verdeling m.b.v. tabellen en figuren
kwalitatieve variabelenfrequentieverdeling
STAT. ANAMNESE: 0 = negatief, 1 = pos.astma, 2 = atopie (2.sta) BASIC STATS Cumul. Percent Cumul % % of all Cumul. %
Category Count Count of Valid of Valid Cases of All
G_1:0 513 513 48,30508 48,3051 45,76271 45,7627 G_2:1 166 679 15,63089 63,9360 14,80821 60,5709
G_3:2 383 1062 36,06403 100,0000 34,16592 94,7368 Missing 59 1121 5,55556 5,26316 100,0000
SPSS
Statistica
Beschrijvende statistiek
kwalitatieve variabelenstaafdiagram
ANAMNESE: 0 = negatief, 1 = pos.astma, 2 = atopie
Category
No
of
ob
s
0
50
100
150
200
250
300
350
400
450
500
550
600
G_1:0 G_2:1 G_3:2
Beschrijving van een verdeling m.b.v. tabellen en figuren
SPSS
Statistica
Beschrijvende statistiek
numerieke continue variabelenfrequentieverdeling
STAT. LEEFTIJD (2.sta) BASIC STATS Cumul. Percent Cumul % % of all Cumul. % Category Count Count of Valid of Valid Cases of All 15,000 < x <= 20,000 0 0 0,00000 0,0000 0,00000 0,0000 20,000 < x <= 25,000 165 165 14,71900 14,7190 14,71900 14,7190 25,000 < x <= 30,000 273 438 24,35326 39,0723 24,35326 39,0723 30,000 < x <= 35,000 226 664 20,16057 59,2328 20,16057 59,2328 35,000 < x <= 40,000 208 872 18,55486 77,7877 18,55486 77,7877 40,000 < x <= 45,000 225 1097 20,07136 97,8591 20,07136 97,8591 45,000 < x <= 50,000 24 1121 2,14095 100,0000 2,14095 100,0000 Missing 0 1121 0,00000 0,00000 100,0000
STAT. LEEFTIJD (2.sta) BASIC
Beschrijving van een verdeling m.b.v. tabellen en figuren
SPSS
Statistica
Beschrijvende statistiek
Histogram (2.STA 15v*1121c)
LEEFTIJD
No
of
ob
s
0
22
44
66
88
110
132
154
176
198
220
242
264
286
308
330
<= 20 (20;25] (25;30] (30;35] (35;40] (40;45] > 45
Beschrijving van een verdeling m.b.v. tabellen en figuren
numerieke continue variabelenhistogram
SPSS
Statistica
Beschrijvende statistiek
Beschrijving van een verdeling m.b.v. tabellen en figuren
numerieke continue variabelenfrequentiepolygoon
LEEFTIJD
Upper Boundaries (x <= boundary)
No
of
ob
s
0
50
100
150
200
250
300
350
400
15 20 25 30 35 40 45 50
SPSS
Statistica
Beschrijvende statistiek
Beschrijving van een verdeling m.b.v. tabellen en figuren
ExpectedNormal
OPP
Shapiro-Wilk W=,95957, p<,2674
Upper Boundaries (x <= boundary)
No
of
ob
s
0
1
2
3
4
5
80 100 120 140 160 180 200 220 240 260 280 300
numerieke continue variabelenhistogram
Statistica
Beschrijvende statistiek
Beschrijving van een verdeling m.b.v. tabellen en figuren
ExpectedNormal
OPP
Shapiro-Wilk W=,95957, p<,2674
Upper Boundaries (x <= boundary)
No
of
ob
s
0
1
2
3
4
5
80 100 120 140 160 180 200 220 240 260 280 300
numerieke continue variabelenfrequentiepolygoon
Statistica
Beschrijvende statistiek
Kengetallen
Kwalitatieve variabelen: meestal niet nodig. evt. een modale categorie
Numerieke (kwantitatieve) variabelen: karakterisering van de verdeling a.h.v.:kengetallen voor centraal niveau en voor spreiding.
Kengetallen voor het centrale niveaurekenkundig gemiddeldemediaan of 50e percentielandere percentielen
STAT. Descriptive Statistics (2.sta) BASIC STATS
Lower Upper Variable Valid N Mean Median Minimum Maximum Quartile Quartile LEEFTIJD 1121 33,05964 32,63039 20,50445 45,83778 27,40931 39,21492
STAT. Descriptive Statistics (2.sta) BASIC
SPSS
Statistica
Beschrijvende statistiek
Kengetallen
Mediaan of gemiddelde ?
meestal gemiddelde
nadeel: gevoeliger voor uitschieters dan mediaan
mediaan ook bruikbaar voor ordinale variabelen
symmetrische verdeling: gemiddelde = mediaan
niet symmetrische verdeling: voorkeur voor mediaan
Beschrijvende statistiek
Kengetallen
Kengetallen voor spreiding
SpreidingsbreedtePercentielafstanden (interkwartielafstand)StandaardafwijkingVariatiecoëfficiënt
STAT. Descriptive Statistics (2.sta)
BASIC STATS
Lower Upper Quartile
Variable Valid N Mean Median Minimum Maximum Quartile Quartile Range Std.Dev.
LEEFTIJD 1121 33,05964 32,63039 20,50445 45,83778 27,40931 39,21492 11,80561 6,972011
STAT. Descriptive Statistics (2.sta)
BASIC
SPSS
Statistica
Beschrijvende statistiek
Kengetallen
Kengetallen voor spreiding: Box-whisker plot
Spreidingsbreedte, interpercentiel afstand
Max = 45,83778Min = 20,50445
75% = 39,2149225% = 27,40931
Median value:Med = 32,63039
Box & Whisker Plot
18
24
30
36
42
48
LEEFTIJD
SPSS
Statistica
Beschrijvende statistiek
Kengetallen
Kengetallen voor spreiding: Box-whisker plot
Standaardafwijking
±1.96*StDev
±1.00*Std. Dev.Std. Dev. = 6,972012
Mean = 33,05961
Box & Whisker Plot
16
22
28
34
40
46
52
LEEFTIJD
SPSS
Statistica
Beschrijvende statistiek
Het beschrijven van verbanden tussen twee variabelen
Twee kwalitatieve variabelen: de kruistabel
STAT. 2-Way Summary Table: Observed Frequencies (2.sta) BASIC Marked cells have counts > 10 STATS ROKEN ROKEN ROKEN ROKEN Row GESLACHT: 0 = vrouw, 1 = man G_1:0 G_2:1 G_3:2 G_4:3 Totals G_1:0 199* 91* 97* 103* 490 G_1:1 282* 150* 109* 90* 631 Totals 481 241 206 193 1121
STAT. 2-Way Summary Table: Observed Frequencies (2.sta)
STAT. 2-Way Summary Table: Observed Frequencies (2.sta) BASIC Marked cells have counts > 10 STATS Q5 Q5 Row GESLACHT: 0 = vrouw, 1 = man G_1:0 G_2:1 Totals G_1:0 468* 20* 488 G_1:1 588* 42* 630 Totals 1056 62 1118
STAT. 2-Way Summary Table: Observed Frequencies (2.sta) BASIC Marked cells have counts > 10
SPSS
Statistica
Beschrijvende statistiek
Het beschrijven van verbanden tussen twee variabelen
Eén kwalitatieve en één continue variabele: Box-whisker plot
Min-Max
25%-75%
Median value
Box & Whisker Plot: LEEFTIJD
GESLACHT
LE
EF
TIJ
D
18
24
30
36
42
48
0 1SPSS
Statistica
Beschrijvende statistiek
Het beschrijven van verbanden tussen twee variabelen
Eén kwalitatieve en één continue variabele
Histogram: LEEFTIJD
No
of
ob
s
GESLACHT: 0
0
32
64
96
128
160
192
15 20 25 30 35 40 45 50
GESLACHT: 1
15 20 25 30 35 40 45 50
SPSS
Statistica
Beschrijvende statistiek
Het beschrijven van verbanden tussen twee variabelen
Twee continue variabelen: spreidingsdiagram (scatter plot)
Scatterplot (Bekpb97.STA 8v*117c)
PB
HG
B
0123456789
1011121314151617181920
2 6 10 14 18 22 26 30 34
SPSS
Statistica
Beschrijvende statistiek
Het beschrijven van verbanden tussen twee variabelen
Twee continue variabelen: spreidingsdiagram (scatter plot)Scatterplot (SARC.STA 21v*99c)
DIAM
DN
AIN
D
0,2
0,8
1,4
2,0
2,6
3,2
5 6 7 8 9 10
SPSS
Statistica
Beschrijvende statistiek
Het beschrijven van verbanden tussen twee variabelen
Twee continue variabelen: spreidingsdiagram (scatter plot)
Leeftijd in jaren
T T
T
0
4
8
12
16
20
24
28
20 30 40 50 60 70 80 90
Statistica
Kans op de gebeurtenis (ziekte, genezing, sterfte,…) in ‘de’ populatie– Wat betekent deze uitspraak?– Wat is kans?– Wat is ‘de’ populatie
Voorbeeld 1:– werp 100 maal een muntstuk op en noteer (cumulatief) het aantal malen kruis. Zet de fractie kruis uit tegen het aantal herhaalde worpen.
– Empirische wet van de grote getallen.
Kans en enkele basiseigenschappen
NDEWORPKRUISMUNCUMKRUISCUMFRKR1 0 0 02 0 0 03 1 1 0,3333334 1 2 0,55 0 2 0,46 1 3 0,57 1 4 0,5714298 1 5 0,6259 0 5 0,555556
10 0 5 0,511 1 6 0,54545512 1 7 0,58333313 1 8 0,61538514 1 9 0,64285715 1 10 0,66666716 0 10 0,62517 1 11 0,64705918 0 11 0,61111119 1 12 0,63157920 0 12 0,621 1 13 0,61904822 0 13 0,59090923 0 13 0,56521724 0 13 0,54166725 1 14 0,5626 1 15 0,57692327 0 15 0,55555628 1 16 0,57142929 1 17 0,58620730 0 17 0,566667
Empirische wet van de grote getallen
Kans en enkele basiseigenschappen
Aantal worpen
Fra
ctie
kru
is
0,0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1,0
0 20 40 60 80 100
Kans op de gebeurtenis (ziekte, genezing, sterfte,…)
Voorbeeld:– werp 100 maal een dobbelsteen en noteer (cumulatief) het aantal malen een. Zet de fractie een uit tegen het aantal herhaalde worpen.
– Empirische wet van de grote getallen.
Kans en enkele basiseigenschappen
Empirische wet van de grote getallen
Kans en enkele basiseigenschappen
Aantal worpen
Fra
ctie
een
0,0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1,0
0 20 40 60 80 100