statistik ss 2012 - deskriptive statistik...statistik ss 2012 deskriptive statistik bernhard spangl1...
TRANSCRIPT
Statistik SS 2012Deskriptive Statistik
Bernhard Spangl1
1Institut fur angewandte Statistik und EDVUniversitat fur Bodenkultur
March 6, 2012
B. Spangl (Universitat fur Bodenkultur) Statistik SS 2012 March 6, 2012 1 / 19
Deskriptive Statistik
Rohdaten und Auspragungen
Rohdaten: (Urliste, Primardaten)n Beobachtungen x1, x2, . . . , xn fur Merkmal XReihenfolge hat in der Regel keine Bedeutung
Auspragungen: Verschiedene vorkommende Werte von Xa1, a2, . . . , ak , k ≤ nFalls moglich (ab Ordinalskala) nach Große sortiert:a1 < a2 < . . . < ak
Oft gilt:
Qualitative Daten: k << n
Quantitative Daten: k ≈ n
B. Spangl (Universitat fur Bodenkultur) Statistik SS 2012 March 6, 2012 2 / 19
Deskriptive Statistik
Haufigkeiten
Einfachste Kompression, bis auf Reihenfolge kein Informationsverlust:
Absolute Haufigkeit: hj = h(aj)Anzahl der xi aus x1, . . . , xn mit xi = aj
Relative Haufigkeit: fj = f (aj) = hj/n
Haufigkeitsverteilung: Die Mengen h1, . . . , hk und f1, . . . , fk heißenabsolute bzw. relative Haufigkeitsverteilung von x .
Visualisierung: Stab-, Balken-, Punkt-, Kreisdiagramm
B. Spangl (Universitat fur Bodenkultur) Statistik SS 2012 March 6, 2012 3 / 19
Deskriptive Statistik
Haufigkeiten
Wenn statt der Urliste nur die Auspragungen a1, . . . , ak und dieHaufigkeiten f1, . . . , fk bzw. h1, . . . , hk vorliegen, sprechen wir vonHaufigkeitsdaten.
Klassenbildung, gruppierte Daten:Bei metrischen oder stetigen Merkmalen oft Gruppierung der Urlistedurch Bildung geeigneter Klassen.
Erhebung: Anonymisierung, einfacher & schneller, . . .Beschreibung: inhaltlich gute Zusammenfassung der Daten
B. Spangl (Universitat fur Bodenkultur) Statistik SS 2012 March 6, 2012 4 / 19
Deskriptive Statistik
Daten
> source("micro.R")
> micro[1:13, ]
diameter resistence color
1 0.5 very sensitive yellow
2 4.1 sensitive yellow
3 4.4 inbetween yellow
4 5.6 resistent yellow
5 6.8 very resistent yellow
6 7.2 very sensitive yellow
7 7.7 resistent yellow
8 7.8 inbetween yellow
9 8.2 resistent yellow
10 9.5 very resistent yellow
11 9.2 very sensitive yellow
12 9.9 sensitive yellow
13 11.9 inbetween yellow
B. Spangl (Universitat fur Bodenkultur) Statistik SS 2012 March 6, 2012 5 / 19
Deskriptive Statistik
Haufigkeiten
Gesamtanzahl: n = 40
absolute Haufigkeiten hi :0.2 0.5 1.5 2.1 2.2 2.4 2.8 3.2 3.3 4.1 4.2 4.4
1 1 1 1 2 1 1 1 1 2 2 1
5.6 5.8 6.2 6.4 6.6 6.8 7.2 7.7 7.8 7.9 8.1 8.2
1 4 2 2 1 1 1 1 1 1 1 1
9.2 9.5 9.8 9.9 10.1 11.9
1 1 2 1 2 1
relative Haufigkeiten fi = hi/n:0.2 0.5 1.5 2.1 2.2 2.4 2.8 3.2 3.3 4.1
0.025 0.025 0.025 0.025 0.050 0.025 0.025 0.025 0.025 0.050
4.2 4.4 5.6 5.8 6.2 6.4 6.6 6.8 7.2 7.7
0.050 0.025 0.025 0.100 0.050 0.050 0.025 0.025 0.025 0.025
7.8 7.9 8.1 8.2 9.2 9.5 9.8 9.9 10.1 11.9
0.025 0.025 0.025 0.025 0.025 0.025 0.050 0.025 0.050 0.025
B. Spangl (Universitat fur Bodenkultur) Statistik SS 2012 March 6, 2012 6 / 19
Deskriptive Statistik
Kumulierte Haufigkeiten
Voraussetzung: X (mindestens) ordinal skaliertZiel: Graphische Darstellung fur Anzahl bzw. Anteil der Daten ≤ x , (furvorgegebenen Wert x)Absolute kumulierte Haufigkeitsverteilung
H(x) = Anzahl der Werte xi mit xi ≤ x
Bei Haufigkeitsdaten:
H(x) = h(a1) + . . .+ h(aj) =∑i :ai≤x
hi
Relative kumulierte Haufigkeitsverteilung (empirische Verteilung):
F (x) = H(x)/n
B. Spangl (Universitat fur Bodenkultur) Statistik SS 2012 March 6, 2012 7 / 19
Deskriptive Statistik
Kumulierte Haufigkeiten: Bsp Bakterienkolonie
Absolute Haufigkeiten hi , kumulierte abs. Haufigkeiten:
0.2 0.5 1.5 2.1 2.2 2.4 2.8 3.2 3.3 4.1 4.2 4.4
1 1 1 1 2 1 1 1 1 2 2 1
5.6 5.8 6.2 6.4 6.6 6.8 7.2 7.7 7.8 7.9 8.1 8.2
1 4 2 2 1 1 1 1 1 1 1 1
9.2 9.5 9.8 9.9 10.1 11.9
1 1 2 1 2 1
0.2 0.5 1.5 2.1 2.2 2.4 2.8 3.2 3.3 4.1 4.2 4.4
1 2 3 4 6 7 8 9 10 12 14 15
5.6 5.8 6.2 6.4 6.6 6.8 7.2 7.7 7.8 7.9 8.1 8.2
16 20 22 24 25 26 27 28 29 30 31 32
9.2 9.5 9.8 9.9 10.1 11.9
33 34 36 37 39 40
B. Spangl (Universitat fur Bodenkultur) Statistik SS 2012 March 6, 2012 8 / 19
Deskriptive Statistik
Kumulierte Haufigkeiten: Bsp Bakterienkolonie
Relative Haufigkeiten fi , kumulierte rel. Haufigkeiten:
0.2 0.5 1.5 2.1 2.2 2.4 2.8 3.2 3.3 4.1
0.025 0.025 0.025 0.025 0.050 0.025 0.025 0.025 0.025 0.050
4.2 4.4 5.6 5.8 6.2 6.4 6.6 6.8 7.2 7.7
0.050 0.025 0.025 0.100 0.050 0.050 0.025 0.025 0.025 0.025
7.8 7.9 8.1 8.2 9.2 9.5 9.8 9.9 10.1 11.9
0.025 0.025 0.025 0.025 0.025 0.025 0.050 0.025 0.050 0.025
0.2 0.5 1.5 2.1 2.2 2.4 2.8 3.2 3.3 4.1
0.025 0.050 0.075 0.100 0.150 0.175 0.200 0.225 0.250 0.300
4.2 4.4 5.6 5.8 6.2 6.4 6.6 6.8 7.2 7.7
0.350 0.375 0.400 0.500 0.550 0.600 0.625 0.650 0.675 0.700
7.8 7.9 8.1 8.2 9.2 9.5 9.8 9.9 10.1 11.9
0.725 0.750 0.775 0.800 0.825 0.850 0.900 0.925 0.975 1.000
B. Spangl (Universitat fur Bodenkultur) Statistik SS 2012 March 6, 2012 9 / 19
Deskriptive Statistik
Empirische Verteilungsfunktion
F (x) = H(x)/n = Anteil der Werte xi mit xi ≤ x
bzw.F (x) = f (a1) + . . .+ f (aj) =
∑i :ai≤x
fi ,
wobei aj ≤ x und aj+1 > x ist.
Eigenschaften:
monoton wachsende Treppenfunktionen mit Sprungen an denAuspragungen a1, . . . , ak
Sprunghohen: h1, . . . , hk bzw. f1, . . . , fk
rechtsseitig stetig
H(x) = 0 fur x < a1, H(x) = n fur x ≥ akF (x) = 0 fur x < a1, F (x) = 1 fur x ≥ ak
B. Spangl (Universitat fur Bodenkultur) Statistik SS 2012 March 6, 2012 10 / 19
Deskriptive Statistik
Empirische Verteilungsfunktion
F (x) = H(x)/n = Anteil der Werte xi mit xi ≤ x
bzw.F (x) = f (a1) + . . .+ f (aj) =
∑i :ai≤x
fi ,
wobei aj ≤ x und aj+1 > x ist.
Eigenschaften:
monoton wachsende Treppenfunktionen mit Sprungen an denAuspragungen a1, . . . , ak
Sprunghohen: h1, . . . , hk bzw. f1, . . . , fk
rechtsseitig stetig
H(x) = 0 fur x < a1, H(x) = n fur x ≥ akF (x) = 0 fur x < a1, F (x) = 1 fur x ≥ ak
B. Spangl (Universitat fur Bodenkultur) Statistik SS 2012 March 6, 2012 10 / 19
Deskriptive Statistik Graphische Methoden
Empirische Verteilungsfunktion
0 2 4 6 8 10 12
0.0
0.2
0.4
0.6
0.8
1.0
Durchmesser
x
Fn(
x)
●●
●●
●●
●●●
●
●●
●
●
●
●●
●●
●●●
●●
●●
●●
●●
B. Spangl (Universitat fur Bodenkultur) Statistik SS 2012 March 6, 2012 11 / 19
Deskriptive Statistik Graphische Methoden
Range und Quantile
Rangstatistiken (Ordnungsstatistiken): geordnete Stichprobe
min(X ) = x(1) ≤ x(2) ≤ . . . ≤ x(N−1) ≤ x(N) = max(X )
Quantile (Perzentile): Umkehrfunktion der Verteilungsfunktion
xα = F−1(α) ⇔ #{x ≤ xα}n
= α
Verallgemeinerung des Medians.
Idee: p -Quantil xp (0 < p < 1) trennt Daten so in zwei Teile, dass
∼ p · 100% der Daten links von xp,
∼ (1− p) · 100% der Daten rechts von xp liegen.
Nur sinnvoll fur mindestens ordinales X .
B. Spangl (Universitat fur Bodenkultur) Statistik SS 2012 March 6, 2012 12 / 19
Deskriptive Statistik Graphische Methoden
Range und Quantile
Jeder Wert xp mit 0 < p < 1, fur den mindestens ein Anteil p der Datenkleiner/gleich xp und mindestens ein Anteil 1− p großer/gleich xp ist,heißt p-Quantil.
Es muß also gelten
#{x-Werte ≤ xp}n
≥ p und#{x-Werte ≥ xp}
n≥ 1− p .
Damit gilt fur das p-Quantil :
xp = x([np]+1) , wenn np nicht ganzzahlig ,
xp ∈ [x(np), x(np+1)] , wenn np ganzzahlig .
Dabei ist [np] die zu np nachste kleinere ganze Zahl.
B. Spangl (Universitat fur Bodenkultur) Statistik SS 2012 March 6, 2012 13 / 19
Deskriptive Statistik Graphische Methoden
5 Zahlen Zusammenfassung
Unteres (1.) Quartil = 25 %-Quantil = x0.25Oberes (3.) Quartil = 75 %-Quantil = x0.75
5 Zahlen: Min, 1. Qu., Median, 3. Qu., Max
> summary(micro$diameter)
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.20 3.90 6.00 5.90 7.95 11.90
Streuungsmaße: Interquartilsabstand (IQR), Spannbreite
B. Spangl (Universitat fur Bodenkultur) Statistik SS 2012 March 6, 2012 14 / 19
Deskriptive Statistik Graphische Methoden
Bsp: Wohnflache
0 2 4 6 8 10 12
0.0
0.2
0.4
0.6
0.8
1.0
Durchmesser
x
Fn(
x)
B. Spangl (Universitat fur Bodenkultur) Statistik SS 2012 March 6, 2012 15 / 19
Deskriptive Statistik Graphische Methoden
Bsp: Wohnflache
0 2 4 6 8 10 12
0.0
0.2
0.4
0.6
0.8
1.0
Durchmesser
x
Fn(
x) 0.5 ●
B. Spangl (Universitat fur Bodenkultur) Statistik SS 2012 March 6, 2012 15 / 19
Deskriptive Statistik Graphische Methoden
Bsp: Wohnflache
0 2 4 6 8 10 12
0.0
0.2
0.4
0.6
0.8
1.0
Durchmesser
x
Fn(
x) 0.5 ●
Med
ian
B. Spangl (Universitat fur Bodenkultur) Statistik SS 2012 March 6, 2012 15 / 19
Deskriptive Statistik Graphische Methoden
Bsp: Wohnflache
0 2 4 6 8 10 12
0.0
0.2
0.4
0.6
0.8
1.0
Durchmesser
x
Fn(
x) 0.5 ●
Med
ian
0.25 ●
1. Q
uart
il
B. Spangl (Universitat fur Bodenkultur) Statistik SS 2012 March 6, 2012 15 / 19
Deskriptive Statistik Graphische Methoden
Bsp: Wohnflache
0 2 4 6 8 10 12
0.0
0.2
0.4
0.6
0.8
1.0
Durchmesser
x
Fn(
x) 0.5 ●
Med
ian
0.25 ●
1. Q
uart
il
0.75 ●
3. Q
uart
il
B. Spangl (Universitat fur Bodenkultur) Statistik SS 2012 March 6, 2012 15 / 19
Deskriptive Statistik Graphische Methoden
Bsp: Wohnflache
0 2 4 6 8 10 12
0.0
0.2
0.4
0.6
0.8
1.0
Durchmesser
x
Fn(
x) 0.5 ●
Med
ian
0.25 ●
1. Q
uart
il
0.75 ●
3. Q
uart
il
IQR
B. Spangl (Universitat fur Bodenkultur) Statistik SS 2012 March 6, 2012 15 / 19
Deskriptive Statistik Graphische Methoden
Boxplot
x0.25 = Anfang der Schachtel (”box“)
x0.75 = Ende der SchachtelIQR = Lange der Schachtel
Der Median wird eine Linie (oder durch einen Punkt) in der Boxmarkiert.
Zwei Linien (”whiskers“) außerhalb der Box
Die Linien außerhalb der Schachtel nur bis zu xmin bzw. xmax ziehen,falls xmin und xmax innerhalb des Bereichs [zu, zo ] liegen(zu = x0.25 − 1.5dQ ; zo = x0.75 + 1.5dQ), mit dQ InterquartilsabstandIQR.Ansonsten die Linien nur bis zum kleinsten bzw. großten Wertinnerhalb der Whisker-Grenzen zu, zo ziehen und die außerhalbliegenden Werte individuell einzeichnen.
B. Spangl (Universitat fur Bodenkultur) Statistik SS 2012 March 6, 2012 16 / 19
Deskriptive Statistik Graphische Methoden
Boxplot
02
46
810
12
B. Spangl (Universitat fur Bodenkultur) Statistik SS 2012 March 6, 2012 17 / 19
Deskriptive Statistik Graphische Methoden
Boxplot (cont.)
●
●●
●
●●
●●●
●●
●
●
●●●
●
● ●●●●●
●
●●●
●
●
●●
●
●
●
●
●●
●
●
●
−0.4 0.0 0.4
05
10
n=40
diam
eter
B. Spangl (Universitat fur Bodenkultur) Statistik SS 2012 March 6, 2012 18 / 19
Deskriptive Statistik Graphische Methoden
Boxplot (cont.)
●
●●
●
●●
●●●
●●
●
●
●●●
●
● ●●●●●
●
●●●
●
●
●●
●
●
●
●
●●
●
●
●
−0.4 0.0 0.4
05
10
n=40
diam
eter
B. Spangl (Universitat fur Bodenkultur) Statistik SS 2012 March 6, 2012 18 / 19
Deskriptive Statistik Graphische Methoden
Boxplot (cont.)
●
●●
●
●●
●●●
●●
●
●
●●●
●
● ●●●●●
●
●●●
●
●
●●
●
●
●
●
●●
●
●
●
−0.4 0.0 0.4
05
10
n=40
diam
eter
B. Spangl (Universitat fur Bodenkultur) Statistik SS 2012 March 6, 2012 18 / 19
Deskriptive Statistik Graphische Methoden
Boxplot (cont.)
●
●●
●
●●
●●●
●●
●
●
●●●
●
● ●●●●●
●
●●●
●
●
●●
●
●
●
●
●●
●
●
●
−0.4 0.0 0.4
05
10
n=40
diam
eter
B. Spangl (Universitat fur Bodenkultur) Statistik SS 2012 March 6, 2012 18 / 19
Deskriptive Statistik Graphische Methoden
Boxplot (cont.)
●
●●
●
●●
●●●
●●
●
●
●●●
●
● ●●●●●
●
●●●
●
●
●●
●
●
●
●
●●
●
●
●
−0.4 0.0 0.4
05
10
n=40
diam
eter
05
10
B. Spangl (Universitat fur Bodenkultur) Statistik SS 2012 March 6, 2012 18 / 19
Deskriptive Statistik Graphische Methoden
Gruppenvergleich
yellow
diameter
Fre
quen
cy
0 2 4 6 8 10 12
01
23
4
white
diameter
Fre
quen
cy
2 4 6 8 10 12
01
23
4
other
diameter
Fre
quen
cy
0 2 4 6 8 10 12
01
23
4
yellow white other
02
46
810
boxplot
B. Spangl (Universitat fur Bodenkultur) Statistik SS 2012 March 6, 2012 19 / 19