statistik ss 2012 - deskriptive statistik...statistik ss 2012 deskriptive statistik bernhard spangl1...

29
Statistik SS 2012 Deskriptive Statistik Bernhard Spangl 1 1 Institut f¨ ur angewandte Statistik und EDV Universit¨ at f¨ ur Bodenkultur March 6, 2012 B. Spangl (Universit¨ at f¨ ur Bodenkultur) Statistik SS 2012 March 6, 2012 1 / 19

Upload: others

Post on 13-Jan-2020

26 views

Category:

Documents


1 download

TRANSCRIPT

Statistik SS 2012Deskriptive Statistik

Bernhard Spangl1

1Institut fur angewandte Statistik und EDVUniversitat fur Bodenkultur

March 6, 2012

B. Spangl (Universitat fur Bodenkultur) Statistik SS 2012 March 6, 2012 1 / 19

Deskriptive Statistik

Rohdaten und Auspragungen

Rohdaten: (Urliste, Primardaten)n Beobachtungen x1, x2, . . . , xn fur Merkmal XReihenfolge hat in der Regel keine Bedeutung

Auspragungen: Verschiedene vorkommende Werte von Xa1, a2, . . . , ak , k ≤ nFalls moglich (ab Ordinalskala) nach Große sortiert:a1 < a2 < . . . < ak

Oft gilt:

Qualitative Daten: k << n

Quantitative Daten: k ≈ n

B. Spangl (Universitat fur Bodenkultur) Statistik SS 2012 March 6, 2012 2 / 19

Deskriptive Statistik

Haufigkeiten

Einfachste Kompression, bis auf Reihenfolge kein Informationsverlust:

Absolute Haufigkeit: hj = h(aj)Anzahl der xi aus x1, . . . , xn mit xi = aj

Relative Haufigkeit: fj = f (aj) = hj/n

Haufigkeitsverteilung: Die Mengen h1, . . . , hk und f1, . . . , fk heißenabsolute bzw. relative Haufigkeitsverteilung von x .

Visualisierung: Stab-, Balken-, Punkt-, Kreisdiagramm

B. Spangl (Universitat fur Bodenkultur) Statistik SS 2012 March 6, 2012 3 / 19

Deskriptive Statistik

Haufigkeiten

Wenn statt der Urliste nur die Auspragungen a1, . . . , ak und dieHaufigkeiten f1, . . . , fk bzw. h1, . . . , hk vorliegen, sprechen wir vonHaufigkeitsdaten.

Klassenbildung, gruppierte Daten:Bei metrischen oder stetigen Merkmalen oft Gruppierung der Urlistedurch Bildung geeigneter Klassen.

Erhebung: Anonymisierung, einfacher & schneller, . . .Beschreibung: inhaltlich gute Zusammenfassung der Daten

B. Spangl (Universitat fur Bodenkultur) Statistik SS 2012 March 6, 2012 4 / 19

Deskriptive Statistik

Daten

> source("micro.R")

> micro[1:13, ]

diameter resistence color

1 0.5 very sensitive yellow

2 4.1 sensitive yellow

3 4.4 inbetween yellow

4 5.6 resistent yellow

5 6.8 very resistent yellow

6 7.2 very sensitive yellow

7 7.7 resistent yellow

8 7.8 inbetween yellow

9 8.2 resistent yellow

10 9.5 very resistent yellow

11 9.2 very sensitive yellow

12 9.9 sensitive yellow

13 11.9 inbetween yellow

B. Spangl (Universitat fur Bodenkultur) Statistik SS 2012 March 6, 2012 5 / 19

Deskriptive Statistik

Haufigkeiten

Gesamtanzahl: n = 40

absolute Haufigkeiten hi :0.2 0.5 1.5 2.1 2.2 2.4 2.8 3.2 3.3 4.1 4.2 4.4

1 1 1 1 2 1 1 1 1 2 2 1

5.6 5.8 6.2 6.4 6.6 6.8 7.2 7.7 7.8 7.9 8.1 8.2

1 4 2 2 1 1 1 1 1 1 1 1

9.2 9.5 9.8 9.9 10.1 11.9

1 1 2 1 2 1

relative Haufigkeiten fi = hi/n:0.2 0.5 1.5 2.1 2.2 2.4 2.8 3.2 3.3 4.1

0.025 0.025 0.025 0.025 0.050 0.025 0.025 0.025 0.025 0.050

4.2 4.4 5.6 5.8 6.2 6.4 6.6 6.8 7.2 7.7

0.050 0.025 0.025 0.100 0.050 0.050 0.025 0.025 0.025 0.025

7.8 7.9 8.1 8.2 9.2 9.5 9.8 9.9 10.1 11.9

0.025 0.025 0.025 0.025 0.025 0.025 0.050 0.025 0.050 0.025

B. Spangl (Universitat fur Bodenkultur) Statistik SS 2012 March 6, 2012 6 / 19

Deskriptive Statistik

Kumulierte Haufigkeiten

Voraussetzung: X (mindestens) ordinal skaliertZiel: Graphische Darstellung fur Anzahl bzw. Anteil der Daten ≤ x , (furvorgegebenen Wert x)Absolute kumulierte Haufigkeitsverteilung

H(x) = Anzahl der Werte xi mit xi ≤ x

Bei Haufigkeitsdaten:

H(x) = h(a1) + . . .+ h(aj) =∑i :ai≤x

hi

Relative kumulierte Haufigkeitsverteilung (empirische Verteilung):

F (x) = H(x)/n

B. Spangl (Universitat fur Bodenkultur) Statistik SS 2012 March 6, 2012 7 / 19

Deskriptive Statistik

Kumulierte Haufigkeiten: Bsp Bakterienkolonie

Absolute Haufigkeiten hi , kumulierte abs. Haufigkeiten:

0.2 0.5 1.5 2.1 2.2 2.4 2.8 3.2 3.3 4.1 4.2 4.4

1 1 1 1 2 1 1 1 1 2 2 1

5.6 5.8 6.2 6.4 6.6 6.8 7.2 7.7 7.8 7.9 8.1 8.2

1 4 2 2 1 1 1 1 1 1 1 1

9.2 9.5 9.8 9.9 10.1 11.9

1 1 2 1 2 1

0.2 0.5 1.5 2.1 2.2 2.4 2.8 3.2 3.3 4.1 4.2 4.4

1 2 3 4 6 7 8 9 10 12 14 15

5.6 5.8 6.2 6.4 6.6 6.8 7.2 7.7 7.8 7.9 8.1 8.2

16 20 22 24 25 26 27 28 29 30 31 32

9.2 9.5 9.8 9.9 10.1 11.9

33 34 36 37 39 40

B. Spangl (Universitat fur Bodenkultur) Statistik SS 2012 March 6, 2012 8 / 19

Deskriptive Statistik

Kumulierte Haufigkeiten: Bsp Bakterienkolonie

Relative Haufigkeiten fi , kumulierte rel. Haufigkeiten:

0.2 0.5 1.5 2.1 2.2 2.4 2.8 3.2 3.3 4.1

0.025 0.025 0.025 0.025 0.050 0.025 0.025 0.025 0.025 0.050

4.2 4.4 5.6 5.8 6.2 6.4 6.6 6.8 7.2 7.7

0.050 0.025 0.025 0.100 0.050 0.050 0.025 0.025 0.025 0.025

7.8 7.9 8.1 8.2 9.2 9.5 9.8 9.9 10.1 11.9

0.025 0.025 0.025 0.025 0.025 0.025 0.050 0.025 0.050 0.025

0.2 0.5 1.5 2.1 2.2 2.4 2.8 3.2 3.3 4.1

0.025 0.050 0.075 0.100 0.150 0.175 0.200 0.225 0.250 0.300

4.2 4.4 5.6 5.8 6.2 6.4 6.6 6.8 7.2 7.7

0.350 0.375 0.400 0.500 0.550 0.600 0.625 0.650 0.675 0.700

7.8 7.9 8.1 8.2 9.2 9.5 9.8 9.9 10.1 11.9

0.725 0.750 0.775 0.800 0.825 0.850 0.900 0.925 0.975 1.000

B. Spangl (Universitat fur Bodenkultur) Statistik SS 2012 March 6, 2012 9 / 19

Deskriptive Statistik

Empirische Verteilungsfunktion

F (x) = H(x)/n = Anteil der Werte xi mit xi ≤ x

bzw.F (x) = f (a1) + . . .+ f (aj) =

∑i :ai≤x

fi ,

wobei aj ≤ x und aj+1 > x ist.

Eigenschaften:

monoton wachsende Treppenfunktionen mit Sprungen an denAuspragungen a1, . . . , ak

Sprunghohen: h1, . . . , hk bzw. f1, . . . , fk

rechtsseitig stetig

H(x) = 0 fur x < a1, H(x) = n fur x ≥ akF (x) = 0 fur x < a1, F (x) = 1 fur x ≥ ak

B. Spangl (Universitat fur Bodenkultur) Statistik SS 2012 March 6, 2012 10 / 19

Deskriptive Statistik

Empirische Verteilungsfunktion

F (x) = H(x)/n = Anteil der Werte xi mit xi ≤ x

bzw.F (x) = f (a1) + . . .+ f (aj) =

∑i :ai≤x

fi ,

wobei aj ≤ x und aj+1 > x ist.

Eigenschaften:

monoton wachsende Treppenfunktionen mit Sprungen an denAuspragungen a1, . . . , ak

Sprunghohen: h1, . . . , hk bzw. f1, . . . , fk

rechtsseitig stetig

H(x) = 0 fur x < a1, H(x) = n fur x ≥ akF (x) = 0 fur x < a1, F (x) = 1 fur x ≥ ak

B. Spangl (Universitat fur Bodenkultur) Statistik SS 2012 March 6, 2012 10 / 19

Deskriptive Statistik Graphische Methoden

Empirische Verteilungsfunktion

0 2 4 6 8 10 12

0.0

0.2

0.4

0.6

0.8

1.0

Durchmesser

x

Fn(

x)

●●

●●

●●

●●●

●●

●●

●●

●●●

●●

●●

●●

●●

B. Spangl (Universitat fur Bodenkultur) Statistik SS 2012 March 6, 2012 11 / 19

Deskriptive Statistik Graphische Methoden

Range und Quantile

Rangstatistiken (Ordnungsstatistiken): geordnete Stichprobe

min(X ) = x(1) ≤ x(2) ≤ . . . ≤ x(N−1) ≤ x(N) = max(X )

Quantile (Perzentile): Umkehrfunktion der Verteilungsfunktion

xα = F−1(α) ⇔ #{x ≤ xα}n

= α

Verallgemeinerung des Medians.

Idee: p -Quantil xp (0 < p < 1) trennt Daten so in zwei Teile, dass

∼ p · 100% der Daten links von xp,

∼ (1− p) · 100% der Daten rechts von xp liegen.

Nur sinnvoll fur mindestens ordinales X .

B. Spangl (Universitat fur Bodenkultur) Statistik SS 2012 March 6, 2012 12 / 19

Deskriptive Statistik Graphische Methoden

Range und Quantile

Jeder Wert xp mit 0 < p < 1, fur den mindestens ein Anteil p der Datenkleiner/gleich xp und mindestens ein Anteil 1− p großer/gleich xp ist,heißt p-Quantil.

Es muß also gelten

#{x-Werte ≤ xp}n

≥ p und#{x-Werte ≥ xp}

n≥ 1− p .

Damit gilt fur das p-Quantil :

xp = x([np]+1) , wenn np nicht ganzzahlig ,

xp ∈ [x(np), x(np+1)] , wenn np ganzzahlig .

Dabei ist [np] die zu np nachste kleinere ganze Zahl.

B. Spangl (Universitat fur Bodenkultur) Statistik SS 2012 March 6, 2012 13 / 19

Deskriptive Statistik Graphische Methoden

5 Zahlen Zusammenfassung

Unteres (1.) Quartil = 25 %-Quantil = x0.25Oberes (3.) Quartil = 75 %-Quantil = x0.75

5 Zahlen: Min, 1. Qu., Median, 3. Qu., Max

> summary(micro$diameter)

Min. 1st Qu. Median Mean 3rd Qu. Max.

0.20 3.90 6.00 5.90 7.95 11.90

Streuungsmaße: Interquartilsabstand (IQR), Spannbreite

B. Spangl (Universitat fur Bodenkultur) Statistik SS 2012 March 6, 2012 14 / 19

Deskriptive Statistik Graphische Methoden

Bsp: Wohnflache

0 2 4 6 8 10 12

0.0

0.2

0.4

0.6

0.8

1.0

Durchmesser

x

Fn(

x)

B. Spangl (Universitat fur Bodenkultur) Statistik SS 2012 March 6, 2012 15 / 19

Deskriptive Statistik Graphische Methoden

Bsp: Wohnflache

0 2 4 6 8 10 12

0.0

0.2

0.4

0.6

0.8

1.0

Durchmesser

x

Fn(

x) 0.5 ●

B. Spangl (Universitat fur Bodenkultur) Statistik SS 2012 March 6, 2012 15 / 19

Deskriptive Statistik Graphische Methoden

Bsp: Wohnflache

0 2 4 6 8 10 12

0.0

0.2

0.4

0.6

0.8

1.0

Durchmesser

x

Fn(

x) 0.5 ●

Med

ian

B. Spangl (Universitat fur Bodenkultur) Statistik SS 2012 March 6, 2012 15 / 19

Deskriptive Statistik Graphische Methoden

Bsp: Wohnflache

0 2 4 6 8 10 12

0.0

0.2

0.4

0.6

0.8

1.0

Durchmesser

x

Fn(

x) 0.5 ●

Med

ian

0.25 ●

1. Q

uart

il

B. Spangl (Universitat fur Bodenkultur) Statistik SS 2012 March 6, 2012 15 / 19

Deskriptive Statistik Graphische Methoden

Bsp: Wohnflache

0 2 4 6 8 10 12

0.0

0.2

0.4

0.6

0.8

1.0

Durchmesser

x

Fn(

x) 0.5 ●

Med

ian

0.25 ●

1. Q

uart

il

0.75 ●

3. Q

uart

il

B. Spangl (Universitat fur Bodenkultur) Statistik SS 2012 March 6, 2012 15 / 19

Deskriptive Statistik Graphische Methoden

Bsp: Wohnflache

0 2 4 6 8 10 12

0.0

0.2

0.4

0.6

0.8

1.0

Durchmesser

x

Fn(

x) 0.5 ●

Med

ian

0.25 ●

1. Q

uart

il

0.75 ●

3. Q

uart

il

IQR

B. Spangl (Universitat fur Bodenkultur) Statistik SS 2012 March 6, 2012 15 / 19

Deskriptive Statistik Graphische Methoden

Boxplot

x0.25 = Anfang der Schachtel (”box“)

x0.75 = Ende der SchachtelIQR = Lange der Schachtel

Der Median wird eine Linie (oder durch einen Punkt) in der Boxmarkiert.

Zwei Linien (”whiskers“) außerhalb der Box

Die Linien außerhalb der Schachtel nur bis zu xmin bzw. xmax ziehen,falls xmin und xmax innerhalb des Bereichs [zu, zo ] liegen(zu = x0.25 − 1.5dQ ; zo = x0.75 + 1.5dQ), mit dQ InterquartilsabstandIQR.Ansonsten die Linien nur bis zum kleinsten bzw. großten Wertinnerhalb der Whisker-Grenzen zu, zo ziehen und die außerhalbliegenden Werte individuell einzeichnen.

B. Spangl (Universitat fur Bodenkultur) Statistik SS 2012 March 6, 2012 16 / 19

Deskriptive Statistik Graphische Methoden

Boxplot

02

46

810

12

B. Spangl (Universitat fur Bodenkultur) Statistik SS 2012 March 6, 2012 17 / 19

Deskriptive Statistik Graphische Methoden

Boxplot (cont.)

●●

●●

●●●

●●

●●●

● ●●●●●

●●●

●●

●●

−0.4 0.0 0.4

05

10

n=40

diam

eter

B. Spangl (Universitat fur Bodenkultur) Statistik SS 2012 March 6, 2012 18 / 19

Deskriptive Statistik Graphische Methoden

Boxplot (cont.)

●●

●●

●●●

●●

●●●

● ●●●●●

●●●

●●

●●

−0.4 0.0 0.4

05

10

n=40

diam

eter

B. Spangl (Universitat fur Bodenkultur) Statistik SS 2012 March 6, 2012 18 / 19

Deskriptive Statistik Graphische Methoden

Boxplot (cont.)

●●

●●

●●●

●●

●●●

● ●●●●●

●●●

●●

●●

−0.4 0.0 0.4

05

10

n=40

diam

eter

B. Spangl (Universitat fur Bodenkultur) Statistik SS 2012 March 6, 2012 18 / 19

Deskriptive Statistik Graphische Methoden

Boxplot (cont.)

●●

●●

●●●

●●

●●●

● ●●●●●

●●●

●●

●●

−0.4 0.0 0.4

05

10

n=40

diam

eter

B. Spangl (Universitat fur Bodenkultur) Statistik SS 2012 March 6, 2012 18 / 19

Deskriptive Statistik Graphische Methoden

Boxplot (cont.)

●●

●●

●●●

●●

●●●

● ●●●●●

●●●

●●

●●

−0.4 0.0 0.4

05

10

n=40

diam

eter

05

10

B. Spangl (Universitat fur Bodenkultur) Statistik SS 2012 March 6, 2012 18 / 19

Deskriptive Statistik Graphische Methoden

Gruppenvergleich

yellow

diameter

Fre

quen

cy

0 2 4 6 8 10 12

01

23

4

white

diameter

Fre

quen

cy

2 4 6 8 10 12

01

23

4

other

diameter

Fre

quen

cy

0 2 4 6 8 10 12

01

23

4

yellow white other

02

46

810

boxplot

B. Spangl (Universitat fur Bodenkultur) Statistik SS 2012 March 6, 2012 19 / 19