2. deskriptive statistik - mathematik.uni-marburg.defketterer/stoch0ws09-files/... · datentypen...

32

Upload: dinhdang

Post on 30-May-2019

224 views

Category:

Documents


0 download

TRANSCRIPT

2. Deskriptive Statistik

Hajo Holzmann

Philipps-Universit�at Marburg

2.1 Stichproben und Datentypen

Untersuchungseinheiten: m�ogliche, statistisch zu erfassende

Einheiten

je Untersuchungseinheit: ein oder mehrere Merkmale oder

Variablen beobachten

m�ogliche Werte eines Merkmals: Merkmalsauspr�agungen

Untersuchungseinheit Merkmal Merkmalauspr�agungen

Baum Baumart Eiche, Buche, . . .

arbeitslose Person Schulabschluss keiner, Hauptschule,

Realschule, Gymnasium

Person Familienstand ledig, verheiratet, geschieden, . . .

Hajo Holzmann 2. Deskriptive Statistik

2.1 Stichproben und Datentypen

Untersuchungseinheiten: m�ogliche, statistisch zu erfassende

Einheiten

je Untersuchungseinheit: ein oder mehrere Merkmale oder

Variablen beobachten

m�ogliche Werte eines Merkmals: Merkmalsauspr�agungen

Untersuchungseinheit Merkmal Merkmalauspr�agungen

Baum Baumart Eiche, Buche, . . .

arbeitslose Person Schulabschluss keiner, Hauptschule,

Realschule, Gymnasium

Person Familienstand ledig, verheiratet, geschieden, . . .

Hajo Holzmann 2. Deskriptive Statistik

Stichproben

Grundgesamtheit = Menge der m�oglichen Untersuchungseinheiten

Stichprobe = zuf�allig gewonnene, endliche Teilmenge der

Grundgesamtheit

Stichprobenumfang = Anzahl der erhobenen Daten

Hajo Holzmann 2. Deskriptive Statistik

Datentypen

Kategorielle (oder nominale) Daten f�ur jedes Datum welche

Kategorie, z.B. Autotypen, Baumart, Nationalit�at

Ordinale Daten kategorielle Daten mit geordneten Kategorien,

z.B. Noten, Erdbebenst�arke auf Richter Skala

Z�ahldaten oder diskrete Daten: Z�ahlen bestimmter Merkmale ,

z.B. Anzahl mit Geigerz�ahler registrierten Zerf�alle einer Probe,

Stetige (oder kontinuierliche) Daten k�onnen in Wertebereich {

zumindest theoretisch { jeden beliebigen Zahlenwert

annehmen, z.B. Gr�o�e, Alter, L�ange.

qualitative Daten: kategorielle und ordinale Daten

quantitative oder metrische Daten: Z�ahldaten und stetige Daten.

Hajo Holzmann 2. Deskriptive Statistik

Datentypen

Kategorielle (oder nominale) Daten f�ur jedes Datum welche

Kategorie, z.B. Autotypen, Baumart, Nationalit�at

Ordinale Daten kategorielle Daten mit geordneten Kategorien,

z.B. Noten, Erdbebenst�arke auf Richter Skala

Z�ahldaten oder diskrete Daten: Z�ahlen bestimmter Merkmale ,

z.B. Anzahl mit Geigerz�ahler registrierten Zerf�alle einer Probe,

Stetige (oder kontinuierliche) Daten k�onnen in Wertebereich {

zumindest theoretisch { jeden beliebigen Zahlenwert

annehmen, z.B. Gr�o�e, Alter, L�ange.

qualitative Daten: kategorielle und ordinale Daten

quantitative oder metrische Daten: Z�ahldaten und stetige Daten.

Hajo Holzmann 2. Deskriptive Statistik

2.2 Beschreibung kategorieller Daten

absolute H�au�gkeiten: Wieviele Daten in jeder Kategorie

! auch Kategorien erw�ahnen, in die keine Daten fallen.

relative H�au�gkeiten: Anteil der Daten in jeder Kategorie

! absolute H�au�gkeiten / Stichprobenumfang.

stets zusammen mit Stichprobenumfang angeben.

Visualisierung: relative / absolute H�au�gkeiten als

Balkendiagramme: einzelne Balken

Stapeldiagramm: �ubereinander in einem Balken der Gr�o�e

nach

Tortendiagramme bzw. Kreisdiagramm: als Kreis /

Tortensegmente

Hajo Holzmann 2. Deskriptive Statistik

2.2 Beschreibung kategorieller Daten

absolute H�au�gkeiten: Wieviele Daten in jeder Kategorie

! auch Kategorien erw�ahnen, in die keine Daten fallen.

relative H�au�gkeiten: Anteil der Daten in jeder Kategorie

! absolute H�au�gkeiten / Stichprobenumfang.

stets zusammen mit Stichprobenumfang angeben.

Visualisierung: relative / absolute H�au�gkeiten als

Balkendiagramme: einzelne Balken

Stapeldiagramm: �ubereinander in einem Balken der Gr�o�e

nach

Tortendiagramme bzw. Kreisdiagramm: als Kreis /

Tortensegmente

Hajo Holzmann 2. Deskriptive Statistik

2.2 Beschreibung kategorieller Daten

absolute H�au�gkeiten: Wieviele Daten in jeder Kategorie

! auch Kategorien erw�ahnen, in die keine Daten fallen.

relative H�au�gkeiten: Anteil der Daten in jeder Kategorie

! absolute H�au�gkeiten / Stichprobenumfang.

stets zusammen mit Stichprobenumfang angeben.

Visualisierung: relative / absolute H�au�gkeiten als

Balkendiagramme: einzelne Balken

Stapeldiagramm: �ubereinander in einem Balken der Gr�o�e

nach

Tortendiagramme bzw. Kreisdiagramm: als Kreis /

Tortensegmente

Hajo Holzmann 2. Deskriptive Statistik

Visualisierung (Wahlergebnisse)

Sonstige PIRATEN CSU GRÜNE DIELINKE FDP SPD CDU

Barplot (rel. Häufigkeit)

Partei

Rel

ativ

e H

äufig

keit

0.00

0.05

0.10

0.15

0.20

0.25

CDU

SPD

FDP

DIELINKE

GRÜNE

CSU

PIRATEN

Sonstige

Stapeldiagramm (rel. Häufigkeit)

Rel

ativ

e H

äufig

keit

0.0

0.2

0.4

0.6

0.8

1.0

SonstigePIRATEN

CSU

GRÜNEDIELINKE

FDP

SPDCDU

Pie Chart (rel. Häufigkeit)

Hajo Holzmann 2. Deskriptive Statistik

Visualisierung (Simpson Paradoxon)

<5.000$ 5.000−9.999$ 10.000−14.999$ 15.000−99.999$ >100.000$ Total

1974

1978

Income Group

0.0

0.1

0.2

0.3

0.4

Fraction of Income paid as Taxes in the USA

<5.000$ 5.000−9.999$ 10.000−14.999$ 15.000−99.999$ >100.000$ Total

Income 1974

Taxes Paid 1974

Income 1978

Taxes Paid 1978

Income Group

0.0e

+00

2.0e

+08

4.0e

+08

6.0e

+08

8.0e

+08

1.0e

+09

1.2e

+09

Hajo Holzmann 2. Deskriptive Statistik

2.3 Zusammenfassung numerischer Daten

Lagema�e: Wo (auf der reellen Achse) be�nden sich die Daten?

Streuma�e: Wie weit streuen die Daten um ein Lagema�?

Weiter:

Ma�e f�ur Schiefe: Sind die Daten symmetrisch um ihr Lagema�?

Ma�e f�ur heavy tails: Gibt es viele Daten, die besonders weit vom

Lagema� entfernt liegen?

Hajo Holzmann 2. Deskriptive Statistik

2.3 Zusammenfassung numerischer Daten

Lagema�e: Wo (auf der reellen Achse) be�nden sich die Daten?

Streuma�e: Wie weit streuen die Daten um ein Lagema�?

Weiter:

Ma�e f�ur Schiefe: Sind die Daten symmetrisch um ihr Lagema�?

Ma�e f�ur heavy tails: Gibt es viele Daten, die besonders weit vom

Lagema� entfernt liegen?

Hajo Holzmann 2. Deskriptive Statistik

Lagema�e: Mittelwert

Mittelwert: arithmetisches Mittel der Daten.

Daten x1; : : : ; xn 2 R, dann

�x =1

n

nXi=1

xi =x1 + � � �+ xn

n;

gewichtetes Mittel: Gewicht gi > 0 f�ur Beobachtung xi , dannPn

i=1 gixiPn

i=1 gi

=g1x1 + � � �+ gnxng1 + � � �+ gn

;

Hajo Holzmann 2. Deskriptive Statistik

Lagema�e: Mittelwert

Mittelwert: arithmetisches Mittel der Daten.

Daten x1; : : : ; xn 2 R, dann

�x =1

n

nXi=1

xi =x1 + � � �+ xn

n;

gewichtetes Mittel: Gewicht gi > 0 f�ur Beobachtung xi , dannPn

i=1 gixiPn

i=1 gi

=g1x1 + � � �+ gnxng1 + � � �+ gn

;

Hajo Holzmann 2. Deskriptive Statistik

Lagema�e: Median

Ordnungsstatistiken: geordneten Werte x(1) � : : : � x(n), d.h. x(1)kleinste, x(n) gr�o�te Wert.

Median (lat. medius: der mittlere) einfachste Lagema�.

med(x) =

8>>><>>>:

x( n+12) f�ur n ungerade

x( n2) + x( n

2+1)

2f�ur n gerade,

! mindestens 50% der Daten � und 50% der Daten � med(x).

Hajo Holzmann 2. Deskriptive Statistik

Streuma�e: Standardabweichung

x = (x1; : : : ; xn) beobachtete Daten.

Varianz:

var(x) =1

n � 1

nXi=1

(xi � �x)2 =(x1 � �x)2 + � � �+ (xn � �x)2

n � 1

Standardabweichung (engl. standard deviation)

sd(x) =pvar(x):

Hajo Holzmann 2. Deskriptive Statistik

Variationskoe�zient

Variationskoe�zienten: relative Schwankung im Verh�altnis zu

ihrem Mittelwertsd(x)

j�x j

Bsp.: Energieumsatzrate

Hajo Holzmann 2. Deskriptive Statistik

Interquartilsabstand

Quantile: f�ur 0 < � < 1

q�(x) =

8><>:

x([n��+1]); falls n � � keine ganze Zahl ist,

12

�x(n��) + x(n��+1)

�; falls n � � eine ganze Zahl ist.

! mindestens � � 100% der Daten � q�(x)

und (1� �) � 100% der Daten � q�(x).

unteres Quartil: q0;25(x),

oberes Quartil: q0;75(x),

Interquartilsabstand

IQR(x) = q0;75(x)� q0;25(x):

Hajo Holzmann 2. Deskriptive Statistik

Interquartilsabstand

Quantile: f�ur 0 < � < 1

q�(x) =

8><>:

x([n��+1]); falls n � � keine ganze Zahl ist,

12

�x(n��) + x(n��+1)

�; falls n � � eine ganze Zahl ist.

! mindestens � � 100% der Daten � q�(x)

und (1� �) � 100% der Daten � q�(x).

unteres Quartil: q0;25(x),

oberes Quartil: q0;75(x),

Interquartilsabstand

IQR(x) = q0;75(x)� q0;25(x):

Hajo Holzmann 2. Deskriptive Statistik

Ma� f�ur Schiefe

Schiefe (engl.: skewness) von x1; : : : ; xn:

skew(x) =1

n

nXi=1

�xi � �x

sd(x)

�3

:

! kennzeichnet Abweichung von symmetrischer Lage um �x .

Ist skew(x) < 0 : linksschief

Ist skew(x) > 0 : rechtsschief.

Hajo Holzmann 2. Deskriptive Statistik

Ma� f�ur Schiefe

Schiefe (engl.: skewness) von x1; : : : ; xn:

skew(x) =1

n

nXi=1

�xi � �x

sd(x)

�3

:

! kennzeichnet Abweichung von symmetrischer Lage um �x .

Ist skew(x) < 0 : linksschief

Ist skew(x) > 0 : rechtsschief.

Hajo Holzmann 2. Deskriptive Statistik

Verteilungsschw�anze (heavy tails)

Kurtosis von x1; : : : ; xn:

kurtosis(x) =1

n

nXi=1

�xi � �x

sd(x)

�4

� 3:

! kennzeichnet Abweichung von Verteilungsschw�anzen der

Normalverteilung.

Ist kurtosis(x) < 0 : low tails

Ist kurtosis(x) > 0 : heavy tails.

im Vergleich zur Normalverteilung.

Hajo Holzmann 2. Deskriptive Statistik

Verteilungsschw�anze (heavy tails)

Kurtosis von x1; : : : ; xn:

kurtosis(x) =1

n

nXi=1

�xi � �x

sd(x)

�4

� 3:

! kennzeichnet Abweichung von Verteilungsschw�anzen der

Normalverteilung.

Ist kurtosis(x) < 0 : low tails

Ist kurtosis(x) > 0 : heavy tails.

im Vergleich zur Normalverteilung.

Hajo Holzmann 2. Deskriptive Statistik

Graphische Darstellung numerischer Daten

Boxplot

Graphische Darstellung der 5 Zahlen Median, unteres und

oberes Quartil, Max. und Min.

Box. zwischen q0:25 und q0:75, darin Median als Strich

Striche (engl. Whiskers) bis Max. und Min.

Histogramm

Unterteilung des Wertebereichs in disjunkte Intervalle,

Plotte Rechtecke auf Intervalle, H�ohe: Anzahl (Anteil) Daten

in dem Intervall

Rug-Plot

Erg�anzend zu Histogramm,

Plotte Daten als Striche auf x-Achse

Hajo Holzmann 2. Deskriptive Statistik

Graphische Darstellung numerischer Daten

Boxplot

Graphische Darstellung der 5 Zahlen Median, unteres und

oberes Quartil, Max. und Min.

Box. zwischen q0:25 und q0:75, darin Median als Strich

Striche (engl. Whiskers) bis Max. und Min.

Histogramm

Unterteilung des Wertebereichs in disjunkte Intervalle,

Plotte Rechtecke auf Intervalle, H�ohe: Anzahl (Anteil) Daten

in dem Intervall

Rug-Plot

Erg�anzend zu Histogramm,

Plotte Daten als Striche auf x-Achse

Hajo Holzmann 2. Deskriptive Statistik

Graphische Darstellung numerischer Daten

Boxplot

Graphische Darstellung der 5 Zahlen Median, unteres und

oberes Quartil, Max. und Min.

Box. zwischen q0:25 und q0:75, darin Median als Strich

Striche (engl. Whiskers) bis Max. und Min.

Histogramm

Unterteilung des Wertebereichs in disjunkte Intervalle,

Plotte Rechtecke auf Intervalle, H�ohe: Anzahl (Anteil) Daten

in dem Intervall

Rug-Plot

Erg�anzend zu Histogramm,

Plotte Daten als Striche auf x-Achse

Hajo Holzmann 2. Deskriptive Statistik

2.4 Transformationen: Linear

lineare Transformationen: F�ur a; b 2 R; a 6= 0,

f (xi ) = axi + b; i = 1; : : : ; n:

Bsp.: Grad Celsius in Grad Kelvin, Euro in Dollar.

Standardisierung.

f (xi ) =xi � �x

sd x:

Hajo Holzmann 2. Deskriptive Statistik

2.4 Transformationen: Linear

lineare Transformationen: F�ur a; b 2 R; a 6= 0,

f (xi ) = axi + b; i = 1; : : : ; n:

Bsp.: Grad Celsius in Grad Kelvin, Euro in Dollar.

Standardisierung.

f (xi ) =xi � �x

sd x:

Hajo Holzmann 2. Deskriptive Statistik

Logarithmus und Potenzen

Transformation positiver Daten xi > 0.

Logarithmieren: f (xi ) = log(xi ).

! rechtsschiefe Daten symmetrisch machen.

Allgemeiner: Box-Cox-Transformationen f�ur � > 0:

f (xi ) =x�

i� 1

�;

f�ur �! 0: erhalte Logarithmus.

f�ur 0 < � < 1: rechtsschiefe Daten symmetrisch machen.

f�ur 1 < �: linksschiefe Daten symmetrisch machen.

Hajo Holzmann 2. Deskriptive Statistik

Logarithmus und Potenzen

Transformation positiver Daten xi > 0.

Logarithmieren: f (xi ) = log(xi ).

! rechtsschiefe Daten symmetrisch machen.

Allgemeiner: Box-Cox-Transformationen f�ur � > 0:

f (xi ) =x�

i� 1

�;

f�ur �! 0: erhalte Logarithmus.

f�ur 0 < � < 1: rechtsschiefe Daten symmetrisch machen.

f�ur 1 < �: linksschiefe Daten symmetrisch machen.

Hajo Holzmann 2. Deskriptive Statistik

Visualisierung (Deutschland Daten)

Histogram of BIP 1992

BIP92

Fre

quen

cy

10000 20000 30000 40000 50000

020

4060

8010

012

014

0

●●

●●●●

1000

020

000

3000

040

000

5000

0

Boxplot of BIP 1992

Histogram of log(BIP 1992)

lBIP92

Fre

quen

cy

3.8 4.0 4.2 4.4 4.6 4.8

020

4060

8010

0

3.8

4.0

4.2

4.4

4.6

Boxplot of log(BIP 1992)

Hajo Holzmann 2. Deskriptive Statistik