deskriptive statistik - .deskriptive statistik: 2 dimensionen wir haben nun paarweise beobachtete

Download Deskriptive Statistik - .Deskriptive Statistik: 2 Dimensionen Wir haben nun paarweise beobachtete

Post on 14-Aug-2019

213 views

Category:

Documents

0 download

Embed Size (px)

TRANSCRIPT

  • (basierend auf Slides von Lukas Meier)

    Deskriptive Statistik

  • Deskriptive Statistik: Ziele

     Daten zusammenfassen durch numerische Kennzahlen.

     Grafische Darstellung der Daten.

    1

    Quelle: Ursus Wehrli, Kunst aufräumen

  • Modell vs. Daten

    2

     Bis jetzt haben wir nur Modelle (Verteilungen) angeschaut.

     Jetzt betrachten wir (erstmals) reale Daten.

     Vorerst treffen wir aber keine Annahmen, dass diese von einer bestimmten Verteilung kommen! D.h. wir legen uns nicht auf ein Modell fest.

     Basierend auf den Daten können wir diverse Kennzahlen berechnen bzw. die Daten grafisch darstellen.

  • Kennzahlen: Überblick

    Wir haben 𝑛𝑛 beobachtete Datenpunkte 𝑥𝑥1, 𝑥𝑥2, … , 𝑥𝑥𝑛𝑛 (z.B. das Verkehrsaufkommen an 𝑛𝑛 verschiedenen Tagen oder Orten).

    Wir unterscheiden zwischen

     Lageparameter («Wo liegen die Beobachtungen auf der Mess-Skala?»)  arithmetisches Mittel («Durchschnitt»)  empirischer Median  empirische Quantile

     Streuungsparameter («Wie streuen die Daten um ihre mittlere Lage?»)  empirische Varianz  empirische Standardabweichung  empirische Quartilsdifferenz

    3

  • Arithmetisches Mittel und empirische Varianz

     Arithmetisches Mittel (emp. Pendant des Erwartungswerts 𝜇𝜇)

     Empirische Varianz (emp. Pendant der Varianz 𝜎𝜎2)

     Empirische Standardabweichung (emp. Pendant der Standardabweichung 𝜎𝜎)

     Siehe Beispiel Wandtafel

    4

    x = 1

    n

    nX

    i=1

    xi

    s2 = 1

    n¡ 1

    nX

    i=1

    (xi ¡ x)2

    s = p s2

    Schwerpunkt der Daten

    0 50 100 150

  • Geordnete Stichprobe

     Wir ordnen unseren Datensatz in aufsteigender Reihenfolge und bezeichnen die geordneten Daten mit 𝑥𝑥 𝑖𝑖 , d.h.

     Die Position einer Beobachtung in der geordneten Stichprobe bezeichnet man als Rang (die kleinste Beobachtung hat also Rang 1, die grösste Beobachtung Rang 𝑛𝑛)

     Sind Beobachtungen gleich gross, so teilt man ihnen in der Regel ihren durchschnittlichen Rang zu

     Siehe Beispiel Wandtafel

    5

  • Empirische Quantile

     Das empirische 𝛼𝛼 × 100 %-Quantil (0 < 𝛼𝛼 < 1) ist ein Wert 𝑞𝑞𝛼𝛼, so dass etwa 𝛼𝛼 × 100% der Datenpunkte kleiner sind als 𝑞𝑞𝛼𝛼.

     Genau:  Falls 𝛼𝛼𝑛𝑛 ∉ ℕ, dann: 𝑞𝑞𝛼𝛼= x( 𝛼𝛼𝛼𝛼 ), wobei 𝛼𝛼𝑛𝑛 die kleinste ganze Zahl grösser als 𝛼𝛼𝑛𝑛 ist  Falls 𝛼𝛼𝑛𝑛 ∈ ℕ, dann: 𝑞𝑞𝛼𝛼=

    1 2

    (𝑥𝑥(𝛼𝛼𝛼𝛼) + 𝑥𝑥(𝛼𝛼𝛼𝛼+1))

     Es gibt (viele) Variationen für die genaue Definition. Für grosse 𝑛𝑛 ist der Unterschied aber vernachlässigbar.

    6

  • Empirische Quantile: Beispiel

    7

     90%-Quantil: 0.9 � 12 = 10.8  10.8 ∉ ℕ und 10.8 = 11  90%-Quantil = 𝑥𝑥 11 = 80.45

     25%-Quantil: 0.25 � 12 = 3  3 ∈ ℕ  25%-Quantil = 1

    2 (𝑥𝑥 3 + 𝑥𝑥 4 ) = 80.06

    𝑖𝑖 1 2 3 4 5 6 7 8 9 10 11 12 𝑥𝑥 𝑖𝑖 79.97 79.98 80.04 80.08 80.12 80.23 80.35 80.38 80.39 80.44 80.45 80.48

    Datensatz ist schon geordnet

  • Ausgewählte Quantile

     Median (Zentralwert): 50%-Quantil 𝑞𝑞0.5

     Unteres Quartil: 25%-Quantil 𝑞𝑞0.25

     Oberes Quartil: 75%-Quantil 𝑞𝑞0.75

     Die Differenz der Quartile 𝑞𝑞0.75 − 𝑞𝑞0.25 bezeichnet man als Quartilsdifferenz, bzw. Interquartile Range (IQR). Diese ist ein Streuungsmass.

     Bsp.

    8

    𝑖𝑖 1 2 3 4 5 6 7 8 9 10 11 𝑥𝑥(𝑖𝑖) 6.2 6.3 7.0 7.1 9.6 9.9 10.8 11.8 12.5 14.4 16.2

    Median Oberes QuartilUnteres Quartil

    IQR = 12.5-7.0 = 5.5

    𝑛𝑛 = 11:

    0.25 ⋅ 11 = 2.75 → 𝑞𝑞0.25 = 𝑥𝑥(3)

    0.5 ⋅ 11 = 5.5 → 𝑞𝑞0.5 = 𝑥𝑥(6)

    0.75 ⋅ 11 = 8.25 → 𝑞𝑞0.75 = 𝑥𝑥(9)

  • 0 20 40 60 80 100 120 140

    M ed

    ia n

    �̅�𝑥

    Arithmetisches Mittel vs. Median: Einkommen [k CHF] 7 Beobachtungen

    9

  • 0 50 100 150

    0 50 100 150 200 250 300 350 400

    �̅�𝑥

    M ed

    ia n

    �̅�𝑥

    M ed

    ia n

    10

    Der Median und die Quartilsdifferenz sind robuste Kennzahlen für die Lage und die Streuung der Daten, d.h., sie werden nicht gross von Ausreissern beeinflusst. Mittelwert und Standardabweichung sind nicht robust.

  • Arithmetisches Mittel vs. Median

    11

  • Grafische Darstellungen: Überblick

    Wir behandeln folgende Darstellungen:  Histogramm  Boxplot  empirische kumulative Verteilungsfunktion

    12

  • Histogramm

     Aufteilung des Wertebereichs in Intervalle der Breite ℎ.

     Zähle Anzahl Beobachtungen in jedem Intervall.

     Graphische Darstellung mit Balken. Höhe der Balken ist

    #(𝐵𝐵𝐵𝐵𝐵𝐵𝐵𝐵𝐵𝐵𝐵𝐵ℎ𝐵𝐵𝐵𝐵𝑛𝑛𝐵𝐵𝐵𝐵𝑛𝑛 𝑖𝑖𝑖𝑖 𝐼𝐼𝑛𝑛𝐵𝐵𝐵𝐵𝐼𝐼𝐼𝐼𝐵𝐵𝐼𝐼𝐼𝐼) 𝑛𝑛ℎ

     Die Gesamtfläche unter dem Histogramm ist 1. Die Fläche über einem Intervall entspricht die relative Häufigkeit (vgl Dichte).

    13

  • Old Faithful Geysir (Yellowstone): Daten

    14

     Zeitspanne [Min] zwischen Ausbrüchen  Eruptionsdauer [Min]

     Daten z.B. von hier http://stat.ethz.ch/Teaching/Datasets/geysir.dat

    http://stat.ethz.ch/Teaching/Datasets/geysir.dat

  • Histogramme der Zeitspanne

    15

    Relative Häufigkeit von Wartezeiten im Intervall [70,80] ist etwa 0.02*(75-70) + 0.04*(80-75) = 30%

    • Histogramm ergibt oft einen guten Überblick: Symmetrie, Anzahl Gipfel, Lage, Streuung, …

    • Je breiter die Klassen, je mehr werden die Daten zusammengefasst (“Erosion”)

  • Boxplot: Schematischer Aufbau

    16

    Median Unteres Quartil

    Oberes Quartil

    Grösste «normale» Beobachtung

    Kleinste «normale» Beobachtung

    Ausreisser (falls vorhanden)

    Ausreisser (falls vorhanden)

    Q ua

    rt ils

    di ffe

    re nz

    (e nt

    hä lt

    50 %

    d er

    D at

    en )

  • Boxplot: Schematischer Aufbau

     Die grösste normale Beobachtung ist definiert als die grösste Beobachtung, die höchstens 1.5 � 𝐼𝐼𝐼𝐼𝐼𝐼 vom oberen Quartil entfernt ist, wobei 𝐼𝐼𝐼𝐼𝐼𝐼 die Quartilsdifferenz ist: Also grösster Datenwert 𝑥𝑥𝑖𝑖 mit 𝑥𝑥𝑖𝑖 − 𝑞𝑞0.75 < 1.5 ⋅ 𝐼𝐼𝐼𝐼𝐼𝐼

     Die kleinste normale Beobachtung ist entsprechend analog definiert mit dem unteren Quartil: Also kleinster Datenwert 𝑥𝑥𝑖𝑖 mit 𝑞𝑞0.25 − 𝑥𝑥𝑖𝑖 < 1.5 ⋅ 𝐼𝐼𝐼𝐼𝐼𝐼

     Ausreisser sind Punkte, die ausserhalb dieser Bereiche liegen.

    17

  • Boxplot und Histogramm der Wartezeiten zwischen Eruptionen

    18

    Wir sehen die verschiedenen

    Peaks im Boxplot nicht!

  • Mehrere Boxplots

    Mit mehreren Boxplots kann man einfach und schnell die Verteilung von verschiedenen Gruppen (Methoden, Produkte, …) vergleichen.

    19

  • Schiefe

    20

    symmetrisch rechtsschief linksschief

  • Boxplot: Bemerkungen

     Ein Boxplot ist eine grobere Zusammenfassung als ein Histogramm. Es eignet sich gut um mehrere Datensätze zu vergleichen.

     Im Boxplot sind ersichtlich:  Lage  Streuung  Schiefe

     Man sieht aber z.B. nicht, ob eine Verteilung mehrere «Peaks» (Gipfel) hat.

    21

  • Empirische kumulative Verteilungsfunktion

    22

     Empirische kumulative Verteilungsfunktion ist definiert als der Anteil der Punkte, die kleiner als ein bestimmter Wert 𝑥𝑥 sind, d.h.

     Bild

    40 50 60 70 80 90 100

    0. 0

    0. 2

    0. 4

    0. 6

    0. 8

    1. 0

    Zeitspanne

    F n x 

    Treppenfunktion: Sprunghöhe 1/𝑛𝑛 bei Beobachtungen 𝑥𝑥𝑖𝑖 (bzw. ein Vielfaches davon, wenn es mehrere Beobachtungen mit dem gleichen Wert 𝑥𝑥𝑖𝑖 gibt).

  • 23

    Modell (“Theorie”) Daten (beobachtete Stichprobe)

    Erwartungswert Arithm. Mittel

    Varianz Empirische Varianz

    Kumulative Verteilungsfunktion Empirische kumulative Verteilungsfunktion

    Dichte Histogramm (normiert auf Fläche 1)

    0.0 0.1 0.2 0.3 0.4 0.5

    5 7 9 11 13

    f(x )

    x

    0.0 0.2 0.4 0.6 0.8 1.0

    5 7 9 11 13

    P[ X

    ≤ x]

    x

    x = 1

    n

    nX

    i=1

    xi

    s2 = 1

    n¡ 1

    nX

    i=1

    (xi ¡ x)2

    0.0

    0.2

    0.4

    0.6

    0.8

    1.0

    5 6 7 8 9 10 11 12 13 x

    0.00

    0.10

    0.20

    0.30

    5 6 7 8 9 10 11 12 13

    𝑛𝑛 → ∞

  • Deskriptive Statistik: 2 Dimensionen

     Wir haben nun paarweise beobachtete Daten

     Zum Beispiel die Note der Basis

Recommended

View more >