statistische methoden i ws 2002/2003 zur geschichte der statistik i. beschreibende statistik 1....
TRANSCRIPT
Statistische Methoden IWS 2002/2003
Zur Geschichte der Statistik
I. Beschreibende Statistik
1. Grundlegende Begriffe
2. Eindimensionales Datenmaterial2.1. Der Häufigkeitsbegriff2.2. Lage- und Streuungsparameter2.3. Konzentrationsmaße (Lorenz-Kurve)
3. Mehrdimensionales Datenmaterial3.1. Korrelations- und Regressionsrechnung3.2. Indexzahlen3.3. Saisonbereinigung
II. Wahrscheinlichkeitstheorie
1. Laplacesche Wahrscheinlicheitsräume1.1. Kombinatorische Formeln1.2. Berechnung von Laplace-Wahrschein-
lichkeiten
2. Allgemeine Wahrscheinlichkeitsräume2.1. Der diskrete Fall2.2. Der stetige Fall2.3. Unabhängigkeit und bedingte
Wahrscheinlichkeit
3. Zufallsvariablen3.1. Grundbegriffe3.3. Erwartungswert und Varianz
III. Induktive Statistik
1. Schätztheorie 1.1. Grundbegriffe, Stichproben 1.2. Maximum-Likelihood-Schätzer 1.3. Erwartungstreue Schätzer 1.4. Konfidenzintervalle 1.5. Spezialfall Binomial-Verteilung
2. Spezialfall Normalverteilung 2.1. Student- und Chi-Quadrat-Verteilung 2.2. Konfidenzintervalle
3. Tests 3.1. Grundbegriffe 3.2. Tests einfacher Hypothesen (Neyman-Pearson-Test) 3.3. Tests zusammengesetzter Hypothesen 3.4. Vergleich zweier unabhängiger Stichproben 3.5. Chi-Quadrat-Tests 3.6. Kolmogorov-Smirnov-Test 3.7. Einfache Varianzanalyse
Beschreibende Statistik
Beschreibende Statistik(= Deskriptive Statistik)Beschreibung von Datenmaterial
Schließenden Statistik(= Induktive Statistik)Analyse von Datenmaterial,Hypothesen, Prognosen
1. Semester
2.Semester
Wahrscheinlich-keitstheorie
1. Semester
HäufigkeitenGegeben ist eine Datenliste (Urliste)
(hier z. B. die Klausur-Noten von 50 Studenten) 3 3 4 5 2 1 3 3 4 3
2 3 4 4 4 5 2 1 3 33 3 4 4 4 5 4 3 4 32 3 3 2 4 3 2 1 5 44 4 5 4 5 1 1 3 3 3
Hier die geordneten Daten
1 1 1 1 1 2 2 2 2 2 2 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 4 4 4 4 4 4 4 4 4 4 4 4 4 4 45 5 5 5 5 5
Absolute Häufigkeiten
H(1) = 5H(2) = 6H(3) = 18H(4) = 15H(5) = 6
h(1) = 0.1 h(2) = 0.12h(3) = 0.36h(4) = 0.3h(5) = 0.12
Relative Häufigkeiten
Kumulierte relative Häufigkeiten
F(1) = 0.1F(2) = 0.22F(3) = 0.58F(4) = 0.88F(5) = 1
Fakultäten EMAUBerechnung der Winkel für ein Kreisdiagramm
T: TheologischeRSW: Rechts- und Staatswiss.Med: MedizinischePhil: PhilosophischeMathNat: Mathematisch-Naturwiss.K: Studienkolleg, ...
h(T) = 0.011 h(RSW) = 0.22h(Med) = 0.164h(Phil) = 0.309h(MathNat) = 0.273h(K) = 0.022
3.96 Grad 79.2 Grad 59.04 Grad111.24 Grad 98.28 Grad 7.92 Grad
Kreisdiagramm Fakultäten EMAU
Stabdiagramm „Zähne“
Histogram „Zähne“
Empirische Verteilungsfunktion„Zähne“
Stem-Leaf-Diagramm
Bei diesem Diagramm werden meist nur die beiden führen-den Ziffern berücksichtigt. Die erste Ziffer wird links von Einer senkrecht gezogenen Linie eingetragen.Damit hat man den Stamm.
Die zweiten Ziffern - die Blätter - werden rechts davonnotiert, und zwar zeilenweise aufsteigend geordnet. Dabei muss jeder Wert des Datensatzes durch einezweite Ziffer (ggf. Null!) repräsentiert werden.
Kaltmieten
Charakterisierung von Merkmalen
Merkmalen
quantitative: Merkmale unterscheiden sich nach der Größequalitative: Merkmale unterscheiden sich nach der Art
Unterscheidung nach der zugrundeliegenden Werteskala
Nominal-Ordinal-metrische
Skala
Unterscheidung zwischen
qualitativenquantitativen
Nominal: keine RangordnungOrdinal: Rangordnung, aber Zwischenwerte nicht interpretierbarmetrisch: Rangordnung (Reihenfolge), Werte zwischen 2 Werten erlauben eine Interpretation
Unterscheidung nach
diskretenstetigen Merkmalen
diskret: Menge der Werte abzählbar (evtl. abzählbar unendlich)stetig: Menge der Werte kontinuierlich, (z.B. reelle Zahlen oder ein Intervall reeller Zahlen)
Ordinal, diskret
metrisch, diskret
metrisch, stetig
Ordinal, diskret
Arithmetisches Mittel
Merkmal
Datensatz
Median
Merkmal
Geordneter Datensatz
n ungerade: Wert, der in der Mitte steht
n gerade: arithmetisches Mittel der beiden Werte, die in der Mitte stehen
AchtungAchtung
Aufgabe!
AchtungAchtung
Aufgabe!
noch eine
Quantile
Boxplot
Ober-, Untergrenze der „Box“: oberes, unteres Quartil„dicker Strich“ in der Box: Median
Ausreißer nach oben:Werte > oberes Quartil + 1.5 Quartilsabstand
Ausreißer nach unten:Werte < unteres Quartil - 1.5 Quartilsabstand
Jeder Ausreißer wird mit einem Symbol gesondert einge-tragen. Antennen: größter und kleinster Wert in der Datenliste, der kein Ausreißer ist
AchtungAchtung
Aufgabe!
AchtungAchtung
Aufgabe!
noch eine
Mittelwert oder Median
Grobe Faustregeln
Metrische Skalierung
Ordinale Skalierung
Ausreißer wahrscheinlich
Wenn sich die Werte „irdendwie“gegeneinander ausgleichen
Mittelwert
Median
Median
Mittelwert
Streuungsparameter
Median
Mittlere Abweichung vom Median
Die Ungleichung gilt für jede Konstante c.
StreuungsparameterMittelwert
Varianz
Die Ungleichung gilt für jede Konstante c.
Rechenregeln für Mittelwert, Varianz und Streuung
Rechenregeln für Mittelwert, Varianz und Streuung
Rechenregeln für Mittelwert, Varianz und Streuung
Berechnung von Streuungsparametern an einem einfachen Beispiel
Konzentrationsmaße(Gini-Koeffizient, Lorenz-Kurve)
Konzentrationsmaße
Kennwert für die wirtschaftliche Konzentration
Typische Beispiele:
Verteilung des Geldvermögens unter den einzelnen Bevölkerungsgruppen
Verteilung von Marktanteilen
Aufteilung der landwirtschaftlichen Nutzflächen in einer Region
Ein Markt wird von 5 Unternehmen beliefert. Die folgende Tabelle beschreibt die
Aufteilung der Marktanteile:
Daraus ergeben sich die folgenden Werte für die Punkte auf der Lorenz-Kurve:
Dazu die Lorenz-Kurve:
Berechnung des Gini-Koeffizienten
AchtungAchtung
Aufgabe!
AchtungAchtung
Aufgabe!
noch eine
Landwirtschaftlich genutzte Fläche einer Region
Dazu die Lorenz-Kurve:
Datenmatrix
Datentabelle für 2 Merkmale
Kontingenztafel der absoluten Häufigkeiten
Kontingenztafel der relativen Häufigkeiten
X: Art des Betriebes 1 = Handelsbetriebe2 = Freie Berufe (Leistungsbetriebe)3 = Fertigungsbetriebe
Y: Art der hinterzogenen Steuer1 = Lohnsteuer2 = Einkommenssteuer3 = Umsatzsteuer4 = Sonstiges
Betriebe und hinterzogene SteuerKontingenztabelle
Kovarianz
Merkmal
Datensatz
Merkmal
Datensatz
Korrelationskoeffizientnach Bravais-Pearson
Eigenschaften
X und Y unabhängig
X größer Y größer
X größer Y kleiner
Positiver strikter Zusammenhang
Negativer strikter Zusammenhang
Korrelationskoeffizientbei verschiedenen Konstellationen
von Ausprägungen
Korrelationskoeffizient: 0.905Korrelationskoeffizient: 1.00
Korrelationskoeffizient: 0.19Korrelationskoeffizient: 0.52
Korrelationskoeffizient: -0.14Korrelationskoeffizient: 0.00
Korrelationskoeffizient: -1.00Korrelationskoeffizient: -0.62
AchtungAchtung
Aufgabe!
AchtungAchtung
Aufgabe!
noch eine
Mögliche Funktionenklassenfür die
Regressionsrechnung
Lineare FunktionenLineare Funktionen
Polynome
Exponentialfunktionen(Exponentielles Wachstum; x ist die Zeit)
Gompertz-Kurven
Logistische Funktionen
Prinzip der kleinsten Quadrate(Kleinst-Quadrat-Schätzung)
Man sucht in der betrachteten Klassediejenige Funktion f, so dass die Summeder Abweichungsquadrate minimiert wird:
Bestimme f, so dass
minimal !!
Aufgaben der Regressionsrechnung
Stellt man sich für den Moment x als die Zeit vor, so möchte man die beobachteten Werte auf die „Zukunft“extrapolieren. Man erstellt eine „Prognose“.Dazu bedient man sich der gefundenen Funktion f, um für eine „Zeit“ x der „Zukunft“ den Wert y = f(x)zu schätzen.
1. Extrapolation
2. Interpolation
Man interessiert sich für den Wert von y = f(x)Für Zwischenwerte von x, d. h. fürWerte x, die zwischen 2 beobachtetenWerten liegen:
Wieder bedient man sich der Funktion f, um eine Interpolation der Wertedurchzuführen.
Lineare RegressionFinde reelle Zahlen a und b,so dass der Wert von
minimal wird!
Mit anderen Worten: Finde den „Punkt“(a ,b), an dem die Funktion
ihr Minimum annimmt!
Steigung der Regressionsgeraden
Schnitt der Regressionsgeradenmit der y-Achse bei
BestimmtheitsmaßMaß für die Güte der Anpassung derDaten an die Regressionsfunktion
Dabei ist
In einem Kaufhauskonzern mit 10 Filialen soll die Wirkung von Werbeausgaben auf die Umsatzsteigerung untersucht werden.Die Daten sind:
X: Werbeausgaben in 1000 EuroY: Umsatzsteigerung in 10 000 Euro
Demonstrationsbeispiel Lineare Regression
Mittelwerte Varianzen
Kovarianz
Steigung der Regressionsgeraden
Schnitt der Regressionsgeradenmit der y-Achse bei
AchtungAchtung
Aufgabe!
AchtungAchtung
Aufgabe!
noch eine
Statistische Maßzahlen
Bisher:Lagemaße
MittelwertMedianQuantile (Quartile)
Streuungsmaße
VarianzStandardabweichungKovarianzKorrelation
Konzentrationsmaße Gini-Koeffizient
Verhältniszahlen
Beziehungs-zahlen
Gliederungs-zahlen
Index-zahlen
Warenkorb
N Güter (Mengen und Preise) in der
Basisperiode 0
Berichtsperiode t
Preise in der Basisperiode 0
Preise in der Berichtsperiode t
Mengen in der Basisperiode 0
Mengen in der Berichtsperiode t
Preisindex nach Laspeyres
Preisindex nach Paasche
Laspeyres: Bezug auf den alten Warenkorb
Paasche: Bezug auf den neuen Warenkorb
Formeln für die Preisindizesnach Laspeyres und nach Paasche
Aggregatform
Wegen der besseren Übersichtlichkeitdefinieren wir uns einen sehr kleinen Warenkorb bestehend aus:
In den Jahren 1950 bis 1953 werden für den Jahres-verbrauch pro Einwohner und für die Preise die folgendenDaten zu Grunde gelegt:
ZigarettenBier
Kaffee
Index 0Index 1Index 2
Index 3
19501951
19521953
AchtungAchtung
Aufgabe!