vorlesung mathematik und statistik ws 2006 / 2007 · 1. einleitung vorbemerkung die vorlesung...

117
Vorlesung "Mathematik und Statistik" WS 2006 / 2007 Teil II Statistik und Stochastik Oktober 2006 Dozent: Dr. Norbert Marxer

Upload: trinhkhanh

Post on 10-Aug-2019

213 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Vorlesung Mathematik und Statistik WS 2006 / 2007 · 1. Einleitung Vorbemerkung Die Vorlesung "Mathematik und Statistik", die im WS 2006 / 2007 an der Hochschule Liechtenstein angeboten

Vorlesung

"Mathematik und Statistik"

WS 2006 / 2007

Teil II

Statistik und Stochastik

Oktober 2006

Dozent: Dr. Norbert Marxer

Page 2: Vorlesung Mathematik und Statistik WS 2006 / 2007 · 1. Einleitung Vorbemerkung Die Vorlesung "Mathematik und Statistik", die im WS 2006 / 2007 an der Hochschule Liechtenstein angeboten

0. Inhaltsverzeichnis

0. Inhaltsverzeichnis ................................................................................................. 2

1. Einleitung .................................................................................................................. 7

Vorbemerkung ............................................................................................... 7

Einleitung .......................................................................................................... 7

Referenzen ...................................................................................................... 9

2. Wahrscheinlichkeitstheorie .............................................................................. 10

Was ist Wahrscheinlichkeit? ................................................................. 10

Ergebnisraum und Ereignisraum .......................................................... 11

Zufallsexperiment ......................................................................................... 11

Illustration: Drei Mal eine Münze Werfen ................................................. 12

Illustration: Zwei Mal Würfeln ................................................................ 12

Empirisches Gesetz der grossen Zahlen ....................................................... 13

Kolmogorov'sches Axiomensystem ..................................................... 13

Eigenschaften von Wahrscheinlichkeitsmassen ............................................ 14

Beispiel 1 .............................................................................................. 14

Beispiel 2 .............................................................................................. 14

Venn Diagramme .......................................................................................... 15

3. Elementare Kombinatorik .................................................................................. 16

Einleitung .......................................................................................................... 16

Laplace Experimente .................................................................................. 16

Laplace Wahrscheinlichkeit ......................................................................... 16

Mehrstufige Laplace Experimente - Baumdiagramme ................................. 17

Bernoulli Experimente ................................................................................ 17

Summenregel ................................................................................................. 17

Produktregel .................................................................................................... 18

Permutationen und Binomialverteilung .............................................. 18

Einleitung ..................................................................................................... 18

Kombinatorik ........................................................................................ 18

Mengenlehre .......................................................................................... 19

Ohne Zurücklegen - alle verschieden ........................................................... 19

Beispiel ................................................................................................. 19

Ohne Zurücklegen - mehrere Klassen ........................................................... 19

Ohne Zurücklegen - mit 2 Klassen ............................................................... 20

Urnenexperimente bei verschiedenen Elementen ....................... 20

Urnenexperimente ........................................................................................ 20

Mit Zurücklegen und Geordnet (k-Tupel) .................................................... 20

Beispiel ................................................................................................. 21

Mit Zurücklegen und Ungeordnet (k-Repetition) ......................................... 21

Beispiel ................................................................................................. 21

Ohne Zurücklegen und Geordnet (k-Permutation) ....................................... 21

Beispiel ................................................................................................. 22

Ohne Zurücklegen und Ungeordnet (k-Kombinationen) .............................. 22

Skript Statistik und Stochastik 2

Page 3: Vorlesung Mathematik und Statistik WS 2006 / 2007 · 1. Einleitung Vorbemerkung Die Vorlesung "Mathematik und Statistik", die im WS 2006 / 2007 an der Hochschule Liechtenstein angeboten

Beispiel ................................................................................................. 22

Zusammenfassung - Ziehen mit verschiedenen Elementen ........................... 22

Verteilungen in Behälter ............................................................................ 23

Beispiel ................................................................................................. 23

Urnenexperimente bei teilweise gleichen Elementen ................. 24

Einleitung ..................................................................................................... 24

Ziehen mit Zurücklegen - Variationen und Kombinationen ......................... 24

Beispiel ................................................................................................. 25

Beispiel ................................................................................................. 25

Ziehen ohne Zurücklegen - Variation und Kombination .............................. 25

Beispiel ................................................................................................. 25

Beispiel ................................................................................................. 25

4. Bedingte Wahrscheinlichkeiten ...................................................................... 26

Einleitung .......................................................................................................... 26

Bedingte Wahrscheinlichkeit .................................................................. 26

Beispiel ................................................................................................. 27

Stochastische Unabhängigkeit .............................................................. 27

5. Zufallszahlengenerator ....................................................................................... 28

Einleitung .......................................................................................................... 28

6. Zufallsvariablen und ihre Verteilungen ........................................................ 29

Einleitung .......................................................................................................... 29

PDF und CDF ................................................................................................. 30

Diskrete Verteilung ................................................................................ 33

Erwartungswert .............................................................................................. 33

Beispiel Würfeln .......................................................................................... 34

Diskrete Verteilungen ................................................................................. 34

Einleitung ..................................................................................................... 34

Gleichverteilung (DiscreteUniformDistribution) .......................................... 35

Einleitung .............................................................................................. 35

Eigenschaften ........................................................................................ 36

Bernoulli Verteilung (BernoulliDistribution) ............................................... 36

Einleitung .............................................................................................. 36

Eigenschaften ........................................................................................ 37

Binomial Verteilung (BinomialDistribution bzw. BINOMVERT) ............... 38

Einleitung .............................................................................................. 38

Eigenschaften ........................................................................................ 39

Die Anzahl der Erfolge beim n-maligen Münzen werfen. ........................... 39

Beispiel 1 .............................................................................................. 39

Beispiel 2 .............................................................................................. 40

Beispiel 3 .............................................................................................. 40

Poisson Verteilung (PoissonDistribution bzw. POISSON) .......................... 41

Einleitung .............................................................................................. 41

Eigenschaften ........................................................................................ 41

Stetige Verteilungen .................................................................................... 41

Einleitung ..................................................................................................... 41

Normalverteilung (NormalDistribution bzw. NORMVERT, STANDNORMVERT) ....................................................................................................................... 42

Skript Statistik und Stochastik 3

Page 4: Vorlesung Mathematik und Statistik WS 2006 / 2007 · 1. Einleitung Vorbemerkung Die Vorlesung "Mathematik und Statistik", die im WS 2006 / 2007 an der Hochschule Liechtenstein angeboten

Einleitung .............................................................................................. 42

Eigenschaften ........................................................................................ 43

Standardnormalverteilung ....................................................................... 43

c2 Verteilung (ChiSquareDistribution bzw. CHIVERT) ............................. 44

Einleitung .............................................................................................. 44

Eigenschaften ........................................................................................ 44

Student t Verteilung (StudentTDistribution bzw. TVERT) .......................... 44

Eigenschaften ........................................................................................ 45

Zentraler Grenzwertsatz ............................................................................ 46

Einleitung ..................................................................................................... 46

Experiment ................................................................................................... 46

Kugeln aus einer Urne ziehen ....................................................................... 47

7. Statistik und empirische Daten ....................................................................... 49

Einleitung .......................................................................................................... 49

Datentypen ...................................................................................................... 50

8. Beschreibende Statistik ...................................................................................... 51

Einleitung .......................................................................................................... 51

Graphische Darstellungen ....................................................................... 52

Einleitung ..................................................................................................... 52

Diskrete Datenreihe (n klein) ................................................................... 52

Diskrete Daten (n gross: 1000) ................................................................ 53

Stetige Daten (n gross: 1000) .................................................................. 538i, xi< ............................................................................................................. 53

Diskrete Daten (n klein) .......................................................................... 53

Diskrete Daten (n gross) ......................................................................... 54

Stetige Daten (n gross) ............................................................................ 548i, xsort,i< ........................................................................................................ 55

Diskrete Daten (n klein) .......................................................................... 55

Diskrete Daten (n gross) ......................................................................... 55

Stetige Daten (n gross) ............................................................................ 56

Häufigkeitsfunktionen: 8xsort,i, ni<, 8xi, hi< ................................................... 56

Diskrete Daten (n klein) .......................................................................... 57

Diskrete Daten (n gross) ......................................................................... 58

Stetige Daten (n gross) ............................................................................ 59

Verteilungsfunktion: 8xi, ⁄ j=1i

h j< ................................................................. 61

Weitere graphische Darstellungen ................................................................ 62

Box-And-Whisker Plot ........................................................................... 62

Masszahlen - Nominalskala .................................................................... 63

Masszahlen - Ordinalskala ...................................................................... 64

Masszahlen - Metrisch skalierte Daten .............................................. 65

Lagemasse (Lokalisationsmasse) .................................................................. 65

Streuungsmasse ............................................................................................ 68

Formmasse .................................................................................................... 71

Zentrierung und Standardisierung ................................................................ 73

Additionssätze für xêê und s2 .......................................................................... 73

Daten mit diskreter Klassierung und

Stetig klassierte Daten .............................................................................. 74

Daten mit diskreter Klassierung ................................................................... 74

Skript Statistik und Stochastik 4

Page 5: Vorlesung Mathematik und Statistik WS 2006 / 2007 · 1. Einleitung Vorbemerkung Die Vorlesung "Mathematik und Statistik", die im WS 2006 / 2007 an der Hochschule Liechtenstein angeboten

Stetig klassierte Daten ................................................................................. 74

Konzentrations- und Disparitätsmessung ......................................... 77

Konzentration ............................................................................................... 77

Disparität ...................................................................................................... 79

Zusammenhang zwischen Konzentrationsindizes und Disparitätkoeffizienten ....................................................................................................................... 80

Kurven .................................................................................................. 80

Zahlen ................................................................................................... 80

Gemeinsame Prinzipien .......................................................................... 80

Unterschiede .......................................................................................... 81

9. Induktive Statistik .................................................................................................. 82

Einleitung .......................................................................................................... 82

Punktschätzungen ....................................................................................... 83

Punktschätzung für den Mittelwert ............................................................... 83

Punktschätzung für den Anteilswert ............................................................. 83

Punktschätzung für die Varianz .................................................................... 83

Eigenschaften von Punktschätzungen ........................................................... 84

Intervallschätzungen ................................................................................... 84

Einleitung ..................................................................................................... 84

Stichprobenverteilungen ............................................................................... 84

Verteilung des Stichprobenmittelwerts ..................................................... 84

Lösung a ............................................................................................... 85

Lösung b ............................................................................................... 85

Intervallschätzung bei grossen Stichproben ................................................. 86

Intervallschätzung bei kleinen Stichproben .................................................. 86

Lösung .................................................................................................. 87

Statistische Tests ......................................................................................... 87

Einleitung ..................................................................................................... 87

Testen von Hypothesen über Mittelwerte ..................................................... 88

Zweiseitige Fragestellung ........................................................................ 88

Beispiel ................................................................................................. 88

Schritte ................................................................................................. 90

10. Zweidimensionale Verteilungen ................................................................... 91

Einleitung .......................................................................................................... 91

Kontingenztabelle ......................................................................................... 92

Einleitung ..................................................................................................... 92

Randverteilung ............................................................................................. 92

Bedingte Wahrscheinlichkeiten .................................................................... 93

Berechnung von Mittelwerten und Varianzen für X und Y .......................... 94

Kovarianz und Korrelationskoeffizient ................................................ 94

Einleitung ..................................................................................................... 94

Beispiel 1 ...................................................................................................... 95

Beispiel 2 ...................................................................................................... 96

11. Regression und Korrelation ........................................................................... 97

Einleitung .......................................................................................................... 97

Scatter Plot ...................................................................................................... 98

Korrelation ........................................................................................................ 99

Skript Statistik und Stochastik 5

Page 6: Vorlesung Mathematik und Statistik WS 2006 / 2007 · 1. Einleitung Vorbemerkung Die Vorlesung "Mathematik und Statistik", die im WS 2006 / 2007 an der Hochschule Liechtenstein angeboten

Einleitung ..................................................................................................... 99

Berechnung des Korrelationskoeffizienten ................................................... 99

Grenzen der Korrelationsanalyse .................................................................. 100

Nichtlinearität ........................................................................................ 101

Ausreisser ............................................................................................. 101

Signifikanz des Korrelationskoeffizienten .................................................... 102

(Lineare) Regression .................................................................................. 103

Einleitung ..................................................................................................... 103

Berechnung der (geschätzten) Regressionskoeffizienten b`

0 und b`

1 .............. 104

Eigenschaften der Regressionsgerade ....................................................... 105

Berechnung der Residualvarianz s2 (standard error of estimate) ................. 105

Berechnung der Varianzen für b`

0 und b`

1 ...................................................... 106

Bestimmtheitsmass R2 (coefficient of determination) .................................. 106

Intervallschätzung und Tests ........................................................................ 108

Prognose ....................................................................................................... 109

Mathematica Lineare Regression - b`

0 und b`

1 Berechnungen ....................... 110

Beispiel mit Covariance und Mean ........................................................... 110

12. Zeitreihen ................................................................................................................ 111

Einleitung .......................................................................................................... 111

Trendschätzung ............................................................................................ 111

Saisonale Variation ....................................................................................... 112

Zyklische Variation ...................................................................................... 112

Irreguläre Variaton ....................................................................................... 112

Achtung bei Extrapolationen ........................................................................ 112

Simulation .................................................................................................... 113

13. Stochastische Differentialgleichungen ..................................................... 114

Einleitung ..................................................................................................... 114

Aktie ............................................................................................................. 114

Stochastiche Differentialgleichung ........................................................... 114

Brown'sche Bewegung ............................................................................ 115

Monte-Carlo Lösung der SDE ................................................................ 115

Symbolische Lösung der SDE ................................................................. 116

Mehrere Aktien ...................................................................................... 117

Skript Statistik und Stochastik 6

Page 7: Vorlesung Mathematik und Statistik WS 2006 / 2007 · 1. Einleitung Vorbemerkung Die Vorlesung "Mathematik und Statistik", die im WS 2006 / 2007 an der Hochschule Liechtenstein angeboten

1. Einleitung

VorbemerkungDie Vorlesung "Mathematik und Statistik", die im WS 2006 / 2007 an der Hochschule Liechtenstein angeboten wird,beinhaltet nach einer allgemeinen Repetition von vorausgesetzten mathematischen Grundlagen die Gebiete TaylorEntwicklung und Partielle Differentiation, Zeitreihenanalyse, Regression und allgemeine Optimierung sowie aus demGebiet der Statistik und Stochastik die Gebiete Deskriptive Statistik, Induktive Statistik und Stochastic Calculus.

Der ganze Vorlesungsstoff wird in zwei Dokumenten bzw. Skripten präsentiert.

Das mit "Skript Statistik" bezeichnete Dokument beinhaltet die Gebiete, die dem Gebiete der Statistik und Stochastikzugerechnet werden können.

Das mit "Skript Abbildungen" bezeichnete Dokument beinhaltet die Gebiete, die nicht dem Gebiete der Statistik undStochastik zugerechnet weden können.

EinleitungDieses Dokument ("Skript Statistik") enthält die Gebiete, die dem Gebiet der Statistik und Stochastik zugerechnetwerden können.

Die Graphik StatistikUebersicht.jpg zeigt, wie die verschiedenen (im Folgenden behandelten Themen) miteinander inBeziehung stehen.

Einige Bemerkungen dazu:

† Sowohl Zufallsexperimente als auch empirische Befragungen liefern Daten zur Analyse mit den Methoden der

Beschreibenden Statistik.

† Die Induktive Statistik versucht aus Stichproben Aussagen über die empirische Verteilung der Grundgesamtheit zu

machen.

† Die Wahrscheinlichkeitstheorie liefert theoretische Verteilungen, die zum Teil auch für empirische Daten verwen-

det werden können.

Skript Statistik und Stochastik 7

Page 8: Vorlesung Mathematik und Statistik WS 2006 / 2007 · 1. Einleitung Vorbemerkung Die Vorlesung "Mathematik und Statistik", die im WS 2006 / 2007 an der Hochschule Liechtenstein angeboten

Die Kapitel dieses Dokuments enthalten die folgenden Inhalte.

Das Kapitel "Wahrscheinlichkeitstheorie" nähert sich dem Begriff der Wahrscheinlichkeit und erklärt die wichtigenBegriffe der Wahrscheinlichkeitstheorie wie Ergebnis, Ereignis und Wahrscheinlichkeit. Ausserdem wird mit demKolmogorov'schen Axiomensystem die mathematische Grundlage der Wahrscheinlichkeitstheorie gelegt.

Das Kapitel "Elementare Kombinatorik" beschäftigt sich intensiv mit Zufallsexperimenten (vor allem Urnenexperi-menten) und den dazugehörigen Formeln zur Berechnung von verschiedensten experimentellen Situationen.

Das Kapitel "Bedingte Wahrscheinlichkeiten" untersucht das Vorgehen, wenn Teilinformationen von Experimentenvorliegen, gibt verschiedene Formeln dazu and und definiert den Begriff der stochastischen Unabhängigkeit.

Das Kapitel "Zufallszahlengenerator" ist ein kleiner Einschub, der Funktionen zur Erzeugung von Zufallszahlen, diefür spätere Simulationen und Computerexperimente wichtig sind, erklärt.

Das Kapitel "Zufallsvariablen und ihre Verteilungen" geht dann näher ein auf die wichtigen Funktionen PDF(probability density function) und CDF (cumulative probability density function), die sowohl bei diskreten als auch beistetigen Verteilungen benutzt werden können, um aus Messintervallen auf Wahrscheinlichkeiten zu schliessen. Es wirdauch das umgekehrte Prozedere angesprochen, nämlich aus einem Wahrscheinlichkeitsbereich auf ein Messintervall zuschliessen. Es werden auch die Begriffe Erwartungswert erklärt sowie die wichtigsten diskreten und stetigen Verteilun-gen diskutiert. Weiters wird der zentrale Grenzwertsatz anschaulich mit Computerexperimenten plausibilisiert.

Das Kapitel "Statistik und empirische Daten" beginnt dann die Behandlung von empirisch erhaltenen Daten. Nacheiner Übersicht über die Bereiche der Statistik wird auf die einzelnen Datentypen eingegangen.

Das Kapitel "Beschreibende Statistik" behandelt die Methoden, mit denen sich riesige Datenmengen anschaulichmittels Graphiken oder kurz und prägnant mit Kennzahlen für die Lage und die Streuung der Daten sowie die Form derVerteilung beschreiben lassen.

Das Kapitel "Induktive Statistik" behandelt die Methoden, wie sich aus einer Stichprobe auf die Eigenschaften derGrundgesamtheit schliessen lässt. Es werden Punktschätzungen, bei denen es um die Abschätzung eines einzelnenWerts (z.B. Mittelwert) geht, Intervallschätzungen, wo es um die Abschätzung von Konfidenzintervallen geht sowiestatistische Test, wo es um die Annahme bzw. Verwerfung von Hypothesen über die Grundgesamtheit geht, behandelt.Die Induktive Statistik ist das Gebiet, wo die verschiedenen Methoden der vorangehenden Kapitel (Verteilungen, PDF,CDF, Beschreibende Statistik etc.) eingesetzt werden können.

Das Kapitel "Zweidimensionale Verteilungen" beschäftigt sich mit multivariaten Daten, mit Kontingenztabellen undKorrelationen von bivariaten Daten.

Das Kapitel "Zeitreihen" behandelt bivariate Daten und Zeitreihen sowie verschiedene Methoden, um aus diesenDaten Informationen herauszuziehen.

Das Kapitel "Regression und Korrelation" behandelt bivariate Daten und Zeitreihen sowie verschiedene Methoden,um aus diesen Daten Informationen herauszuziehen.

Abschliessend noch zwei Definitionen zum Titel dieses Notebooks

Die Statistik ist die Wissenschaft von der Gewinnung, Aufbereitung und Auswertung von Informationen / Daten. Viel mehr dazu im Kapitel 7.

Die Stochastik ist die Beschreibung und Untersuchung von Zufallsexperimenten und deren Ausgang, von zeitlichen Entwicklungen und räumlichen Strukturen, die wesentlich vom Zufall beeinflusst werden.

Skript Statistik und Stochastik 8

Page 9: Vorlesung Mathematik und Statistik WS 2006 / 2007 · 1. Einleitung Vorbemerkung Die Vorlesung "Mathematik und Statistik", die im WS 2006 / 2007 an der Hochschule Liechtenstein angeboten

ReferenzenDas in der Vorlesung behandelte Gebiet ist sehr weit und es gibt natürlich eine Unmenge an Literatur zu den ver-schiedenen Themen.

So wie man sich im Wald dieser Literatur verlieren kann, so kann man sich auch im Wald einer zu langen Literaturlisteverlieren. Ich möchte deshalb im Folgenden nur sehr wenige, meines Erachtens nützliche, Hinweise geben.

Sehr kostengünstig sind natürlich die im Internet verfügbaren Informationen. Diese Informationen werden auch vonJahr zu Jahr besser. Interessant sind sicherlich die unter

http://de.wikipedia.org/wiki/Mathematik

vorhandenen Beiträge: über Mengenlehre, Analysis, ...

Sehr gut und hilfreich können als Zusatzinformation zur Vorlesung im Gebiete der Statistik auch die beiden folgendenBücher (zusammen 600 Seiten) sein:

† "Wahrscheinlichkeitsrechnung und schliessende Statistik" von K. Mosler und F. Schmid, Springer, 2. Auflage,

2006.

www.uni-koeln.de/wiso-fak/wisostatsem/buecher/wrechng_schliessende/index.htm

† "Beschreibende Statistik und Wirtschaftsstatistik" von K. Mosler und F. Schmid, Springer, Berlin, 2. Auflage,

2005.

www.uni-koeln.de/wiso-fak/wisostatsem/buecher/beschr_stat/

Skript Statistik und Stochastik 9

Page 10: Vorlesung Mathematik und Statistik WS 2006 / 2007 · 1. Einleitung Vorbemerkung Die Vorlesung "Mathematik und Statistik", die im WS 2006 / 2007 an der Hochschule Liechtenstein angeboten

2. Wahrscheinlichkeitstheorie

Was ist Wahrscheinlichkeit? Wahrscheinlichkeitstheorie ist der Zweig der Mathematik, der sich mit Zufallsexperimenten befasst, mit ihrer Beschrei-bung und der Aufdeckung von Gesetzmässigkeiten. Es wird versucht mathematische Modelle zu finden für Experi-mente, bei denen mehrere verschiedene Verläufe möglich sind und deren Ergebnisse ganz oder teilweise vom Zufallabhängen. Insbesondere sollen die Gesetzmässigkeiten bei vielfacher Wiederholung des Experiments aufgespürtwerden.

Bei einem Würfelexperiment kann nicht vorausgesagt werden, welche Augenzahl eintreten wird. Bei

vielfachen Wiederholungen des Experiments scheint jedoch der Anteil der Experimente, bei denen 1, 2,

... 6 gewürfelt wird, einer festen Grösse zuzustreben.

Eine zentrale und naheliegende Frage lautet: "Was ist Wahrscheinlichkeit?".

Auf diese Frage gibt es keine befriedigende Antwort. Intuitive Antworten können folgendermassen lauten.

Laplace'sche Wahrscheinlichkeitsdefinition

Ein unverfälschter (d.h. symmetrischer, unmanipulierter) Würfel werde geworfen und wir fragen nach der Wahrscheinli-chkeit, dass die geworfene Augenzahl gerade ist. In diesem Beispiel wird wohl jeder antworten, dass die Wahrscheinli-chkeit 50% sei, da die Hälfte der möglichen Ergebnisse (d.h. die Augenzahl 2, 4, 6) günstig und die andere Hälfte derErgebnisse (d.h. die Augenzahlen 1, 3, 5) ungünstig ist. Die Laplace'sche Wahrscheinlichkeit wird als Quotient derAnzahl günstiger Ereignisse und der Anzahl möglicher Ereignisse definiert. Diese Definition bedeutet auch, dass alleErgebnisse eines Experiments gleich wahrscheinlich sind.

Wahrscheinlichkeit als relative Häufigkeit in einer endlichen Grundgesamtheit.

Eine andere intuitive Wahrscheinlichkeitsvorstellung folgt aus dem folgenden Beispiel. In einer Gruppe von 100'000Personen seien 20'000 zwischen 10 und 20 Jahren alt. Wie gross ist die Wahrscheinlichkeit, dass eine zufällig aus derGruppe ausgewählte Person in diese Alterskategorie fällt. Intuitiv würde man sagen 20%, d.h. der Quotient aus 20'000und 100'000, d.h. die relative Häufigkeit eines Merkmals in einer endlichen Grundgesamtheit (dazu mehr später). Auchhier wird - wenn man nicht mehr dazu weiss - vorausgesetzt, dass jede der 100'000 Personen die gleiche Wahrscheinli-chkeit hat, dieser Alterskategorie anzugehören.

Wahrscheinlichkeit als Grenzwert der relativen Häufigkeit bei wachsender Anzahl von Wiederholungen des Experiments

Bei den bisherigen zwei Möglichkeiten konnte man (oder musste man, da man keine Zusatzinformationen hatte) aufGrund von Symmetrieeigenschaften annehmen, dass die Wahrscheinlichkeiten (eine bestimmte Augenzahl zu würfelnbzw. einer bestimmten Alterskategorie anzugehören) gleich gross waren. Im folgenden Beispiel können keine solchenSymmetrieeigenschaften verwendet werden. Es wird z.B. gefragt, wie gross die Wahrscheinlichkeit ist, dass beim Wurfeines unsymmetrischen Gegenstands der Gegenstand auf einer bestimmten Fläche landet. Hier liefert uns weder dieTheorie (Symmetrie) noch die relative Häufigkeit einer endlichen Grundgesamtheit eine Antwort. Wir müssen dasExperiment durchführen und die relative Häufigkeit für eine grosse Anzahl an Versuchen bestimmen. Wir gehen danndavon aus, dass im Grenzübergang für n gegen ¶ die relative Häufigkeit einem Grenzwert, den wir als Wahrscheinlich-keit dieses Experiments bezeichnen, zustrebt.

Diese verschiedenen Ansätze sind für die Mathematik und rigorose Behandlung nicht geeignet. Die Wahrscheinlichkeit-stheorie wurde jedoch mit dem weiter unten behandelten Axiomensystem auf eine feste Grundlage gestellt. ZumVerständnis des Axiomensystems müssen wir jedoch ein wenig ausholen.

Skript Statistik und Stochastik 10

Page 11: Vorlesung Mathematik und Statistik WS 2006 / 2007 · 1. Einleitung Vorbemerkung Die Vorlesung "Mathematik und Statistik", die im WS 2006 / 2007 an der Hochschule Liechtenstein angeboten

Ergebnisraum und Ereignisraum

Zufallsexperiment

Wichtige Begriffe im Zusammenhang mit der Wahrscheinlichkeitstheorie sind "Zufallsexperiment", "Ergebnis","Elementarereignis", "Ereignis" und "Wahrscheinlichkeit". Diese Terminologie soll in diesem Abschnitt definiert underläutert werden.

Ein Zufallsexperiment ist ein Experiment- mit mehreren (mindestens 2) möglichen Ergebnissen;- dabei lässt sich nicht sicher voraussagen, welches Ergebnis eintritt;- die Ergebnismenge ist jedoch festgelegt; d.h. alle potentiell möglichen Ergebnisse sind bekannt;Bei einem Zufallsexperiment spielt also der Zufall eine wesentliche Rolle.

Beispiele für Zufallsexperimente sind:

† Einmaliges Werfen einer Münze;

† Das Ziehen einer Karte (z.B. aus einem Quartett);

† Die Ziehung der Lottozahlen (6 aus 49);

† 1x Würfeln;

† Gleichzeitiges Werfen eines roten und grünen Würfels;

Die Menge aller möglichen Ergebnisse w eines Zufallsexperiments ist die Ergebnismenge W.

Die Ergebnismenge wird mit dem griechischen Buchstaben W bezeichnet, die einzelnen Ergebnisse allgemein mit demkleinen griechischen Buchstaben w.

Die Ergebnismenge

† ist eine nichtleere Menge;

† kann endlich sein: z.B. 81, 2, 3, 4, 5, 6< beim einmaligen Würfeln;

† kann abzählbar unendlich sein; z.B. beim Würfeln bis zum ersten 6-er;

Die Ergebnismengen für die obenstehenden Beispiele von Zufallsexperimenten sind:

† W = 8Kopf, Zahl<† W = 8Herz As, Herz König, Herz ....<; d.h. die Menge aller Karten

† W = 8 8a, b, c, d, e, f < mit a, b, c, d , e, f œ 81, 2, ... 49< und je zwei nicht gleich <† W = 8 1, 2, 3, 4, 5, 6 <† W = 8 81, 1<, 81, 2<, ... 81, 6<, 82, 1<, 82, 2<, ... 86, 6< <

Oft ist man jedoch nicht am genauen Ergebnis w eines Experiments interessiert, sondern an einem allgemeinerenEreignis. Formal wird ein allgemeineres Ereignis A definiert als Teilmenge des Ergebnisraums. Z.B. könnte im obigenExperiment "1x Würfeln" das Ereignis "Würfeln einer geraden Zahl" lauten und dieses Ereignis würde der Teilmenge{2, 4, 6} des Ergebnisraums 8 1, 2, 3, 4, 5, 6 < entsprechen. Ein Ereignis kann also mehrere Ergebnisse umfassen.Spezielle Ereignisse sind sogenannte Elementarereignisse, die genau einem Ergebnis (z.B. "Würfle eine 6", d.h. 86<)entsprechen.

Skript Statistik und Stochastik 11

Page 12: Vorlesung Mathematik und Statistik WS 2006 / 2007 · 1. Einleitung Vorbemerkung Die Vorlesung "Mathematik und Statistik", die im WS 2006 / 2007 an der Hochschule Liechtenstein angeboten

Ein Ereignis A ist eine Teilmenge der Ergebnismenge W.Die Ergebnismenge W heisst das sichere Ereignis, die leere Menge 8< das unmögliche Ereignis.Die Elemente w aus W heissen auch Elementarereignisse.

Es gibt sehr viele Ereignisse (z.B. "Gerade Augenzahl würfeln", "2 oder 4 würfeln", "Keine 5 würfeln", etc.) und jedesEreignis ist eine Teilmenge des Ergebnisraums.

Für die obenstehenden Zufallsexperimente können wir z.B. folgende Ereignisse A wählen:

† A = 8Kopf<; Kopf wird geworfen;

† A = {Herz As, Karo As, .... As} ; es wird ein As gezogen;

† A = 8 81, b, c, d , e, f < mit b, c, d, e, f œ 81, 2, ... 49< und je zwei nicht gleich <; es wird sicher eine 1 gezogen;

† A = 8 2, 4, 6 <; es wird eine gerade Zahl gewürfelt;

† A = 8 85, 6<, 86, 5<, 86, 6< <; die Summe der Augenzahlen ist grösser als 10;

Der Ereignisraum � ist die Menge aller Ereignisse und entspricht zumeist der Potenzmenge (d.h. der Menge aller Teilmengen) des Ergebnisraums. Der Ereignisraum kann sehr schnell sehr gross werden.

Im Folgenden werden an Hand zweier (leicht komplizierterer) Experimente die Begriffe Ergebnis w, Ergebnisraum W,Elementarereignis, Ereignis A und Ereignisraum � noch etwas ausführlicher behandelt. Man sieht anschaulich, dassdie Grösse des Ereignisraums sehr schnell anwachsen kann.

Illustration: Drei Mal eine Münze Werfen

In diesem Experiment wird drei Mal hintereinander eine Münze geworfen, wobei bei jedem Wurf Kopf (0) oder Zahl(1) als Ergebnis möglich ist. Bei dreimaligem Würfeln ergibt sich der folgende Ergebnisraum:

880, 0, 0<, 80, 0, 1<, 80, 1, 0<, 80, 1, 1<, 81, 0, 0<, 81, 0, 1<, 81, 1, 0<, 81, 1, 1<<Der Ergebnisraum W enthält die Ergebnisse bzw. Elementarereignisse {0,0,0}, {0,0,1}, ... und umfasst insgesamt 8verschiedene Ergebnisse (Elementarereignisse).

Die Anzahl der möglichen Ereignisse (d.h. die Menge aller Teilmengen des Ergebnisraums bzw. die Potenzmenge vonW) ist bereits 256 gemäss der allgemeinen Formel zur Berechnung der Mächtigkeit der Potenzmege von W (2n = 28 = 256 ), wobei n die Mächtigkeit (Anzahl Elemente) von W ist. Die Begriffe werden in Kürze näher erklärt.

Illustration: Zwei Mal Würfeln

In diesem Experiment wird zwei Mal hintereinander gewürfel, wobei bei jedem Wurf die Augenzahlen 1, 2, 3, 4, 5oder 6 als Ergebnis möglich sind. Bei zweimaligem Würfeln ergibt sich der folgende Ergebnisraum:

881, 1<, 81, 2<, 81, 3<, 81, 4<, 81, 5<, 81, 6<, 82, 1<, 82, 2<, 82, 3<,82, 4<, 82, 5<, 82, 6<, 83, 1<, 83, 2<, 83, 3<, 83, 4<, 83, 5<, 83, 6<,84, 1<, 84, 2<, 84, 3<, 84, 4<, 84, 5<, 84, 6<, 85, 1<, 85, 2<, 85, 3<,85, 4<, 85, 5<, 85, 6<, 86, 1<, 86, 2<, 86, 3<, 86, 4<, 86, 5<, 86, 6<<Es gibt also 36 (d.h. 6 mal 6) verschiedene Ergebnisse.

Der Ereignisraum umfasst alle Teilmengen des Ergebnisraums. Diese Menge hat sehr viele Elemente, nämlich 236

oder fast 70 Milliarden (genau: 68719476736).

Skript Statistik und Stochastik 12

Page 13: Vorlesung Mathematik und Statistik WS 2006 / 2007 · 1. Einleitung Vorbemerkung Die Vorlesung "Mathematik und Statistik", die im WS 2006 / 2007 an der Hochschule Liechtenstein angeboten

Empirisches Gesetz der grossen Zahlen

Das wesentliche Merkmal eines Zufallsexperiments ist, dass wir vor seiner Durchführung nicht wissen, welches dermöglichen Ergebnisse eintreten wird. Für ein bestimmtes Ereignis A können wir nicht mit Sicherheit voraussagen, obes eintreten wird oder nicht; es sei denn, A ist entweder das sichere Ereignis W oder das unmögliche Ereignis 8<.Wir wollen im Folgenden zahlenmässig zu erfassen versuchen, wie "stark" mit dem Eintreten des Ereignisses A zurechnen ist. Dazu bietet sich der folgende experimentelle Weg an: wir führen ein Zufallsexperiment mehrfach nachein-ander durch und notieren die (sogenannte absolute) Häufigkeit HnHAL des Auftretens des Ereignisses A bei n-facherWiederholung sowie die davon abgeleitete relative Häufigkeit hnHAL = HnHALÅÅÅÅÅÅÅÅÅÅÅÅÅÅ

n.

Man beobachtet nun im Allgemeinen, dass die relative Häufigkeit mit wachsendem n in der Regel immer weniger um einen festen Wert schwankt. Dieser sogenannte Stabilisierungseffekt ist eine Erfahrungstatsache und wird das empirische Gesetz der

grossen Zahlen genannt.

Kolmogorov'sches AxiomensystemNachdem wir die unbefriedigende Situation mit dem Begriff bzw. der Definition der Wahrscheinlichkeit diskutiertsowie wichtige Begriffe von Zufallsexperimenten erläutert haben, können wir den axiomatischen Wahrscheinlichkeits-begriff bzw. den mathematischen Ansatz, die Wahrscheinlichkeitstheorie auf ein Fundament zu stellen, behandeln.

Wir geben im Folgenden das Kolmogorov'sche Axiomensystem (1930er Jahre), die Grundlage der Wahrscheinlichkeits-theorie, wobei W die endliche (oder abzählbar unendliche) Ergebnismenge eines Zufallsexperiments bedeutet.

Ein Wahrscheinlichkeitsraum ist ein Tripel HW, �, PL, wobei W eine nichtleere Menge ist, � eine s-Algebra von Teilmengen von W, d.h.

� ist nicht leer, aus B œ � folgt Bc œ � und aus A1, A2, ... œ � folgt A1 ‹ A2 .... œ �, und

P : � Ø @0, 1D ist eine Abbildung mit folgenden Eigenschaften:Axiom1: PHWL = 1Axiom 2: PHA ‹ BL = PHAL + PHBL für disjunkte Ereignisse A und BAxiom 3: wie Axiom 2 für eine ¶ Folge von paarweise disjunkten Ereignissen

Die Funktion P : � Ø @0, 1D heisst Wahrscheinlichkeitsmass, Wahrscheinlichkeitsabbildung, Wahrscheinlichkeitsverteilung oder auch kurz Wahrscheinlichkeit.

Wie man leicht einsehen kann, decken sich diese Axiome mit der intuitiven Vorstellung von Wahrscheinlichkeit:

† Gemäss Axiom 1 ist die Wahrscheinlichkeit, irgendein Ergebnis des Ergebnisraums zu erzielen, gleich eins (d.h.

völlige Sicherheit).

† Gemäss Axiom 2 ist die Wahrscheinlichkeit eine 1 oder eine 2 zu würfeln (dies sind disjunkte Ereignisse) gleich

der Summe der Wahrscheinlichkeiten der beiden (Elementar)ereignisse, d.h. 2ÅÅÅÅ6 .

† Die Wahrscheinlichkeit ist nie grösser als 1 (das sicherer Ereignis) und nie kleiner als 0 (das unmögliche Ereignis).

Eigenschaften von Wahrscheinlichkeitsmassen

In der Praxis ist es oft so, dass die Wahrscheinlichkeit eines Ereignisses nicht direkt ausgerechnet werden kann. Dannkann man versuchen, das Ereignis als Vereinigung, Durchschnitt, Differenz oder Komplement von Ereignissen, derenWahrscheinlichkeit einfacher berechnet werden kann, zu schreiben und die folgenden Beziehungen anzuwenden. DieseBeziehungen können aus dem Axiomensystem abgeleitet werden:

† PH«L = 0

Skript Statistik und Stochastik 13

Page 14: Vorlesung Mathematik und Statistik WS 2006 / 2007 · 1. Einleitung Vorbemerkung Die Vorlesung "Mathematik und Statistik", die im WS 2006 / 2007 an der Hochschule Liechtenstein angeboten

† 0 § PHAL § 1

† PHAcL = 1 - PHAL† A Õ B fl PHB \ AL = PHBL - PHAL† A Œ B fl PHAL § PHB† PHB \ AL = PHBL - PHA › BL† PHA ‹ BL = PHAL + PHBL - PHA › BL† PHA ‹ BL § PHAL + PHBL† PHA1 ‹ A2 ‹ ... ‹ AnL § ⁄i=1

n PHAiLIn dieser Zusammenstellung sind A und B Ereignisse des Wahrscheinlichkeitsraums HW, �, PL und Ac das Komple-ment von A.

Beispiel 1

Wie gross ist die Wahrscheinlichkeit, beim n-maligen Würfeln wenigstens eine 6 zu würfeln?

Lösung

Das Ereignis "Würfle mindestens eine 6 bei n-maligem Würfeln" ist das Komplement des Ereignisses A "Würfle nurdie Zahlen 1, 2, 3, 4, 5 bei n-maligem Würfeln".

Der Ergebnisraum W beim n-maligen Würfeln hat die Grösse 6n.

Die Anzahl der möglichen Ergebnisse, das Ereignis A zu erzielen (d.h. die Grösse von A), beträgt 5n, da bei jedemWurf nur 5 verschiedene Zahlen möglich sind.

Die Wahrscheinlichkeit, das Ereignis A zu erzielen beträgt demnach H 5ÅÅÅÅ6 Ln.

Die Wahrscheinlichkeit, das Komplement, d.h. beim n-maligen Würfeln wenigstens eine 6 zu würfeln, beträgt dem-nach 1 - H 5ÅÅÅÅ6 Ln

und strebt für n gegen ¶ gegen 1.

Beispiel 2

In einer Stadt erscheinen zwei Zeitungen A und B. Die Wahrscheinlichkeit, dass ein Einwohner - die Zeitung A liest sei 60%; - die Zeitung B liest sei 50%; - die Zeitung A oder B oder beide liest sei 90%.Wie gross ist die Wahrscheinlichkeit, dass ein Einwohner - a. beide Zeitungen liest; - b. keine der beiden Zeitungen liest; - c. nur eine der beiden Zeitungen liest.

Lösung

Wenn A das Ereignis ("Lesen der Zeitung A") und B das Ereignis ("Lesen der Zeitung B") bezeichnet, dann gilt:

a. PHA › BL = PHAL + PHBL - PHA ‹ BL = 60 % + 50 % - 90 % = 20 %

b. PHAêêê › B

êêL =de Morgan

PHA ‹ BêêêêêêêêêL = 1 - PHA ‹ BL = 100 % - 90 % = 10 %

c. PHA ‹ BL \ PHA › BL = PHA ‹ BL - PHHA › BL › HA ‹ BLL = PHA ‹ BL - PHA › BL = 90 % - 20 % = 70 %

Skript Statistik und Stochastik 14

Page 15: Vorlesung Mathematik und Statistik WS 2006 / 2007 · 1. Einleitung Vorbemerkung Die Vorlesung "Mathematik und Statistik", die im WS 2006 / 2007 an der Hochschule Liechtenstein angeboten

Venn Diagramme

Mit Hilfe der Venn Diagramme lassen sich die Beziehungen zwischen Ereignissen, die symbolisch oder in Wortengegeben sind, auch anschaulich graphisch darstellen.

Siehe dazu im Kapitel "Mengenlehre" des Skripts "Abbildungen".

Skript Statistik und Stochastik 15

Page 16: Vorlesung Mathematik und Statistik WS 2006 / 2007 · 1. Einleitung Vorbemerkung Die Vorlesung "Mathematik und Statistik", die im WS 2006 / 2007 an der Hochschule Liechtenstein angeboten

3. Elementare Kombinatorik

EinleitungNachdem wir verschiedene mathematische (mengentheoretische) Beziehungen besprochen haben, möchten wir einenetwas genaueren Blick auf verschiedene Zufallsexperimente werfen.

Dabei definieren wir zunächst den für unsere Zufallsexperimente wichtigen Begriff des Laplace Experiments, bei demjedes Ergebnis mit der gleichen Wahrscheinlichkeit auftritt.

Wichtige Zufallsexperimente sind auch die sogenannten Bernoulli Experimente, bei dem nur zwei Ergebnisse jedochmit unterschiedlicher Wahrscheinlichkeit auftreten können, sowie vor allem die mehrstufigen Bernoulli Experimente,die aus mehreren Bernoulli Experimenten zusammengesetzt sind.

Anschliessend untersuchen wir im Detail sogenannte Urnenexperimente, bei denen aus einer Urne mit n Kugeln kKugeln gezogen und die möglichen resultierenden Anordnungen und deren Wahrscheinlichkeiten studiert werden. Esgibt dabei verschiedene experimentelle Situationen zu berücksichtigen: mit oder ohne Zurücklegen der Kugel, mit oderohne Berücksichtigung der Anordnung sowie mit verschiedenen oder teilweise gleichen Kugeln.

Diese Analyse führt uns ins Gebiet der Kombinatorik. Es lassen sich (für Standardsituationen) explizite Formelnherleiten, die es ermöglichen auf schnelle Art und Weise die möglichen Ergebnisse verschiedener Zufallsexperimenteund deren Wahrscheinlichkeiten anzugeben.

Es wird weiters dargelegt, dass die gleichen Formeln auch für eine andere experimentelle Situation, nämlich derAufgabe, k Kugeln auf n Behälter zu verteilen, angewendet werden können. Auch hier gibt es wieder verschiedene (zuden Urnenexperimenten analoge) experimentelle Situationen.

Für kompliziertere Situationen in der Praxis (vor allem wenn das Experiment zeitabhängige Aspekte enthält) kann oftnur eine Simulation des Experiments eine Lösung bringen. Es ist jedoch zu beachten, dass bei solchen Zufallsexperi-menten die Anzahl der Möglichkeiten sehr schnell ins Unermessliche steigt, und deshalb die ganzen Berechnungen(aus Zeit- und Memory Überlegungen) idealerweise in (durch Formeln berechenbare) Teile aufgeteilt werden.

Die verschiedenen in diesem Kapitel besprochenen Zufallsexperimente führen in natürlicher Weise auf diskreteVerteilungen. Die wichtigsten dieser (theoretisch abgeleiteten) Verteilungen und deren Eigenschaften werden jedocherst in den folgenden Kapiteln behandelt.

Laplace Experimente

Laplace Wahrscheinlichkeit

In vielen experimentellen Situationen (wie: würfeln, Münze werfen, Karte ziehen etc.) ist jedes Ergebnis mit dergleichen Wahrscheinlichkeit zu erwarten.

Die Voraussetzung der Gleichwahrscheinlichkeit heisst Laplace-Annahme.Zufallsexperimente, bei denen die Laplace-Annahme zugrunde gelegt wird, heissen Laplace-Experimente.Sei W = 8w1, w2, ... wn< die endliche Ergebnismenge eines Zufallsexperiments. Dann heisst die Abbildung P mit:

PHAL = »A»ÅÅÅÅÅÅÅÅ»W» = Anzahl der für das Eintreten von A günstigen FälleÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅAnzahl der möglichen Fälle

" A Õ W

Laplace-Wahrscheinlichkeit.

Skript Statistik und Stochastik 16

Page 17: Vorlesung Mathematik und Statistik WS 2006 / 2007 · 1. Einleitung Vorbemerkung Die Vorlesung "Mathematik und Statistik", die im WS 2006 / 2007 an der Hochschule Liechtenstein angeboten

Ein Laplace-Experiment geht also von der Annahme aus, dass nur endlich viele Ergebnisse möglich sind und diese alledie gleiche Wahrscheinlichkeit haben.

Beim Werfen einer Münze ist jedes der Ergebnisse (Kopf, Zahl) mit der gleichen 50% Wahrscheinlichkeit zu erwarten.

Beim Würfeln ist jede Augenzahl (1, 2, 3, 4, 5, 6) mit der gleichen 1ÅÅÅÅ6 Wahrscheinlichkeit zu erwarten.

Mehrstufige Laplace Experimente - Baumdiagramme

Vorgänge, die sich aus mehreren Teilvorgängen zusammensetzen, heissen mehrstufige Vorgänge (z.B. 5x würfeln).

Den Ablauf eines mehrstufigen Vorgangs kann man oft übersichtlich als Baumdiagramm darstellen. Nach jedemTeilvorgang verzweigt sich der Baum.

In die Knoten des Baums trägt man in Kreise das bisherige Ergebnis ein. Von jedem Knoten können Äste abzweigen;die Äste entsprechen den möglichen Ergebnissen des nächsten Teilvorgangs. An jeden Ast schreibt man die Wahrschei-nlichkeit, die besteht um von einem Knoten zum nächsten Knoten zu gelangen. Die Summe der Wahrscheinlichkeitenbei jedem Knoten beträgt 1.

Zu jedem möglichen Ablauf des Gesamtvorgangs gehört ein Weg durch das Baumdiagramm - ein sogenannter Pfad. Esgibt zwei Pfadregeln:

In einem Baumdiagramm für einen mehrstufigen Vorgang gilt:Produktregel: Die Wahrscheinlichkeit eines Pfades ist gleich dem Produkt der Wahrscheinlichkeiten entlang dieses Pfades.Summenregel: Die Wahrscheinlichkeit eines Ereignisses ist gleich der Summe der Pfadwahrscheinlichkeiten (d.h. gleich der Summe der Wahrscheinlichkeiten, die für dieses Ereignis günstig sind).

Bernoulli Experimente

Bei einem Bernoulli Experiment interessiert nur, ob ein Ereignis A eintritt oder nicht. Im ersten Fall spricht man von Erfolg mit der Wahrscheinlichkeit PHAL = p. Im zweiten Fall spricht man von Misserfolg mit der Wahrscheinlichkeit PHAL = 1 - p. Wird ein Bernoulli Experiment mehrfach durchgeführt, spricht man von einer Bernoulli Kette.

Bernoulli Formel

In einer Bernoulli Kette der Länge n mit der Erfolgswahrscheinlichkeit p gilt:PHGenau k ErfolgeL = n!ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ

k! Hn-kL! pk H1 - pLn-k k = 0, 1, ... n

Statt n!ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅk! Hn-kL! wird meist

ikjjjn

k

y{zzz (sprich: n über k) geschrieben.

Mit Hilfe eines Baumdiagramms kann man diese Formel herleiten, bei der der Binomialkoeffizient die Anzahl derverschiedenen Wege darstellt, die zu dem Ereignis "Genau k Erfolge" führen.

SummenregelBei den weiter unten zu besprechenden Urnenexperimenten wird immer wieder auf die Summenregel und die Produktre-gel zurückgegriffen. Sie werden in diesem und dem nächsten Abschnitt kurz erläutert.

Summenregel: Die Anzahl der Möglichkeiten n, ein Element aus einer von zwei diskunkten Mengen A und B zu wählen, ist die Summe der Elemente der beiden Mengen: n = nA + nB

Skript Statistik und Stochastik 17

Page 18: Vorlesung Mathematik und Statistik WS 2006 / 2007 · 1. Einleitung Vorbemerkung Die Vorlesung "Mathematik und Statistik", die im WS 2006 / 2007 an der Hochschule Liechtenstein angeboten

Diese Regel ist unmittelbar einleuchtend. Bei zwei disjunkten Mengen 8a, b, c< und 8d , e< gibt es insgesamt 5 ver-schiedene Möglichkeiten ein Element zu wählen, nämlich eines aus der Vereinigungsmenge 8a, b, c, d , e<.

Produktregel

Die Anzahl der Möglichkeiten, aus zwei Mengen ein geordnetes Paar zu wählen, ist gleich der Anzahl der Möglichkeiten, das erste Element zu wählen, multipliziert mit der Anzahl der Möglichkeiten, das zweite Element zu wählen.

Diese Regel ist auch unmittelbar einleuchtend. Jedes Element der ersten Menge kann mit den Elementen der zweitenMenge gepaart werden. Z.B. bei den zwei Mengen {a,b} und {c,d} gibt es die Ergebnisse {a,c}, {a,d}, {b,c}, {b,d}.

Permutationen und Binomialverteilung

Einleitung

In vielen Fällen ist zur Berechnung von Wahrscheinlichkeiten ein systematisches Abzählen von Mengen wichtig. DieKombinatorik ist das Teilgebiet der Mathematik, das sich damit beschäftigt. Fast alle Zufallsexperimente (mit gleichenWahrscheinlichkeiten) lassen sich auf die in den nächstenen Abschnitten besprochenen Urnenmodelle zurückführen.

Darin werden Experimente besprochen wo es darum geht, aus einer Urne, die n (verschiedene oder teilweise gleiche)Kugeln enthält, k Kugeln zu ziehen (mit und ohne Zurücklegen) und zu bestimmen, wieviele verschiedene Konfigura-tionen (mit oder ohne Berücksichtigung der Anordnung) möglich sind.

Im Folgenden werden verschiedene Begriffe im Zusammenhang mit Listen von nummerierten Kugeln verwendet, diehier zusammenfassend kurz erklärt und definiert sind:

Kombinatorik

† Geordnet heisst, dass es auf die Reihenfolge der Elemente ankommt.

† Variation heisst geordnet (d.h. die Reihenfolge wird berücksichtigt, z.B. aufeinanderfolgendes Ziehen).

† Kombination heisst nicht geordnet (d.h. Reihenfolge wird nicht berücksichtigt, z.B. gleichzeitiges Ziehen).

† ein k-Tupel ist eine Liste von k Elementen;

† Ein k-Tupel einer Menge mit n Elementen ist eine geordnete Folge von k Elementen, wobei Elemente auch

mehrfach vorkommen können. k-Tupels können auch als Auswahl mit Wiederholungen bzw.Zurücklegen, oder

als Stichproben oder Variationen mit Wiederholungen aufgefasst werden.

† Eine k-Repetition einer Menge mit n Elementen ist eine ungeordnete Auswahl von k Elementen, wobei Ele-

mente auch mehrfach vorkommen können. k-Repetitionen können auch als Kombinationen mit Wiederholungen

bzw. Zurücklegen aufgefasst werden.

† Eine k-Permutation einer Menge mit n (n ≥ kLElementen ist eine geordnete Auswahl von k paarweise ver-

schiedenen Elementen aus der Menge. Eine n-Permutation wird auch einfach Permutation genannt. k-Permuta-

tionen können auch als Auswahl ohne Wiederholungen bzw. Zurücklegen, oder als Stichproben oder Variationen

ohne Wiederholungen aufgefasst werden.

† Eine k-Kombination einer Menge mit n (n ≥ kLElementen ist eine ungeordnete Auswahl von k paarweise

verschiedenen Elementen aus der Menge. k-Kombinationen können auch als ungeordnete Auswahl ohne Wieder-

holungen bzw. Zurücklegen, oder als Kombination ohne Wiederholungen aufgefasst werden.

† n! (gesprochen: n Fakultät) entspricht dem Produkt 1 ä2 ä ... ä n.

Skript Statistik und Stochastik 18

Page 19: Vorlesung Mathematik und Statistik WS 2006 / 2007 · 1. Einleitung Vorbemerkung Die Vorlesung "Mathematik und Statistik", die im WS 2006 / 2007 an der Hochschule Liechtenstein angeboten

Mengenlehre

† Beachten Sie, dass es bei Mengen auf die Reihenfolge ihrer Elemente nicht ankommt.

† Die Mächtigkeit einer Menge gibt die Anzahl ihrer Elemente an.

† Die Potenzmenge einer Menge ist die Menge aller Teilmengen dieser Menge. Wenn die Menge n Elemente hat, so

hat die Potenzmenge 2n Elemente.

† Begriffe: Vereinigungsmenge, Durchschnittsmenge, Komplementärmenge (Komplement).

Bevor wir diese allgemeinen Urnenexperimente untersuchen, soll jedoch noch auf wichtige Spezialfälle (mit k = n)eingegangen werden.

Ohne Zurücklegen - alle verschieden

Es gibt n ! mögliche Anordnungen (Variationen), wenn n Kugeln aus einer Urne mit n verschiedenen Kugeln gezogen werden (ohne Zurücklegen und mit Berücksichtigung der Reihenfolge). Es gibt nur eine Kombination.

Bei der ersten Kugel gibt es n Möglichkeiten, bei der zweiten nur noch (n - 1), etc. bis 1: d.h. die Anzahl der Möglich-keiten ist: n Hn - 1L Hn - 2L ... 2 1 = n!

Zur Angabe dieser Anzahl wurde eine neue Funktion (Fakultät bzw.!) definiert: es giltn ! = 1 ä2 ä ... ä n

Die Anzahl der Kombinationen, bei denen es auf die Reihenfolge nicht ankommt, ist gleich 1, da alle Anordnungen(Variationen) die gleichen Elemente enthalten, nämlich alle n (verschiedenen) Kugeln.

Beispiel

Gegeben sei die Menge 8a, b, c<.Es gibt die folgenden 3 ! = 6 Permutationen (Variationen): 88a, b, c<, 8a, c, b<, 8b, a, c<, 8b, c, a<, 8c, a, b<, 8c, b, a<<Es gibt nur eine Kombination: 88a, b, c<<

Ohne Zurücklegen - mehrere Klassen

Es gibt n!ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅk1! k2! ... km!

verschiedene Möglichkeiten n Kugeln, die in m Klassen von je ki Hi = 1, .. mL nicht unterscheidbaren Kugeln

eingeteilt werden können (und ⁄i=1m ki = n gilt), anzuordnen.

Es gibt n ! Möglichkeiten n Kugeln anzuordnen. Jede nichtunterscheidbare Art (z.B. Farbe rot) kann auf ki ! ver-schiedene Arten angeordnet werden, ohne dass man an der Darstellung einen Unterschied bemerkt. Man muss alsodurch alle diese ki ! teilen.

Beispiel: 3 blaue und 7 rote Kugeln können auf n!ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅk1! k2!

= 10!ÅÅÅÅÅÅÅÅÅÅÅ3! 7! = 120 verschiedene Arten angeordnet werden.

Ohne Zurücklegen - mit 2 Klassen

Ein wichtiger Spezialfall der vorherigen Situation ist der Fall, wenn zwei Klassen (d.h. m = 2) vorhanden sind.

Skript Statistik und Stochastik 19

Page 20: Vorlesung Mathematik und Statistik WS 2006 / 2007 · 1. Einleitung Vorbemerkung Die Vorlesung "Mathematik und Statistik", die im WS 2006 / 2007 an der Hochschule Liechtenstein angeboten

Es gibt n!ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅk1! k2!

= n!ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅk! Hn-kL! verschiedene Möglichkeiten n Kugeln, die in 2 Klassen mit Häufigkeit k bzw. n - k eingeteilt werden

können, anzuordnen.

Beispiel: Wir können das vorherige Beispiel verwenden und erhalten wiederum ikjjj

10

3y{zzz = 10!ÅÅÅÅÅÅÅÅÅÅÅ3! 7! = 120 .

Urnenexperimente bei verschiedenen Elementen

Urnenexperimente

In diesem Kapitel werden wir zunächst eine Urne mit n verschiedenen (z.B. von 1 bis n durchnummerierten) Kugelnbetrachten und wir ziehen zufällig k-mal nacheinander eine Kugel aus der Urne. Die möglichen Ergebnisse und dieMächtigkeit des Ergebnisraumes hängen dabei entscheidend von der Art der Ziehung ab.

Es kann die Reihenfolge der gezogenen Elemente berücksichtigt werden (man spricht dann von Variation oder geord-neter Liste) oder nicht (man spricht dann von Kombination oder ungeordneter Liste). Die Anzahl der Variationen istgrösser als die (oder gleich der) Anzahl der Kombinationen. Dementsprechend ist die Wahrscheinlichkeit, ein bestim-mtes Ergebnis zu erzielen, bei der Variation kleiner als die (oder gleich der) Wahrscheinlichkeit bei der entsprech-enden Kombination.

Bei einer Variation muss notwendigerweise nacheinander gezogen werden, bei einer Kombination könnte auchgleichzeitig gezogen werden.

Beispiel: Bei der Variation unterscheidet man zwischen den Ergebnissen 82, 4, 8< und 84, 8, 2<, bei der Kombinationwerden sie jedoch als das gleiche Ergebnis betrachtet.

Eine weitere Unterscheidung besteht darin, ob nach dem Ziehen der Kugel die Kugel zurückgelegt wird oder nicht.Dies führt auf die Unterscheidung mit / ohne Zurücklegen. Wenn alle Elemente verschieden sind, hat man im zweitenFall auch im Ergebnis nur unterschiedliche Kugeln.

Diese zwei Unterscheidungen (Variation oder Kombination, mit oder ohne Zurücklegen) führen auf insgesamt 4verschiedene experimentelle Situationen, die in diesem Kapitel genauer behandelt werden. In einem späteren Abschnittwird ausserdem noch die Unterscheidung gemacht, ob alle Kugeln unterschiedlich sind oder nicht. Dies führt aufweitere unterschiedliche experimentelle Situationen.

Mit Zurücklegen und Geordnet (k-Tupel)

Experiment: Aus einer Urne mit n verschiedenen Kugeln werden k Kugeln ausgewählt. Nach jedem Zug wird die Kugel wieder zurückgelegt. Jede unterschiedliche Anordnung von k Kugeln wird gezählt.

Anzahl Möglichkeiten: nk = n ... n´ ¨¨¨ ¨ ≠ ƨ¨ ¨k-mal

Es gibt nk k-Tupel, da es n Möglichkeiten zur Wahl des ersten Elements der Folge, n Möglichkeiten zur Wahl deszweiten Elements der Folge, etc. ... gibt. Jede Möglichkeit tritt mit der Wahrscheinlichkeit 1ÅÅÅÅ

nauf, jedes k-Tupel tritt

mit der gleichen Wahrscheinlichkeit H 1ÅÅÅÅn

Lk auf.

Beispiel

Gegeben sei die Menge 8a, b, c<.

Skript Statistik und Stochastik 20

Page 21: Vorlesung Mathematik und Statistik WS 2006 / 2007 · 1. Einleitung Vorbemerkung Die Vorlesung "Mathematik und Statistik", die im WS 2006 / 2007 an der Hochschule Liechtenstein angeboten

Es gibt die folgenden nk = 32 = 8 Möglichkeiten, aus der Menge mit n = 3 Elementen k = 2 Elemente zu ziehen:

88a, a<, 8a, b<, 8a, c<, 8b, a<, 8b, b<, 8b, c<, 8c, a<, 8c, b<, 8c, c<<

Mit Zurücklegen und Ungeordnet (k-Repetition)

Experiment: Aus einer Urne mit n verschiedenen Kugeln werden k Kugeln ausgewählt. Nach jedem Zug wird die Kugel wieder zurückgelegt. Von Tupels, die die gleichen Elemente enthalten, wird nur eines gezählt.

Anzahl Möglichkeiten:ikjjj

n + k - 1

k

y{zzz

Diese Herleitung ist ein wenig komplizierter. Wir können jedoch folgende Überlegung anstellen.

Da die Reihenfolge nicht interessiert, können wir eine Strichliste anlegen: d.h. wir schreiben der Reihe nach für jededer n Kugeln Striche entsprechend der Anzahl mit der diese Kugel gezogen wurde und trennen diese Gruppe vonStrichen für benachbarte n jeweils durch ein Trennzeichen. Wir haben also insgesamt k Striche plus n - 1 Trennze-ichen, die wir auf Hn + k - 1L ! verschiedene Arten anordnen können. Da jedoch die Striche und Zwischenräume nichtunterscheidbar sind, müssen wir diese Anzahl durch k ! und Hn - 1L! teilen und erhalten als ErgebnisHk+n-1L!ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅk! Hn-1L! =

ikjjjk + n - 1

k

y{zzz.

Beispiel

Gegeben sei die Menge 8a, b, c<.Es gibt die folgenden Hk+n-1L!ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ

k! Hn-1L! = 4!ÅÅÅÅÅÅÅÅÅÅÅ2! 2! = 6 Möglichkeiten, aus der Menge mit n = 3 Elementen k = 2 Elemente zu

ziehen:

88a, a<, 8a, b<, 8a, c<, 8b, b<, 8b, c<, 8c, c<<

Ohne Zurücklegen und Geordnet (k-Permutation)

Experiment: Aus einer Urne mit n verschiedenen Kugeln werden k Kugeln ausgewählt. Nach jedem Zug wird die Kugel nicht wieder zurückgelegt. Jede unterschiedliche Anordnung von k Kugeln wird gezählt.

Anzahl Möglichkeiten: n!ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅHn-kL! = n Hn - 1L ... Hn - k + 1L´ ¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨ ¨¨¨¨≠ ƨ¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨ ¨¨k-mal

Es gibt n!ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅHn-kL! k-Permutationen, da es n Möglichkeiten zur Wahl des ersten Element der Folge, (n - 1) Möglichkeiten

zur Wahl des zweiten Elements, etc. ... gibt, also: n Hn - 1L ... Hn - k + 1L = n!ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅHn-kL! .

Spezialfall k = n

Es gibt n ! n-Permutationen bzw. Permutationen. Beim ersten Ziehen gibt es n Möglichkeiten, beim zweiten n - 1, etc..... und schliesslich beim letzten Zug eine Möglichkeit. Die Totalanzahl der Möglichkeiten beträgt demnach

n Hn - 1L ... 1 = n !

Beispiel

Gegeben sei die Menge 8a, b, c<.

Skript Statistik und Stochastik 21

Page 22: Vorlesung Mathematik und Statistik WS 2006 / 2007 · 1. Einleitung Vorbemerkung Die Vorlesung "Mathematik und Statistik", die im WS 2006 / 2007 an der Hochschule Liechtenstein angeboten

Es gibt die folgenden n!ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅHn-kL! = 3!ÅÅÅÅÅÅ1! = 6 Möglichkeiten, aus der Menge mit n = 3 Elementen k = 2 Elemente zu ziehen:

88a, b<, 8b, a<, 8a, c<, 8c, a<, 8b, c<, 8c, b<<

Ohne Zurücklegen und Ungeordnet (k-Kombinationen)

Experiment: Aus einer Urne mit n verschiedenen Kugeln werden k Kugeln ausgewählt. Nach jedem Zug wird die Kugel nicht wieder zurückgelegt. Von Tupels, die die gleichen Elemente enthalten, wird nur eines gezählt.

Anzahl Möglichkeiten: n!ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅk! Hn-kL!

Es gibt n!ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅk! Hn-kL! k-Kombinationen, da jeweils k ! k-Permutationen zu einer k-Kombination zusammengefasst werden

können.

Beispiel

Gegeben sei die Menge 8a, b, c<.Es gibt die folgenden n!ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ

k! Hn-kL! = 3!ÅÅÅÅÅÅÅÅÅÅÅ2! 1! = 3 Möglichkeiten, aus der Menge mit n = 3 Elementen k = 2 Elemente zu

ziehen:

88a, b<, 8a, c<, 8b, c<<

Zusammenfassung - Ziehen mit verschiedenen Elementen

In den vorigen Abschnitten wurden die möglichen Anordnungen von k Elementen aus einer Menge bzw. Liste mit nverschiedenen Elementen diskutiert.

Übersichtsweise kann dies folgendermassen zusammengefasst werden:

mit ZurücklegenHmehrfachL ohne ZurücklegenHverschiedenLVariationHgeordnetL nk n!���������������Hn−kL!

KombinationHungeordnetL J n + k − 1

kN J n

kN

Bei der Benutzung dieser Tabelle ist zu berücksichtigen, dass diese expliziten Formeln gelten, wenn alle Elemente imAusgangstopf verschieden sind.

Verteilungen in BehälterIn den bisherigen Experimenten hatten wir n verschiedene Kugeln in einer Urne und haben die Anzahl Möglichkeitenberechnet, k Kugeln daraus zu entnehmen und anzuordnen.

Die Anzahl der möglichen Anordnungen ergab sich dabei z.B. beim Fall mit Zurücklegen und unter Berücksichtigungder Reihenfolge zu:

Skript Statistik und Stochastik 22

Page 23: Vorlesung Mathematik und Statistik WS 2006 / 2007 · 1. Einleitung Vorbemerkung Die Vorlesung "Mathematik und Statistik", die im WS 2006 / 2007 an der Hochschule Liechtenstein angeboten

W = {w » w = (a1, a2, ... ak), ai = 1, ... n}

wobei hier ai die Nummer (von 1 bis n) der i-ten gezogenen Kugel angibt.

Nun betrachten wir ein anderes Experiment, und zwar sollen k Kugeln auf n Behälter verteilt werden. Die Anzahl dermöglichen Verteilungen ist nun z.B. für den Fall mit Mehrfachbelegung und unterscheidbaren Objekten gleich:

W = {w » w = (a1, a2, ... ak), ai = 1, ... n}

wobei hier ai für jede Kugel mit der Nummer i den Behälter (von 1 bis n) angibt.

Es ist nun bemerkenswert, dass beide Experimente die gleichen Formeln liefern. Aber Achtung: die Anzahl der Kugeln ist im ersten Fall gleich n, im zweiten Fall gleich k.

Die Tatsache, dass die gleichen Formeln angewandt werden können, gilt nicht nur für den betrachteten Fall (mitZurücklegen und unter Berücksichtigung der Anordnung), sondern in allen vier Fällen, wenn folgende Zuordnunggemacht wird:

Experiment Anordnungen Experiment Verteilungenn Kugeln k Kugeln

davon k Kugeln ziehen auf n Behälter verteilen

mit Zurücklegen mit Mehrfachbelegung

ohne Zurücklegen mit Einfachbelegung

mit Berücksichtigung der Reihenfolge unterscheidbare Objekte

ohne Berücksichtigung der Reihenfolge nicht unterscheidbare Objekte

Beispiel

Auf wieviele Arten können die (unterscheibaren) Objekte {a,b} auf drei Behälter mit Einfachbelegung verteilt werden?

† Die Formel lautet (k Kugeln und n Behälter): n!ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅHn-kL! = 3!ÅÅÅÅÅÅ1! = 6

† Die Lösung lautet: auf 6 verschiedene Arten, nämlich {a,b,-}, {a,-,b}, {b,a,-}, {-,a,b}, {b,-,a}, {-,b,a}

Der analoge Fall wäre: auf wieviele Arten können zwei Objekte aus einer Urne mit den drei Objekten {a,b,c} gezogenund angeordnet werden (ohne Zurücklegen und unter Berückischtigung der Anordnung).

† Die Formel lautet (n Kugeln und k-mal Ziehen): n!ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅHn-kL! = 3!ÅÅÅÅÅÅ1! = 6

† Die Lösung lautet: auf 6 verschiedene Arten, nämlich {a,b}, {a,c}, {b,a}, {b,c}, {c,a}, {c,b}

Urnenexperimente bei teilweise gleichen Elementen

Einleitung

Bie den bisherigen Urnenexperimenten wurde immer (mit Ausnahme des Abschnitts "Permutationen und Binomial-verteilung") vorausgesetzt, dass sich im Topf, aus dem die Elemente gezogen werden, nur unterschiedliche Elementebefinden. Wir haben die folgenden 22 Fälle unterschieden:

† Erstens kann nach dem Ziehen die Kugel zurückgelegt werden oder auch nicht (mit anderen Worten Wiederhol-

ung ist erlaubt oder auch nicht). Wenn die Kugel zurückgelegt wird, ändert sich die Wahrscheinlichkeit für das

Ziehen jeder Kugel nicht, andernfalls schon.

Skript Statistik und Stochastik 23

Page 24: Vorlesung Mathematik und Statistik WS 2006 / 2007 · 1. Einleitung Vorbemerkung Die Vorlesung "Mathematik und Statistik", die im WS 2006 / 2007 an der Hochschule Liechtenstein angeboten

† Zweitens kann es auf die Reihenfolge der gezogenen Kugeln ankommen (Variation) oder auch nicht (Kombina-

tion). Eine Variation kann durch aufeinanderfolgendes Ziehen, eine Kombination durch gleichzeitiges Ziehen

simuliert werden.

Im Folgenden wird nun eine neue experimentelle Situation untersucht, nämlich ...

† Drittens können alle Kugeln verschieden sein oder es können einzelne Kugeln gleich sein (z.B. gleiche Nummer

oder gleiche Farbe). Wenn einzelne Kugeln gleich sind, können sie in Kategorien oder Klassen zusammengefasst

werden.

... womit nun insgesamt 23 Fälle zu unterscheiden sind.

Dies ermöglicht neue Fragestellungen: z.B. auf wie viele Arten können (mit Zurücklegen) drei rote Kugeln gezogenwerden, wenn sich im Topf zwei rote und drei blaue Kugeln befinden?

Allgemeiner formuliert haben wir nun n Kugeln, die in m verschiedene Klassen zusammengefasst werden können undni die Anzahl der Kugeln in jeder Klasse angibt, wobei gilt: ⁄i=1

mni = n .

Es kann jetzt schon vorausgesagt werden, dass dann die oben hergeleiteten Formeln für die Anzahl der Auswahlennicht mehr gelten bzw. in der Bedeutung der Variablen angepasst werden müssen.

Auf diese Formeln wird im Weiteren näher angegangen.

Für die Zahl der möglichen Anordnungen von Objekten aus mehreren Klassen, die untereinander jeweils innerhalbeiner Klasse nicht unterscheidbar sind, ist es hilfreich, zunächst die mögliche Zahl der Anordnungen der Objekte zubetrachten und dann zu überlegen, wieviele dieser Anordnungen nicht unterscheidbar sind. Die Zahl der möglichenAnordnungen bei unterscheidbaren Objekten wird dann durch die Zahl der nicht unterscheidbaren Anordnungendividiert.

Ziehen mit Zurücklegen - Variationen und Kombinationen

Experiment

Aus einer Urne mit n (teilweise gleichen) Kugeln, die in m Kategorien eingeteilt werden können, werden k Kugeln ausgewählt. Nach jedem Zug wird die Kugel wieder zurückgelegt.

Anzahl Variatonen mk

Anzahl Kombinationenikjjj

m + k - 1

k

y{zzz

Beim ersten Zug haben wir m Möglichkeiten (die Wahrscheinlichkeit, dass eine Kugel einer bestimmten Klassegezogen wird, hängt natürlich von der Grösse der Klasse ab), ebenso beim zweiten, ... bis zum k-ten Zug. Dies liefertmk verschiedene Variationen.

Die Herleitung der Formel für die Anzahl Kombinationen geht analog zum Fall der unterscheidbaren Kugeln, nur mussauch hier n (die Anzahl der Kugeln) durch m (die Anzahl der Kategorien) ersetzt werden.

Beispiel

Gegeben sei die Liste folgender Elemente (keine Menge!): l = 8a, b, b, c<Es gibt die folgenden mk = 32 = 9 Möglichkeiten, aus der Menge mit m = 3 Kategorien k = 2 geordnete Elemente zuziehen:

88a, a<, 8a, b<, 8a, c<, 8b, a<, 8b, b<, 8b, c<, 8c, a<, 8c, b<, 8c, c<<

Skript Statistik und Stochastik 24

Page 25: Vorlesung Mathematik und Statistik WS 2006 / 2007 · 1. Einleitung Vorbemerkung Die Vorlesung "Mathematik und Statistik", die im WS 2006 / 2007 an der Hochschule Liechtenstein angeboten

Beispiel

Gegeben sei die Liste folgender Elemente (keine Menge!): l = 8a, b, b, c<Es gibt die folgenden

ikjjjm + k - 1

k

y{zzz =ikjjj

4

2y{zzz = 6 Möglichkeiten, aus der Menge mit m = 3 Kategorien k = 2 ungeordnete

Elemente zu ziehen:

88a, a<, 8a, b<, 8a, c<, 8b, b<, 8b, c<, 8c, c<<

Ziehen ohne Zurücklegen - Variation und Kombination

Experiment

Aus einer Urne mit n (teilweise gleichen) Kugeln, die in m Kategorien eingeteilt werden können, werden k Kugeln ausgewählt. Nach jedem Zug wird die Kugel nicht wieder zurückgelegt.

Anzahl Variatonen keine Formel verfügbar

Anzahl Kombinationen keine Formel verfügbar

Beispiel

Gegeben sei die Liste folgender Elemente (keine Menge!): l = 8a, b, b, b<Es gibt die folgenden 3 Möglichkeiten, aus der Menge mit m = 2 Kategorien k = 2 geordnete Elemente zu ziehen:

88a, b<, 8b, a<, 8b, b<<Beispiel

Gegeben sei die Liste folgender Elemente (keine Menge!): l = 8a, b, b, b<Es gibt die folgenden 2 Möglichkeiten, aus der Menge mit m = 2 Kategorien k = 2 ungeordnete Elemente zu ziehen:

88a, b<, 8b, b<<

Skript Statistik und Stochastik 25

Page 26: Vorlesung Mathematik und Statistik WS 2006 / 2007 · 1. Einleitung Vorbemerkung Die Vorlesung "Mathematik und Statistik", die im WS 2006 / 2007 an der Hochschule Liechtenstein angeboten

4. Bedingte Wahrscheinlichkeiten

EinleitungBislang haben wir uns mit Fragestellungen wie ...

† "Wie gross ist die Wahrscheinlichkeit, dass bei zweimaligem Würfeln eine Summe grösser als 9 gewürfelt wird?".

... beschäftigt.

In diesem Kapitel sollen nun Fragen der folgenden Art untersucht werden:

† "Wie gross ist die Wahrscheinlichkeit, dass bei zweimaligem Würfeln eine Summe grösser als 9 gewürfel wird,

wenn wir beim ersten Wurf keine 6 erreicht haben?".

Es wird nun also nach der Wahrscheinlichkeit eines Ereignisses gesucht, wenn Zusatzinformationen vorhanden sind,die den Ergebnisraum einschränken. Die Wahrscheinlichkeit des Ereignisses wird damit nicht mehr in Bezug zurMächtigkeit des ganzen Ergebnisraums gesetzt, sondern in Bezug zu einer Teilmenge des Ergebnisraums.

Bedingte WahrscheinlichkeitDies führt uns auf folgende Definition:

Gegeben sei ein diskreter Wahrscheinlichkeitsraum HW, �, PL und zwei beliebige Ereignisse A und B mit PHBL > 0. Dann heisst

PHA » BL = PHA › BLÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅPHBL

die bedingte Wahrscheinlichkeit von A unter der Bedingung B. (oder lies: P von A unter der Bedingung B). Die bedingte Wahrscheinlichkeit PHA » BL gibt die Wahrscheinlichkeit für das Eintreten von A an, wenn die Teilinformation "B ist eingetreten" vorliegt.Statt PHA » BL schreibt man auch PBHAL.

Beachte: Die bedingte Wahrscheinlichkeit PHA » BL wird leicht mit der Wahrscheinlichkeit des DurchschnittsPHA › BL verwechselt.

Beispiel 1: wie gross ist die Wahrscheinlichkeit, dass eine 1 gewürfelt wurde, wenn wir wissen, dass eine ungeradeZahl gewürfelt wurde? Die Antwort lautet nun P HA » BL = P HA › BL�����������������

P HBL = 1ê6�������1ê2 = 1���

3, da der Ausgang (würfle eine 1)

zu den drei möglichen Ausgängen (1, 3, 5) in Beziehung gesetzt werden muss.

Beispiel 2: wie gross ist die Wahrscheinlichkeit, dass eine 2 gewürfelt wurde, wenn wir wissen, dass eine ungeradeZahl gewürfelt wurde? Die Antwort lautet nun 0, da der Ausgang (würfle eine 2) nicht möglich ist (2 ist keineungerade Zahl, bzw. A › B = {}).

Mit obigen Definitionen lassen sich (relativ einfach) verschiedene Formeln herleiten.

Für zwei Ereignisse A und B mit PHBL > 0 gilt: PHA » BL = PHB »AL PHALÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅPHBL

Multiplikationsformel: PHA › BL = PHA » BL PHBL

Allgemeine Multiplikationsformel: PHA1 › A1 › ... › AnL = PHA1L PHA2 » A1L PHA3 » A1 › A2L ... PHAn » A1 › ... › An-1L

Skript Statistik und Stochastik 26

Page 27: Vorlesung Mathematik und Statistik WS 2006 / 2007 · 1. Einleitung Vorbemerkung Die Vorlesung "Mathematik und Statistik", die im WS 2006 / 2007 an der Hochschule Liechtenstein angeboten

Für den Fall, dass die Ereignisse A1, A2 ... An eine Partition von W ergeben (d.h. sie schliessen sich gegenseitig ausund ihre Vereinigung ergibt W), gelten weiter die beiden Formeln:

Formel von der totalen Wahrscheinlichkeit: PHBL = ⁄i=1n PHB » AiL PHAiL

Formel von Bayes: PHAk » BL = PHB »Ak L PHAk LÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ⁄i=1n PHB »AiL PHAiL

Beispiel

Zwei Laplace-Würfel, ein grüner und ein roter, werden einmal gleichzeitig geworfen.

Frage 1: Wie groß ist die Wahrscheinlichkeit, dass die Augensumme beider Spielwürfel grösser als 9 ist?

Antwort 1: Sei A das Ereignis „die Augensumme ist grösser als 9“. Dann ergibt sich wegenA = 8H4, 6L, H6, 4L, H5, 5L, H5, 6L, H6, 5L, H6, 6L<, » A » = 6 und » W » = 36 die WahrscheinlichkeitPHAL = 6 ê 36 = 1 ê 6.

Frage 2: Wie groß ist die Wahrscheinlichkeit, dass die Augensumme beider Spielwürfel grösser als 9 ist, wenn man

schon weiss, dass der grüne Würfel keine „6“ zeigt?

Antwort 2: Die Bedingung B „der grüne Würfel zeigt keine 6“ reduziert die Anzahl der möglichen Fälle von 36 auf30, da nur noch die Fälle betrachtet werden, bei denen der grüne Würfel 1, 2, 3, 4 oder 5 zeigt. Von diesen 30 Fällensind 3 Fälle günstig, nämlich HA, BL aus 8H4, 6L, H5, 5L, H5, 6L<. Also ist die gesuchte Wahrscheinlichkeit3 ê 30 = 1 ê 10.

Stochastische UnabhängigkeitDie bedingte Wahrscheinlichkeit PHA » BL gibt die Wahrscheinlichkeit für das Eintreten von A an, wenn die Teilinfor-mation "B ist eingetreten" vorliegt.

Zwei Ereignisse sind stochastisch unabhängig, wenn das Eintreten von B nichts an der Wahrscheinlichkeit für das Eintreten von A ändert, wenn also gilt: PHA » BL = PHAL

Ereignisse, die nicht stochastisch unabhängig sind, bezeichnet man als stochastisch abhängig.

Für stochastisch unabhängige Ereignisse vereinfachen sich die im vorigen Abschnitt angegebenen Multiplikations-formeln.

In einem diskreten Wahrscheinlichkeitsraum (W, �, P) heissen zwei Ereignisse A und B stochastisch unabhängig, wenn für sie die Produktformel gilt: PHA › BL = PHAL PHBL

Skript Statistik und Stochastik 27

Page 28: Vorlesung Mathematik und Statistik WS 2006 / 2007 · 1. Einleitung Vorbemerkung Die Vorlesung "Mathematik und Statistik", die im WS 2006 / 2007 an der Hochschule Liechtenstein angeboten

5. Zufallszahlengenerator

EinleitungBei der Simulation eines Zufallsexperiments muss jedes Ergebnis als zufällig betrachtet werden.

Es gibt verschiedene Geräte um Zufallszahlen zu erzeugen:

† ein Münzwurf liefert die beiden Zufallszahlen 0 und 1;

† ein Würfel liefert die sechs Zufallszahlen 1 bis 6;

† eine Urne mit n (von 1 bis n nummerierten Kugeln) liefert die n Zufallszahlen 1 bis n;

† Glücksräder mit n Einstellungen liefern Zufallszahlen 1 bis n;

Ausserdem können Computer (Quasi)-Zufallszahlen liefern. Sie sind nicht zufällig, sondern deterministisch, da sienach einem bestimmten Algorithmus berechnet werden. Sie haben auch die nützliche Eigenschaft, dass sie durch dasSetzen eines Startwerts (seed) immer wieder die gleiche Sequenz liefern.

Diese vom Zufallszahlengenerator gelieferten Zahlen können diskret oder (quasi)stetig sein. Sie können auch gleichmäs-sig verteilt sein oder eine bestimmte Verteilung aufweisen.

In Mathematica können ...

† die Funktion Random: Random[] liefert eine reelle Zufallszahl mit gleichmässiger Verteilung im Intervall [0,1].

Mit Argumenten können Werte mit diskreten oder anderen stetigen Verteilungen retourniert werden.

† die Funktion SeedRandom[...]: damit lässt sich der Zufallszahlengenerator zurücksetzen (reset);

† die Variable $RandomState: diese Variable enthält den aktuellen Zustand des Zufallszahlengenerators (d.h. eine

grosse Integer Zahl);

... verwendet werden.

Auch Excel liefert Möglichkeiten (wenn auch bei weitem nicht so komfortable wie Mathematica), Zufallszahlen zuerzeugen.

Skript Statistik und Stochastik 28

Page 29: Vorlesung Mathematik und Statistik WS 2006 / 2007 · 1. Einleitung Vorbemerkung Die Vorlesung "Mathematik und Statistik", die im WS 2006 / 2007 an der Hochschule Liechtenstein angeboten

6. Zufallsvariablen und ihre Verteilungen

EinleitungIn den bisherigen Kapiteln haben wir uns vor allem mit Urnenexperimenten und der Anzahl der verschiedenen Ergeb-nisse und Ereignisse beschäftigt. Wenn die Anzahl der Ereignisse durch die Mächtigkeit des Ergebnisraums geteiltwird, erhalten wir eine (auf @0, 1D normierte) Wahrscheinlichkeit für das Ereignis.

In diesem Kapitel werden wir uns zunächst weiterhin mit diskreten Verteilungen beschäftigen. Bei den diskretenVerteilungen gibt es für jedes Ereignis A eine bestimmte Wahrscheinlichkeit pHAL. Wir werden lernen, wie solcheVerteilungen mit wenigen Masszahlen beschrieben werden können.

Anschliessend werden wir uns mit stetigen Verteilungen beschäftigen. In dieser Situation wird der Definitionsbereichder Verteilungsfunktion als (quasi)stetig vorausgesetzt. Dies kann auf zwei verschiedene Arten geschehen.

Erstens kann dies als Grenzübergang verstanden werden, wenn für eine grosse Anzahl von Versuchen der Definitions-bereich der Verteilung immer grösser wird und die Verteilung immer mehr gegen eine Normalverteilung strebt.Beispielsweise resultiert bei der Binomialverteilung für grosse n annähernd eine (stetige) Normalverteilung wie dasfolgende Beispiel (mit n = 1000 und k = 0.5) zeigt:

450 500 550

0.005

0.01

0.015

0.02

0.025

Wir werden einige Beispiele für solche Übergänge im Abschnitt "Zentraler Grenzwertsatz" kennen lernen.

Zweitens kann (im Unterschied zu unseren Urnenexperimenten) das Ergebnis einer Messung (z.B. eine Temperaturmes-sung) kontinuierliche Werte annehmen. Z.B. zeigt das folgende Beispiel eine Normalverteilung mit dem Mittelwert60.34 und Standardabweichung 2.56:

50 60 70 80

0.025

0.05

0.075

0.1

0.125

0.15

Wir messen also stetig verteilte Werte, die wir zur optimalen Darstellung als Histogramm in Kategorien einteilenkönnen. Bei den diskreten Verteilungen ist pHxL die Wahrscheinlichkeit. Bei den stetigen Verteilungen ist pHxL dieWahrscheinlichkeitsdichte, und die Wahrscheinlichkeit für das Ereignis (dass sich der Messwert im Intervall

Skript Statistik und Stochastik 29

Page 30: Vorlesung Mathematik und Statistik WS 2006 / 2007 · 1. Einleitung Vorbemerkung Die Vorlesung "Mathematik und Statistik", die im WS 2006 / 2007 an der Hochschule Liechtenstein angeboten

@a, a + dxD befindet), ergibt sich aus der Multiplikation von pHxL mit der Breite des Intervalls dx. Die Wahrscheinlich-keit ist also durch die Fläche unter der Wahrscheinlichkeitsdichtekurve gegeben.

Die Wahrscheinlichkeit ist also im diskreten Fall durch pHxL, im stetigen Fall durch die Fläche unter der pHxL Kurve,

d.h. Ÿa

bpHxL „ x, gegeben.

Die beiden ganz zentralen (Mathematica) Funktionen im Zusammenhang mit Verteilungen sind die

† PDF (probability density function, Wahrscheinlichkeitsfunktion), d.h.die Wahrscheinlichkeit bei diskreten Vertei-

lungen bzw. die Wahrscheinlichkeitsdichte bei stetigen Verteilungen; sowie die

† CDF (cumulative probability density function, Verteilungsfunktion), d.h. die kumulierte Wahrscheinlichkeit bzw.

Wahrscheinlichkeitsdichte;

Bei diskreten Verteilungen (bei denen die Abszissenwerte der Grösse nach geordnet werden können) und bei

stetigen Verteilungen gibt die CFD(x) die Wahrscheinlichkeit an, dass der Messwert § x beträgt. Bei diskreten

Verteilungen entspricht die CDF einer Summe über die Wahrscheinlichkeiten für Messwerte b x, bei stetigen

Verteilungen einem Integral von -¶ bis x.

Wir werden im nächsten Abschnitt noch genauer auf die PDF und CDF eingehen.

Bei der Behandlung der verschiedenen Verteilungen in den nächsten Abschnitten werden wir immer wieder eine kleineTabelle mit wichtigen Eigenschaften von Verteilungen wie dem Träger (Domain), der PDF, der CDF , dem arithmetis-chen Mittelwert (Mean) sowie der Varianz (Variance) darstellen. Andere wichtige Eigenschaften und Masszahlen vonVerteilungen (und empirischen Daten) werden wir im Kapitel "Deskriptive Statistik" kennenlernen.

PDF und CDF

Werte der PDF und CDF sind in vielen Lehrbüchern tabelliert. Mit den Möglichkeiten des Computers und den in diesem Abschnitt besprochen Funktionen können wir auf solche Tabellen jedoch verzichten.

Im Folgenden werden die Ausführungen mit den Mathematica Funktionen PDF, CDF und Quantile (Quantilsfunktion)durchgeführt. Man könnte das Gleiche auch mit den entsprechenden Funktionen anderer Softwarepaketedemonstrieren.

Mit Hilfe der PDF lassen sich sehr einfach Wahrscheinlichkeiten (bei diskreten Verteilungen) bzw. Wahrscheinlich-keitsdichten (bei stetigen Verteilungen) berechnen. Wenn der PDF oder der CDF eine bestimmte Verteilung als erstesArgument übergeben wird (z.B. "PDFHNormalDistributionH5, 1L, xL" für eine Normalverteilung mit Mittelwert 5 undStandardabweichung 1) ...

pdfHx_L := PDFHNormalDistributionH5, 1L, xL;cdfHx_L := CDFHNormalDistributionH5, 1L, xL;quantileHx_L := QuantileHNormalDistributionH5, 1L, xL;

... dann geben diese Funktionen die Wahrscheinlichkeitsdichte, die Verteilung oder die Quantilsfunktion für dieseVerteilung an der Stelle x zurück.Mit diesen Funktionen lassen sich auch die Wahrscheinlichkeitsdichte (PDF) ...

Plot@pdfHxL, 8x, 0, 10<, PlotRange Ø AllD;

Skript Statistik und Stochastik 30

Page 31: Vorlesung Mathematik und Statistik WS 2006 / 2007 · 1. Einleitung Vorbemerkung Die Vorlesung "Mathematik und Statistik", die im WS 2006 / 2007 an der Hochschule Liechtenstein angeboten

2 4 6 8 10

0.1

0.2

0.3

0.4

... oder die Verteilung (CDF), die die Wahrscheinlichkeit angibt, dass der Messwert § x beträgt graphisch darstellen:

Plot@cdf@xD, 8x, 0, 10<, PlotRange Ø AllD;

2 4 6 8 10

0.2

0.4

0.6

0.8

1

An Stelle der obigen Normalverteilung hätten wir auch eine andere Verteilung nehmen können, um die wesentlichenEigenschaften zu diskutieren.

Wie schon ausgeführt gibt die pdf(x) bei stetigen Verteilungen die Wahrscheinlichkeitsdichte an. Um die Wahrscheinli-chkeit, dass der Messwert im Intervall @a, bD liegt, zu berechnen muss die Wahrscheinlichkeitsdichte von a bis bintegriert werden, dies liefert:

‡a

b

pdfHxL „ x =1ÅÅÅÅÅÅ2

ikjjjjerf

ikjjjj b - 5ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅè!!!!

2

y{zzzz - erf

ikjjjj a - 5ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅè!!!!

2

y{zzzzy{zzzz

Die Funktion erf ist dabei die bekannte Funktion: erf HzL = 2ÅÅÅÅÅÅÅÅÅÅè!!!!!p Ÿ0

ze-t2 dt

Alternativ könnte man auch die CDF verwenden, die diese Integration definitionsgemäss bereits für das IntervallD -¶, xD durchgeführt hat. Die Differenz der CDF an zwei Punkten a und b liefert:

cdfHbL - cdfHaL = 1ÅÅÅÅÅÅ2

ikjjjjerf

ikjjjj b - 5ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅè!!!!

2

y{zzzz - erf

ikjjjj a - 5ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅè!!!!

2

y{zzzzy{zzzz

Wir sehen, dass das gleiche Resultat resultiert. Wir können also entweder die PDF über das Intervall integrieren oderdie Differenz der CDF an den beiden Intervallgrenzen bilden.

Wenn wir ein ganz bestimmtes Intervall wählen (z.B. @6, 7D), dann können wir einen Zahlenwert für die Wahrscheinlich-keit erhalten und zwar:

‡6

7

pdfHxL „ x = 0.1359

Skript Statistik und Stochastik 31

Page 32: Vorlesung Mathematik und Statistik WS 2006 / 2007 · 1. Einleitung Vorbemerkung Die Vorlesung "Mathematik und Statistik", die im WS 2006 / 2007 an der Hochschule Liechtenstein angeboten

2 4 6 8 10

0.1

0.2

0.3

0.4

2 4 6 8 10

0.1

0.2

0.3

0.4

Wir schliessen aus obiger Berechnung, dass die Wahrscheinlichkeit bei einer Normalverteilung mit dem Mittelwert 5 und der Standardabweichung 1 einen Messwert zwischen 6 und 7 zu finden durch die Fläche unter der Kurve gegeben ist und 13.59% beträgt.

Wir haben auch gesehen, dass wir mit der CDF eine sehr einfache Möglichkeit haben, von Messintervallen (Abszisse:@a, bD) auf Wahrscheinlichkeiten (Ordinate: cdf @bD - cdf@aD) zu schliessen.

2 4 6 8 10

0.2

0.4

0.6

0.8

1

2 4 6 8 10

0.2

0.4

0.6

0.8

1

Wir erhalten für unser Beispiel die folgenden Zahlenwerte:

cdf@7D = 0.97725

cdf@6D = 0.841345

cdf@7D - cdf@6D = 0.135905 bzw. 13.59%

Interpretation (der Graphik und der Zahlen):

† die Wahrscheinlichkeit, einen Messwert kleiner als 7 zu finden ist 97.7%;

† die Wahrscheinlichkeit, einen Messwert kleiner als 6 zu finden ist 84.1%;

† die Wahrscheinlichkeit, einen Messwert im Intervall [6,7] zu finden ist 13.59% (wie oben bei der Integration);

† man sieht auch, dass die Wahrscheinlichkeit, einen Messwert kleiner als 2 zu finden, (praktisch) 0 ist;

† man sieht auch, dass die Wahrscheinlichkeit, einen Messwert kleiner 8 zu finden, (praktisch) 1 ist;

In der Schätztheorie werden wir auch auf die umgekehrte Aufgabe stossen, nämlich von Ordinatenwerten (Wahrschein-lichkeit oder Wahrscheinlichkeitsintervall) auf Abszissenwerte (Messwert oder Messintervall) zu schliessen.

Dazu muss die inverse Funktion zur Verteilung verwendet werden: sie wird mit Quantile (hier für unsere Normalvertei-lung mit Mittelwert 5 und Standardabweichung 1 quantile genannt) bezeichnet.

[email protected] = 7.

[email protected] = 6.

Skript Statistik und Stochastik 32

Page 33: Vorlesung Mathematik und Statistik WS 2006 / 2007 · 1. Einleitung Vorbemerkung Die Vorlesung "Mathematik und Statistik", die im WS 2006 / 2007 an der Hochschule Liechtenstein angeboten

Statt Quantile aufzurufen (d.h. [email protected]) können wir aber auch die Gleichung

cdf@xD = 0.97725

(numerisch) nach x auflösen (z.B. mit FindRoot in Mathematica).

Im Rahmen der Schätztheorie werden wir noch ausführlich von diesen Funktionen (PDF, CDF, Quantile) Gebrauchmachen.

Diskrete Verteilung

Zum Schluss wollen dir doch noch einen kleinen Blick auf diskrete Verteilungen werfen.

Wir haben in der Einleitung behauptet, dass die CDF der Summe der Wahrscheinlichkeiten entspricht. Wir vergleichendeshalb diese beiden Formeln für konkrete Werte:

n = 10; p = 0.5; x = 3;

:‚i=0

x

PDFHBinomialDistributionHn, pL, iL, CDFHBinomialDistributionHn, pL, xL>80.171875`, 0.1718750000000001 <

Die beiden Summen sind (im Rahmen der Rechengenauigkeit) identisch.

ErwartungswertWenn wir Zufallsexperimente durchführen (oder Daten analysieren), dann interessieren wir uns vielfach für quantita-tive Aussagen: z.B. wie gross ist die mittlere Augenzahl beim Würfeln oder wie gross ist die Abweichung von diesemMittelwert. Der Begriff des Erwartungswerts liefert uns solche Werte. Er ist folgendermassen definiert.

Der Erwartungswert ist die Summe der Produkte aus den Wahrscheinlichkeiten jedes möglichen Ergebnisses des Experiments und den Werten dieses Ergebnisses.

Wenn die Zufallsvariable X diskret ist und die Werte x1 x2, ... mit den Wahrscheinlichkeiten p1, p2, ... annehmen kann,dann ist der Erwartungwert von X , d.h. EHX L, folgendermassen definiert (n kann auch ¶ sein, dann existiert derErwartungswert nur, wenn die unendliche Reihe konvergiert):

EHX L = ⁄i=1n

xi pi

Wenn die Zufallsvariable X stetig ist und die Wahrscheinlichkeitsdichtefunktion pHxL hat, dann ist der Erwartungwertvon X , d.h. EHX L, folgendermassen definiert:

EHX L = Ÿ-¶¶ x pHxL „ x

Heuristisch ist der Erwartungswert einer Zufallsvariablen jener Wert, der sich bei einer oftmaligen Wiederholung des zugrunde liegenden Experiments als Mittelwert der tatsächlichen Ergebnisse ergibt. Das Gesetz der grossen Zahlen sichert uns in den meisten Fällen zu, dass dieser heuristische Wert mit der mathematischen Definition übereinstimmt.

Wenn Y = gHX L auch eine Zufallsvariable ist, kann der Erwartungswert dieser Zufallsvariablen folgendermassenberechnet werden:

EHY L = Ÿ-¶¶ gHxL pHxL „ x bzw. EHY L = ⁄i=1n

gHxiL pi

Skript Statistik und Stochastik 33

Page 34: Vorlesung Mathematik und Statistik WS 2006 / 2007 · 1. Einleitung Vorbemerkung Die Vorlesung "Mathematik und Statistik", die im WS 2006 / 2007 an der Hochschule Liechtenstein angeboten

Beispiel Würfeln

Als Beispiel für einen Erwartungswert wollen wir das Zufallsexperiment Würfeln und als (diskrete) Zufallsvariable Xdie "Augenzahl" wählen. Wir haben die möglichen Ergebnisse 81, 2, 3, 4, 5, 6< mit den (gleichen) Wahrscheinlich-keiten 1/6. Der Erwartungswert für die Augenzahl berechnet sich damit zu 3.5:

‚i=1

6iÅÅÅÅÅÅ6

=7ÅÅÅÅÅÅ2

Dieser Wert wird sich bei einer grossen Anzahl von Wiederholungen (approximativ, jedoch nicht genau) einstellen.Wenn wir z.B. 5 Versuche mit je 106 x würfeln durchführen, erreichen wir (in einem Computerexperiment) beispiels-weise die folgenden Durchschnitte:

83.4987451`, 3.5000078`, 3.5002974`, 3.500247`, 3.4999695`<Diese Durchschnitte liegen nahe beim Erwartungswert. Bei nur 10 Wiederholungen (statt 106) kann die Abweichungvon 3.5 gross sein.

83.5`, 4.1`, 4.2`, 3.6`, 3.8`<

Diskrete Verteilungen

Einleitung

Es gibt viele verschiedene Diskrete Verteilungen. Mathematica hat die folgenden acht implementiert:

BernoulliDistribution, BinomialDistribution, DiscreteUniformDistribution, GeometricDistribution, Hypergeo-metricDistribution, LogSeriesDistribution, NegativeBinomialDistribution, PoissonDistribution}.

Nicht alle sind gleich wichtig. Wir werden uns vor allem mit der Gleichverteilung, der Bernoulli Verteilung, derPoisson Verteilung und der Binomial Verteilung beschäftigen. Diese Verteilungen folgen direkt aus verschiedenenexperimentellen Situationen.

† Die Gleichverteilung resultiert beim Würfeln oder beim Ziehen einer Kugel aus einer Urne.

Die Bernoulli Verteilung, die Poisson Verteilung, die Binomial Verteilung sowie weitere Verteilungen resultieren beider Durchführung einer Bernoulli Versuchsreihe, wo bei jeder Wiederholung die gleiche Ausgangssituation vorliegt(z.B. Ziehen mit Zurücklegen).

Das Bernoulli Experiment hat die zwei möglichen Ergebnisse 81 = Erfolg, 0 = Misserfolg< und der Erfolg tritt mit derWahrscheinlichkeit p und der Misserfolg mit der Wahrscheinlichkeit 1 - p auf. Es folgt nun.

† Die Wahrscheinlichkeitsfunktion der Bernoulli Verteilung B@1, pD @kD gibt beim 1-maligen Versuch die Wahrschein-

lichkeiten für k (d.h. 0 oder 1) Erfolge an.

† Die Wahrscheinlichkeitsfunktion der Binomial Verteilung B@n, pD @kD gibt beim n-maligen Duchführen eines

Bernoulli Experiments die Wahrscheinlichkeit für k Erfolge an und hat die Formel H1 - pLn-k pk ikjjjn

k

y{zzz† Die Wahrscheinlichkeitsfunktion der Poisson Verteilung P@l = n pD @kD gibt beim n-maligen Duchführen eines

Bernoulli Experiments die Wahrscheinlichkeit für k Erfolge an und hat die Formel ‰-l lk

ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅk!

. Sie wird bei grossen n

und kleinen p angewendet und stellt eine Approximation für die Binomial Verteilung B@n, pD @kD dar.

Skript Statistik und Stochastik 34

Page 35: Vorlesung Mathematik und Statistik WS 2006 / 2007 · 1. Einleitung Vorbemerkung Die Vorlesung "Mathematik und Statistik", die im WS 2006 / 2007 an der Hochschule Liechtenstein angeboten

† Die Wahrscheinlichkeitsfunktion der NegativeBinomialDistribution gibt die Wahrscheinlichkeit für k Misserfolge

vor dem r-ten Erfolg an und hat die Formel f @p, rD @kD = ikjjjk + r - 1

r - 1y{zzz H1 - pLk pr.

† Die Wahrscheinlichkeitsfunktion der GeometricDistribution gibt die Wahrscheinlichkeit für k Misserfolge vor dem

ersten Erfolg an und hat die Formel f @pD @kD = H1 - pLk p.

Beim Experiment "Ziehen mit Zurücklegen" handelt es sich nicht um eine Bernoulli Versuchsreihe, da sich die Wahr-scheinlichkeiten für Erfolg und Misserfolg im Laufe der Versuchsreihe ändern.

So ändert sich z.B. bei einem Experiment, wo sich in einer Urne mit N Kugeln M rote und N - M weisse Kugelnbefinden, die Wahrscheinlichkeit (eine rote Kugel zu ziehen) mit jedem Zug. Eine genaue Analyse dieser Situationführt uns auf die Hypergeometrische Verteilung. Es gilt:

† Die Wahrscheinlichkeitsfunktion der Hypergeometrische Verteilung H@N , M , n, mD gibt (für obige Situation) beim

n-maligen Ziehen die Wahrscheinlichkeit für m rote Kugeln an. Diese Verteilung hat die Formel pHkL = ikjjjM

m

y{zzz ikjjjN-M

n-m

y{zzzÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅikjjjN

n

y{zzz.

Diese Verteilung konvergiert für grosse N gegegen die Binomialverteilung B@n, pD mit p = MÅÅÅÅÅÅÅN

.

Es gibt weitere Verteilungen, die anwendbar sind auf Experimente mit mehr als zwei Ergebnissen (z.B. TrinomialVerteilung und Bivariate Hypergeometrische Verteilung bei drei Ergebnissen). Wir werden diese jedoch hier nichtweiter besprechen.

In den folgenden Abschnitten werden wir einige diskrete Verteilungen etwas genauer anschauen.

Gleichverteilung (DiscreteUniformDistribution)

Einleitung

Die gleichförmige Verteilung(Gleichverteilung) basiert auf dem Gleichwahrscheinlichkeitsmodell. Die Zufallsvariable X hat n Ausprägungen, wobei alle Ausprägungen mit gleicher Wahrscheinlichkeit vorkommen. Diese Wahrscheinlichkeit muss 1 ê n betragen, da die gesamte Wahrscheinlichkeit stets 1 sein muss.

Die Wahrscheinlichkeitsfunktion der Gleichverteilung ist (für n = 5) auf dem Träger 81, 2, 3, 4, 5< ungleich 0 und hatden konstanten Wert 1ÅÅÅÅ5 .

Der Plot der Wahrscheinlichkeiten sieht damit folgendermassen aus.

2 4 6

0.05

0.1

0.15

0.2

Die CDF liefert uns die kumulierte Wahrscheinlichkeit. Sie steigt in gleichen Schritten für die Abszissenwerte 1 bis 5.

Skript Statistik und Stochastik 35

Page 36: Vorlesung Mathematik und Statistik WS 2006 / 2007 · 1. Einleitung Vorbemerkung Die Vorlesung "Mathematik und Statistik", die im WS 2006 / 2007 an der Hochschule Liechtenstein angeboten

2 4 6 8

0.2

0.4

0.6

0.8

1

Beispiele für Gleichmässige Verteilung:

† Die Zufallsvariable, die definiert ist durch die Nummer der Kugel beim einmaligen, zufälligen Ziehen aus einer

Urne mit n Kugeln; oder

† Die Zufallsvariable "Augenzahl" beim Würfeln (n=6);

Eigenschaften

Die gleichförmige Verteilung hat die folgenden wichtigen Eigenschaften.

DiscreteUniformDistribution@nDDomain: Range@nDPDF:

1����n

CDF:Floor@xD������������������������

n

Mean:1 + n������������2

Variance:1�������12

H−1 + n2LDie Funktion Floor@xD = dxt bedeutet dabei die grösste ganze Zahl, die § x ist.

Die Funktion Range@xD bedeutet dabei die Zahlenfolge 81, 2, ... x<.Beispiel

Der arithmetische Mittelwert beim Würfeln (n=6) beträgt m = 1+nÅÅÅÅÅÅÅÅÅÅ2 = 1+6ÅÅÅÅÅÅÅÅÅÅ2 = 7ÅÅÅÅ2 und hat die Varianzs = 1ÅÅÅÅÅÅÅ12 H-1 + 62L = 35ÅÅÅÅÅÅÅ12

Bernoulli Verteilung (BernoulliDistribution)

Einleitung

Beim Bernoulli Experiment hat die Zufallsvariable nur die beiden möglichen Ausprägungen 0 und 1, wobei 0 üblicherweise als Misserfolg und 1 als Erfolg bezeichnet wird. Der Erfolg (1) tritt dabei mit einer Wahrscheinlichkeit p auf. Das komplementäre Ereignis Misserfolg hat demnach die Wahrscheinlich 1 - p.

Die Wahrscheinlichkeitsfunktion der Bernoulli-Verteilung ist auf dem Träger 80, 1< ungleich 0 und hat (für p = 0.75)folgende Werte:

µ 0.25 x � 0

0.75 x � 1

Ein Plot der Wahrscheinlichkeitsverteilung zeigt dies anschaulich:

Skript Statistik und Stochastik 36

Page 37: Vorlesung Mathematik und Statistik WS 2006 / 2007 · 1. Einleitung Vorbemerkung Die Vorlesung "Mathematik und Statistik", die im WS 2006 / 2007 an der Hochschule Liechtenstein angeboten

-1 -0.5 0.5 1 1.5 2

0.2

0.4

0.6

0.8

1

Die CDF erreicht bereits bei x = 1 das Maximum von 1.

-1 -0.5 0.5 1 1.5 2

0.2

0.4

0.6

0.8

1

Man kann aus diesem Plot (z.B.) herauslesen, dass die Wahrscheinlichkeit einen Wert §1 zu finden gleich 1 ist.

Beispiel:

Bernoulli(0.5) entspricht einem Münzwurf.

Eigenschaften

Die Bernoulli Verteilung hat die folgenden wichtigen Eigenschaften.

BernoulliDistribution@pDDomain: 80, 1<PDF: µ 1 − p x � 0

p x � 1

CDF: µ 1 − p 0 ≤ x < 1

1 x ≥ 1

Mean: p

Variance: H1 − pL pBeispiel

Der arithmetische Mittelwert beim Münzen werfen (p = 0.5, Kopf = 0, Zahl = 1) beträgt 0.5 und hat die Varianz0.25.

Skript Statistik und Stochastik 37

Page 38: Vorlesung Mathematik und Statistik WS 2006 / 2007 · 1. Einleitung Vorbemerkung Die Vorlesung "Mathematik und Statistik", die im WS 2006 / 2007 an der Hochschule Liechtenstein angeboten

Binomial Verteilung (BinomialDistribution bzw. BINOMVERT)

Einleitung

Mehrere (n) Bernoulli Experimente mit derselben Erfolgswahrscheinlichkeit p werden unabhängig voneinanderdurchgeführt (z.B. n mal Münzen werfen oder n Kugeln mit Zurücklegen aus einem Topf mit Kugeln aus zwei ver-schiedenen Farben ziehen).

Die Anzahl der Erfolge wird als Zufallsvariable Sn definiert. Die Wahrscheinlichkeit, dabei genau k Erfolge zu messen, führt auf die Binomial Verteilung, die vielfach kurz als BHn, pL bezeichnet wird. Eine Verteilung mit dieser Wahrscheinlichkeitsfunktion (mit 0 § p § 1, n œ �) heisst binomialverteilt.

Die Wahrscheinlichkeitsfunktion der Binomial-Verteilung ist auf dem Träger 80, 1, ... n< ungleich 0 und hat den

folgenden Wert H1 - pLn-k pk ikjjjn

k

y{zzz.

Ein Plot der Wahrscheinlichkeitsfunktion (n = 20, p = 0.5, z.B. 20 mal Münze werfen) zeigt (gegen k aufgetragen)anschaulich die Symmetrie:

5 10 15 20

0.025

0.05

0.075

0.1

0.125

0.15

0.175

Man kann ausrechnen, dass die Wahrscheinlichkeit beim Münzenwerfen 20 mal Kopf zu werfen klein ist (9.5µ 10-7),jedoch nicht gleich 0.

Die CDF steigt kontinuierlich an bis auf den Wert 1 bei x = 20.

5 10 15 20

0.2

0.4

0.6

0.8

1

1

Bemerkungen

† Man sieht, dass die Binomialverteilung zwei Parameter Hn, pL hat. Sie bildet eine sogenannte Zwei-Parameter-Fami-

lie.

† Wenn man n = 1 setzt, erhält man die Bernoulli Verteilung.

Skript Statistik und Stochastik 38

Page 39: Vorlesung Mathematik und Statistik WS 2006 / 2007 · 1. Einleitung Vorbemerkung Die Vorlesung "Mathematik und Statistik", die im WS 2006 / 2007 an der Hochschule Liechtenstein angeboten

† Alle Binomialverteilungen mit p = 0.5 sind symmetrisch. Für p 0.5 erhält man linkssteile, sonst rechtssteile

Verteilungen.

† Die Binomialverteilung BHn, pL nähert sich für grosse n der Normalverteilung mit Mittelwert n p und Varianz

n pH1 - pL, also NHn p, n pH1 - pLL.Eigenschaften

Die Verteilung hat die folgenden wichtigen Eigenschaften.

BinomialDistribution@n, pDDomain: Range@0, nDPDF: H1 − pLn−x px Binomial@n, xDCDF: BetaRegularized@1 − p, n − Floor@xD, 1 + Floor@xDDMean: n p

Variance: n H1 − pL pDie Funktion Range@0, xD bedeutet dabei die Zahlenfolge 80, 1, 2, ... x<.Siehe die mathematische Fachliteratur für Informationen zur CDF Funktion BetaRegularized.

Die Anzahl der Erfolge beim n-maligen Münzen werfen.

Die PDF ergibt folgenden Plot (p = 0.5, n = 20).

5 10 15 20

0.025

0.05

0.075

0.1

0.125

0.15

0.175

Man kann dem Plot (z.B.) entnehmen, dass bei 20 Münzenwürfen die Wahrscheinlichkeit rund 7.5% beträgt, 13 malZahl zu werfen. Den genauen Wert liefert PDFHBinomialDistributionH20, 0.5L, 13L = 0.0739288

Beispiel 1

Bestimmen Sie die Wahrscheinlichkeiten, bei 20 Zügen k rote Kugeln zu ziehen, wenn sich in der Urne 2 rote und 8 blaue Kugeln befinden.

Die Wahrscheinlichkeit ist gegeben durch die Binomialverteilung BH20, 2ÅÅÅÅÅÅÅ10 L. Dies gibt den folgenden Plot:

Skript Statistik und Stochastik 39

Page 40: Vorlesung Mathematik und Statistik WS 2006 / 2007 · 1. Einleitung Vorbemerkung Die Vorlesung "Mathematik und Statistik", die im WS 2006 / 2007 an der Hochschule Liechtenstein angeboten

5 10 15 20

0.05

0.1

0.15

0.2

Beispielrechnung für k = 15: H1 - pLn-k pk ikjjj

n

k

y{zzz = 0.85 0.215 ikjjj

20

15y{zzz = 1.66473µ 10-7

Beispielrechnung für k = 5: H1 - pLn-k pk ikjjj

n

k

y{zzz = 0.815 0.25 ikjjj

20

5y{zzz = 0.17456

Beispiel 2

Sie würfeln 10x. Bestimmen Sie die Wahrscheinlichkeiten, k-mal mindestens eine 5 zu würfeln.

Bei jedem Wurf ist die Wahrscheinlichkeit, eine Augenzahl von mindestens 5 zu werfen 2���6

.

Bei 10 Würfen ist die Erfolgswahrscheinlichkeit, k mal (k = 0, ... 5) eine 5 zu werfen, durch die BinomialverteilungBH10, 2ÅÅÅÅ6 L gegeben. Dies gibt den folgenden Plot:

2 4 6 8 10

0.05

0.1

0.15

0.2

0.25

Beispiel 3

Sie würfeln 5x. Mit welcher Wahrscheinlichkeit resultiert zweimal eine 6?

Bei jedem Wurf ist die Wahrscheinlichkeit, eine 6 zu werfen 1���6

.

Bei 5 Würfen ist die Erfolgswahrscheinlichkeit, 2 mal eine 6 zu werfen, durch die Binomialverteilung gegeben:

H1 - pLn-k pk ikjjj

n

k

y{zzz = H1 - 1ÅÅÅÅ6 L5-2 H 1ÅÅÅÅ6 L2

ikjjj

5

2y{zzz = 0.160751

Skript Statistik und Stochastik 40

Page 41: Vorlesung Mathematik und Statistik WS 2006 / 2007 · 1. Einleitung Vorbemerkung Die Vorlesung "Mathematik und Statistik", die im WS 2006 / 2007 an der Hochschule Liechtenstein angeboten

Poisson Verteilung (PoissonDistribution bzw. POISSON)

Einleitung

Die Verteilung p heisst Poisson Verteilung mit Parameter l mit l œ (0,¶), wenn gilt:

pHl, kL �‰-l lk

ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅk!

Sie approximiert die Binomialverteilung BHn, kL und findet Anwendung für grosse Werte von n und sehr kleine Werte von p (mit l = n p ). Die Poisson Verteilung hat den Mittelwert l und die Varianz l.

Die Wahrscheinlichkeitsfunktion der Poisson Verteilung ist auf dem Träger k œ 80, 1, 2. .. ¶< ungleich 0 und hat den

folgenden Wert ‰-l lk

ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅk!

.

Sie hat beispielsweise (für l = 10) für k = 6 den folgenden Wert: 0.0630555

Ein Plot zeigt die Wahrscheinlichkeitsverteilung anschaulich (für l = 10):

5 10 15 20 25 30

0.02

0.04

0.06

0.08

0.1

0.12

Eigenschaften

Die Verteilung hat die folgenden wichtigen Eigenschaften.

PoissonDistribution@λDDomain: Range@0, ∞DPDF:

−λ λx���������������x!

CDF: GammaRegularized@1 + Floor@xD, λDMean: λ

Variance: λ

Siehe die mathematische Fachliteratur für Informationen zur CDF Funktion GammaRegularized.

Stetige Verteilungen

Einleitung

Es gibt viele Stetige Verteilungen. Mathematica hat beispielsweise die folgenden einundzwanzig implementiert:

ChiSquareDistribution, FRatioDistribution, NormalDistribution, StudentTDistribution, BetaDistribution,CauchyDistribution, ChiDistribution, ExponentialDistribution, ExtremeValueDistribution, GammaDistribution,HalfNormalDistribution, LaplaceDistribution, LogisticDistribution, LogNormalDistribution, NoncentralChi-

Skript Statistik und Stochastik 41

Page 42: Vorlesung Mathematik und Statistik WS 2006 / 2007 · 1. Einleitung Vorbemerkung Die Vorlesung "Mathematik und Statistik", die im WS 2006 / 2007 an der Hochschule Liechtenstein angeboten

SquareDistribution, NoncentralFRatioDistribution, NoncentralStudentTDistribution, ParetoDistribution,RayleighDistribution, UniformDistribution, WeibullDistribution.

Wir werden uns in dieser Vorlesung vor allem mit der NormalDistribution, der UniformDistribution, der ChiSquareDis-tribution sowie der StudentTDistribution beschäftigen.

Normalverteilung (NormalDistribution bzw. NORMVERT, STANDNORMVERT)

Einleitung

Die Normalverteilung ist die wichtigste stetige Verteilung und zwar aus folgenden Gründen:

† Gemäss zentralem Grenzwertsatz (siehe später) haben Summen von Zufallsgrössen approximativ eine Normalvertei-

lung. Dies erklärt, dass viele Phänomende der Natur, welche sich aus vielen Einzelereignissen zusammensetzen,

eine Normalverteilung haben.

† Die Normalverteilung maximiert die Entropie. Damit maximiert man die Unwissenheit. Damit drängt sich die

Normalverteilung zur Modellierung von Fehlern auf, wenn man keine weiteren Anhaltspunkte hat.

† Viele Prozesse mit exponentiellem Wachstum (Modelle von Aktienkursen oder ganzen Volkswirtschaften) sind

Lognormalverteilt (d.h. nach Logarithmierung normalverteilt).

† Die Normalverteilung hat schöne mathematische Eigenschaften. Sie ist symmetrisch und die Wahrscheinlichkeits-

dichte geht sehr schnell gegen 0.

Die Normal-Verteilung ist eine zwei Parameter Familie von Verteilungen. Der erste Parameter ist der Mittelwert derVerteilung, der zweite Parameter ist die Standardabweichung (bzw. Varianz) der Verteilung. Sie wird vielfach kurz alsNHm, s2L bezeichnet.

Die Wahrscheinlichkeitsfunktion der Normalverteilung ist auf dem Träger @-¶, ¶D ungleich 0 und hat den folgenden

Wert −H−m+xL2������������������������

2 s2�����������������è!!!!!!!!2 π s

mit Mittelwert m und Standardabweichung s.

Sie hat folgendes (symmetrisches) Aussehen (mit m = 5 und s = 1):

2 4 6 8 10

0.1

0.2

0.3

0.4

Die Wahrscheinlichkeitsdichte der Normalverteilung (PDF) sowie die im folgenden abgebildete CDF spielen einezentrale Rolle in der induktiven Statistik sowie der Schätz- und Testtheorie. Wir werden später darauf zurückkommen.

Skript Statistik und Stochastik 42

Page 43: Vorlesung Mathematik und Statistik WS 2006 / 2007 · 1. Einleitung Vorbemerkung Die Vorlesung "Mathematik und Statistik", die im WS 2006 / 2007 an der Hochschule Liechtenstein angeboten

2 4 6 8 10

0.2

0.4

0.6

0.8

1

Eigenschaften

Die Verteilung hat die folgenden wichtigen Eigenschaften.

NormalDistribution@m, sDDomain: Interval@8−∞, ∞<DPDF:

− H−m+xL2������������������

2 s2

��������������������è!!!!!!!!2 π s

CDF:1����2

ikjjj1 + ErfA −m + x

����������������è!!!!2 s

Ey{zzzMean: m

Variance: s2

Standardnormalverteilung

Eine Normalverteilung mit Mittelwert 0 und Standardabweichung 1 wird Standardnormalverteilung genannt.

Sie wird oft auch mit N@0, 1D bezeichnet.

Die PDF und CDF der Standardnormalverteilung sind tabelliert. Aus diesen Tabellen lassen sich die Wahrscheinlich-keiten für normierte Messwertintervalle herauslesen.

Wir können einfacher und schneller (statt der Tabellen) die CDF verwenden. Wichtig zu wissen ist, dass die folgendenBeziehungen gelten (mit m = Mittelwert und s = Standardabweichung):

0.5` 0.382925

1.` 0.682689

2.` 0.954500

3.` 0.997300

4.` 0.999937

38.2925 % der Beobachtungen liegen im Intervall @m - 0.5 s, m + 0.5 sD68.2689 % der Beobachtungen liegen im Intervall @m - 1 s, m + 1 sD95.4500 % der Beobachtungen liegen im Intervall @m - 2 s, m + 2 sD99.7300 % der Beobachtungen liegen im Intervall @m - 3 s, m + 3 sD99.9937 % der Beobachtungen liegen im Intervall @m - 4 s, m + 4 sD

Man sieht, dass die Wahrscheinlichkeit, einen Wert ausserhalb von @-4 s, 4 sD zu messen, weniger als 0.01 % beträgt,also äusserst unwahrscheinlich ist.

Skript Statistik und Stochastik 43

Page 44: Vorlesung Mathematik und Statistik WS 2006 / 2007 · 1. Einleitung Vorbemerkung Die Vorlesung "Mathematik und Statistik", die im WS 2006 / 2007 an der Hochschule Liechtenstein angeboten

c2 Verteilung (ChiSquareDistribution bzw. CHIVERT)

Einleitung

Diese Verteilung ist in der Statistik sehr wichtig und verdankt ihre Existenz weitgehend dem zentralen Grenzwertsatzund der Tatsache, dass man in Modellen der Datenanalyse Fehlerterme normalverteilt modelliert. Dann haben folgendeZufallsvariablen eine cn

2 Verteilung.

† ⁄i=1n Xi

2, falls die Xi (i = 1, .. n) standardnormalverteilt sind;

† ‚i=1

n HYi-YêêêL2

ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅs2 , falls die Yi (i = 1, .. n) normalverteilt sind mit Mittelwert Y

êêê= ‚

i=1

n YiÅÅÅÅÅÅn

und Varianz s2;

† Ausserdem hat S2

ÅÅÅÅÅÅÅs2 eine cn-1

2 Verteilung, wobei S2 = ‚i=1

n HYi - YêêêL2

;

Wir werden später noch genauer darauf zurückkommen.

Die Wahrscheinlichkeitsfunktion der c2 Verteilung ist auf dem Träger @0, ¶@ ungleich 0 und hat den folgenden Wert2-nê2 ‰-xê2 x

-1+ nÅÅÅÅÅÅ2

ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅGamma@ nÅÅÅÅ2 D . Sie ist also für negative x nicht definiert.

Der folgende Plot zeigt die Verteilung für verschiedene n: 81, 2, 3, 5, 10, 20< in den Farben {rot, grün, blau, rot-strichli-ert, grün-strichliert, blau-strichliert}.

Der folgende Map Befehl erzeugt eine Liste von Graphiken, die als Animation betrachtet werden können. Auf dieseArt und Weise sieht man sehr schön, wie sich die ChiSquareDistribution mit zunehmendem Parameter (AnzahlFreiheitsgrade) verändert.

5 10 15 20 25

0.05

0.1

0.15

0.2

0.25

0.3

Eigenschaften

Die Verteilung hat die folgenden wichtigen Eigenschaften.

ChiSquareDistribution@nDDomain: Interval@80, ∞<DPDF:

2−nê2 −xê2 x−1+ n����2����������������������������������������

Gamma@ n����2D

CDF: GammaRegularizedA n����2, 0,

x����2E

Mean: n

Variance: 2 n

Student t Verteilung (StudentTDistribution bzw. TVERT)

Die Wichtigkeit der StudentTDistribution leitet sich von folgender Eigenschaft ab.

Skript Statistik und Stochastik 44

Page 45: Vorlesung Mathematik und Statistik WS 2006 / 2007 · 1. Einleitung Vorbemerkung Die Vorlesung "Mathematik und Statistik", die im WS 2006 / 2007 an der Hochschule Liechtenstein angeboten

Falls Y eine standardnormalverteilte Zufallsgrösse und Z eine cn2 verteilte Zufallsgrösse ist, dann ist der Quotient Tn = YÅÅÅÅÅÅÅÅÅÅÅÅÅÅ"#######ZÅÅÅÅÅn

StudentT verteilt.

Die Wahrscheinlichkeitsfunktion der Student t Verteilung ist auf dem Träger D -¶, ¶@ ungleich 0 und hat den fol-

genden Wert I nÅÅÅÅÅÅÅÅÅÅÅÅÅ

n+x2 M 1+nÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ2

ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅè!!!!!n Beta@ nÅÅÅÅ2 , 1ÅÅÅÅ2 D .

Die folgende Graphik zeigt sehr schön, dass mit zunehmendem n (Anzahl Freiheitsgrade): {1 rot, 2 grün,3 blau,5 rotstrichliert,10 grün strichliert,100 blau strichliert}die StudentTDistribution gegen die Standardnormalverteilung konver-giert. In der Praxis ist es üblich, für einen Parameter grösser als 100 die StudentTDistribution durch die Standardnor-malverteilung zu ersetzen. Wie man sieht, ist dies gerechtfertigt.

-4 -2 2 4

0.1

0.2

0.3

0.4

Eigenschaften

Die Verteilung hat die folgenden wichtigen Eigenschaften.

StudentTDistribution@nDDomain: Interval@8−∞, ∞<DPDF:

H n���������n+x2

L 1+n��������2

�������������������������������������������è!!!!n Beta@ n����

2, 1����

2D

CDF:1����2

J1 + BetaRegularizedA n���������������n + x2

, 1,n����2,

1����2E Sign@xDN

Mean: 0

Variance:n

����������������−2 + n

Skript Statistik und Stochastik 45

Page 46: Vorlesung Mathematik und Statistik WS 2006 / 2007 · 1. Einleitung Vorbemerkung Die Vorlesung "Mathematik und Statistik", die im WS 2006 / 2007 an der Hochschule Liechtenstein angeboten

Zentraler Grenzwertsatz

Einleitung

Der Graph der Verteilungsfunktion einer Summe von n unabhängigen, identisch verteilten Zufallsvariablen mit endlicher Varianz gleicht für grosse n mehr und mehr einer Normalverteilung.

Diese bemerkenswerte Tatsache ist eines der fundamentalen Ergebnisse der Wahrscheinlichkeitstheorie und wird der"Zentrale Grenzwertsatz" genannt.

Wir werden diesen Satz nicht beweisen. Wir wollen dies jedoch mit der Bernoulli( 1���2

) Verteilung illustrieren. DieseBernoulli Verteilung hat die Werte 0 und 1 mit der Wahrscheinlichkeit von je 1���

2.

Experiment

Der zentrale Grenzwertsatz bezieht sich auf eine Summe von Zufallsvariablen, also auf die Summe der Ergebnisse vonn-mal durchgeführten Bernoulli Experimenten. Es interessiert nun nicht diese Summe, sondern die Verteilung dieserSumme (aus n Experimenten), wenn n gegen ¶ geht.

Ein Wurf ergibt die zwei möglichen Pfade bzw. Summe {0} und {1} mit je 50% Wahrscheinlichkeit:

Zwei Würfe ergeben bei 4 verschiedenen Pfaden die Summen {0}, {2} mit je 25% Wahrscheinlichkeit und {1} mit50% Wahrscheinlichkeit.

Fünf Würfe ergeben den folgenden Plot der 8Summe, Anzahl Pfade<-Paare.

5 10 15 20

2

4

6

8

10

Die Verteilung ist weit von einer Normalverteilung entfernt. Wenn wir jedoch die Anzahl Münzwürfe weiter erhöhen,wird die Verteilung immer symmetrischer und ähnlicher zu einer Normalverteilung. Bei 20 Würfen gibt es total220 = 1048576 verschiedene Pfade (Variationen). Rund 175'000 dieser Pfade ergeben dabei als Summe 10 (bzw. 10xdas Einzelergebnis {1}).

Skript Statistik und Stochastik 46

Page 47: Vorlesung Mathematik und Statistik WS 2006 / 2007 · 1. Einleitung Vorbemerkung Die Vorlesung "Mathematik und Statistik", die im WS 2006 / 2007 an der Hochschule Liechtenstein angeboten

5 10 15 20

25000

50000

75000

100000

125000

150000

175000

Die PDF selbst konvergiert jedoch nicht für grosse n gegen eine bestimmte Kurve. Der Erwartungswert sowie dieVarianz nehmen nämlich kontinuierlich zu (gegen ¶). Dies ist auch zu erwarten, da der Erwartungswert der Bernoulliv-erteilung bei n Versuchen n���

2 beträgt und die Varianz n���

4.

Man kann jedoch diese PDF so normieren, dass sie den Erwartungswert 0 und die Varianz 1 hat. Diese PDF konver-giert dann gegen die Standard Normalverteilung.

Obwohl die Ausgangswahrscheinlichkeitsfunktion mit den beiden Ergebnissen {0} und {1} weit von einer Normalverteilung entfernt ist, konvergiert die Summe für grosse n gegen die Normalverteilung.

Kugeln aus einer Urne ziehen

Hier wird nun eine weitere Illustration des zentralen Grenzwertsatzes gegeben.

Gegeben ist eine Box, in der sich Kugeln mit den Nummern 0, 2, 3, 4 und 6 befinden. Dies ist wiederum eine Ausgang-swahrscheinlichkeitsfunktion, die weit von einer Normalverteilung entfernt ist.

Es werden nun 25 Kugeln mit Zurücklegen gezogen und die Nummern addiert. Dies gibt eine Zahl im Bereich von 0 (25 mal die 0) bis 150 (25 mal die 6).

Wenn wir nun 5x je 25 Kugeln ziehen, resultieren (in einem Computerexperiment) die folgenden Summen:

8102, 84, 70, 88, 80<Dieses Experiment wird nun nicht 5 mal, sondern 100 mal ...

20 40 60 80 100120140

1

2

3

4

5

6

... bzw. 10'000 mal repetiert.

20 40 60 80 100 120 140

100

200

300

400

Skript Statistik und Stochastik 47

Page 48: Vorlesung Mathematik und Statistik WS 2006 / 2007 · 1. Einleitung Vorbemerkung Die Vorlesung "Mathematik und Statistik", die im WS 2006 / 2007 an der Hochschule Liechtenstein angeboten

Man sieht, dass mit der Anzahl der Wiederholungen die Verteilung gleichmässiger wird.

Im obigen Prozedere muss man zwischen der Anzahl Züge (25) und der Anzahl Wiederholungen (10'000) unterscheiden.

Wenn die Anzahl Züge zunimmt (z.B. 50 statt 25), wird sich das diskrete (theoretische) Wahrscheinlichkeitshisto-gramm für die Summe immer mehr der Normalverteilung annähern. Der Erwartungswert der Summe wird immergrösser werden und die (relativen) Abstände zwischen den Summen werden immer kleiner (quasistetig).

Wenn die Anzahl der Repetitionen zunimmt, wird sich das empirische Histogramm für die Summe der Züge immermehr dem theoretischen Histogramm annähern.

Was auch immer in der Box ist, mit einer genügend grossen Anzahl an Zügen wird das Wahrscheinlichkeitshistogramm (nach Normierung) immer mehr der Standardnormalverteilung folgen.

Skript Statistik und Stochastik 48

Page 49: Vorlesung Mathematik und Statistik WS 2006 / 2007 · 1. Einleitung Vorbemerkung Die Vorlesung "Mathematik und Statistik", die im WS 2006 / 2007 an der Hochschule Liechtenstein angeboten

7. Statistik und empirische Daten

EinleitungNachdem wir uns bislang vor allem mit der Wahrscheinlichkeitstheorie, mit Zufallsexperimenten und daraus folgenden(theoretischen) Verteilungen beschäftigt haben, wollen wir uns nun dem Gebiet der Statistik zuwenden, wo es darumgeht (empirische) Daten zu erheben und zu analysieren.

Stichwortartig soll im Folgenden das Gebiet der Statistik umrissen werden.

† Die Statistik ist die Wissenschaft von der Gewinnung, Aufbereitung und Auswertung von Informationen / Daten.

† Die Statistik kann eingeteilt werden in spezielle (auf ein Thema bezogen: z.B. Bevölkerungsstatistik) und allge-

meine Statistik.

† Die allgemeine Statistik kann eingeteilt werden in praktische (Erhebung der Daten) und theoretische Statistik.

† Die theoretische Statistik kann eingeteilt werden in beschreibende (deskriptive) und schliessende (induktive,

inferentielle) Statistik.

† Bei der deskriptiven Statistik geht es darum, die Daten zu beschreiben. Dies geschieht mittels Masszahlen und

Graphiken. Stichworte:

† Positionsmass bzw. Lokalisationsmass: Mean, Median, Min, Max, Quantile

† Streuungsmass bzw. Dispersionsmass: Standardabweichung, Varianz, Spanne, Skewness (Schiefe), Kurtosis

(Wölbung), KurtosisExcess (Exzess)

† Häufigkeitsauszählung, Kontingenztafel (Kreuztabelle)

† Kovarianz, Korrelation

† Graphiken: Die Darstellung kann von der Urliste, der sortierten Liste (rel. Häufigkeit, Stabdiagramm, Polygon-

zug) oder gruppierten Daten (Klassen, Balkendiagramm) ausgehen. Es können auch bearbeitete (gefilterte)

Daten dargestellt werden oder mit einem Modell verglichen werden. Weiters gibt es PieChart, BarChart und

BarChart3D (diskret) bzw. Histogram (stetig), BoxAndWhiskerPlot, ListPlot, Plot ...

† Bei der inferentiellen Statistik geht es darum, aus einer Stichprobe (repräsentative Auswahl, Messreihe,

empirische Verteilung) auf eine ganze Population (Grundgesamtheit, theoretische Verteilung) zu schliessen. Sie

kann weiter in Schätztheorie (z.B. Schätzen der theoretischen Verteilung) und Testtheorie unterteilt werden.

Stichworte dazu:

† PDF (probability density function, Wahrscheinlichkeitsdichtefunktion)

† CDF (cumulative density function, Verteilungsfunktion)

† Statistische Test dienen dem Testen von Vermutungen (sogenannten Hypothesen) über Eigenschaften der

Gesamtheit aller Daten (Grundgesamtheit oder Population), aus denen man eine Stichprobe entnommen hat.

Man unterscheidet:

† Hypothesen über die unbekannten Parameter eines bekannten Verteilungstyps. Die zugehörigen Tests

nennt man parametrische Tests.

† Hypothesen über das Symmetriezentrum der Verteilung bei unbekanntem Verteilungstyp

(nichtparametrische Tests).

† Hypothesen über die Art einer Verteilung (Anpassungstests).

† Hypothesen über die Abhängigkeit von Zufallsvariablen (Unabhängigkeitstests).

Skript Statistik und Stochastik 49

Page 50: Vorlesung Mathematik und Statistik WS 2006 / 2007 · 1. Einleitung Vorbemerkung Die Vorlesung "Mathematik und Statistik", die im WS 2006 / 2007 an der Hochschule Liechtenstein angeboten

† Die Statistik beschäftigt sich mit Daten. Die Daten können verschieden eingeteilt werden

† Einteilung gemäss: quantitativ bzw. metrisch (Real und Integer) versus qualitativ bzw. kategoriell bzw.

nichtmetrisch (diese können weiters in nominal (ohne Rangfolge: z.B. blau, grün, rot) und ordinal (mit

Rangfolge: z.B. schlecht, mittelmässig, gut) unterteilt werden).

† Einteilung gemäss: kontinuierlich bzw. stetig (Real) versus diskret (Integer, Kategorien)

† Die Daten liegen als Listen (univariate Daten) oder Tabellen mit zwei (bivariat) oder mehr (multivariate)

Spalten vor.

† In einer Reihe (Zeile) stehen die Werte (aller Variablen) für eine Messung / Beobachtung.

† In einer Kolonne (Spalte) stehen die Werte (aller Messungen) für ein bestimmtes Merkmal (Variable).

† Schritte bei der Analyse von Daten

† Deskriptive Statistik: Positionsmasse, Dispersionsmasse, ... Graphiken

† Korrelationen (bei multivariaten Daten)

† Filtern und Vorverarbeiten von Daten: ZeroMean, Standardize

† Test auf Normalverteilung (oder eine andere Verteilung)

† Schliessen von der Stichprobe auf die Population

DatentypenWir wollen hier noch etwas detaillierter (als im vorherigen Abschnitt) auf die verschiedenen Datentypen (bzw. Merk-malstypen) eingehen.

Es lassen sich drei Merkmalstypen unterscheiden

† Klassifikatorische (qualitative) Merkmale; abzählbar viele Ausprägungen; die möglichen Merkmalsausprägungen

werden auf einer Nominalskala erfasst, bei der die Skalenwerte lediglich als Kennzahlen (Namen für die Objekte)

aufgefasst werden können: Geschlecht, Haarfarbe.

† Komparative Merkmale, deren mögliche Ausprägungen intensitätsmässig abgestuft sind und die sich nach einem

Ordnungsprinzip in eine Rangfolge bringen lassen. Die Darstellung derartiger Merkmale erfolgt auf einer Ordinal-

skala, auf der monotone (oder ordnungserhaltende) Transformationen erlaubt sind: Handelsklassen, Windstärke,

Schulnote.

† Quantitative Merkmale, deren Merkmalsausprägungen digital (Zählvorgang) oder im Vergleich mit einer vorgege-

benen Masseinheit analog gemessen werden (Kardinal- oder metrische Skala): Alter, Einkommen, Umsatz.

Bei den quantitativen Merkmalen unterscheidet man drei Skalen:

† Intervallskala, bestimmt dadurch, dass Rangfolge und Abstand zwischen den Merkmalswerten definiert sind;

diese Skala ist gegenüber linearen Transformationen invariant: Temperatur in Grad Celsius.

† Verhältnisskala, bestimmt dadurch, dass Rangfolge, Abstand und Verhältniswert zweier Merkmalswerte

definiert sind; invariant gegenüber ähnlichen Transformationen (y = a x). Es existiert ein natürlicher

Nullpunkt: Körpergrösse.

† Absolute Skala, bestimmt dadurch, dass zusätzlich zu den eine Verhältnisskala definierenden Relationen eine

natürliche Einheit gegeben ist und nur identische Transformationen (y = x) erlaubt sind: Anzahl der Ein-

wohner einer Gemeinde.

Eine weitere Unterscheidung der Merkmale wird durch die jeweilige Angabe der Merkmalswerte getroffen. Diskrete

Merkmale sind Merkmale, deren Wertebereich endlich oder abzählbar unendlich viele Merkmalswerte aufweist.Kontinuierliche oder stetige Merkmale haben einen Wertebereich mit überabzählbar vielen Merkmalswerten.

Skript Statistik und Stochastik 50

Page 51: Vorlesung Mathematik und Statistik WS 2006 / 2007 · 1. Einleitung Vorbemerkung Die Vorlesung "Mathematik und Statistik", die im WS 2006 / 2007 an der Hochschule Liechtenstein angeboten

8. Beschreibende Statistik

EinleitungIn der Statistik hat man es häufig mit grossen Datenreihen zu tun. Die als deskriptive Statistik bezeichnete Zweig derStatistik liefert leistungsstarke Werkzeuge, um solche Datenreihen zu analysieren und Schlüsse daraus zu ziehen.

In diesem Kapitel untersuchen wir Methoden zur Untersuchung eines einzelnen Merkmals X in einer GrundgesamtheitG = 8e1, e2, ... en<. Die Daten sind als Datenvektor x = 8x1, x2, ... xn< in einer Urliste gegeben, wobei xi der Merk-malswert der statistischen Einheit ei darstellt. Wir haben es also mit univariaten Daten zu tun.

Zur Untersuchung dieser Daten gibt es - abhängig von der Länge n der Datenreihen und dem Typ der Daten - ganzunterschiedliche Methoden.

Die wichtigsten, in diesem Kapitel untersuchten Methoden, sind ...

† die graphischen Darstellungen;

† die tabellarischen Darstellungen; sowie

† die Berechnung von Masszahlen

... von solchen Datenreihen.

Bei Experimenten mit sehr vielen unterschiedlichen Merkmalsausprägungen kann die Zahlenfülle den Blick auf dasWesentliche verstellen.

In solchen Situationen können gut gewählte Graphiken helfen.

Wir werden im Folgenden diverse Methoden präsentieren, wie univariate möglichst anschaulich dargestellt werdenkönnen.

Wir starten mit den einfachsten Punkteplots 8i, xi<, wo der Merkmalswert in der Reihenfolge der Beobachtungen8x1, x2, ... xn< aufgetragen wird. Die Information wird auf diese Art nicht sehr anschaulich präsentiert. Als leichteAbwandlung dieser Punkteplots können auch an Stelle der Punkte (oder zusätzlich zu den Punkten) senkrechte Linien(Stabdiagramm) eingetragen werden.

Eine etwas bessere Darstellung resultiert, wenn man an Stelle der Urliste 8x1, x2, ... xn< die sortierte Urliste verwendet(was natürlich mit nominal skalierten Datenreihen nicht gemacht werden kann) und die entsprechenden Punkte8i, xsort,i< aufträgt. Sehr einfach kann man z.B. die Grösse des Medians oder eines Quantils aus der Tabelle herauslesen.Man sieht auch wie bei diskreten Daten der gleiche xsort,i Wert mehrmals auftreten, während bei stetigen Daten dies inder Regel nicht der Fall ist und die xsort,i streng monoton zunehmen.

In einem nächsten Schritt wird dann quasi die Abszisse mit der Ordinate vertauscht und wir verwenden eine Darstel-lung, in der zu jedem xsort,i die entsprechende (absolute) Häufigkeit ni (d.h. 8xsort,i, ni< )oder relative Häufigkeit hi (d.h.8xsort,i, hi<) als Punkt aufgetragen wird. Alternativ können an Stelle der Punkte auch Linien oder Rechtecke (Säulendia-

gramm) eingezeichnet werden. Wenn sich die benachbarten Säulen berühren spricht man von einer Histogramm

Darstellung. Diese Darstellungen machen nur bei diskreten Daten einen Sinn, da bei stetigen Daten für praktisch allexsort,i die Häufigkeit gleich 1 ist.

Wir müssen also (insbesondere für stetige Daten, aber auch für diskrete Daten, die sehr viele unterschiedliche x-Werteannehmen) die Daten in k Klassen (Intervalle) zusammenfassen. Wir haben weiterhin eine Häufigkeitsdarstellung mitdem Unterschied, dass der Index nun nicht mehr einen gemessenen xi Wert repräsentiert, sondern ein ganzes Intervall:d.h. 8xsort,iv, niv< oder 8xsort,iv, hiv<. Während bei den absoluten Häufigkeiten die Summe ⁄iv=1

kniv = n ergibt, liefern die

Skript Statistik und Stochastik 51

Page 52: Vorlesung Mathematik und Statistik WS 2006 / 2007 · 1. Einleitung Vorbemerkung Die Vorlesung "Mathematik und Statistik", die im WS 2006 / 2007 an der Hochschule Liechtenstein angeboten

relativen Häufigkeiten eine normierte Darstellung: d.h. ⁄iv=1k

hiv = 1 und jedes hiv die Wahrscheinlichkeit repräsentiert,einen Wert im Intervall iv zu finden.

Es gibt jedoch noch eine dritte Darstellungsmöglichkeit mit den sogenannten empirischen Dichten fiv, die insbeson-dere bei Histogrammdarstellungen, die Intervalle ungleicher Breite beinhalten, angewendet wird, bei der die relativenHäufigkeiten hiv noch durch die Breite biv jeden Intervalls geteilt werden: d.h. fiv = hivÅÅÅÅÅÅÅ

biv. In diesem Fall entspricht das

Produkt aus fiv und biv der Wahrscheinlichkeit, einen Wert im Intervall iv zu finden.

Als letzten Schritt führen wir noch eine Summation der Häufigkeiten durch, was uns auf die Darstellung der Vertei-

lung bzw. der Summenhäufigkeit führt. In diesem Fall werden die Paare 8xiv, ⁄ j=1iv

hi< als Punkte, in der Histogram-

mdarstellung oder als Polygonzug dargestellt.

Die graphischen Darstellungen vermögen anschaulich einen Eindruck über die Verteilung der Daten zu vermitteln,über ihre Symmetrie, Schiefe und Gipfligkeit.

Oft ist jedoch der Wunsch vorhanden, an Hand von wenigen Zahlen die Verteilung des Merkmals zu charakterisieren. Solche Zahlen heissen Masszahlen oder Parameter einer Verteilung. Sie beschreiben zumeist entweder die Lage (d.h. die durchschnittliche Grössenordnung der Merkmalswerte) oder die Streuung (d.h. wie nah sie beieinander liegen) und Form der Verteilung (d.h. ob sie symmetrisch oder unsymmetrisch verteilt sind).

Wie schon bei den graphischen Darstellungen gibt es auch hier für die unterschiedlichen Skalierungen der Daten(Nominalskala, Ordinalskala, Metrische Skala) unterschiedliche Methoden.

Wir werden in diesem Abschnitt verschiedene, häufig gebrauchte Masszahlen kennenlernen.

Graphische Darstellungen

Einleitung

In diesem Abschnitt untersuchen wir die verschiedenen Möglichkeiten der graphischen und tabellarischen Darstellungvon Datenreihen.

Wir behandeln in diesem Abschnitt zur Veranschaulichung kurze diskrete, lange diskrete und lange stetigeDatenreihen.

Diese Datenreihen seien folgendermassen spezifiziert.

Diskrete Datenreihe (n klein)

Bei dieser Datenreihe erzeugen wir eine Datenreihe der Länge 20, deren Werte einer Binomialverteilung mit n = 5 undp = 0.6 entnommen sind. Der Wertebereich dieser Verteilung ist das Intervall @0, nD.

1 2 3 4 5 6

2

4

6

8

Diese Datenreihe steht repräsentativ für nominal und ordinal skalierte Daten.

Skript Statistik und Stochastik 52

Page 53: Vorlesung Mathematik und Statistik WS 2006 / 2007 · 1. Einleitung Vorbemerkung Die Vorlesung "Mathematik und Statistik", die im WS 2006 / 2007 an der Hochschule Liechtenstein angeboten

Diskrete Daten (n gross: 1000)

Bei dieser Datenreihe erzeugen wir eine Datenreihe der Länge 1000, deren Werte einer Binomialverteilung mitn = 100 und p = 0.5 entnommen sind. Der Wertebereich dieser Verteilung ist das Intervall @0, nD.

30 40 50 60 70 80

20

40

60

80

Diese Datenreihe steht ebenfalls repräsentativ für nominal und ordinal skalierte Daten. Auf Grund der grossen Anzahlvon Daten sind jedoch andere Methoden anwendbar.

Stetige Daten (n gross: 1000)

Bei dieser Datenreihe erzeugen wir eine Datenreihe der Länge 1000, deren Werte einer Normalverteilung mit m = 50und s = 10 entnommen sind. Hier werden die relativen Häufigkeiten (d.h. normiert) der gerundeten (d.h. in Intervalleder Breite 1 eingeteilten) Daten dargestellt.

30 40 50 60 70 80

0.01

0.02

0.03

0.04

0.05

Die in diesem Beispiel erzeugte Datenreihe hat 18.4392 als kleinsten und 89.6249 als grössten Wert.

8i, xi<

Die einfachste Darstellung dieser Datenreihen ist sicherlich, wenn man die gemessenen Werte der Reihe nach als Punkte 8i, xi<, Stämme oder Säulen im Koordinatensystem einträgt. In der Abszisse wird der Index (der Messreihe) und in der Ordinate der (gemessene) Merkmalswert eingetragen.

Wie die untenstehenden Plots zeigen, ist es jedoch sehr schwierig einen detaillierten Eindruck über die Verteilung zubekommen.

Diskrete Daten (n klein)

In einem Stabdiagramm (hier mit Symbol) wird zusätzlich zu jedem Punkt 8i, xi< eine senkrechten Linie eingetragen.

MultipleListPlot@xBDk, SymbolShape → StemD;

Skript Statistik und Stochastik 53

Page 54: Vorlesung Mathematik und Statistik WS 2006 / 2007 · 1. Einleitung Vorbemerkung Die Vorlesung "Mathematik und Statistik", die im WS 2006 / 2007 an der Hochschule Liechtenstein angeboten

5 10 15 20

1

2

3

4

5

Diskrete Daten (n gross)

In einem Plot 8i, xi< werden alle beobachteten Messwerte xi gegen den Index i aufgetragen.

Man sieht ungefähr, wo sich die Daten häufen. Eine zuverlässig Angabe eines mittleren Wertes oder anderer Grössenist jedoch schwierig.

ListPlot@xBD, PlotRange → AllD;

200 400 600 800 1000

40

45

50

55

60

65

Es ist auch möglich, die einzelnen Punkte miteinander zu verbinden. Dadurch sieht man die Verteilung etwas besser.

ListPlot@xBD, PlotRange → All, PlotJoined → TrueD;

200 400 600 800 1000

40

45

50

55

60

65

Stetige Daten (n gross)

Bei stetigen Daten und vielen Beobachtungen unterscheidet sich ein Punkteplot nicht allzusehr von einem Punkeplotbei diskreten Daten.

ListPlot@xND, PlotRange → AllD;

Skript Statistik und Stochastik 54

Page 55: Vorlesung Mathematik und Statistik WS 2006 / 2007 · 1. Einleitung Vorbemerkung Die Vorlesung "Mathematik und Statistik", die im WS 2006 / 2007 an der Hochschule Liechtenstein angeboten

200 400 600 800 1000

30

40

50

60

70

80

90

8i, xsort,i<

Die im voranstehenden Abschnitt untersuchten xi waren nicht sortiert. Deshalb springen die xi von Beobachtung zuBeobachtung in Richtung der Ordinate auf und ab.

Wenn die Daten xi sortiert werden und dann die Punkte 8i, sortierte xi< einzeichnet, dann erhält man eine gleichmäs-sige Zunahme der xi Werte.

Diskrete Daten (n klein)

Bei wenigen Daten sieht man die einzelnen Datenpunkte sehr gut. Man sieht:

† es gibt nur diskrete Ordinatenwerte

† mehrere Beobachtungen können den gleichen Wert liefern

† es gibt keinen Datenpunkt mit dem Wert xi = 1

† es gibt 3 Datenpunkte mit dem Wert xi = 2

† es gibt 4 Datenpunkte mit dem Wert xi § 2

† etc.

5 10 15 20

1

2

3

4

5

Diskrete Daten (n gross)

Bei sehr grossen Datenreihen können die einzelnen Punkte nicht mehr aufgelöst werden, sie verschmelzen zu einerLinie.

Ansonsten ist die Interpretation gleich wie bei wenig Daten.

Mit einfachen Mitteln kann beispielsweise der (Unter)Median der Verteilung bestimmt werden: Man nimmt denmittleren Index (500) und finden das entsprechende x500.

Skript Statistik und Stochastik 55

Page 56: Vorlesung Mathematik und Statistik WS 2006 / 2007 · 1. Einleitung Vorbemerkung Die Vorlesung "Mathematik und Statistik", die im WS 2006 / 2007 an der Hochschule Liechtenstein angeboten

200 400 600 800 1000

40

45

50

55

60

65

Stetige Daten (n gross)

Bei stetigen Daten liefert in der Regel jede Beobachtung einen anderen Wert (v.a. wenn nicht allzustark gerundet wird).

Dies führt dazu, dass die Abstände zwischen den eingetragenen Ordinatenwerten (xi+1 - xi) beliebige stetige Werteannehmen können. Die eingetragenen Werte steigen deshalb (zumeist) streng monoton.

Aus einer solchen Graphik kann man auch auf relative einfache Art und Weise den Median finden.

200 400 600 800 1000

30

40

50

60

70

80

90

Häufigkeitsfunktionen: 8xsort,i, ni<, 8xi, hi<

In den 8i, xi,sortierte<- Plots kann man gut gesehen, wo sich die xi Werte häufen.

Eine noch bessere Darstellung erlaubt die Graphik, in der man in der Abszisse die xi und in der Ordinate die absoluteHäufigkeit ni dieser xi Werte aufträgt. Diese ni werden auch als absolute Häufigkeiten oder kurz als Häufigkeitbezeichnet. Es gilt: ⁄i=1

n ni = n. Diese Darstellung zeigt für diskrete Daten sehr schön, wo und wie sich die xi Werteverteilen.

Wenn diese absoluten Häufigkeiten durch n geteilt werden, dann erhält man die relativen Häufigkeiten: hi =niÅÅÅÅÅÅn

. DieSumme der hi ergibt 1: ⁄i=1

n hi = 1. Die relativen Häufigkeiten sind also normiert.

Eine Abbildung, die einem xi das hi zuordnet, wird auch Häufigkeitsfunktion H@xD (englisch Frequency Distribution) genannt. H@xD ist eine Kurve, die nicht nur zeigt, wo sich die meisten Beobachtungen befinden, sondern auch welche Form (symmetrisch, schief, gipflig) die Verteilung hat.

Im Folgenden kann in den meisten Darstellungen statt ni auch hi verwendet werden. Der Einfachheit halber wirdjeweils nur eines dargestellt.

Die 8xi, nxi< Darstellung kann auch sehr einfach aus dem 8i, xi,sortiert<- Punkteplot abgeleitet werden, indem die einzel-

nen Punkte nach links gegen die Ordinate verschoben werden und anschliessend die Abszisse und Ordinate mitein-ander vertauscht werden.

Skript Statistik und Stochastik 56

Page 57: Vorlesung Mathematik und Statistik WS 2006 / 2007 · 1. Einleitung Vorbemerkung Die Vorlesung "Mathematik und Statistik", die im WS 2006 / 2007 an der Hochschule Liechtenstein angeboten

Die 8xi, nxi< oder 8xi, hxi

< Darstellung eignet sich jedoch nicht gut bei diskreten Verteilungen mit vielen unterschiedli-chen Werten, da dann - trotz grossem n - jedes xi nur wenige Male vorkommen kann und deshalb grosse Schwankun-gen in benachbarten nxi

auftreten können.

Die 8xi, nxi< oder 8xi, hxi

< Darstellung eignet sich auch nicht bei stetigen Verteilungen, da - wie schon ausgeführt - fürdie stetigen Verteilungen die Häufigkeit für jedes xi gleich 1 wäre.

In beiden Fällen kann eine optimalere Darstellung erreicht werden, wenn mehrere xi-Werte (bei diskreten Verteilun-gen) oder x-Intervalle jeweils zu Klassen zusammengefasst werden. Dies führt uns dann auf die wichtige HistogrammDarstellung.

Eine Einteilung in Klassen kann aus einer Urliste beispielsweise mit folgenden Schritten vorgenommen werden:

† Sortiere die Urliste in aufsteigender Reihenfolge

† Bestimme die Intervalle.

Es gibt viele Möglichkeiten, die Intervalle festzulegen. Beispielsweise:

† Berechne die Spanne der Daten, d.h. Maximum - Minimum

† Bestimme die Anzahl k der Intervalle (Klassen, Bereiche, Bins).

Bei zu wenig Intervallen verliert man wichtige Information, bei zu vielen Intervallen wird zu wenig gemittelt.

Die optimal Anzahl hängt auch von der Verteilung der Daten ab.

Als Faustregel gilt k =è!!!!

n .

† Bestimme die Intervallbreite als SpanneÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅk

Man kann auch einen grösseren Bereich als die Spanne abdecken. Ausserdem ist es möglich, Intervalle

unterschiedlicher Breite zu wählen.

† Bestimme alle k + 1 Intervallgrenzen gi: z.B. gi = Minimum + Hi - 1L Maximum-MinimumÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅk

" i = 1, ... k + 1

† Zähle die Anzahl Beobachtungen hi, die in jedes Intervall @gi, gi+1@ fallen.

Achtung bei den Intervallgrenzen: jeder Wert darf nur einmal gezählt werden: die untere Intervallgrenze gi zählt

zum Intervall die obere Grenze gi+1 demnach nicht (da sie zum nächsten Intervall gehört), d.h. gi § x gi+1.

† Erstelle eine Tabelle der Punkte 8i, hi< für alle Intervalle i.

† Stelle diese Punkte graphisch in einem Histogramm dar.

Diskrete Daten (n klein)

Bei wenigen Daten muss keine Klasseneinteilung vorgenommen werden und man kann die Daten direkt als Stammdia-gramm ...

1 2 3 4 5

2

4

6

8

... , in einem Säulendiagramm (englisch Barchart) oder in einem Kreisdiagramm (Kuchendiagramm , englisch Pie-chart) darstellen.

In einem Säulendiagramm wird für jeden xi- Wert eine Säule der Höhe nxi oder hxi

eingetragen.

Skript Statistik und Stochastik 57

Page 58: Vorlesung Mathematik und Statistik WS 2006 / 2007 · 1. Einleitung Vorbemerkung Die Vorlesung "Mathematik und Statistik", die im WS 2006 / 2007 an der Hochschule Liechtenstein angeboten

0 1 2 3 4 5

2

4

6

8

In einem Kreisdiagramm entsprechen die Winkel bzw. Flächen der Kreissektoren der einzelnen xi-Werte den Häufigkeiten ni oder hi.

Diese Darstellung eignet sich jedoch nicht für sehr grosse Datenmengen, da dann die einzelnen Sektoren zu kleinwürden.

0

23

4

5

Bei kleinen Datenmengen können die 8xi, nxi< oder 8xi, hxi

< Werte auch direkt in einer Tabelle dargestellt werden.

xi 0 1 2 3 4 5

nhi 1 0 3 8 6 2

Diskrete Daten (n gross)

Diese Darstellung ist analog zur im letzten Abschnitt diskutierten Darstellung bei kleinen Datenreihen.

Für jeden xi Wert wird die Häufigkeit bestimmt. In unserem Beispiel erhalten wir die folgenden 8xi, nxi< Werte:

8834, 1<, 836, 1<, 837, 2<, 838, 6<, 839, 8<, 840, 9<, 841, 16<, 842, 25<,843, 43<, 844, 41<, 845, 35<, 846, 64<, 847, 66<, 848, 89<, 849, 64<,850, 87<, 851, 84<, 852, 66<, 853, 59<, 854, 55<, 855, 40<, 856, 44<, 857, 30<,858, 20<, 859, 15<, 860, 16<, 861, 5<, 862, 5<, 863, 1<, 864, 2<, 866, 1<<Das heisst, dass 1x der Wert xi = 34, 35x der Wert xi = 45 etc. vorkommt.

Skript Statistik und Stochastik 58

Page 59: Vorlesung Mathematik und Statistik WS 2006 / 2007 · 1. Einleitung Vorbemerkung Die Vorlesung "Mathematik und Statistik", die im WS 2006 / 2007 an der Hochschule Liechtenstein angeboten

Die graphische Darstellung führt auf:

30 40 50 60 70 80

20

40

60

80

Aus dieser Graphik kann auch einfach die Häufigkeit ni eines xi Werts herausgelesen werden. Beispielsweise beträgtfür den Wert xi = 45 die Häufigkeit ni = 35.

Im Folgenden haben wir die obigen Daten in Klassen zusammengefasst, wobei die Klassengrenzen als 834, 38, ... 66<gewählt wurden. Die Häufigkeiten wurden über der Klassenmitte eingetragen. Es muss beachtet werden, dass nIntervalle zu n + 1 Intervallgrenzen führen. Die Säulendarstellung ergibt:

32 36 40 44 48 52 56 60 64 68

50

100

150

200

250

300

Diese Verteilung könnte auch in einem Histogramm (statt einem Säulendiagramm) dargestellt werden. Dies wird imnächsten Abschnitt mit stetigen Daten durchgeführt.

Stetige Daten (n gross)

Die Daten unseres Beispiels (mit 1000 Beobachtungen) haben einen Minimalwert von rund 18.43 und einen Maximalw-ert von rund 89.62.

Wir können beispielsweise den Bereich auf das ganze Intervall [0,100] festlegen und darin 20 gleich breite Intervallewählen.

Dies führt auf die Intervallgrenzen ci von 80, 5, 10, ... 100<. Wenn wir die Werte in diesen Kategorien zählen erhaltenwir:

Skript Statistik und Stochastik 59

Page 60: Vorlesung Mathematik und Statistik WS 2006 / 2007 · 1. Einleitung Vorbemerkung Die Vorlesung "Mathematik und Statistik", die im WS 2006 / 2007 an der Hochschule Liechtenstein angeboten

Intervall Mitte relative Häufigkeit

2.5` 0.`

7.5` 0.`

12.5` 0.`

17.5` 0.001`

22.5` 0.007`

27.5` 0.016`

32.5` 0.038`

37.5` 0.086`

42.5` 0.145`

47.5` 0.194`

52.5` 0.197`

57.5` 0.144`

62.5` 0.092`

67.5` 0.054`

72.5` 0.015`

77.5` 0.008`

82.5` 0.001`

87.5` 0.002`

92.5` 0.`

97.5` 0.`

In einem Histogramm wird der Wertebereich der Daten in (nicht notwendigerweise) gleich grosse Intervalle eingeteilt und es werden jeweils die Messwerte ni, die in diese Intervalle fallen, gezählt und eventuell nach Normierung (hi =

niÅÅÅÅÅÅn

) als Ordinate

eingetragen.

Alternativ kann der Ordinatenwert auch so gewählt werden, dass die Fläche über jedem Intervall proportional zur Wahrscheinlichkeit ist, einen Messwert in diesem Intervall zu finden.

Der Vorteil einer graphischen Darstellung ist, dass man sehr schnell sieht, wo die meisten Beobachtungen liegen.

20 40 60 80 100

0.05

0.1

0.15

0.2

Wenn der ganze Bereich von 0 bis 100 in nur 5 Intervalle eingeteilt wird, resultiert folgende Tabelle

Intervall Mitte relative Häufigkeit

10.` 0.001`

30.` 0.147`

50.` 0.68`

70.` 0.169`

90.` 0.003`

Skript Statistik und Stochastik 60

Page 61: Vorlesung Mathematik und Statistik WS 2006 / 2007 · 1. Einleitung Vorbemerkung Die Vorlesung "Mathematik und Statistik", die im WS 2006 / 2007 an der Hochschule Liechtenstein angeboten

... und folgendes Histogramm:

20 40 60 80 100

0.1

0.2

0.3

0.4

0.5

0.6

Man sieht, dass die Intervallbreite viel zu klein für eine vernünftige Darstellung ist.

Eine zum Histogramm ähnliche Darstellung ist ein Häufigkeits Polygon (englisch frequency polygon).

In einem Häufigkeits Polygon werden die Punkte 8MitteIntervall i, HäufigkeitIntervall i< in einem Koordinatensystem eingezeichnet und miteinander verbunden.

Ein solcher Plot erscheint etwas kontinuierlicher als ein Histogramm mit seinen ¶ steilen Flanken.

Verteilungsfunktion: 8xi, ⁄ j=1i h j<

Als Ausgangspunkt für die Definition der Verteilungsfunktione dienen die bekannten absoluten oder relativen Häu-figkeiten. Aus diesen wird ...

† die laufende Summe der absoluten Häufigkeiten ni,cum = ⁄ j=1i n j.

† oder die laufende Summe der relativen Häufigkeiten hi,cum = ⁄ j=1i

h j.

... verwendet.

Eine Abbildung, die einem xi das ⁄ j=1i h j zuordnet, wird auch Verteilungsfunktion F@xD (empirische Verteilungsfunktion,

Summenhäufigkeitsfunktion; englisch Cumulative Frequency Distribution) genannt. F@xD ist eine Kurve, die zeigt wieviele Datenpunkte (oder wieviel % der Datenpunkte) einen Werte haben, der kleiner als ein spezifizierter Wert ist.

Bei der Verteilungsfunktion handelt es sich um eine rechtsstetige Treppenfunktion.

Bei sehr vielen Datenpunkten können (ohne grossen Fehler durch die lineare Approximation zwischen den Datenpunk-ten) zur anschaulichen Darstellung einfach die Punkte 8xsort,i, i< miteinander verbunden werden, da nach der Sortierung

Bei stetigen Funktionen können einfach die Punkte 8xsort,i,iÅÅÅÅn

< miteinander verbunden werden da gerade i (von total n)Beobachtungen kleiner oder gleich xsort,i sind.

Skript Statistik und Stochastik 61

Page 62: Vorlesung Mathematik und Statistik WS 2006 / 2007 · 1. Einleitung Vorbemerkung Die Vorlesung "Mathematik und Statistik", die im WS 2006 / 2007 an der Hochschule Liechtenstein angeboten

30 40 50 60 70 80 90

0.2

0.4

0.6

0.8

1

Es gilt:

† Die steile Flanke dieser Kurve zeigt den Wert an, den die meisten Punkte einnehmen.

† Am Rande (links und rechts) wird die Kurve flacher.

† Die Normierung führt dazu, dass die Ordinatenwerte der Kurve zwischen 0 und 1 liegen.

† Die Abszissenwerte umfassen alle gemessenen Werte xi.

Mehr Informationen zur Verteilungsfunktion kann auch in den Kapiteln über Verteilungen und Masszahlen gefundenwerden.

Weitere graphische Darstellungen

Box-And-Whisker Plot

Mit einem Box-And-Whisker Plot (Schachteldiagramm) kann sehr schnell ein Eindruck einer Datenreihe gewonnen werden. Der Plot hat die Form einer Box, die die Distanz zwischen (ülicherweise) dem 25% Quantil und dem 75% Quantil umfasst. Zusätzlich sind Querlinien beim Median und dem Minimum und Maximum (eventuell nach Ausschluss von Ausreissern) eingezeichnet.

Der folgende Plot gilt für unsere Binomialverteilung (n gross).

35

40

45

50

55

60

65

Der folgende Plot zeigt alle drei unserer Beispielverteilungen.

Skript Statistik und Stochastik 62

Page 63: Vorlesung Mathematik und Statistik WS 2006 / 2007 · 1. Einleitung Vorbemerkung Die Vorlesung "Mathematik und Statistik", die im WS 2006 / 2007 an der Hochschule Liechtenstein angeboten

1 2 30

20

40

60

80

Masszahlen - NominalskalaWir beginnen nun mit der Besprechung von Masszahlen. Wie schon bei den graphischen Darstellungen gibt es auchhier für die unterschiedlichen Skalierungen der Daten (Nominalskala, Ordinalskala, Metrische Skala) unterschiedlicheMethoden. Wir starten hier mit den Methoden, die für nominalskalierte Daten eingesetzt werden können. DieseMethoden gelten (natürlich) auch für ordinal und metrisch skalierte Daten.

Ebenso werden die im nächsten Abschnitt für ordinalskalierte Daten diskutierten Methoden auch für metrisch skalierteDaten gelten.

Bei nominalskalierten Daten besitzt das Merkmal X insgesamt J verschiedene Merkmalswerte, die mit 8x1, x2, ... xJ <bezeichnet seien. Für jeden Merkmalswert kann nun die absolute n j und relative h j Häufigkeit berechnet werden, mitder der Merkmalswert x j in den Daten vorkommt. Im Folgenden jeweils für " j œ 81, 2. .. J <.

Die absolute Häufigkeit n j ist gleich der Anzahl der Daten mit x j = x j.

Die relative Häufigkeit h j ist definiert als n jÅÅÅÅÅÅÅn

und gibt den Anteil der Daten mit dem Merkmalswert x j = x j an.

Ein Merkmalswert x j heisst Modus, wenn seine Häufigkeit mindestens so gross wie die der übrigen Merkmalswerte ist, d.h. wenn n j ¥ nk " k.Im Allgemeinen können Daten mehrere Modi aufweisen.

Es gilt:

† Eine Verteilung kann mehr als einen Modus haben.

† Eine Verteilung mit nur einem Modus heisst unimodal, mit zwei Modi heisst bimodal, dann trimodal ...

† Wenn alle Beobachtungswerte ungleich sind (z.B. bei stetigen Verteilungen), dann hat die Verteilung keinen

Modus.

† Der Modus ist das einzige Lokalisationsmass, das für nominale Daten verwendet werden kann.

Die absoluten und relativen Häufigkeiten können dazu benutzt werden, die Daten in einer Tabelle übersichtlicherdarzustellen.

Bei einer diskreten Klassierung werden die Merkmalswerte mit ihrer absoluten Häufigkeit als Folge dargestellt:8x1, n1<, 8x2, n2<, ... 8xJ , nJ <

Unter einer Häufigkeitstabelle versteht man eine Tabelle der Form:

Skript Statistik und Stochastik 63

Page 64: Vorlesung Mathematik und Statistik WS 2006 / 2007 · 1. Einleitung Vorbemerkung Die Vorlesung "Mathematik und Statistik", die im WS 2006 / 2007 an der Hochschule Liechtenstein angeboten

j ξj nj hj

1 ξ1 n1 h1

2 ξ2 n2 h2

... ... ... ...

J ξJ nJ hJ

Σ n 1

Nominalskalierte Daten können durch verschiedene graphische Darstellungen veranschaulicht werden. Wichtig sindvor allem Säulendiagrammen oder Kreisdiagramme.

Masszahlen - OrdinalskalaFür Daten, deren Merkmal X (mindestens) ordinalskaliert ist, gibt es eine natürliche Ordnung. Für eine Datenreihe8x1, ... xn< kann man eine Verteilungsfunktion F@xD definieren.

Die Funktion F@xD mit x œ � mit F@xD = HAnteil der Daten § xL = »8i»xi§x<»ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ

n= S

xr§x hr

wird empirische Verteilungsfunktion oder auch kurz Verteilungsfunktion genannt.

Bei Vorliegen einer Urliste ermittelt man F@xD durch Abzählen der Beobachtungswerte, die kleiner oder gleich x, undanschliessende Division durch n. Wenn diskret klassierte Daten gegeben sind, wird F@xD durch Addition der entsprech-enden relativen Häufigkeiten berechnet.

Die Verteilungsfunktion hat die folgenden Eigenschaften:

† Sie ist monoton wachsend.

† Sie ist eine Treppenfunktion, d.h. stückweise konstant. Die Sprünge entstehen an jenen Stellen, die als Daten in der

Urliste vorkommen, und die Sprunghöhe an einer Stelle x = x j ist gleich der relativen Häufigkeit des Wertes x j in

der Urliste.

† Sie ist rechtsstetig, d.h. der Funktionswert an einer Sprungstelle ist gleich dem Grenzwert der Funktionswerte,

wenn man das Argument x von rechts der Sprungstelle annähert.

Wenn die Verteilungsfunktion bekannt ist, lassen sich daraus die beobachteten Merkmalswerte und ihre relativenHäufigkeiten ermitteln.

Ein weiteres wichtiges Mass zur Beschreibung von Daten ist das Quantil und kann mit Hilfe der Verteilungsfunktiondefiniert werden.

Das p-Quantil xè p der Daten ist (für 0 p 1) definiert als xè p = min 8x œ � » F@xD ¥ p<

Die Funktion, die p in xè p abbildet heisst Quantilfunktion.Das p%-Quantil (oder auch p-tes Perzentil oder p-tes Fraktil) ist jene Zahl xè p %, für die die kumulierte Verteilungsfunktion den Wert von p% annimmt. Dies heisst, dass p% der Beobachtungen einen kleineren Wert haben als das p%-Quantil.

Wichtige Quantile tragen spezielle Namen. Beispielsweise

x�0.5 Median

x�0.25, x�0.50, x�0.75 Quartile

Skript Statistik und Stochastik 64

Page 65: Vorlesung Mathematik und Statistik WS 2006 / 2007 · 1. Einleitung Vorbemerkung Die Vorlesung "Mathematik und Statistik", die im WS 2006 / 2007 an der Hochschule Liechtenstein angeboten

x�0.2, x�0.4, x�0.6, x�0.8 Quintile

x�0.1, ... x�0.9 Dezile

x�0.01, ... x�0.99 Perzentile

Die Quantile sind gut zu interpretieren und nützlich, um grosse Datenmengen mit vielen verschiedenen Werten zucharakterisieren.

† Das Quantil xè0.25 bezeichnet man als unteres Quartil, das Quantil xè0.5 als mittleres Quartil oder Median, das

Quantil xè0.75 als oberes Quartil.

† Der Median ist der Wert, der die unteren 50% der Daten von den oberen 50% der Daten trennt. (Siehe später mehr)

† Die Quartile xè0.25, xè

0.5, xè

0.75 teilen die Daten in vier Blöcke, die jeweils 25% der Daten umfassen. Zwsichen dem

unteren und oberen Quartil liegen die "mittleren" 50% der Daten.

Quantile können auch berechnet werden, ohne die Verteilungsfunktion F@xD zu berechnen. In einem ersten Schrittwerden die Daten aufsteigend sortiert. Dann gilt (gemäss Mosler&Schmid):

† falls n p ganzzahlig: xè p = xn p

† andernfalls: xè p = x@n pD+1, wo @n pD den ganzzahligen Teil von n p bezeichnet.

alternativ könnte man auch eine lineare Interpolation zwischen den Daten durchführen.

Mit dieser Definition wird immer einer der xi Werte retourniert.

Beispielsweise ist bei n = 17 das 3. Quartil:

xè0.75 = x@n pD+1 = [email protected]+1 = x12+1 = x13

Diese Art der Quartilsbestimmung ist jedoch bei weitem nicht die einzige in der Statistik verwendete Implementation. Es gibt mindestens zehn weitere unterschiedliche Definitionen.

In den CFA Readings wird i, der Index von x, mittels Hn + 1L q berechnet und bei nicht ganzer Zahl zwischen denbenachbarten Werten (d.h. xi und xi+1) interpoliert. Für obiges Beispiel würde also resultieren:

xè0.75 = xHn+1L q = x13.5 = x13 + 0.5 Hx14 - x13L

Masszahlen - Metrisch skalierte DatenFür metrisch skalieren Daten können weitere Rechenoperationen ausgeführt werden.

Im Folgenden werden die wichtigsten Masszahlen, die die ganze Information einer Folge von Daten 8x1, ... xn< in eineeinzige Masszahl komprimieren, besprochen. Diese Masszahlen machen insbesondere Aussagen über die Lage, dieStreuung und die Form der Verteilung (Asymmetrie) der Daten von metrisch skalierten Daten.

Lagemasse (Lokalisationsmasse)

Das arithmetische Mittel xêê ist definiert als xêê = ⁄i=1n xiÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅn

bzw. in Worten ausgedrückt als Summe der Beobachtungen geteilt

durch die Anzahl der Beobachtungen.

Das arithmetische Mittel ist das am häufigsten verwendete Lokalisationsmass und wird oft einfach als Mittelwert,Durchschnitt oder Schwerpunkt der Daten bezeichnet.

Das arithmetische Mittel hat folgende wichtige Eigenschaften:

Skript Statistik und Stochastik 65

Page 66: Vorlesung Mathematik und Statistik WS 2006 / 2007 · 1. Einleitung Vorbemerkung Die Vorlesung "Mathematik und Statistik", die im WS 2006 / 2007 an der Hochschule Liechtenstein angeboten

† Merkmalssumme: ⁄i=1n xi = n xêê

† Das arithmetische Mittel liegt zwischen dem grössten und dem kleinsten Wert der Daten.

† Zentraleigenschaft: ⁄i=1n Hxi - xêê L = 0

Die Abweichungen der Daten vom arithmetischen Mittel heben sich gegenseitig auf.

† Verschiebung: yi = xi + a; yêê = xêê + a

† Homogenität: yi = b xi; yêê = b xêê

† affin-lineare Transformation: yi = b xi + a; yêê = b xêê + a

Das arithmetische Mittel transformiert sich wie die Einzeldaten.

† Es gilt: ⁄i=1n Hxi - xêê L2 = mincœ� ⁄i=1

n Hxi - c L2

Die Summe der quadratischen Abweichungen der Daten von einem festen Punkt c ist für das arithmetische Mittel

am kleinsten.

† Das arithmetische Mittel ist empfindlich auf Ausreisser.

Bei der Berechnung des arithmetischen Mittels werden alle Merkmalswerte mit dem gleichen Gewicht verwendet.

Wenn ein Wert aus der Urliste und dem Gewichtsvektor 8w1, ... wn<, mit wi ¥ 0 und ⁄i=1n wi = 1 gemäss der Beziehung

xêêw = ⁄i=1n wi xi

berechnet wird, resultiert das sogenannte gewichtete Mittel.

Das arithmetische Mittel kann auch als gewichtetes Mittel mit dem Gewichtsvektor 8w1, ... wn<, wo alle Gewichte dengleichen Wert 1ÅÅÅÅ

n haben, verstanden werden.

Das gewichtete Mittel spielt eine wichtige Rolle in der Portfolio Analyse zur Berechnung des Total Return, wennunterschiedliche Gelmengen in den verschiedenen Assets investiert werden.

Auch bei market-capitalization Indizes (wie z.B. S&P 500) wird der Index als mit dem Marktwert jeder Aktie gewich-tetes Mittel berechnet.

Wenn nun ein Beobachtungswert sehr weit - nach oben oder unten - von den übrigen entfernt ist, hat sein Beitrag einengrossen Einfluss auf xêê. Das arithmetische Mittel ist nicht robust gegen sogenannte Ausreisser. Einen robusterenMittelwert konstruiert man, indem man die Daten trimmt, d.h. einen Anteil extremer Werte weglässt.

Das a-getrimmte Mittel hat die Formel xêêa = 1ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ

n-2 @n aD ⁄i=1+@n aDn-@n aDxi

wobei [n a] den ganzzahligen Teil von n a bezeichnet;wobei 0 a 0.5;

Beim a-getrimmten Mittel wird der Anteil a der Daten oben und unten in der sortierten Liste weggelassen und aus denverbleibenden Daten der Mittelwert berechnet. Es ist robuster als der arithmetische Mittelwert.

Weitere Lokalisationsmasse sind der (schon für nominal skalierte Daten definierte) Modus (falls er eindeutig bestimmtist) und der (schon für ordinal skalierte definierte) Median. Sie werden der Vollständigkeit halber nochmals kurz mitihren Eigenschaften aufgeführt.

Der Median (auch Zentralwert genannt) ist so definiert, dass 50% der Daten grösser und 50% der Daten kleiner als der Median sind.

Sortiert man die Beobachtungswerte der Größe nach („geordnete Stichprobe“), so ist der Median bei einer ungeradenAnzahl von Beobachtungen der in der Mitte dieser Folge liegende Beobachtungswert.

Bei einer geraden Anzahl von Beobachtungen gibt es kein einziges mittleres Element, sondern einen ganzen Bereich.Alle denkbaren (nicht beobachteten) Werte zwischen den beiden in der Mitte liegenden Werten sind ein Median der

Skript Statistik und Stochastik 66

Page 67: Vorlesung Mathematik und Statistik WS 2006 / 2007 · 1. Einleitung Vorbemerkung Die Vorlesung "Mathematik und Statistik", die im WS 2006 / 2007 an der Hochschule Liechtenstein angeboten

Stichprobe, da für alle diese Werte obige Bedingung zutrifft. In der Statistik werden rund 10 verschiedene Defini-tionen für den Median angewandt. Die folgenden drei sind die gebräuchlichsten; man sollte sich jeweils im Klarensein, welche Definition vom benutzten Programm (Taschenrechner, Excel etc) verwendet wird:

† Untermedian: xnê2; diese Definition stimmt auch mit dem 0.5-Quantil xè0.5 überein;

† Zentraler Wert: 1ÅÅÅÅ2 Hxnê2 + xnê2+1L; CFA verwendet diese Definition.

† Obermedian: xnê2 + 1;

Während der Untermedian und der Obermedian mit einem Datenpunkt übereinstimmen, kann der Zentrale Wert einemnicht vorkommenden Wert entsprechen.

Ein Vorteil des Medians ist, dass er besonders robust gegen Ausreisser ist und auch für ordinal skalierte Daten verwen-det werden kann.

Ein Nachteil des Median kann sein, dass er nicht alle Beobachtungen verwendet und die Berechnung mathematischaufwendiger als die Berechnung des Mittelwerts ist.

Bei verhältnisskalierten Merkmalen lassen sich zwei weitere Lokalisationsmasse bilden: das harmonische und dasgeometrische Mittel.

Das harmonische Mittel xêêH ist folgendermassen definiert: xêêH = 1ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ1ÅÅÅÅÅn ‚

i=1

n 1ÅÅÅÅÅÅÅxi

= I 1ÅÅÅÅn ‚

i=1

n xi

-1 M-1

Das harmonische Mittel ist der Kehrwert des arithmetischen Mittels der Kehrwerte der Daten xi.

Das harmonische Mittel kann sinnvollerweise angewandt werden, wenn Verhältnisse gemittelt werden. Eine Anwend-ung ist z.B. die als cost-averaging bekannte Investment Strategie, in welcher eine fixe Geldsumme investiert wird. Indiesem Beispiel wird das Verhältnis PreisÅÅÅÅÅÅÅÅÅÅÅÅÅAktie gemittelt.

Beispielsweise werde CHF 1000 in zwei aufeinanderfolgenden Perioden investiert. In der ersten Periode koste dieAktie CHF 10.00 und es können 100 Aktien gekauft werden. In der zweiten Periode koste die Aktie CHF 12.50 und eskönnen 80 Aktien gekauft werden. Was ist der durchschnittliche Preis der Aktie?

Der Quotient aus dem investierten Geld und der Anzahl Aktien ergibt inv.GeldÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ# Aktien = 2000ÅÅÅÅÅÅÅÅÅÅÅÅ180 = 11.11 Franken pro Aktie. Derdurchschnittlich bezahlte Preis ist in der Tat das harmonische Mittel der jeweiligen Preise: xêêH = 1ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ1ÅÅÅÅ2 H 1ÅÅÅÅÅÅÅ10 + 1ÅÅÅÅÅÅÅÅÅÅÅ12.5 L =11.11

Das geometrische Mittel xêêG ist folgendermassen definiert: xêêG =è!!!!!!!!!!!!!!!!!

x1 ... xnn

= H¤i=1n xiL 1ÅÅÅÅÅ

n = e1ÅÅÅÅÅn ‚

i=1

n lnHxiL

Damit gilt auch: lnHxêêGL = 1ÅÅÅÅn ⁄i=1

n lnHxiL = lnHxiLêêêêêêêê

Der (natürliche) Logarithmus des geometrischen Mittels ist das arithmetische Mittel der logarithmierten Daten.

Das geometrische Mittel wird vor allem bei der Berechnung von durchschnittlichen Wachstumsfaktoren und Wachstum-sraten angewandt. Wenn sich z.B. das investierte Kapital pro Jahr um den Faktor 1 + Ri erhöht, dann gilt nach nJahren:

H1 + RgLn = H1 + R1L H1 + R2L ... H1 + RnLwo 1 + Rg den durchschnittlichen jährlichen Faktor darstellt und sich nach der Formel für das geometrische Mittelberechnen lässt:

1 + Rg =è!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!H1 + R1L H1 + R2L ... H1 + RnLn

Wie man sieht vermittelt das geometrische Mittel einen Wert für den über mehrere Jahre erzielten durchschnittlichenProfit. Das arithmetische Mittel hingegen konzentriert sich auf einen pro Jahr erzielten durchschnittlichen Profit. BeideMasse können einem Investor wichtige Informationen liefern.

Skript Statistik und Stochastik 67

Page 68: Vorlesung Mathematik und Statistik WS 2006 / 2007 · 1. Einleitung Vorbemerkung Die Vorlesung "Mathematik und Statistik", die im WS 2006 / 2007 an der Hochschule Liechtenstein angeboten

Im allgemeinen gilt, dass die Differenz zwischen dem arithmetischen und geometrischen Mittel zunimmt, wenn dieVariabilität der Daten zunimmt.

Das arithmetische, harmonische und geometrische Mittel gehören zur Familie der Potenzmittel, die folgendermassen definiert

sind: xêêp = I 1ÅÅÅÅn ‚

i=1

n xi

p M 1ÅÅÅÅÅp

.

Es gilt:

limespØ-¶

xêêp = min 8x1, ... xn<xêê-1 = harmonisches Mittel

limespØ0

xêêp = geometrisches Mittel

xêê1 = arithmetisches Mittel

limespØ+¶

xêêp = max 8x1, ... xn<

Man kann zeigen, dass immer gilt: xêêH § xêêêG § xêê

Das Gleichheitszeichen gilt, wenn alle xi gleich sind.

Streuungsmasse

Eine weitere Aufgabe der beschreibenden Statistik ist, Aussagen über die Streuung (englisch Dispersion) der Daten zumachen. Es soll beschrieben werden, wie weit die Daten auf der Merkmalsachse x voneinander entfernt liegen oder umein geeignet definiertes Zentrum streuen.

Die wichtigsten Streuungsmasse sind die Standardabweichung und die Varianz.

Die Varianz s2 ist definiert als: s2 = 1ÅÅÅÅn ⁄i=1

n Hxi - xêêL2 = 1ÅÅÅÅn ⁄i=1

n xi2 - xêê2

Es gilt für die Varianz:

† Die Varianz und die Standardabweichung sind genau dann gleich 0, wenn alle Merkmalswerte xi den gleichen

Wert haben.

† Die Gültigkeit des Ausdrucks ganz rechts lässt sich folgendermassen zeigen:

s2 = 1ÅÅÅÅn ⁄i=1

n Hxi - xêêL2 = 1ÅÅÅÅn ⁄i=1

n Hxi2 - 2 xi x

êê + xêê2L= 1ÅÅÅÅ

n H⁄i=1

n xi2 - 2 xêê ⁄i=1

n xi + ⁄i=1n xêê2L = 1ÅÅÅÅ

n H⁄i=1

n xi2 - 2 xêê n xêê + n xêê2L

= 1ÅÅÅÅn ⁄i=1

n xi2 - xêê2

Diese Formel verwendet nichtzentrierte Summanden und kann bei grossen Werten zu Rundungsfehlern führen.

† Man kann die Varianz auch ohne Verwendung des Mittelwerts berechnen (ohne Beweis):

s2 = 1ÅÅÅÅÅÅÅÅÅÅ2 n2 ⁄i=1n ⁄ j=1

n Hxi - x jL2

† Vielfach wird für die Varianz auch die Formel 1ÅÅÅÅÅÅÅÅÅÅn-1 ⁄i=1

n Hxi - xêêL2 verwendet: d.h. n - 1 statt n. Diese Formel ist

dann anzuwenden, wenn der Mittelwert der Daten xêê nicht gegeben, sondern vorgängig auch aus der Stichprobe

(den Daten xi) berechnet werden muss. Dazu mehr im Kapitel über induktive Statistik.

† Bei einer affin-linearen Transformation (d.h. yi = a + b xi) mit reellen a und b gilt: sY2 = b2 sX

2 und sY = †b§ sX

Die Varianz und die Standardabweichung werden demnach von einer Verschiebung um a nicht beeinflusst. Der

Skript Statistik und Stochastik 68

Page 69: Vorlesung Mathematik und Statistik WS 2006 / 2007 · 1. Einleitung Vorbemerkung Die Vorlesung "Mathematik und Statistik", die im WS 2006 / 2007 an der Hochschule Liechtenstein angeboten

Faktor b jedoch geht als Faktor mit seinem Quadrat in die Varianz und mit seinem Absolutbetrag in die Standardab-

weichung ein.

† Für die Varianz gilt der folgende Verschiebungssatz: 1ÅÅÅÅn ⁄i=1

n Hxi - cL2 = s2 + Hxêê - cL2.

Man erkennt (wiederum), dass das arithmetische Mittel die Summe der quadrierten Abweichungen minimiert.

† Die Varianz hat die gleiche Einheit wie x2.

Die Standardabweichung s ist definiert als die Wurzel aus der Varianz: s =è!!!!!!

s2

Es gilt für die Standardabweichung:

† Im Gegensatz zur Varianz hat die Standardabweichung die gleiche Einheit wie x und ist deshalb etwas einfacher zu

interpretieren.

† Mit Hilfe der Tschebyscheff-Ungleichung der Wahrscheinlichkeitsrechnung kann man zeigen, dass (bei jeder

Verteilung)

- mindestens 75% der Daten im Intervall D xêê - 2 s, xêê + 2 s@- mindestens 88.88% der Daten im Intervall D xêê - 2 s, xêê + 2 s@

liegen

Vielfach wird für die Varianz und die Standardabweichung auch sX2 und sX geschrieben, um herauszustreichen, dass

sich das Streumass auf das Merkmal X bezieht.

Dadurch dass in die Berechnung der Varianz und der Standardabweichung quadrierte Abstände eingehen, habenAusreisser einen grossen Einfluss auf deren Wert. Um den Einfluss der Ausreisser zu minimieren kann - ähnlich wiebei den Lokalisationsmassen - eine a-getrimmte Varianz oder Standardabweichung definiert werden. Bei diesenwerden der obere und untere a Anteil der Daten in der Berechnung nicht berücksichtigt. Bei der folgenden Definitionwird wiederum vorausgesetzt, dass die Daten aufsteigend sortiert sind.

Die a-getrimmte Varianz ist definiert als: sa2 = 1ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ

n-2@n a D ⁄i=1+@n aDn-@n aD Hxi - xêêaL2 . Analog ist die a-getrimmte

Standardabweichung sa = è!!!!!!sa

2 definiert.

Analog wie bei den Lokalisationsmassen gibt es eine ganze Reihe von weiteren Massen für die Streuung.

Die mittlere absolute Abweichung d vom Mittelwert ist definiert als d = 1ÅÅÅÅn ⁄i=1

n †xi - xêê§.Die mittlere absolute Abweichung vom Mittelwert (englisch: mean absolute deviation) verwendet alle Beobachtungenund ist relativ einfach zu berechnen. Sie ist jedoch (wegen des Knicks der Funktion † ...§) mathematisch schwierig zubehandeln.

Die mittlere absolute Abweichung d vom Median ist definiert als d = 1ÅÅÅÅn ⁄i=1

n †xi - xè

0.5§.Sie hat die hat die Minimumeigenschaft d = Min

a œ �

1ÅÅÅÅn †xi - x j§.

Ginis mittlere Differenz ist definiert als D = 1ÅÅÅÅÅÅÅn2 ⁄i=1

n ⁄ j=1n †xi - x j§

Wie bei der Varianz werden hier die Abstände zwischen je zwei Beobachtungen gemittelt. Allerdings werden statt derquadrierten die absoluten Abstände genommen. D wird auch verwendet bei der Berechnung des Gini Koeffizienten,des am meisten gebräuchlichen Disparitätsindex (siehe später).

Weiters gibt es einige Streumasse, die mit Quantilen in Zusammenhang stehen.

Skript Statistik und Stochastik 69

Page 70: Vorlesung Mathematik und Statistik WS 2006 / 2007 · 1. Einleitung Vorbemerkung Die Vorlesung "Mathematik und Statistik", die im WS 2006 / 2007 an der Hochschule Liechtenstein angeboten

Der Quartilsabstand (oder Interquartilsabstand) Q ist die Differenz zwischen dem oberen und unteren Quartil: Q = xè0.75 - xè0.25.

Q ist die Spanne, die die mittleren 50% der Daten umfasst. Er ist besonders robust gegen Ausreisser, da die Werte imoberen und unteren Viertel keine Rolle spielen.

Die Spannweite R ist die Differenz zwischen dem grössten und kleinsten Wert: R = Max@xiD - [email protected] Spannweite (englisch Range) wird besonders stark von Ausreissern beeinflusst. Sie ist jedoch sehr einfach zuberechnen, indem sie nur zwei Informationen nutzt.

Die Semivariance SV ist definiert als SV =S

"XiXêêê

HXi-XêêêL2

ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅn*-1

, wobei n* der Anzahl Messungen entspricht, die kleiner als der

Mittelwert sind. Semideviation (oder Semistandard Deviation) entsprechen der Wurzel aus der Semivariance.

Vielfach wird die Varianz oder Standardabweichung der Returns eines Assets als Mass für das Risiko interpretiert. DieVarianz und die Standardabweichung berücksichtigen jedoch die Abweichungen über und unter dem Mittelwert. Ausdiesem Grund haben Analysten die Semivarianz, Semideviation und verwandte Streumasse entwickelt, die nur auf diedownside risk fokussiert sind.

In der Praxis kann es auch vorkommen, dass man vor allem an den Abweichungen nach unten von einem anderen Wertals dem Mittelwert interessiert ist. Dies führt auf die Definition ...

Die Target Semivariance ist definiert als S

"XiBHXi-BL2

ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅn*-1

... wo nur Werte Xi B berücksichtigt werden.

Bei symmetrischen Verteilungen führen die Verwendung von Varianz und Semivarianz praktisch zum gleichenErgebnis. Bei unsymmetrischen Verteilungen resultieren jedoch unterschiedliche Bewertungen für das Risiko.

Wir haben festgestellt, dass die Standardabweichung einfacher zu interpretieren ist als die Varianz, da sie die gleicheEinheit wie die Beobachtung hat. Trotzdem gibt es Situationen, in denen es schwierig ist zu interpretieren, was der(absolute) Wert der Standardabweichung auch wirklich bedeutet: insbesondere wenn verschiedene Datensätze mitein-ander verglichen werden sollen, die stark unterschiedliche Mittelwerte haben oder die gar unterschiedliche Einheitentragen. In solchen Situationen kann ein relatives (einheitenloses) Streuungsmass, der Variationskoeffizient (englisch:coefficient of variation), nützlich sein.

Der Variationskoeffizient CV ist definiert als der Quotient aus der Standardabweichung und dem arithmetischen Mittelwert: d.h. CV = sÅÅÅÅÅ

xêê.

Wenn die Beobachtungen z.B. Returns sind, dann misst der Variationskoeffizient die Höhe des Risikos (Standardabwei-chung) pro ReturnEinheit. Umgekehrt misst 1ÅÅÅÅÅÅÅÅÅCV = xêêÅÅÅÅ

s den Return pro RisikoEinheit. Beispielsweise hat ein Portfolio

mit einem monatlichen Return von 1.19% und einer Standardabweichung von 4.42% ein CV-1 von 1.19ÅÅÅÅÅÅÅÅÅÅÅ4.42 = 0.27. Dasbedeutet, dass jedes % Standardabweichung einen Return von 0.27% repräsentiert.

Ein genaueres Mass für die Return-Risiko Beziehung berücksichtigt, dass es einen risikofreien (d.h. Standardabwei-chung = 0) Return gibt. Dies führt auf das wichtige Sharpe Ratio = Return-riskfree ReturnÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ

s.

Zum Abschluss wollen wir noch die Chebyshev Ungleichung erwähnen. In ihr wird die Standardabweichung als Massfür die Streuung verwendet.

Skript Statistik und Stochastik 70

Page 71: Vorlesung Mathematik und Statistik WS 2006 / 2007 · 1. Einleitung Vorbemerkung Die Vorlesung "Mathematik und Statistik", die im WS 2006 / 2007 an der Hochschule Liechtenstein angeboten

Die Chebyshev Ungleichung besagt, dass der Anteil der Beobachtungen, die innerhalb von k Standardabweichungen vom arithmetischen Mittel liegen, mindestens 1 - 1ÅÅÅÅÅÅÅ

k2 (" k>1) beträgt.

Wenn wir Informationen über die Verteilung haben, können wir in der Regel viel engere Intervalle (als das durch dieChebyshev Ungleichung angegebene) angeben. Die Wichtigkeit dieser Ungleichung rührt jedoch daher, dass sie fürjede Verteilung - unabhängig davon wie die Daten verteilt sind - gilt.

Formmasse

Der arithmetische Mittelwert und die Varianz beschreiben nicht immer genügend genau die Verteilung der Beobachtun-gen. Beispielsweise werden bei der Berechnung der Varianz die Abweichungen vom Mittelwert quadriert, weshalb wirnicht wissen, ob die grossen Abweichungen ein positives oder negatives Vorzeichen haben.

Wir müssen deshalb neben den Lokalisations- und Streuungsmassen weitere Masse einführen, um weitere Eigen-schaften einer Verteilung (mit einer Zahl) zu beschreiben. Ein wichtiger Punkt ist die Symmetrie von Verteilungen. Beieiner symmetrischen Verteilung ist jede Seite der Verteilung (um den Mittelwert) ein Spiegelbild der anderen Seite.

Eine nichtsymmetrische Verteilung kann mit Hilfe der sogenannten zentralen Momente definiert weden.

Das r-te zentrale Moment ist definiert als mr =1ÅÅÅÅn ⁄i Hxi - xêêLr

Wichtig sind vor allem das 2. (Varianz), das 3. (Schiefe) und das 4. (Wölbung) zentrale Moment.

Die Schiefe S (englisch Skewness, Skew) ist definiert als S = m3ÅÅÅÅÅÅÅÅs3 = 1ÅÅÅÅ

n ‚

iI xi-xêêÅÅÅÅÅÅÅÅÅÅÅÅ

sM3

, wobei m3 das dritte zentrale Moment ist.

Für eine Stichprobe verwendet man S = nÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅHn-1L Hn-2L ‚iI xi-xêêÅÅÅÅÅÅÅÅÅÅÅÅ

sM3

.

Es gilt:

† Die Schiefe ist ein (einheitenloses) Mass für die Symmetrie der Wahrscheinlichkeitsverteilung zum Mittelwert.

† Eine symmetrische Verteilung hat die Schiefe 0. Eine Schiefe von 0.5 wird (bei mehr als 100 Datenpunkten) als

gross betrachtet.

† Ist die Schiefe > 0, so überwiegen die Summanden mit Hxi - xêêL3 > 0, andernfalls umgekehrt.

† Ist die Schiefe > 0, wird die Verteilung als rechtsschief (linkssteil), andernfalls als linksschief (rechtssteil)

bezeichnet.

† Eine rechtsschiefe Verteilung hat viele kleine Abweichungen nach unten und wenige grosse Abweichungen nach

oben (und damit einen langen Schwanz auf der rechten Seite).

† Es gilt für eine rechtsschiefe unimodale Verteilung: Modus Median Mittelwert

Es gilt für eine linksschiefe unimodale Verteilung: Mittelwert Median Modus

Für Investoren ist eine rechtsschiefe unimodale Verteilung interessant, da der Mittelwert (der Returns) über dem

Median liegt. Wenige grosse Gewinne überwiegen im Vergleich mit den vielen kleinen Verlusten.

† Da die Normalverteilung die Schiefe Null hat (sie ist immer symmetrisch zum Mittelwert), ist die Schiefe auch ein

geeignetes Werkzeug, um eine beliebige Verteilung mit der Normalverteilung zu vergleichen.

† Da die Schiefe mit den standardisierten Daten definiert wird, ist sie invariant gegenüber Transformationen des

Nullpunkts und der Masseinheit (d.h. xi Ø a + b xi).

† Die Schiefe hat den Nachteil, dass sie nicht normiert ist, und beliebig grosse positive und negative Werte anneh-

men kann.

† Die Schiefe hat den Nachteil, dass sie empfindlich auf Ausreisser reagiert.

Skript Statistik und Stochastik 71

Page 72: Vorlesung Mathematik und Statistik WS 2006 / 2007 · 1. Einleitung Vorbemerkung Die Vorlesung "Mathematik und Statistik", die im WS 2006 / 2007 an der Hochschule Liechtenstein angeboten

† Für eine Stichprobe ist die Stichprobenstandardabweichung s und der Faktor nÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅHn-1L Hn-2L (statt 1ÅÅÅÅn

) zu verwenden:

Schiefe = nÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅHn-1L Hn-2L ‚iH xi-xêêÅÅÅÅÅÅÅÅÅÅÅÅ

sL3

. Für grosse n führt dies auf den gleichen Wert.

Die Quartilsschiefe wird definiert als Hxè0.75-xè

0.5L-Hxè0.5-xè

0.25LÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅxè

0.75-xè

0.25

Für die Quartilsschiefe gilt:

† Sie ist weniger empfindlich auf Ausreisser als die Schiefe.

† Sie ist ausserdem normiert und auf das Intervall @-1, 1D beschränkt.

† Sie ist invariant gegenüber Transformationen des Nullpunkts und der Masseinheit (d.h. xi Ø a + b xi).

† Die Berechnung der Quartilsschiefe ist einfach und benötigt nur drei Quartile.

† Sie beträgt bei einer symmetrischen Verteilung gleich 0.

Die Schiefe ist ein Mass für die Abweichung einer Verteilung von der Symmetrie, wie sie beispielsweise für dieNormalverteilung gilt. Eine Verteilung kann jedoch noch in einer anderen Weise von einer Normalverteilung abwe-ichen. Es können z.B. mehr Beobachtungen (als in der Normalverteilung) in der Nähe des Mittelwerts (d.h. hoherPeak) und gleichzeitig mehr Beobachtungen weit entfernt vom Mittelwert (d.h. fetter Schwanz) haben. Um dieseCharakteristik zu beschreiben wird die Wölbung verwendet.

Die Kurtosis oder Wölbung ist definiert als: m4ÅÅÅÅÅÅÅÅs4 = 1ÅÅÅÅ

n ‚

iI xi-xêêÅÅÅÅÅÅÅÅÅÅÅÅ

sM4

, wobei m4 das vierte zentrale Moment ist.

Die Excess Kurtosis oder Excess m4ÅÅÅÅÅÅÅÅs4 - 3 = 1ÅÅÅÅ

n ‚

iI xi-xêêÅÅÅÅÅÅÅÅÅÅÅÅ

sM4

- 3 ist die Kurtosis relativ zur Normalverteilung.

Für eine Stichprobe verwendet man für die Excess Kurtosis nHn+1LÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅHn-1L Hn-2L Hn-3L ‚iI xi-xêêÅÅÅÅÅÅÅÅÅÅÅÅ

sM4

- 3 Hn-1L2ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅHn-2L Hn-3L .

Es gilt:

† Die Standard Normalverteilung hat die Wölbung 3. Die Excess Kurtosis beschreibt die Abweichung des Verlaufs

der gegebenen Wahrscheinlichkeitsverteilung zum Verlauf einer Normalverteilung.

† Ist die Excess Kurtosis einer Verteilung gross, so kommt ein höherer Anteil der Varianz von Ausreissern als bei

einer Verteilung mit geringer Excess Kurtosis.

† Eine Verteilung mit Excess Kurtosis < 0 heisst flachgipflig (platycurtic).

Eine Verteilung mit Excess Kurtosis = 0 heisst normalgipflig (mesocurtic).

Eine Verteilung mit Excess Kurtosis > 0 heisst steilgipflig (leptocurtic).

† Eine Excess Kurtosis von 1.0 wird (bei mehr als 100 Datenpunkten) als gross betrachtet.

† Da die Wölbung mit den standardisierten Daten definiert wird, ist sie invariant gegenüber Transformationen des

Nullpunkts und der Masseinheit (d.h. xi Ø a + b xi).

† Die meisten Return Verteilungen sind leptocurtic. Wenn diese fetten Schwänze bei der statistischen Analyse nicht

berücksichtigt werden, wird die Wahrscheinlichkeit eines sehr guten oder sehr schlechten Ausgangs unterschätzt.

Zentrierung und Standardisierung

Wichtige Rechenoperationen sind die Zentrierung und Standardisierung. Sie werden verwendet, um Daten von zwei(oder mehr) Merkmalen zu vergleichen. Will man von deren unterschiedlicher Lage absehen und nur die übrigenAspekte wie Streuung und allgemeine Form der Verteilung berücksichtigen, so untersucht und vergleicht man diezentrierten Daten.

Zentrierte Daten werden gebildet, indem der arithmetische Mittelwert abgezogen wird: xi Ø xi - xêê

Skript Statistik und Stochastik 72

Page 73: Vorlesung Mathematik und Statistik WS 2006 / 2007 · 1. Einleitung Vorbemerkung Die Vorlesung "Mathematik und Statistik", die im WS 2006 / 2007 an der Hochschule Liechtenstein angeboten

Will man zusätzlich auch noch von der unterschiedlichen Streuung absehen, werden standardisierte Daten verwendet.

Standardisierte Daten werden gebildet, indem man die zentrierten Daten durch die Standardabweichung teilt: xi Øxi-xêêÅÅÅÅÅÅÅÅÅÅÅÅ

sx

Wichtige Masszahlen wie Schiefe und der Korrelationskoeffizient sind so definiert, dass sie nur von den standardisi-erten Daten abhängen. Sie beschreiben Aspekte der Daten, die nichts mit ihrer Lage und ihrer Streuung zu tun haben.

Additionssätze für xèè

und s2

Wir wollen in diesem Abschnitt den Fall untersuchen, dass die Grundgesamtheit G in J TeilgesamtheitenG1, G2, ... GJ zerfalle. Für diese J Grundgesamtheiten seien die Mittelwerte xêê1, xêê2, ... xêêJ sowie die Varianzens1

2, s22, ... sJ

2 bekannt, wobei die Teilgesamtheiten n1, n2, ... nJ Daten enthalten.

Es gilt (ohne Herleitung)

Der Mittelwert der Grundgesamtheit beträgt: xêê = ⁄ j=1J xêê j

n jÅÅÅÅÅÅÅn

.

Die Varianz der Grundgesamtheit führt auf den sogenannten Varianzzerlegungssatz und beträgt: s2 = ⁄ j=1

J s j2

n jÅÅÅÅÅÅÅn´ ¨¨¨¨¨¨¨ ¨ ≠ ƨ¨¨¨ ¨¨¨¨

sint2

+ ⁄ j=1J Hxêê j - xêêL2

n jÅÅÅÅÅÅÅn´ ¨¨¨¨¨¨¨ ¨¨¨¨¨¨ ¨¨≠ ƨ¨¨¨¨¨¨¨ ¨¨ ¨¨¨ ¨

sext2

= sint2 +sext

2

Die Gesamtstreuung besteht demnach aus zwei Teilen:

† der internen Varianz: d.h. gewichtetes Mittel aus den Streuungen der Teilgesamtheiten.

sint2 = 0 heisst: in jeder Teilgesamtheit sind alle Merkmalswerte gleich.

† sowie der externen Varianz: d.h. gewichtetes Mittel der quadratischen Abweichungen der Mittelwerte der Teilgesa-

mtheiten vom Gesamtmittel.

sext2 = 0 heisst: alle Teilgesamtheiten haben den gleichen Mittelwert xêê j = xêê.

Mit Hilfe des Varianzzerlegungssatz kann eine weitere Masszahl definiert werden.

Das Bestimmtheitsmass B ist definiert als B =sext

2

ÅÅÅÅÅÅÅÅÅs2

Es gibt den Anteil der externen Streuung an der Gesamtstreuung. Dieser Anteil ist auf die Einteilung der Grundgesamtheit in Teilgesamtheiten zurückzuführen.

Daten mit diskreter Klassierung und

Stetig klassierte Daten

Daten mit diskreter Klassierung

Wenn die Daten in diskreter Klassierung vorliegen, können die Formeln für die metrischen Daten folgendermassenangewandt werden.

Arithmetisches, harmonisches und geometrisches Mittel können auch einfach berechnet werden, wenn nur eine dis-krete Klassierung der Daten mit J Ausprägungen (d.h. 8x1, n1<, 8x2, n2<, ... 8xJ , nJ <) vorliegt.

Arithmetisches Mittel: xêê = 1ÅÅÅÅn ⁄i=1

J xi ni = ⁄i=1J xi hi

Skript Statistik und Stochastik 73

Page 74: Vorlesung Mathematik und Statistik WS 2006 / 2007 · 1. Einleitung Vorbemerkung Die Vorlesung "Mathematik und Statistik", die im WS 2006 / 2007 an der Hochschule Liechtenstein angeboten

Harmonisches Mittel: xêê = J 1ÅÅÅÅn ‚

i=1

J xi

-1 ni N-1

= J‚i=1

J xi

-1 hi N-1

Geometrisches Mittel: xêê = J‰i=1

J xi

ni N 1ÅÅÅÅÅn

= ¤i=1J xi

hi

Die verschiedenen Streumasse können auch berechnet werden, wenn nur eine diskrete Klassierung der Daten mit JAusprägungen (d.h. 8x1, n1<, 8x2, n2<, ... 8xJ , nJ <) vorliegt.

Varianz s 2: s2 = 1ÅÅÅÅn ⁄i=1

J Hxi - xêêL2 ni =1ÅÅÅÅn ⁄i=1

n xi2 ni - xêê2 = ⁄i=1

n xi2 hi - xêê2

Ginis mittlere Differenz d: d = 1ÅÅÅÅn ⁄i=1

J †xi - xè

0.5§ ni = ⁄i=1J †xi - x

è0.5§ hi

Ginis mittlere Differenz D: D = 1ÅÅÅÅÅÅÅn2 ⁄i=1

J ⁄k=1J †xi - xk § ni nk = ⁄i=1

J ⁄k=1J †xi - xk § hi hk

Spannweite R: R = Maximum8 j»n j>0< @x jD-Minimum8 j»n j>0< @x jD

Stetig klassierte Daten

Häufig liegen die Daten über ein metrisches Merkmal in stetiger Klassierung vor.

Stetige Klassierung bedeutet, dass die Werte des Merkmals in sogenannte Klassen zusammengefasst sind und an Stelle der Einzeldaten lediglich diese Klassen und die Anzahl der Daten in jeder Klasse angegeben werden.

Insbesondere bei einem stetigen Merkmal macht es in der Regel keinen Sinn, die Häufigkeiten der einzelnen Werte zuzählen (da ¶ viele verschiedene Werte vorkommen können und vermutlich jeder Wert in einer Datenreihe nur einmaloder keinmal vorkommt).

Der Wertebereich der Daten wird deshalb in J nichtüberlappende Teilintervalle (Klassen) K j eingeteilt. Es gilt:

† Für die J Teilintervalle werden die J + 1 Grenzen 8g1, g2, ....gJ+1< benötigt.

Die untere und obere Grenze können auch -¶ bzw. ¶ sein.

† Dies führt auf die J Teilintervalle K j =D g j, g j+1D für j = 1, ... J . Das Intervall ist an der unteren Grenze offen und

an der oberen Grenze abgeschlossen. g j ist somit die untere Grenze und g j+1 die obere Grenze der Klasse j.

† Für jedes Teilintervall wird die Anzahl n j der Daten gezählt, die in jenes Teilintervall fallen, was dann auf die

folgende diskrete Klassierung führt: 8K1, n1<, 8K2, n2<, ... 8KJ , nJ <.† Für jedes Teilintervall kann der Anteil h j =

n jÅÅÅÅÅÅn

berechnet werden, was dann auf die folgende diskrete Klassierung

führt: 8K1, h1<, 8K2, h2<, ... 8KJ , hJ <.Eine stetige Klassierung sagt nichts über die Verteilung der Daten innerhalb der einzelnen Klassen aus. Die stetigeKlassierung enthält deshalb weniger Informationen als die Urliste.

Deshalb wird man eine Urliste nur dann in Klassen einteilen, wenn dies notwendig ist. Mit den heute zur Verfügungstehenden Mitteln der Datenverarbeitung stellt selbst bei grossen Datensätzen die Berechnung der statistischen Grös-sen kein Problem dar.

Es gibt jedoch Situationen, in denen stetig klassierte Daten angewendet werden (müssen):

† sei es, weil bereits bei der Erhebung der Daten eine Klassierung vorgenommen wurde.

Z.B. wenn nicht das exakte Einkommen erfragt wird, sondern nur ob das Einkommen in eines von mehreren

vorgegebenen Intervallen fällt;

† sei es dass zum Zwecke des Datenschutzes die Intervalle so gross gewählt werden, dass aus den Häufigkeiten der

stetigen Klassierung keine Rückschlüsse auf die Einzeldaten gezogen werden können;

Skript Statistik und Stochastik 74

Page 75: Vorlesung Mathematik und Statistik WS 2006 / 2007 · 1. Einleitung Vorbemerkung Die Vorlesung "Mathematik und Statistik", die im WS 2006 / 2007 an der Hochschule Liechtenstein angeboten

† sei es weil nur wenige verschiedene Werte in der Urliste vorkommen;

Bei der Festlegung der Klassen sind einige Punkte zu beachten:

† Eine Faustregel besagt, dass für n Beobachtungen rund 10 Log10HnL gleich grosse Klassen angemessen sind;

† Je nach Situation sind die Klassenbreiten unterschiedlich zu wählen;

† Wie sollen die untere und obere Grenze gesetzt werden, wenn die unterste und oberste Klasse unbeschränkt sind?

Wenn die Daten in stetiger Klassierung vorliegen, muss zu ihrer Auswertung die fehlende Information in geeigneterWeise substituiert werden.

Der Quotient n jÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ

nHg j+1-g jL =h jÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ

g j+1-g j wird als empirische Dichte der Daten in der Klasse K j bezeichnet.

Sie ist umso grösser,

† je grösser die absolute oder relative Häufigkeit; und

† je kleiner die Klassenbreite ist.

Wenn man diese empirischen Dichten als waagrechte Linien über den Klassen (Intervallen) abträgt und an den Sprungstellen senkrechte Hilfslinien einzeichnet, entsteht ein sogenanntes Histogramm.

Es gilt:

† Die einzelnen Rechteckflächen über den Klassen betragen Hg j+1 - g jL h jÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅg j+1-g j

= h j.

† Die Fläche ist somit ein Mass für die relativen Häufigkeiten (Wahrscheinlichkeiten) und die relevante Grösse in

einem Histogramm.

† Die Gesamtfläche unter der empirischen Dichte beträgt somit gleich 1 (da ⁄i=1J h j = 1).

Im Gegensatz zur Betrachtung im vorherigen Abschnitt ("Diskrete Klassierung"), wo die statistischen Grössen exaktberechnet werden konnten, können sie bei einer stetigen Klassierung nur approximativ berechnet werden.

Im Folgenden sollen einige Formeln angegeben werden, mit denen wir für eine stetige Klassierung die empirischeVerteilungsfunktion, Quantile, Lage- und Streuungsmasse wenigstens näherungsweise berechnen können.

Verteilungsfunktion

Im Abschnitt über die Ordinalskala haben wir die empirische Verteilungsfunktion definiert. Gemäss Definition kanndie Verteilungsfunktion an den Obergrenzen der Klassen K j exakt angegeben werden:

F@g j+1D = ⁄i=1j

hi, j = 1, 2, ... J

Ausserdem gilt:

F@xD = 0, für x g1

F@xD = 1, für x > gJ+1

Innerhalb der Klassen wird dann linear interpoliert:

F@xD > F@g jD + h jÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅHg j+1-g jL Hx - g jL, für x œD g j, g j+1]

Quantile

Skript Statistik und Stochastik 75

Page 76: Vorlesung Mathematik und Statistik WS 2006 / 2007 · 1. Einleitung Vorbemerkung Die Vorlesung "Mathematik und Statistik", die im WS 2006 / 2007 an der Hochschule Liechtenstein angeboten

Wenn keine Klasse die Häufigkeit 0 hat, dann ist F@xD eine streng monoton steigende Funktion. Da sie ausserdemstetig ist, kann zu jedem Wert p H0 p 1L die Gleichung F@xD = p eindeutig nach x (dem p-Quantil) aufgelöstwerden.

Wiederum kann mittels Interpolation die Lösung einfach gefunden werden.

xp > g j +p-F@g jDÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ

h j Hg j+1 - g jL = g j +

p-F@g jDÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅF@g j+1D-F@g jD Hg j+1 - g jL, für p œD F@g jD, f @g j+1D]

Arithmetischer Mittelwert

Wenn die Klassenmittelwerte xêêi exakt bekannt sind, kann auf die Formel für die diskrete Klassierung zurückgegriffenwerden.

xêê =1ÅÅÅÅÅÅn ‚i=1

J

xêêi ni = ‚i=1

J

xêêi hi

Wenn die Klassenmittelwerte xêêi nicht bekannt sind, so ersetzt man sie durch einen geeigneten Wert, z.B. durch dieKlassenmitte

g j+1+g jÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ2 .

Varianz

Mit Hilfe des Varianzzerlegungssatzes s2 = ⁄ j=1J

s j2

n jÅÅÅÅÅÅn´ ¨¨¨¨¨¨¨¨ ≠ ƨ¨¨¨ ¨¨¨

sint2

+ ⁄ j=1J Hxêê j - xêêL2

n jÅÅÅÅÅÅn´ ¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨ ≠ ƨ¨¨¨¨¨¨¨¨¨¨ ¨¨¨

sext2

kann man approximativ schreiben:

s2 º ⁄ j=1J Hxêê j - xêêL2

n jÅÅÅÅÅÅÅn

falls s j2 º 0 und falls die Klassenmittelwerte bekannt sind.

Wenn die einzelnen Klassen breit sind, kann diese Approximation einen grossen Fehler haben.

s2 º ‚j=1

J H g j+1+g jÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ2

- xêêL2

n jÅÅÅÅÅÅÅn

falls s j2 º 0 und falls die Klassenmittelwerte nicht bekannt sind.

Hier werden die Klassenmitten an Stelle der Klassenmittelwerte gebraucht.

Konzentrations- und DisparitätsmessungEiner der erste Schritte bei der Analyse eines Marktes ist die Bestimmung der Marktkonzentration. Wenn der Marktfragmentiert ist, stehen viele Unternehmen im Wettbewerb und die Wettbewerbstheorien und Fragen der Produktdiffer-entiation stehen im Vordergrund. Mit grösserer Konzentration und weniger Unternehmen, die am Markt teilnehmen,werden oligopolistische Wettbewerbs- und Spieltheorien wichtiger. Schlussendlich ist bei nur einem Unternehmen dieTheorie der Monopole anwendbar.

In diesem Abschnitt werden wir einige Indizes und graphische Darstellungen kennen lernen, um die Marktkonzentra-tion bzw. die Ungleichheit in Märkten kennenzulernen. Wir gehen (allgemein) von n Merkmalsträgern aus, die je einMerkmal xi H ¥ 0L - beispielsweise den Umsatz eines Unternehmens - haben und bei der die Merkmalssumme ⁄i=1

nxi

des ganzen Marktes eine sinnvolle Interpretation zulässt. Es soll dann untersucht werden, wie sich diese Summe aufdie einzelnen Merkmalsträger i verteilt.

Zwei Aspekte stehen bei diesen Untersuchungen im Vordergrund: die Disparität und die Konzentration.

Eine Disparität (oder Ungleichheit) liegt vor, wenn die Merkmalssumme ⁄i=1n xi nicht gleichmässig auf die n Merkmalsträger

aufgeteilt ist.

Skript Statistik und Stochastik 76

Page 77: Vorlesung Mathematik und Statistik WS 2006 / 2007 · 1. Einleitung Vorbemerkung Die Vorlesung "Mathematik und Statistik", die im WS 2006 / 2007 an der Hochschule Liechtenstein angeboten

Bei der Betrachtung der Disparität einer Verteilung von Merkmalswerten werden Anteile miteinander verglichen. DieAnzahl der Merkmalsträger geht in die Betrachtung nicht ein. Ein klassisches Anwendungsgebiet der Disparitätsmes-sung ist die Messung der Einkommens- oder Vermögensdisparität in einem Land.

Wenn zusätzlich die Anzahl der Merkmalsträger, die sich die Merkmalssumme teilen, in die Betrachtungsweise miteinbezogen wird, kann auch die Konzentration einer Verteilung untersucht werden.

Eine Konzentration liegt vor, wenn ein grosser Anteil der Merkmalssumme auf eine kleine Anzahl von Merkmalsträgern entfällt.

Im Folgenden werden wir die hilfreichsten graphischen Darstellungen und Masszahlen zur Disparität und Konzentra-tion besprechen.

Zur Illustration verwenden wir folgendes Beispiel: im untersuchten Markt betätigen sich 5 Unternehmungen mit denfolgenden Usätzen (in Millionen Euro): x = 8330, 120, 90, 30, 30<.Man kann sich leicht ausrechnen, dass die Merkmalssumme ⁄i=1

nxi = 600 beträgt.

Konzentration

Bei der Konzentrationsmessung sorgt man dafür, dass die Daten absteigend sortiert sind: x1 ¥ x2, ... ¥ xn.

Dann berechnet man die relativen Anteile: hi =xiÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ⁄i=1n xi

= xiÅÅÅÅÅÅÅÅÅn xêê

. Da die xi absteigend sortiert sind, sind auch die hi

absteigend sortiert.

Die Konzentrationsrate CR@ jD ist definiert als CR@0D = 0 und CR@ jD = ⁄i=1j

hi =⁄i=1

jxiÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ⁄i=1

n xifür j, 1, ... n und entspricht der Summe

der j grössten Merkmalsanteile.

Bei maximaler Konzentration (d.h. h1 = 1, alle anderen hi = 0) gilt: CR@ jD = 1 für j = 1, ... n.

Bei minimaler Konzentration (d.h. alle hi = 1 ê n) gilt: CR@ jD = 1ÅÅÅÅn

für j = 1, ... n.

Beispielsweise bedeutet die "3 Firmen Konzentrationsrate" CR@3D = 0.80, dass die drei grössten Unternehmen einenMarktanteil von 80 % haben.

Mit Hilfe der Konzentrationsrate lässt sich auch eine anschauliche graphische Darstellung konstruieren.

In einer Konzentrationskurve werden der Punkt 80, 0< sowie die n Punkte 8 j, ⁄i=1j

hi = CR@ jD< mit absteigend sortierten hi eingezeichnet: d.h. in der Abszisse steht der Index des Merkmalsträgers j und in der Ordinate der Anteil der j grössten Merkmalsträger (d.h. die j-te Konzentrationsrate CR@ jD).

1 2 3 4 5

0.2

0.4

0.6

0.8

1Konzentrationskurve

Für die Konzentrationskurve gilt:

Skript Statistik und Stochastik 77

Page 78: Vorlesung Mathematik und Statistik WS 2006 / 2007 · 1. Einleitung Vorbemerkung Die Vorlesung "Mathematik und Statistik", die im WS 2006 / 2007 an der Hochschule Liechtenstein angeboten

† sie bildet das Intervall @0, nD in das Intervall @0, 1D ab, ist stückweise linear und wächst streng monoton vom Wert 0

bis zum Wert 1; die Steigungs des j-ten Segments ist h j; da die Steigungen mit wachsendem j abnehmen ist die

Kurve konkav.

† der rechte obere ist (v.a. bei grossen n) weniger relevant. Oft berechnet man deshalb die Konzentrationsraten und

damit den Verlauf nur bis zu einer Anzahl m Hm nL von Merkmalsträgern und vernachlässigt den Rest. Dann

müssen nur die m Anteile hi oder die m Werte xi sowie die Merkmalssumme angegeben werden.

† die Konzentrationskurve kann dazu benutzt werden, Konzentrationen auf verschiedenen Märkten zu vergleichen.

Wenn eine erste Konzentrationskurve I immer über einer zweiten Konzentrationskurve II verläuft (d.h.

CRI@iD > CRII@iD " i = 1, ... n), dann sagt man, dass der Markt I eine gleichmässig höhere Konzentration als

Markt II habe. Wenn zwei Märkte unterschiedliche n haben, dann müssen die fehlenden Konzentrationsraten des

Marktes mit dem kleineren n mit genügend CR@ jD = 1 ergänzt werden.

Um auch die Konzentrationen von Märkten miteinander vergleichen zu können, deren Konzentrationskurven sichschneiden, benötigen wir weitere Kriterien. Im Folgenden besprechen wir zwei sogenannte Konzentrationsindizes, diedie Konzentration eines Marktes mit einer (einzigen) Zahl messen.

Der Rosenbluth Index KR ist ein Konzentrationsindex und berechnet sich nach der Formel KR = 1ÅÅÅÅÅÅÅÅÅ2 A

= 1ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅH2 ⁄i=1n i xiL-1

, wobei A

der Teilfläche des Rechtecks @0, nD µ @0, 1D , die oberhalb der Konzentrationskurve liegt, entspricht.

Zur Herleitung dieser Formel kann man die Fläche über der Konzentrationskurve in Teilflächen Ai unterteilen, diedurch die Punkte 8i - 1, CR@i - 1D< und 8i, CR@iD< auf der Konzentrationskurve und die Punkte80, CR@i - 1D< und 80, CR@iD< auf der Ordinate gegeben sind. Diese Teilflächen haben die FlächeAi = hiHi - 1L + iÅÅÅÅ2 = hiHi - 1ÅÅÅÅ2 L.Die Summation dieser Flächen ergibt dann:

A = ⁄i=1n

Ai = ‚i=1

nhiHi - 1ÅÅÅÅ2 L = ⁄i=1

nhi i -

1ÅÅÅÅ2 ⁄i=1n

hi = ⁄i=1n

hi i -1ÅÅÅÅ2

Es gilt:

† bei minimaler Konzentration: KR = 1ÅÅÅÅn

† bei maximaler Konzentration: KR = 1

† allgemein: 1ÅÅÅÅn§ KR § 1

Vielfach verwendet wird auch der folgende Konzentrationsindex.

Der Herfindahl Index KH ist ein Konzentrationsindex und berechnet sich nach der Formel KH = ⁄i=1n hi

2

Auch der Herfindahl Index lässt sich an der Konzentrationskurve veranschaulichen. Er entspricht der Summe der nQuadrate, die durch jeweils zwei benachbarte Punkte der Folge 880, 0<, 8CR@1D, CR@1D<, ... 8n, CR@nD<< gegeben sind.

Es gilt (wie beim Rosenbluth Index):

† bei minimaler Konzentration: KH = 1ÅÅÅÅn

;

d.h. das Inverse des Herfindahl Index gibt die Anzahl der Merkmalsträger (z.B. Anzahl Unternehmen) an.

† bei maximaler Konzentration: KR = 1

† allgemein: 1ÅÅÅÅn§ KH § 1

† 0 § KH 0.1 entspricht einem unkonzentrierten Markt;

† 0.10 § KH 0.18 entspricht entspricht moderater Konzentration;

† 0.18 § KH 1.00 entspricht entspricht hoher Konzentration;

Skript Statistik und Stochastik 78

Page 79: Vorlesung Mathematik und Statistik WS 2006 / 2007 · 1. Einleitung Vorbemerkung Die Vorlesung "Mathematik und Statistik", die im WS 2006 / 2007 an der Hochschule Liechtenstein angeboten

Disparität

Im Gegensatz zur Konzentrationsmessung werden bei der Untersuchung der Disparität die Daten aufsteigend sortiert:d.h. x1 § x2, § ... § xn. Damit sind auch die daraus abgeleiteten relativen Häufigkeiten hi aufsteigend sortiert.

Eine anschauliche Darstellung der Disparität kann mit Hilfe der Lorenzkurve erreicht werden.

In einer Lorenzkurve werden der Punkt {0,0}und die n Punkte 8 jÅÅÅÅn

, ⁄i=1j

hi U L@ jÅÅÅÅn

D< mit aufsteigend sortierten hi

eingezeichnet: d.h. in der Abszisse steht der Anteil jÅÅÅÅn

der j kleinsten Merkmalsträger an der Zahl der Merkmalsträgern und in

der Ordinate der Anteil dieser j kleinsten Merkmalsträger an der Merkmalssumme.

Bei maximaler Disparität (d.h. hn = 1, alle anderen hi = 0) gilt: L@ jÅÅÅÅn

D = 0 für j = 1, ... n - 1 sowie L@ nÅÅÅÅn

D = 1

Bei minimaler Disparität (d.h. alle hi = 1 ê n) gilt: L@ jÅÅÅÅn

D = jÅÅÅÅn

für j = 1, ... n

0.2 0.4 0.6 0.8 1

0.2

0.4

0.6

0.8

1Lorenzkurve

Für die Lorenzkurve gilt:

† in ihr werden zwei Anteile gegeneinander abgetragen;

† sie bildet das Intervall @0, 1D in das Intervall @0, 1D ab, ist stückweise linear und wächst monoton vom Wert 0 bis

zum Wert 1; in jedem Intervall @ i-1ÅÅÅÅÅÅÅÅÅn

, iÅÅÅÅn

@ besitzt sie die Steigung n hi; da die Anteile hi mit i anwachsen, gilt dies

auch für die Steigung in jedem Intervall; die Lorenzkurve ist daher konvex.

† die Lorenzkurve kann dazu benutzt werden, Disparitäten auf verschiedenen Märkten zu vergleichen. Wenn eine

erste Lorenzkurve I immer über einer zweiten Lorenzkurve II verläuft, dann sagt man, dass der Markt I eine

gleichmässig geringere Disparität als Markt II habe.

Um auch die Disparitäten miteinander vergleichen zu können, deren Lorenzkurven sich schneiden, benötigen wirweitere Kriterien. Im Folgenden besprechen wir zwei sogenannte Disparitätsindizes, die die Disparität mit einer(einzigen) Zahl messen.

Der Gini-Koeffizient DG ist ein Disparitätsindex und berechnet sich gemäss DG = 2 H 1ÅÅÅÅ2- BL = ⁄i=1

n hi 2 i-n-1ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ

n= DÅÅÅÅÅÅÅÅ

2 xêê, wobei B

der Teilfläche des Rechtecks @0, 1D µ @0, 1D , die unterhalb der Lorenzkurve liegt, entspricht und D Ginis mittlere Differenz und xêê das arithmetischen Mittel ist.

Die Herleitung verläuft analog zur Herleitung des Rosenbluth Index. Die Fläche unter der Lorenzkurve kann inTeilflächen Bi unterteilt werden, die durch die Punkte 8 i-1ÅÅÅÅÅÅÅÅÅ

n, L@i - 1D< und 8 iÅÅÅÅ

n, L@iD< auf der Lorenzkurve und die Punkte

81, L@i - 1D< und 81, L@iD< gegeben sind. Diese Teilflächen haben die Fläche Bi =Hn-i+1L+Hn-iLÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅnÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ2 = 2 n-2 i+1ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ2 n .

Daraus folgt für DG (mit Hilfe von ⁄i=1n

hi = 1):

DG = 2 H 1ÅÅÅÅ2 - BL = 2 I 1ÅÅÅÅ2 - ‚i=1

nhi

2 i-2 n+1ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ2 n M = 1 - ‚i=1

nhi

2 i-2 n+1ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅn

= ⁄i=1n

hi nÅÅÅÅn- ‚

i=1

nhi

2 i-2 n+1ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅn

= ‚i=1

nhi

2 i-n-1ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅn

Skript Statistik und Stochastik 79

Page 80: Vorlesung Mathematik und Statistik WS 2006 / 2007 · 1. Einleitung Vorbemerkung Die Vorlesung "Mathematik und Statistik", die im WS 2006 / 2007 an der Hochschule Liechtenstein angeboten

Es gilt:

† bei minimaler Disparität: DG = 0

† bei maximaler Konzentration: DG = 1 - 1ÅÅÅÅn

† allgemein: 0 § DG § 1 - 1ÅÅÅÅn

† DG lässt sich als (mit 2 i-n-1ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅn

) gewichtetes Mittel der hi interpretieren, wobei die Gewichte sowohl positiv als auch

negativ sein können und die Summe ‚i=1

n 2 i-n-1ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅn

= 0 ist.

† Man kannn auch zeigen, dass der Gini-Koeffizient gleich der Hälfte des Quotienten aus Ginis mittlerer Differenz D

und dem arithmetischen Mittel xêê ist: DG = DÅÅÅÅÅÅÅÅ2 xêê = 1ÅÅÅÅÅÅÅÅ2 xêê ⁄i=1n ⁄ j=1

n †xi - x j§Ein weiterer Disparitätskoeffizient, der besonders einfach ist und deshalb häufig verwendet wird, ist der Variationskoef-fizient.

Der Variationskoeffizient v ist ein Disparitätsindex und berechnet sich gemäss v = sÅÅÅÅÅxêê

, ist also der Quotient aus der

Standardabweichung s und dem arithmetischen Mittel xêê.

Es gilt:

† 0 § v =è!!!!!!!!!!!!

n - 1

† v = 0 ó x1 = x2 =. .. = xn (minimale Disparität)

† v =è!!!!!!!!!!!!

n - 1 ó x1 = x2 =. .. = xn-1 = 0, xn > 0 (maximale Disparität)

Zusammenhang zwischen Konzentrationsindizes und Disparitätkoeffizienten

Die in den vorausgegangenen Abschnitten diskutierten Konzentrationsmasse und Disparitätsindizes, wie auch dieentsprechenden Kurven sind eng miteinander verwandt.

Kurven

Das sieht man schon aus der Definition der Konzentrationskurve 9 j, ⁄i=1j

hi= und der Lorenzkurve 9 jÅÅÅÅn

, ⁄i=1j

hi=. Esmuss jedoch berücksichtigt werden, dass die obigen hi unterschiedlich sortiert sind: im ersten Fall sind die relativenHäufigkeiten hi absteigend und im zweiten Fall aufsteigend sortiert.

Trotzdem lassen sich diese zwei Kurven durch einfache geometrische Operationen ineinander überführen.

† Erster Schritt: Reskaliere die Abszisse der Konzentrationskurve; 9 j, ⁄i=1j

hi= Ø 9 jÅÅÅÅn

, ⁄i=1j

hi=Die Konzentrationskurve verläuft somit auch im Einheitsquadrat.

† Zweiter Schritt: Spiegele die Konzentrationskurve an der Diagonalen, die durch die Punkte 80, 0< und

{1,0}verläuft.

† Dritter Schritt: Spiegele die Konzentrationskurve an der Diagonalen, die durch die Punkte 81, 0< und {0,1}verläuft.

Zahlen

Ebenso einfach lassen sich Zahlen (d.h. die Konzentrationsindizes und die Disparitätskoeffizienten) ineinander trans-formieren. Es gelten:

KR = 1ÅÅÅÅÅÅÅÅÅ2 A

= 1ÅÅÅÅÅÅÅÅÅÅÅÅ2 nB

= 1ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅnH1-DGL oder DG = n KR-1ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ

n KR

KH = v2+1ÅÅÅÅÅÅÅÅÅÅÅÅÅn

oder v2 = n KH - 1

Beweis von KH = v2+1ÅÅÅÅÅÅÅÅÅÅÅÅn

:

Skript Statistik und Stochastik 80

Page 81: Vorlesung Mathematik und Statistik WS 2006 / 2007 · 1. Einleitung Vorbemerkung Die Vorlesung "Mathematik und Statistik", die im WS 2006 / 2007 an der Hochschule Liechtenstein angeboten

v2+1ÅÅÅÅÅÅÅÅÅÅÅÅn

= 1ÅÅÅÅn I s2+xêê2ÅÅÅÅÅÅÅÅÅÅÅÅÅÅ

xêê2M = 1ÅÅÅÅ

n J 1ÅÅÅÅn ⁄i=1

n xi2

ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅxêê2

N = ⁄i=1n xi

2

ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅH⁄i=1n xiL2 = ‚

i=1

n I xiÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ⁄i=1n xi

M2= ‚

i=1

nhi

2 = KH

Man sieht, dass mit steigender Zahl der Merkmalsträger n und bei gleichbleibender Konzentration (gemessen mit demHerfindahl-Index KH) die Disparität (gemessen mit dem Variationskoeffizient v) linear mit n steigt.

Analoges gilt für den Rosenbluth-Konzentrationsindex und den Gini-Koeffizienten.

Gemeinsame Prinzipien

Den Konzentrations- und Disparitätsindizes sind die folgenden Prinzipien gemeinsam.

Prinzip der Anonymität: d.h. die Zuordnung der Merkmalswerte zu den Merkmalsträgern geht durch die Sortierung der Urliste verloren.

Prinzip der Skaleninvarianz: d.h. die Einheit der Merkmalswerte spielt keine Rolle, da sich die Einheiten sowohl bei den Indizes als auch bei den Kurven herauskürzen.

Prinzip des egalisierenden Transfers: d.h. falls ein Merkmalsträger mit höherem Merkmalswert einem anderen Merkmalsträger mit geringerem Merkmalswert einen Merkmalsbetrag (der jedoch nicht so gross ist, dass sich die Rangierung ändern würde) transferiert, dann reduzieren sich sowohl Disparität als auch Konzentration.

Unterschiede

Die Konzentrations- und Disparitätsindizes unterscheiden sich jedoch auch in zweierlei Hinsicht:

Nullergänzung: Wenn man dem Datenvektor x m Nullen hinzufügt, so verändert sich weder die Konzentrationskurve noch die Werte der Konzentrationsindizes. Demgegenüber verlagert sich die Lorenzkurve nach unten und die Werte der Disparitätsindizes werden grösser.

Replikation der Daten: Geht man von den Daten x1, ... xn zu den Daten x1, ... xn, x1, ... xn über, d.h. dass man den Datensatz um ein identisches Abbild erweitert, so verändern sich weder die Lorenzkurve noch die Werte der Disparitätsindizes. Demgegenüber verschiebt sich die Konzentrationskurve nach unten, und die Werte der Konzentrationsmasse werden kleiner. Rosenbluth- und Herfindahl-Index reduzieren sich bei einer m-fachen Replikation auf den m-ten Teil des Ausgangswertes.

Skript Statistik und Stochastik 81

Page 82: Vorlesung Mathematik und Statistik WS 2006 / 2007 · 1. Einleitung Vorbemerkung Die Vorlesung "Mathematik und Statistik", die im WS 2006 / 2007 an der Hochschule Liechtenstein angeboten

9. Induktive Statistik

EinleitungNur mit einer Totalerhebung lässt sich eine vollständige Information über die Verteilung eines Merkmals X in einerGrundgesamtheit gewinnen. Da dies selten möglich ist, versucht man mit Hilfe von Teilerhebungen Anhaltspunkteüber die unbekannte Verteilung zu gewinnen. Man spricht von Stichproben, wenn bei der Auswahl der Merkmalsträgerder Zufall eine wesentliche Rolle spielt.

Die induktive (zufallskritische, beurteilende) Statistik liefert auf Grund einer Stichprobe Aussagen über die Grundgesa-mtheit und hat zwei Aufgaben:

† Die Schätzung unbekannter Parameter der Grundgesamtheit mit Angabe der Vertrauensgrenzen (Schätzverfahren)

† Die Prüfung von Hypothesen über die Grundgesamtheit (Testverfahren)

Die deduktive Statistik (Wahrscheinlichkeitsrechnung) macht auf Grund eines Modells (über die Grundgesamtheit)Aussagen über eine Stichprobe.

Es gibt verschiedene Arten von Tests.

† Signifikanztest testet, ob eine Hypothese verworfen werden muss oder nicht.

† Parametertest testet Hypothesen über einen Parameter.

† Anpassungstest prüft, ob eine beobachtete Verteilung mit einer hypothetischen verträglich ist.

Schritte beim Test von Hypothesen.

† Aufstellen der Nullhypothese.

† Aufstellen des Tests.

† Bei Gültigkeit der Nullhypothese ist ein bestimmter Ausgang sehr unwahrscheinlich.

† Risiko I oder Fehler I. Art (a), Risiko II oder Fehler 2. Art (b).

Ein statistischer Test ist ...

† Ein Verfahren, das für jede Stichprobe die Entscheidung, ob das Stichprobenergebnis die Hypothese stützt oder

nicht, herbeiführt, heisst statistischer Test.

† Die meisten statistischen Tests werden mit Hilfe einer Prüfgrösse (Teststatistik) durchgeführt. Eine solche Prüf-

grösse ist eine Vorschrift, nach der aus einer gegebenen Stichprobe eine Zahl errechnet wird. Der Test besteht nun

darin, dass je nach dem Wert der Prüfgrösse entschieden wird.

Skript Statistik und Stochastik 82

Page 83: Vorlesung Mathematik und Statistik WS 2006 / 2007 · 1. Einleitung Vorbemerkung Die Vorlesung "Mathematik und Statistik", die im WS 2006 / 2007 an der Hochschule Liechtenstein angeboten

Punktschätzungen

Punktschätzung für den Mittelwert

Der Mittelwert m des metrischen Merkmals X einer Grundgesamtheit sei unbekannt und soll mit Hilfe einer Zufallsstich-probe vom Umfang n geschätzt werden. Aus den beobachteten Merkmalswerten xi jedes einzelnen Stichprobenele-ments berechnet man das arithmetische Mittel x =

⁄i=1n xi������������n

und erhält damit einen Schätzwert m.

Eine solche Schätzung heisst Punktschätzung, weil ein punktueller Wert als Schätzwert genannt wird und nicht etwaein Intervall. Es fehlt auch jede Angabe über die Zuverlässigkeit.

Um zu überprüfen, ob es sich bei dieser Formel um eine gute Schätzformel handelt (oder nicht), muss sie analysiertwerden. Der Schätzwert ist (wie man sich klarmachen kann) die Realisation einer Zufallsvariablen (die Merkmal-sträger wurden ja zufällig aus der Grundgesamtheit ausgewählt), nämlich der durch n geteilten Summe der Xi.

In der Regel wird der Schätzwert vom wahren Wert abweichen. Man kann jedoch einfach ausrechnen, dass der Erwar-tungswert der Schätzung m

êê mit dem Mittelwert der Grundgesamtheit m übereinstimmt. Dies wird erwartungstreue

Schätzung genannt. Das heisst auch, dass der Schätzfehler im Mittel verschwindet und nicht etwa eine systematischeÜber- oder Unterschätzung vorliegt. Eine nicht erwartungstreue Schätzung heisst verzerrt, der Erwartungswert derAbweichung Verzerrung (oder englisch Bias).

Die Berechnung der Varianz des Schätzwerts liefert (unter Berücksichtigung der Unabhängigkeit der Einzelstich-proben) einen Wert von σ2�����

n, hat also die angenehme Eigenschaft, dass die Varianz mit zunehmendem Stichprobenum-

fang immer kleiner wird, was mit Konsistenz bezeichnet wird.

Punktschätzung für den Anteilswert

Im Gegensatz zum vorherigen Abschnitt, wo der Mittelwert einer metrischen Variable untersucht wurde, geht es beimAnteilswert um eine ja/nein Entscheidung: hat der Merkmalsträger (das Individuum) eine bestimmte Eigenschaft odernicht, woraus sich dann der Anteil berechnen lässt.

Der in der Zufallstichprobe gefundene Anteilwert h ist eine Realisation der Zufallsvariablen, die als arithmetischesMittel von n Bernoulli-Variablen (ja/nein) definiert ist.

Der Schätzwert pÔ

gemäss der Schätzformel pÔ= h ist erwartungstreu und konsistent.

Punktschätzung für die Varianz

Bei der Analyse der Punktschätzung für die Varianz stellt sich heraus, dass σÔ2

= s2 =⁄i=1n Hxi−xL2����������������������

n kein guter Schätzw-

ert ist. Er ist nicht erwartungstreu, er gibt einen um den Faktor n-1ÅÅÅÅÅÅÅÅÅÅn

zu kleinen Wert an. Dies kann gezeigt werden,indem man den Erwartungswert (von S2) berechnt. Der Schätzwert für die Varianz muss also nÅÅÅÅÅÅÅÅÅÅ

n-1 s2 lauten. DenGrund für diese Korrektur kann man darauf zurückführen, dass die Methode bereits einen Freiheitsgrad zur Berech-nung des Mittelwerts verbraucht und die xi dann nicht mehr alle unabhängig sind, da ⁄i=1

n Hxi - xêêL = 0 gilt (d.h. dieZentraleigenschaft des arithmetischen Mittels).

Skript Statistik und Stochastik 83

Page 84: Vorlesung Mathematik und Statistik WS 2006 / 2007 · 1. Einleitung Vorbemerkung Die Vorlesung "Mathematik und Statistik", die im WS 2006 / 2007 an der Hochschule Liechtenstein angeboten

Eigenschaften von Punktschätzungen

Wir haben gesehen, dass ein Schätzwert einer Punktschätzung eines Parameters eine Zufallsvariable ist und vieleWerte annehmen kann. Der Schätzwert wird von einer Schätzformel hervorgebracht und gründet sich auf einer Stich-probe. Man schätzt vielfach einen Parameter der Grundgesamtheit mit einem Parameter der Stichprobe. Nur bei derVarianz musste eine Korrektur angebracht werden.

Eine Schätzformel (Schätzfunktion, Schätzer) hat eine Wahrscheinlichkeitsverteilung und aus ihr folgen gewissestochastische Eigenschaften. Zur Gütebeurteilung eines Schätzers q verwendet man einen Katalog von wün-schenswerten Eigenschaften.

† Erwartungstreue, d.h. EJqÔN = q

† Asymptotische Erwartungstreue, d.h. limnض EJqÔN = q

† Konsistenz, d.h. die Varianz geht gegen 0

† Effizienz, d.h. die Varianz ist möglichst klein (im Vergleich zu anderen Schätzern)

Es kann sein, dass ein nicht erwartungstreuer Schätzer besser ist als ein erwartungstreuer, wenn seine Varianz kleinerist. Entscheidend ist die Nähe zum wahren Wert, was mit dem mittleren quadratischen Fehler bestimmt werden kann.

Intervallschätzungen

Einleitung

Keine Stichprobe kann völlig exakte Auskunft über die tatsächliche Verteilung oder auch nur die Masszahlen derVerteilung von Merkmalen in einer Grundgesamtheit geben.

Bei den bisher behandelten Punktschätzungen wissen wir nicht, ob wir ihnen vertrauen können. Unter gewissenBedingungen ist es jedoch möglich, die Wahrscheinlichkeitsverteilung der Stichprobenwerte und damit den Schätzw-erte wenigstens annähernd anzugeben. Mit Hilfe dieser Stichprobenverteilungen kann man dann das Vertrauen quantifi-zieren, also Wahrscheinlichkeiten angeben, mit denen man eine Schätzung für richtig hält.

Stichprobenverteilungen

Kenngrössen von Stichproben (z.B. Mittelwert, Anteilswert oder Varianz) sind Realisationen von Zufallsvariablen.Ihre Wahrscheinlichkeitsverteilung nennt man Stichprobenverteilung.

Verteilung des Stichprobenmittelwerts

Wenn das metrische Merkmal X in einer Grundgesamtheit den Mittelwert m und die Varianz s2 hat, dann gilt für dieVerteilung des Stichprobenmittelwerts X

êêê.

† EHXêêêL = m

† sXêêê = sÅÅÅÅÅÅÅÅÅÅè!!!!!

n

† Xêêê

ist annähernd normalverteilt.

Diese Aussage folgt aus dem zentralen Grenzwertsatz (jedoch nur für unabhängige Ereignisse). Das heisst, dass dieZufallsvariable, für die xêê = 1ÅÅÅÅ

n ⁄i=1

n xi eine Realisation darstellt, asymptotisch normalverteilt ist mit obigen Parametern.

Skript Statistik und Stochastik 84

Page 85: Vorlesung Mathematik und Statistik WS 2006 / 2007 · 1. Einleitung Vorbemerkung Die Vorlesung "Mathematik und Statistik", die im WS 2006 / 2007 an der Hochschule Liechtenstein angeboten

Wie schnell die Verteilung konvergiert, hängt von der Ausgangsverteilung in der Grundgesamtheit ab. In den meistenFällen kann man davon ausgehen, dass bei einem Stichprobenumfang von n > 30 die Ausgangsverteilung kaum nocheine Rolle spielt.

Wenn man obige Zufallsvariable Xêêê

standardisiert (d.h. X¯−µ�����������

σêè!!!!n

bildet) folgt daraus sofort die folgende Wahrscheinlich-

keitsaussage:

PI-z Xêêê-mÅÅÅÅÅÅÅÅÅÅÅÅ

sXêêê

§ zM = CDFHzL - CDFH-zLund noch leicht umgeformt:

PHm - z sXêêê X

êêê§ m + z sX

êêêL = CDFHzL - CDFH-zLDiese Beziehung wird direkter Schluss genannt. Man schliesst von der Grundgesamtheit auf die Stichprobe. Sie gibt die Wahrscheinlichkeit an, mit der ein Stichprobenmittelwert in ein vorher bestimmtes Intervall fällt oder umgekehrt.

Beispiel

800 Personen besuchen eine Veranstaltung. Ihre durchschnittliche Körpergrösse beträgt 183 cm bei einer Standardab-weichung von 10 cm. Es werden 25 zufällige Personen ausgewählt (mit "Zurücklegen").

† Mit welcher Wahrscheinlichkeit wird der Stichprobenmittelwert im Intervall 182 cm < Xêêê

< 184 cm liegen?

† Wie gross ist das Intervall, in welches der Stichprobenmittelwert mit einer hohen Wahrscheinlichkeit von 0.9 fällt?

Lösung a

Es wird (mit n = 25) davon ausgegangen (zumal das Merkmal Körpergrösse schon weitgehend normalverteilt ist), dasseine Normalverteilung vorliegt.

Wenn wir die Zahlen für m und sXêêê in der linken Seite (m - z sX

êêê = 182) der Intervallformel einsetzen (die rechte liefertden gleichen Wert) erhalten wir 183 - z

10ÅÅÅÅÅÅÅÅÅÅÅÅÅè!!!!!!!!25

= 182 und nach z augelöst z = 1ÅÅÅÅ2 .

Diesen z-Wert können wir nun in die CDF Verteilungsfunktion einsetzen und erhalten die Wahrscheinlichkeit.

CDFHNormalDistributionH0, 1L, 0.5L - CDFHNormalDistributionH0, 1L, -0.5L0.38292492254802624`

Man könnte auch ansetzen (wegen der Symmetrie der Normalverteilung):

HCDFHNormalDistributionH0, 1L, 0.5L - 0.5L 2

0.38292492254802624`

Lösung b

Für 90% Wahrscheinlichkeit erhalten wir (wenn wir die 10% gleichmässig auf beide Seiten verteilen) die Wahrscheinli-chkeiten von 5% und 95%. Daraus können wir die z-Werte berechnen.

z = Quantile@NormalDistributionH0, 1L, 0.95D = 1.6448

Ebenso ergibt

Quantile@NormalDistributionH0, 1L, 0.05D = -1.6450

Wir setzen dieses z in unsere Intervallformel ein und erhalten für das Intervall:

Skript Statistik und Stochastik 85

Page 86: Vorlesung Mathematik und Statistik WS 2006 / 2007 · 1. Einleitung Vorbemerkung Die Vorlesung "Mathematik und Statistik", die im WS 2006 / 2007 an der Hochschule Liechtenstein angeboten

9183 -z 10ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅè!!!!!!!

25,

10 zÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅè!!!!!!!

25+ 183= = 8179.710, 186.290<

Intervallschätzung bei grossen Stichproben

Eine Stichprobe gilt dann als grosse Stichprobe, wenn die Abweichung der tatsächlichen Stichprobenverteilung vonder Normalverteilung vernachlässigt werden kann.

Die Intervallschätzung gründet auf der gleichen Wahrscheinlichkeitsaussage wie derjenigen im vorigen Abschnitt. ImArgument der Wahrscheinlichkeitsfunktion P wird jedoch so umgestellt, dass man ein Intervall um m erhält.

Die Intervallschätzung ist die Umkehrung des direkten Schlusses und heisst deshalb auch Umkehrschluss oder Rückschluss. Es wird von der Stichprobe auf die unbekannte Grundgesamtheit geschlossen.

Für grosse Stichproben gilt.

PHXêêê

- z sXêêê m § X

êêê+ z sX

êêêL = CDFHzL - CDFH-zL = 1 - a

Wenn man auch noch Xêêê

durch den Mittelwert xêê ersetzt erhält man das sogenannte Konfidenzintervall@xêê - z sXêêê, xêê + z sX

êêêD und schreibt:

PHxêê - z sXêêê m § xêê + z sX

êêêL = CDFHzL - CDFH-zL = 1 - a

† 1-a heisst die Konfidenzwahrscheinlichkeit und gibt an, wie sehr man darauf vertraut, dass der

feste aber unbekannte Wert m im Konfidenzintervall liegt.

† a heisst die Irrtumswahrscheinlichkeit

† In der Praxis muss zumeist eine Schätzung für die Varianz eingesetzt werden.

Intervallschätzung bei kleinen Stichproben

Sind die Stichproben zu klein, muss an Stelle der (nach dem zentralen Grenzsatz asymptotisch erreichten) Normalvertei-lung die tatsächliche Verteilung genommen werden.

Nur im Spezialfall, wenn das Merkmal in der Grundgesamtheit bereits (oder fast) normalverteilt ist, wird die Situationwieder etwas einfacher, da dann auch die Stichprobe normalverteilt ist.

Wird die geschätzte Varianz eingesetzt muss (da in diesem Fall die Standardisierung eigentlich ein Quotient aus zweiZufallsvariablen ist), die Normalverteilung durch die Student-t Verteilung mit n - 1 Freiheitsgraden ersetzt werden undwir erhalten

PHxêê - tn-1 sXêêê m § xêê + tn-1 sX

êêêL = 1 - a

wo der t-Wert aus der Student-t Verteilung erhalten wird.

Beispiel

Eine Befragung unter einer Berufsgruppe mit 25 Absolventen hat ein durchschnittliches Einkommen von 42'720 CHFbei einer Standardabweichung von 6'256 CHF ergeben. Wie gross ist das Einkommen für die ganze Grundgesamtheitmit einer Irrtumswahrscheinlichkeit von 5%.

Lösung

Das Einkommen kann in guter Näherung als normalverteilt angenommen werden. Deshalb führt die kleine Stichprobeauf die Student-t Verteilung (n - 1 ergibt 24; die 5% werden gleichmässig auf beide Seiten verteilt):

Skript Statistik und Stochastik 86

Page 87: Vorlesung Mathematik und Statistik WS 2006 / 2007 · 1. Einleitung Vorbemerkung Die Vorlesung "Mathematik und Statistik", die im WS 2006 / 2007 an der Hochschule Liechtenstein angeboten

t = Quantile@StudentTDistributionH24L, 0.975D = 2.063898

Wir berechnen das geschätzte sXêêê für den Mittelwert ( 1�������è!!!!

n Faktor) aus dem geschätzten sX ("##########n�������

n−1 Faktor) für die

Grundgesamtheit:

s = 6256; n = 25; s =

"##########nÅÅÅÅÅÅÅÅÅÅÅn-1

sÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅè!!!!

n;

:42720 - t

"##########nÅÅÅÅÅÅÅÅÅÅÅn-1

sÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅè!!!!

n,

"##########nÅÅÅÅÅÅÅÅÅÅÅn-1

sÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅè!!!!

nt + 42720> = 840084, 45355<

Statistische Tests

Einleitung

Ein Verfahren, das für jede Stichprobe die Entscheidung, ob das Stichprobenergebnis die Hypothese stützt oder nicht, herbeiführt, heisst statistischer Test.

† Die meisten statistischen Tests werden mit Hilfe einer Prüfgrösse (Teststatistik) durchgeführt. Eine solche Prüf-

grösse ist eine Vorschrift, nach der aus einer gegebenen Stichprobe eine Zahl errechnet wird. Der Test besteht nun

darin, dass je nach dem Wert der Prüfgrösse entschieden wird.

† Prüfgrösse für den Einstichproben Gauss Test: Z = HXêêê-m0L è!!!!!

nÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅs

† Theoretisch ist Z standardnormalverteilt.

Es ist oft nicht leicht zu entscheiden, wie lange Daten zur Überprüfung der Nullhypothese gesammelt werden sollen;denn mit genügend grossen Stichprobenumfängen lassen sich fast alle Nullhypothesen ablehnen.

Schätzverfahren und Testverfahren sind Anwendungen der Stichprobentheorie. Bei den Testverfahren wird die mit derStichprobe gewonnene Information dazu verwendet, eine Entscheidung über eine Hypothese zu treffen. Es wird abernicht definitiv entschieden, ob die Hypothese richtig oder falsch ist, das heisst ob sie zutrifft oder nicht. Man wird alsErgebnis eines statistischen Tests die gefasste Hypothese nur beibehalten oder verwerfen. Dabei kommt es darauf an,dass die Wahrscheinlichkeit, eine richtige Hypothese zu verwerfen und eine falsche Hypothese beizubehalten, nichtallzu gross ist.

Anfänglich wird eine Hypothese (Nullhypothese, Anfangshypothese) aufgestellt (über einen Parameter, die Verteilungeines Merkmals etc.). Diese Hypothese kann richtig oder falsch sein. Sie wird jedoch nur geändert, wenn genügendBeweise für das Gegenteil erbracht werden. Die Alternativhypothese (Gegenhypothese) könnte z.B. das logischeKomplement sein. Wichtig ist, dass sich die Nullhypothese und die Alternativhypothese gegenseitig ausschliessen.

Man unterscheidet zwischen einer einfachen oder Punkthypothese und einer zusammengesetzten. Die erstere spezifi-ziert einen singulären Parameterwert, die andere ein ganzes Intervall für den Wert des unbekannten Parameters.

Man unterscheidet auch zwei Fehlerarten:

† Fehler 1. Art: man verwirft die Nullhypothese, obwohl sie richtig ist;

† Fehler 2. Art: man verwirft die Nullhypothese nicht, obwohl die Alternative richtig ist.

Bei den Tests steht der Fehler 1. Art im Vordergrund. Dessen Wahrscheinlichkeit sollte möglichst klein sein, dabeiaber den Fehler 2. Art nicht zu gross werden zu lassen.

Skript Statistik und Stochastik 87

Page 88: Vorlesung Mathematik und Statistik WS 2006 / 2007 · 1. Einleitung Vorbemerkung Die Vorlesung "Mathematik und Statistik", die im WS 2006 / 2007 an der Hochschule Liechtenstein angeboten

Testen von Hypothesen über Mittelwerte

Mit diesem Test wird eine Hypothese über den Mittelwert (z.B. Hypothese m = m0) getestet. Erst wenn der gefundeneMittelwert xêê deutlich von diesem Wert abweicht (d.h. die Abweichung signifikant ist), wird man die Hypotheseverwerfen.

Mit der Verteilung des Stichprobenmittelwerts kann (bei Gültigkeit der Nullhypothese) für xêê ein Annahmebereich

und ein Verwerfungsbereich so bestimmt werden, dass die Wahrscheinlichkeit, mit der Xêêê

in den Verwerfungsbereichfällt, obwohl die Nullhypothese richtig ist, höchstens a beträgt. Die Wahrscheinlichkeit des Fehlers 1. Art a heisstSignifikanzniveau.

PI ¦Xêêêê-m0 ¦ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅsX

êêê§ z@1 - aÅÅÅÅÅ2 D; H0 richtigM = 1 - a

Zweiseitige Fragestellung

Hier vergleicht man die absolute Abweichung zwischen dem in der Stichprobe gefundenen Mittelwert und demhypothetischen Wert mit seiner Standardabweichung. Der Quotient »xêê-m0»ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ

sXêêê heisst Prüfgrösse. Die Nullhypothese ist zu

verwerfen, falls die Prüfgrösse den kritischen Wert z überschreitet. Der kritische Wert gibt gerade jene Stelle derVerteilungsfunktion an, wo sie den Wert 1 - aÅÅÅÅÅ2 hat. Er ist also das 1 - aÅÅÅÅÅ2 Quantil.

Beispiel

In einem Restaurant sollen geeichte Biergläser im Ausschank 0.4 l Bier enthalten. Bei einer Stichprobe (Umfang 50)ergibt sich eine durchschnittliche Füllmenge von 0.38 l bei einer Varianz von 0.0064 l2. Kann man auf einem Signifi-kanzniveau von 5% die Nullhypothese aufrechterhalten, dass durchschnittlich 0.4 l Bier im Glas enthalten sind.

Lösung

Wir wollen ein bisschen ausholen. Die Stichprobe hat einen Mittelwert von 0.38 (den wir auch als Schätzer für dieGrundgesamtheit verwenden können) und eine Varianz von 0.0064. Dies ist jedoch die Varianz für die Stichprobe, dieVarianz für den Mittelwert ist n-mal kleiner. Wir wollen ausserdem die Varianz des Mittelwerts als Schätzer für dieVarianz der Grundgesamtheit verwenden, weshalb wir mit nÅÅÅÅÅÅÅÅÅÅ

n-1 multiplizieren müssen. Wir haben also m = 0.38 und

sXêêê ="#####################nÅÅÅÅÅÅÅÅÅÅn-1 0.0064

ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅn

mit n = 50.

Mit nicht normierten Messwerten

Wir haben also die folgende Verteilung dist = NormalDistributionJ0.38, "##################50 0.0064ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ49 50 N.Wir plotten nun die CDF dieser (nicht normierten) Verteilung, wobei wir noch zusätzlich den Bereich markieren, derim Wahrscheinlichkeitsintervall [0.025, 0.975] liegt.

0.35 0.4 0.45 0.5

0.2

0.4

0.6

0.8

1

0.35 0.4 0.45 0.5

0.2

0.4

0.6

0.8

1

Skript Statistik und Stochastik 88

Page 89: Vorlesung Mathematik und Statistik WS 2006 / 2007 · 1. Einleitung Vorbemerkung Die Vorlesung "Mathematik und Statistik", die im WS 2006 / 2007 an der Hochschule Liechtenstein angeboten

Wir müssen uns nun fragen, ob der Prüfwert von 0.40 innerhalb dieses Bereichs liegt. Wir können der Graphik entneh-men, dass dies der Fall ist. Wir können jedoch auch unser Messintervall ausgeben lassen und sehen wiederum, dass0.40 in diesem Intervall liegt:

8Quantile@dist, 0.025D, Quantile@dist, 0.975D< = 80.3576, 0.4024<Der Wahrscheinlichkeitswert für den Prüfwert beträgt somit ...

cdfH0.40L = 0.95994

... ist also kleiner als 97.5% (aber nicht viel).

Mit normierten Messwerten

In der Regel arbeitet man jedoch mit normierten Verteilungen und Messwerten (siehe auch den theoretischen Teiloben; die Verwendung der Standardnormalverteilung machte früher viel Sinn, denn dann musste nur diese eineVerteilung tabelliert werden), d.h. wir nehmen die Standardnormalverteilung und zeichnen wieder das dem Wahrschein-lichkeitsintervall @0.025, 0.975D entsprechende Messintervall ein. Die Frage ist nun, ob die gemäss der Formel»xêê-m0»ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅsX

êêênormierte Prüfgrösse ...

†0.38 - 0.40§ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ"###################50 0.0064ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ

49 50

= 1.7500

... innerhalb dieses Messintervalls liegt oder nicht.

Wir plotten deshalb die Normalverteilung mit den entsprechenden Messintervallen (2.5% und 97.5%) ...

-2 -1 1 2

0.2

0.4

0.6

0.8

1

-2 -1 1 2

0.2

0.4

0.6

0.8

1

... und sehen wiederum, dass die Prüfgrösse von 1.75 innerhalb des Intervalls liegt. Der Wahrscheinlichkeitswert derPrüfgrösse ergibt wiederum den gleichen Wert von 95.99, ist also kleiner als 97.5%.

cdfH1.75L = 0.95994

Die Hypothese ist also (auf diesem Signifikanzniveau) nicht zu verwerfen.

Schritte

Nach der (zweimaligen) anschaulichen Herleitung soll noch eine Schritt für Schritt Anleitung zur Lösung dieserAufgabe gegeben werden:

† Aufstellen der zweiseitigen Hypothese: H0 : m = 0.4 l, H1 : m ∫ 0.4 l

† Schätzen der Standardabweichung gemäss der Formel sXêêê =

"###############nÅÅÅÅÅÅÅÅÅÅn-1 s2

ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅn

= $%%%%%%%%%%%%%%%%%%%50ÅÅÅÅÅÅÅ49 0.0064ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ50 = 0.0114286

† Berechnen der Prüfgrösse gemäss der Formel »xêê-m0»ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅsX

êêê = †0.38-0.40§ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ0.0114286 = 1.75

† Bestimme den kritischen Wert zu a = 0.05: z = Quantile@NormalDistributionH0, 1L, 0.975D = 1.95996

Skript Statistik und Stochastik 89

Page 90: Vorlesung Mathematik und Statistik WS 2006 / 2007 · 1. Einleitung Vorbemerkung Die Vorlesung "Mathematik und Statistik", die im WS 2006 / 2007 an der Hochschule Liechtenstein angeboten

† Testentscheidung: Die Prüfgrösse (1.75) ist kleiner als der kritische Wert (1.96), d.h. innerhalb des

Messintervalls. Deshalb kann die Hypothese beibehalten werden.

Skript Statistik und Stochastik 90

Page 91: Vorlesung Mathematik und Statistik WS 2006 / 2007 · 1. Einleitung Vorbemerkung Die Vorlesung "Mathematik und Statistik", die im WS 2006 / 2007 an der Hochschule Liechtenstein angeboten

10. Zweidimensionale Verteilungen

Einleitung

Jede statistische Einheit einer Grundgesamtheit kann Träger einer Vielzahl von Merkmalen sein. Die univariate Statistik beachtet nur ein Merkmal bzw. nur eine Variable, die multivariate Statistik beobachtet von jedem Merkmalsträger mehrere Variablen.

Wir beschäftigen uns im Folgenden mit dem einfachsten Fall von zwei Variablen 8X , Y <. Das Ergebnis einer Messung(Erhebung, Beobachtung) sind Wertepaare 8xi, yi<. Diese Wertepaare können in einem Streudiagramm eingetragenwerden.

Wenn nur endlich viele Ausprägungen der Merkmale X und Y vorkommen (endliche Verteilung), kann man auch eine Kontingenz- bzw. Korrelationstabelle erzeugen, in der die Zeilen- und Spaltenköpfe durch X bzw. Y und die Tabelleninhalte durch die (relative) Häufigkeit des Auftretens der entsprechenden Paare {xi, yi} gegeben sind.

Durch Bildung von Grössenklassen (statt Verwendung der diskreten Werte) lässt sich die Anzahl der Zeilen undSpalten reduzieren. Es ist auch bei stetigen Verteilungen möglich, durch Bildung von Grössenklassen die Häufigkeitendieser Klassen in einer Kontingenztabelle darzustellen.

In diesem Kapitel beschäftigen wir uns auch mit Fragen der Korrelation, dem Grad der Beziehung zwischen diesenVariablen. Dabei versuchen wir herauszufinden, wie gut eine lineare oder nichtlineare Gleichung die Beziehungzwischen den Variablen beschreibt oder erklärt. Wenn alle Variablenwerte eine Gleichung vollkommen erfüllen,bezeichnen wir diese Variable als vollständig korreliert oder sprechen von einer vollständigen Korrelation zwischenihnen. Sind nur zwei Variablen miteinander verknüpft, sprechen wir von einfacher Korrelation bzw. einfacher Regres-sion, bei mehr als zwei Variablen von mehrfacher Korrelation bzw. mehrfacher Regression.

Positive bzw. direkte Korrelation heisst, dass Y im gleichen Sinne wächst wie X . Liegen alle Punkte in der Nähe einergekrümmten Kurve, wird die Korrelation nichtlinear genannt. Wenn keinerlei Beziehung zwischen den Variablen zuerkennen ist, gibt es keine Korrelation zwischen den Variablen bzw. sind die Variablen unkorreliert.

Der folgende Plot zeigt drei Punktmengen mit negativ linearer Korrelation (rot), nichtlinearer Korrelation

(magenta) und keiner Korrelation (schwarz).

2 4 6 8 10

2.5

5

7.5

10

12.5

15

17.5

20

Qualitativ kann man bereits aus der Graphik entnehmen, wie gut eine Kurve eine Punktmenge beschreibt. Zur quantia-tiven Festlegung müssen jedoch Messgrössen für die Korrelation eingeführt werden.

In den folgenden Abschnitten diskutieren wir zunächst die Darstellungen und Möglichkeiten bei der Verwendung derKontingenztabelle.

Skript Statistik und Stochastik 91

Page 92: Vorlesung Mathematik und Statistik WS 2006 / 2007 · 1. Einleitung Vorbemerkung Die Vorlesung "Mathematik und Statistik", die im WS 2006 / 2007 an der Hochschule Liechtenstein angeboten

Daran anschliessend diskutieren wir noch die Begriffe Kovarianz und Korrelationskoeffizient.

Kontingenztabelle

Einleitung

Wenn nur endlich viele Ausprägungen der Merkmale X und Y vorkommen (endliche Verteilung), kann man auch eine Kontingenz- bzw. Korrelationstabelle erzeugen, in der die Reihen- und Spaltenköpfe durch xi bzw. yi und die Tabelleninhalte durch die (relative) Häufigkeit des Auftretens der entsprechenden Paare {xi, yi} gegeben sind.

Wir wollen im Folgenden an Hand eines Beispiels die verschiedenen Begriffe erklären. Gegeben seien Messungen vonX und Y , bei denen X vier verschiedene Ausprägungen und Y fünf verschiedene Ausprägungen haben kann. Konkretkönnten folgende Messwerte resultieren:

x = 830, 40, 50, 60<;y = 81, 2, 4, 5, 8<;

Wir führen nun Messungen durch und erhalten beispielsweise die folgende Häufigkeitstabelle:

i

k

jjjjjjjjjjjjjjjjjjj

y1 y2 y3 y4 y5

x1 4 8 8 0 0

x2 4 8 16 20 12

x3 12 10 16 28 14

x4 0 4 10 16 10

y

{

zzzzzzzzzzzzzzzzzzzDie Daten sind so zu interpretieren, dass 4 mal das Paar {x1, y1}, 8 mal das Paar {x1, y2} etc. gemessen wurde. Eswurden insgesamt 200 Messungen durchgeführt:

Randverteilung

Die Ränder der Kontingenztabelle (bei denen die Reihen hiS bzw. die Spalten hSj aufsummiert sind, was durch das Sangedeutet wird) ermöglichen die Untersuchung nur des einen Merkmals, womit wir wieder bei der univariatenAnalyse gelandet wären. Diese eindimensionalen Verteilungen heissen Randverteilung der statistischen Variablen Xbzw. Y.

Randverteilung für die X

Zur Berechnung der Randverteilung für X (hiS ) müssen wir für jede Zeile über die Spalten summieren. Wir erhaltennach Normierung durch die Anzahl der Messungen die gewünschte Randverteilung:

i

k

jjjjjjjjjjjjjjjjjjj

y1 y2 y3 y4 y5 Xrv

x1 4 8 8 0 0 0.1

x2 4 8 16 20 12 0.3

x3 12 10 16 28 14 0.4

x4 0 4 10 16 10 0.2

y

{

zzzzzzzzzzzzzzzzzzzDiese Liste gibt die relativen Häufigkeiten an, ein X1, X2, ... zu messen: so wurde z.B. ein X1in 10% der Fällegemessen.

Randverteilung für Y

Zur Berechnung der Randverteilung für Y (hSj ) müssen wir für jede Spalte über die Zeilen summieren. Die Berech-nung ist analog zur Berechnung der Randverteilung für X.

Skript Statistik und Stochastik 92

Page 93: Vorlesung Mathematik und Statistik WS 2006 / 2007 · 1. Einleitung Vorbemerkung Die Vorlesung "Mathematik und Statistik", die im WS 2006 / 2007 an der Hochschule Liechtenstein angeboten

i

k

jjjjjjjjjjjjjjjjjjjjjjjj

y1 y2 y3 y4 y5 Xrv

x1 4 8 8 0 0 0.1

x2 4 8 16 20 12 0.3

x3 12 10 16 28 14 0.4

x4 0 4 10 16 10 0.2

Yrv 0.1 0.15 0.25 0.32 0.18 1.0

y

{

zzzzzzzzzzzzzzzzzzzzzzzzDie unterste Reihe dieser Tabelle gibt die relativen Häufigkeiten an, ein Y1, Y2, ... zu messen.

Darstellung der Randverteilungen und relativen Häufigkeiten

Wir wollen nun noch eine übersichtliche Darstellung der gemessenen Daten geben, bei der alle Daten normiert werden.

i

k

jjjjjjjjjjjjjjjjjjjjjjjj

y1 y2 y3 y4 y5 Xrv

x1 0.02 0.04 0.04 0.00 0.00 0.10

x2 0.02 0.04 0.08 0.10 0.06 0.30

x3 0.06 0.05 0.08 0.14 0.07 0.40

x4 0.00 0.02 0.05 0.08 0.05 0.20

Yrv 0.10 0.15 0.25 0.32 0.18 1.00

y

{

zzzzzzzzzzzzzzzzzzzzzzzzWir können der Tabelle z.B. entnehmen:

† die Wahrscheinlichkeit das Wertepaar 8X2, Y3} zu messen ist 8%;

† die Wahrscheinlichkeit ein X2 zu messen ist 30% (Randverteilung ganz rechts);

Bedingte Wahrscheinlichkeiten

Im vorigen Abschnitt haben wir in der Tabelle die relativen Häufigkeiten sowie die Randverteilungen dargestellt.Diese Werte können folgendermassen interpretiert werden:

† Die (gleichzeitige) Messung des Paares 8Xi, Y j< tritt mit der relativen Häufigkeit auf, die in der Tabelle an der

entsprechenden Position 8i, j< eingetragen ist.

† Die relative Häufigkeit des Wertes Xi (unabhängig davon was für Y gemessen wurde) ist durch das i-te Element

der Randverteilung für X gegeben (Spalte ganz rechts).

† Die relative Häufigkeit des Wertes Y j (unabhängig davon was für X gemessen wurde) ist durch das j-te Element

der Randverteilung für Y gegeben (letzte Zeile).

In diesem Abschnitt wollen wir uns mit den folgenden zwei Fragen beschäftigen:

† Wie gross ist die Wahrscheinlichkeit ein Xi zu messen, wenn ein bestimmtes Y j gemessen wurde?

† Wie gross ist die Wahrscheinlichkeit ein Y j zu messen, wenn ein bestimmtes Xi gemessen wurde?

Es interessiert also nun die Verteilung der relativen Häufigkeiten einer Variablen, wenn die andere auf einem bestim-mten Wert festgehalten wird. Auf diese Weise erhält man einen wichtigen Einblick in die Art des Zusammenhangszwischen den beiden Werten. Diese sogenannten bedingten Verteilungen lassen sich leicht der Kontingenztabelleentnehmen; man braucht nur die Zeilen oder Spalten der Tabelle durch den ihnen entsprechenden Wert der Randvertei-lung zu dividieren.

Bei unabhängigen statistischen Variablen sind die bedingten Verteilungen identisch und jeweils gleich der Randvertei-lung. Statistische Unabhängigkeit wird dabei so definiert, dass die gemeinsamen relativen Häufigkeiten gleich demProdukt der beiden dazugehörigen Randverteilungshäufigkeiten sind: hij = hiS hSj.

Skript Statistik und Stochastik 93

Page 94: Vorlesung Mathematik und Statistik WS 2006 / 2007 · 1. Einleitung Vorbemerkung Die Vorlesung "Mathematik und Statistik", die im WS 2006 / 2007 an der Hochschule Liechtenstein angeboten

Wir fragen nun also nach bedingten Wahrscheinlichkeiten. Im Gegensatz zur obigen Normierung, wo mit der Anzahl Messungen normiert wurde, müssen wir nun die Normierung mit den Werten der Randverteilung durchführen. Es resultieren zwei Darstellungen (die bedingte Wahrscheinlichkeit für X bzw.Y).

Bedingte Wahrscheinlichkeit für X

Wir führen also die folgenden Schritte durch (zur Normierung jeder Spalte):

i

k

jjjjjjjjjjjjjjjjjjjjjjjj

y1 y2 y3 y4 y5

x1 0.200 0.267 0.160 0.000 0.000

x2 0.200 0.267 0.320 0.313 0.333

x3 0.600 0.333 0.320 0.438 0.389

x4 0.000 0.133 0.200 0.250 0.278

Norm 1.000 1.000 1.000 1.000 1.000

y

{

zzzzzzzzzzzzzzzzzzzzzzzzDiese Tabelle ist so zu interpretieren: wenn wir (z.B.) wissen, dass Y1 gemessen wurde, dann wurde auch X3 mit einerWahrscheinlichkeit von 60% gemessen.

Bedingte Wahrscheinlichkeit für Y

Die Berechnung der bedingten Wahrscheinlichkeit für Y erfolgt analog (es wird jede Zeile normiert).

i

k

jjjjjjjjjjjjjjjjjjj

y1 y2 y3 y4 y5 Norm

x1 0.200 0.400 0.400 0.000 0.000 1.000

x2 0.067 0.133 0.267 0.333 0.200 1.000

x3 0.150 0.125 0.200 0.350 0.175 1.000

x4 0.000 0.100 0.250 0.400 0.250 1.000

y

{

zzzzzzzzzzzzzzzzzzz

Berechnung von Mittelwerten und Varianzen für X und Y

In diesem Abschnitt wollen wir uns mit der Berechnung der Mittelwerte und Varianzen beschäftigen.

Der Mittelwert für X berechnet sich mit der Formel xêê = ⁄i=1k ⁄ j=1

lhij xi (für Y analog).

Die Varianz für X berechnet sich mit der Formel sX2 = ⁄i=1

k ⁄ j=1l hij Hxi - xêêL2 (für Y analog).

Man sieht, dass die Summe über j separat durchgeführt werden kann und deshalb die Randverteilungen zur Berech-nung der Mittelwerte und Varianzen verwendet werden können:

† xêê = ⁄i=1k

hiS xi und yêê = ⁄ j=1l

hSj y j

† sX2 = ⁄i=1

k hiS Hxi - xêêL2 und sY2 = ‚

j=1

l HhSj Hy j - yêêLL2

Kovarianz und Korrelationskoeffizient

Einleitung

Für die beiden Variablen X und Y bei bivariaten Daten gilt, dass der Mittelwert der Summe X + Y gleich der Summeder Mittelwerte und der Mittelwert der Differenz X - Y gleich der Differenz der Mittelwerte ist.

Für die Varianz ist das Ergebnis nicht so einfach.

Skript Statistik und Stochastik 94

Page 95: Vorlesung Mathematik und Statistik WS 2006 / 2007 · 1. Einleitung Vorbemerkung Die Vorlesung "Mathematik und Statistik", die im WS 2006 / 2007 an der Hochschule Liechtenstein angeboten

Eine Rechnung zeigt, dass

sX+Y2 = sX

2 + sY2 +

2 ⁄ j=1n Hx j-xêêL Hy j-yêêL

ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅn

und analog für die Differenz. Nur für den Spezialfall, dass der letzte Term verschwindet, wäre die Varianz einerSumme gleich der Summe der Varianzen.

Dieser Term (ohne den Faktor 2) wird empirische Kovarianz oder kurz Kovarianz genannt und mit cXY bezeichnet.Die Kovarianz ist nichts weiter als das arithmetische Mittel des Produkts der Abweichungen der einzelnen Beobachtun-gen von ihrem jeweiligen Mittel.

Wie für die Varianz gibt es auch für die Kovarianz eine einfachere Berechnungsmöglichkeit:

cXY =⁄ j=1

n Hx j-xêêL Hy j-yêêLÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ

n=

⁄ j=1n x j y j

ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅn

- xêê yêê = x yêêêê - xêê yêê

Sind zwei Variablen X und Y statistisch unabhängig, ist die Kovarianz zwischen ihnen Null.

Man beachte jedoch, dass dieser Satz nicht umkehrbar ist: aus der statistischen Unabhängigkeit folgt zwar das Ver-schwinden der Kovarianz, jedoch liegt keineswegs immer Unabhängigkeit vor, wenn die Kovarianz verschwindet. Inder Tat misst die Kovarianz nur den linearen Anteil der statistischen Abhängigkeit.

An Stelle der Kovarianz wird vielfach der Korrelationskoeffinzient verwendet: rXY = cXYÅÅÅÅÅÅÅÅÅÅÅÅÅÅsX sY

Eigenschaften des Korrelationskoeffizienten

† Normierung

Mit der Division durch die beiden Standardabweichungen (was natürlich nur erlaubt ist, wenn sie ungleich Null

sind) erhält man ein normiertes Mass für die Strenge des linearen statistischen Zusammenhangs. Der Korrelation-

skoeffizient hat das gleiche Vorzeichen wie die Kovarianz, liegt aber stets zwischen -1 und 1.

† Masstabsneutral

Wenn man eine der beiden Variablen linear transformiert (z.B. von Dollar in Euro umrechnet) bleibt der Korrela-

tionskoeffizient unverändert.

† Vertauschung der Variablen

Wenn man die Variablen X und Y vertauscht, ändert sich der Korrelationskoeffizient nicht.

Beispiel 1

Für unser Beispiel des Abschnitts "Kontingenztabelle" erhalten wir für die Kovarianz und Korrelation.

Kovarianz: 4.5200

Korrelation: 0.2366

Der Wert von 0.236 für den Korrelationskoeffizienten deuet auf eine schwache positive Korrelation hin.

Es ist zu beachten, dass in der Definition der Kovarianz die Summe über alle Messungen genommen wird.

Skript Statistik und Stochastik 95

Page 96: Vorlesung Mathematik und Statistik WS 2006 / 2007 · 1. Einleitung Vorbemerkung Die Vorlesung "Mathematik und Statistik", die im WS 2006 / 2007 an der Hochschule Liechtenstein angeboten

Beispiel 2

In der Einleitung zu diesem Kapitel haben wir Streudiagramme dargestellt. Nun wollen wir noch die Korrelationskoeffi-zienten für diese Tabellen berechnen. Wir erhalten:

-0.9935 rote Punkte

0.3603 lila Punkte

-0.0120 schwarze Punkte

2 4 6 8 10

5

10

15

20

Man sieht:

† Für die (approximativ) lineare Funktion resultiert ein Korrelationskoeffizient nahe bei -1.

† Für die (approximativ) quadratische Funktion resultiert ein positiver Korrelationskoeffizient von rund 0.4, obwohl

die x und y Werte über die quadratische Beziehung sehr stark miteinander korrelieren. Aber wie schon gesagt, die

Kovarianz bzw. der Korrelationskoeffizient misst nur die lineare Abhängigkeit.

† Für die Random Funktion resultiert ein Korrelationskoeffizient nahe bei 0 (d.h. unkorreliert).

Skript Statistik und Stochastik 96

Page 97: Vorlesung Mathematik und Statistik WS 2006 / 2007 · 1. Einleitung Vorbemerkung Die Vorlesung "Mathematik und Statistik", die im WS 2006 / 2007 an der Hochschule Liechtenstein angeboten

11. Regression und Korrelation

EinleitungIn vielen Anwendungen der Statistik stellt sich die Aufgabe, eine Variable (z.B. Inflationsrate) durch eine oder mehr-ere andere Variablen (z.B. Geldmengenwachstum) zu erklären, indem ein in der Regel approximativer funktionalerZusammenhang zwischen den Variablen nachgewiesen wird.

Cross-sectional

Bei den Daten handelt es sich vielfach um Datenreihen, bei denen zur gleichen Zeit Beobachtungen 8xi, yi< von(mindestens) zwei Eigenschaften für eine varierende dritte Eigenschaft 8i< aufgenommen wurden (cross-sectional).

Beispiel: 8i, xi, yi< = 8Land, Geldmengenwachstum, Inflationsrate<.Beispiel: 8i, xi, yi< = 8Schüler, Körpergrösse, Gewicht<.Zeitreihen

Alternativ kann es sich aber auch um Zeitreihen 8ti, yi< handeln, bei denen (mindestens) eine Ausprägung für ver-schiedene Zeitpunkte aufgenommen wurde.

Beispiel: 8ti, yi< = 8Jahr, Inflation<.Funktionale Beziehung 8xi, f @xiD<

In beiden Fällen wird eine funktionale Beziehung 8xi, yi = f @xiD< bzw. 8ti, yi = f @tiD< zwischen einer unabhängigenVariablen (xi oder ti) und einer abhängigen Variablen (yi) vorausgesetzt.

In beiden Fällen stellt sich also die Aufgabe, den Zusammenhang 8ti, f @tiD< bzw. 8xi, f @xiD< zu bestimmen.

Um solche Aufgaben zu lösen können qualitative (Scatterplots) oder die quantitativen (Korrelation, Regression)Analysen angewandt werden.

Scatterplot

Ein Scatterplot liefert ein anschauliches Bild, wie die Datenpunkte zueinander in Beziehung stehen. Mit einem Blickgewinnt man einen Eindruck, ob die Datenpunkte in einem linearen oder nichtlinearen oder gar keinem Zusammen-hang stehen.

Um jedoch quantitative Aussagen über den funktionalen Zusammenhang zu machen, muss eine Korrelations- oderRegressionsanalyse durchgeführt werden.

Korrelation

Bei der Korrelationsanalyse wird der Korrelationskoeffizient zwischen den beiden Datenreihen berechnet. Dies ist eineZahl zwischen -1 und +1 und ist ein Mass für den linearen Zusammenhang zwsichen den Datenpaaren 8xi, yi<. Regression

Mehr Möglichkeiten zur Feststellung eines funktionalen (nicht nur linearen) Zusammenhangs bietet die Regressionsan-alyse. Die Regressionsanalyse geht jedoch von weitergehenden Annahmen aus als die Korrelationsanalyse: z.B.müssen die xi deterministisch sein und die Fehler der yi einer Normalverteilung folgen.

Wir werden uns in diesem Kapitel relativ ausführlich mit einer linearen Regression für eine einzige unabhängigeVariable xi beschäftigen und modellieren die Beziehung zwischen xi und yi durch ein lineares Modell:

Skript Statistik und Stochastik 97

Page 98: Vorlesung Mathematik und Statistik WS 2006 / 2007 · 1. Einleitung Vorbemerkung Die Vorlesung "Mathematik und Statistik", die im WS 2006 / 2007 an der Hochschule Liechtenstein angeboten

yi = b0 + b1 xi + ei. Wir bestimmen die Gleichungen zur optimalen Schätzung der Param b`

0 und b`

0 sowie der Varianzdes Fehlerterms se

2.

Wir untersuchen auch im Detail die Zuverlässigkeit (bzw. den Fehler) dieser drei Parameter (b`

0, b`

0, s2

). Die Kennt-nis dieser Fehler erlaubt es uns dann auch, Konfidenzintervalle und Hypothesentests für diese Parameterdurchzuführen.

Weiters definieren wir das sogenannte Bestimmtheitsmass R2, das uns sagt, welcher Anteil der Streuung in yi mit derRegression erklärt werden kann und welcher Teil durch die Fehlerterme ei gegeben ist.

Zum Abschluss verwenden wir die gefundene Regressionsgerade dazu, für ein gegebenes xn+1 den dazugehörigen Wertyn+1 zu prognostizieren, und ein Fehlerband für das geschätzte yn+1 anzugeben.

Scatter Plot

Ein Scatterplot ist eine graphische Darstellung, die die Beziehung zwischen Beobachtungen für zwei Datenreihen in zwei Dimensionen darstellt. Die erste Beobachtung wird in der Abszisse, die zweite Beobachtung in der Ordinate dargestellt.

Mit einem Scatter Plot lassen sich die Daten-Paare anschaulich darstellen. Man sieht auf einen Blick den funktionalenZusammenhang. Ausserdem können Ausreisser gut erkannt werden.

Beispielsweise seien die folgenden Datenreihen (bzw. 8xi, yi< Paare) gegeben:

x 0. 2. 4. 6. 8. 10.

y 0.72 4.53 5.42 7.26 9.54 10.07

Dies ergibt den folgenden Scatter Plot:

2 4 6 8 10

2

4

6

8

10

Jede Beobachtung i im Scatterplot ist repräsentiert durch einen Punkt 8xi, yi< und die Punkte werden nicht verbunden.

Korrelation

Einleitung

Im Gegensatz zu einem Scatter Plot, der die Beziehung zwischen zwei Datenreihen 8xi, yi< anschaulich darstellt, drückt die Korrelationsanalyse die Beziehung quantitativ mit einer einzigen Zahl, dem Korrelationskoeffizienten, aus.

Skript Statistik und Stochastik 98

Page 99: Vorlesung Mathematik und Statistik WS 2006 / 2007 · 1. Einleitung Vorbemerkung Die Vorlesung "Mathematik und Statistik", die im WS 2006 / 2007 an der Hochschule Liechtenstein angeboten

Der sogenannte Korrelationskoeffizient ist ein Mass dafür, wie eng zwei Datenreihen 8xi, yi< miteinander in Beziehungstehen; genauer ausgedrückt misst er die Richtung und das Ausmass des linearen Zusammenhangs zwischen zweiVariablen.

Der Korrelationskoeffizient kann nur Werte aus dem Intervall @-1, 1D annehmen.

† Ein Korrelationskoeffizient > 0 drückt einen positiven linearen Zusammenhang zwischen den Datenreihen aus,

d.h. dass auch y zunimmt, wenn x zunimmt.

† Ein Korrelationskoeffizient 0 drückt einen negativen linearen Zusammenhang zwischen den Datenreihen aus,

d.h. dass y abnimmt, wenn x zunimmt.

† Ein Korrelationskoeffizient von 0 zeigt an, dass keine lineare Beziehung zwischen den zwei Variablen 8x, y< besteht.

Ein grosser (absoluter) Wert des Korrelationskoeffizienten weist auf eine starke lineare Beziehung zwischen den zweiVariablen hin.

Bei vielen Datenpunkten kann bereits ein kleiner Wert des Korrelationskoeffizienten auf eine lineare Beziehungzwischen zwei Variablen hinweisen.

Berechnung des Korrelationskoeffizienten

Die Berechnung des Korrelationskoeffizienten kann am einfachsten mit Hilfe der Kovarianz angegeben werden.

Die Stichprobenkovarianz sx,y zwischen zwei Datenreihen x = 8xi< und y = 8yi< mit n Beobachtungen berechnet sichzu:

sx,y = ‚i=1

n Hxi − xL Hyi − yL����������������������������������������n − 1

;

mit den Mittelwerten x und y

x =⁄i=1n

xi�����������������

n; y =

⁄i=1n

yi�����������������

n;

Die Stichprobenkovarianz ist somit der Durchschnitt des Produkts aus Hxi - xêêL und Hxi - xêêL, wobei diese Faktoren jeweils die Abweichungen der entsprechenden Beobachtung von ihrem Stichprobenmitttelwert beschreiben.

Mit Hilfe der Standardabweichungen sx und sy der beiden Stichproben, die die Streuung der x- und y-Werte um ihrenMittelwert beschreiben, und die folgendermassen definiert sind ...

sx = $%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%⁄i=1n Hxi − xL2

���������������������������������n − 1

; sy = $%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%⁄i=1n Hyi − yL2

���������������������������������n − 1

;

... kann dann die Definition des Korrelationskoeffizienten r = rx,y kurz und prägnant geschrieben werden:

Der Korrelationskoeffizient rx,y =sx,yÅÅÅÅÅÅÅÅÅÅÅÅsx sy

=sx,yÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ"###################sx,x sy,y

ist die Kovarianz der beiden Variablen x und y, geteilt durch das Produkt

der Stichprobenstandardabweichungen.

Der Korrelationskoeffizient hat die folgenden Eigenschaften.

† Wie die Kovarianz ist der Korrelationskoeffizient ein Mass für die lineare Beziehung zwischen

zwei Datenreihen.

Skript Statistik und Stochastik 99

Page 100: Vorlesung Mathematik und Statistik WS 2006 / 2007 · 1. Einleitung Vorbemerkung Die Vorlesung "Mathematik und Statistik", die im WS 2006 / 2007 an der Hochschule Liechtenstein angeboten

† Im Gegensatz zur Kovarianz hat der Korrelationskoeffizient den Vorteil, dass er eine reine Zahl (ohne Einheiten)

und ausserdem auf das Interval @-1, 1D normiert ist. Er ist deshalb viel einfacher zu interpretieren.

† Die Normierungen Hn - 1L in der Definition der Kovarianz und den Standardabweichungen sx und sy heben sich

gerade auf und es folgt auch:

rx,y =⁄i=1n Hxi − xL Hyi − yL

����������������������������������������������������������������������������"###############################⁄i=1n Hxi − xL2 "################################⁄i=1

n Hyi − yL2 ;

† Der Korrelationskoeffizient ist symmetrisch in x und y: rx,y = ry,x

† sx sy kann auch als "################sx,x sy,y geschrieben werden.

† rx,x = 1, da rx,x =sx,xÅÅÅÅÅÅÅÅÅÅÅsx sx

=sx,xÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅè!!!!!!!!!!!!!!!!!!sx,x sx,x

= 1. Eine Datenreihe 8xi< hat perfekte Korrelation mit sich selbst.

Berechnung

Wir sind nun in der Lage, den Korrelationskoeffizienten für unser Beispiel zu berechnen. Mathematica Definitionen:

x_i_ := xPiT; n = Length@xD;xêê =

⁄i=1n xi

ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅn

; yêê =⁄i=1

n yiÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ

n;

sx = $%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%⁄i=1n Hxi - xêêL2

ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅn - 1

; sy = $%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%⁄i=1n Hyi - yêêL2

ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅn - 1

;

sx,y = ‚i=1

n Hxi - xêêL Hyi - yêêLÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ

n - 1;

rx,y =sx,yÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅsx sy

;

Kovarianz = 12.724

Korrelationskoeffizient = 0.976286

Korrelationskoeffizienten können berechnet werden, wenn die Mittelwerte und Standardabweichungen sowie die Kovarianz endlich und konstant sind.

Grenzen der Korrelationsanalyse

Der Korrelationskoeffizient misst den linearen Zusammenhang zwischen zwei Variablen. Der Korrelationskoeffizientist jedoch nicht immer zuverlässig. Dies kann verschiedene Ursachen haben:

Nichtlinearität

Beispielsweise können zwei Variablen eine starke nichtlineare Abhängigkeit - und trotzdem eine kleine lineare Korrela-tion - haben. Obwohl bei der Beziehung y = Hx - 4L2 die Daten vollständig korreliert sind, ergibt die Berechnung desKorrelationskoeffizienten einen Wert von 0.

Skript Statistik und Stochastik 100

Page 101: Vorlesung Mathematik und Statistik WS 2006 / 2007 · 1. Einleitung Vorbemerkung Die Vorlesung "Mathematik und Statistik", die im WS 2006 / 2007 an der Hochschule Liechtenstein angeboten

2 4 6 8

2

4

6

8

10

Korrelation = 0

Ausreisser

Der Korrelationskoeffizient kann auch unzuverlässig sein, wenn Ausreisser in einer oder beiden Datenreihenvorhanden sind.

Ausreisser sind eine kleine Anzahl von Beobachtungen an beiden Enden (klein oder gross) einer Stichprobe.

Beispielsweise wird in der folgenden linearen Beziehung durch einen einzigen Ausreisser der Korrelationskoeffizientvon 1.00 auf 0.73 reduziert.

5 10 15 20

5

10

15

20

Korrelation = 0.969228

Wenn der Ausreisser eliminiert wird steigt der Korrelationskoeffizient wieder auf 1.00.

5 10 15 20

5

10

15

20

Korrelation = 1.

Die Berechnung des Korrelationskoeffizienten ist sehr empfindlich auf den Aufschluss von Ausreissern.

Ein Ausreisser darf nicht ohne Grund aus den Daten entfernt werden. Man muss sich zuerst versichern, ob der Ausreis-ser Information über die Beziehung zwischen den Datenpunkten enthält oder nicht.

Falls der Ausreisser keine Information enthält, und es sich um eine Fehlmessung bzw. Noise handelt, sollte er von derAnalyse ausgeschlossen werden.

Falls der Ausreisser jedoch Informationen enthält und auf eine relevante Beziehung zwischen den Datenpunktenhinweist, darf er von der Datenanalyse nicht ausgeschlossen werden.

Skript Statistik und Stochastik 101

Page 102: Vorlesung Mathematik und Statistik WS 2006 / 2007 · 1. Einleitung Vorbemerkung Die Vorlesung "Mathematik und Statistik", die im WS 2006 / 2007 an der Hochschule Liechtenstein angeboten

Ausserdem sollte generell untersucht werden, wie sich der Korrelationskoeffizient beim Auschluss von Ausreissernändert.

Wichtig ist auch zu berücksichtigen, dass eine Korrelation keine Ursache (kausale Verknüpfung) impliziert. Auchwenn zwei Variablen stark korreliert sind, heisst dies nicht, dass ein bestimmter Wert einer Variable einen bestimmtenWert der anderen Variablen verursacht.

Korrelationen können auch auf eine Beziehung hinweisen, die gar nicht existiert. Dies kann verschiedene Ursachenhaben:

† die Korrelation kann zufällig sein;

† die Korrelation wurde herbeigeführt durch eine Rechnung, die jede von zwei Variablen x und y mit einer dritten

Variable z vermischt; wenn beispielsweise zwei unkorrelierte Variablen durch eine dritte Variable dividiert werden.

† die Korrelation zwischen zwei Datenreihen entsteht dadurch, dass beide Datenreihen mit einer dritten Datenreihe

korreliert sind; wenn beispielsweise die beiden Korrelationen Alter/Grösse und Alter/Wortschatz auf die falsche

Korrelation Grösse/Wortschaft führen.

Signifikanz des Korrelationskoeffizienten

Es ist relativ einfach, den Korrelationskoeffizienten zwischen zwei Datenreihen 8xi< und 8yi< zu berechnen.

Wenn wir wissen, dass die linear Beziehung nicht auf Zufall beruht, können wir dann diese Beziehung für Voraus-sagen von y aus der Kenntnis (oder Voraussage) von x verwenden.

Um festzustellen, ob die berechnete Korrelation eine wirklich vorhandene Beziehung zwischen den Datenreihenausdrückt oder nur auf Zufall beruht, reicht die Grösse des Korrelationskoeffizienten allein nicht aus; es muss einSignifikanztest durchgeführt werden, um festzustellen ob der Korrelationskoeffizient der Population r wirklich von 0verschieden ist.

Ein Signifikanztest verläuft analog zu den Hypothese Tests und enthält die folgenden Schritte:

† Aufstellen der Nullhypothese H0, dass die Korrelation in der Population gleich 0 ist ( r = 0) und der Alternativhy-

pothese (r ∫ 0), was auf einen zweiseitigen Test führt.

† Unter der Annahme, dass die beiden Variablen normalverteilt sind, führt dies auf die folgende Test Statistik

t = r è!!!!!!!!!!!!

n-2ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅè!!!!!!!!!!!!!1-r2

mit einer t-Verteilung und n - 2 Freiheitsgraden.

Wenn die Anzahl der Datenpunkte n erhöht wird, fällt der Wert des Korrelationskoeffizienten r, der notwendig ist, dieNullhypothese (r = 0) zu verwerfen (d.h. t > tc). Einerseits fällt tc (da die Anzahl der Freiheitsgrade n - 2 steigt) undandererseits erhöht sich t (mit

è!!!!!!!!!!!!n - 2 ).

(Lineare) Regression

Einleitung

Als nächstes diskutieren wir ein weiteres Verfahren, die Beziehung zwischen zwei Datenreihen zu quantifizieren: dieRegressionsanalyse. Eine Regression erlaubt uns mit Hilfe einer Variablen x Voraussagen über eine zweite Variable yzu machen, Hypothesen über die Beziehung zwischen den zwei Variablen zu testen und die Stärke der Beziehung zuquantifizieren.

Zur Durchführung einer Regressionsanalyse modelliert man die Werte der "zu erklärenden" Variable y (abhängigeVariable, erklärte Variable, Regressand) als Funktion der Werte der anderen so genannten "erklärenden" Variablen x

Skript Statistik und Stochastik 102

Page 103: Vorlesung Mathematik und Statistik WS 2006 / 2007 · 1. Einleitung Vorbemerkung Die Vorlesung "Mathematik und Statistik", die im WS 2006 / 2007 an der Hochschule Liechtenstein angeboten

(unabhängige Variable, Regressor) und eines Störterms e.

yi = f @xiD + ei = y@xiD + ei

Der Störterm beschreibt die als unsystematisch oder zufällig angesehenen Abweichungen vom exakten funktionalenZusammenhang. Die Funktion legt man bis auf gewisse Parameter vorweg fest und schätzt diese Parameter dann ausden Daten. Die resultierende Kurve y@xD nennen wir die Regressionskurve für y aus x, da von x auf die y geschlossenwird.

Der Rest dieses Abschnitts wird sich mit der Linearen Regression (auch Linear Least Square genannt) mit einereinzigen unabhängigen Variablen x beschäftigen. Es wird also die lineare Beziehung der Form y = b0 + b1 x voraus-gesetzt.

Modell Annahmen

Das Modell der linearen Regression (genauer lineare Einfachregression, da nur eine abhängige Variable x existiert)führt auf den Ansatz

yi = b0 + b1 xi + ei

Diese Gleichung besagt, dass die abhängige Variable yi gleich dem Achsenabschnitt b0 plus der Steigung b1 mal derabhängigen Variable xi plus einem Fehlerterm (Störterm, Residuum) ist. Der Fehlerterm ei repräsentiert denjenigenAnteil der abhängigen Variablen, der nicht durch die abhängige Variable xi erklärt werden kann.

In diesem Modell wird weiters vorausgesetzt, dass ...

† ... die Werte x1, x2, ... deterministisch (d.h. fest gegeben) und nicht alle gleich (d.h. sx2 > 0) sind; dies ist oft nicht

der Fall; wichtig ist vor allem, dass die unabhängige und abhängige Variable unkorreliert sind; dann kann den

Ergebnissen der Regression trotzdem vertraut werden;

† ... für die Verteilung der Fehlerterme (die nicht beobachtet werden können) folgendes gilt:

Erwartungswert@eiD = 0 " i

Varianz@eiD = s2 " i

Kovarianz@ei, e jD = 0 " i ∫ j

Das Modell besitzt drei Parameter: die beiden Regressionskoeffizienten b0 und b1 sowie die Residualvarianz s2.Dies sind Modellparameter (bzw. Parameter der Population) und sind nicht bekannt. Aus den Daten8xi, yi< können siejedoch geschätzt werden.

Mit der Methode der kleinsten Quadrate berechnet man die beiden (aus den Daten geschätzten) Regressionskoeffi-zienten b

`0 und b

`0, mit deren Hilfe man eine Gerade in den Scatterplot einzeichnen kann, die die beobachteten y-Werte

für die vorliegenden Werte von x am besten erklärt.

2 4 6 8 10

2

4

6

8

10

Fig. Scatterplot mit eingezeichneter Regressionsgerade.

Mit Hilfe dieser Regressionskoeffizienten können dann auch die geschätzten Fehler ei und daraus die geschätzteResidualvarianz s

2 berechnet werden.

Das genaue Vorgehen zur Berechnung dieser Parameter wird in den nächsten beiden Abschnitten gezeigt.

Skript Statistik und Stochastik 103

Page 104: Vorlesung Mathematik und Statistik WS 2006 / 2007 · 1. Einleitung Vorbemerkung Die Vorlesung "Mathematik und Statistik", die im WS 2006 / 2007 an der Hochschule Liechtenstein angeboten

Berechnung der (geschätzten) Regressionskoeffizienten b`

0 und b`

1

Um die Parameter b0 und b1 zu bestimmen (bzw. zu schätzen), wird die Methode der kleinsten Quadrate angewandt.Das heisst, dass die Summe der Fehlerquadrate minimiert wird:

⁄i=1n ei

2 = ‚i=1

n Hyi - b0 - b1 xiL2

Um das Minimum zu finden, wird dieser Ausdruck nach b0 und b1 abgeleitet und gleich 0 gesetzt. Die daraus resultier-enden Lösungen für b0 und b1werden mit b

`0 und b

`1 sowie die dazugehörigen Fehler werden mit ei bezeichnet.

Die Ableitung nach b0 und Nullsetzen ergibt für b`

0 die Beziehung:

⁄i=1n ei = ‚

i=1

n Iyi - b`

0 - b`

1 xiM = 0

⁄i=1n

yi - ⁄i=1n

b`

0 - ‚i=1

nb`

1 xi = 0

n yêê - n b`

0 - b`

1 n xêê = 0

b`

0 = yêê - b`

1 xêê

Analog folgt für b`

1:

⁄i=1n ei xi = ‚

i=1

n Iyi - b`

0 - b`

1 xiM xi = 0

⁄i=1n yi xi - b

`0 n x

êê - b`

1 ⁄i=1n xi xi = 0

Wenn man nun die Gleichung für b`

0 (b`

0 = yêê - b`

1 xêê) hier einsetzt folgt:

⁄i=1n

yi xi - Iyêê - b`

1 xêêM n xêê - b

`1 ⁄i=1

nxi xi = 0

b`

1 = ⁄i=1n yi xi-n yêê xêê

ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ⁄i=1n xi xi-n xêê xêê

= ⁄i=1n Hxi-xêêL Hyi-yêêL

ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ⁄i=1n Hxi-xêêL2 = Covaricance@x,yDÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅVariance@xD =

sx yÅÅÅÅÅÅÅÅsx

2

Dabei wurde benutzt, dass ...

⁄i=1n Hxi - xêêL Hyi - yêêL = ⁄i=1

n xi yi - yêê ⁄i=1n xi - xêê ⁄i=1

n yi + n xêê yêê = ⁄i=1n xi yi - n xêê yêê

... und analog dass ...

⁄i=1n Hxi - xêêL2 = ⁄i=1

n xi xi - n xêê xêê.

Zusammenfassend gilt also⁄i=1n ei = 0 und ⁄i=1

n ei xi = 0

b`

1 =sx yÅÅÅÅÅÅÅÅÅsx

2 und b`

0 = yêê - b`

1 xêê = yêê -

sx yÅÅÅÅÅÅÅÅÅsx

2 xêê

Die lineare Regression liefert somit die Parameter b`

0 und b`

1, die die lineare Beziehung (Gerade) zwischen den Daten-reihen beschreiben. Damit lassen sich ...

† ... für ein gegebenes xi das dazugehörige yi voraussagen;

† ... Hypothesen über die Parameter b`

0 und b`

1 testen; und

† ... die Stärke der Beziehung zwischen den beiden Variablen x und y quantifizieren.

Eigenschaften der Regressionsgerade

Die Regressionsgerade hat einige interessante Eigenschaften.

Skript Statistik und Stochastik 104

Page 105: Vorlesung Mathematik und Statistik WS 2006 / 2007 · 1. Einleitung Vorbemerkung Die Vorlesung "Mathematik und Statistik", die im WS 2006 / 2007 an der Hochschule Liechtenstein angeboten

† Mittlere Gerade. Die Regressionsgerade läuft genau durch den Schwerpunkt {xêê,yêê} der Punktwolke, da gemäss

Definition von b`

0 gilt: yêê = b`

0 + b`

1 xêê

† Steigungsregression: es gilt bˆ1 =

sxy�������sx2 = rxy

sy�����sx

.

† das Vorzeichen der Steigung entspricht dem Vorzeichen des Korrelationskoeffizienten rxy;

† die Steigung hängt vom Verhältnis der beiden Varianzen sx, sy ab;

† bei gegebenen Varianzen verläuft die Gerade um so flacher je schwächer der lineare statistische Zusammen-

hang zwischen den Variablen ist;

† Varianzminimierung. Die Varianz der Regressionsabweichungen wird minimiert.

Berechnung der Residualvarianz s2 (standard error of estimate)

Manchmal beschreibt die lineare Regression den Zusammenhang zwischen x und y recht gut, manchmal aber auchnicht. Wir müssen in der Lage sein, zwischen diesen zwei Fällen zu unterscheiden, um die Regressionsanalyse auchwirkunsvoll einsetzen zu können.

Ein Mass für die Güte der gefundenen Regressionsbeziehung ist die sogenannte Residualvarianz s2, die mit Hilfe der Daten folgendermassen geschätzt wird:

s2= 1ÅÅÅÅÅÅÅÅÅÅÅ

n-2 ⁄i=1

n ei2= 1ÅÅÅÅÅÅÅÅÅÅÅ

n-2 ‚

i=1

n Iyi - b`

0 - b`

1 xiM2

Die Wurzel aus diesem Ausdruck (d.h. s) wird auch mit (geschätztem) Standardfehler der Regression sowie imEnglischen mit "standard error of estimate" (SEE) oder mit "standard error of the regression" bezeichnet.

Bei der Berechnung der Residualvarianz wird im Nenner der Faktor n - 2 verwendet, weil n Datenpunkte vorliegenund das lineare Regressionsmodell zwei Parameter (die beiden Regressionskoeffizienten b

`0 und b

`1) abschätzt: der

Freiheitsgrad, d.h. die Differenz zwischen der Anzahl Beobachtungen und der Anzahl Parameter, ist demzufolge gleichn - 2.

Zur Berechnung von s2 ist es nicht notwendig, die Fehlerterme zu berechnen. Es gilt:

s2

= 1ÅÅÅÅÅÅÅÅÅÅn-2 ‚

i=1

n Iyi - b`

0 - b`

1 xiM2

= 1ÅÅÅÅÅÅÅÅÅÅn-2 ‚

i=1

n Iyi - yêê + b`

1 xêê - b

`1 xiM2

= 1ÅÅÅÅÅÅÅÅÅÅn-2 J⁄i=1

n Hyi - yêêL2 + b`

1

2 ⁄i=1

n Hxi - xêêL2 - 2 b`

1 ⁄i=1n Hyi - yêêL Hxi - xêêLN

= nÅÅÅÅÅÅÅÅÅÅn-2 Jsy

2 + b`

1

2 sx

2 - 2 b`

1 sx yN= nÅÅÅÅÅÅÅÅÅÅ

n-2 Jsy2 - b

`1

2 sx

2NIm letzten Schritt wurde die Beziehung sx y = b

`1 sx

2 ausgenutzt. Es folgt also:

s2 = nÅÅÅÅÅÅÅÅÅÅÅn-2

Jsy2 - b

`1

2 sx

2N = nÅÅÅÅÅÅÅÅÅÅÅn-2

Jsy2 -

sx y2

ÅÅÅÅÅÅÅÅÅÅÅÅsx

2 NMan sieht also, dass alle drei Parameter b

`0, b

`1 und s

2 nur von den fünf Grössen xêê, yêê, sx , sy und sx,y abhängen.

Berechnung der Varianzen für b`

0 und b`

1

Die Regressionskoeffizienten b0 und b1 (des Modells) können nicht exakt bestimmt werden; die geschätzten b`

0 undb`

1hängen von den vorliegenden Stichprobenwerten yi ab.

Skript Statistik und Stochastik 105

Page 106: Vorlesung Mathematik und Statistik WS 2006 / 2007 · 1. Einleitung Vorbemerkung Die Vorlesung "Mathematik und Statistik", die im WS 2006 / 2007 an der Hochschule Liechtenstein angeboten

Wir können jedoch die Varianz dieser Koeffizienten bestimmen und so den möglichen Fehler abschätzen. Es gilt:

b`

1 = ⁄i=1n Hxi-xêêL Hyi-yêêL

ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ⁄i=1n Hxi-xêêL2 = 1ÅÅÅÅÅÅÅÅÅÅÅÅ

n sx2 ⁄i=1

n Hxi - xêêL yi

da ⁄i=1n Hxi - xêêL yêê = yêê ⁄i=1

n Hxi - xêêL = 0

Für die Varianz folgt:

V @b`1D = I 1ÅÅÅÅÅÅÅÅÅÅÅÅn sx

2 M2 ⁄i=1

n Hxi - xêêL2 V @yiD= I 1ÅÅÅÅÅÅÅÅÅÅÅÅ

n sx2 M2

s2 ⁄i=1n Hxi - xêêL2

= I 1ÅÅÅÅÅÅÅÅÅÅÅÅn sx

2 M2 s2 n sx

2 = s2

ÅÅÅÅÅÅÅÅÅÅÅÅn sx

2

Bei dieser Herleitung wurde benutzt, dass V @yiD = V @eiD = s2 gemäss Annahme.

Analog berechnet man V @b`0D, so dass zusammenfassend gilt:

Varianzen der Regressionskoeffizienten:

V@b`1D = s2ÅÅÅÅÅÅÅÅÅÅÅÅn sx

2 = s2ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ⁄i=1

n Hxi-xêêL2 und V@b`0D = V@b`1D ⁄i=1n xi

2

ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅn

=s2 ⁄i=1

n xi2

ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅn ⁄i=1

n Hxi-xêêL2

Die Varianzen (Fehler) beider Schätzer hängen proportional von s2 und umgekehrt proportional von sx2 ab.

Ist s2 gross, so streuen die Punkte stark um die Gerade. Ist s2 klein, liegen die Punkte nahe an der Gerade und dieGerade kann genauer festgelegt werden.

Ist sx2 klein, dann streuen die x-Werte kaum und nur ein kleiner Abschnitt auf der x-Achse dient zur Bestimmung der

Geraden. Für grosse sx2 kann die Gerade deshalb genauer bestimmt werden. Für eine verlässliche Schätzung der

Steigung wird eine hinreichend grosse Streuung der erklärenden Variablen x benötigt. Ausserdem sollte die Geradenicht über den Bereich der gegebenen x-Werte hinaus extrapoliert werden.

Bestimmtheitsmass R2 (coefficient of determination)

Obwohl die Residualvarianz s2 uns einen Hinweis darauf gibt, wie zuverlässig wir ein bestimmtes y voraussagen können, sagt sie uns trotzdem noch nicht, wie gut die unabhängige Variable die Variation in der abhängigen Variablen erklären kann.

Dies leistet uns jedoch das sogenannte Bestimmtheitsmass. Es misst den Anteil an der ganzen Variation in y, der durch die Variation in x erklärt werden kann und kann auf zwei Arten berechnet werden:

Allgemeiner Fall: R2 =s

y2

ÅÅÅÅÅÅÅÅÅsy

2 = 1 -se

2

ÅÅÅÅÅÅÅÅÅsy

2

Spezieller Fall (eine unabhängige Variable x): R2 = rx y2

Anschaulich

Diese Beziehung für das Bestimmtheitsmass (ein Mass, wie gut ein yi bei gegebenem xi vorausgesagt werden kann),kann folgendermassen gefunden werden.

Wenn wir nicht wissen, wie die abhängige Variable y von der unabhängigen Variablen x abhängt, dann dient derMittelwert yêê als beste Voraussage. Ein Mass für die Güte der Voraussage besteht in diesem Fall in der (totalen)Varianz von y, d.h. 1ÅÅÅÅÅÅÅÅÅÅ

n-1 ⁄i=1n Hyi - yêêL2.

Wenn wir jedoch bereits mittels Regression einen Zusammenhang zwischen den xi und den yi gefunden haben, dannkönnen wir diese Beziehung dazu benutzen, das yi mittels yi = b

`0 + b

`1 x genauer (als mit dem Mittelwert) voraus-

zusagen. Falls die Regressionsbeziehung y gut zu erklären vermag, dann sollte der resultierende Fehler kleiner sein als

mit dem Mittelwert. Wenn wir den Ausdruck ⁄i=1n Hyi - yêêL2 als totale Variation und ‚

i=1

n Hyi - yiL2= ⁄i=1

n ei2

als

Skript Statistik und Stochastik 106

Page 107: Vorlesung Mathematik und Statistik WS 2006 / 2007 · 1. Einleitung Vorbemerkung Die Vorlesung "Mathematik und Statistik", die im WS 2006 / 2007 an der Hochschule Liechtenstein angeboten

unerklärte Variation (die nach der Regression noch übrig bleibt) bezeichnen, dann können wir das BestimmtheitsmassR2 folgendermassen definieren:

R2 = erklärte VariationÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅtotale Variation = 1 - unerklärte VariationÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅtotale Variation = 1 -‚

i=1

n Hyi- yiL2

ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ⁄i=1n Hyi-yêêL2 = 1 -

se2

ÅÅÅÅÅÅÅÅsy

2

Ausführlicher

Im Folgenden soll diese Beziehung noch etwas genauer und ausführlicher hergeleitet werden.

In den vorangegangenen Abschnitten wurden aus vorliegenden Beobachtungen 8xi, yi< die Regressionskoeffizienten b`

0

und b`

1 berechnet bzw. geschätzt. Diese Koeffizienten können nun benutzt werden, um für eine unabhängige Variablexi den Wert für die abhängige Variable yi zu schätzen bzw. zu prognostizieren nach der Formel yi

` = b`

0 + b`

1 xi. Mitdem Ansatz:

yi = yi` + ei

und der Mittelung folgt (da ⁄i=1n ei = 0):

yêê = yêê+ eê= y

êê

Für die Varianz gilt weiters:

sy2 = 1ÅÅÅÅ

n ⁄i=1

n Hyi - yêêL2 = 1ÅÅÅÅn ‚

i=1

n Iyi` + ei - y

êêM2

= 1ÅÅÅÅn J‚

i=1

n Iyi` - y

êêM2+ 2 ‚

i=1

neiIyi

` - yêêM + ‚

i=1

n Iei - eêM2N

= sy2 + se

2

Zur Herleitung wurde beim dritten Term benutzt, dass eê= 0 ist und deshalb eingefügt werden kann, sowie beim

zweiten Term, dass:

‚i=1

neiIyi

` - yêêM = ⁄i=1

n ei yi` - y

êê ⁄i=1

n ei = ‚i=1

neiIb`0 + b

`1 xiM - 0

= b`

0 ⁄i=1n ei + b

`1 ⁄i=1

n ei xi = 0 + 0 = 0

Beim letzten Schritt wurde ⁄i=1n ei xi = 0 benutzt; diese Beziehung war ein Resultat der Anwendung der Methode der

kleinsten Quadrate zur Bestimmung von b`

0 und b`

1.

Die hergeleitete Beziehung bezeichnet man auch als Varianzzerlegungssatz: sy2 = sy

2 + se2

Die Varianz der abhängigen Variablen y lässt sich demnach in zwei Teile aufspalten.

† sy2 ist die Varianz der exakt auf der Regressionsgeraden liegenden Werte yi

` . Da die Definition von yi` = b

`0 + b

`1 xi

in die berechnete Regressionsgerade eingeht, nennt man s y2 auch den durch die Regression erklärten Teil der

Varianz sy2.

† se2 ist die Varianz der Residuen ei, die sogenannte Residualvarianz oder die durch die Regression nicht erklärte

Varianz.

Der obige Varianzzerlegungssatz ist auch die Basis für die Definition einer Masszahl zur Beurteilung der Güte oderder Qualität einer berechneten Regressionsgeraden: das Bestimmtheitsmass. Es ist folgendermassen definiert:

Das Bestimmtheistsmass R2 =s y

2

ÅÅÅÅÅÅÅÅÅsy

2 = 1 -se

2

ÅÅÅÅÅÅÅÅÅsy

2 ist der Anteil der durch die Regression erklärten Varianz an der Varianz der

y-Werte.

Es gilt:

Skript Statistik und Stochastik 107

Page 108: Vorlesung Mathematik und Statistik WS 2006 / 2007 · 1. Einleitung Vorbemerkung Die Vorlesung "Mathematik und Statistik", die im WS 2006 / 2007 an der Hochschule Liechtenstein angeboten

† 0 § R2 § 1

† Es ist R2 = 1, wenn die Residualvarianz se2 = 0 ist; d.h. wenn alle empirischen Residuen ei = 0 sind; d.h. wenn alle

Punkte 8xi, yi< exakt auf der Regressionsgeraden liegen. In diesem Fall werden 100% der Varianz sy2 der y-Werte

durch die Regression erklärt.

† Es ist R2 = 0, wenn die erklärte Varianz s y2 = 0 ist; d.h. wenn y1

` = y2` =. .. = yn

` . Dann verläuft die Regressions-

gerade parallel zur x-Achse; die Variation der y-Werte wird nicht durch die Variation der x-Werte erklärt.

Für die konkrete Berechnung des Bestimmtheitsmasses muss nicht auf die Berechnung von se2 zurückgegriffen

werden, da mit Hilfe von ...

sy2 = 1ÅÅÅÅ

n ‚

i=1

n Hyi` - yêêL2

= 1ÅÅÅÅn ‚

i=1

n IIb`0 + b`

1 xiM - Ib`0 + b`

1 xêêMM2

= b`

12

ÅÅÅÅÅÅÅÅÅn

⁄i=1n Hxi - xêêL2 = b

`1

2 sx

2

... für R2 folgt:

R2 =s y

2

ÅÅÅÅÅÅÅÅsy

2 = b`

12 sx

2

ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅsy

2 =

sx y2

ÅÅÅÅÅÅÅÅÅÅÅÅÅÅsx

22 sx2

ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅsy

2 = I sx yÅÅÅÅÅÅÅÅÅÅÅsx sy

M2= rx y

2

Das Bestimmtsheitsmass R2 ist also das Quadrat des Korrelationskoeffizienten rx y: R2 = rx y2

Intervallschätzung und Tests

Nachdem wir die Parameter b`

0 und b`

1 bestimmt haben, interessiert uns natürlich die Frage, ob die Daten durch eineGerade gut approximiert werden, oder weiters wie gross die Zuverlässigkeit der gefundenen Parameter ist.

Um Konfidenzintervalle für b`

0, b`

1 oder s2 konstruieren und Hypothesen über die Parameter testen zu können, nimmt

man zusätzlich an, dass die Residuen gemeinsam normalverteilt sind.

Ohne Herleitung seien die wichtigsten Ergebnisse angegeben:

Konfidenzintervall zum Niveau 1 - a:

b`

0 : b`

0 ≤ sb`

0 tn-2,1-aê2

b`

1 : b`

1 ≤ sb`

1 tn-2,1-aê2

s2 : A Hn-2L s2

ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅc2

n-2, 1-aê2 , Hn-2L s2

ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅc2

n-2, aê2 EHypothesen über b

`0 und b

`1 testet man mit den folgenden t-Tests:

Hypothesentests:

b`

0 : T =b`

0-b`

0,0ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅsb0

∂ tn-2

b`

1 : T =b`

1-b`

1,0ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅsb1

∂ tn-2

wobei getestet wird ob die geschätzten Werte b`

0 und b`

1 mit den Werten b`

0,0 bzw. b`

1,0 übereinstimmen.

Prognose

In den vorangehenden Abschnitten haben wir die Zuverlässigkeit der linearen Regression und den Fehler der Korrela-tionskoeffizienten und der Residualvarianz untersucht.

In der Praxis ist es häufig wünschenswert eine Regressionsanalyse dazu zu benutzen, um eine Prognose für eineabhängige Variable zu machen, konkret um für ein gegebenes zusätzliches xi+1 das dazugehörige yi+1 zu schätzen.

Skript Statistik und Stochastik 108

Page 109: Vorlesung Mathematik und Statistik WS 2006 / 2007 · 1. Einleitung Vorbemerkung Die Vorlesung "Mathematik und Statistik", die im WS 2006 / 2007 an der Hochschule Liechtenstein angeboten

Wir wollen jedoch nicht nur diese Prognose machen, sondern auch den dabei auftretenden Fehler dieses Wertesabschätzen können. Dies ist der Gegenstand dieses Abschnitts.

Nachdem wir für die Daten 8xi, yi< eine lineare Regression durchgeführt haben, können wir naheliegenderweise ansetzen:

Y`

i+1 = b`

0 + b`

1 xn+1. Der Wert Y`

i+1 heisst Punktprognose.

Wir müssen berücksichtigen, dass wir bei der Benutzung des Regressionsmodells

Yi+1 = b0 + b1 xn+1 + en+1

und der geschätzten Parameter b`

0 und b`

1, zwei Quellen von Fehlern haben. Wenn wir für den Prognosefehler ansetzen...

Y`

i+1 - Yi+1 = b`

0 + b`

1 xn+1 - Hb0 + b1 xn+1 + en+1L... sehen wir, dass die erste Quelle der Fehlerterm (en+1) ist, dessen Fehler mit der Residualvarianz abgeschätzt werdenkann. Die zweite Quelle ist der Fehler bei der Bestimmung der geschätzten Regressionskoeffizienten b

`0 und b

`1.

Wenn wir die wahren Werte der Regressionskoeffizienten wüssten, dann wäre die Varianz des Prognosefehlers gleichder Residualvarianz s2.

Eine genauere Untersuchung zeigt (ohne Herleitung):

Prognosefehler

Erwartungswert: EAY` i+1 - Yi+1E = 0

Varianz: VAY` i+1 - Yi+1E = s2I1 + 1ÅÅÅÅn+ Hxn-1-xêêL2

ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅn sX

2 MDie Varianz des Prognosefehlers ist offenbar dann am kleinsten, wenn xn-1 = xêê. Sie wächst quadratisch mit demAbstand zwischen xn+1 und xêê.

Wenn man für s2 die geschätzte Varianz s2 einsetzt, erhält man die geschätzte Varianz für die Varianz des Prognosefe-

hlers: V` AY` i+1 - Yi+1E = s

2I1 + 1ÅÅÅÅn+ Hxn-1-xêêL2

ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅn sX

2 M

Da die Grösse Y`

i+1-Yi+1ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅV` AY` i+1-Yi+1E eine Student-t Verteilung hat (mit n - 2 Freiheitsgraden) kann dies dazu benutzt werden, ein

Prognoseintervall zu bilden: Y`

i+1 ¡V` AY` i+1 - Yi+1E tn-2,1- aÅÅÅÅÅ2

Unter der Normalverteilungsannahme an die Residuen überdeckt dieses Intervall die zukünftige Beobachtung Yn+1 mitWahrscheinlichkeit 1 - a.

Mathematica Lineare Regression - b`

0 und b`

1 Berechnungen

Beispiel mit Covariance und Mean

Für unser obiges Beispiel erhalten wir somit:

<< Statistics`MultiDescriptiveStatistics`

PrintA"b1 = ", b1 =Covariance@X, YD����������������������������������������������Covariance@X, XD E;

Print@"b0 = ", b0 = Mean@YD − b1 Mean@XDD;b1 = 0.908857

b0 = 1.71238

Die folgende Graphik überlagert die Datenpunkte und die gefundene Regressionsgerade.

Skript Statistik und Stochastik 109

Page 110: Vorlesung Mathematik und Statistik WS 2006 / 2007 · 1. Einleitung Vorbemerkung Die Vorlesung "Mathematik und Statistik", die im WS 2006 / 2007 an der Hochschule Liechtenstein angeboten

2 4 6 8 10

2

4

6

8

10

Mathematica kennt eine Reihe von eingebauten Funktionen, die auch zur Bestimmung der Regressionsgeraden verwen-det werden können: FindFit, Fit, Regress etc.

Auf dies wird hier nicht weiter eingegangen.

Skript Statistik und Stochastik 110

Page 111: Vorlesung Mathematik und Statistik WS 2006 / 2007 · 1. Einleitung Vorbemerkung Die Vorlesung "Mathematik und Statistik", die im WS 2006 / 2007 an der Hochschule Liechtenstein angeboten

12. Zeitreihen

EinleitungIn diesem Kapitel soll speziell auf Zeitreihen, d.h. Beobachtungen, die zu bestimmten Zeitpunkten in normalerweisegleichen Zeitabständen aufgenommen wurden (z.B Jahresproduktion, Schlussnotierungen von Aktien an der Börse),eingegangen werden.

Es ist allgemeine Konvention, die Zeit (an Stelle von x) mit t zu bezeichnen. Sie ist die unabhängige Variable in denmathematischen Überlegungen.

Eine Zeitreihe kann anschaulich in einer Graphik (mit der Abszisse t) dargestellt werden. Die Erfahrung hat gezeigt,dass es bestimmte charakteristische Bewegungen und Variationen gibt, die einzeln oder auch gemeinsam auftretenkönnen. Die Analyse und Separation der einzelnen Variationen ist vor allem auch im Hinblick auf Voraussagen fürzukünftige Entwicklungen von grosser Wichtigkeit. Diese Analyse nimmt in vielen Bereichen eine sehr wichtigeStellung ein.

Die charakteristischen Variationen von Zeitreihen können in vier Haupttypen eingeteilt werden:

† Langfristige (säkulare) Variation (Bewegung, Trend)

Diese Variation beschreibt die allgemeine Richtung, in die sich der y-Wert über eine lange Zeitspanne bewegt.

Dies kann durch eine Trendlinie bzw. Trendkurve beschrieben werden.

† Zyklische Variation

Diese Variation beschreibt die langfristigen Schwankungen um die Trendlinie oder Trendkurve und werden auch

als Zyklen bezeichnet (Konjunkturzyklen).

† Saisonale Variation

Diese Variation beschreibt die identischen oder fast identischen Muster, denen eine Zeitreihe in den entsprech-

enden Monaten oder Quartalen von aufeinanderfolgenden Jahren unterworfen ist (z.B. Weihnachtsgeschäft).

Saisonal heisst zwar üblicherweise jährliche Regularität; man kann dieses Konzept jedoch auch auf Monate, Tage

oder Stunden erweitern.

† Zufällige (irreguläre) Variation

Diese Variation beschreibt sporadische, zufällige und in der Regel kurzzeitige Variationen. Die Ursachen können

jedoch auch langfristige Folgen haben.

Trendschätzung

Zur Schätzung des Trends (bzw. der mathematischen Beschreibung des Trends) bieten sich die folgenden Methodenan:

† Methode der kleinsten Quadrate

Man wählt eine geeignete Trendkurve (Modell mit geeigneter Anzahl der Parameter) und findet mit der Methode

der kleinsten Quadrate die Parameter dieser Kurve.

† Freihand Methode

Man zeichnet von Hand den Trend in die Graphik ein. Diese Methode hat den Nachteil, dass die gefundene

Lösung vom persönlichen Urteil des Zeichnenden abhängt und nicht reproduzierbar ist.

† Methode des gleitenden Durchschnitts (siehe auch später)

Damit können zyklische, saisonale und irreguläre Muster (wenigsten zum Teil) beseitigt werden. Diese Methode

hat den Nachteil, dass Daten am Anfang und Ende einer Reihe verloren gehen. Sie kann auch Zyklen vortäuschen,

Skript Statistik und Stochastik 111

Page 112: Vorlesung Mathematik und Statistik WS 2006 / 2007 · 1. Einleitung Vorbemerkung Die Vorlesung "Mathematik und Statistik", die im WS 2006 / 2007 an der Hochschule Liechtenstein angeboten

die in den Ausgangsdaten nicht vorhanden waren. Mit spezieller Gewichtung kann dieses Problem gemildert

werden.

† Methode der Semi-Mittelwerte

Man trennt die Daten in zwei (vorzugsweise gleich lange) Teile und bestimmt in beiden Teilen den Durchschnitt.

Mit diesen zwei Punkten wird dann eine Trendlinie gezogen. Dies funktioniert nur bei linearen oder fast linearen

Trends. Die Methode kann erweitert werden, indem man die Daten in mehr als zwei Teile teilt.

Saisonale Variation

Um den saisonalen Beitrag zur resultierenden Variation zu bestimmen, muss abgeschätzt werden wie die Daten derZeitreihe im Verlaufe eines durchschnittlichen Jahres von Monat zu Monat schwanken. Gesucht wird also der Saisonin-dex, bei dem für jeden Monat ein %Wert relativ zum Wert des gesamten Jahres (der gleich 1200% ist) steht.

Zur konkreten Berechnung bieten sich die folgenden Methoden an:

† Methode "Durchschnittliche Prozente"

Bei dieser Methode werden die Daten für jeden Monat als Prozentsatz für das ganze Jahr angegeben. Die

Monatswerte mehrerer Jahre werden dann gemittelt (arithmetischer Mittelwert, Median). Die erhaltenen Pro-

zentsätze müssen eventuell noch auf 1200% für das ganze Jahr skaliert werden.

† Methode "Prozent Trend"

Bei dieser Methode werden die Daten für die einzelnen Monate als Prozentsätze der monatlichen Trendwerte

angegeben. Wiederum ergibt eine Mittelung über mehrere Jahre den erforderlichen Saisonindex.

† Methode "Prozent Gleitender Durchschnitt"

Wenn die monatlichen Ausgangsdaten durch die entsprechenden saisonalen Indexzahlen geteilt werden, spricht manvon Desaisonalisierung oder Anpassung auf Grund von saisonaler Variation. Solche Daten umfassen nach wie vorTrend-, zyklische und irreguläre Variationen.

Zyklische Variation

Nach der Elimination des Trends und der saisonalen Schwankungen bleiben noch die zyklischen und irregulärenSchwankungen übrig. Wenn man die angepassten Daten (z.B.) über mehrere Monate mittelt, können auch noch dieirregulären Anteile eliminiert bzw. verkleinert werden, und man erhält die zyklische Variation.

Irreguläre Variaton

Nach den bisherigen Korrekturen bleiben noch die irregulären Variationen übrig. Sie sind in der Regel klein undfolgen einer Normal-Verteilung, d.h. dass kleine Abweichungen sehr häufig und grosse eher selten auftreten.

Achtung bei Extrapolationen

Die obigen Verfahrensschritte liefern eine mathematische Beschreibung der verschiedenen Variationen und könnenohne weiteres in die Zukunft extrapoliert werden. Es versteht sich von selbst, dass sich die Wirklichkeit nicht immer anunsere Vorstellungen und Erwartungen hält und (in der Regel) auch nicht alle möglichen Einflüsse im mathematischenModell berücksichtigt werden (können).

Skript Statistik und Stochastik 112

Page 113: Vorlesung Mathematik und Statistik WS 2006 / 2007 · 1. Einleitung Vorbemerkung Die Vorlesung "Mathematik und Statistik", die im WS 2006 / 2007 an der Hochschule Liechtenstein angeboten

Simulation

In dieser Simulation wird (exemplarisch) gezeigt, wie der Ansatz

DatenPunkt = Trend * Zyklisch * Saisonal * Irregulär

programmiert und simuliert werden kann. Da die einzelnen Anteile multiplikativ miteinander verknüft werden, werdendie Anteile als relative Abweichung von 1 (1 bedeutet keinen Einfluss) definiert.

Langfristige Variation (Trend) (blau): f1HxL = 0.05 x + 1

Zyklische Variation (in der Regel jedoch nicht periodisch, grün): f2HxL = 0.2 sinH 2 p xÅÅÅÅÅÅÅÅÅÅÅ6 L + 1

Saisonale Variation (periodisch, magenta): f3HxL = 0.1 sinH2 p xL + 1

Zufällige Variation (cyan): f4HxL = .05 Random@D + 1

Summe aller Variationen (rot): fAllHxL = f1HxL f2HxL f3HxL f4HxL;Der Plot zeigt sehr schön die einzelnen Anteile.

Plot@8fAll@xD, f1@xD, f2@xD − 1, f3@xD − 1, f4@xD − 1<, 8x, 0, 10<,PlotStyle → 8Red, Blue, Green, Magenta, Cyan<, PlotRange → AllD;

2 4 6 8 10

0.5

1

1.5

Es ist auch manchmal üblich für die Berechnung (an Stelle des Produkts) eine Summe zu verwenden. Dann sind dieeinzelnen Bewegungen absolut und nicht als relativ (um 1 schwankend) einzugeben. Je nach vorliegender Aufgabenstel-lung ist die eine oder andere Wahl vorteilhaft.

Im Folgenden ginge es nun darum, die einzelnen Beiträge aus der beobachteten Variation herauszufiltern. Für die vierBeiträge (der hier besprochenen Haupttypen) gibt es unterschiedliche Verfahren.

Skript Statistik und Stochastik 113

Page 114: Vorlesung Mathematik und Statistik WS 2006 / 2007 · 1. Einleitung Vorbemerkung Die Vorlesung "Mathematik und Statistik", die im WS 2006 / 2007 an der Hochschule Liechtenstein angeboten

13. Stochastische Differentialgleichungen

Einleitung

Stochastische Differentialgleichungen (SDE) spielen nicht nur in der Physik (1905, Paper von Albert Einstein über dieBrown'sche Bewegung), sondern auch in der Finanzmathematik eine wichtige Rolle.

In diesem Kapitel soll exemplarisch die Preisentwicklung einer Aktie beschrieben werden.

Aktie

Die Preisentwicklung einer Aktie wird durch eine Stochastische Differentialgleichung beschrieben

„ y HtL = a y HtL „ t +s y HtL „B HtLyHt0L = y0

Über die effektive Preisentwicklung können nur Wahrscheinlichkeitsaussagengemacht werden.

Im Vergleich zu (praktisch) risikofreien Instrumenten wie Cash Accounts sind Investitionen in risikoreicheWertschriften wie z.B. Aktien mit grösseren Unsicherheiten behaftet.

Aktien haben einen Preis auf dem offenen Markt, der sich praktisch kontinuierlich ändert. Diese Fluktuationen desAktienpreises stellen die konstante Suche nach einem fairen Preis dar. Zusätzlich zu diesen (zufälligen) Fluktuationengibt es eine mehr oder weniger kontinuierliche (in der Zeit) Zunahme oder Abnahme des Werts, die auf das wirtschaftli-che Umfeld oder firmenspezifische Faktoren zurückzuführen sind.

Stochastiche Differentialgleichung

Die Berechnung des Werts einer Aktie ist aus den angeführten Gründen nicht so einfach wie die Berechnung des Wertsvon Cash. Die Änderung des Werts ist nicht nur von der Zeit und dem momentanten Wert der Aktie abhängig. Inkomplizierter Art und Weise hängt die Änderung ausserdem von vielen weiteren Dingen ab (Inflationsrate, Zins,Arbeitslosigkeit, Währungskurse, etc.), die nicht mit genügender Genauigkeit modelliert werden können.

Aus diesem Grund wird der Differenzialgleichung ein Zufallselement hinzugefügt, das diese nicht deterministischenTerme enthalten soll. Dies führt auf den folgenden Ansatz für die zeitliche Änderung des Werts einer Aktie:

(1)„ yHtL = aHt, yHtLL „ t + sHt, yHtLL „BHtLyHt0L = y0

wo a(t,y(t)) „t den deterministischen Teil und s(t,y(t)) „B(t) den zufälligen Teil beschreibt. „BHtL ist dabei das"Differential" der Brownschen Bewegung BHtL, und sHt, yL eine gegebene Funktion ( sHt,yHtLL

ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅyHtL wird Volatilität genannt).

Mit Brown'scher Bewegung ist gemeint, dass die „BHtL's (unabhängige) normal verteilte Zufallsvariablen sind, mitMittelwert 0 und Standard Abweichung

è!!!!!!!„ t (Varianz „ t), i.e.,

„BHtL~NI0,è!!!!!!!„ t M.

Die obige Gleichung wird Stochastische Differenzialgleichung (SDE: stochastic differential equation) oder präziserStochastische Gewöhnliche Differenzialgleichung genannt.

Zusätzlich wird im obigen Gleichungssystem auch noch die Randbedingung - d.h. der anfängliche Wert der Aktie yHt0L- festgelegt.

Skript Statistik und Stochastik 114

Page 115: Vorlesung Mathematik und Statistik WS 2006 / 2007 · 1. Einleitung Vorbemerkung Die Vorlesung "Mathematik und Statistik", die im WS 2006 / 2007 an der Hochschule Liechtenstein angeboten

Brown'sche Bewegung

Zuerst soll die Brown'sche Bewegung etwas Genauer untersucht werden. Dazu wird im Folgenden die Funktion"BrownianMotion" definiert und verwendet:

Als Input verlangt sie die Startzeit (t0), die Endzeit (t1), den Anfangswert (y0) sowie die Anzahl der Schritte (K) derBrown'schen Bewegung.

Bei der Berechnung, die auch auf das Statistik Paket zurückgreift, werden zuerst die Schrittweite (dt), dann die Listeder einzelnen Schritte (dB, wobei Schritte aus einer Normalverteilung mit Varianz dt stammen) und schlussendlich mitFoldList auch noch die Listen mit den Zeitpunkten und den aufsummierten Schritten (d.h. die Trajektorie) zu diesenZeitpunkten berechnet.

Diese drei Listen werden von der Funktion als Output retourniert.

Needs@"Statistics`NormalDistribution "D;BrownianMotionHt0_, t1_, y0_, K_L := ModuleB8dt, dB<, dt = NB t1 - t0

ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅK

F;9dB = TableARandomANormalDistributionI0,

è!!!!!!dt ME, 8K<E, FoldList@8dt + #1P1T, #1P2T + #2< &, 80, 0<, dBD=F;

Im Folgenden werden vier solcher Trajektorien berechnet. Jeder Aufruf dieser Funktion gibt auf Grund des Aufrufsvon "Random" in der Funktion BrownianMotion eine andere Trajektorie. Mit "Interpolation" wird zum Plottenzwischen den Punkten der Trajektorie linear interpoliert.

Plot@Evaluate@Table@Interpolation@BrownianMotionH0, 1, 0, 100LP2T, InterpolationOrder Ø 1D@sD, 84<DD,8s, 0, 1<, PlotStyle Ø 8Red, Green, Blue, Black<, AxesLabel Ø 8"Zeit", ""<D;

0.2 0.4 0.6 0.8 1Zeit

-1

-0.5

0.5

1

1.5

2

2.5

Monte-Carlo Lösung der SDE

Nachdem wir gesehen haben, wie die Brown'sche Bewegung programmiert werden kann, soll nun die SDE gelöstwerden. Lösen heisst hier, ein Verfahren zu finden, um den Verlauf des Aktienpreises (je nach Verlauf derBrown'schen Bewegung) zu berechnen. Die SDE lautet in der diskretisierten Darstellung

(2)yi+1 = yi + aHti, yiL „ t + sHti, yiL „Bi

Zur Lösung der SDE wird die Funktion "SDESolver" verwendet. Im Vergleich zu "BrownianMotion" wird hier nichtnur die Schrittlänge aufsummiert, sondern alle in der obigen Gleichung gegebenen Terme. Beim Aufruf der Funktionmuss auch die Drift aHt, yL und die nicht-deterministische Funktion sHt, yL eingegeben werden. Die Funktion "SDES-olver" wird folgendermassen definiert:

Needs@"Statistics`NormalDistribution "D;SDESolverHaFunc_, sFunc_, t0_, t1_, y0_, K_L :=

ModuleB8dt, G<, dt = NB t1 - t0ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ

KF; GH8t_, y_<, db_L := 8dt + t, y + dt aFuncHt, yL + db sFuncHt, yL<;

FoldListAG, 8t0, y0<, TableARandomANormalDistributionI0,è!!!!!!

dt ME, 8K<EEF;Die einfachste SDE für eine Aktienpreis Entwicklung stellt die spezielle Wahl der Funktionen aHti, yiL = a yi undsHti, yiL = s yi dar:

Skript Statistik und Stochastik 115

Page 116: Vorlesung Mathematik und Statistik WS 2006 / 2007 · 1. Einleitung Vorbemerkung Die Vorlesung "Mathematik und Statistik", die im WS 2006 / 2007 an der Hochschule Liechtenstein angeboten

(3)„ yHtL = a yHtL „ t + s yHtL „BHtLyHt0L = y0

Experimentell (Monte-Carlo) kann diese Gleichung - mit Hilfe der oben definierten Funktion "SDESolver" - gelöstwerden. Im Folgenden werden a und s gesetzt sowie 10 mögliche Aktienpreisverläufe berechnet und geplottet.

aFuncHt_, y_L := .3 y;

sFuncHt_, y_L := .1 y;

t0 = 0; t1 = 2; y0 = 100; K = 1000;

Plot@Evaluate@Table@Interpolation@SDESolverHaFunc, sFunc, t0, t1, y0, KL, InterpolationOrder Ø 1D@tD, 810<DD,8t, t0, t1<, PlotRange Ø 80, Automatic<,PlotStyle Ø 8Red, Green, Blue, Magenta, Black, Cyan<, AxesLabel Ø 8"Zeit", "Aktienpreis"<D;

0.5 1 1.5 2Zeit

50

100

150

200

Aktienpreis

Symbolische Lösung der SDE

Nach der numerischen Monte-Carlo Lösung soll noch auf die symbolische Lösung der SDE eingegangen werden.

(4)„ yHtL = a yHtL „ t + s yHtL „BHtLyHt0L = y0

Bei Stochastischen Differenzialgleichungen ist zu berücksichtigen, dass nicht die aus der Analysis gewohnten Regeln(z.B. Kettenregel, Produktregel, Integration) zu verwenden sind, sondern die für Stochastische Gleichungen angepass-ten (z.B. Ito Kettenregel, Ito Integration). Auf diese Details wird hier jedoch nicht näher eingegangen.

Mit dem Ansatz für den zeitabhängigen Preis y(t)

(5)z = logHyLund Ausnutzung der Ito Kettenregel

(6)H„ yL2 = s2 y2 „ t

kann man ableiten, dass

(7)„ z = „ logHyL = 1ÅÅÅÅÅÅy „ y +

1ÅÅÅÅÅ2 -1ÅÅÅÅÅÅÅÅÅÅy2

H„ yL2 = a „ t +s „B -1

ÅÅÅÅÅÅÅÅÅÅÅÅÅÅ2 y2

s2 y2 „ t = Ja -1ÅÅÅÅÅÅÅ2

s2N „ t + s „B

Es fällt auf, dass die Drift von z nicht gleich der Drift von y ist. Stochastische Integration liefert dann

(8)zHtL = tikjjja -

s2

ÅÅÅÅÅÅÅÅÅÅ2

y{zzz + s HBHtL - BH0LL + zH0L = t

ikjjja -

s2

ÅÅÅÅÅÅÅÅÅÅ2

y{zzz + s BHtL + logHy0L.

Exponenzieren liefert schliesslich

(9)yHtL = ‰zHtL = ‰Ia- s2ÅÅÅÅÅÅÅÅ2 M t+s BHtL+logHy0L = y0 ‰Ia- s2

ÅÅÅÅÅÅÅÅ2 M t+s BHtL.Diese Gleichung ist nicht besonders nützlich für die Berechnung von y(t), da die Brown'sche Bewegung B(t) nichtgemessen werden kann und y(t) ja sowieso vom Markt geliefert wird.

Die Gleichung liefert jedoch Grenzen für den Verlauf des Preises. Man sieht auch schnell, dass der Median den

Verlauf y0 ‰Ia- s2ÅÅÅÅÅÅÅÅ2 M t hat und etwas tiefer als der Durchschnittspreis (y0 ‰a t) liegt.

Skript Statistik und Stochastik 116

Page 117: Vorlesung Mathematik und Statistik WS 2006 / 2007 · 1. Einleitung Vorbemerkung Die Vorlesung "Mathematik und Statistik", die im WS 2006 / 2007 an der Hochschule Liechtenstein angeboten

Im untenstehenden Plot werden einige (mögliche) Preisentwicklungen (grün), die gegebenen Grenzen (±s innerhalbdessen 68.3% der Werte liegen sollten, ±2 s mit 95.5% und ±3 s mit 99.7%) in schwarz, der Median (blau) sowie derDurchschnitt des Preises (rot) eingezeichnet.

y0 = 70; a = .5; s = .6; t0 = 0; t1 = 1; T = t1 - t0; K = 200;

aFuncHt_, y_L := a y;

sFuncHt_, y_L := s y;

ZHa_, s_, b_, t_L = y0 ‰Ja- s2

ÅÅÅÅÅÅÅÅÅÅ2 N t+b sè!!!

t ;

Show@Plot@Evaluate@Table@Interpolation@SDESolverHaFunc, sFunc, t0, t1, y0, KL, InterpolationOrder Ø 1D@tD, 850<DD,8t, t0, t1<, PlotRange Ø 80, 400<, PlotStyle Ø Green, DisplayFunction Ø IdentityD,Plot@Evaluate@Table@ZHa, s, b, tL, 8b, -3, 3<DD, 8t, 0, T<,

PlotStyle Ø ReplacePart@Table@RGBColor@0, 0, 0D, 86<D, RGBColor@0, 0, 1D, 4D, DisplayFunction Ø IdentityD,Plot@y0 ‰a t, 8t, 0, T<, PlotStyle Ø RGBColor@1, 0, 0D, DisplayFunction Ø IdentityD,DisplayFunction Ø $DisplayFunction, AxesLabel Ø 8"Zeit", "Aktienpreis"<D;

0.2 0.4 0.6 0.8 1Zeit

50100150200250300350400

Aktienpreis

Mehrere Aktien

Die bisherige Untersuchung ging von einer einzelnen Aktie aus. In ähnlicher (jedoch etwas komplizierterer) Weisekönnen auch mehrere Aktien behandelt werden. Bei mehreren Aktien muss die Multinormal Verteilung verwendetsowie die Kovarianz zwischen den Preisen berücksichtigt werden.

Skript Statistik und Stochastik 117