analyse zweidimensionaler daten: regression und korrelation

40
Analyse zweidimensionaler Daten: Regression und Korrelation Ferdinand Österreicher FB Mathematik der Universität Salzburg Lehrer/innen/fortbildungstag ”West” Salzburg, 2. April 2009

Upload: others

Post on 24-Jun-2022

8 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Analyse zweidimensionaler Daten: Regression und Korrelation

Analyse zweidimensionaler Daten:Regression und Korrelation

Ferdinand ÖsterreicherFB Mathematik der Universität Salzburg

Lehrer/innen/fortbildungstag ”West”Salzburg, 2. April 2009

Page 2: Analyse zweidimensionaler Daten: Regression und Korrelation

2

Page 3: Analyse zweidimensionaler Daten: Regression und Korrelation

Inhaltsverzeichnis

1 Vorbereitung 51.1 Der Steinersche Verschiebungssatz . . . . . . . . . . . . . . . . 5

2 Lineare Regression 72.1 Aufgabenstellung . . . . . . . . . . . . . . . . . . . . . . . . . 72.2 Herleitung der homogenen Regressionsgeraden . . . . . . . . . 8

2.2.1 Lösungsvariante 1: Durch Differenzieren . . . . . . . . 92.2.2 Lösungsvariante 2: Durch quadratisches Ergänzen . . . 92.2.3 Anwendungsbeispiele . . . . . . . . . . . . . . . . . . . 11

2.3 Herleitung der allgemeinen Regressionsgeraden . . . . . . . . . 142.3.1 Der Pearsonsche Korrelationskoeffizient . . . . . . . . . 17

3 Der Spearmansche Rangkorrelationskoeffizient 193.1 Hauptteil . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193.2 Anhang . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

4 Projekte und Übungsaufgaben 29

3

Page 4: Analyse zweidimensionaler Daten: Regression und Korrelation

4 INHALTSVERZEICHNIS

Page 5: Analyse zweidimensionaler Daten: Regression und Korrelation

Abschnitt 1

Vorbereitung

1.1 Der Steinersche Verschiebungssatz

Der Steinersche Verschiebungssatz 1: Seien n ≥ 2 , x1, ..., xn ∈ R undxn =

1n

Pni=1 xi das zugehörige Stichprobenmittel. Dann gilt

nXi=1

(xi − x)2 =nXi=1

(xi − xn)2 + n(x− xn)

2 .

Für x = 0 ergibt sich alsSpezialfall:

nXi=1

(xi − xn)2 =

nXi=1

xi2 − n x2n .

Beweis: Die Anwendung der unmittelbar einsichtigen (und auch geo-metrisch interpretierbaren) Beziehung

a2 = b2 + (a− b)2 + 2(a− b)b

für a = xi − x und b = xi − xn ergibt

(xi − x)2 = (xi − xn)2 + (xn − x)2 + 2(xn − x) (xi − xn) .

Daraus ergibt sich die Aussage des Verschiebungssatzes durch Summationüber i ∈ {1, ..., n} und Berücksichtigen von

Pni=1 (xi − xn) =

Pni=1 xi −

n xn = 0 .1parallel—axis theorem, Jakob Steiner (1796-1863), Schweizer Geometer

5

Page 6: Analyse zweidimensionaler Daten: Regression und Korrelation

6 ABSCHNITT 1. VORBEREITUNG

Anmerkung: Der Punkt (xn, ..., xn) ∈ Rn ist die Projektion von (x1, ..., xn) ∈Rn auf die Diagonale

D = {(x, ..., x) ∈ Rn , x ∈ R}

des Rn .Daher ist der Steinersche Verschiebungssatz ein Spezialfall des Pythago-räischen Lehrsatzes im Rn :

Die Hyperebene des Rn , welche orthogonal zumEinheitsvektor (1, ..., 1) ∈Rn ist und der der Punkt (x1, ..., xn) angehört, ist gegeben durch die Glei-chung

(ξ1, ..., ξn)

⎛⎜⎜⎜⎜⎝1...1

⎞⎟⎟⎟⎟⎠ = (x1, ..., xn)

⎛⎜⎜⎜⎜⎝1...1

⎞⎟⎟⎟⎟⎠ ,

beziehungsweisenXi=1

ξi =nXi=1

xi = n xn . (1)

Schneidet man diese Hyperebene mit der Diagonale

D = {(x, ..., x) ∈ Rn : x ∈ R} ,

so erhält man aus (1)

n · x = n xn bzw. x = xn .

Die Lösung (x, ..., x) = (xn, ..., xn) ist daher tatsächlich die Projektion desPunktes (x1, ..., xn) auf die Diagonale D und es gilt der folgende Spezialfalldes Pythagoräischen Lehrsatzes im Rn

nXi=1

(xi − x)2 =nXi=1

(xi − xn)2+

nXi=1

(xn − x)2 =nXi=1

(xi − xn)2+ n(x− xn)

2 .

Page 7: Analyse zweidimensionaler Daten: Regression und Korrelation

Abschnitt 2

Lineare Regression

2.1 Aufgabenstellung

Gegeben seinen n ≥ 2 und Wertepaare {(x1, y1), ..., (xn, yn)} ⊂ R2, derart,dass weder alle xi noch alle yi gleich sind. Gesucht ist eine Ausgleichsgerade,d.h. die Gleichung

y = kx+ d bzw. x = k0y + d0

einer Geraden, die die gegebene ”Punktwolke” möglichst gut beschreibt.

Präzisierung der Zielfunktion: Eine formale Behandlung der Auf-gabenstellung setzt voraus, dass wir zunächst zwei Fragen klären.

Frage 1: Welche Abstände von Punkten und Geraden werden gemessen?

Variante 1: Vertikale Abstände yi − (k xi + d) , i ∈ {1, ..., n} . Durchdiese Wahl zeichnet man die Variable X als unabhängige Variable und dieVariable Y als abhängige Variable aus.Variante 1’: Horizontale Abstände xi−(k0 yi+d0), i ∈ {1, ..., n} . Durch

diese Wahl zeichnet man die Variable Y als unabhängige Variable und dieVariable X als abhängige Variable aus.Variante 2: Normalabstände

Frage 2: Wie werden die Abstände von Punkten und Geraden gemessen?

Variante 1: Durch die Abstandsquadrate, etwa (yi − (kxi + d))2 , i ∈{1, ..., n} .Variante 2: Durch die Absolutbeträge der Abweichungen.

7

Page 8: Analyse zweidimensionaler Daten: Regression und Korrelation

8 ABSCHNITT 2. LINEARE REGRESSION

Als Zugeständnis an die mathematische Bequemlichkeit schließen wir diebeiden Varianten 2 aus. Darüber hinaus beschränken wir uns auf die Be-handlung der Vertikalabstände, da die der Horizontalabstände lediglich aufeine Vertauschung der beiden Variablen X und Y hinausläuft.

Demnach haben wir die Absicht, der Liste von Paaren {(x1, y1), ..., (xn, yn)} ⊂R2 eine Gerade y = kx + d durch geeignete Wahl der Parameter k undd so anzupassen, dass die Zielfunktion

nXi=1

(yi − (kxi + d))2

minimal wird. Die so bestimmte Gerade heißt Regressionsgerade. Die ver-wendete Methode nennt man die Methode der kleinsten Quadrate 1, 2.

2.2 Herleitung der homogenen Regressions-geraden

Gegeben seien Wertepaare {(x1, y1), ..., (xn, yn)} ⊂ R2 derart, dass wederalle xi noch alle yi gleich 0 sind.

Gesucht ist die sogenannte homogene Regressionsgerade, das ist jene Ge-rade y = kx durch den Koordinatenursprung, die die gegebene ”Punkt-wolke” im obigen Sinn möglichst gut beschreibt. Demgemäß werden wir denAnstieg k der Geraden so wählen, dass die Summe der Quadrate der soge-nannten Residuen

1Die Methode der kleinsten Quadrate wurde vom französischen Mathematiker AdrienMarie Legendre (1752 − 1833) in seiner Arbeit ”Methode de la Moindre Quaree” 1805publiziert. Unabhängig von diesem wurde sie auch von Carl Friedrich Gauß (1777−1855)entwickelt und in der Astronomie und der Geodesie angewandt.

2Die beiden Begriffe ”Regression” und ”Korrelation” wurden vom englischen Statis-tiker Sir Francis Galton (1822-1911) im Rahmen seiner Studien zur Vererbung geprägt.Das Wort ”Regression” wurde von ihm im Zusammenhang mit ”regression towards medi-ocrity”, also dem Rückschritt zum Mittelmaß verwendet. Das Wort ”Korrelation” könnteman mit ”wechselseitiger Beziehung” übersetzen.Galton war äußerst vielseitig: Er ist Schöpfer des nach ihm benannten Galtonbretts,

der Urheber des Einsatzes von Fingerabdrücken zur Identifikation von Personen in derKriminologie und der Entdecker der Antizyklonen in der Meteorologie.

Page 9: Analyse zweidimensionaler Daten: Regression und Korrelation

2.2. HERLEITUNG DER HOMOGENEN REGRESSIONSGERADEN 9

yi − kxi , i ∈ {1, ..., n} ,

möglichst klein ist.

2.2.1 Lösungsvariante 1: Durch Differenzieren

Die Hälfte der Ableitung unserer Zielfunktion

f (k) =nXi=1

(kxi − yi)2

ist

1

2f 0 (k) =

nXi=1

xi · (kxi − yi) = k ·nXi=1

x2i −nXi=1

xi · yi =nXi=1

x2i ·³k − k

´

mit k =

n

i=1xi·yi

n

i=1x2i

.Wegen

f 0 (k)

⎧⎨⎩< 0 für k < k

= 0 für k = k

> 0 für k > k

nimmt f (k) für k = k ihr Minimum an.

2.2.2 Lösungsvariante 2: Durch quadratisches Ergänzen

Ausquadrieren der Summanden der Funktion f(k) und quadratischesErgänzen in der folgenden Form

A · k2 +B · k + C = A(k +B/2

A)2 + C(1− (B/2)

2

AC)

Page 10: Analyse zweidimensionaler Daten: Regression und Korrelation

10 ABSCHNITT 2. LINEARE REGRESSION

ergibt

f(k) =nXi=1

(k · xi − yi)2

=nXi=1

¡k2x2i − 2kxiyi + y2i

¢= k2

nXi=1

x2i − 2knXi=1

xiyi +nXi=1

y2i

=nXi=1

x2i (k −Pn

i=1 xiyiPni=1 x

2i

)2 +nXi=1

y2i (1−(Pn

i=1 xiyi)2Pn

i=1 x2i ·Pn

i=1 y2i

) .

Anmerkung 1: Sei nun k wie oben definiert und

r =

Pni=1 xiyipPn

i=1 x2i ·pPn

i=1 y2i

der sogenannte homogene Korrelationskoeffizient (der Datenmenge{(x1, y1), ..., (xn, yn)}) . Dann nimmt die Funktion f(k) ihr Minimum

f(k) =nXi=1

(yi − k · xi)2 =nXi=1

y2i¡1− r2

¢offensichtlich genau dann an, wenn k = k ist. Die Größe r2 heißt homo-genes Bestimmtheitsmaß und ist eine Maß für die Güte der Anpassung, dennf(k) ist als Summe von Quadraten nichtnegativ und genau dann gleich Null,wenn yi = k · xi ∀ i ∈ {1, ..., n} gilt. Dies ist gleichbedeutend damit, dass

r2 ≤ 1

ist, wobei r2 = 1 genau dann gilt, wenn alle Punkte der Punktwolke aufeiner Geraden durch den Ursprung liegen.

Für den homogenen Korrelationskoeffizienten r gilt demnach

−1 ≤ r ≤ 1 ,

wobei Gleichheit genau im eben angesprochenen Fall besteht. Sofern r >0 ist, ist der Anstieg k der Regressionsgeraden positiv; sofern r < 0 ist,ist dieser negativ.

Page 11: Analyse zweidimensionaler Daten: Regression und Korrelation

2.2. HERLEITUNG DER HOMOGENEN REGRESSIONSGERADEN 11

Anmerkung 2: Die Gültigkeit der Beziehung r2 ≤ 1 ist, zusammenmit der zugehörigen Aussage über den Fall r2 = 1 , gleichbedeutend mit derCauchy-Schwarzschen Ungleichung

(nXi=1

xiyi)2 ≤

nXi=1

x2i ·nXi=1

y2i ,

für die bekanntlich Gleichheit genau dann zutrifft, wenn yi = k · xi ∀ i ∈{1, ..., n} gilt.

2.2.3 Anwendungsbeispiele

Beispiel 2 3: Zur Schätzung von π

Gegeben seien Messungen (di, ui), i ∈ {1, ..., n} , von Durchmesser undUmfang zylindrischer Gefäße mit kreisförmiger Grundfläche. Seien ui

di, i ∈

{1, ..., n} , die Verhältnisse von Kreisumfang und Kreisdurchmesser. Dannist - wegen des bekannten linearen Zusammenhangs u = d · π zwischenKreisumfang und Kreisdurchmesser - das arithmetische Mittel

π1 =1

n

nXi=1

uidi

ein naheliegender Schätzwert für π .

Wendet man hingegen die Methode der kleinsten Quadrate auf die Punkt-wolke (di, ui), i ∈ {1, ..., n} , an, so erhält man nicht bloß den alternativenSchätzwert

π2 =

Pni=1 diuiPni=1 d

2i

=nXi=1

d2iPnj=1 d

2j

uidi

für π , sondern zudem eine empirische Bestätigung des obigen linearenZusammenhangs zwischen Kreisumfang und Kreisdurchmesser. Aus der zwei-ten Darstellung erkennt man, dass dieser Schätzwert ein mittels der Gewichte

d2inj=1 d

2jgewichtetes Mittel der Quotienten ui

di, i ∈ {1, ..., n} , ist. Durch

diese Gewichte werden Quotienten mit großem Durchmesser sehr viel stärkerbewertet als solche mit kleinem. Dieser Sachverhalt ist verträglich mit der

3Die Zahl π wird in den Anwendungen gelegentlich nach dem deutschen MathematikerLudolf van Ceulen (1540− 1610) Ludolfsche Zahl genannt.

Page 12: Analyse zweidimensionaler Daten: Regression und Korrelation

12 ABSCHNITT 2. LINEARE REGRESSION

Vorstellung, dass Messergebnisse von größeren Gefäßen genauer sind als solchevon kleinen.

Beispiel 3: Keplers drittes Gesetz 4

Dieses lautet

Das Quadrat der Umlaufzeit eines Planetenist proportional zum Kubus der großen Halbachse seiner Bahn.

In ZeichenU2 = k · a3

Die Daten der jeweiligen Planeten sind wie folgt

Planet große Halbachse siderische UmlaufzeitMerkur 0.3870938 0.2408Venus 0.7233276 0.6152Erde 1.0009071 1Mars 1.5237020 1.8808Jupiter 5.2026255 11.8618Saturn 9.5402393 29.4566Uranus 19.2685300 84.0120Neptun 30.2080026 164.7819Pluto 39.8397880 247.6867

In moderner Darstellung ist die Beziehung zwischen großer Halbachse a undUmlaufszeit U

U = c · a 32 .

In dieser Form ist es jedoch für die Anwendung der homogenen linearenRegression nicht brauchbar. Um letztere anwenden zu können, ist es zweck-mäßig, auf die ursprügliche Formulierung des Gesetzes zurückzugreifen unddie Größen a3 und U2 gegeneinander aufzutragen.Der Schätzwert für die Konstante k ist

k =

P9i=1 a

3iu2iP9

i=1 a6i

= .97271 .

4Keplers erstes Gesetz lautet bekanntlich: Die Planeten bewegen sich auf Ellipsen, inderen gemeinsamen Brennpunkt die Sonne steht.In seinem 1604 veröffentlichten Werk Paralipomena, welches er auch einfach Optica

nannte, beschäftigte sich Johannes Kepler (1571 − 1630) auch mit Linsen, deren Krüm-mungskurven die Form von allgemeinen Kegelschnitten besitzen. In diesem Zusammmen-hang prägte er den Begriff Brennpunkt.

Page 13: Analyse zweidimensionaler Daten: Regression und Korrelation

2.2. HERLEITUNG DER HOMOGENEN REGRESSIONSGERADEN 13

Das Bestimmtheitsmaß ist

r2 =(P9

i=1 a3iu2i )2P9

i=1 a6i ·P9

i=1 u4i

= .99997 .

Damit ist die Gültigkeit des Gesetzes denkbar gut bestätigt.

Abbildung: Regressionsgerade zur Beziehung U2 = k · a3

Abbildung zum dritten Keplerschen Gesetz (aus [29])

Page 14: Analyse zweidimensionaler Daten: Regression und Korrelation

14 ABSCHNITT 2. LINEARE REGRESSION

2.3 Herleitung der allgemeinen Regressions-geraden

Gegeben seien Wertepaare {(x1, y1), ..., (xn, yn)} ⊂ R2, derart, dass wederalle xi noch alle yi gleich sind.Gesucht ist die Regressionsgerade, d.h. die Gleichung y = kx+ d jener

Geraden, die diese ”Punktwolke” im obigen Sinn möglichst gut beschreibt.Demgemäß haben wir die Parameter k und d so zu wählen, dass dieSumme der Quadrate der Residuen

yi − (kxi + d) , i ∈ {1, ..., n}

möglichst klein ist. Der erste Schritt, die Zielfunktion

f(d, k) =nXi=1

(yi − k xi − d)2

zu minimieren, besteht darin, den Spezialfall

nXi=1

z2i =nXi=1

(zi − zn)2 + n · z2n

des Steinerschen Verschiebungssatzes auf die Größen

zi = yi − k xi − d

anzuwenden und zn = yn − kxn − d zu berücksichtigen. Auf diese Weiseerhält man

nXi=1

(yi − k xi − d)2 =nXi=1

(yi − yn − k (xi − xn))2 + n (yn − kxn − d)2 .

Für den - zunächst noch vom Anstieg k abhängigen - Ordinatenabschnittd = d(k) = yn − kxn gilt demnach

f(d, k) = f(d, k) + n(d− d)2 ≥ f(d, k)

mit Gleichheit genau dann, wenn d = d ist.

Die neue Zielfunktion g(k) = f(d(k), k) =Pn

i=1 (yi−yn−k (xi−xn))2 zuminimieren, bedeutet jedoch, der Punktwolke {(x0i, y0i) = (xi−xn, yi−yn), i ∈

Page 15: Analyse zweidimensionaler Daten: Regression und Korrelation

2.3. HERLEITUNG DER ALLGEMEINEN REGRESSIONSGERADEN15

{1, ..., n}} eine Gerade durch den Koordinatenursprung anzupassen. Somitkönnen wir das Resultat aus dem vorangehenden Abschnitt auf die trans-formierte Punktwolke anwenden.Mit Hilfe der Stichprobenvarianzen der x- und y-Werte und der Kovarianz

der Stichprobe 5

s2x = 1n

nPi=1

(xi − xn)2 ,

s2y = 1n

nPi=1

(yi − yn)2 und

sxy = 1n

nPi=1

(xi − xn) · (yi − yn)

lassen sich der entsprechende Anstieg der Regressionsgeraden und der entsprechendeKorrelationskoeffizient folgendermaßen ausdrücken

k =sxys2x

und r =sxy

sx · sy.

Anmerkung 1: Die Kovarianz der Stichprobe

sxy =1

n

nXi=1

(xi − xn) · (yi − yn) ,

ist die durchschnittliche Fläche der Rechtecke mit der jeweiligen Länge xi−xn und der Höhe yi − yn , i ∈ {1, ..., n} .Für die Größen k und r gilt

g(k) =nXi=1

(yi − yn − k (xi − xn))2

=nXi=1

(xi − xn)2 (k − k)2 +

nXi=1

(yi − yn)2 (1− r2)

≥nXi=1

(yi − yn)2 (1− r2)

mit Gleichheit genau dann, wenn k = k ist.

5In Übereinstimmung mit dem üblichen Definition der Stichprobenvarianz findet mangelegentlich anstelle des n im Nenner jeweils n− 1 .

Page 16: Analyse zweidimensionaler Daten: Regression und Korrelation

16 ABSCHNITT 2. LINEARE REGRESSION

Die Gleichung der Regressionsgeraden der Variablen Y bezüglich derunabhängigen Variablen X ist daher

y = yn +sxys2x(x− xn) .

Der zugehörige Ordinatenabschnitt ist somit d(k) = yn − sxys2xxn .

Anmerkung 2: Die Größe r2 lässt sich mit Hilfe der durch das lineareModell für die gegebenen Werte xi der unabhängigen Variablen X für dieabhängige Variable Y vorhergesagten Werte

yi = yn +sxys2x(xi − xn) , i ∈ {1, ..., n} ,

gemäß1

n

nXi=1

(yi − yn)2 =

s2xy

(s2x)2

1

n

nXi=1

(xi − xn)2 =

s2xys2x

folgendermaßen ausdrücken

r2 =

Pni=1 (yi − yn)

2Pni=1 (yi − yn)

2 .

Dies ermöglicht dieInterpretation: r2 ist der Anteil der Variation in der abhängigen

Variablen, der durch das lineare Modell erklärt wird.

Variante 1’: Indem man die Variablen X und Y vertauscht, erhältman die Gleichung der Regressionsgeraden von X bezüglich der unabhängi-gen Variablen Y , nämlich

x = xn +syxs2y(y − yn) = xn +

sxys2y(y − yn) .

In ihrer üblichen Form

yX(Y )(x) = yn +s2ysxy(x− xn)

besitzt diese den Anstieg kX(Y ) =s2ysxy

, während dieRegressionsgerade von Y

bezüglich der unabhängigen Variablen X den Anstieg kY (X) =sxys2x

besitzt.

Page 17: Analyse zweidimensionaler Daten: Regression und Korrelation

2.3. HERLEITUNG DER ALLGEMEINEN REGRESSIONSGERADEN17

Für das Bestimmtheitsmaß r2 =s2xys2x·s2y

der Korrelation, welches - wie imhomogenen Fall - ein Maß für die Stärke des linearen Zusammenhanges vonX und Y ist, gilt im Hinblick auf die Anstiege kY (X) und kX(Y ) folgendeAussage

r2 ≤ 1⇐⇒

⎧⎪⎨⎪⎩sxys2x

≤ s2ysxy

für sxy > 0

y = yn und x = xn für sxy = 0sxys2x

≥ s2ysxy

für sxy < 0 .

Der Fall r2 = 1 ist mit jeder der beiden folgenden Aussagen gleichbedeutend.

• Alle Punkte (xi, yi) liegen auf einer Geraden.

• Die beiden Regressionsgeraden fallen zusammen.

2.3.1 Der Pearsonsche Korrelationskoeffizient

Der Pearsonsche Korrelationskoeffizient 6 r = sxysx·sy ist naturgemäß ein Wert

aus [−1, 1] . Er bleibt selbstverständlich unverändert, wenn die Maßeinheitenin den beiden Variablen geändert werden. Positive Korrelation liegt vor,wenn zu großen Werten der einen Variablen auch große Werte der anderenVariablen gehören; negative Korrelation, wenn zu großen Werten der einenVariablen kleine Werte der anderen Variablen gehören. Im Fall r = 0 nenntman die beiden Variablen unkorreliert. Das bedeutet, dass zwischen den bei-den Variablen kein linearer Zusammenhang existiert. Dabei liegt jedoch dieBetonung auf dem Wort linear, denn r = 0 schließt einen anderen funk-tionellen Zusammenhang nicht aus! Ist nämlich ein Zusammenhang durcheine gerade Funktion 7 gegeben, so kann ohne weiters r = 0 gelten, wie diefolgende Beispielklasse zeigt.

6Der englische Statistiker Karl Pearson (1857− 1936) hat zahlreiche wichtige Beiträgezur Statistik geleistet. Beispielsweise ist er der Schöpfer des χ2-Tests, der zu den zehnnachhaltigsten wissenschaftlichen Errungenschaften des zwanzigsten Jahrhunderts gezähltwird. Der Pearsonsche oder Bravais-Pearsonsche Korrelationskoeffizient wurde jedochvorwiegend von Francis Galton entwickelt, und zwar um das Jahr 1885. Der französischePhysiker und Mitbegründer der Kristallographie Auguste Brevais (1811 − 1863) gilt alsfrüher Vorläufer. Eine detaillierte einschlägige historische Studie findet man in [12].

7Eine solche ist durch die Eigenschaft f(−x) = f(x) charakterisiert. TypischeBeispiele sind die Polynome f(x) = x2n, n ∈ N .

Page 18: Analyse zweidimensionaler Daten: Regression und Korrelation

18 ABSCHNITT 2. LINEARE REGRESSION

Beispielklasse mit r = 0 : Jede Punktwolke

{(xz, yz), z ∈ {−m,−m+ 1, ..., 0, ...,m− 1,m}} ,

welche spiegelsymmetrisch zur y-Achse liegt, hat den Korrelationskoeffizientr = 0 .

Ist nämlich mit den Werten 0 = ω0 < ω1 < ... < ωm und einerbeliebigen Funktion f : [0,∞) → R auf folgende Weise eine Punktwolke{(xz, yz), z ∈ {−m,−m+ 1, ..., 0, ...,m− 1,m}} verknüpft: (xi, yi) =(ωi, f(ωi)), i ∈ {0, 1, ...,m} und (x−i, y−i) = (−ωi, f(ωi)), i ∈ {1, ...,m} , danngilt wegen x2m+1 = 0 , y2m+1 ∈ R und ω0 = 0

sxy =1

2m(

mXz=−m

xz · yz − x2m+1 · y2m+1)

=1

2m(ω0 · f(ω0) +

mXi=1

ωi · f(ωi) +mXi=1

(−ωi) · f(ωi))

=1

2m(

mXi=1

(ωi − ωi) · f(ωi))

= 0 .

Page 19: Analyse zweidimensionaler Daten: Regression und Korrelation

Abschnitt 3

Der SpearmanscheRangkorrelationskoeffizient

3.1 Hauptteil

Behauptung 1: Der Pearsonsche Korrelationskoeffizient

r =sxyps2x · s2y

besitzt für den Fall, dass die xi und yi Rangzahlen sind, d.h. dass gilt

{x1, ..., xn} = {y1, ..., yn} = {1, ..., n},

die Form

ρn = 1−

nPi=1

(yi − xi)2¡

n+13

¢ .

Diese Größe heißt Spearmanscher Rangkorrelationskoeffizient. 1

Beispiel (aus [2], Abschnitt 6.3.6): Zwei Kunstkritiker bringen 12 Gemäldenach ihremWert in eine Rangreihe. Die in der nachstehenden Tabelle dargestell-

1Der englische Psychologe Charles Spearman (1863− 1945) entwickelte im Jahre 1904seine Zwei-Faktoren-Theorie der Intelligenz.

19

Page 20: Analyse zweidimensionaler Daten: Regression und Korrelation

20ABSCHNITT 3. DER SPEARMANSCHERANGKORRELATIONSKOEFFIZIENT

ten Rangreihen korrelieren zu ρ12∼= 0.825 .

Gemälde Kunstkritiker 1 Kunstkritiker 2 di d2i1 8 6 2 42 7 9 −2 43 3 1 2 44 11 12 −1 15 4 5 −1 16 1 4 −3 97 5 8 −3 98 6 3 3 99 10 11 −1 110 2 2 0 011 12 10 2 412 9 7 2 4P12

i=1 d2i = 50

Wegen¡133

¢= 13·12·11

6= 286 ist daher

ρ12 = 1−50

286=118

143∼= 0.825 .

Beweis von Behauptung 1: Wie im Anhang nachgewiesen wird, gelten

xn = yn =n+ 1

2und n s2x = n s2y =

1

2

µn+ 1

3

¶.

Aufgrund des Steinerschen Verschiebungssatzes gilt im Hinblick auf

xy =x2 + y2 − (y − x)2

2

Page 21: Analyse zweidimensionaler Daten: Regression und Korrelation

3.1. HAUPTTEIL 21

und das Obige

n sxy =nXi=1

(xi − xn) (yi − yn)

=nXi=1

xiyi − nxnyn

=1

2(

nXi=1

x2i +nXi=1

y2i )− nxnyn −1

2

nXi=1

(yi − xi)2

=nXi=1

x2i − nx2n −1

2

nXi=1

(yi − xi)2

=nXi=1

(xi − xn)2 − 1

2

nXi=1

(yi − xi)2

=1

2(

µn+ 1

3

¶−

nXi=1

(yi − xi)2) .

Somit ist

ρn =n sxypn s2x · n s2y

=

¡n+13

¢−Pn

i=1 (yi − xi)2¡

n+13

¢ = 1−Pn

i=1 (yi − xi)2¡

n+13

¢ . ¤

Behauptung 2: Der Spearmansche Rangkorrelationskoeffizient lässt sichüberdies folgendermaßen darstellen

ρn =

Pni=1 ((n+ 1− yi)− xi)

2¡n+13

¢ − 1 ,

oder - wegen der Darstellung von ρn aus Behauptung 1 - gleichbedeutend,µn+ 1

3

¶=1

2(

nXi=1

(n+ 1− (yi + xi))2 +

nXi=1

(yi − xi)2)) . (2)

Folgerung: Aus den beiden Darstellungen von ρn ergeben sich folgendebeiden - von Vornherein zu erwartenden - Sachverhalte:

◦ ρn = 1 gilt genau dann, wenn gelten yi = xi ∀ i ∈ {1, ..., n} ,◦ ρn = −1 gilt genau dann, wenn gelten yi = n+ 1− xi ∀ i ∈ {1, ..., n} .

Page 22: Analyse zweidimensionaler Daten: Regression und Korrelation

22ABSCHNITT 3. DER SPEARMANSCHERANGKORRELATIONSKOEFFIZIENT

Beweis von Behauptung 2: Bekanntlich gelten

x2 + y2 =(y + x)2 + (y − x)2

2

und

(y + x)2 = (n+ 1− (y + x))2 + (n+ 1) (2 (x+ y)− (n+ 1))

und somit

x2 + y2 − (n+ 1) (y + x− n+ 1

2) =

(n+ 1− (y + x))2 + (y − x)2

2.

Ersetzt man x durch xi und y durch yi und summiert über alle i ∈{1, ..., n} , so erhält man die gewünschte Summe auf der rechten Seite. Esbleibt somit bloß zu zeigen, dass die Summe ln auf der linken Seite gleich

¡n+13

¢ist:

Wegen

nXi=1

(yi + xi −n+ 1

2) =

nXi=1

(2xi − xn) = 2nxn − nxn = nxn

und (n+ 1) = 2xn liefert die Anwendung des Spezialfalls des SteinerschenVerschiebungssatzes in der Tat

ln =nXi=1

¡x2i + y2i

¢− (n+ 1)

nXi=1

(yi + xi −n+ 1

2)

= 2nXi=1

x2i − (n+ 1)nxn = 2(nXi=1

x2i − nx2n) = 2nXi=1

(xi − xn)2 =

µn+ 1

3

¶.

Definition: Die Größe

sn =nXi=1

(yi − xi)2

heißt Hotelling-Pabst-Statistik 2.

2Der US-amerikanische Statistiker und Ökonom Harold Hotelling (1895 − 1973) warMitbegründer des ersten Instituts für Statistik in den Vereinigten Staaten an der Universityof North Carolina at Chapel Hill.

Page 23: Analyse zweidimensionaler Daten: Regression und Korrelation

3.1. HAUPTTEIL 23

Behauptung 3: Für den Wertebereich der Hotelling-Pabst-Statistik gilt

Wn = 2 ·({0, ...,

¡n+13

¢} für n ∈ N\{1, 3}

{0, 1, 3, 4} für n = 3 .

Folgerung: Der Wert¡n+13

¢∈ N in der Mitte von Wn gehört selbst nur

dann dem Wertebereich Wn an, wenn er gerade ist. Dies ist im Hinblick aufµn+ 1

3

¶=(n+ 1)n(n− 1)

2 · 3

dann der Fall,(a) wenn n ungerade ist - denn dann sind n+1 und n− 1 gerade - und(b) wenn n durch 4 teilbar ist.

(c) Wenn n durch 2 aber nicht durch 4 teilbar ist, d.h. wenn gilt n ∈{2 + 4 · l , l ∈ N0} , sind n + 1 und n − 1 ungerade. In diesem Fall ist¡n+13

¢daher ungerade.

Der Spearmansche Rangkorrelationskoeffizent ist

ρn := 1−sn¡n+13

¢ = 0 ⇐⇒ sn =

µn+ 1

3

¶.

Dies ist für alle n ≥ 2 möglich mit Ausnahme jener n , welche durch 2 abernicht durch 4 teilbar sind.Obwohl für den Fall n = 3

¡n+13

¢=¡43

¢= 4 , also gerade ist, ist auch

dieser Fall auszuschließen, zumal s3 = 4 nicht realisierbar ist.

Beweis von Behauptung 3: Zur Untersuchung desWertebereichs von sn neh-men wir ohne Beschränkung der Allgemeinheit xi = i , i ∈ {1, ..., n} , an.Daher haben die Summen in (2) die Form

sn =nXi=1

(yi − i)2 und tn =nXi=1

((n+ 1− yi)− i)2 .

Im Hinblick auf die Tatsache −1 ≤ sxy√s2x·s2y≤ 1 und die beiden Darstellungen

von ρn gilt für den Wertebereich von sn jedenfalls

Wn ⊆ {0, 1, ..., 2µn+ 1

3

¶} .

Page 24: Analyse zweidimensionaler Daten: Regression und Korrelation

24ABSCHNITT 3. DER SPEARMANSCHERANGKORRELATIONSKOEFFIZIENT

Indem wir die Beziehung (2) berücksichtigen, wissen wir, dass - indem wirdie Werte yi durch n+1−yi , i ∈ {1, ..., n} ersetzen - mit jedem Wert sn ∈Wn der Hotelling-Pabst-Statistik stets auch der Wert

tn = 2

µn+ 1

3

¶− sn

ein Element von Wn ist. Das heißt◦Wn ist eine bezüglich

¡n+13

¢symmetrische Menge.

Aus diesem Grund reicht es, dass wir uns mit der ”unteren Hälfte” Wn ∩[0,¡n+13

¢] des Wertebereichs beschäftigen.

Page 25: Analyse zweidimensionaler Daten: Regression und Korrelation

3.1. HAUPTTEIL 25

Diese Tabelle bestätigt die Richtigkeit der Behauptung für die Fälle n =2, 3 und 4 und lässt vermuten, dass Wn nur aus geraden Zahlen - ein-schließlich der 0 - besteht. Dies sieht man wie folgt:

Seien {y1, ..., yn} = {1, ..., n} und gehe {y1, ..., yn} = {1, ..., n} dadurchaus den yi hervor, dass man die yi an zwei verschiedenen Positionen j, k ∈{1, ..., n} vertauscht, alle anderen Werte aber gleich lässt. Dann ist die Dif-ferenz der beiden zugehörigen Werte der Hotelling-Pabst-Statistik

sn − sn = (yj − j)2 + (yk − k)2 −¡(yj − j)2 + (yk − k)2

¢= (yk − j)2 + (yj − k)2 −

¡(yj − j)2 + (yk − k)2

¢= (yk − yj + yj − j)2 + (yj − yk + yk − k)2 −

¡(yj − j)2 + (yk − k)2

¢= (yk − yj) (yk − yj + 2 (yj − j) + yk − yj − 2 (yk − k))

= 2 (yk − yj) (yk − yj + yj − j − (yk − k))

= 2 (yk − yj) (k − j)

und daher gerade. Da die extremalenWerte 0 und 2¡n+13

¢von sn wegen

¡n+13

¢∈

N stets gerade Zahlen sind, sind es alle übrigen somit auch. Es gilt daherfür alle n ∈ N\{1}

Wn ⊆ 2{0, ...,µn+ 1

3

¶} .

Weil durch eine Realisierung (x1, ..., xn−1) = (1, ...., n−1}, (y1, ..., yn−1) für n−1 durch (x1, ..., xn−1, xn) = (1, ..., n − 1, n), (y1, ..., yn−1, n) eine solchefür n gegeben ist und beide denselben Wert sn−1 = sn der Hotelling-Pabst-Statistik haben, gilt

Wn−1 ⊆Wn .

Der maximale Wert von Wn−1, nämlich 2¡n3

¢, gleicht dem bzw. übersteigt

den mittleren Wert von Wn, nämlich¡n+13

¢, dann, wenn gilt

∆n = 2

µn

3

¶−µn+ 1

3

¶=

n(n− 1) [2(n− 2)− (n+ 1)]6

=n(n− 1) (n− 5)

6≥ 0 ,

wobei für n = 5 Gleichheit gilt und für n ≥ 6 ein Überschuss vorliegt. Daentsprechend der obigen Tabelle

W4 = 2 · {0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10}

bereits alle möglichen Werte enthält, gilt dies auch für alle Wn , n ≥ 5 . ¤

Page 26: Analyse zweidimensionaler Daten: Regression und Korrelation

26ABSCHNITT 3. DER SPEARMANSCHERANGKORRELATIONSKOEFFIZIENT

Die nachstehende Abbildung und die folgende Tabelle dienen der Illustrationdes eben untersuchten Sachverhalts.

7.56.2553.752.5

100

75

50

25

0

x

y

x

y

Abbildung: x 7→ (x+1)x(x−1)6

, x 7→ x(x−1)(x−2)3

, x ∈ [2, 8]

Tabelle zumVergleich des mittlerenWerts von Wn und des maximalenWertsvon Wn−1 :

n¡n+13

¢2¡n3

¢2 1 03 4 24 10 85 20 206 35 407 56 708 84 1129 120 16810 165 24011 220 33012 286 440

Hinsichtlich des Testens von Hypothesen in diesem Zusammenhang sei auf

Page 27: Analyse zweidimensionaler Daten: Regression und Korrelation

3.2. ANHANG 27

[2], Abschnitt 6.3.6, bzw. - ganz spezifisch - auf [13] verwiesen.

Cartoon aus [10], S. 271

3.2 Anhang

Behauptung: Für den Fall {x1, ..., xn} = {1, ..., n} gelten

(3) xn =n+ 1

2und (4) n s2x =

1

2

µn+ 1

3

¶.

Beweis: (3) WegennXi=1

i =n(n+ 1)

2

ist

xn =1

n

nXi=1

xi =1

n

nXi=1

i =1

n· n(n+ 1)

2=

n+ 1

2.

(4) Anwendung des Steinerschen Verschiebungssatzes, des Sachverhalts

nXi=1

i2 =n(n+ 1)(2n+ 1)

6

Page 28: Analyse zweidimensionaler Daten: Regression und Korrelation

28ABSCHNITT 3. DER SPEARMANSCHERANGKORRELATIONSKOEFFIZIENT

und von (3) liefern

n s2x =nXi=1

(xi − xn)2 =

nXi=1

x2i − nx2n =nXi=1

i2 − nx2n

=n(n+ 1)(2n+ 1)

6− n

µn+ 1

2

¶2=

(n+ 1)n[2(2n+ 1)− 3(n+ 1)]2 · 6 =

1

2

(n+ 1)n(n− 1)3!

=1

2

µn+ 1

3

¶. ¤

Definition: Eine Zufallsvariable X heißt gleichverteilt auf {1, ..., n} , wenngilt

P (X = k) =1

n, k ∈ {1, ..., n} .

Anmerkung: Aufgrund der obigen Behauptung gelten für den Erwartungswertund die Varianz von X daher

E(X) = xn =n+ 1

2und V (X) = s2x =

1

n

(n+ 1)n(n− 1)12

=n2 − 112

.

Page 29: Analyse zweidimensionaler Daten: Regression und Korrelation

Abschnitt 4

Projekte und Übungsaufgaben

Projekt 1: Das Hubblesche Gesetz 1 - Anwendungsbeispiel für eine ho-mogene RegressionsgeradeBehandeln Sie die Fallstudie 10.4.1 aus [8].

Projekt 2: Das Hooksche Gesetz 2 - Anwendungsbeispiel für eine allge-meine RegressionsgeradeDie Feder einer Federwaage habe die Länge von d cm, wenn sie ohne Gewichtist. Wenn ein Gewicht von x Kilogramm an den Haken am Ende der Federgehängt wird, wird die Feder zur neuen Länge von y cm gestreckt. Auf-grund des Hookschen Gesetzes gilt (selbstverständlich für nicht allzu großeGewichte), dass der Längenzuwachs proportional zum Gewicht ist. Für dieLänge y gilt somit die lineare Beziehung

y = k · x+ d .

Folgende Wertepaare (xi, yi) wurden ermittelt:(0, 439.00), (2, 439.12), (4, 439.21), (6, 439.31), (8, 439.40), (10, 439.50) .

Ermitteln Sie die Regressionsgerade und das Bestimmtheitsmaß.Informieren Sie sich über das Hooksche Gesetz und führen Sie mit einerFederwaage eigene Versuche durch. Orientieren Sie sich an dem einschlägigenBeitrag in [3], Part II. Chapter 12

1Edwin Powell Hubble (1889− 1953), US-amerikanischer Astronom2Der englische Physiker und Astronom Robert Hook (1635 − 1703) hat - um den

regelmäßigen Gang einer tragbaren Uhr zu gewährleisten - als erster anstelle eines Pen-dels eine spiralförmige Federunruh verwendet. In diesem Zusammenhang hat er das nachihm benannte allgemeine Gesetz der Elastizität entdeckt und 1678 in seinem Werk ”OfSpring” veröffentlicht.

29

Page 30: Analyse zweidimensionaler Daten: Regression und Korrelation

30 ABSCHNITT 4. PROJEKTE UND ÜBUNGSAUFGABEN

Projekt 3: Bestimmung der Erdbeschleunigung mit Hilfe von Pen-deluhrenChristiaan Huygens (1629− 1695) ist es gelungen, die von ihm konstruiertePedeluhr zur Bestimmung der Erdbeschleunigung g zu verwenden. Er hatnämlich zudem gefunden, dass die Schwingungsdauer T eines sogenanntenmathematischen Pendels in folgender Weise von der Länge l des Pendelsund der Erdbeschleunigung g abhängt: 3

T = 2π

sl

g.

Ist nun ν = 1Tdie Frequenz des Pendels (Anzahl der Schwingungen pro

Sekunde), dann gilt demgemäß

ν2 =g

(2π)2× 1

l.

Stellen Sie von n ≥ 2 Pendeluhren deren Pendellängen li und Frequenzen νi festund benützen Sie die obige Beziehung, um aus den Punktepaaren ( 1

li, ν2i ), i ∈

{1, ..., n}, die Erdbeschleunigung g zu schätzen.

Hinweis: Eine faszinierende historische Darstellung finden Sie im AbschnittEin Meßversuch von [5].

Übungsaufgabenmit vorwiegend statistisch-anwendungsorientiertemCharakter

1. Francis Galton untersuchte, wie sich die Körpergröße der Eltern auf dieder Kinder vererbt. (Die Körpergrößen aller Frauen wurden mit demFaktor 1.08 multipliziert). In der folgenden Tabelle ist die mittlereKörpergröße xi der Eltern den Stichprobenmitteln yi der Körpergrößeder erwachsenen Kinder gegenübergestellt. Die Körpergrößen sind ininch angegeben (1 inch, 2.54 cm). Über- (unter-) durchschnittlichgroße Eltern haben in der Regel über- (unter-) durchschnittlich großeKinder, jedoch ist die Abweichung der Körpergröße der Kinder vomMittel geringer als jene der Eltern: ”Regression” to the mean. Er-mitteln Sie die zugehörige Regressionsgerade und machen Sie sich den

3 T ... in Sekunden, l ... in Metern, g ... in Metern pro Sekundenquadrat

Page 31: Analyse zweidimensionaler Daten: Regression und Korrelation

31

beschriebenen Sachverhalt klar.

i 1 2 3 4 5 6xi 62.2 63.2 64.2 65.2 66.2 67.2yi 66.59 66.59 67.50 67.67 67.60 67.85

i 7 8 9 10 11 12xi 68.2 69.2 70.2 71.2 72.2 73.2yi 68.29 68.46 68.96 69.08 70.26 70.79

Hinsichtlich einer genaueren Beschreibung der Studie von Galton seiauf [8], S. 444 verwiesen.

2. Die nachstehenden Tabelle ist die Bundesliga-Schlusstabelle 1990/91 (aus[6], Abschnitt 13). Stellen Sie die geschossenen den eingefangenenToren gegenüber und ermitteln Sie die zugehörige Regressionsgerade.

Verein Punkte ToreK’lautern 48 : 20 72 : 45München 45 : 23 74 : 41Bremen 42 : 26 46 : 29Frankfurt 40 : 28 63 : 40Hamburg 40 : 28 60 : 38Stuttgart 38 : 30 57 : 44Köln 37 : 31 50 : 43Leverkusen 35 : 33 49 : 54M’gladbach 35 : 33 49 : 54Dortmund 34 : 34 46 : 57Wattensch. 33 : 35 42 : 51Düssseldorf 32 : 36 40 : 49Karlsruhe 31 : 37 46 : 52Bochum 26 : 39 50 : 52Nürnberg 29 : 29 40 : 54St. Pauli 27 : 41 33 : 53Uerdingen 23 : 45 34 : 54Berlin 14 : 54 37 : 84

3. Die Umsätze (in Mrd $) und Beschäftigtenzahlen der zwölf größtenUnternehmen der Fahrzeugbranche sind in der nachstehenden Tabelledargestellt.

Page 32: Analyse zweidimensionaler Daten: Regression und Korrelation

32 ABSCHNITT 4. PROJEKTE UND ÜBUNGSAUFGABEN

Ersetzen Sie die Punktepaare (xi, yi) der Messwerte xi und yi durchdie Punktepaare {rg(xi), rg(yi)} der zugehörigen Rangzahlen (Rang-zahl 1 für den kleinsten Messwert, Rangzahl 2 für den nächstgrößerenMesswert, ... ), i ∈ {1, ..., 12} , und berechnen Sie den Korrelations-koeffizienten für die Rangzahlen (Tabelle 6.1 und Beispiel 6.6 aus [7]).

Unternehmen Land Umsatz BeschäftigteGeneral Motors USA 123.8 756.300Ford Motor USA 89.0 332.700Toyota Motor Japan 78.1 102.423Daimler-Benz BRD 57.3 379.252FIAT Italien 46.8 287.957Volkswagen BRD 46.0 265.556Nissan Motor Japan 42.9 138.326Honda Motor Japan 30.6 85.500Renault Frankreich 29.4 147.195Chrysler USA 29.4 126.500Boeing USA 29.3 159.100Peugeot Frankreich 28.4 156.800

Übungsaufgaben mit vorwiegend mathematischem Charakter

1. Seien n ≥ 2 , x1, ..., xn; y1, ..., yn ∈ R und xn und yn die zugehörigenStichprobenmittel. Zeigen Sie folgende Verallgemeinerung des Spezial-falls des Steinerschen Verschiebungssatzes aus Abschnitt 1

nXi=1

(xi − xn) (yi − yn) =nXi=1

xi yi − n xnyn .

2. Gegeben seienWertepaare {(x1, y1), ..., (xn, yn)} ⊂ R2 derart, dass s2x =1

n−1Pn

i=1 (xi − xn)2 > 0 ist. Leiten Sie die Gleichung der allgemeinen

Regressionsgeraden durch Minimieren der Funktion

f(d, k) =nXi=1

(k xi + d− yi)2

mit Hilfe partieller Differentiation her.

Page 33: Analyse zweidimensionaler Daten: Regression und Korrelation

33

Hinweis: Setzen Sie zunächst die partielle Ableitung nach d gleich 0 undsetzen Sie den für d erhaltenen Ausdruck anschließend in die partielleAbleitung nach k ein.

3. Es seien σx, σy, c ∈ (0,∞) und σxy derart, dass gilt

ρ =σxy

σx · σy∈ (−1, 1) .

Gehen Sie von der durch

(x

σx)2 − 2ρ · x

σx· yσy+ (

y

σy)2 = c

gegebenen Ellipse aus und bestimmen Sie

a) die Gleichungen der Geraden, welche durch diejenigen Ellipsendurch-messer bestimmt sind, in deren Endpunkten die Tangenten parallel zuden Koordinatenachsen sind und

b) Lage und Länge der Hauptachsen der Ellipse.

Hinweis: Betrachten Sie dazu auch ”Galton’s contour lines” in [8], Seite445.

Page 34: Analyse zweidimensionaler Daten: Regression und Korrelation

34 ABSCHNITT 4. PROJEKTE UND ÜBUNGSAUFGABEN

Page 35: Analyse zweidimensionaler Daten: Regression und Korrelation

Literaturverzeichnis

[1] Bücher

[2] Bortz, J.: Statistik für Sozialwissenschaftler. Springer-Verlag, Berlin -Heidelberg 1999 (Abschnitt 6.3)

[3] Freedman, D., Pisani, R. and R. Purves: Statistics. Norton & Co., NewYork 2007 (Part III)

[4] Galton, F.: Natural Inheritance. Macmillan, London 1908

[5] Koyré, A.: Leonardo, Galilei, Pascal - Die Anfänge der neuzeitlichenNaturwissenschaft. Fischer Taschenbuch Verlag, Frankfurt am Main1998

[6] Krämer, W.: Statistik verstehen: Eine Gebrauchsanweisung. CampusVerlag, Frankfurt - New York, 1999 (Abschnitt 13)

[7] Kröpfl, B., Peschek, W., Schneider, E. und A. Schönlieb: AngewandteMathematik - Eine Einführung für Wirtschaftswissenschaftler und In-formatiker. Carl Hanser Verlag, München - Wien 1994

[8] Larsen, R.J. and M.L. Marx : An Introduction to Mathematical Statis-tics and its Applications. Prentice Hall, Englewood Cliffs, New Jersey1986

[9] Larsen, R.J. and M.L. Marx : An Introduction to Mathematical Statis-tics and its Applications (Fourth Edition). Pearson Prentice Hall, UpperSaddle River, New Jersey 2006 (Chapter 11)

[10] Moore, D.S.: Statistics: Concepts and Controversies. W.H. Freeman &Co., New York 2001 (Chapter 14 and 15)

35

Page 36: Analyse zweidimensionaler Daten: Regression und Korrelation

36 LITERATURVERZEICHNIS

[11] Moore, D.S. and G.P. McCabe: Introduction to the Practice of Statis-tics. W.H. Freeman & Co., New York 2004 (Chapter 2)

Zeitschriften

[12] Pearson, K.: Notes on the history of correlation. Biometrika 13 (1920),p. 25−45. In: Pearson, E.S. andM. Kendall (edts.): Studies in the His-tory of Statistics and Probability, Vol. 1, Charles Griffin & Co., London& High Wycombe 1970.

[13] Zar, J.H.: Significance Testing of the Spearman Rank Correlation Coef-ficient. Journal of the American Statistical Association (1972), Vol. 67,Nr. 339, p. 578− 580

Skripten

[14] Österreicher, F.: Ausgewählte Kapitel der Statistik. LV-Unterlagen,Salzburg 1986

[15] Österreicher, F.: Skriptum zur Lehrveranstaltung Statistik für Lehramt.Salzburg 2007 *) (Abschnitt 1.6)

[16] Österreicher, F.: Skriptum zur Lehrveranstaltung Mathematische Sta-tistik, Salzburg 2008 *) (Abschnitt 1.4)

[17] Österreicher, F.: Unterlagen zur Lehrveranstaltung Mathematik fürNaturwissenschaften (Statistik), Salzburg 2008 *) (Abschnitt 1.4)

[18] Huber, Ch.: Unterlagen zum Tutorium der Lehrveranstaltung Mathe-matik für Naturwissenschaften (Statistik), Salzburg 2008 *) (Abschnitt6)

Seminarunterlagen

[19] Österreicher, F.: Schätzen des Umfangs von Populationen. Fortbil-dungsseminar, Meran 1990

[20] Österreicher, F. undM. Weiß : Unterlagen zum Stochastikseminar: Teil1, Salzburg 2007 *)

[21] Österreicher, F. undM. Weiß : Unterlagen zum Stochastikseminar: Teil2, Salzburg 2008 *)

Page 37: Analyse zweidimensionaler Daten: Regression und Korrelation

LITERATURVERZEICHNIS 37

[22] Österreicher, F.: Der Salzburger Jedermannlauf oder: Die Anwendungder Statistik für Spionagezwecke. Lehrer/innen/fortbildungstag ”West”2008 *)

*) verfügbar unter ”http://www.uni-salzburg.at”>Fakultäten undFachbereiche>Naturwissenschaftliche Fakultät>Fachbereich Mathe-matik>Personen > Dozenten>

Diplomarbeiten

[23] Weiß, M.: Binomialverteilung und Normalapproximation: Grundlegen-des und Hintergrundinformation für den Stochastikunterricht. Salzburg1995

[24] Kolmberger, M.: Statistik in der Nußschale - Ist unser Würfel fair?Diplomarbeit, Salzburg 1997

[25] Jandl, M.: Computereinsatz im Stochastikunterricht. Salzburg 1997(Kapitel 9)

[26] Golser, B.: Himmelsmechanik - Die Mechanik bewegter Körper, Salz-burg 2003

[27] Dürager, H.-P.: Stetige Modelle in der Stochastik. Salzburg 2007

[28] Eichbauer, F.: Testen von Hypothesen - Eine Aufbereitung für den Un-terricht, Salzburg 2009

Fachbereichsarbeiten

[29] Österreicher, L: Berechnung von Planetenpositionen in verschiedenenKoordinatensystemen unter Verwendung des Computers. BORG Nonn-tal, Salzburg 1997

Schulbücher für die AHS-Oberstufe

[30] Malle·Ramharter ·Ulovec·Kandl : Mathematik verstehen 6, öbvhtp Ver-lagsgesellschaft, Wien 2005

[31] Malle·Ramharter ·Ulovec·Kandl : Mathematik verstehen 7, öbvhtp Ver-lagsgesellschaft, Wien 2006

Page 38: Analyse zweidimensionaler Daten: Regression und Korrelation

38 LITERATURVERZEICHNIS

[32] Malle·Ramharter ·Ulovec·Kandl : Mathematik verstehen 8, öbvhtp Ver-lagsgesellschaft, Wien 2007

[33] Götz ·Reichel ·R.Müller ·Hanisch·Hederer ·Wenzel ·M.Müller : Mathema-tik Lehrbuch 6, öbvhtp Verlagsgesellschaft, Wien 2005

[34] Götz ·Reichel ·R.Müller ·Hanisch·Hederer ·Wenzel ·M.Müller : Mathema-tik Lehrbuch 7, öbvhtp Verlagsgesellschaft, Wien 2006

[35] Götz ·Reichel ·R.Müller ·Hanisch·Hederer ·Wenzel ·M.Müller : Mathema-tik Lehrbuch 8, öbvhtp Verlagsgesellschaft, Wien 2007

[36] Taschner : Mathematik 2 - Übungs- und Lehrbuch für die 6. Klasse AHS,Oldenbourg, Wien 1999

[37] Taschner : Mathematik 3 - Übungs- und Lehrbuch für die 7. Klasse AHS,Oldenbourg, Wien 2000

[38] Taschner : Mathematik 4 - Übungs- und Lehrbuch für die 8. Klasse AHS,Oldenbourg, Wien 2001

[39] Geretschläger ·Griesel ·Postel : Elemente der Mathematik 6, E. Dorner,Wien 2005

[40] Geretschläger ·Griesel ·Postel : Elemente der Mathematik 7, E. Dorner,Wien 2006

[41] Geretschläger ·Griesel ·Postel : Elemente der Mathematik 8, E. Dorner,Wien 2007

[42] Steiner ·Novak : MatheMaster 6 - Mathematik für die 6. Klasse AHS,Reniets Verlag, Wien 2005

[43] Steiner ·Novak : MatheMaster 7 - Mathematik für die 7. Klasse AHS,Reniets Verlag, Wien 2006

[44] Steiner ·Novak : MatheMaster 8 - Mathematik für die 8. Klasse AHS,Reniets Verlag, Wien 2007

Schulbücher für Höhere Lehranstalten für WirtschaftlicheBerufe

Page 39: Analyse zweidimensionaler Daten: Regression und Korrelation

LITERATURVERZEICHNIS 39

[45] Hanisch·Reichel ·Müller ·Schak : Mathematik für HLA 4. öbvhtp, Wien2006

Schulbücher für Handelsakademien

[46] Kronfellner, M.Peschek ·Blasonig·Fischer ·Kronfellner,J.: AngewandteMathematik 4. Verlag Hölder Pichler Tempsky, Wien 2001

[47] Schneider ·Thannhauser : Mathematik Arbeitsbuch und Aufgabensamm-lung einschließlich Lösungen. Band 4 für den V. Jahrgang HAK. RudolfTrauner Verlag, Linz 1999

[48] Steiner ·Weilharter : Mathematik und ihre Anwendungen in derWirtschaft. Band 4. Reniets Verlag, Wien 2008

[49] Hinkelmann·Böhm·Hofbauer ·Metzger-Schuhäker : Mathe mit Gewinn 1.öbvhtp, Wien 2005

Schulbücher für Höhere Technische Lehranstalten

[50] Schärf : Mathematik 2 für HTL. Oldenbourg Verlag, Wien 1998

[51] Schärf : Mathematik 3 für HTL. Oldenbourg Verlag, Wien 1999

[52] Schalk ·Steiner : Mathematik 4. Reniets Verlag, Wien 2001

[53] Timischl ·Kaiser : Ingenieur-Mathematik 4, Verlag E. Dorner, Wien 2005

Schulbücher aus Deutschland

[54] Barth·Haller : Stochastik Leistungskurs. Ehrenwirth Verlag, München1983

[55] Heigl ·Feuerpfeil : Stochastik Leistungskurs. Bayrischer Schulbuch Ver-lag, München 1987

[56] Lambacher ·Schweizer : Stochastik Leistungskurs. Ernst Klett Schulbuch-verlag, Stuttgart 1988

Page 40: Analyse zweidimensionaler Daten: Regression und Korrelation

1750 1800 1850 1900 1950

Adrien-Marie Legendre (1752-1833)

Carl F. Gauß (1777-1855)

Jakob Steiner (1796-1863)

Auguste Bravais (1811-1863)

Francis Galton (1822-1911)

Karl Pearson (1857-1936)

Charles Spearman (1863-1945)

Harold Hotelling (1895-1973)