FB 1 W. Ludwig-Mayerhofer Korrelation und Regression 1
Korrelation und RegressionKorrelation und RegressionEinführungStreudiagrammKovarianzKorrelationRegressionProbleme • Einführung
• Streudiagramm• Kovarianz• Korrelation• Regression• Probleme
FB 1 W. Ludwig-Mayerhofer Korrelation und Regression 2
EinführungEinführung
• Mit Korrelations- und Regressionsanalyse werden Zusammenhänge zwischen zwei metrischen Variablen analysiert.
• Wenn man nur einen Zusammenhang quan-tifizieren will, aber keine Ursache-Wirkungs-beziehung angenommen werden kann, wird ein Korrelationskoeffizient berechnet.
• Geht man von einer Ursache-Wirkungsbe-ziehung aus, kann man mit Hilfe der Re-gressionsanalyse versuchen, die Abhängig-keit des einen Merkmals (Y) vom anderen Merkmal (X) als linearen Zusammenhang durch eine Gleichung auszudrücken
EinführungStreudiagrammKovarianzKorrelationRegressionProbleme
FB 1 W. Ludwig-Mayerhofer Korrelation und Regression 3
Bildung (typische Dauer in Jahren)
20181614121086
Brut
to-A
rbei
tslo
hn
16000
14000
12000
10000
8000
6000
4000
2000
0
Veranschaulichung: StreudiagrammVeranschaulichung: StreudiagrammEinführungStreudiagrammKovarianzKorrelationRegressionProbleme
FB 1 W. Ludwig-Mayerhofer Korrelation und Regression 4
Veranschaulichung: StreudiagrammVeranschaulichung: Streudiagramm
10 20 30 40 50 60 70 80
Alter
1
2
3
4
5
Pos
itive
Ein
stel
lung
erw
.tätig
e M
utte
r
EinführungStreudiagrammKovarianzKorrelationRegressionProbleme
FB 1 W. Ludwig-Mayerhofer Korrelation und Regression 5
KovarianzKovarianz: „Vorstufe“ der Korrelation: „Vorstufe“ der Korrelation
Positiver Zusammenhang: Hohe Werte in der einen Variablen treten tendenziell gemeinsam mit hohen Werten in der anderen Variablen auf.
Negativer Zusammenhang: Hohe Werte in der einen Variablen treten tendenziell gemeinsam mit niedrigen Werten in der anderen Variablen auf.
Die „gemeinsame Varianz“ (im Sinne von: „miteinander Variieren“) zweier Variablen.
∑=
−⋅−=n
iiixy yyxx
ns
1)()(1
EinführungStreudiagrammKovarianzKorrelationRegressionProbleme
FB 1 W. Ludwig-Mayerhofer Korrelation und Regression 6
KovarianzKovarianz
Bsp. (fiktiv): Bruttolohn und Bildungsjahre
Xi Yi Xi –Xquer yi –yquer Xi –Xquer * yi –yquer
2000 9 -1000 -3 3000
5000 16 2000 4 8000
4000 16 1000 4 4000
1500 9 -1500 -3 4500
2500 10 -500 -2 1000
Summe 15000 60 20500
Ar. Mittel 3000 12 (Gültig für Stichpr.) Kovar.: 4100
EinführungStreudiagrammKovarianzKorrelationRegressionProbleme
FB 1 W. Ludwig-Mayerhofer Korrelation und Regression 7
KovarianzKovarianz
Bsp. (fiktiv): Bruttolohn und Körpergroße
xi yi xi –xquer yi –yquer xi –xquer * yi –yquer
2000 1,55 -1000 -0,17 170
5000 1,65 2000 -0,07 -140
4000 1,80 1000 0,08 80
1500 1,75 -1500 0,03 -45
2500 1,85 -500 0,13 -65
Summe 15000 8,6 0
Ar. Mittel 3000 1,72 Kovar.: 0
EinführungStreudiagrammKovarianzKorrelationRegressionProbleme
FB 1 W. Ludwig-Mayerhofer Korrelation und Regression 8
ProduktProdukt--MomentMoment--Korrelation,Korrelation,Pearsons Korrelation(Pearsons Korrelation(skoeffizientskoeffizient))
„Standardisierung“ der Kovarianz:
( ) ( )
( ) ( )∑∑
∑
==
=
−⋅−
−⋅−=
⋅=
n
ii
n
ii
n
iii
YX
XYXY
yyn
xxn
yyxxn
sssr
1
2
1
2
1
11
1
r kann Werte zwischen –1 (perfekter negativer Zusammenhang) und +1 (perfekter positiver Zusammenhang) annehmen.
EinführungStreudiagrammKovarianzKorrelationRegressionProbleme
FB 1 W. Ludwig-Mayerhofer Korrelation und Regression 9
KorrelationKorrelation
Bsp. (fiktiv): Bruttolohn und Bildungsjahre
xi yi xi –xquer yi –yquer xi –xquer * yi –yquer
2000 9 -1000 -3 3000
5000 16 2000 4 8000
4000 16 1000 4 4000
1500 9 -1500 -3 4500
2500 10 -500 -2 1000
Summe 15000 60 20500
Ar. Mittel 3000 12 Kovar.: 4100
r: 0,96
EinführungStreudiagrammKovarianzKorrelationRegressionProbleme
FB 1 W. Ludwig-Mayerhofer Korrelation und Regression 10
KorrelationKorrelation
V3
3020100
V4
25
20
15
10
5
0
V1
3020100
V4
25
20
15
10
5
0
V1
3020100
V6
25
20
15
10
V5
25201510
V6
25
20
15
10
EinführungStreudiagrammKovarianzKorrelationRegressionProbleme
r=0,97 r=0,60
r=0,33 r=0,04
FB 1 W. Ludwig-Mayerhofer Korrelation und Regression 11
KorrelationKorrelation
V2
3020100
V6
25
20
15
10
V2
3020100
V3
25
20
15
10
5
0
V1
3020100
V5
25
20
15
10
5
0
V1
3020100
V2
25
20
15
10
5
0
EinführungStreudiagrammKovarianzKorrelationRegressionProbleme
r= –0,26 r= –0,49
r= –0,60 r= –0,87
FB 1 W. Ludwig-Mayerhofer Korrelation und Regression 12
Regression: Die Grundidee visuellRegression: Die Grundidee visuell
Gesamtdauer Bildung
20181614121086
Brut
tolo
hn
16000
14000
12000
10000
8000
6000
4000
2000
0
EinführungStreudiagrammKovarianzKorrelationRegressionProbleme
FB 1 W. Ludwig-Mayerhofer Korrelation und Regression 13
Grundidee verbalGrundidee verbal
• Wir suchen eine Gerade, die den Zusammenhang zwischen den beiden Merkmalen „möglichst gut“ beschreibt.
• „Möglichst gut“ heißt: Die gesuchte Gerade soll so gewählt werden, dass die Abstände zwischen der Geraden und den empirisch beobachteten Werten minimiert werden. (Aus bestimmten Gründen werden die quadrierten Abstände minimiert.)
EinführungStreudiagrammKovarianzKorrelationRegressionProbleme
FB 1 W. Ludwig-Mayerhofer Korrelation und Regression 14
Grundidee formalGrundidee formal
ˆi iy a bx= +
( )∑ ∑= =
=−=n
i
n
iiii Minimumyye
1 1
22 ˆ
Wir schätzen eine Gleichung
, so dass gilt
Es werden also die quadrierten Abweichungen der Geraden von den beobachten Werten minimiert („Methode der Kleinsten Quadrate“; englisch: Ordinary Least Squares = OLS).a und b sind die aus der Stichprobe berechneten Schätzer für die unbekannten Parameter der Grundgesamtheit, meist als α und β bezeichnet.
EinführungStreudiagrammKovarianzKorrelationRegressionProbleme
FB 1 W. Ludwig-Mayerhofer Korrelation und Regression 15
Grundidee graphischGrundidee graphischBitte beachten: YBitte beachten: Y-- und Xund X--Achse müssen bis 0 verlängert Achse müssen bis 0 verlängert
gedacht werdengedacht werden
9 11 13 15
Bildung
1500
2500
3500
4500
Eink
omm
en
33 yy −
44 yy −
EinführungStreudiagrammKovarianzKorrelationRegressionProbleme
FB 1 W. Ludwig-Mayerhofer Korrelation und Regression 16
Im Beispiel (vorherige Seite!)
bzw.
Die Berechnung von a und b überlassen wir der einschlägigen Statistik-Software.
ˆ 1000 333, 3i iy x= − +
1000 333, 3i i iy x e= − + +
RegressionsgleichungRegressionsgleichungEinführungStreudiagrammKovarianzKorrelationRegressionProbleme
FB 1 W. Ludwig-Mayerhofer Korrelation und Regression 17
Multiple RegressionMultiple Regression
0 1 1 2 2Y b b X b X= + ⋅ + ⋅
1 2ˆ 750 232 63,5Y X X= − + ⋅ + ⋅
Die Regressionskoeffizienten (oder Regressions-gewichte) b1 und b2 geben jeweils den um die andere Variable „bereinigten“ Einfluss wieder; man sagt, der Einfluss der anderen Variablen wurde „auspartialisiert“.
EinführungStreudiagrammKovarianzKorrelationRegressionProbleme
FB 1 W. Ludwig-Mayerhofer Korrelation und Regression 18
Probleme bei Korrelation und RegressionProbleme bei Korrelation und Regression
Nur lineare Zusammenhänge werden erfasst
Dauer der Vorlesung
100806040200
Aufm
erks
amke
it12
10
8
6
4
2
0
Korrelation: -0,05, d.h. praktisch gleich null.Das Beispiel ist fiktiv, Sie sind natürlich ständig aufmerksam! ☺
EinführungStreudiagrammKovarianzKorrelationRegressionProbleme
FB 1 W. Ludwig-Mayerhofer Korrelation und Regression 19
Probleme bei Korrelation und RegressionProbleme bei Korrelation und Regression
Nur lineare Zusammenhänge werden erfasst
g Alkohol/Tag
403020100
Woh
lbef
inde
n26
24
22
20
18
16
14
12
10
8
Die Gerade ist quasi horizontal – was nicht dem „eigentlichen“ Zusammenhang entspricht.In der Regressions-analyse kann man sich aber durch „Tricks“ an die Kurve annähern
EinführungStreudiagrammKovarianzKorrelationRegressionProbleme
FB 1 W. Ludwig-Mayerhofer Korrelation und Regression 20
Probleme bei Korrelation und RegressionProbleme bei Korrelation und Regression
Einzelne Fälle können starken Einfluss ausüben (nicht zuletzt wegen Multiplikation)
Dauer der Betriebszugehoerigkeit
403020100-10
EIN
KZU
F16000
14000
12000
10000
8000
6000
4000
2000
0
Korrelation über alle Fälle: r=0,35.
Korrelation ohne Einkommen über 14.000: r=0,39.
EinführungStreudiagrammKovarianzKorrelationRegressionProbleme
FB 1 W. Ludwig-Mayerhofer Korrelation und Regression 21
Probleme bei Korrelation und RegressionProbleme bei Korrelation und Regression
Einzelne Fälle können starken Einfluss ausüben (nicht zuletzt wegen Quadrierung)
Die gleichen Daten wie vorhin plus einige Extremwerte (links unten, rechts oben) erzeugen einen deutlich steigende Gerade
g Alkohol/Tag
403020100
Woh
lbef
inde
n50
40
30
20
10
0
EinführungStreudiagrammKovarianzKorrelationRegressionProbleme