logistische regression prof. dr. stein - uni-due.de · pdf fileodds >1 geben an, dass es...

63
Grundidee Interpretation der Regressionskoeffizienten Modellsch¨ atzung Modellg¨ ute SPSS/STATA Multivariate Analyseverfahren Logistische Regression Prof. Dr. Stein 14.01.2014 & 20.01.2014 1 / 62

Upload: lethu

Post on 07-Feb-2018

217 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Logistische Regression Prof. Dr. Stein - uni-due.de · PDF fileOdds >1 geben an, dass es wahrscheinlicher ist, dass das Ereignis eintritt als dass es nicht eintritt. Odds von 1 geben

GrundideeInterpretation der Regressionskoeffizienten

ModellschatzungModellgute

SPSS/STATA

Multivariate AnalyseverfahrenLogistische Regression

Prof. Dr. Stein

14.01.2014 & 20.01.2014

1 / 62

Page 2: Logistische Regression Prof. Dr. Stein - uni-due.de · PDF fileOdds >1 geben an, dass es wahrscheinlicher ist, dass das Ereignis eintritt als dass es nicht eintritt. Odds von 1 geben

GrundideeInterpretation der Regressionskoeffizienten

ModellschatzungModellgute

SPSS/STATA

Inhaltsverzeichnis

1 Grundidee

2 Interpretation der Regressionskoeffizienten

3 Modellschatzung

4 Modellgute

5 SPSS/STATA

2 / 62

Page 3: Logistische Regression Prof. Dr. Stein - uni-due.de · PDF fileOdds >1 geben an, dass es wahrscheinlicher ist, dass das Ereignis eintritt als dass es nicht eintritt. Odds von 1 geben

GrundideeInterpretation der Regressionskoeffizienten

ModellschatzungModellgute

SPSS/STATA

Der Erklarungsgegenstand

Soziale Forschungsgegenstande sind haufig eherdiskreter/qualitativer Natur als metrischer/quantitativer Art:

Elternschaft

Heirat

Scheidung

Eintritt/Austritt in/aus Arbeitslosigkeit

Einkommensverluste bis unter die Armutsgrenze

Wahl einer bestimmten Partei/Person

Begehen einer Straftat

. . .

3 / 62

Page 4: Logistische Regression Prof. Dr. Stein - uni-due.de · PDF fileOdds >1 geben an, dass es wahrscheinlicher ist, dass das Ereignis eintritt als dass es nicht eintritt. Odds von 1 geben

GrundideeInterpretation der Regressionskoeffizienten

ModellschatzungModellgute

SPSS/STATA

Der Erklarungsgegenstand

Auf Ebene der Variablenumsetzung . . .

. . . nehmen soziale Erklarungsgegenstande dieser Art dieForm einer dichotomenen Variable an

. . . weisen soziale Erklarungsgegenstande dieser Art dienumerischen Werte 0 und 1 auf.

Vorteile:

1 Der Mittelwert gleicht dann dem Anteil der Falle, welcheden Wert 1 aufweisen.

2 Der Mittelwert kann dann als Wahrscheinlichkeitinterpretiert werden.

4 / 62

Page 5: Logistische Regression Prof. Dr. Stein - uni-due.de · PDF fileOdds >1 geben an, dass es wahrscheinlicher ist, dass das Ereignis eintritt als dass es nicht eintritt. Odds von 1 geben

GrundideeInterpretation der Regressionskoeffizienten

ModellschatzungModellgute

SPSS/STATA

Multiple Regression?

”Naive” Voruberlegung - Verwendung linearer Regression:

scheinbar brauchbare Interpretation

zugrunde liegende Funktionsform wird als linearangenommen

Probleme:

nicht-lineare Funktionsform

Verletzung weiterer Modellpramissen der linearenRegression

5 / 62

Page 6: Logistische Regression Prof. Dr. Stein - uni-due.de · PDF fileOdds >1 geben an, dass es wahrscheinlicher ist, dass das Ereignis eintritt als dass es nicht eintritt. Odds von 1 geben

GrundideeInterpretation der Regressionskoeffizienten

ModellschatzungModellgute

SPSS/STATA

Multiple Regression?

6 / 62

Page 7: Logistische Regression Prof. Dr. Stein - uni-due.de · PDF fileOdds >1 geben an, dass es wahrscheinlicher ist, dass das Ereignis eintritt als dass es nicht eintritt. Odds von 1 geben

GrundideeInterpretation der Regressionskoeffizienten

ModellschatzungModellgute

SPSS/STATA

Multiple Regression?

7 / 62

Page 8: Logistische Regression Prof. Dr. Stein - uni-due.de · PDF fileOdds >1 geben an, dass es wahrscheinlicher ist, dass das Ereignis eintritt als dass es nicht eintritt. Odds von 1 geben

GrundideeInterpretation der Regressionskoeffizienten

ModellschatzungModellgute

SPSS/STATA

Multiple Regression?

Zwischenresumee I:

Eine lineare Funktionsform fur die Abbildung desZusammenhangs anzunehmen ist unangemessen. Jeglichelineare Funktionsgleichung wird die Grenzwerte (0 & 1)wahrscheinlich uber-/unterschreiten.

8 / 62

Page 9: Logistische Regression Prof. Dr. Stein - uni-due.de · PDF fileOdds >1 geben an, dass es wahrscheinlicher ist, dass das Ereignis eintritt als dass es nicht eintritt. Odds von 1 geben

GrundideeInterpretation der Regressionskoeffizienten

ModellschatzungModellgute

SPSS/STATA

Funktionsform?

9 / 62

Page 10: Logistische Regression Prof. Dr. Stein - uni-due.de · PDF fileOdds >1 geben an, dass es wahrscheinlicher ist, dass das Ereignis eintritt als dass es nicht eintritt. Odds von 1 geben

GrundideeInterpretation der Regressionskoeffizienten

ModellschatzungModellgute

SPSS/STATA

Funktionsform?

10 / 62

Page 11: Logistische Regression Prof. Dr. Stein - uni-due.de · PDF fileOdds >1 geben an, dass es wahrscheinlicher ist, dass das Ereignis eintritt als dass es nicht eintritt. Odds von 1 geben

GrundideeInterpretation der Regressionskoeffizienten

ModellschatzungModellgute

SPSS/STATA

Multiple Regression?

Zwischenresumee II:Der Zusammenhang zwischen quantitativen/qualitativenunabhangigen Merkmalen und einem dichotomen abhangigenMerkmal wird durch eine S-Form adaquat abgebildet.

Charakteristika:

Annahernd linearer Zusammenhang im mittleren Bereichder statistischen Beziehung

Kleiner werdende Effekte (bei einem Fortschreiten auf derunabhangigen Variable um eine Einheit) in denGrenzbereichen des statistischen Zusammenhangs.

11 / 62

Page 12: Logistische Regression Prof. Dr. Stein - uni-due.de · PDF fileOdds >1 geben an, dass es wahrscheinlicher ist, dass das Ereignis eintritt als dass es nicht eintritt. Odds von 1 geben

GrundideeInterpretation der Regressionskoeffizienten

ModellschatzungModellgute

SPSS/STATA

Probleme stat. Inferenz

Ausgangspunkt:Eine Dummy-Variable kann lediglich zwei numerische Werte(0/1) annehmen. Dementsprechend, konnen auch nur zweiResidualwerte fur jeden X-Wert vorliegen.

1− (b0 + b1Xi), wenn Yi = 1

0− (b0 + b1Xi), wenn Yi = 0

Folgen:

1. Verletzung der Annahme der Normalverteilung derResiduen.

2. Verletzung der Annahme der Homoskedastizitat derResiduen.

12 / 62

Page 13: Logistische Regression Prof. Dr. Stein - uni-due.de · PDF fileOdds >1 geben an, dass es wahrscheinlicher ist, dass das Ereignis eintritt als dass es nicht eintritt. Odds von 1 geben

GrundideeInterpretation der Regressionskoeffizienten

ModellschatzungModellgute

SPSS/STATA

Logistische Regression

Anforderungen an die Transformation von Y:

Wertebereich der Vorhersagewerte zwischen 0 und 1

Annahme einer S-formigen Verlausfskurve

Sinkende Effekte von X auf Y an den Enden/Extremender Verlaufskurve

13 / 62

Page 14: Logistische Regression Prof. Dr. Stein - uni-due.de · PDF fileOdds >1 geben an, dass es wahrscheinlicher ist, dass das Ereignis eintritt als dass es nicht eintritt. Odds von 1 geben

GrundideeInterpretation der Regressionskoeffizienten

ModellschatzungModellgute

SPSS/STATA

Logistische Regression

Losung:

Li = ln[Pi/(1− Pi)]

Mit:Pi : Wahrscheinlichkeit des Eintretens des Ereignisses i

Vorgehen:

1 Bildung der Odds

2 Logarithmierung der Odds

14 / 62

Page 15: Logistische Regression Prof. Dr. Stein - uni-due.de · PDF fileOdds >1 geben an, dass es wahrscheinlicher ist, dass das Ereignis eintritt als dass es nicht eintritt. Odds von 1 geben

GrundideeInterpretation der Regressionskoeffizienten

ModellschatzungModellgute

SPSS/STATA

Odds

Odds drucken die Chance, des Eintreten eines Ereignisses, imVerhaltnis zu dem Nicht-Eintreten des Ereignisses auf.

Formal:Oi = Pi/(1− Pi)

Mit:Pi : Wahrscheinlichkeit des Eintretens des Ereignisses i

15 / 62

Page 16: Logistische Regression Prof. Dr. Stein - uni-due.de · PDF fileOdds >1 geben an, dass es wahrscheinlicher ist, dass das Ereignis eintritt als dass es nicht eintritt. Odds von 1 geben

GrundideeInterpretation der Regressionskoeffizienten

ModellschatzungModellgute

SPSS/STATA

Odds

Charakteristika:

Pi 0.01 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 0.99

1 - Pi 0.99 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0.01

Odds 0.01 .111 0.25 0.429 0.667 1 1.5 2.33 4 9 99

Ist die Wahrscheinlichkeit des Eintretens und desNicht-Eintretens eines Ereignisses gleich groß, nehmenOdds den Wert 1 an.

keine numerische Obergrenze von 1

immer noch: numerische Untergrenze von 0

16 / 62

Page 17: Logistische Regression Prof. Dr. Stein - uni-due.de · PDF fileOdds >1 geben an, dass es wahrscheinlicher ist, dass das Ereignis eintritt als dass es nicht eintritt. Odds von 1 geben

GrundideeInterpretation der Regressionskoeffizienten

ModellschatzungModellgute

SPSS/STATA

Odds

Interpretation

Odds > 1 geben an, dass es wahrscheinlicher ist, dass dasEreignis eintritt als dass es nicht eintritt.

Odds von 1 geben an, dass auf ein Nicht-Eintreten desEreignisses ein Eintreten des Ereignisses zu erwarten ist.

Odds < 1 geben an, dass es wahrscheinlicher ist, das dasEreignis nicht eintritt als dass es eintritt.

17 / 62

Page 18: Logistische Regression Prof. Dr. Stein - uni-due.de · PDF fileOdds >1 geben an, dass es wahrscheinlicher ist, dass das Ereignis eintritt als dass es nicht eintritt. Odds von 1 geben

GrundideeInterpretation der Regressionskoeffizienten

ModellschatzungModellgute

SPSS/STATA

Odds Ratio

Vergleich von Odds

Da Odds proportional ansteigen, konnen sie per Divisionmiteinander verglichen werden:

OddsRatio = OiOj

Es gilt:

OddsRatio > 1: die Odds der ersten Gruppe sind um x mal hoher alsin der zweiten Gruppe

OddsRatio = 1: die Odds der ersten Gruppe und zweiten Gruppesind gleich

OddsRatio < 1: die Odds der ersten Gruppe sind um x mal geringerals in der zweiten Gruppe

18 / 62

Page 19: Logistische Regression Prof. Dr. Stein - uni-due.de · PDF fileOdds >1 geben an, dass es wahrscheinlicher ist, dass das Ereignis eintritt als dass es nicht eintritt. Odds von 1 geben

GrundideeInterpretation der Regressionskoeffizienten

ModellschatzungModellgute

SPSS/STATA

Odds

Zwischenresumee:

Odds stellen den ersten Transformationsschritt der logistischenRegression dar.

Odds liefern eine inhaltlich sinnvolle Interpretation fur dieWahrscheinlichkeit von Ereignissen.

Odds verfugen uber keine numerische Grenze in ihremWertebereich von 1

19 / 62

Page 20: Logistische Regression Prof. Dr. Stein - uni-due.de · PDF fileOdds >1 geben an, dass es wahrscheinlicher ist, dass das Ereignis eintritt als dass es nicht eintritt. Odds von 1 geben

GrundideeInterpretation der Regressionskoeffizienten

ModellschatzungModellgute

SPSS/STATA

Logarithmierte Odds

Die Logarithmierung der Odds eliminiert die untere Grenze imWertebereich.

Formal:Li = ln[Pi/(1− Pi)]

Mit:Pi : Wahrscheinlichkeit des Eintretens des Ereignisses i

20 / 62

Page 21: Logistische Regression Prof. Dr. Stein - uni-due.de · PDF fileOdds >1 geben an, dass es wahrscheinlicher ist, dass das Ereignis eintritt als dass es nicht eintritt. Odds von 1 geben

GrundideeInterpretation der Regressionskoeffizienten

ModellschatzungModellgute

SPSS/STATA

Logarithmierte Odds

Es gilt:

Odds zwischen 0 und 1 entsprechen einem negativenWert der logarithmierten Odds.

Odds = 1 entsprechen dem Wert 0 der logarithmiertenOdds

Odds > 1 entsprechen positiven Werten derlogarithmierten Odds

21 / 62

Page 22: Logistische Regression Prof. Dr. Stein - uni-due.de · PDF fileOdds >1 geben an, dass es wahrscheinlicher ist, dass das Ereignis eintritt als dass es nicht eintritt. Odds von 1 geben

GrundideeInterpretation der Regressionskoeffizienten

ModellschatzungModellgute

SPSS/STATA

Logarithmierte Odds

Charakteristika:

Pi 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9

1 - Pi 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1

Odds 0.111 0.25 0.429 0.667 1 1.5 2.33 4 9

Logit -2.20 -1.39 -0.847 -0.405 0 0.405 0.847 1.39 2.20

Symmetrie um den Mittelpunkt (Wahrscheinlichkeit von0.5)

Gleiche Anderungen in Wahrscheinlichkeiten fuhren zuverschiedenen Veranderungen in den LogarithmiertenOdds.

Keine numerische Ober- oder Untergrenze22 / 62

Page 23: Logistische Regression Prof. Dr. Stein - uni-due.de · PDF fileOdds >1 geben an, dass es wahrscheinlicher ist, dass das Ereignis eintritt als dass es nicht eintritt. Odds von 1 geben

GrundideeInterpretation der Regressionskoeffizienten

ModellschatzungModellgute

SPSS/STATA

Zusammenfassung

Linearizing the Nonlinear

Die logarithmische Transformation . . .. . . eliminiert die obere und untere Grenzwerte der

dichotomen Variable Y.. . . erweitert/streckt die Wahrscheinlichkeiten von Y an

seinen Extremwertenen im Verhaltnis zu dem Mittelpunkt.

Folge:Der vormals nicht-lineare Zusammenhang wurde in einenlinearen transformiert. Gleiche Veranderungen in X fuhren nunzu ahnlichen Effektveranderungen in Y.

23 / 62

Page 24: Logistische Regression Prof. Dr. Stein - uni-due.de · PDF fileOdds >1 geben an, dass es wahrscheinlicher ist, dass das Ereignis eintritt als dass es nicht eintritt. Odds von 1 geben

GrundideeInterpretation der Regressionskoeffizienten

ModellschatzungModellgute

SPSS/STATA

Zusammenfassung

Linearizing the Nonlinear

Die Linearisierung des nicht linearen Zusammenhangs fuhrt zueiner Verschiebung der Interpretation der Koeffizienten wegvon Wahrschenlichkeiten hin zu logarithmierten Odds.

Vorteil

Sparsamkeit:Lineare Zusammenhangekonnen uber einenKoeffizienten charakterisiertwerden.

Nachteil

Verlust einer einfachen,”intuitiven” Interpretation.

24 / 62

Page 25: Logistische Regression Prof. Dr. Stein - uni-due.de · PDF fileOdds >1 geben an, dass es wahrscheinlicher ist, dass das Ereignis eintritt als dass es nicht eintritt. Odds von 1 geben

GrundideeInterpretation der Regressionskoeffizienten

ModellschatzungModellgute

SPSS/STATA

Ubersicht

Logarithmierte Odds

Wahrscheinlichkeiten

Odds

- linear und additiv

- wenig intuitive Bedeutung derSkaleninterpretation

- Ausdruck der Beziehung in einem Koeffizienten

- nicht linearer, nicht additiver Zusammenhang

- intuitive Bedeutung der Skaleninterpretation

- mehrere Koeffizienten notwendig; Abhangigkeitdes Zusammenhangs vom gewahltenReferenzpunkt

- Mittelpunkt als moglicher Referenzpunkt

- intuitivere Bedeutung der Skaleninterpretation alslogarithmierte Odds

- multiplikativer Zusammenhang

- Ausdruck der Beziehung in einem Koeffizienten

25 / 62

Page 26: Logistische Regression Prof. Dr. Stein - uni-due.de · PDF fileOdds >1 geben an, dass es wahrscheinlicher ist, dass das Ereignis eintritt als dass es nicht eintritt. Odds von 1 geben

GrundideeInterpretation der Regressionskoeffizienten

ModellschatzungModellgute

SPSS/STATA

Logarithmierte Odds

Die Koeffizienten, welche direkt aus der logistischenRegression beobachtet werden, zeigen die Veranderung in denvorhergesagten logarithmierten Odds hinsichtlich desEintretens eines Ereignisses, wenn sich der Wert derunabhangigen Variable um eine Einheit erhoht.

Die Koeffizienten der logistischen Regression sind aquivalentzur linearen Regression interpretierbar. Sie beziehen sichallerdings auf logarithmierte Odds.

26 / 62

Page 27: Logistische Regression Prof. Dr. Stein - uni-due.de · PDF fileOdds >1 geben an, dass es wahrscheinlicher ist, dass das Ereignis eintritt als dass es nicht eintritt. Odds von 1 geben

GrundideeInterpretation der Regressionskoeffizienten

ModellschatzungModellgute

SPSS/STATA

Logarithmierte Odds

Unabhangige Dummy-Variablen:

Die Steigerung des Werte der unabhangigen Variablenvergleicht - wie in der linearen Regression - die Referenz- undVergleichsgruppe miteinander.

27 / 62

Page 28: Logistische Regression Prof. Dr. Stein - uni-due.de · PDF fileOdds >1 geben an, dass es wahrscheinlicher ist, dass das Ereignis eintritt als dass es nicht eintritt. Odds von 1 geben

GrundideeInterpretation der Regressionskoeffizienten

ModellschatzungModellgute

SPSS/STATA

Odds

Expontentialisieren beider Seiten der logistischen Regressionlost den Logarithmus auf und bringt so den Einfluss derVariable auf die Odds zum Ausdruck.

ln(P/1− P) = b0 + b1X1 + b2X2

e ln(P/1−P) = eb0+b1X1+b2X2

P/1− P = eb0 ∗ eb1X1 ∗ eb2X2

28 / 62

Page 29: Logistische Regression Prof. Dr. Stein - uni-due.de · PDF fileOdds >1 geben an, dass es wahrscheinlicher ist, dass das Ereignis eintritt als dass es nicht eintritt. Odds von 1 geben

GrundideeInterpretation der Regressionskoeffizienten

ModellschatzungModellgute

SPSS/STATA

Odds

Konsequenzen fur die Interpretation:Der Koeffizient spiegelt den Effekt wider, wenn alleanderen Variablen den Wert 1 annehmen.Positive Exponenten schlagen sich in Werten > 1 nieder.Negative Exponenten schlagen sich in Werten < 1 nieder.

Es gilt:Koeffizient > 1: die Variable steigert die Odds,

dass ein Ereignis eintritt.Koeffizient = 1: die Variable hat keinen Einfluss darauf, dass

ein Ereignis eintritt.Koeffizient < 1: die Variable vermindert die Odds, dass ein

Ereignis eintritt.29 / 62

Page 30: Logistische Regression Prof. Dr. Stein - uni-due.de · PDF fileOdds >1 geben an, dass es wahrscheinlicher ist, dass das Ereignis eintritt als dass es nicht eintritt. Odds von 1 geben

GrundideeInterpretation der Regressionskoeffizienten

ModellschatzungModellgute

SPSS/STATA

Odds

Interpretation in Prozent:Da der Abstand des Koeffizienten von 1 die Starke desEffektes zum Ausdruck bringen, kann seine Interpretationfolgendermaßen variiert werden:

%∆ = (eb − 1) ∗ 100

Ein Koeffizient von 1.14 bringt demnach zum Ausdruck, dassdie Odds des Eintretens eines Ereignisses um 14% großer sindbei einem Anstieg der unabhangigen Variable um eine Einheit.

30 / 62

Page 31: Logistische Regression Prof. Dr. Stein - uni-due.de · PDF fileOdds >1 geben an, dass es wahrscheinlicher ist, dass das Ereignis eintritt als dass es nicht eintritt. Odds von 1 geben

GrundideeInterpretation der Regressionskoeffizienten

ModellschatzungModellgute

SPSS/STATA

Signifikanztest

Signifikanztest STATA:

Basis fur den Signifikanztest ist die Große des Koeffizientin Relation zu seinem Standardfehler:Formal:

bSb

Z-Verteilung

! vorausgesetzte Stichprobengroße von mindestens 100Beobachtungen

31 / 62

Page 32: Logistische Regression Prof. Dr. Stein - uni-due.de · PDF fileOdds >1 geben an, dass es wahrscheinlicher ist, dass das Ereignis eintritt als dass es nicht eintritt. Odds von 1 geben

GrundideeInterpretation der Regressionskoeffizienten

ModellschatzungModellgute

SPSS/STATA

Signifikanztest

Signifikanztest SPSS:

Wald-Statistik als Signifikanztest

Grundlage ist die Große des quadrierten Koeffizienten inRelation zu seinem Standardfehler:Formal:

b2

Sb

! vorausgesetzte Stichprobengroße von mindestens 100Beobachtungen

! Mit großer werdender, absoluten Große von b leidet derWald-Test an Prazision.

- Losung: Vergleich der Log Likelihood Ratios der Modelle mitund ohne die erklarende Variable.

32 / 62

Page 33: Logistische Regression Prof. Dr. Stein - uni-due.de · PDF fileOdds >1 geben an, dass es wahrscheinlicher ist, dass das Ereignis eintritt als dass es nicht eintritt. Odds von 1 geben

GrundideeInterpretation der Regressionskoeffizienten

ModellschatzungModellgute

SPSS/STATA

Signifikanztest

Baysian information criterion (BIC):

Ausgangspunkt: Anfalligkeit der Signifikanz inAbhangigkeit des Stichprobenumfang.

Folge: Wenig Verlasslichkeit bzgl. Starke und Relevanzder jeweiligen Signifikanz.

Der z-wert sollte Logarithmus des Stichprobenumfangsuberschreiten:Formal

BIC = z2 − ln(n)

33 / 62

Page 34: Logistische Regression Prof. Dr. Stein - uni-due.de · PDF fileOdds >1 geben an, dass es wahrscheinlicher ist, dass das Ereignis eintritt als dass es nicht eintritt. Odds von 1 geben

GrundideeInterpretation der Regressionskoeffizienten

ModellschatzungModellgute

SPSS/STATA

Signifikanztest

Interpretation - eine Orientierung (BIC):

BIC = 0: der Einschluss der erklarenden Variablen in das Modellerweist sich als nicht sinnvoll.

BIC 0-2: Signifikanz des Koeffizienten ist in seiner Starkeund Bedeutung schwach

BIC 2-6: Signifikanz des Koeffizienten ist in seiner Starke undBedeutung zufriedenstellend

BIC 6-10: Signifikanz des Koeffizienten ist in seiner Starke undBedeutung stark

BIC > 10: Signifikanz des Koeffizienten ist in seiner Starke undBedeutung sehr stark

34 / 62

Page 35: Logistische Regression Prof. Dr. Stein - uni-due.de · PDF fileOdds >1 geben an, dass es wahrscheinlicher ist, dass das Ereignis eintritt als dass es nicht eintritt. Odds von 1 geben

GrundideeInterpretation der Regressionskoeffizienten

ModellschatzungModellgute

SPSS/STATA

Standardisierte Koeffizienten

Die Effekte der logistsichen Regression sind abhangig von derSkalierung der jeweiligen Variablen. Sie sind daher nicht direktmiteinander vergleichbar.

Standardisierte Koeffizienten in SPSS:

Partieller Korrelationskoeffizient abgleitet aus derWaldstatistik und dem baseline log likelihood ratio

Wertebereich zwischen -1 und +1

35 / 62

Page 36: Logistische Regression Prof. Dr. Stein - uni-due.de · PDF fileOdds >1 geben an, dass es wahrscheinlicher ist, dass das Ereignis eintritt als dass es nicht eintritt. Odds von 1 geben

GrundideeInterpretation der Regressionskoeffizienten

ModellschatzungModellgute

SPSS/STATA

Ein Beispiel

Erklarungsgegenstand ist der Umstand, ob eine Person raucht(1) oder nicht (0). Insgesamt gehen vier Merkmale in dieModellierung ein:

Bildung (in Jahren)

Alter

Geschlecht (Frau: 1; Mann: 0)

Famlienstand (Verheiratet: 1; nicht verheiratet: 0)

Datengrundlage ist der General Social Survey (GSS) 1994

36 / 62

Page 37: Logistische Regression Prof. Dr. Stein - uni-due.de · PDF fileOdds >1 geben an, dass es wahrscheinlicher ist, dass das Ereignis eintritt als dass es nicht eintritt. Odds von 1 geben

GrundideeInterpretation der Regressionskoeffizienten

ModellschatzungModellgute

SPSS/STATA

Ein Beispiel

Auszug aus dem SPSS-Output

Variable B S.E. Wald df Sig. B∗ Exp(B)

Bildung -0.2085 0.0382 29.8742 1 0.0000 -0.2153 0.8118Alter -0.0341 0.0067 26.1222 1 0.0000 -0.2003 0.9665Familienstand -0.03746 0.2112 3.14441 1 0.0762 -0.0436 0.6875Geschlecht 0.0964 0.2126 0.2056 1 0.6502 0.000 1.1012Konstante 3.3666 0.6478 27.0112 1 0.0000

37 / 62

Page 38: Logistische Regression Prof. Dr. Stein - uni-due.de · PDF fileOdds >1 geben an, dass es wahrscheinlicher ist, dass das Ereignis eintritt als dass es nicht eintritt. Odds von 1 geben

GrundideeInterpretation der Regressionskoeffizienten

ModellschatzungModellgute

SPSS/STATA

MLH

Als optimale Schatzer fur α und β gelten die Werte, welchedie beobachteten Werte von Y in der Stichprobe mit derhochsten Wahrscheinlichkeit reproduzieren.

→ OLS: Minimierung der Residuenquadrate

Iteratives Schatzverfahren:Verschiedene Parameterwerte werden schrittweise ausprobiert.Das Vorgehen wird dann abgebrochen, wenn sich dieWahrscheinlichkeit, die Daten zu reproduzieren im Vergleichzum vorigen Iterationsschritt nicht mehr gesteigert wird.

38 / 62

Page 39: Logistische Regression Prof. Dr. Stein - uni-due.de · PDF fileOdds >1 geben an, dass es wahrscheinlicher ist, dass das Ereignis eintritt als dass es nicht eintritt. Odds von 1 geben

GrundideeInterpretation der Regressionskoeffizienten

ModellschatzungModellgute

SPSS/STATA

MLH

Der Likelihood-Wert fur die beobachtete Y-Verteilung imSample ...

N = n1 + n2

Mit:n1: Personen, die das Ereignis Y = 1 realisiert habenn2: Personen, die das Ereignis Y = 0 realisiert haben

39 / 62

Page 40: Logistische Regression Prof. Dr. Stein - uni-due.de · PDF fileOdds >1 geben an, dass es wahrscheinlicher ist, dass das Ereignis eintritt als dass es nicht eintritt. Odds von 1 geben

GrundideeInterpretation der Regressionskoeffizienten

ModellschatzungModellgute

SPSS/STATA

MLH

... ergibt sich aus der Multiplikation derEinzelwahrscheinlichkeiten in der Likelihood-Funktion:

L(π) = (π1)(Y1)× (π2)(Y2) · · · × (πn1)(Yn1)× (1− πn1+1)(Yn1+1)

×(1− πn+2)(Yn+2)× · · · × (πn1+n2)(Yn1+n2)

Mit:π: wahre Wahrscheinlichkeit, mit der eine bestimmte Person das

Ereignis Yi = 1 realisiert1− π: wahre Wahrscheinlichkeit, mit der eine bestimmte Person das

Ereignis Yi = 0 realisiert

40 / 62

Page 41: Logistische Regression Prof. Dr. Stein - uni-due.de · PDF fileOdds >1 geben an, dass es wahrscheinlicher ist, dass das Ereignis eintritt als dass es nicht eintritt. Odds von 1 geben

GrundideeInterpretation der Regressionskoeffizienten

ModellschatzungModellgute

SPSS/STATA

MLH

Alternativ:

L(π) =

(n1∏i=1

(πi)(Yi)

)×(

n1+n2∏i=n1+1

(1− πi)(1− Yi)

)

Durch Logarithmierung ist die so genannteLog-Likelihood-Funktion definiert als:

LL(π) =

(n1∑i=1

ln(πi)(Yi)

)×(

n1+n2∑i=n1+1

ln(1− πi)(1− Yi)

)

41 / 62

Page 42: Logistische Regression Prof. Dr. Stein - uni-due.de · PDF fileOdds >1 geben an, dass es wahrscheinlicher ist, dass das Ereignis eintritt als dass es nicht eintritt. Odds von 1 geben

GrundideeInterpretation der Regressionskoeffizienten

ModellschatzungModellgute

SPSS/STATA

MLH

Die wahre Wahrscheinlichkeit π, mit der eine bestimmtePerson das Ereignis Yi = 1 realisiert wird berechnet durch:

πi = Pi = e(α+

∑βkXkj )

1+e(α+

∑βkXkj )

haufige Verwendung des −2× LL

Das Maximum der Schatzung ist hier dann erreicht, wennder absolute Wert von −2× LL am geringsten ist

42 / 62

Page 43: Logistische Regression Prof. Dr. Stein - uni-due.de · PDF fileOdds >1 geben an, dass es wahrscheinlicher ist, dass das Ereignis eintritt als dass es nicht eintritt. Odds von 1 geben

GrundideeInterpretation der Regressionskoeffizienten

ModellschatzungModellgute

SPSS/STATA

MLH

Beispiel eines Iterationsprotokolls

Iteration −2× LL Regressionskoeffizient bi

Schritt 1 2648.125 0.343Schritt 2 2607.061 0.468Schritt 3 2606.116 0.491Schritt 4 2606.115 0.492Schritt 5 2606.115 0.492

43 / 62

Page 44: Logistische Regression Prof. Dr. Stein - uni-due.de · PDF fileOdds >1 geben an, dass es wahrscheinlicher ist, dass das Ereignis eintritt als dass es nicht eintritt. Odds von 1 geben

GrundideeInterpretation der Regressionskoeffizienten

ModellschatzungModellgute

SPSS/STATA

MLH

Parameter aus dem Vorgehen der ML-Schatzung sindasymptotisch:

konsistent

effizient

normalverteilt

44 / 62

Page 45: Logistische Regression Prof. Dr. Stein - uni-due.de · PDF fileOdds >1 geben an, dass es wahrscheinlicher ist, dass das Ereignis eintritt als dass es nicht eintritt. Odds von 1 geben

GrundideeInterpretation der Regressionskoeffizienten

ModellschatzungModellgute

SPSS/STATA

R2

Grundlegend:

Die -2LL des Modells ohne erklarende Variablen (L0) istein Aquivalent fur die Streuung insgesamt.

Die -2LL des Modells mit erklarenden Variablen (L1) istein Aquivalent fur die die nicht erklarte Streuung.

McFaddens Pseudo-R2:

R2 = [(−2lnL0)− (−2lnL1)]/(−2lnL0)

Wertebereich zwischen 0 und 1

Nachteil: Kann den Wert 1 nicht erreichen.

45 / 62

Page 46: Logistische Regression Prof. Dr. Stein - uni-due.de · PDF fileOdds >1 geben an, dass es wahrscheinlicher ist, dass das Ereignis eintritt als dass es nicht eintritt. Odds von 1 geben

GrundideeInterpretation der Regressionskoeffizienten

ModellschatzungModellgute

SPSS/STATA

R2

Cox & Snells R2:

R2 = ([(−2lnL0)− (−2lnL1)]/(−2lnL0))2N

Wertebereich zwischen 0 und 1

Nachteil: Kann den Wert 1 ebenfalls nicht erreichen.

46 / 62

Page 47: Logistische Regression Prof. Dr. Stein - uni-due.de · PDF fileOdds >1 geben an, dass es wahrscheinlicher ist, dass das Ereignis eintritt als dass es nicht eintritt. Odds von 1 geben

GrundideeInterpretation der Regressionskoeffizienten

ModellschatzungModellgute

SPSS/STATA

R2

Nagelkerkes R2:

R2 = R2

R2max

= R2

([(−2lnL0)−(−2lnL1)]/(−2lnL0))2N

Wertebereich zwischen 0 und 1

Kann den Wert 1 erreichen.

47 / 62

Page 48: Logistische Regression Prof. Dr. Stein - uni-due.de · PDF fileOdds >1 geben an, dass es wahrscheinlicher ist, dass das Ereignis eintritt als dass es nicht eintritt. Odds von 1 geben

GrundideeInterpretation der Regressionskoeffizienten

ModellschatzungModellgute

SPSS/STATA

R2

Resumee:Die Maße zur Bewertung der Modellgute in der logistischenRegression beziehen sich nicht (!) auf die Varianz im Sinne derquadrierten Abweichungsquadrate. Sie stellen lediglichahnliche Maße zu denen der linearen Regression dar (daher:Pseudo-R2).

Bisher besteht kein eindeutiger Konsens uber das beste Maßzur Bewertung der Modellgute. Wider der gangigen Praxis istbei der Interpretation der verschiedenen Maße relativeZuruckhaltung angebracht.

48 / 62

Page 49: Logistische Regression Prof. Dr. Stein - uni-due.de · PDF fileOdds >1 geben an, dass es wahrscheinlicher ist, dass das Ereignis eintritt als dass es nicht eintritt. Odds von 1 geben

GrundideeInterpretation der Regressionskoeffizienten

ModellschatzungModellgute

SPSS/STATA

Gute der Klassifikationsergebnisse

Grundidee:Verlgeich der empirisch beobachteten Gruppenzuordnungenmit denen der vorhergesagten Gruppenzuordnungen.

Vorgehen:

1. Berechnung der Wahrscheinlichkeit durch die logistischeRegression.

2. Zuweisungsregel:

yk =

{Gruppe y = 1 fallspk > 0, 5

Gruppe y = 0 fallspk < 0, 5

49 / 62

Page 50: Logistische Regression Prof. Dr. Stein - uni-due.de · PDF fileOdds >1 geben an, dass es wahrscheinlicher ist, dass das Ereignis eintritt als dass es nicht eintritt. Odds von 1 geben

GrundideeInterpretation der Regressionskoeffizienten

ModellschatzungModellgute

SPSS/STATA

Gute der Klassifikationsergebnisse

3. Klassifikationsmatrix

VorhergesagtBeobachtet 0 1 Prozent richtig

0 349 20 94.581 112 29 20.57

Prozent insgesamt 74.12

50 / 62

Page 51: Logistische Regression Prof. Dr. Stein - uni-due.de · PDF fileOdds >1 geben an, dass es wahrscheinlicher ist, dass das Ereignis eintritt als dass es nicht eintritt. Odds von 1 geben

GrundideeInterpretation der Regressionskoeffizienten

ModellschatzungModellgute

SPSS/STATA

Gute der Klassifikationsergebnisse

4. Beurteilung

a. Begutachtung des Prozentsatzes richtig vorhergesagterGruppenzugehorigkeit singular

Wert = 100%: Perfekte Modellanpassung.Wert = 50%: Inakzeptable Modellanpassung

b. Begutachtung des Prozentsatzes richtig vorhergesagterGruppenzugehorigkeit im Vergleich zum Nullmodell

Es gilt: Je großer der prozentualle Zuwachs, destosinnvoller ist der Einschluss der gewahltenVariablen ins Modell

51 / 62

Page 52: Logistische Regression Prof. Dr. Stein - uni-due.de · PDF fileOdds >1 geben an, dass es wahrscheinlicher ist, dass das Ereignis eintritt als dass es nicht eintritt. Odds von 1 geben

GrundideeInterpretation der Regressionskoeffizienten

ModellschatzungModellgute

SPSS/STATA

Literaturhinweise

Pampel, F. C. (2000): Logistic Regression: A Primer. SageUniversity Papers 132, Series on Quantitative Applications inthe Social Sciences. Sage: Thousand Oaks.

Menard, S. (2001): Applied Logistic Regression Analysis. SageUniversity Papers 106, Series on Quantitative Applications inthe Social Sciences. Sage: Thousand Oaks.

Kapitel zur logistischen Regression aus dem Handbuch dersozialwissenschaftlichen Datenanalyse von Wolf/Best.

52 / 62

Page 53: Logistische Regression Prof. Dr. Stein - uni-due.de · PDF fileOdds >1 geben an, dass es wahrscheinlicher ist, dass das Ereignis eintritt als dass es nicht eintritt. Odds von 1 geben

GrundideeInterpretation der Regressionskoeffizienten

ModellschatzungModellgute

SPSS/STATA

SPSS

Analysieren → Regression →binar logistische Regression

53 / 62

Page 54: Logistische Regression Prof. Dr. Stein - uni-due.de · PDF fileOdds >1 geben an, dass es wahrscheinlicher ist, dass das Ereignis eintritt als dass es nicht eintritt. Odds von 1 geben

GrundideeInterpretation der Regressionskoeffizienten

ModellschatzungModellgute

SPSS/STATA

SPSS

54 / 62

Page 55: Logistische Regression Prof. Dr. Stein - uni-due.de · PDF fileOdds >1 geben an, dass es wahrscheinlicher ist, dass das Ereignis eintritt als dass es nicht eintritt. Odds von 1 geben

GrundideeInterpretation der Regressionskoeffizienten

ModellschatzungModellgute

SPSS/STATA

STATA

Befehlssequenz zur Ausgabe der Effekte auf dieLogarithmierten Odds:

logit aV uVs

Z.B.:

logit Abtreibung Kirchgangshaufigkeit Leben n Tod Einkommen

Befehlssequenz zur Ausgabe der Effekte auf die Odds:logistic aV uVs

Z.B.:

logistic Abtreibung Kirchgangshaufigkeit Leben n Tod Einkommen

55 / 62

Page 56: Logistische Regression Prof. Dr. Stein - uni-due.de · PDF fileOdds >1 geben an, dass es wahrscheinlicher ist, dass das Ereignis eintritt als dass es nicht eintritt. Odds von 1 geben

GrundideeInterpretation der Regressionskoeffizienten

ModellschatzungModellgute

SPSS/STATA

Ubung

56 / 62

Page 57: Logistische Regression Prof. Dr. Stein - uni-due.de · PDF fileOdds >1 geben an, dass es wahrscheinlicher ist, dass das Ereignis eintritt als dass es nicht eintritt. Odds von 1 geben

GrundideeInterpretation der Regressionskoeffizienten

ModellschatzungModellgute

SPSS/STATA

Ubung

Determinanten fur das Vorhandensein von Kindern (ja/nein)

57 / 62

Page 58: Logistische Regression Prof. Dr. Stein - uni-due.de · PDF fileOdds >1 geben an, dass es wahrscheinlicher ist, dass das Ereignis eintritt als dass es nicht eintritt. Odds von 1 geben

GrundideeInterpretation der Regressionskoeffizienten

ModellschatzungModellgute

SPSS/STATA

Ubung

Determinanten fur Arbeitslosigkeitserfahrungen (ja/nein)

58 / 62

Page 59: Logistische Regression Prof. Dr. Stein - uni-due.de · PDF fileOdds >1 geben an, dass es wahrscheinlicher ist, dass das Ereignis eintritt als dass es nicht eintritt. Odds von 1 geben

GrundideeInterpretation der Regressionskoeffizienten

ModellschatzungModellgute

SPSS/STATA

Ubung

Determinanten fur Arbeitslosigkeitserfahrungen (ja/nein)

59 / 62

Page 60: Logistische Regression Prof. Dr. Stein - uni-due.de · PDF fileOdds >1 geben an, dass es wahrscheinlicher ist, dass das Ereignis eintritt als dass es nicht eintritt. Odds von 1 geben

GrundideeInterpretation der Regressionskoeffizienten

ModellschatzungModellgute

SPSS/STATA

Ubung

Determinanten fur Arbeitslosigkeitserfahrungen (ja/nein)

60 / 62

Page 61: Logistische Regression Prof. Dr. Stein - uni-due.de · PDF fileOdds >1 geben an, dass es wahrscheinlicher ist, dass das Ereignis eintritt als dass es nicht eintritt. Odds von 1 geben

GrundideeInterpretation der Regressionskoeffizienten

ModellschatzungModellgute

SPSS/STATA

Ubung

Determinanten der Befurwortung von Abtreibung (ja/nein)

61 / 62

Page 62: Logistische Regression Prof. Dr. Stein - uni-due.de · PDF fileOdds >1 geben an, dass es wahrscheinlicher ist, dass das Ereignis eintritt als dass es nicht eintritt. Odds von 1 geben

GrundideeInterpretation der Regressionskoeffizienten

ModellschatzungModellgute

SPSS/STATA

Ubung

Determinanten der Befurwortung von Abtreibung (ja/nein)

62 / 62

Page 63: Logistische Regression Prof. Dr. Stein - uni-due.de · PDF fileOdds >1 geben an, dass es wahrscheinlicher ist, dass das Ereignis eintritt als dass es nicht eintritt. Odds von 1 geben

GrundideeInterpretation der Regressionskoeffizienten

ModellschatzungModellgute

SPSS/STATA

Ubung

Determinanten der Befurwortung von Abtreibung (ja/nein)

63 / 62