einführung das cox-modell die cox-regression in stata · survival 0 100 200 300 400 analysis time...
TRANSCRIPT
EinführungDas Cox-Modell
Die Cox-Regression in Stata
Cox-Regression
9. Mai 2012
Cox-Regression
EinführungDas Cox-Modell
Die Cox-Regression in Stata
Inhaltsverzeichnis
1 EinführungAnwendung
2 Das Cox-ModellWie heisst eigentlich . . .Schätzprobleme
3 Die Cox-Regression in StataDie DatenDatensatz vorbereitenCox-RegressionProportionalitätsannahme
Cox-Regression
EinführungDas Cox-Modell
Die Cox-Regression in StataAnwendung
Anwendung
In der Literatur wird das Cox-Modell als die populärsteRegressionsmethode zur Analyse von Überlebensdatenbezeichnet.
Sie �ndet besonderen Anklang in der demographischenForschung, beispielsweise in der Untersuchung von Heirat,Scheidung, Geburt, Migration und Job-Mobilität. Ebenso wirdihr grosse Beliebtheit, in der biomedizinischen Forschungbescheinigt.
Das stetige Cox-Modell wird auch als proportionales HazardModell (proportional hazards model) bezeichnet.
Cox-Regression
EinführungDas Cox-Modell
Die Cox-Regression in Stata
Wie heisst eigentlich . . .Schätzprobleme
Das Cox-Modell
Das Cox-Modell ist de�niert als:
hi(t) = h0(t) exp
{∑k
bkXik(t)
}
Die Hazardrate ist de�niert als das Produkt einer unspezi�ziertenBaseline-Funktion h0(t) und einem zweiten Term der den möglichenEin�uss eines Kovariatvektors Xik(t) (für Person i zum Zeitpunkt tund Kovariate k) auf die Hazardrate angibt. Das Cox-Modellbesitzt kein Interzept, weil es mit in der Baseline h0(t) steckt.Mathematisch gesprochen ist es aus den Daten nicht identi�zierbar.
Der E�ekt der Kovariaten kann proportionale Änderungen derHazardrate bewirken. Deshalb sollte das Cox-Modell nur verwendetwerden, wenn diese Proportionalitätsannahme gerechtfertigt ist.
Cox-Regression
EinführungDas Cox-Modell
Die Cox-Regression in Stata
Wie heisst eigentlich . . .Schätzprobleme
Bezeichnung: Semiparametrisches Verfahren
hi(t) = h0(t) exp
{∑k
bkXik(t)
}
h0(t) kann hierbei jede Funktion der Zeit sein.
Diese Funktion muss nicht spezi�ziert werden, es wird keineVerteilungsannahme über die Hazardrate getro�en.
Lediglich der E�ekt der Kovariaten (UV) bk wirdparametrisiert.
Deshalb wird dieses Modell als semiparametrisch oder partiellparametrisch bezeichnet.
Cox-Regression
EinführungDas Cox-Modell
Die Cox-Regression in Stata
Wie heisst eigentlich . . .Schätzprobleme
Bezeichnung: Proportionales Hazardmodell
hi(t) = h0(t) exp
{∑k
bkXik(t)
}
Für jedes Paar von Individuen zu jedem Zeitpunkt giltfolgendes:
hi(t)
hj(t)= c, für jeden Zeitpunkt t
c kann dabei von den erklärenden Variablen abhängen, nichtjedoch von der Zeit.
Im Gegensatz zu dem Namen ist dies keine entscheidendeEigenschaft des Modells. Die Konstanz der Hazard-Ratiosgeht verloren, wenn zeitveränderliche unabhängige Variableneingeführt werden.
Cox-Regression
EinführungDas Cox-Modell
Die Cox-Regression in Stata
Wie heisst eigentlich . . .Schätzprobleme
Partial Likelihood I
Es ist natürlich einfacher, solch ein Modell aufzustellen als es zuschätzen. Hier ziegt sich das wichtige an Cox's Modell: die Partial
Likelihood Methode.Die Maximum Likelihood für b
L =
N∏n=1
[h0(t) exp(x
′nb)]δn · exp(−∫ t
0h0(u) exp(x
′nb)du
)ist nicht zu schätzen. Die Gleichung enthält nicht nur b, sondernauch h0(t), 2 unbekannte Gröÿen.
Cox-Regression
EinführungDas Cox-Modell
Die Cox-Regression in Stata
Wie heisst eigentlich . . .Schätzprobleme
Partial Likelihood II
Der Vorschlag von David Cox war nun, die Likelihood zufaktorisieren:
L =k∏
n=1
exp(x′nb)∑
l∈Rtn
exp(x′lb)
∑l∈Rtn
h0(t) exp(x′lb)
N∏n=1
exp
(−∫ tn
0
h0(u)du
)exp(x′nb)
und nur die linke Seite, in der h0(t) nicht vorkommt, zu maximieren:
PL =
k∏n=1
exp(x′nb)∑
l∈Rtn
exp(x′lb)
Cox-Regression
EinführungDas Cox-Modell
Die Cox-Regression in Stata
Wie heisst eigentlich . . .Schätzprobleme
Partial Likelihood III
Bei dieser Vorgehensweise geht etwas Information verloren (DasModell nutzt nur die Information über die relative Reihenfolge derVerweildauern anstelle der exakten Zeitpunkte). Dies schlägt beikleinen Stichproben stärker zu Buche.
Die daraus resultierenden Schätzer sind asymptotisch unverzerrt undnormalverteilt. Sie sind nicht komplett e�zient, da ein Teil derInformation (der genaue Zeitpunkt des Eintretens) von demVerfahren ignoriert bleibt. Dieser Malus an E�zienz ist jedochnormalerweise so gering, dass er nicht besorgniserregend ist.
Wenn die Abhängigkeit des Hazards von der Zeit von Bedeutung ist,lässt sich das Cox-Modell nicht anwenden.
Die Handhabung von Ties ist problematisch. Als Daumenregelsollten nicht mehr als 5% der Fälle Ties sein. Deshalb werden sieapproximiert. Diese Annäherung ist jedoch bei einer grossen Anzahlvon Ties bestenfalls fragwürdig.
Cox-Regression
EinführungDas Cox-Modell
Die Cox-Regression in Stata
Die DatenDatensatz vorbereitenCox-RegressionProportionalitätsannahme
Datensatz
Die Beispiele orientieren sich an dem Lehrbuch
Blossfeld, H.-P.; Golsch, K. und Rohwer, G. (2007):
Event History Analysis With Stata. New York: Erlbaum.
Der verwendete Datensatz kann unter
http://web.uni-bamberg.de/sowi/soziologie-i/eha/stata/
heruntergeladen werden.
Cox-Regression
EinführungDas Cox-Modell
Die Cox-Regression in Stata
Die DatenDatensatz vorbereitenCox-RegressionProportionalitätsannahme
Der Datensatz rrdat1.dta
Variable Beschreibung
id Identi�ziert jede einzelne Befragungsperson im Datensatznoj Laufende Nummer der Jobepisodetstart Anfangszeit der Jobepisode in Monaten seit Beginn des Jahrhunderts
(1=1900)t�n Endzeit der Jobepisode in Monaten seit Beginn des Jahrhundertssex Geschlecht: 1=Männer, 2=Frauenti Interviewzeitpunkt in Monaten seit Beginn des Jahrhundertstb Geburtsdatumte Eintritt in den Arbeitsmarkt in Monaten seit Beginn des Jahrhundertstmar Eintritt in die Ehe in Monaten seit Beginn des Jahrhunderts,
0 wenn unverheiratetpres Prestigewert des Jobspresn Prestigewert des darauf folgenden Jobs, -1 falls kein weiterer Jobedu Höchster Bildungsabschluss vor Eintritt in den Arbeitsmarkt in Jahren
Cox-Regression
EinführungDas Cox-Modell
Die Cox-Regression in Stata
Die DatenDatensatz vorbereitenCox-RegressionProportionalitätsannahme
Beispiel: 1. Fall
list id noj tstart t�n sex ti tb te tmar pres presn edu in 1/9, sepby(id)
Cox-Regression
EinführungDas Cox-Modell
Die Cox-Regression in Stata
Die DatenDatensatz vorbereitenCox-RegressionProportionalitätsannahme
Arbeitsvariablen
Erstellung der Variable des → für �destination�:des misst, ob eine Episode mit einem Ereignis endet oder eineRechtszensierung vorliegtRechtszensiert, wenn t�n=ti ; Episode beendet, wenn t�n ~= ti.
Erstellung der Variablen tf → für ��nish time�:Bildet die Di�erenz aus den Variablen t�n und tstart.Auf diese Weise wird die Verweildauer in einer Jobepisode für jedeBefragungsperson in Monaten gemessen.
destination & �nish time
gen des = t�n ~= ti
gen tf = t�n - tstart + 1
Cox-Regression
EinführungDas Cox-Modell
Die Cox-Regression in Stata
Die DatenDatensatz vorbereitenCox-RegressionProportionalitätsannahme
Ereignisdaten deklarieren
Um eine Cox-Regression in Stata durchzuführen zu könne, müssenwir Daten als Ereignisdaten deklarieren. Dies geschieht über denBefehl stset.
Als Ereignisdaten deklarieren
stset tf, f(des)
Cox-Regression
EinführungDas Cox-Modell
Die Cox-Regression in Stata
Die DatenDatensatz vorbereitenCox-RegressionProportionalitätsannahme
Variablen generieren
gen coho2 = tb>=468 & tb<= 504
gen coho3 = tb>=588 & tb<= 624
gen lfx = tstart - telabor force experience, Eintritt in Arbeitsmarkt-Eintritt in(1.,2.,3.. . .)Jobepisode
gen pnoj = noj - 1Anzahl vorheriger Jobs
gen women = sex==2
gen marrdate = tmar - tstartHeiratsdatum - Einstieg in den 1. Job
gen entrymarr = marrdate>0 & marrdate <tf
Cox-Regression
EinführungDas Cox-Modell
Die Cox-Regression in Stata
Die DatenDatensatz vorbereitenCox-RegressionProportionalitätsannahme
stcox
Der Befehl für eine Cox-Regression in Stata heiÿt stcox. Berechnung einerCox-Regression mit Bildung, Geburtskohorte, Arbeitsmarkterfahrung,Anzahl der bisherigen Jobs und Prestige als zeitkonstante Variablen:
Cox-Regression
EinführungDas Cox-Modell
Die Cox-Regression in Stata
Die DatenDatensatz vorbereitenCox-RegressionProportionalitätsannahme
stcox
Da bei einer Nicht-Spezi�kation der Übergangsrate eineMaximierung der Likelihoodfunktion nicht möglich ist, werdendie Parameter mit der Partial-Likelihood-Methode geschätzt.
Eine Konstante wird nicht berechnet, da sie im Cox Modell einBestandteil der nicht näher spezi�zierten Basisrate ist.
Die nicht näher spezi�zierte Basisrate eines Cox Modells kanngeschätzt werden.
Dazu benötigen wir den Befehl:
stcox edu coho2 coho3 lfx pnoj pres women, nohr basesurv(s)basehc(h) basec(c)
Cox-Regression
EinführungDas Cox-Modell
Die Cox-Regression in Stata
Die DatenDatensatz vorbereitenCox-RegressionProportionalitätsannahme
stcox
Cox-Regression
EinführungDas Cox-Modell
Die Cox-Regression in Stata
Die DatenDatensatz vorbereitenCox-RegressionProportionalitätsannahme
stcurve, survival
0.2
.4.6
.81
Sur
viva
l
0 100 200 300 400analysis time
Cox-Regression
EinführungDas Cox-Modell
Die Cox-Regression in Stata
Die DatenDatensatz vorbereitenCox-RegressionProportionalitätsannahme
stcurve, survival
Der Befehl stcurve, survival erzeugt die vorherige Graphik. Siezeigt den Verlauf der geschätzten Überlebensfunktion, wennfür alle Prädiktoren der Mittelwert angenommen wird.
Der Befehl stcurve kann auch dazu verwenden werden, diegeschätzte Basisrate für bestimmte Subgruppen desDatensatzes zu plotten. Eine Erweiterung um die Option at()
ist dazu nötig.
Um Unterschiede zwischen den Geburtskohorten zu illustrierenkönnen wir beispielsweise für die Variablen Werte einsetzenund danach für jede Kohorte den Verlauf der kumuliertenHazardrate darstellen.
Cox-Regression
EinführungDas Cox-Modell
Die Cox-Regression in Stata
Die DatenDatensatz vorbereitenCox-RegressionProportionalitätsannahme
stcurve, cumhaz
stcurve, cumhaz at1(coho3=1 coho2=0 edu=13 lfx=5 pnoj=1 pres=30) ///at2(coho2=1 coho3=0 edu=13 lfx=5 pnoj=1 pres=30) ///at3(coho2=0 coho3=0 edu=13 lfx=5 pnoj=1 pres=30) legend(row(3))
02
46
Cum
ulat
ive
Haz
ard
0 100 200 300 400analysis time
coho3=1 coho2=0 edu=13 lfx=5 pnoj=1 pres=30coho2=1 coho3=0 edu=13 lfx=5 pnoj=1 pres=30coho2=0 coho3=0 edu=13 lfx=5 pnoj=1 pres=30
Cox-Regression
EinführungDas Cox-Modell
Die Cox-Regression in Stata
Die DatenDatensatz vorbereitenCox-RegressionProportionalitätsannahme
stcox
Um die geglättete Basisrate für die gleichen Werte derunabhängigen Variablen darzustellen verwenden wir folgenden
Befehl.
stcurve, hazard at1(coho3=1 coho2=0 edu=13 lfx=5 pnoj=1 pres=30) ///at2(coho2=1 coho3=0 edu=13 lfx=5 pnoj=1 pres=30) ///at3(coho2=0 coho3=0 edu=13 lfx=5 pnoj=1 pres=30) kernel(gauss) legend(row(3))
Cox-Regression
EinführungDas Cox-Modell
Die Cox-Regression in Stata
Die DatenDatensatz vorbereitenCox-RegressionProportionalitätsannahme
stcurve, hazard
stcurve, hazard at1(coho3=1 coho2=0 edu=13 lfx=5 pnoj=1 pres=30) ///at2(coho2=1 coho3=0 edu=13 lfx=5 pnoj=1 pres=30) ///at3(coho2=0 coho3=0 edu=13 lfx=5 pnoj=1 pres=30) kernel(gauss) legend(row(3))
0.0
1.0
2.0
3S
moo
thed
haz
ard
func
tion
0 100 200 300analysis time
coho3=1 coho2=0 edu=13 lfx=5 pnoj=1 pres=30coho2=1 coho3=0 edu=13 lfx=5 pnoj=1 pres=30coho2=0 coho3=0 edu=13 lfx=5 pnoj=1 pres=30
Cox-Regression
EinführungDas Cox-Modell
Die Cox-Regression in Stata
Die DatenDatensatz vorbereitenCox-RegressionProportionalitätsannahme
Befehle
Dem Cox-Modell liegt die Annahme proportionaler Risikenzugrunde. In Stata existieren mehrere Möglichkeit, diese Annahmezu testen.
estat phtest
stphplot
stcoxkm
Cox-Regression
EinführungDas Cox-Modell
Die Cox-Regression in Stata
Die DatenDatensatz vorbereitenCox-RegressionProportionalitätsannahme
estat phtest
Benutzen Sie jetzt die Optionen scaledsch(sca*) (für scaledSchoenfeld residuals) und schoenfeld(sch*) (für nonscaledresiduals).
Wenn Sie diese Optionen nicht angeben, können Sie denBefehl estat phtest nicht anwenden.
stcox edu coho2 coho3 lfx pnoj pres women, nohr scaledsch(sca*) schoenfeld(sch*)
estat phtest, rank detailestat phtest, km detailestat phtest, log detail
detail fordert Teststatistik für einzelne Kovariaten und Modell an.
Cox-Regression
EinführungDas Cox-Modell
Die Cox-Regression in Stata
Die DatenDatensatz vorbereitenCox-RegressionProportionalitätsannahme
estat phtest
Die Ergebnisse zeigen, dass die Proportionalitätsannahme fürdie Variablen Geschlecht und Prestige nicht zutre�end ist.
Also ist das Risiko eines Tätigkeitswechsels z.B. für Männerund Frauen nicht proportional.
Cox-Regression
EinführungDas Cox-Modell
Die Cox-Regression in Stata
Die DatenDatensatz vorbereitenCox-RegressionProportionalitätsannahme
stphplot
Der Befehl stphplot zeichnet ln(-ln(survival)) Kurven für jedeKategorie einer nominalen -oder ordinalen- Variable gegen dielogarithmierten Prozesszeit.
Wenn die Annahme proportionaler Risiken nicht verletzt ist,dann sollten die mit stphplot erzeugten Kurven parallelverlaufen.
Cox-Regression
EinführungDas Cox-Modell
Die Cox-Regression in Stata
Die DatenDatensatz vorbereitenCox-RegressionProportionalitätsannahme
stphplot, by(coho3) - Proportional
−2
02
46
−ln
[−ln
(Sur
viva
l Pro
babi
lity)
]
1 2 3 4 5 6ln(analysis time)
coho3 = 0 coho3 = 1
Cox-Regression
EinführungDas Cox-Modell
Die Cox-Regression in Stata
Die DatenDatensatz vorbereitenCox-RegressionProportionalitätsannahme
stphplot, by(coho3) - Proportional
−2
02
46
−ln
[−ln
(Sur
viva
l Pro
babi
lity)
]
1 2 3 4 5 6ln(analysis time)
coho3 = 0 coho3 = 1
Cox-Regression
EinführungDas Cox-Modell
Die Cox-Regression in Stata
Die DatenDatensatz vorbereitenCox-RegressionProportionalitätsannahme
stphplot, by(women) - Nicht proportional
−2
02
46
−ln
[−ln
(Sur
viva
l Pro
babi
lity)
]
1 2 3 4 5 6ln(analysis time)
women = 0 women = 1
Cox-Regression
EinführungDas Cox-Modell
Die Cox-Regression in Stata
Die DatenDatensatz vorbereitenCox-RegressionProportionalitätsannahme
stphplot, by(women) - Nicht proportional
−2
02
46
−ln
[−ln
(Sur
viva
l Pro
babi
lity)
]
1 2 3 4 5 6ln(analysis time)
women = 0 women = 1
Cox-Regression
EinführungDas Cox-Modell
Die Cox-Regression in Stata
Die DatenDatensatz vorbereitenCox-RegressionProportionalitätsannahme
stcoxkm
stcoxkm vergleicht die Kaplan-Meier Überlebenskurve mit derauf der Basis des Cox Modells geschätzten Kurve.
Die Kurven sollten sich möglichst ähnlich sein.
Generell lässt sich sagen, dass auf der Grundlage beider graphischenVerfahren oft nicht eindeutig entschieden werden kann, ob die
Annahme proportionaler Risiken verletzt ist.
Cox-Regression
EinführungDas Cox-Modell
Die Cox-Regression in Stata
Die DatenDatensatz vorbereitenCox-RegressionProportionalitätsannahme
stcoxkm, by(women) m(i i i i)
0.00
0.20
0.40
0.60
0.80
1.00
Sur
viva
l Pro
babi
lity
0 100 200 300 400analysis time
Observed: women = 0 Observed: women = 1Predicted: women = 0 Predicted: women = 1
Cox-Regression