eine methode zum umgang mit fehlenden todesursachen in ... · g.hammer workshop statmethepi 1...

1G.Hammer Workshop StatMethEpi

19.11.2009

Eine Methode zum Umgang mit fehlenden

Todesursachen in Kohortenstudien

Gaël P. Hammer, Jochem König,

Ingo Langner, Hajo Zeeb

Institut für Biometrie, Epidemiologie

und Medizinische Informatik


19.11.2009

Hintergrund

Probleme historischer Kohortenstudien Verluste beim Follow up

fehlende Todesursachen

Anwendungsbeispiel: Deutsche Flugpersonal-Kohorte Einschluss: 1960-1997 aktive Personen

Hohe Mobilität

Mortalitäts-Follow up bis 2003

883 Krebsfälle

Anteil fehlender Todesursachen 25,8 % (1960-1974) bis 8,7 % (1990-2003)




19.11.2009

Methoden

Rittgen W, Becker N

Biometrics. 2000 Dec;56(4):1164-9

Idee

3 Lösungsansätze

Probleme

Alternative Vorschläge

Multiple Imputation

wir stellen und dumm




19.11.2009

Rittgen & Becker – Idee

Notation

Z: # Todesursachen insgesamt

M: # Krebs-Todesursachen

N: # Nicht-Krebs-Krebs-Todesursachen

U: # unbekannter Todesursachen

Z = M + N + U

Idee

Anteil bekannter Ursachen: p = (M + N) / (M + N + U)

Korrigierte Anzahl: K = M / p

Problem: Konfidenzintervall für K ?




19.11.2009

Rittgen & Becker – Idee

Gesucht werden die Parameter der echten Anzahlen:

Z = K + L

Statt M: K ~ Poisson(κ) „Krebstodesursachen“

Statt N: L ~ Poisson(λ) „andere Ursachen“

M ~ Poisson(µ); M | K ~ Binom(k; p = µ/κ)

N ~ Poisson(ν); N | L ~ Binom(l; p = ν/λ)

p ~ Binomial()

Max.Likelihood-Schätzer:

z

nmp̂

p

m

ˆˆ




19.11.2009

Rittgen & Becker – Lösungen

1) Konservative Lösung

α1+ α2 = α

(1-α1)%-Konfidenzintervall für µ: [µL ; µU]

(1-α2)%-Konfidenzintervall für p: [pL ; pU]

Setze κL := µL / pU und κU := µU / pL




19.11.2009


2) Asymptotischer Lösung

auf Grundlage der Informationsmatrix der Maximum-

Likelihood-Schätzung von p, κ und λ

asymptotische Varianz für κ berechnen als:

Var(κ) = κ[1+N/(M+N)·(1-p)/p].

(1- α)%-Konfidenzintervallgrenzen:

κ ± z1-a/2·√Var(κ).




19.11.2009


3) Exakte Lösung

Iteratives Verfahren

in APL/2 implementiert




19.11.2009

Rittgen & Becker – Probleme

Zentrale Annahme: Die Verteilung der unbekannten Todesursachen gleicht derjenigen der beobachteten.

fast immer verletzt

Flugzeugabsturz im Ausland keine Todesursache (ein schlechtes Beispiel)

In der jüngsten Vergangenheit weniger fehlende Werte als vorher

Teillösung: Anwendung in Strata

Aber: Korrektur in kleinen Strata schlecht zu kommunizieren




19.11.2009

Rittgen & Becker – Probleme

Jahre Todesursache Fälle p korr. Fälle

1960-74 Alle 13

Krebs 1 0,62 1,63

Andere 7 =(13-5)/13

Unbekannt 5

1975-89 Alle 66

Krebs 10 0,85 11,79

Andere 46

Unbekannt 10

1990-03 Alle 153

Krebs 34 0,90 37,70

Andere 104

Unbekannt 15

1960-2003 Krebs 45 0,87 51,12 ≠ 51,68




19.11.2009

Alternative: Multiple Imputation

Es ist einfach

Es gibt Software dafür

Für die Verteilung der unbekannten

Todesursachen kann angenommen werden

die Verteilung der beobachteten Todesursachen

die Verteilung der Todesursachen in der

Referenzbevölkerung (= anderes Extrem)

Hoffnung: Es ist präzise




19.11.2009


Hier: „von Hand“:

1. Erzeuge i Datensätze mit imputierten Werten für die Fehlenden Todesursachen Erzeuge pi: Die Bayesianische Posterior-Verteilung von p ist

Beta(M; N).

Erzeuge U'i: U'i ~ Binomial(U, pi)

Berechne Ki =M + Ui

Var(Ki) = Ki, da Poisson-verteilt.

2. Auswertung: Entweder direkt anhand der Formeln von Rubin (2002) oder mit der Auswertungs-Prozedur1. Within-simulation variance

2. Between-simulation variance

3. Zusammen: Schätzer K mit seiner Varianz V > K.




19.11.2009


Offene Frage: K ~ Poisson mit Überdispersion

Lehrbuch: K ~ t()

Mein Vorschlag: K ~ Negativ-Binomial

Alternativ: Verwende Log-Transformation von K

(Log(Ki), Var(Ki) = 1/Ki)

Besser? K ~ Gamma mit entsprechenden

Momenten?




19.11.2009

Alternative: Naives Verfahren

Wir nehmen p als fest an.

[κL ; κU] := [µL/p ; µU/p]

Aber: Überdeckungswahrscheinlichkeit?




19.11.2009

Ergebnisse

95%

CI (r

ela

tive to

corr

ecte

d n

o. o

f o

bserv

ed d

eath

s)

( 50%) 0.0% 50%

100% 150% 200% 250% 300% 350% 400% 450% 500% 550%

Total deaths

10 100 1000

Correction method

Rittgen & Becker 'exact'Rittgen & Becker asymptotic

10%

20%

30%40%80%10%20%80%

95%-Konfidenzintervall relativ zum korrigierten Schätzer

bei unterschiedlichen Anteilen bekannter Todesursachen




19.11.2009

Ergebnisse95%

CI

(re

lative

to c

orr

ecte

d n

o. o

f ob

serv

ed d

ea

ths)

0.0%

20%

40%

60%

80%

100%

120%

140%

160%

180%

200%

220%

Proportion of observed deaths from sample cause

10%20%

30%40%

50%60%

70%80%

90% / 10%

20%30%

40%50%

60%70%

80%90%

Correction method

NaiveRittgen & Becker approximateRittgen & Becker asymptoticMultiple Imputation

5% missing causes 25% missing causes

Breite des 95%-Konfidenzintervalls

relativ zum korrigierten Schätzer

am Beispiel 100 Todesfälle




19.11.2009

Ergebnisse

Jahre Todesurs. Fälle korr.

Fälle

95%-Konfidenzintervalle für korrigierte Krebsfälle

1960-74 Alle 33 0,9 - 12,1 naiv

Krebs 3 4,1 0,7 - 16,9 approximativ

Andere 21 -0,5 - 8,7 asymptotisch

Unbekannt 9 0,0 - 10,0 multiple Imputation

1975-89 Alle 100 22,9 - 46,8 naiv


Andere 66 22,0 - 44,7 asymptotisch


1990-03 Alle 252 77,6 - 118,3 naiv


Andere 147 76,8 - 115,9 asymptotisch


{




19.11.2009

Ergebnisse

Coverage, MI

90%

91%

92%

93%

94%

95%

96%

97%

98%

99%

100%

TruePropCancer

10% 20% 30% 40% 50% 60% 70% 80% 90%

TruePropUnknown 5% 10% 15% 20% 25%

Überdeckungswahrscheinlichkeit des MI-Verfahrens

für den Extremfall 20 Todesfälle insgesamt




19.11.2009

Diskussion

Die Korrektur der SMR + KI ist wichtig

Das approximative Verfahren von Rittgen und

Becker liefert sehr konservative Konfidenzintervall-

grenzen

Überdeckungswahrscheinlichkeit der Konfidenz-

intervalle mit den verschiedenen Ansätzen fast

immer über 95% (Ausnahme: sehr kleine

Fallzahlen: ≤ 20 Tote insgesamt, davon 2-4 Krebs)




19.11.2009

Diskussion

Multiple Imputation

einfach zu implementieren

liefert genaue Konfidenzintervalle

erlaubt es, von der Annahme abzuweichen, dass

die Verteilung der unbekannten Todesursachen

derjenigen der beobachteten gleicht

Verhindert unter Umständen Überkorrektur




19.11.2009

Offene Punkte

Implementierung: PROC FCMP

Anzahl nötiger MI-Datensätze

Wie werden die Konfidenzintervallgrenzen für die

korrigierte Anzahl Krebstodesfälle K technisch

„richtigt“ berechnet?

eine methode zum umgang mit fehlenden todesursachen in ... · g.hammer workshop statmethepi 1...

Documents