eine methode zum umgang mit fehlenden todesursachen in ... · g.hammer workshop statmethepi 1...
TRANSCRIPT
1G.Hammer Workshop StatMethEpi
19.11.2009
Eine Methode zum Umgang mit fehlenden
Todesursachen in Kohortenstudien
Gaël P. Hammer, Jochem König,
Ingo Langner, Hajo Zeeb
Institut für Biometrie, Epidemiologie
und Medizinische Informatik
2G.Hammer Workshop StatMethEpi
19.11.2009
Hintergrund
Probleme historischer Kohortenstudien Verluste beim Follow up
fehlende Todesursachen
Anwendungsbeispiel: Deutsche Flugpersonal-Kohorte Einschluss: 1960-1997 aktive Personen
Hohe Mobilität
Mortalitäts-Follow up bis 2003
883 Krebsfälle
Anteil fehlender Todesursachen 25,8 % (1960-1974) bis 8,7 % (1990-2003)
Institut für Biometrie, Epidemiologie
und Medizinische Informatik
3G.Hammer Workshop StatMethEpi
19.11.2009
Methoden
Rittgen W, Becker N
Biometrics. 2000 Dec;56(4):1164-9
Idee
3 Lösungsansätze
Probleme
Alternative Vorschläge
Multiple Imputation
wir stellen und dumm
Institut für Biometrie, Epidemiologie
und Medizinische Informatik
4G.Hammer Workshop StatMethEpi
19.11.2009
Rittgen & Becker – Idee
Notation
Z: # Todesursachen insgesamt
M: # Krebs-Todesursachen
N: # Nicht-Krebs-Krebs-Todesursachen
U: # unbekannter Todesursachen
Z = M + N + U
Idee
Anteil bekannter Ursachen: p = (M + N) / (M + N + U)
Korrigierte Anzahl: K = M / p
Problem: Konfidenzintervall für K ?
Institut für Biometrie, Epidemiologie
und Medizinische Informatik
5G.Hammer Workshop StatMethEpi
19.11.2009
Rittgen & Becker – Idee
Gesucht werden die Parameter der echten Anzahlen:
Z = K + L
Statt M: K ~ Poisson(κ) „Krebstodesursachen“
Statt N: L ~ Poisson(λ) „andere Ursachen“
M ~ Poisson(µ); M | K ~ Binom(k; p = µ/κ)
N ~ Poisson(ν); N | L ~ Binom(l; p = ν/λ)
p ~ Binomial()
Max.Likelihood-Schätzer:
z
nmp̂
p
m
ˆˆ
Institut für Biometrie, Epidemiologie
und Medizinische Informatik
6G.Hammer Workshop StatMethEpi
19.11.2009
Rittgen & Becker – Lösungen
1) Konservative Lösung
α1+ α2 = α
(1-α1)%-Konfidenzintervall für µ: [µL ; µU]
(1-α2)%-Konfidenzintervall für p: [pL ; pU]
Setze κL := µL / pU und κU := µU / pL
Institut für Biometrie, Epidemiologie
und Medizinische Informatik
7G.Hammer Workshop StatMethEpi
19.11.2009
Rittgen & Becker – Lösungen
2) Asymptotischer Lösung
auf Grundlage der Informationsmatrix der Maximum-
Likelihood-Schätzung von p, κ und λ
asymptotische Varianz für κ berechnen als:
Var(κ) = κ[1+N/(M+N)·(1-p)/p].
(1- α)%-Konfidenzintervallgrenzen:
κ ± z1-a/2·√Var(κ).
Institut für Biometrie, Epidemiologie
und Medizinische Informatik
8G.Hammer Workshop StatMethEpi
19.11.2009
Rittgen & Becker – Lösungen
3) Exakte Lösung
Iteratives Verfahren
in APL/2 implementiert
Institut für Biometrie, Epidemiologie
und Medizinische Informatik
9G.Hammer Workshop StatMethEpi
19.11.2009
Rittgen & Becker – Probleme
Zentrale Annahme: Die Verteilung der unbekannten Todesursachen gleicht derjenigen der beobachteten.
fast immer verletzt
Flugzeugabsturz im Ausland keine Todesursache (ein schlechtes Beispiel)
In der jüngsten Vergangenheit weniger fehlende Werte als vorher
Teillösung: Anwendung in Strata
Aber: Korrektur in kleinen Strata schlecht zu kommunizieren
Institut für Biometrie, Epidemiologie
und Medizinische Informatik
10G.Hammer Workshop StatMethEpi
19.11.2009
Rittgen & Becker – Probleme
Jahre Todesursache Fälle p korr. Fälle
1960-74 Alle 13
Krebs 1 0,62 1,63
Andere 7 =(13-5)/13
Unbekannt 5
1975-89 Alle 66
Krebs 10 0,85 11,79
Andere 46
Unbekannt 10
1990-03 Alle 153
Krebs 34 0,90 37,70
Andere 104
Unbekannt 15
1960-2003 Krebs 45 0,87 51,12 ≠ 51,68
Institut für Biometrie, Epidemiologie
und Medizinische Informatik
11G.Hammer Workshop StatMethEpi
19.11.2009
Alternative: Multiple Imputation
Es ist einfach
Es gibt Software dafür
Für die Verteilung der unbekannten
Todesursachen kann angenommen werden
die Verteilung der beobachteten Todesursachen
die Verteilung der Todesursachen in der
Referenzbevölkerung (= anderes Extrem)
Hoffnung: Es ist präzise
Institut für Biometrie, Epidemiologie
und Medizinische Informatik
12G.Hammer Workshop StatMethEpi
19.11.2009
Alternative: Multiple Imputation
Hier: „von Hand“:
1. Erzeuge i Datensätze mit imputierten Werten für die Fehlenden Todesursachen Erzeuge pi: Die Bayesianische Posterior-Verteilung von p ist
Beta(M; N).
Erzeuge U'i: U'i ~ Binomial(U, pi)
Berechne Ki =M + Ui
Var(Ki) = Ki, da Poisson-verteilt.
2. Auswertung: Entweder direkt anhand der Formeln von Rubin (2002) oder mit der Auswertungs-Prozedur1. Within-simulation variance
2. Between-simulation variance
3. Zusammen: Schätzer K mit seiner Varianz V > K.
Institut für Biometrie, Epidemiologie
und Medizinische Informatik
13G.Hammer Workshop StatMethEpi
19.11.2009
Alternative: Multiple Imputation
Offene Frage: K ~ Poisson mit Überdispersion
Lehrbuch: K ~ t()
Mein Vorschlag: K ~ Negativ-Binomial
Alternativ: Verwende Log-Transformation von K
(Log(Ki), Var(Ki) = 1/Ki)
Besser? K ~ Gamma mit entsprechenden
Momenten?
Institut für Biometrie, Epidemiologie
und Medizinische Informatik
14G.Hammer Workshop StatMethEpi
19.11.2009
Alternative: Naives Verfahren
Wir nehmen p als fest an.
[κL ; κU] := [µL/p ; µU/p]
Aber: Überdeckungswahrscheinlichkeit?
Institut für Biometrie, Epidemiologie
und Medizinische Informatik
15G.Hammer Workshop StatMethEpi
19.11.2009
Ergebnisse
95%
CI (r
ela
tive to
corr
ecte
d n
o. o
f o
bserv
ed d
eath
s)
( 50%) 0.0% 50%
100% 150% 200% 250% 300% 350% 400% 450% 500% 550%
Total deaths
10 100 1000
Correction method
Rittgen & Becker 'exact'Rittgen & Becker asymptotic
10%
20%
30%40%80%10%20%80%
95%-Konfidenzintervall relativ zum korrigierten Schätzer
bei unterschiedlichen Anteilen bekannter Todesursachen
Institut für Biometrie, Epidemiologie
und Medizinische Informatik
16G.Hammer Workshop StatMethEpi
19.11.2009
Ergebnisse95%
CI
(re
lative
to c
orr
ecte
d n
o. o
f ob
serv
ed d
ea
ths)
0.0%
20%
40%
60%
80%
100%
120%
140%
160%
180%
200%
220%
Proportion of observed deaths from sample cause
10%20%
30%40%
50%60%
70%80%
90% / 10%
20%30%
40%50%
60%70%
80%90%
Correction method
NaiveRittgen & Becker approximateRittgen & Becker asymptoticMultiple Imputation
5% missing causes 25% missing causes
Breite des 95%-Konfidenzintervalls
relativ zum korrigierten Schätzer
am Beispiel 100 Todesfälle
Institut für Biometrie, Epidemiologie
und Medizinische Informatik
17G.Hammer Workshop StatMethEpi
19.11.2009
Ergebnisse95%
CI
(re
lative
to c
orr
ecte
d n
o. o
f ob
serv
ed d
ea
ths)
0.0%
20%
40%
60%
80%
100%
120%
140%
160%
180%
200%
220%
Proportion of observed deaths from sample cause
10%20%
30%40%
50%60%
70%80%
90% / 10%
20%30%
40%50%
60%70%
80%90%
Correction method
NaiveRittgen & Becker approximateRittgen & Becker asymptoticMultiple Imputation
5% missing causes 25% missing causes
Breite des 95%-Konfidenzintervalls
relativ zum korrigierten Schätzer
am Beispiel 100 Todesfälle
Institut für Biometrie, Epidemiologie
und Medizinische Informatik
18G.Hammer Workshop StatMethEpi
19.11.2009
Ergebnisse
Jahre Todesurs. Fälle korr.
Fälle
95%-Konfidenzintervalle für korrigierte Krebsfälle
1960-74 Alle 33 0,9 - 12,1 naiv
Krebs 3 4,1 0,7 - 16,9 approximativ
Andere 21 -0,5 - 8,7 asymptotisch
Unbekannt 9 0,0 - 10,0 multiple Imputation
1975-89 Alle 100 22,9 - 46,8 naiv
Krebs 33 33,3 22,7 - 49,4 approximativ
Andere 66 22,0 - 44,7 asymptotisch
Unbekannt 1 22,0 - 45,0 multiple Imputation
1990-03 Alle 252 77,6 - 118,3 naiv
Krebs 91 96,4 75,4 - 123,7 approximativ
Andere 147 76,8 - 115,9 asymptotisch
Unbekannt 14 77,0 - 116,0 multiple Imputation
{
Institut für Biometrie, Epidemiologie
und Medizinische Informatik
19G.Hammer Workshop StatMethEpi
19.11.2009
Ergebnisse
Coverage, MI
90%
91%
92%
93%
94%
95%
96%
97%
98%
99%
100%
TruePropCancer
10% 20% 30% 40% 50% 60% 70% 80% 90%
TruePropUnknown 5% 10% 15% 20% 25%
Überdeckungswahrscheinlichkeit des MI-Verfahrens
für den Extremfall 20 Todesfälle insgesamt
Institut für Biometrie, Epidemiologie
und Medizinische Informatik
20G.Hammer Workshop StatMethEpi
19.11.2009
Diskussion
Die Korrektur der SMR + KI ist wichtig
Das approximative Verfahren von Rittgen und
Becker liefert sehr konservative Konfidenzintervall-
grenzen
Überdeckungswahrscheinlichkeit der Konfidenz-
intervalle mit den verschiedenen Ansätzen fast
immer über 95% (Ausnahme: sehr kleine
Fallzahlen: ≤ 20 Tote insgesamt, davon 2-4 Krebs)
Institut für Biometrie, Epidemiologie
und Medizinische Informatik
21G.Hammer Workshop StatMethEpi
19.11.2009
Diskussion
Multiple Imputation
einfach zu implementieren
liefert genaue Konfidenzintervalle
erlaubt es, von der Annahme abzuweichen, dass
die Verteilung der unbekannten Todesursachen
derjenigen der beobachteten gleicht
Verhindert unter Umständen Überkorrektur
Institut für Biometrie, Epidemiologie
und Medizinische Informatik
22G.Hammer Workshop StatMethEpi
19.11.2009
Offene Punkte
Implementierung: PROC FCMP
Anzahl nötiger MI-Datensätze
Wie werden die Konfidenzintervallgrenzen für die
korrigierte Anzahl Krebstodesfälle K technisch
„richtigt“ berechnet?