„seminar: statistische analyse zur wirkung von luftschadstoffen“ fallstudie in den usa zum thema...

Post on 06-Apr-2016

219 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

„Seminar: Statistische Analyse zur Wirkung von Luftschadstoffen“

Fallstudie in den USA zum Thema Luftschadstoffe

Antonia Zapf, am 22.November 2004Dozenten: Prof. Dr. Küchenhoff, PD Dr. Peters

22.11.2004 A. Zapf 2

Schätzung von Luftschadstoff-bedingter Mortalität und Grenzwert-Level: Eine Zeitreihenanalyse der 20 größten US-Städte

Autoren: Michael J. Daniels, Francesca Dominici, Jonathan M. Samet, und Scott L. Zeger (2000)

22.11.2004 A. Zapf 3

Gliederung:

Einleitung Daten Modelle Schätzungen Ergebnisse Diskussion Literaturverzeichnis

22.11.2004 A. Zapf 4

Einleitung Vermutung: Anstieg der Mortalität bei

Luftverschmutzung unterhalb des Grenzwertes von (US National Ambient Air Quality Standard, 150 μm/ als 24-Stunden-Durchschnitt)

Einführung von Modellen um den Zusammenhang darzustellen

Anwendung auf die Daten

PM10

m3

22.11.2004 A. Zapf 5

Einleitung (Modelle):Drei plausible Modelle für den Zusammenhang von logarithmierter Mortalität und -Konzentration

Modell 1: lineares Modell ohne Grenzwert Modell 2: Spline dose-response Modell

(log(Mortalität) Glättungs-Funktion von ) Modell 3: Grenzwert-Modell

(Annahme: kein Zusammenhang unterhalb des Grenzwertes, linearer Zusammenhang oberhalb)

PM10

PM10

22.11.2004 A. Zapf 6

Einleitung (Ziele): Ziel 1: Vereinigung der Informationen der 20

Städte um die Form der durchschnittlichen dose-response Kurve zu präzisieren;

Ziel 2: Testen der Hypothese, dass der Zusammenhang zwischen Luftver-schmutzung und Mortalität annährend linear ist;

Ziel 3: Identifikation möglicher Grenzwerte, unterhalb derer keine Auswirkung der Luftverschmutzung auf die Mortalität nachgewiesen werden kann

22.11.2004 A. Zapf 7

Daten:

Mortalität, Wetter und Luftverschmutzung für die 20 größten US-Städte von 1987-1994

Datensatz eine größeren Projekts (Morbidität, Mortalität,

Luftverschmutzung

22.11.2004 A. Zapf 8

Die Daten

22.11.2004 A. Zapf 9

Daten (Luftschadstoffe)

Daten vom Aerometrik-Informations-Retrieval-System

an manchen Orten viele fehlende Werte für, da nur alle sechs Tage gemessen

bei mehr als einer Messstation pro Stadt wurde der Jahresdurchschnitt für jede Messstation korrigiert, und dann das um 10% gestutzte Mittel über alle Messreihen verwendet( Schutz vor Ausreißern)

PM10

22.11.2004 A. Zapf 10

Daten (Mortalität) Daten vom National Center for Health Statistics Tod durch äußere Umstände ausgeschlossen nach Altersgruppen klassifiziert:

<65, 65-74, >=75 Jahre nach Todesursache klassifiziert:

kardiale, respiratorische Erkrankungen, Grippe und Lungenentzündung (=kardiovaskuläre und respiratorische Ursachen)andere übrige Krankheiten (=andere Ursachen)

chronisches obstruktives Asthma und damit zusammenhängende Störungen eingeschlossen

22.11.2004 A. Zapf 11

Daten (Wetter)

Daten vom EarthInfo Datensatz stündliche Temperatur und Feuchtigkeit 24-Stunden-Durchschnitt bei mehr als einer Wetterstation pro Stadt

wurde das Mittel aller Stationen verwendet

22.11.2004 A. Zapf 12

Modell 1 log-lineares Poissonmodell zur Schätzung des

relativen Anteils von Luftverschmutzung/ Mortalität für jeden Ort getrennt (generalisiertes additives Modell mit log link und Poisson-Fehler)

Y|X-Po()

Confounder: Altersspezifische Langzeittendenzen (z.B. Neuerungen in der Medizin), Wetter, Wochentag

E(Y) exp(0 1x1 ... p x p )

E(Y x1 ,...,x p 1 ,x p )

E(Y x1 ,...,x p 1 ,x p 1) exp(... p S...)

exp(... p (S1)...) exp( p )

22.11.2004 A. Zapf 13

Modell 1 : beobachtete Mortalität für jede

Altersgruppe a : Mittelwert von am Tag t und t-1

: erwartete Anzahl vonTodesfällen am Tag t

confounder β : log-relative Rate von Mortalität und

Anstieg von um eine Einheit Sensitivitätsanalyse: Rechnung mit der

-Konzentration vom aktuellen Tag und vom Vortag einzeln

yat

PM10

PM10t

uat E(Yat )

log(uat ) PM10t

PM10

PM10

22.11.2004 A. Zapf 14

Modell 1 mögliche Confounder von β: z.B. Änderungen im

Gesundheitswesen, saisonbedingte Ursachen oder Grippe-Epidemien

Kontrolle dieser Confounder und Berücksichtigung von zeitlichen Korrelationen in den Zeitreihen durch Beachtung kurzzeitiger Schwankungen bei Mortalität

Schwankungen der Mortalität heraus-partialisiert durch Hereinnahme von Glättungs-Splines über die Kalenderzeit S(time, df) für jede Stadt

df= Anzahl der freien Parameter, nicht datengesteuert

22.11.2004 A. Zapf 15

Modell 1

df = 7 pro Jahr, vordefinierter GlättungsparameterBeseitigung von Confoundern wie saisonale Grippe-Epidemien und längerfristige Tendenzen (z.B. Änderung in der medizinischen Praxis und im Gesundheitswesen)

22.11.2004 A. Zapf 16

Modell 1 Kontrolle von altersspezifischen

langfristigen und saisonalen Schwankungen durch eigene Glättungsfunktion für die Zeit mit 8 df über alle Jahre für jede Altersgruppe

Kontrolle vom Wetter durch Glättungsfunktionen für Temperatur

und mit jeweils 6 df, und für Feuchtigkeit und

mit jeweils 3 df

temp0

temp_0 = Temp. Am selben Tag, temp_1-3= durchschn. Temp. Der drei vorherigen Tage

temp1 3

dew0

dew1 3

22.11.2004 A. Zapf 17

Endmodell 1 Gefittetes log-lineares generalisiertes

additives Modell, um die geschätzte log-relative Rate und die Devianz V( ) für jeden Ort zu erhalten

intercept for age group a + seperate smooth functions of time (8 df) for age group a = + confounder

DOW = Indikatorvariable für day of week

ˆ

ˆ

logat PM10t DOW S1(time,7 / year)S2(temp0,6) S3(temp1 3,6) S4 (dew0,3)S5(dew1 3,3)

PM10t

22.11.2004 A. Zapf 18

Ergebnisse vom Modell 1

22.11.2004 A. Zapf 19

Modell 2 Untersuchung der log-linearen Annahme für Modell

(1)Spline dose-response Modell

Mortalität als Glättungsfunktion von S( ,λ) λ : Freiheitsgrade der Glattheit der dose-response

Kurve Annährung durch Beschränkung der

Glättungsfunktion auf die natürlichen kubischen Splines mit einer festen Anzahl von Knotenkubische Polynome (Polynome 3.Grades), 1. und 2. Ableitung der Splines muss an den Knoten gleich sein

PM10

22.11.2004 A. Zapf 20

Modell 2

Spline dose-response Modell:

Natürlicher kubischer Spline mit Knoten bei 30 und 60 g/ (ca 25 und 75% Quantile)

logat S(PM10t ,knots c(30,60)) confounder

m3

22.11.2004 A. Zapf 21

Modell 3 Frage: Mortalitäts-Effekte unwesentlich unter

einem Wert?Grenzwert-Modell:

= x wenn und = 0 wenn x<0 d.h. wenn , 0 sonst h unbekannt, aus den Daten geschätzt ( im Modell 1 misst den prozentualen

Anstieg der Mortalität per 10-μm/ -Schritte, wenn höher als h ist)

logat (PM10t h) confounder

x

x 0

x

PM10t h

PM10t h

m3

PM10t

22.11.2004 A. Zapf 22

Schätzung (Stadt-spez. Parameter)

Mit gam() in Splus Anpassung der Modelle 1 und 2 um Stadt-spezifische Schätzungen und Standardfehler des linearen Effektes und des Parameter-Vektors zu erhalten

= Stadt-spezifischer Parameter zur Messung der Auswirkung von auf die Mortalität (für Modell 1 und 2, c=1,…,20)

c

PM10

22.11.2004 A. Zapf 23

Schätzung Für das lineare Modell (1) ist , und für das dose-

response-Modell (2) ist gleich dem Koeffizienten-Vektor, entsprechend den Splines

Kombination der Koeffizienten über die Städte Test auf Heterogenität (mit statistischer Generalisierung)

Unter der Nullhypothese (keine Heterogenität) ist chi-quadrat-verteilt mit Freiheitsgraden (M1: 19, M2: 95)

c

c c

X 2 ( ˆ c )T Vc 1( ˆ c )

c

( Vc 1

c ) 1 Vc

1cc

X 2

20 dim(c ) dim(c )

22.11.2004 A. Zapf 24

Schätzung (Annahme der Nullh. ) = 0 wenn , wenn also die Städte-

spezifischen Schätzer gleich dem Gesamtmittel sind

Unter Annahme der Nullhypothese: Kombination der Städte-spezifischen Schätzungen durch ein fixed-effects Modell mit den Gewichten

Schätzer: ,mit der Varianz

Varianz ist Gewicht, wenn Varianz groß -> Variable weniger gewichtet, wenn Varianz klein -> Variable mehr gewichtet

ˆ c

X 2

Wc Vc 1

( Wcc ) 1 Wcc

c

V () ( Wcc ) 1

22.11.2004 A. Zapf 25

Schätzung (Annahme der Alternativh.)

Unter Annahme der Alternativ-Hypothese: Anpassung eines zweistufigen bayesianischen hierarchischen Modells

mit flachen priori auf (Gesamt-Koeffizienten-Vektor) und D (Zwischen-Städte-Kovarianz-Matrix)

Hierarchisch: Schätzer wird in einem nächsten Modell eingesetzt

22.11.2004 A. Zapf 26

Schätzung Gewichte: Weil in Modell (3) angenommen wird, dass

der Grenzwert h unbekannt istSchätzung von h und für jede Stadt durch folgende Methode:

Wc (DVc ) 1

22.11.2004 A. Zapf 27

Schätzung (des Grenzwertes) Gittersuche mit möglichen Grenzwerten

(h=5-200μm/ , Schrittweite 5μm/ ) Modell 3 mithilfe der gam-Funktion für jede Stadt anwenden ML-Schätzer von θ, abhängig von h Für jede Stadt Gitter nach dem durchsuchen, das die

likelihood minimiert Keine Vereinigung der Koeffizienten über die Städte für

Modell (3), weil die Koeffizienten für verschiedene h verschieden interpretiert werden können

m3

m3

l( ˆ (h),h)

ˆ (h)

ˆ c

ˆ ˆ ( ˆ h )

ˆ h

22.11.2004 A. Zapf 28

Schätzung Keine Kovarianzmatrix oder

Standardfehler für die Grenzwerte berechnet (für die meisten Städte ziemlich instabil)

Keine Fisher-Informations-Matrix Um den Schätzer des Gesamt-Grenzwertes

zu finden, wurde so gewählt, dass die Standardabweichung minimal, bzw. die log-likelihood maximal wird

ˆ h

22.11.2004 A. Zapf 29

Schätzung (vom Gesamtgrenzwert)

sind Städte-spezifische Devianz und log-likelihood

h im Bereich 0,5,10,...,75g/ ] 75g/ höchster Wert, für den alle

Parameter für das Grenzwert-Modell gegeben waren

h= 0, linearer Fall als Spezialfall

ˆ h arg minh

Dev(h)

Dev(h) Devc (h) 2 lc (h)c

c

Devc (h) und lc (h)

m3

m3

22.11.2004 A. Zapf 30

Schätzung (des Unsicherheitsmaßes) Unsicherheits-Maß für den Grenzwert

mit den a-posteriori-Wkten:

95%-HPD-Intervall:

wh Po(h i /Daten) l(Daten /h i)Pr(h i)

l(Daten /h i)Pr(h i) exp( 0.5Dev(h))

exp( 0.5Dev(h))hH

; für h 0,...,75, Pr(h = i) =1/16

U

L

hh

hh hUL whh 95.0:,

22.11.2004 A. Zapf 31

Schätzung Gewicht kann als approximative posteriori-

Wahrscheinlichkeit des Modells interpretiert werden Vergleich der Modelle innerhalb der Städte und

über alle Städte (beste Anpassung der Daten) mit Akaike information criterion, AIC=deviance + 2(number of parameters)

Beim Vergleich Grenzwert-Modell / lineares Modell ist h=0 ausgeschlossen

Zur Schätzung des Gesamt-Grenzwertes ist h=0 eingeschlossen

wh

Mh

Modell mit geringerem AIC wird bevorzugt

22.11.2004 A. Zapf 32

Ergebnisse

22.11.2004 A. Zapf 33

Ergebnisse

22.11.2004 A. Zapf 34

Ergebnisse

22.11.2004 A. Zapf 35

Ergebnisse

22.11.2004 A. Zapf 36

Ergebnisse

22.11.2004 A. Zapf 37

Ergebnisse

22.11.2004 A. Zapf 38

Diskussion Ziel der Untersuchungen (dieser und anderer) ist

die Minimierung des Risikos für die öffentliche Gesundheit

Schadstoff-Konzentrationen sind noch nicht unter Grenzwerten wo sie keine Auswirkungen mehr haben (falls es solche Grenzwerte gibt)

Dose-response-Analysen bisher nur innerhalb einzelner Orte begrenzte Vergleichsmöglichkeit von Modellen

Bisher oft Methoden benutzt, die nicht mehr für optimal gehalten werden

22.11.2004 A. Zapf 39

Diskussion Hier Vergleich von linearem Modell und

Spline dose-response-Modell bzw. Grenzwert-Modell

In 20 größten US-Städten besser verallgemeinerbar

Methode angebracht um die Unsicherheit vom geschätzten Grenzwert zu prüfen

Auch vorher schon stückweise Polynome und kubische Splines verwendet, aber Daten auf einzelne Orte begrenzt

22.11.2004 A. Zapf 40

Diskussion Für gesamte und kardiovaskuläre/

respiratorische Todesursachen kein Grenzwert erkennbar unter dem die Auswirkungen klein sind, bei anderen Todesursachen schon

Geschätzte Grenzwert -Level für andere Ursachen niedriger als für totale und kardio-respiratorische Ursachen (65µg/ bzw. 15µg/ )

Modell-Vergleiche (auf AIC basierend) wählen immer das log-lineare Modell, nur bei „andere Ursachen“ das Grenzwert-Modell

PM10

m3

m3

22.11.2004 A. Zapf 41

DiskussionEinschränkungen:

schlechte Informationslage für manchen Städte zu Modell (2) hinzufügen,

= Städte-spezifischer Grenzwert, Gesamtgrenzwert, Variabilität der Grenzwerte zwischen den Orten

feste Knoten Aber bei vernünftigen Punkten fixiert, und genügende

Flexibilität Methoden entwickeln um Anzahl und Lokalisation der

Knoten zu schätzen

log(h c ) ~ N(log(h), 2)

h c,h, 2

22.11.2004 A. Zapf 42

DiskussionResultate:

Risikofreie Levels von wahrscheinlich niedriger als der National Ambient Air Quality Standards

Ergebnisse deuten darauf hin, dass lineare Modelle ohne Grenzwert geeignet sind die Auswirkung von Luftverschmutzung auf die tägliche Mortalität einzuschätzen

PM10

22.11.2004 A. Zapf 43

Literatur: Daniels et al. Estimating Particulate

Matter-Mortality Dose-Response Curves and Threshold Levels: An Analysis of Daily Time-Series for the 20 Largest Us Cities, AjE 2000

Rüger, Test- und Schätztheorie, Band I, Oldenbourg 1999

Küchenhoff, Skript zur Vorlesung Lineare Modelle, WS 04/05

top related