studiendesign und statistik: interpretation publizierter ... · beispiel 0.0 0.5 1.0 1.5 2.0 years...

Studiendesign und Statistik:Interpretation publizierter klinischer Daten

Dr. Antje Jahn

Institut für Medizinische Biometrie, Epidemiologie und InformatikUniversitätsmedizin Mainz

Hämatologie im Wandel, 28/02/2015

Dr. Antje Jahn, Studiendesign und Statistik 1

Topics

Statistische Signifikanz

Multiples Testen und Zwischenauswertungen

(Cox-)Regressionen und Hazard Ratio

Konfidenzintervalle

Auswertungspopulationen


Beispiel


Beispiel

0.0 0.5 1.0 1.5 2.0

years

% s

urvi

val

020

4060

8010

0

therapy A therapy B


Beispiel

0.0 0.5 1.0 1.5 2.0

years

% s

urvi

val

020

4060

8010

0

logrank p = 0.0417

therapy A therapy B



Zielpopulation- z.B. Patienten mit einer

bestimmten Erkrankung

-�

Stichprobe- Studienpatienten

Konfirmatorische Statistik(Risiko für fehlerhafte Rückschlüsse)

Deskriptive Statistik(Beschreibung der Stichprobe)



p-Wert:Die Wahrscheinlichkeit, dass ein Gruppenunterschied von mind. derGröße wie in der Studie beobachtet rein aus Zufall, d.h. ohneTherapieeffekt, auftritt⇒ Kleine p-Werte sprechen eher für einen Therapieeffekt



Gesamtpopulation- kein Therapieeffekt (H0)

z.B. gleiche Überlebensraten

unter Therapie A und B

Stichprobe (Studienpat.)- 5% Risiko dass p ≤ 5%-



Gesamtpopulation- kein Therapieeffekt (H0)

z.B. gleiche Überlebensraten

unter Therapie A und B

Stichprobe (Studienpat.)- 5% Risiko dass p ≤ 5%-

6

5% Risiko für falschen Schluss (type I error)



Das Signifikanzniveau 𝛼 ist das maximal tolerable Risiko füreinen Fehler 1. Art und wird zu Studienbeginn festgelegt.Ein statistischer Test liefert ein Entscheidungskriterium,welches dies sicherstellt.

ICH-E9: „Conventionally the probability of type I error is set at 5%or less... „



CAVENicht-Signifikanz (p>a) Signifikanz (p≤ 𝛼)̸= ̸=Äquivalenznachweis klinische Relevanz


Signifikanz ̸= Klinische Relevanz

Je größer die Fallzahl, desto kleiner der p-Wert

Variable Therapie A Therapie B p-WertPatienten mitProgression (Studie 1) 20/50 (40% ) 30/50 (60% ) 0.046Patienten mitProgression (Studie 2) 10/25 (40% ) 15/25 (60% ) 0.157

Ein p-Wert liefert nur eine Aussage über die statistischeSignifikanz eines Ergebnisses und keine Aussage über dieklinische Relevanz


Statistische Tests

Statistische Tests berechnen ein Entscheidungskriterium(p-Wert), ob ein Therapieeffekt als nachgewiesen betrachtetwerden kann - so dass der Fehler 1. Art kontrolliert wirdEs gibt verschiedene statistische Tests, d.h. Methoden einenp-Wert zu berechnenWelcher Test geeignet ist, hängt vom Studiendesign, derFragestellung, der Datenstruktur und der Null- undAlternativhypothese ab.


Multiples Testen


Multiples Testen

„Müsli macht Männer“ (Süddeutsche, 2008)

„Mehr Söhne durch Müsli?“ (Stern, 2008)

„Schlemmen steigert Chance auf Jungen“ (Spiegel, 2008)


Multiples Testen

1

Many analyses

2

Many results Presentation of results:

Overinterpretation

3

Problem of multiple Testing


Multiples Testen

In jeder Studie sind viele Endpunkte von Interesse. Wie kann dasRisiko eines Fehlers 1.Art dennoch kontrolliert werden?

Auswahl eines Primärziels, z.B. Überlebensraten𝛼-Adjustierung: Anpassung des Signifikanzniveaus für jedeneinzelnen Test, so dass insgesamt das Fehlerrisiko ≤ 5%


Multiples Testen

5-Jahres-Studie zum Vergleich der Überlebensraten zweierTherapien A und B mit Zwischenauswertung nach 2.5 Jahren

Interim Final

⇒ 𝛼-Adjustierung erforderlich!

Studienprotokoll: „... the significance level for the final analysiswas set at 4.8% after adjustment by the O’Brien and Flemingmethod.„


Multiples Testen

„ICH-E9: Conventionally the probability of type I error is set at 5%or less as dictated by any adjustments made necessary formultiplicity considerations„


Regressionsanalysen


Hazard Ratio

Regressionsanalyse bei Ereigniszeitdaten: Cox-RegressionBerücksichtigung von ZensierungenSchätzer für den Therapieeffekt: Hazard Ratio

relative Veränderung im hazard (≈ unmittelbares Ereignisrisikoeines bisher ereignisfreien Patienten) unter Therapie A imVergleich zu Therapie B

Hazard Ratio

⎧⎪⎨⎪⎩> 1, erhöhtes Risiko unter Therapie A= 1, gleiches Risiko< 1, reduziertes Risiko unter Therapie A


Schätzer und Konfidenzintervalle

Der HR wird aus einer Stichprobe der Gesamtpopulationgeschätzt und kann daher vom wahren HR abweichen



0 1 2 3 4 5

0.0

0.2

0.4

0.6

0.8

1.0

Kaplan Meier plot

years

% a

live

●

1.0 1.5 2.0 2.5 3.0 3.5 4.00

1020

3040

50HR

Stu

die



0 1 2 3 4 5

0.0

0.2

0.4

0.6

0.8

1.0

Kaplan Meier plot

years

% a

live

●

●

1.0 1.5 2.0 2.5 3.0 3.5 4.00

1020

3040

50HR

Stu

die



0 1 2 3 4 5

0.0

0.2

0.4

0.6

0.8

1.0

Kaplan Meier plot

years

% a

live

●

●

●

1.0 1.5 2.0 2.5 3.0 3.5 4.00

1020

3040

50HR

Stu

die



0 1 2 3 4 5

0.0

0.2

0.4

0.6

0.8

1.0

Kaplan Meier plot

years

% a

live

●

●

●

●

1.0 1.5 2.0 2.5 3.0 3.5 4.00

1020

3040

50HR

Stu

die



0 1 2 3 4 5

0.0

0.2

0.4

0.6

0.8

1.0

Kaplan Meier plot

years

% a

live

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

1.0 1.5 2.0 2.5 3.0 3.5 4.00

1020

3040

50HR

Stu

die



0 1 2 3 4 5

0.0

0.2

0.4

0.6

0.8

1.0

Kaplan Meier plot

years

% a

live

●

1.0 1.5 2.0 2.5 3.0 3.5 4.00

1020

3040

50HR

Stu

die



0 1 2 3 4 5

0.0

0.2

0.4

0.6

0.8

1.0

Kaplan Meier plot

years

% a

live

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

1.0 1.5 2.0 2.5 3.0 3.5 4.00

1020

3040

50HR

Stu

die



Konfidenzintervall (CI)Man legt das Konfidenzniveau 1 − 𝛼 fest, i.d.R. 1 − 𝛼 = 95%Das 95%-CI für einen Parameter ist ein Interval um denSchätzer aus der Stichprobe, der in 95% der Fälle den wahrenParameter enthält.Man nimmt an, dass der wahre Parameter im CI liegt, da mandamit in 95% aller Fälle richtig liegt.


Meta-Analysen - Forest Plot

Study

Bauss et al_2008Sgan−Cohen et al_2008Brin et al_2000Kania et al_1996Burden_1995Forsberg &Tedestam_1993Järvinen_1978Sgan−Cohen_2005Borzabadi−Farahani et al_2010Hunter et al_1990Stokes et al_1995Petti and Tarsitani_1996Lewis_1959Otuyemi_1994Holland et al_1988Garcia−Godoy et al_1982 − >6 JahreGarcia−Godoy et al_1982 − < 6 JahreRoder und Arend

0.2 0.5 1 2 5

Hazard Ratio HR

2.22

2.571.642.391.982.731.420.802.572.534.481.552.911.411.62

95%−CI

[1.36; 3.64]

[1.78; 3.72][1.24; 2.17][1.75; 3.27][1.39; 2.82][1.37; 5.43][0.95; 2.14][0.32; 2.02][1.82; 3.64][1.44; 4.44][2.96; 6.77][1.27; 1.88][1.85; 4.59][0.59; 3.39][1.24; 2.11]



In einer randomisierten Studie bei Männern nach Herzinfarkt zumVergleich eines Beta-Blockers mit Placebo waren in beiden Gruppenca. 32% der Patienten non-compliant.

Sollte man diese Patienten von der Auswertung ausschließen?



Intention to Treat (ITT) Population:Alle randomisierten/eingeschlossenen PatientenPrimärpopulation in ÜberlegenheitsstudienPer-Protocol Population:Alle Patienten ohne schwerwiegende Protokollverstös̈ePrimärpopulation in ÄquivalenzstudienSafety-Evaluable Population:Alle Patienten, die mindestens einmal Therapie erhieltenPrimärpopulation für Sicherheitsparameter


Take Home Message

„No clever analysis can rescue a poorly conducted trial„

„The greatest challenge is in the interpretation of results„

DeMets D.L.: Statistical issues in interpreting clinical trials. Journal of InternalMedicine, 2004; 255: 529-53


studiendesign und statistik: interpretation publizierter ... · beispiel 0.0 0.5 1.0 1.5 2.0 years...

Documents