2 analisis subgrupos-gedefo-sefh-20-9-2016 [modo de ... · /d srwhqfldo idodfld gh orv dqiolvlv gh...

ANALISIS DE SUBGRUPOS

?Jordi Ginés. Servicio de Farmacia. Hospital Universitario Son Espases.Palma de Mallorca

Madrid, 20 de Septiembre 2016

APORTACION Y LIMITACIONES EN LA EVALUACION DE FARMACOS EN ONCO-HEMATOLOGIA

ANALISIS DE SUBGRUPOS¿Mejoran la interpretación de los resultados o nosinducen al error?

Análisis de subgruposSigue la controversia

“Subgroup analysis kills people” Peto 1995, citado por Rothwell 2007

“Not doing subgroup analysis has very probably killed more people” Rothwell 2005

“Damned if you do, damned if you don´t: subgroup analysis and equity” Petticrew et al. 2012

Petticrew M et al. J Epidemiol Community Health. 2012; 66 (1):95-8Rothwell, PM (ed.)The Lancet: Treating individuals: From Randomised Trials to Personalised Medicine.Elsevier, Edinburgh, 2007Rothwell PM et al. Lancet 2005;365:256-65

La potencial falacia de los análisis de subgrupos- 1) Están sujetos a los mismos errores que cualquier test estadístico- 2) En algunas ocasiones, existiendo diferencias reales del efecto de un tratamiento en distintos subgrupos, no vamos a ser capaces de

detectarlas- Tamaño muestral pequeño o diferencia de poca magnitud (Error β)

- 3) Situación más peligrosa: el análisis de subgrupos detecta diferencias cuando en realidad no existen (Error )

- Mientras más subgrupos se consideren, mayor probabilidad de encontrar una diferencia significativa sólo por azar- 1 subgrupo: probabilidad 5% (azar), 5 subgrupos: 23%, 10 subgrupos: 40%

Riesgo Potencial de la Exploración de Múltiples SubgruposISIS-2: Beneficio global de la aspirina en mortalidad cardiovascular en el IAM

Los pacientes del signoZodiacal Geminis y Librano se benefician de la as-pirina

¿Tiene sustento biológico?¿Ha sido confirmado en estudios posteriores?

Lancet 1988;2(8607):349-60 Sun X. JAMA 2014;311(4):405-11

Riesgo Potencial de la Exploración de Múltiples Subgrupos ¿Quién nos dice a nosotros que estos resultados, debidos al azar, no se dan también cuando se hace un análisis de subgrupos construido de una manera supuestamente más “científica”?

Sleight P. Curr Control Trials Cardiovasc Med 2000; 1 :25-7

CONCLUSIONES ERRÓNEASBasadas en Análisis de Subgrupos

Candia R et al. Rev Med Chile 2012;140: 673-80

Análisis de subgrupos - Sólo tiene fuerza probatoria si:

1) Se ha previsto o anticipado en el protocolo 2) Se ha constituido un estrato prospectivo 3) Se ha alcanzado dentro de los subgrupos el tamaño muestral necesario (potencia suficiente)

- En el resto de los casos los resultados obtenidos deben considerarse como generadores de hipótesis y deben interpretarse con cautela - Un estudio exploratorio debe terminar con expresiones del tipo: “Nuestros resultados sugieren…….”

SITUACION IDEALEjemplo: PRIME Study

Douillard J et al. JCO 2010;28:4697-4705

©2010 by American Society of Clinical Oncology

PRIME studyStatistical Analysis

- “The sample size was increased to 1,150 patients to ensure adequate power to test PFS in the WT KRAS population”- “In the WT KRAS stratum a HR of 0.714 was hypothesized (P + FOLFOX vs. FOLFOX)”- “To achieve a 90% power, two-side, p=0.05 significance level in WT KRAS, a total of 380 events and a sample of 1,150 patients independent of KRAS status were required”

0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 32 34 36 38

Propor

tion Ev

ent-Fr

eePRIME Final AnalysisPFS by KRAS Mutation Status

Months

KRAS WT KRAS MT

Eventsn (%) Median (95% CI)monthsPanitumumab + FOLFOX4 (n=325) 270 (83) 10.0 (9.3–11.4)FOLFOX4 (n=331) 280 (85) 8.6 (7.5–9.5)HR=0.80 (95% CI: 0.67–0.95) Log-rank p-value=0.01

Eventsn (%) Median (95% CI)monthsPanitumumab + FOLFOX4 (n=221) 204 (92) 7.4 (6.9–8.1)FOLFOX4 (n=219) 196 (89) 9.2 (8.1–9.9)HR=1.27 (95% CI: 1.04–1.55)Log-rank p-value=0.02

0%10%20%30%40%50%60%70%80%90%

100%

40 42 44

Propor

tion Ev

ent-Fr

ee

0%10%20%30%40%50%60%70%80%90%

100%

Months0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 32 34 36 38 40 42 44

TIPOS DE ERRORES EN ESTADISTICA El test no sea capaz de mostrar una diferencia significativa cuando realmente ésta existe (ERROR β) El test muestre una diferencia significativa cuando realmente ésta no existe (ERROR )

Contraste de hipótesis Aceptar Ho Rechazar Ho

Ho cierta Decisión correcta Error de tipo I ( Error )

Ho falsa Error de tipo II ( Error )

Decisión correcta

Ho: Hipótesis nula, de partida. Debe contemplar el hecho que queremos poner a prueba. La hipótesis nula siempre afirma que NO existen diferenciasH1: Hipótesis alternativa. Representa que se ha producido un cambio respecto a la situación descrita en la Ho.Error tipo I (): Es la probabilidad de rechazar la Ho cuando ésta es ciertaError tipo II (): Es la probabilidad de aceptar la Ho cuando ésta es falsa

REALIDAD

RESULTADO DEL TEST

Error y Error

“ Cuando disminuimos el error nos aumenta elerror y viceversa. Existe un balance entre el error y el error ”

What´s wrong with Bonferroni adjustments

Perneger TV. BMJ 1998; 316:1236-8

“Type I errors cannot decrease (the whole point of Bonferroni adjustments) without inflating type II errors (the probability of accepting the null hypothesis when the alternative is true)”. “And type II errors are no less false than type I errors”

Changes in power to identify subgroup effects after changes in specification of subgroup effect

Burke JF et al. BMJ 2015; 351:h5651

DIFERENCIA ENTRE RIESGO BASAL Y EFECTO DE SUBGRUPO

Candia R et al. Rev Med Chile 2012;140: 673-80Sun X et al. JAMA 2014;311(4):405-11

Por lo tanto , la pregunta en el análisis de subgrupos no es si existen diferencias en los efectos absolutos, sino en los efectos relativos. La única forma de diferenciar ambas situaciones es mediante la comparación de los efectos en términos relativos. Permanecen constantes independientemente del riesgo basal y varían sólo si hay efecto subgrupo.

AB

A: Varón, diabético, 65 años, fumador, hipertenso sin tratamiento, TAS 165 mmHg, colesterol 250 mg/dl, HDL 30 mg/dlB: Mujer, diabética, 50 años, no fumadora, sin HTA, TAS 130 mmHg, colesterol 200 mg/dl, HDL 50 mg/dl

Riesgo basal de sufrir un evento cardiovascular mayor a los 10 años

¿El análisis de subgrupos reúne las condiciones básicas para poder tener impacto en la práctica clínica? Cuestiones de descarte

Nivel de evidencia del estudio Variable principal, o la más relevante clínicamente, o variable subclínica o intermedia con repercusión demostrada sobre la variable principal

Seleccionar los factores Aquellos que condicionan subgrupos que parece que se comportan de forma diferente entre sí

Considerar la secuencia temporal Los pacientes presentan el factor que establece los posibles subgrupos antes de recibir la intervención

Relevancia clínica

GUIA PARA EVALUAR LA CALIDAD DE UN ANÁLISIS DE SUBGRUPOS

Oxman AD, Guyatt GH. Ann Int Med 1992; 116:78-84

SISI

SI

SI

SI

PREVIA

INTRAESTUDIOSPodría plantearse lautilidad de basarse ensus resultados para tomardecisiones terapéuticas

Criterios para evaluar la credibilidad de un análisis de subgrupos

Sun X et al. BMJ 2010; 340: 850-4

CRITERIOS PARA EVALUAR LA CREDIBILIDAD DE ANALISIS DE SUBGRUPOS 1-Diseño del estudio

a) Establecimiento “a priori” del subgrupo: Previo a la aleatorizaciónb) Establecimiento “a priori” de la dirección del efectoc) Número limitado de subgruposd) Las comparaciones intraestudio son más fiables 2- Análisis de datos

a) Pruebas estadísticas adecuadas: TEST DE INTERACCIONb) Demostración que el efecto de subgrupo es independiente (Modelos de Regresión) 3- Contexto general

a) Magnitud del efectob) Consistencia. Replicado en otros estudios de diseño similarc) Efecto consistente en “outcomes” fisiopatológicamente relacionadosd) Plausibilidad biológica (fundamento o racionalidad biológica o fisiopatológica)

ANALISIS DE SUBGRUPOSPrincipios básicos

1) Credibilidad: Mayor cuando se limitan a la variable principal y los subgrupos son establecidos previamente en base a razones creíbles de plausibilidad biológica2) Son análisis exploratorios (generadores de hipótesis) que, sólo de manera excepcional, pueden afectar a las conclusiones del ensayo3) Si el efecto difiere en un grupo con respecto a otro se debe realizar un “test de interacción” (modificación del efecto) y presentar el valor de la p

Análisis de una muestra aleatoria de 207 ECA en 118 “core clinical journals”

94%20%

41%44%

9%

6%33%

30%22%

Sun X et al. BMJ 2012;344: e1553

Análisis de una muestra aleatoria de 207 ECA en 118 “core clinical journals”

“Of 207 randomised controlled trials reporting subgroup analyses, 64 (31%) made claims for the primary outcome. Of those, 20 were strong claims and 28 claims of a likely effect”.

Sun X et al. BMJ 2012;344: e1553

Bennouna J et al. Lancet Oncol. 2013;14(1):29-37


Conclusión a primera vista:La continuación de tratamiento con BVZ sólo beneficia a los pacientes incluidos en el ensayo ML18147, varones, < 65 años y ECOG 0

Procedimiento incorrecto:Comparar los valores p de cada subgrupop subgrupo: Cuantifica la precisión de eseefecto en el subgrupo, pero depende tantodel valor medio como de su variabilidad (desviación típica) y del tamaño del subgrupo (n), que en ocasiones, puede estar muy descompensado.

Molinero LM. Análisis de subgrupos y de objetivos secundarios SEH-LELHA 2002

Pero si no nos quedamos sólo en la comparación de las p, vemos que en el subgrupo B la diferencia es mayor que en el A (0,3 frente a 0,12), aunque también hay muchos más pacientes en ese subgrupo (908 frente a 332, casi 3 veces más). Esto hace que la estimación del efecto es mucho más precisa, y eso contribuye a disminuir radicalmente el valor de la p en ese subgrupo.Es importante observar como el sentido de la diferencia es el mismo en ambos subgrupos y lo que realmente interesa saber es si es significativo el cambio de la magnitud del efecto entre los 2 subgrupos (0,3 -0,12 = 0,18). Esto se conoce como interacción.p=0,3. No hay justificación probabilística suficiente para poder proclamar que existe diferencia entre los subgrupos, como quizás inicialmente nos habíamos precipitado a afirmar

KRAS status and efficacy in the first-line treatment of patients with metastatic colorectal cancer (mCRC) treated with FOLFIRI with or without cetuximab: The CRYSTAL experience

Van Cutsem E et al. Plenary Session Presentation, ASCO 2008

Retrospective Subgroup Analysis

540 patients (45% of total) were suitable for the analysis of KRAS mutation status348 patients (64,4%) had wild-type KRAS

192 (35,6%) had mutated KRAS

CRYSTAL: PFS and OS according status of KRAS

Van Cutsem E et al. N Eng J Med 2009;360:1408-17

CRYSTAL: Tumor response according status of KRAS

Si nos fijamos únicamente en los valores de la p, la diferencia sólo es estadísticamente significativa en el subgrupo KRAS wild-type. Lo que realmente interesa saber es si la diferencia obtenida intergrupos

(KRAS mutado vs KRAS nativo) es estadísticamente significativa. Esto se conoce como interacción.

p =0,0025

p = 0,46

Test de interacción

“En los análisis de subgrupos correctamente realizados, la presentación de los resultados no debe basarse en los valores de la p de las comparaciones intragrupo, sino en el test de interacción estadístico entre grupos”CRYSTAL: “The interaction between treatment group and KRAS mutation status was not significant for progression-free survival (p=0,07) or overall

survival (p=0,44), but was significant for response (p=0,03)”

¿falta potencia, poco tamaño muestral?

ANÁLISIS DE SUBGRUPOS

Dra. Teresa Pérez. Departamento de Estadística. UCM.

Methodology of the CRYSTAL update

• Increase of statistical power by• Doubling ascertainment rate for KRAS “samples”: 45% 89%

• Median time to follow-up increased by approx. 1.5 years - 161 events more in total• KRAS wt-population: Event rates increased from 62.9% 79.6%

OS update based on 89% of study population

(n=1063)OS data based on 45%

of study population(n=540)

N Eng J Med 2009 J Clin Oncol 2011KRAS wt KRAS wt

FOLFIRI CETUXIMAB + FOLFIRI FOLFIRI CETUXIMAB +FOLFIRIKRAS Analysis (%) 540 (45%) 1063 (89%)ORR (%) 43 59 39.7 57.3p-value 0.0025 < 0.0001Interaction between treatmentgroup and K-RAS status p = 0,03 p = 0,0005Median PFS (Months) 8.7 9.9 8.4 9.9HR 0.68 0.70p-value 0.017 0.0012Interaction between treatmentgroup and K-RAS status p = 0,07 p = 0,0028Median OS (Months) 21.0 24.9 20.0 23.5HR 0.84 0.796P-value 0.22 0.0094Interaction between treatmentgroup and K-RAS status p = 0,44 p = 0,0463

Interacción cuantitativa

Parker AB. Am Heart J 2000; 139:952-61Point estimates suggest that treatment B is beneficial for both subgroups

Interacción cualitativa

Parker AB. Am Heart J 2000; 139:952-61

Point estimates and associated confidence intervals suggest that treatment B is significantly beneficial for one subgroup and significantly harmful for the other

Scagliotti GV et al. J Clin Oncol 2008; 26:3543-51

Interaction analysisp=0.0011

Prespecified analysis of OS by histology

¿Cómo se comporta la variable “histología” en este ensayo? 1) Existe interacción cualitativa, la variable “histología” actúa como variable modificadora del efecto. (Factor predictivo de respuesta).

2) Detectar la interacción, enriquece la información. Las variables modificadoras, interesa identificarlas (ANALISIS DE SUBGRUPOS) y NO corregirlas

APLICABILIDAD ANALISIS DE SUBGRUPOS CRITERIOS a tener en cuenta:

ASOCIACION ESTADISTICA CONSISTENCIA ENTRE ESTUDIOS PLAUSIBILIDAD BIOLOGICA

GRUPO GENESIS-METODOLOGÍA ANÁLISIS ECONÓMICO-ANÁLISIS DE SUBGRUPOS

ASOCIACIÓN ESTADÍSTICAPregunta Respuesta Fiabilidad análisis¿Existe interacción? Si, p < 0,05

p > 0,05 y < 0,2No cuantificable, dudosoNo

ProbablePosibleDudosaNula

¿Se trata de un análisis preespecificado?Sí, o se trata de un factor usado al estratificar la aleatorizaciónSí, pero los grupos se han dividido de forma distinta a la preespecificadaNo, o no se conoce

ProbableDudosaDudosa

Resultado global del estudioPositivo; podría haber diferencias entre subgruposNegativo; podría existir beneficio en algún subgrupo

ProbableDudosa

¿Existe interacción? Orientación del valor p

Regla general: p < 0.05 (difer. significativa) Al dividir la población en subgrupos, la potencia estadística baja Por ello, se puede considerar indicativo de diferencia valores de p < 0.1, e incluso, en ocasiones, p < 0.2 En algunas publicaciones, el valor preespecificado por los autores en el análisis de subgrupos es > 0.05

Eso es debido al elevado error beta de los análisis de subgrupos, que aconseja permitir un error alfa más elevado y cribarlo con otros criterios, como la plausibilidad y la consistencia. El límite de 0,1 es mencionado expresamente en este artículo.

Sun X et al. BMJ 2010; 340: 850-4

Borghaei H et al. N Eng J Med 2015;373:1627-39

Nivolumab was associated with even greater efficacy than docetaxel across all end points in subgroups defined according to prespecified levels of tumor membrane expression (≥1%, ≥5%, and ≥10%) of the PD-1 ligand. Among patients whose tumors expressed PD-L1 (at the ≥1%, ≥5%, and ≥10% expression levels), nivolumab nearly doubled median overall survival as compared with docetaxel

…y si no disponemos de la p de interacción Calculadora Interacción Subgrupos (J. Primo)

GENESIS Calculadora de Metanálisis (CASPe). Calcula la p de la heterogeneidad, relacionada con la Q de Cochrane. Menor fiabilidad

www.redcaspe.org/herramientas/calculadoras Ultimo recurso: Solapamiento de IC95%. Menor fiabilidad

CALCULADORA DE INTERACCIÓN DE SUBGRUPOS

Altman DG, Bland JM. BMJ. 2003; 326:219


p=0,54

p=0,06

p=0,75

p=0,30

p calculadas con la Calculadora de Interacción entre Subgrupos

Calculadora CASPE Metanálisisp de heterogeneidad (Q de Cochrane)

Calculadora CASPE Metanálisisp de heterogeneidad (Q de Cochrane)

I2 > 50% alta heterogeneidadMide el grado de inconsistencia de los resultados, indicando el porcentaje de la variabilidad total en los resultados que es debida a la heterogeneidad más que al azar

Debido a la baja sensibilidad de este test, habitualmente se utiliza un valor de p < 0,10 para determinar lasignificación estadística

CALCULADORANivolumab vs Docetaxel PDL-1 < 1% vs PDL-1 ≥ 1%

SOLAPAMIENTO IC95% Si gráficamente se observa una separación total de los IC95% (solapamiento 0) se puede considerar sin error que p < 0.05 Establecer el % de solapamiento más conservador Si el extremo de cada intervalo llega a la mitad del otro, es seguro que p > 0.2 (no significativo)

Un solapamiento doble supera con creces p=0.2 Si el % de solapamiento más conservador solapa > 29% entonces no deberían existir diferencias con criterio p < 0.05

SOLAPAMIENTO IC95%

0 3 6 9 12 15 18 21 24 27 30 33 36 39 42 45 480.00.10.20.30.40.50.60.70.80.91.0

0 3 6 9 12 15 18 21 24 27 30 33 36 39 42 45 480.00.10.20.30.40.50.60.70.80.91.0

Pemetrexed 15.5 months

Pemetrexed 9.9 months

Placebo 10.3 months

Placebo 10.8 months

Non-squamous (n=481) Squamous (n=182)HR=0.70 (95% CI: 0.56-0.88)

P =0.002 HR=1.07 (95% CI: 0.77–1.50)P =0.678

Survi

val Pr

obabi

lity

Time (months) Time (months) Ciuleanu T et al. Lancet 2009;374:1432-40

Prespecified analyses for survival with respect to histology were included on the basis of results from previous studies

Interaction test p=0.033

Maintenance pemetrexed vs placeboSquamous Non-squamous

Pemetrexed Placebo Pemetrexed Placebo

n 116 66 325 156

mPFS(months)

2.4 2.5 4.4 1.8

HR (95% CI)

1.03 (0.71-1.49)p=0.896

0.47 (0.37-0.60)p < 0,0001

Interaction between treatment and histology p = 0.036mOS(months)

9.9 10.8 15.5 10.3

HR (95% CI)

1.07 (0.77-1.50)p=0.678

0.70 (0.56-0.88)p =0.002

Interaction between treatment and histology p = 0.033

Solapamiento IC 95%Mantenimiento pemetrexed vs placebo SLP

No escamoso HR=0,47 (0,37-0,60) Escamoso HR=1,03 (0,71-1,46) % solapamiento IC 95% 0%

SG No escamoso HR=0,7 (0,56-0,88) Escamoso HR=1,07 (0,77-1,50) % solapamiento IC 95% 0,11/0,73= 15%

…..pero un test de interacción significativo no lo es todo….

Riesgo Potencial de la Exploración de Múltiples SubgruposISIS-2: Beneficio global de la aspirina en mortalidad cardiovascular en el IAM

Los pacientes del signoZodiacal Geminis y Librano se benefician de la as-pirina¿Tiene sustento biológico?¿Ha sido confirmado en estudios posteriores?Post-hoc: ¿Característicaspronósticas disbalancedas?

Lancet 1988;2(8607):349-60 Sun X. JAMA 2014;311(4):405-11

Test interacciónp=0,003







ProbableDudosa

¿Se trata de un análisis preespecificado?

Situación ideal: Sí, o bien se trata de un análisis de un factor usado al estratificar la aleatorización Menor evidencia: Sí, pero los grupos se han dividido de forma distinta a la preespecificada En ocasiones no se especifica y es necesario recurrir a comprobarlo al protocolo del ensayo Un análisis post-hoc* puede esconder lo que en el argot evaluador se llama “ir de pesca”, sobre todo cuando se trata de “salvar” un estudio con resultado final negativo o irrelevante

* Formar los subgrupos una vez que ya se dispone de los resultados finales

Baselga J et al. N Eng J Med 2012;366:520-9

The results for PFS were consistentacross all subgroups (Fig. 2)Pg 526

¿Se especifica claramente cuándo los análisis de subgrupos son preplaneados y cuando no lo son? En el artículo no. En el protocolo suplementario si se especifican los análisis de subgrupos y de sensibilidad preplaneados

¿En función de qué variables han realizado los análisis de subgrupos? Variables utilizadas para la estratificación de la aleatorización y otras variables pronóstico de interés

Baselga J et al. N Eng J Med 2012; 366:520-9

ASOCIACION ESTADISTICAPregunta Respuesta Fiabilidad análisis¿Existe interacción? Si, p < 0,05






ProbableDudosa







ProbableDudosa

Un resultado negativo del estudio pero positivo en un subgrupo es de fiabilidad bastante mermada, porque el fármaco no ha demostrado siquiera ser eficaz en las condiciones prefijadas para ello

PROPUESTA RESUMEN DEL CRITERIOASOCIACIÓN ESTADÍSTICA

Respuestas posibles Fiabilidad análisis (*)3 resultados “probables” Probable

2 resultados probables y 1 “posible” PosibleSólo 1 resultado “dudoso” y ninguno “nulo” Dudosa

2 ó 3 resultados dudosos o 1 “nulo” Nula

(*) El resultado de este resumen del criterio de asociación estadística se valora al final junto con los de los otros dos criterios

CONSISTENCIA ENTRE ESTUDIOSPregunta Respuesta Fiabilidad análisis¿Existe consistencia con otros resultados obtenidos?

Sí, todos los estudios muestran la interacción Probable

No, pero existen resultados compatibles PosibleNo existen otro estudios con los que compararSin inconsistencia interna

Dudosa

Existe inconsistencia externa o interna Nula

CONSISTENCIA ENTRE ESTUDIOSOrientaciones

Estudios similares deberían llegar a las mismas conclusiones Estudios “similares”: aquellos con la misma intervención y control En su ausencia, se pueden analizar estudios con fármacos similares y/o patologías similares

Existe consistencia cuando existe interacción en todos los estudios Si no hay interacción (probable o posible) en todos, decimos que los resultados son compatibles cuando al menos en un estudio existe interacción significativa y, al menos, existe interacción dudosa en el resto En caso contrario, la consistencia es nula

Si no hay estudios donde comparar, se puede recurrir a comprobar si existe inconsistencia interna con los resultados de otras variables relevantes relacionadas con la que se evalúa.

PLAUSIBILIDAD BIOLÓGICAPregunta Respuesta Fiabilidad análisis¿Existe una hipótesis plausible que pueda justificar la relación causa efecto?

Sí, basada en literatura previa Probable

Es posible enunciar una hipótesis razonable pero carece de base en literatura previa PosibleHipótesis dudosa y sin base en literatura previa Dudosa

Sin hipótesis plausible Nula

Orientación: Las diferencias deben ser explicables mediante una hipótesis aceptable, acorde al conocimiento actual de la enfermedad. Las bases de la misma deben estar presentes en la literatura. Que se haya considerado ese factor en la estratificación muestra que se preveía su posible influencia en el resultado

EJEMPLOS

BCIRG 001

Docetaxel 75 mg/m2Doxorubicin 50 mg/m2Cyclophosphamide 500 mg/m2

5-FU 500 mg/m2Doxorubicin 50 mg/m2Cyclophosphamide 500 mg/m2

FAC

TACDexamethasone premedication, 8 mg bid, 3 days Prophylactic Cipro 500 mg bid, day 5-14

Every 3 weeks x 6 cycles

Stratification:• Nodes: 1-3 4+• CenterTamoxifen for 5 years was recommended for all patients with HR+tumors, beginning at the end of adyuvant chemotherapy

BCIRG 001The primary analysis was conducted according to the intention-to-treat principle, and a stratified log-rank test was used to compare TAC with FAC with respect to both disease-free and overall survival. The number of positive nodes (one to three or four or more) was the only stratification variable in the analysis. Analyses of subgroups according to hormone-receptor status and HER2/neu status were prospectively defined but were not powered.

DFS by Nodes%

Alive

and D

isease

-Free

0 6 12 18 24 30 36 42 48 54 60 66 0 6 12 18 24 30 36 42 48 54 60 66

100

90

80

70

60

50

FAC

TAC

100

90

80

70

60

50FAC

TACHR = 0.83 (0.63-1.08)

p = 0.17HR = 0.61 (0.46-0.82)

p = 0.0009

1-3 Nodes 4+ Nodes

Time to First EventTime to First EventInteraction test p = 0.15 % Solapamiento IC 95% = 42%

El análisis de subgrupos en función del nº de N+ estaba previstoSin embargo, al ser la inclusiónde pacientes competitiva, entraron un mayor número de pacientes con 1-3 ganglios, de tal forma que no se alcanzó el número de eventos necesario en el subgrupo de 4 ó + ganglios para sacar conclusiones definitivasFDA (Ago 2004) y EMEA (Dic 2004)Autorizaron el uso de docetaxel comotratamiento adyuvante de pacientes con cáncer de mama y ganglios positivos en combinación con la adriamicina y la ciclofosfamida

BCIRG 001

Sin distinción N1-3 / N4+

El ensayo sólo tiene potencia estadística para detectar diferencias en la población entera(estadios II y III)A pesar de ello tanto la FDA como la EMEA autorizaron el uso adyu-vante del oxaliplatino únicamenteen el estadio III (C de Dukes) enbase al análisis de subgrupos

André T et al. N Engl J Med 2004; 350:2343-51André T et al. J Clin Oncol 2009

André T et al. N Engl J Med 2004; 350:2343-51André T et al. J Clin Oncol 2009

CALCULADORAMOSAIC SLP Estadio II vs Estadio III

CALCULADORAMOSAIC SG Estadio II vs Estadio III

Primary end point: DRR (durable response rate; objective response lasting continuosly ≥ 6 months)Key Secondary end points: OS and ORR

Andtbacka R. et al. J Clin Oncol. 2015; 33: 2780-8

Stage IIIB, IIIC or IVM1a Stage IVM1b or IVM1c

No se presenta la p de interacción

Talimogen LaherparepvecEstadio IIIB, IIIC, IVM1a vs IVM1b, IVM1c

First-line therapy Second-line or greater therapy

No se presenta a p de interacción

Talimogen LaherparepvecFirst-line vs second-line or greater therapy

FICHA TÉCNICA EMA/AEMPS

Las diferencias obtenidas en estos subgrupos no resultaron ser totalmente concluyentes debido al hecho de que los pacientes que recibieron tratamiento en primera línea fueron mayoritariamente pacientes en estadios de enfermedad más tempranos (33 % fueron pacientes en estadío IVM1b-c). Un 52 % de los pacientes que recibieron tratamiento en líneas posteriores fueron de estadío IVM1b-c y por lo tanto la línea de tratamiento más que un predictor de actividad podía ser un artefacto

Cuando se detecta simultáneamente más de un efecto de subgrupo estadísticamente significativo en un estudio, es necesario demostrar que estos efectos son independientes entre sí → Regresión COX (multivariante)

Bang YJ et al. Lancet 2010;376:687-97

PREGUNTAS• -¿Se han realizado análisis de subgrupos?

• Sí• ¿Se especifica los que estaban pre-planeados y los que no?

• - Sí, 15 pre-planeados y 1 post-hoc. Figuras 3 y 4. Pág. 691 y 693• ¿Sus resultados se tratan como confirmatorios o exploratorios?

• Como exploratorios

ToGA Trial “A pre-planned exploratory analysis according to HER2 status suggested that OS was longer in patients with high expression of HER-2 protein than in patients with low expression” “To further explore this finding, a post-hoc analysis divided patients into two large subgroups; with either high (IHC 2+ and FISH + or IHC 3+) or low (IHC 0 and FISH + or IHC 1 and FISH +) levels of HER2 protein in their tumors”

Pág. 692 y 693

HER2-positivity rate in gastric cancer

OS by HER2 status

Pág. 693

Comentarios• Necesitamos saber el p-valor de la interacción• “There was evidence of a significant interaction test (p = 0.036) between treatment and the two HER2 subgroups (high vs low HER2 expression)” Pág. 693• % Solapamiento IC 95% = 14%• En cualquier caso, se trata de un análisis exploratorio, que no permite excluir o confirmar un determinado efecto• Análisis “post-hoc” (no planificado previamente)

TRASTUZUMAB (ToGA)IHC 2+/FISH+ or IHC 3+ vs IHC 0 or 1+/FISH+

….sin embargoFicha Técnica Trastuzumab (Herceptin®)

PROPUESTAVALORACIÓN GLOBAL

APLICABILIDADANÁLISIS DE SUBGRUPOS

REQUIERE DE UNA VALIDACIÓN PREVIA

Valoración global aplicabilidad de análisis de subgrupos En la práctica, es necesario asignar una puntuación para poder ponderar y combinar las 3 áreas: asociación estadística, consistencia y plausibilidad La puntuación es orientativa y debería ser consensuada y validada antes de ser utilizada para el posicionamiento terapéutico Puede ser una herramienta de ayuda para los evaluadores

Valoración global de la aplicabilidad del análisis de subgrupos (propuesta)Ítem Valoración:

Probable, Posible, Dudosa o NulaPuntuaciónProbable: 3 puntos. Posible: 2 puntos. Dudosa: 0 puntos. Nula: -3 puntos

ASOCIACION ESTADISTICA (*)CONSISTENCIA ENTRE ESTUDIOS (*)PLAUSIBILIDAD BIOLOGICATotal: 7-9 probable, 5-6 posible, 3-4 dudosa, < 3 nula

(*) Si la asociación estadística o la consistencia son nulas, la aplicabilidad sería nula

Recomendaciones para aplicar un análisis de subgrupos en la práctica clínicaAplicabilidad Recomendación

Probable Tener en cuenta los resultados del análisis de subgrupos en la práctica clínica en tanto no se disponga de un EC diseñado específicamente para confirmar o descartar la diferencia de efectoPosible Los resultados del análisis de subgrupos podrían ser aplicables a la práctica clínica con prudencia, si la situación lo aconseja. Por ejemplo, si la intervención es más tóxica, difícil de utilizar o mucho más caraDudoso En general, no debería tenerse en cuenta para la práctica clínica. Podría sopesarse su aplicación sólo en el caso de que la intervención sea muy tóxica, difícil de utilizar o suponga un coste inasumible con respecto a otras alternativas, que obliguen a restringir su uso a situaciones en las que el efecto beneficioso no presenta dudasNula El análisis de subgrupos no muestra diferencias fiables que puedan ser consideradas en la práctica clínica. El resultado atribuible a cada subgrupo no es otro que el global del estudio

CONCLUSIONES (I) Los análisis de subgrupos deben ser exploratorios y sólo excepcionalmente deberían afectar a las conclusiones del ensayo La credibilidad de los análisis de subgrupos es mayor cuando se limitan a la variable principal y a unos pocos subgrupos preestablecidos en función de una hipótesis con plausibilidad biológica

CONCLUSIONES (II) Solamente si las pruebas estadísticas de interacción apoyan el efecto de subgrupos pueden

verse afectadas las conclusiones

Aún así, el énfasis dependerá de la plausibilidad biológica, el número de análisis, sus especificación previa, y la fuerza estadística de la evidencia

CONCLUSIONES (III) Iniciativas como la del grupo de trabajo GENESIS-ANALISIS ECONÓMICO-ANÁLISIS DE SUBGRUPOS nos pueden ayudar a unificar criterios Disponer de una herramienta de trabajo común, suficientemente validada y consensuada, puede facilitar la incorporación del análisis de subgrupos en la evaluación de fármacos y su posterior posicionamiento terapéutico

MUCHAS GRACIAS

2 analisis subgrupos-gedefo-sefh-20-9-2016 [modo de ... · /d srwhqfldo idodfld gh orv dqiolvlv gh...

Documents