2 analisis subgrupos-gedefo-sefh-20-9-2016 [modo de ... · /d srwhqfldo idodfld gh orv dqiolvlv gh...
TRANSCRIPT
ANALISIS DE SUBGRUPOS
?Jordi Ginés. Servicio de Farmacia. Hospital Universitario Son Espases.Palma de Mallorca
Madrid, 20 de Septiembre 2016
APORTACION Y LIMITACIONES EN LA EVALUACION DE FARMACOS EN ONCO-HEMATOLOGIA
ANALISIS DE SUBGRUPOS¿Mejoran la interpretación de los resultados o nosinducen al error?
Análisis de subgruposSigue la controversia
“Subgroup analysis kills people” Peto 1995, citado por Rothwell 2007
“Not doing subgroup analysis has very probably killed more people” Rothwell 2005
“Damned if you do, damned if you don´t: subgroup analysis and equity” Petticrew et al. 2012
Petticrew M et al. J Epidemiol Community Health. 2012; 66 (1):95-8Rothwell, PM (ed.)The Lancet: Treating individuals: From Randomised Trials to Personalised Medicine.Elsevier, Edinburgh, 2007Rothwell PM et al. Lancet 2005;365:256-65
La potencial falacia de los análisis de subgrupos- 1) Están sujetos a los mismos errores que cualquier test estadístico- 2) En algunas ocasiones, existiendo diferencias reales del efecto de un tratamiento en distintos subgrupos, no vamos a ser capaces de
detectarlas- Tamaño muestral pequeño o diferencia de poca magnitud (Error β)
- 3) Situación más peligrosa: el análisis de subgrupos detecta diferencias cuando en realidad no existen (Error )
- Mientras más subgrupos se consideren, mayor probabilidad de encontrar una diferencia significativa sólo por azar- 1 subgrupo: probabilidad 5% (azar), 5 subgrupos: 23%, 10 subgrupos: 40%
Riesgo Potencial de la Exploración de Múltiples SubgruposISIS-2: Beneficio global de la aspirina en mortalidad cardiovascular en el IAM
Los pacientes del signoZodiacal Geminis y Librano se benefician de la as-pirina
¿Tiene sustento biológico?¿Ha sido confirmado en estudios posteriores?
Lancet 1988;2(8607):349-60 Sun X. JAMA 2014;311(4):405-11
Riesgo Potencial de la Exploración de Múltiples Subgrupos ¿Quién nos dice a nosotros que estos resultados, debidos al azar, no se dan también cuando se hace un análisis de subgrupos construido de una manera supuestamente más “científica”?
Sleight P. Curr Control Trials Cardiovasc Med 2000; 1 :25-7
CONCLUSIONES ERRÓNEASBasadas en Análisis de Subgrupos
Candia R et al. Rev Med Chile 2012;140: 673-80
Análisis de subgrupos - Sólo tiene fuerza probatoria si:
1) Se ha previsto o anticipado en el protocolo 2) Se ha constituido un estrato prospectivo 3) Se ha alcanzado dentro de los subgrupos el tamaño muestral necesario (potencia suficiente)
- En el resto de los casos los resultados obtenidos deben considerarse como generadores de hipótesis y deben interpretarse con cautela - Un estudio exploratorio debe terminar con expresiones del tipo: “Nuestros resultados sugieren…….”
SITUACION IDEALEjemplo: PRIME Study
Douillard J et al. JCO 2010;28:4697-4705
©2010 by American Society of Clinical Oncology
PRIME studyStatistical Analysis
- “The sample size was increased to 1,150 patients to ensure adequate power to test PFS in the WT KRAS population”- “In the WT KRAS stratum a HR of 0.714 was hypothesized (P + FOLFOX vs. FOLFOX)”- “To achieve a 90% power, two-side, p=0.05 significance level in WT KRAS, a total of 380 events and a sample of 1,150 patients independent of KRAS status were required”
0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 32 34 36 38
Propor
tion Ev
ent-Fr
eePRIME Final AnalysisPFS by KRAS Mutation Status
Months
KRAS WT KRAS MT
Eventsn (%) Median (95% CI)monthsPanitumumab + FOLFOX4 (n=325) 270 (83) 10.0 (9.3–11.4)FOLFOX4 (n=331) 280 (85) 8.6 (7.5–9.5)HR=0.80 (95% CI: 0.67–0.95) Log-rank p-value=0.01
Eventsn (%) Median (95% CI)monthsPanitumumab + FOLFOX4 (n=221) 204 (92) 7.4 (6.9–8.1)FOLFOX4 (n=219) 196 (89) 9.2 (8.1–9.9)HR=1.27 (95% CI: 1.04–1.55)Log-rank p-value=0.02
0%10%20%30%40%50%60%70%80%90%
100%
40 42 44
Propor
tion Ev
ent-Fr
ee
0%10%20%30%40%50%60%70%80%90%
100%
Months0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 32 34 36 38 40 42 44
TIPOS DE ERRORES EN ESTADISTICA El test no sea capaz de mostrar una diferencia significativa cuando realmente ésta existe (ERROR β) El test muestre una diferencia significativa cuando realmente ésta no existe (ERROR )
Contraste de hipótesis Aceptar Ho Rechazar Ho
Ho cierta Decisión correcta Error de tipo I ( Error )
Ho falsa Error de tipo II ( Error )
Decisión correcta
Ho: Hipótesis nula, de partida. Debe contemplar el hecho que queremos poner a prueba. La hipótesis nula siempre afirma que NO existen diferenciasH1: Hipótesis alternativa. Representa que se ha producido un cambio respecto a la situación descrita en la Ho.Error tipo I (): Es la probabilidad de rechazar la Ho cuando ésta es ciertaError tipo II (): Es la probabilidad de aceptar la Ho cuando ésta es falsa
REALIDAD
RESULTADO DEL TEST
Error y Error
“ Cuando disminuimos el error nos aumenta elerror y viceversa. Existe un balance entre el error y el error ”
What´s wrong with Bonferroni adjustments
Perneger TV. BMJ 1998; 316:1236-8
“Type I errors cannot decrease (the whole point of Bonferroni adjustments) without inflating type II errors (the probability of accepting the null hypothesis when the alternative is true)”. “And type II errors are no less false than type I errors”
Changes in power to identify subgroup effects after changes in specification of subgroup effect
Burke JF et al. BMJ 2015; 351:h5651
DIFERENCIA ENTRE RIESGO BASAL Y EFECTO DE SUBGRUPO
Candia R et al. Rev Med Chile 2012;140: 673-80Sun X et al. JAMA 2014;311(4):405-11
Por lo tanto , la pregunta en el análisis de subgrupos no es si existen diferencias en los efectos absolutos, sino en los efectos relativos. La única forma de diferenciar ambas situaciones es mediante la comparación de los efectos en términos relativos. Permanecen constantes independientemente del riesgo basal y varían sólo si hay efecto subgrupo.
AB
A: Varón, diabético, 65 años, fumador, hipertenso sin tratamiento, TAS 165 mmHg, colesterol 250 mg/dl, HDL 30 mg/dlB: Mujer, diabética, 50 años, no fumadora, sin HTA, TAS 130 mmHg, colesterol 200 mg/dl, HDL 50 mg/dl
Riesgo basal de sufrir un evento cardiovascular mayor a los 10 años
¿El análisis de subgrupos reúne las condiciones básicas para poder tener impacto en la práctica clínica? Cuestiones de descarte
Nivel de evidencia del estudio Variable principal, o la más relevante clínicamente, o variable subclínica o intermedia con repercusión demostrada sobre la variable principal
Seleccionar los factores Aquellos que condicionan subgrupos que parece que se comportan de forma diferente entre sí
Considerar la secuencia temporal Los pacientes presentan el factor que establece los posibles subgrupos antes de recibir la intervención
Relevancia clínica
GUIA PARA EVALUAR LA CALIDAD DE UN ANÁLISIS DE SUBGRUPOS
Oxman AD, Guyatt GH. Ann Int Med 1992; 116:78-84
SISI
SI
SI
SI
PREVIA
INTRAESTUDIOSPodría plantearse lautilidad de basarse ensus resultados para tomardecisiones terapéuticas
Criterios para evaluar la credibilidad de un análisis de subgrupos
Sun X et al. BMJ 2010; 340: 850-4
CRITERIOS PARA EVALUAR LA CREDIBILIDAD DE ANALISIS DE SUBGRUPOS 1-Diseño del estudio
a) Establecimiento “a priori” del subgrupo: Previo a la aleatorizaciónb) Establecimiento “a priori” de la dirección del efectoc) Número limitado de subgruposd) Las comparaciones intraestudio son más fiables 2- Análisis de datos
a) Pruebas estadísticas adecuadas: TEST DE INTERACCIONb) Demostración que el efecto de subgrupo es independiente (Modelos de Regresión) 3- Contexto general
a) Magnitud del efectob) Consistencia. Replicado en otros estudios de diseño similarc) Efecto consistente en “outcomes” fisiopatológicamente relacionadosd) Plausibilidad biológica (fundamento o racionalidad biológica o fisiopatológica)
ANALISIS DE SUBGRUPOSPrincipios básicos
1) Credibilidad: Mayor cuando se limitan a la variable principal y los subgrupos son establecidos previamente en base a razones creíbles de plausibilidad biológica2) Son análisis exploratorios (generadores de hipótesis) que, sólo de manera excepcional, pueden afectar a las conclusiones del ensayo3) Si el efecto difiere en un grupo con respecto a otro se debe realizar un “test de interacción” (modificación del efecto) y presentar el valor de la p
Análisis de una muestra aleatoria de 207 ECA en 118 “core clinical journals”
94%20%
41%44%
9%
6%33%
30%22%
Sun X et al. BMJ 2012;344: e1553
Análisis de una muestra aleatoria de 207 ECA en 118 “core clinical journals”
“Of 207 randomised controlled trials reporting subgroup analyses, 64 (31%) made claims for the primary outcome. Of those, 20 were strong claims and 28 claims of a likely effect”.
Sun X et al. BMJ 2012;344: e1553
Bennouna J et al. Lancet Oncol. 2013;14(1):29-37
Bennouna J et al. Lancet Oncol. 2013;14(1):29-37
Conclusión a primera vista:La continuación de tratamiento con BVZ sólo beneficia a los pacientes incluidos en el ensayo ML18147, varones, < 65 años y ECOG 0
Procedimiento incorrecto:Comparar los valores p de cada subgrupop subgrupo: Cuantifica la precisión de eseefecto en el subgrupo, pero depende tantodel valor medio como de su variabilidad (desviación típica) y del tamaño del subgrupo (n), que en ocasiones, puede estar muy descompensado.
Molinero LM. Análisis de subgrupos y de objetivos secundarios SEH-LELHA 2002
Pero si no nos quedamos sólo en la comparación de las p, vemos que en el subgrupo B la diferencia es mayor que en el A (0,3 frente a 0,12), aunque también hay muchos más pacientes en ese subgrupo (908 frente a 332, casi 3 veces más). Esto hace que la estimación del efecto es mucho más precisa, y eso contribuye a disminuir radicalmente el valor de la p en ese subgrupo.Es importante observar como el sentido de la diferencia es el mismo en ambos subgrupos y lo que realmente interesa saber es si es significativo el cambio de la magnitud del efecto entre los 2 subgrupos (0,3 -0,12 = 0,18). Esto se conoce como interacción.p=0,3. No hay justificación probabilística suficiente para poder proclamar que existe diferencia entre los subgrupos, como quizás inicialmente nos habíamos precipitado a afirmar
KRAS status and efficacy in the first-line treatment of patients with metastatic colorectal cancer (mCRC) treated with FOLFIRI with or without cetuximab: The CRYSTAL experience
Van Cutsem E et al. Plenary Session Presentation, ASCO 2008
Retrospective Subgroup Analysis
540 patients (45% of total) were suitable for the analysis of KRAS mutation status348 patients (64,4%) had wild-type KRAS
192 (35,6%) had mutated KRAS
CRYSTAL: PFS and OS according status of KRAS
Van Cutsem E et al. N Eng J Med 2009;360:1408-17
CRYSTAL: Tumor response according status of KRAS
Si nos fijamos únicamente en los valores de la p, la diferencia sólo es estadísticamente significativa en el subgrupo KRAS wild-type. Lo que realmente interesa saber es si la diferencia obtenida intergrupos
(KRAS mutado vs KRAS nativo) es estadísticamente significativa. Esto se conoce como interacción.
p =0,0025
p = 0,46
Test de interacción
“En los análisis de subgrupos correctamente realizados, la presentación de los resultados no debe basarse en los valores de la p de las comparaciones intragrupo, sino en el test de interacción estadístico entre grupos”CRYSTAL: “The interaction between treatment group and KRAS mutation status was not significant for progression-free survival (p=0,07) or overall
survival (p=0,44), but was significant for response (p=0,03)”
¿falta potencia, poco tamaño muestral?
ANÁLISIS DE SUBGRUPOS
Dra. Teresa Pérez. Departamento de Estadística. UCM.
Methodology of the CRYSTAL update
• Increase of statistical power by• Doubling ascertainment rate for KRAS “samples”: 45% 89%
• Median time to follow-up increased by approx. 1.5 years - 161 events more in total• KRAS wt-population: Event rates increased from 62.9% 79.6%
OS update based on 89% of study population
(n=1063)OS data based on 45%
of study population(n=540)
N Eng J Med 2009 J Clin Oncol 2011KRAS wt KRAS wt
FOLFIRI CETUXIMAB + FOLFIRI FOLFIRI CETUXIMAB +FOLFIRIKRAS Analysis (%) 540 (45%) 1063 (89%)ORR (%) 43 59 39.7 57.3p-value 0.0025 < 0.0001Interaction between treatmentgroup and K-RAS status p = 0,03 p = 0,0005Median PFS (Months) 8.7 9.9 8.4 9.9HR 0.68 0.70p-value 0.017 0.0012Interaction between treatmentgroup and K-RAS status p = 0,07 p = 0,0028Median OS (Months) 21.0 24.9 20.0 23.5HR 0.84 0.796P-value 0.22 0.0094Interaction between treatmentgroup and K-RAS status p = 0,44 p = 0,0463
Interacción cuantitativa
Parker AB. Am Heart J 2000; 139:952-61Point estimates suggest that treatment B is beneficial for both subgroups
Interacción cualitativa
Parker AB. Am Heart J 2000; 139:952-61
Point estimates and associated confidence intervals suggest that treatment B is significantly beneficial for one subgroup and significantly harmful for the other
Scagliotti GV et al. J Clin Oncol 2008; 26:3543-51
Interaction analysisp=0.0011
Prespecified analysis of OS by histology
¿Cómo se comporta la variable “histología” en este ensayo? 1) Existe interacción cualitativa, la variable “histología” actúa como variable modificadora del efecto. (Factor predictivo de respuesta).
2) Detectar la interacción, enriquece la información. Las variables modificadoras, interesa identificarlas (ANALISIS DE SUBGRUPOS) y NO corregirlas
APLICABILIDAD ANALISIS DE SUBGRUPOS CRITERIOS a tener en cuenta:
ASOCIACION ESTADISTICA CONSISTENCIA ENTRE ESTUDIOS PLAUSIBILIDAD BIOLOGICA
GRUPO GENESIS-METODOLOGÍA ANÁLISIS ECONÓMICO-ANÁLISIS DE SUBGRUPOS
ASOCIACIÓN ESTADÍSTICAPregunta Respuesta Fiabilidad análisis¿Existe interacción? Si, p < 0,05
p > 0,05 y < 0,2No cuantificable, dudosoNo
ProbablePosibleDudosaNula
¿Se trata de un análisis preespecificado?Sí, o se trata de un factor usado al estratificar la aleatorizaciónSí, pero los grupos se han dividido de forma distinta a la preespecificadaNo, o no se conoce
ProbableDudosaDudosa
Resultado global del estudioPositivo; podría haber diferencias entre subgruposNegativo; podría existir beneficio en algún subgrupo
ProbableDudosa
¿Existe interacción? Orientación del valor p
Regla general: p < 0.05 (difer. significativa) Al dividir la población en subgrupos, la potencia estadística baja Por ello, se puede considerar indicativo de diferencia valores de p < 0.1, e incluso, en ocasiones, p < 0.2 En algunas publicaciones, el valor preespecificado por los autores en el análisis de subgrupos es > 0.05
Eso es debido al elevado error beta de los análisis de subgrupos, que aconseja permitir un error alfa más elevado y cribarlo con otros criterios, como la plausibilidad y la consistencia. El límite de 0,1 es mencionado expresamente en este artículo.
Sun X et al. BMJ 2010; 340: 850-4
Borghaei H et al. N Eng J Med 2015;373:1627-39
Borghaei H et al. N Eng J Med 2015;373:1627-39
Nivolumab was associated with even greater efficacy than docetaxel across all end points in subgroups defined according to prespecified levels of tumor membrane expression (≥1%, ≥5%, and ≥10%) of the PD-1 ligand. Among patients whose tumors expressed PD-L1 (at the ≥1%, ≥5%, and ≥10% expression levels), nivolumab nearly doubled median overall survival as compared with docetaxel
…y si no disponemos de la p de interacción Calculadora Interacción Subgrupos (J. Primo)
GENESIS Calculadora de Metanálisis (CASPe). Calcula la p de la heterogeneidad, relacionada con la Q de Cochrane. Menor fiabilidad
www.redcaspe.org/herramientas/calculadoras Ultimo recurso: Solapamiento de IC95%. Menor fiabilidad
CALCULADORA DE INTERACCIÓN DE SUBGRUPOS
Altman DG, Bland JM. BMJ. 2003; 326:219
Bennouna J et al. Lancet Oncol. 2013;14(1):29-37
p=0,54
p=0,06
p=0,75
p=0,30
p calculadas con la Calculadora de Interacción entre Subgrupos
Calculadora CASPE Metanálisisp de heterogeneidad (Q de Cochrane)
Calculadora CASPE Metanálisisp de heterogeneidad (Q de Cochrane)
I2 > 50% alta heterogeneidadMide el grado de inconsistencia de los resultados, indicando el porcentaje de la variabilidad total en los resultados que es debida a la heterogeneidad más que al azar
Debido a la baja sensibilidad de este test, habitualmente se utiliza un valor de p < 0,10 para determinar lasignificación estadística
CALCULADORANivolumab vs Docetaxel PDL-1 < 1% vs PDL-1 ≥ 1%
SOLAPAMIENTO IC95% Si gráficamente se observa una separación total de los IC95% (solapamiento 0) se puede considerar sin error que p < 0.05 Establecer el % de solapamiento más conservador Si el extremo de cada intervalo llega a la mitad del otro, es seguro que p > 0.2 (no significativo)
Un solapamiento doble supera con creces p=0.2 Si el % de solapamiento más conservador solapa > 29% entonces no deberían existir diferencias con criterio p < 0.05
SOLAPAMIENTO IC95%
0 3 6 9 12 15 18 21 24 27 30 33 36 39 42 45 480.00.10.20.30.40.50.60.70.80.91.0
0 3 6 9 12 15 18 21 24 27 30 33 36 39 42 45 480.00.10.20.30.40.50.60.70.80.91.0
Pemetrexed 15.5 months
Pemetrexed 9.9 months
Placebo 10.3 months
Placebo 10.8 months
Non-squamous (n=481) Squamous (n=182)HR=0.70 (95% CI: 0.56-0.88)
P =0.002 HR=1.07 (95% CI: 0.77–1.50)P =0.678
Survi
val Pr
obabi
lity
Time (months) Time (months) Ciuleanu T et al. Lancet 2009;374:1432-40
Prespecified analyses for survival with respect to histology were included on the basis of results from previous studies
Interaction test p=0.033
Maintenance pemetrexed vs placeboSquamous Non-squamous
Pemetrexed Placebo Pemetrexed Placebo
n 116 66 325 156
mPFS(months)
2.4 2.5 4.4 1.8
HR (95% CI)
1.03 (0.71-1.49)p=0.896
0.47 (0.37-0.60)p < 0,0001
Interaction between treatment and histology p = 0.036mOS(months)
9.9 10.8 15.5 10.3
HR (95% CI)
1.07 (0.77-1.50)p=0.678
0.70 (0.56-0.88)p =0.002
Interaction between treatment and histology p = 0.033
Solapamiento IC 95%Mantenimiento pemetrexed vs placebo SLP
No escamoso HR=0,47 (0,37-0,60) Escamoso HR=1,03 (0,71-1,46) % solapamiento IC 95% 0%
SG No escamoso HR=0,7 (0,56-0,88) Escamoso HR=1,07 (0,77-1,50) % solapamiento IC 95% 0,11/0,73= 15%
…..pero un test de interacción significativo no lo es todo….
Riesgo Potencial de la Exploración de Múltiples SubgruposISIS-2: Beneficio global de la aspirina en mortalidad cardiovascular en el IAM
Los pacientes del signoZodiacal Geminis y Librano se benefician de la as-pirina¿Tiene sustento biológico?¿Ha sido confirmado en estudios posteriores?Post-hoc: ¿Característicaspronósticas disbalancedas?
Lancet 1988;2(8607):349-60 Sun X. JAMA 2014;311(4):405-11
Test interacciónp=0,003
ASOCIACIÓN ESTADÍSTICAPregunta Respuesta Fiabilidad análisis¿Existe interacción? Si, p < 0,05
p > 0,05 y < 0,2No cuantificable, dudosoNo
ProbablePosibleDudosaNula
¿Se trata de un análisis preespecificado?Sí, o se trata de un factor usado al estratificar la aleatorizaciónSí, pero los grupos se han dividido de forma distinta a la preespecificadaNo, o no se conoce
ProbableDudosaDudosa
Resultado global del estudioPositivo; podría haber diferencias entre subgruposNegativo; podría existir beneficio en algún subgrupo
ProbableDudosa
¿Se trata de un análisis preespecificado?
Situación ideal: Sí, o bien se trata de un análisis de un factor usado al estratificar la aleatorización Menor evidencia: Sí, pero los grupos se han dividido de forma distinta a la preespecificada En ocasiones no se especifica y es necesario recurrir a comprobarlo al protocolo del ensayo Un análisis post-hoc* puede esconder lo que en el argot evaluador se llama “ir de pesca”, sobre todo cuando se trata de “salvar” un estudio con resultado final negativo o irrelevante
* Formar los subgrupos una vez que ya se dispone de los resultados finales
Baselga J et al. N Eng J Med 2012;366:520-9
The results for PFS were consistentacross all subgroups (Fig. 2)Pg 526
¿Se especifica claramente cuándo los análisis de subgrupos son preplaneados y cuando no lo son? En el artículo no. En el protocolo suplementario si se especifican los análisis de subgrupos y de sensibilidad preplaneados
¿En función de qué variables han realizado los análisis de subgrupos? Variables utilizadas para la estratificación de la aleatorización y otras variables pronóstico de interés
Baselga J et al. N Eng J Med 2012; 366:520-9
ASOCIACION ESTADISTICAPregunta Respuesta Fiabilidad análisis¿Existe interacción? Si, p < 0,05
p > 0,05 y < 0,2No cuantificable, dudosoNo
ProbablePosibleDudosaNula
¿Se trata de un análisis preespecificado?Sí, o se trata de un factor usado al estratificar la aleatorizaciónSí, pero los grupos se han dividido de forma distinta a la preespecificadaNo, o no se conoce
ProbableDudosaDudosa
Resultado global del estudioPositivo; podría haber diferencias entre subgruposNegativo; podría existir beneficio en algún subgrupo
ProbableDudosa
ASOCIACIÓN ESTADÍSTICAPregunta Respuesta Fiabilidad análisis¿Existe interacción? Si, p < 0,05
p > 0,05 y < 0,2No cuantificable, dudosoNo
ProbablePosibleDudosaNula
¿Se trata de un análisis preespecificado?Sí, o se trata de un factor usado al estratificar la aleatorizaciónSí, pero los grupos se han dividido de forma distinta a la preespecificadaNo, o no se conoce
ProbableDudosaDudosa
Resultado global del estudioPositivo; podría haber diferencias entre subgruposNegativo; podría existir beneficio en algún subgrupo
ProbableDudosa
Un resultado negativo del estudio pero positivo en un subgrupo es de fiabilidad bastante mermada, porque el fármaco no ha demostrado siquiera ser eficaz en las condiciones prefijadas para ello
PROPUESTA RESUMEN DEL CRITERIOASOCIACIÓN ESTADÍSTICA
Respuestas posibles Fiabilidad análisis (*)3 resultados “probables” Probable
2 resultados probables y 1 “posible” PosibleSólo 1 resultado “dudoso” y ninguno “nulo” Dudosa
2 ó 3 resultados dudosos o 1 “nulo” Nula
(*) El resultado de este resumen del criterio de asociación estadística se valora al final junto con los de los otros dos criterios
CONSISTENCIA ENTRE ESTUDIOSPregunta Respuesta Fiabilidad análisis¿Existe consistencia con otros resultados obtenidos?
Sí, todos los estudios muestran la interacción Probable
No, pero existen resultados compatibles PosibleNo existen otro estudios con los que compararSin inconsistencia interna
Dudosa
Existe inconsistencia externa o interna Nula
CONSISTENCIA ENTRE ESTUDIOSOrientaciones
Estudios similares deberían llegar a las mismas conclusiones Estudios “similares”: aquellos con la misma intervención y control En su ausencia, se pueden analizar estudios con fármacos similares y/o patologías similares
Existe consistencia cuando existe interacción en todos los estudios Si no hay interacción (probable o posible) en todos, decimos que los resultados son compatibles cuando al menos en un estudio existe interacción significativa y, al menos, existe interacción dudosa en el resto En caso contrario, la consistencia es nula
Si no hay estudios donde comparar, se puede recurrir a comprobar si existe inconsistencia interna con los resultados de otras variables relevantes relacionadas con la que se evalúa.
PLAUSIBILIDAD BIOLÓGICAPregunta Respuesta Fiabilidad análisis¿Existe una hipótesis plausible que pueda justificar la relación causa efecto?
Sí, basada en literatura previa Probable
Es posible enunciar una hipótesis razonable pero carece de base en literatura previa PosibleHipótesis dudosa y sin base en literatura previa Dudosa
Sin hipótesis plausible Nula
Orientación: Las diferencias deben ser explicables mediante una hipótesis aceptable, acorde al conocimiento actual de la enfermedad. Las bases de la misma deben estar presentes en la literatura. Que se haya considerado ese factor en la estratificación muestra que se preveía su posible influencia en el resultado
EJEMPLOS
BCIRG 001
Docetaxel 75 mg/m2Doxorubicin 50 mg/m2Cyclophosphamide 500 mg/m2
5-FU 500 mg/m2Doxorubicin 50 mg/m2Cyclophosphamide 500 mg/m2
FAC
TACDexamethasone premedication, 8 mg bid, 3 days Prophylactic Cipro 500 mg bid, day 5-14
Every 3 weeks x 6 cycles
Stratification:• Nodes: 1-3 4+• CenterTamoxifen for 5 years was recommended for all patients with HR+tumors, beginning at the end of adyuvant chemotherapy
BCIRG 001The primary analysis was conducted according to the intention-to-treat principle, and a stratified log-rank test was used to compare TAC with FAC with respect to both disease-free and overall survival. The number of positive nodes (one to three or four or more) was the only stratification variable in the analysis. Analyses of subgroups according to hormone-receptor status and HER2/neu status were prospectively defined but were not powered.
DFS by Nodes%
Alive
and D
isease
-Free
0 6 12 18 24 30 36 42 48 54 60 66 0 6 12 18 24 30 36 42 48 54 60 66
100
90
80
70
60
50
FAC
TAC
100
90
80
70
60
50FAC
TACHR = 0.83 (0.63-1.08)
p = 0.17HR = 0.61 (0.46-0.82)
p = 0.0009
1-3 Nodes 4+ Nodes
Time to First EventTime to First EventInteraction test p = 0.15 % Solapamiento IC 95% = 42%
El análisis de subgrupos en función del nº de N+ estaba previstoSin embargo, al ser la inclusiónde pacientes competitiva, entraron un mayor número de pacientes con 1-3 ganglios, de tal forma que no se alcanzó el número de eventos necesario en el subgrupo de 4 ó + ganglios para sacar conclusiones definitivasFDA (Ago 2004) y EMEA (Dic 2004)Autorizaron el uso de docetaxel comotratamiento adyuvante de pacientes con cáncer de mama y ganglios positivos en combinación con la adriamicina y la ciclofosfamida
BCIRG 001
Sin distinción N1-3 / N4+
El ensayo sólo tiene potencia estadística para detectar diferencias en la población entera(estadios II y III)A pesar de ello tanto la FDA como la EMEA autorizaron el uso adyu-vante del oxaliplatino únicamenteen el estadio III (C de Dukes) enbase al análisis de subgrupos
André T et al. N Engl J Med 2004; 350:2343-51André T et al. J Clin Oncol 2009
André T et al. N Engl J Med 2004; 350:2343-51André T et al. J Clin Oncol 2009
CALCULADORAMOSAIC SLP Estadio II vs Estadio III
CALCULADORAMOSAIC SG Estadio II vs Estadio III
Primary end point: DRR (durable response rate; objective response lasting continuosly ≥ 6 months)Key Secondary end points: OS and ORR
Andtbacka R. et al. J Clin Oncol. 2015; 33: 2780-8
Stage IIIB, IIIC or IVM1a Stage IVM1b or IVM1c
No se presenta la p de interacción
Talimogen LaherparepvecEstadio IIIB, IIIC, IVM1a vs IVM1b, IVM1c
First-line therapy Second-line or greater therapy
No se presenta a p de interacción
Talimogen LaherparepvecFirst-line vs second-line or greater therapy
FICHA TÉCNICA EMA/AEMPS
Las diferencias obtenidas en estos subgrupos no resultaron ser totalmente concluyentes debido al hecho de que los pacientes que recibieron tratamiento en primera línea fueron mayoritariamente pacientes en estadios de enfermedad más tempranos (33 % fueron pacientes en estadío IVM1b-c). Un 52 % de los pacientes que recibieron tratamiento en líneas posteriores fueron de estadío IVM1b-c y por lo tanto la línea de tratamiento más que un predictor de actividad podía ser un artefacto
Cuando se detecta simultáneamente más de un efecto de subgrupo estadísticamente significativo en un estudio, es necesario demostrar que estos efectos son independientes entre sí → Regresión COX (multivariante)
Bang YJ et al. Lancet 2010;376:687-97
PREGUNTAS• -¿Se han realizado análisis de subgrupos?
• Sí• ¿Se especifica los que estaban pre-planeados y los que no?
• - Sí, 15 pre-planeados y 1 post-hoc. Figuras 3 y 4. Pág. 691 y 693• ¿Sus resultados se tratan como confirmatorios o exploratorios?
• Como exploratorios
ToGA Trial “A pre-planned exploratory analysis according to HER2 status suggested that OS was longer in patients with high expression of HER-2 protein than in patients with low expression” “To further explore this finding, a post-hoc analysis divided patients into two large subgroups; with either high (IHC 2+ and FISH + or IHC 3+) or low (IHC 0 and FISH + or IHC 1 and FISH +) levels of HER2 protein in their tumors”
Pág. 692 y 693
HER2-positivity rate in gastric cancer
OS by HER2 status
Pág. 693
Comentarios• Necesitamos saber el p-valor de la interacción• “There was evidence of a significant interaction test (p = 0.036) between treatment and the two HER2 subgroups (high vs low HER2 expression)” Pág. 693• % Solapamiento IC 95% = 14%• En cualquier caso, se trata de un análisis exploratorio, que no permite excluir o confirmar un determinado efecto• Análisis “post-hoc” (no planificado previamente)
TRASTUZUMAB (ToGA)IHC 2+/FISH+ or IHC 3+ vs IHC 0 or 1+/FISH+
….sin embargoFicha Técnica Trastuzumab (Herceptin®)
PROPUESTAVALORACIÓN GLOBAL
APLICABILIDADANÁLISIS DE SUBGRUPOS
REQUIERE DE UNA VALIDACIÓN PREVIA
Valoración global aplicabilidad de análisis de subgrupos En la práctica, es necesario asignar una puntuación para poder ponderar y combinar las 3 áreas: asociación estadística, consistencia y plausibilidad La puntuación es orientativa y debería ser consensuada y validada antes de ser utilizada para el posicionamiento terapéutico Puede ser una herramienta de ayuda para los evaluadores
Valoración global de la aplicabilidad del análisis de subgrupos (propuesta)Ítem Valoración:
Probable, Posible, Dudosa o NulaPuntuaciónProbable: 3 puntos. Posible: 2 puntos. Dudosa: 0 puntos. Nula: -3 puntos
ASOCIACION ESTADISTICA (*)CONSISTENCIA ENTRE ESTUDIOS (*)PLAUSIBILIDAD BIOLOGICATotal: 7-9 probable, 5-6 posible, 3-4 dudosa, < 3 nula
(*) Si la asociación estadística o la consistencia son nulas, la aplicabilidad sería nula
Recomendaciones para aplicar un análisis de subgrupos en la práctica clínicaAplicabilidad Recomendación
Probable Tener en cuenta los resultados del análisis de subgrupos en la práctica clínica en tanto no se disponga de un EC diseñado específicamente para confirmar o descartar la diferencia de efectoPosible Los resultados del análisis de subgrupos podrían ser aplicables a la práctica clínica con prudencia, si la situación lo aconseja. Por ejemplo, si la intervención es más tóxica, difícil de utilizar o mucho más caraDudoso En general, no debería tenerse en cuenta para la práctica clínica. Podría sopesarse su aplicación sólo en el caso de que la intervención sea muy tóxica, difícil de utilizar o suponga un coste inasumible con respecto a otras alternativas, que obliguen a restringir su uso a situaciones en las que el efecto beneficioso no presenta dudasNula El análisis de subgrupos no muestra diferencias fiables que puedan ser consideradas en la práctica clínica. El resultado atribuible a cada subgrupo no es otro que el global del estudio
CONCLUSIONES (I) Los análisis de subgrupos deben ser exploratorios y sólo excepcionalmente deberían afectar a las conclusiones del ensayo La credibilidad de los análisis de subgrupos es mayor cuando se limitan a la variable principal y a unos pocos subgrupos preestablecidos en función de una hipótesis con plausibilidad biológica
CONCLUSIONES (II) Solamente si las pruebas estadísticas de interacción apoyan el efecto de subgrupos pueden
verse afectadas las conclusiones
Aún así, el énfasis dependerá de la plausibilidad biológica, el número de análisis, sus especificación previa, y la fuerza estadística de la evidencia
CONCLUSIONES (III) Iniciativas como la del grupo de trabajo GENESIS-ANALISIS ECONÓMICO-ANÁLISIS DE SUBGRUPOS nos pueden ayudar a unificar criterios Disponer de una herramienta de trabajo común, suficientemente validada y consensuada, puede facilitar la incorporación del análisis de subgrupos en la evaluación de fármacos y su posterior posicionamiento terapéutico
MUCHAS GRACIAS