análisis de covarianza

ANÁLISIS DE COVARIANZA

Joane M. De Jesús Dátiz

Estadística Avanzada

Profesor Balbino García

20 de mayo de 2010

ANÁLISIS DE COVARIANZA ANCOVA es apropiada para

experimentos y estudios de observación que incluyen uno o mas portadores numéricos (covariables).

Las covariables corresponden a influencias molestosas que hacen a las unidades muestrales o experimentales diferentes.Por lo tanto se dificulta la comparación de

tratamientos o poblaciones distintas.

POR QUE Y CUANDO USAR

ANCOVA

VENTAJAS DE ANCOVA Incluyendo covariables en el modelo:

Se puede reducir tendencia, ajustando por diferencias entre grupos tratados

Se puede reducir el residuo de la suma de los cuadrados, ajustando y removiendo la variabilidad sistemática.

PLAZA SÉSAMO:

USO RAZONABLE DE

ANCOVA

DISEÑO Supongamos que queremos diseñar un

estudio para saber si ver Plaza Sésamo durante un año incrementará el entendimiento numérico de niñas de cuatro años.

Es natural administrar una pre-prueba antes de realizar el estudio y una post-prueba un año después.

DATOSControl “Tratados”

Pre-prueba

Post-prueba

Pre-prueba

Post-prueba

4 0 0 2

8 8 2 12

10 8 6 4

10 8 8 14

Promedio 8 6 4 8

POSIBILIDADES Una de las posibilidades podría ser utilizar las

puntuaciones de la pre-prueba para definir los pares y realizar el estudio como un experimento de bloques completos al azar.

Otro enfoque sería utilizar el cambio en puntuaciones, post-pre, como la respuesta.

El análisis de covarianza es similar a este segundo enfoque, pero en vez de decidir de antemano como ajustar las puntuaciones de la pre-prueba, ANCOVA utiliza la relación observada entre las puntuaciones de la pre y la post-prueba para escoger el ajuste.

ESTRUCTURA BF DEL ESTUDIO

Los sujetos se dividieron en dos grupos: Tratados

Los que vieron Plaza Sésamo durante un año Control

Los que no vieron el programa por el periodo de tiempo estipulado

La respuesta son las puntuaciones de la post-prueba.

Cada sujeto fue sometido a una pre y post prueba, donde la post-prueba es la covariable.

DATOS IMPORTANTES SOBRE LAS PUNTUACIONES Las puntuaciones de la post-prueba

(respuesta) muestran mucha variabilidad.

En promedio, los dos grupos tienen valores bastante diferentes para la pre-prueba. (covariable)

Un análisis de covarianza nos puede ayudar a lidiar con ambos problemas.

ANÁLISIS

Ajustando para las puntuaciones de la pre-prueba se incrementa la diferencia en el promedio de las respuestas de 2 a 6, y se reduce el residuo de la suma de los cuadrados de 152 a 88.

Aquí ANCOVA tiene dos ventajas sobre ANOVA:Se ajusta para la tendencia de promedios

desiguales para las dos condicionesReduce significativamente el residuo de la

suma de los cuadrados.

MODELOS DE ANCOVA QUE PUEDEN SER NO APROPIADOS Los modelos de ANCOVA pueden ser no

apropiados si:

La relación entre la respuesta y la covariable no es lineal.

Si la relación es lineal, pero las líneas ajustadas al grupo de puntos tienen pendientes diferentes

Si el ajuste de las diferencias de los grupos viola el sentido común

NIVEL DE ACTIVIDAD

MENTAL: UN CANDIDATO POBRE PARA

ANCOVA

En ocasiones la forma del diagrama de dispersión (“scatterplot”) excluye ANCOVA.A pesar de que el diseño de tu estudio

sugiera que este tipo de análisis es viable.

El experimento de actividad mental sugiere esto.

EXPERIMENTO DE ACTIVIDAD MENTAL

24 temas proporcionan bloques de horarios en un diseño RCB para comparar los efectos del placebo, morfina e inyecciones de heroína en índices de actividad mental.

Los índices tomados dos horas después de las inyecciones nos sirven de respuesta y los tomados justo antes de la inyección como la covariable.

DIAGRAMAS DE DISPERSION PARA LOS DATOS DE LA

ACTIVIDAD MENTAL

ANÁLISIS DE LAS GRAFICAS

Notemos que aunque la gráfica del placebo sugiere un globo ovalado, las gáaficas para la morfina y la heroína no tienen esta forma. Esto debido a que muchos de los puntos de ambas

tienen un resultado después=0.

Si ignoramos la forma de las gráficas y ajustamos líneas de todos modos, las líneas de morfina y especialmente la de la heroína son mucho menos empinadas que la línea del placebo.

Este conjunto de datos no es un buen candidato para un análisis de covarianza.

COMPARACIÓN En el ejemplo de Plaza Sésamo, se

comparaban dos grupos.De acuerdo con las puntuaciones de la pre-

prueba los grupos comenzaron desiguales. Uno tenia una puntuación promedio que era el

doble de la del grupo anterior.Utilizando el análisis de covarianza, se

ajustó el promedio de las respuestas para lograr la comparación que tendríamos si las dos grupos hubiesen tenido la misma puntuación promedio en la pre-prueba.

En el ejemplo de actividad mental:El estudio fue planificado para ser analizado

mediante el análisis de covarianza.Sin embargo, las formas de los diagramas

de dispersión nos demostraron que el modelo ANCOVA no se ajustaría bien y que por lo tanto no deberíamos utilizar este análisis.

Existen otras situaciones en las que a pesar de que el modelo de líneas paralelas se ajusta bien, el ajuste de covarianza violaría el sentido común.

ALTURA Y TAMAÑO DE

ZAPATOS: UN AJUSTE SIN SENTIDO DE COVARIANZA

EXPERIMENTO Supongamos que queremos comparar la

altura de estudiantes de primer grado con estudiantes de décimo grado, utilizando el tamaño de zapatos como la covariable.

Los dos grupos comienzan don valores diferentes para la covariable, y por lo tanto utilizamos ANCOVA para ajustar las diferencias en una altura promedio. Para calcular la diferencia tenemos que

encontrar si los dos grupos comenzaron con promedios iguales para la covariable.

Por lógica, sabemos que los estudiantes de primer grado son bajos de estatura y tienen pies pequeños, mientras que los estudiantes de décimo grado son más altos y tienen pies grandes.

Para obtener una manera más significativa para comparar las alturas de los dos grupos, “ajustamos” el tamaño de zapatos, esto es, calculamos cual sería el promedio de las alturas si en promedio los estudiantes de primer y décimo grado tuvieran el mismo tamaño de zapatos.

Esto resulta en que los estudiantes de primer y décimo grado tienen la misma altura.

En principio, podemos realizar este tipo de análisis pero es mucho más sensato pensar en los estudiantes de primer y decimo grado como dos poblaciones diferentes.O sea, no utilizar un método que intente

hacer ambos grupos equivalentes.

ANCOVA O BLOQUEO?

Si el valor de la covariable es conocido antes de que se asignen tratamientos, utilizar la covariable para definir los bloques es mejor que ANCOVA.

Si las condiciones que queremos comparar son experimentales, y es posible organizar las unidades en bloques con valores similares de la covariable en cada uno, entonces el bloqueo es una estrategia ordinariamente mejor que ANCOVA.

Esto sucede porque ANCOVA es más restrictiva pues requiere que la relación entre la respuesta y la covariable sea lineal, con una pendiente sencilla para todos los grupos tratados.

El bloqueo trabaja aun si las pendientes son desiguales, o sea la relación no es lineal.De todas formas, el bloqueo no debe ser

una opción.

EJEMPLO Plaza Sésamo

Era posible usar la covariable para organizar los datos de las 8 niñas en 4 bloques de 2 niñas cada uno. Para esto se parean las puntuaciones de la pre-

prueba de la siguiente forma:0 y 2; 4 y 6; 8 y 8; 10 y 10

Si fuera posible asignar las condiciones (vio o no vio la serie), entonces el modelo de bloque sería mejor que ANCOVA. Porque no solo se controlaría la influencia de las

molestias, sino que estaremos seguros de que comparamos niños similares.

El diseño ANCOVA en el ejemplo requiere la comparación de niñas diferentes.

En la realidad, no podemos forzar a las niñas en el grupo en tratamiento a ver la serie, de la misma forma que no podemos prevenir que los componentes del grupo control vean el programa.

En este ejemplo la condición de interés es observada, por lo que el bloqueo no es una opción.

Es por esto, que como en la mayoría de los experimentos en los que se comparan los resultados de la condición, ANCOVA es la mejor opción.

Actividad de nivel mental

Dado que el tratamiento eran inyecciones de drogas, pues entonces estamos haciendo un experimento.

Las unidades experimentales son intervalos de tiempo, un bloque por tema, por lo que no es practico usar la covariable para pre-organizar estas unidades en bloques de acuerdo con la pre-prueba de actividad mental.

En este ejemplo, ANCOVA parece ser la mejor estrategia, esto hasta que los patrones en los datos hacen de este análisis no viable.

COMO AJUSTAR EL MODELO

ANCOVA: REGLAS DE

COMPUTACIÓN

PASOS Ajustar el modelo ANCOVA requiere tres

pasos:Un conjunto para ajustar el modeloUn segundo conjunto para ajustar los

efectos del tratamientoUn tercer conjunto para probar la hipótesis

de que los efectos del tratamiento son cero.

AJUSTANDO EL MODELO DE LA LÍNEA PARALELA

Nuestra meta es ajustar líneas paralelas, una para cada grupo en tratamiento y para el diagrama de dispersión de respuesta versus la covariable.

Hacer esto requiere dos pasos, los cuales son:Calcular el punto promedio para cada grupoEncontrar la pendiente común

ENCONTRANDO EL PUNTO DE PROMEDIOS (ANOVA)

Comenzamos utilizando ANOVA para descomponer la respuesta y luego la covariable utilizando el modelo BF.

Este paso nos brinda el promedio de tratamiento para la respuesta y la covariable para cada grupo en tratamiento.Gr Avg + Tr Eff

ENCONTRANDO LA PENDIENTE COMÚN (REGRESIÓN)

Deseamos que las pendientes para ambas líneas ajustadas sean iguales, el paso anterior ya ha ajustado los puntos anclas, la pendiente que deseamos es la misma que obtendríamos del diagrama de dispersión de los conjuntos de los residuos del paso de ANOVA, ajustando una sola línea a todos los puntos.

En otras palabras, los residuos de la respuesta sirven como el “cambio en y” y los residuos de la covariable como el “cambio en x”.

RESUMEN

pendiente

= Suma de

(respuesta

residual)

(covariable

residual)

= ∑ y’ x’ donde y’= respuesta residual,

Suma de

(covariable

residual)

(covariable

residual)

∑ x’ x’ y x’= covariable residual

Ya que se han dibujado las líneas paralelas:El paso ANOVA nos da un punto ancla para

cada grupoEl paso de la regresión nos da la pendiente

para cada línea.

AJUSTANDO EL EFECTO DEL TRATAMIENTO

Las descomposiciones en los de ANOVA y de regresión nos muestra la necesidad que tenemos de graficar dos líneas paralelas del modelo ajustado de ANCOVA.

Sin embargo numéricamente hay más de un paso de ajuste del modelo:Ajuste de los efectos del tratamiento

Los efectos del tratamiento calculados en el paso de ANOVA se basan simplemente en los promedios y no toman en consideración la covariable.

El ajuste que queremos corresponde a escoger un valor x común para todos los grupos, localizando nuevos puntos anclas todos con este mismo valor x y utilizando los valores de y para compararlos grupos tratados.

La covariable de los efectos de tratamiento nos dice cuanto cambio en x es necesario para cada grupo, y multiplicando por la pendiente común obtenemos el cambio correspondiente en y.

PROBANDO LA HIPÓTESIS DE CERO EFECTO EN EL TRATAMIENTO Desafortunadamente, la lógica simple

de comparación de hipótesis que funciona en diseños balanceados no funciona con ANCOVA.

Esto sucede porque los valores de la covariable no están balanceados con respecto al resto del diseño.

Para probar que los efectos del tratamiento son cero, ajustamos dos modelos, uno con efectos de tratamiento, uno sin efectos, y comparamos por el residual de la suma de los cuadrados.

El modelo completo, el que tiene efectos del tratamiento, es la línea paralela al modelo anterior.

El modelo nulo, sin efectos de tratamiento, corresponde a una línea de regresión, ajustada a todos los puntos del diagrama de dispersión de la respuesta versus la covariable.

Modelo completoLíneas paralelas, una por cada grupo

Modelo nuloUna línea para todos los grupos juntos

COMPARACIÓN DE AMBOS MODELOS Para comparar los dos modelos, calculamos

el residual de la suma de los cuadrados para cada uno.

Para el modelo completo tenemos SSRES(adj)

para el denominador de la razón-F.

Para el modelo nulo, el residual de la suma de los cuadrados proviene en parte del riesgo de error, pero (a menos que el efecto de tratamiento sea cero) en parte de la diferencia de tratamiento, los cuales no son parte del modelo.

La suma de los cuadrados funciona como Pitágoras.

La razón-F para probar los efectos del tratamiento corresponde a la pendiente.Cambio en x/cambio en y

Si los efectos de tratamiento son grandes, el modelo nulo no se ajusta tan bien como el modelo completo, por lo que tendremos un residual de la suma de los cuadrados mas grande.

CALCULANDO LA RAZÓN-F

RAZON-F AJUSTADA PARA ANCOVA

Fuente Grados de libertad

Suma de los cuadrados

Tratamiento (ajustado)

# tratados-1 SST+E -SSRes(adj)

Residual (ajustado) #observaciones - # tratados - 1

SSRes(adj)

F = MSTr(adj)/MSRes(adj)

PROBAR LA HIPÓTESIS DE CERO EFECTOS

EN EL TRATAMIENTO

TABLA DE ANOVA La siguiente tabla resume la

descomposición utilizando el modelo completo.

Fuente Grados de libertad

Suma de los cuadrados

Promedio principal

1 392

Tratamiento (sin ajustar)

1 8

Covariable 1 64

Residual (ajustado)

5 88

TOTAL 8 552

MODELO NULO Para ajustar el modelo nulo, ajustamos

una líneas a los ocho puntos de los datos.

Podemos verificar que el punto promedio es (7,6), la pendiente es 0.5 y la descomposición es la siguiente:Obs

=

Gr Avg

+

Cov Eff

+

T+E

0 2 7 7 -1 -3 -6 -2

8 12 7 7 1 -2 0 7

8 4 7 7 2 0 -1 -3

8 14 7 7 2 1 -1 6

SS 552 = 392 + 24 + 136

df 8 = 1 + 1 + 6

Modelo completoResidual suma de los cuadrados ajustado =

88Grados de libertad = 5

Modelo nuloSuma de los cuadrados del tratamiento mas

el efecto = 136Grados de libertad = 6

La diferencia de la suma de los cuadrados es 136-88=48.Lo que quiere decir que 48 es la reducción en

la suma de los cuadrados dado el tratamiento y entonces los grados de libertad son 6-1=5

COMPARACIÓN DE ANOVA Y

ANCOVA

AJUSTANDO LA COVARIABLE

Sin ajustar Ajustado para la covariable

Fuente Df SS MS F Df SS MS F

Promedio principal

1 392 1 392

Tratamientos 1 8 8.0 0.32 1 48 48.0 2.73

Covariable - - -

Residual 6 152 25.3 5 88 17.6

TOTAL 8 552

La suma de los cuadrados va de 8 a 48, mientras que el residual de esta suma va de 152 a 88. La razón-F ajustada (2.73) es mas de 8 veces tan grande como la razón-F no ajustada (0.32)

análisis de covarianza

Technology