técnicas estadísticas paramétricas univariantes: anova y su familia fernando tuya, investigador...

24
Técnicas estadísticas paramétricas univariantes: ANOVA y su familia Fernando Tuya, Investigador I3 Universidad de Las Palmas de G.C. www.fernandotuya.org

Upload: dimas-ines

Post on 27-Jan-2016

220 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Técnicas estadísticas paramétricas univariantes: ANOVA y su familia Fernando Tuya, Investigador I3 Universidad de Las Palmas de G.C

Técnicas estadísticas paramétricas univariantes: ANOVA y su familia

Fernando Tuya, Investigador I3Universidad de Las Palmas de G.C.

www.fernandotuya.org

Page 2: Técnicas estadísticas paramétricas univariantes: ANOVA y su familia Fernando Tuya, Investigador I3 Universidad de Las Palmas de G.C

2

ANOVAConocer el efecto de un factor categórico sobre una variable continua ¿diferencias entre los niveles de distintas variables categóricas causan diferencias sign. sobre la variable respuesta/dependiente?

Ej. 1 factor con 4 niveles y medimos respuesta Y en n réplicas para cada nivel del factor; ¿Son las medias diferentes entre los 4 tratamientos?

Y

X (categorías/grupos/tratamientos)

µ1

µ2

µ3µ4

Page 3: Técnicas estadísticas paramétricas univariantes: ANOVA y su familia Fernando Tuya, Investigador I3 Universidad de Las Palmas de G.C

3

ANOVA: comparamos medias entre categorías /grupos/tratamientos

Ho: µ1 = µ2 = µiH1: µ1 = µ2 ≠ µi (al menos una diferencia entre grupos)

Ej: Hay diferencias en el rendimiento (variable continua, dependiente) entre 4 grupos sometidos a

distintos niveles de entrenamiento (factor o variable categórica)

T-student (caso más sencillo): comparamos medias entre 2 categorías /grupos

Ho: µ1 = µ2H1: µ1 ≠ µ2

Page 4: Técnicas estadísticas paramétricas univariantes: ANOVA y su familia Fernando Tuya, Investigador I3 Universidad de Las Palmas de G.C

4

IDEA GENERAL: ANOVA parte la varianza ( = variabilidad) total = toda la variabilidad debida a los factores que contrastamos y un término residual (“cajón desastre”) que incluye todos aquellos factores, variables q influyen a la variabilidad natural dentro de los grupos, pero q decidí no contrastar (“ruido”)

Var total = Var entre grupos + Var dentro de grupos (residual)

Idea conceptual: comparar ambas fuentes de variabilidad Si Var entre grupos > Var residual – diferencias entre grupos son importantes; evidencia para rechazar Ho; es decir, mi factore(s) son importantes

Si Var entre grupos < Var residual – diferencias entre grupos NO son importantes; evidencia para no rechazar Ho, mi factore(s) NO son importantes

Page 5: Técnicas estadísticas paramétricas univariantes: ANOVA y su familia Fernando Tuya, Investigador I3 Universidad de Las Palmas de G.C

5

Var entre grupos/Var residual

0-1 si Var entre grupos < Var residual

> 1 si Var entre grupos > Var residual

Idea para construir el estadístico¡¡¡ (F-ratios = cociente: variabilidad entre grupos/variabilidad dentro de grupos)

Page 6: Técnicas estadísticas paramétricas univariantes: ANOVA y su familia Fernando Tuya, Investigador I3 Universidad de Las Palmas de G.C

6

Lenguaje del ANOVA: Funcionamiento del ANOVA-I

Como hemos visto: ANOVA estima 2 fuentes de variabilidad y compara sus tamaños

Fuente de variación Suma de cuadrados

Grados libertad

Cuadrados medios

F-ratio P-valor

Entre grupos = niveles SS g a-1 SS g/df

Dentro de grupos (Residual)

SS res n-1 SS res/df

Total SS tot an -1

F-ratio = Var entre grupos/Var dentro grupos

Page 7: Técnicas estadísticas paramétricas univariantes: ANOVA y su familia Fernando Tuya, Investigador I3 Universidad de Las Palmas de G.C

CMa

F = -----------CMw

Fuentes de variación Suma de cuadrados (SS)

Entre muestras(entre grupos)

Dentro muestras(dentro grupos)

Total

å å (Xij- Xi)2

å å ( Xi-X)2

å å (Xij- X)2

g.l. (d.f.)

k-1

k (n -1)

(k n ) -1

Cuadrados medios (MS)

SCa / k-1

SCw / k (n-1)

SCt /( kn)-1

El nombre de ANOVA procede de la utilización de la comparación de las varianzas para determinar si aceptamos la hipótesis de igualdad de medias: medias = supone = varianzas y si las medias son ≠, la varianza entre los tratamientos es > que el error (dentro de muestras).

Lenguaje del ANOVA: Funcionamiento del ANOVA-I

Page 8: Técnicas estadísticas paramétricas univariantes: ANOVA y su familia Fernando Tuya, Investigador I3 Universidad de Las Palmas de G.C

8

Vamos a complicar la cosa….más de un factor

Precisamente, es lo q hace de ANOVA una técnica muy empleada

Page 9: Técnicas estadísticas paramétricas univariantes: ANOVA y su familia Fernando Tuya, Investigador I3 Universidad de Las Palmas de G.C

9

Efectos principales (efecto independiente y aditivo de cada factor; promediando el efecto del otro u otros factores)

Interacción (efecto interactivo entre factores; es decir, si las diferencias que A causa sobre Y varían en función de los niveles de B)

Precisamos de un estadístico para cada término para testar (contrastar) su significancia

ANOVA-2: modelo lineal de fuentes de variación

Yijk = µ + Ai + Bj + ABij + Residual k(ij)

Page 10: Técnicas estadísticas paramétricas univariantes: ANOVA y su familia Fernando Tuya, Investigador I3 Universidad de Las Palmas de G.C

10

Variación total

ANOVA-2 parte la variabilidad

Variación debida al factor A

Variación residualVariación debida a la interacción A x B

• SSE

• SSFA +

SSAB +

SST =

Variación debida al factor B

SSFB +

Page 11: Técnicas estadísticas paramétricas univariantes: ANOVA y su familia Fernando Tuya, Investigador I3 Universidad de Las Palmas de G.C

11

Yijkl = µ + Ai + Bj + Ck + ABij + ACik + BCjk + ABCijk + Residual l(kij)

ANOVA-3 y así sucesivamente…

En teoría no hay limitación, en la práctica la cosa se complica: recomiendo análisis fáciles al principio, ya tendrás tiempo de complicarlo¡

Page 12: Técnicas estadísticas paramétricas univariantes: ANOVA y su familia Fernando Tuya, Investigador I3 Universidad de Las Palmas de G.C

12

La significancia de todo término F ratio =MS numerador/MS denominador; si F está cercano a 0-1 = no hay efecto significativo del factor; si F=↑ hay efecto.

df SS MS F-ratio P

A a-1 Ssa Ssa/dfa MS A/MS denominador

B b-1 SSb Ssb/dfb MS B/MS denominador

A x B (a-1)(b-1) Ssab Ssab/dfab MS AB/MS denominador

Residual ab(n-1) Ssred Ssres/dfresTotal abn-1

ANOVA-2: “su lenguaje”

Page 13: Técnicas estadísticas paramétricas univariantes: ANOVA y su familia Fernando Tuya, Investigador I3 Universidad de Las Palmas de G.C

13

La gran ventaja de ANOVA es precisamente el q podamos contrastar el efecto de las interacciones en diseños multifactoriales (incluyen muchos factores); además de los efectos principales (efectos aditivos): es decir, si el efecto de un factor depende del otro¡…¿Por qué son tan importantes las interacciones?

Interacciones: sinergias, antagonismo vs. efectos aditivos. Es decir, las interacciones cuantifican si los tratamientos actúan aditivamente, sinergísticamente o antagonísticamente.

…se lo muestro con un ej.

¿Influye el recibir fisioterapia en el número de lesiones de corredores? ¿Depende del nivel de intensidad, p.e. élite, sub-élite y amateurs?

¿Y todo este rollo de las interacciones?

Page 14: Técnicas estadísticas paramétricas univariantes: ANOVA y su familia Fernando Tuya, Investigador I3 Universidad de Las Palmas de G.C

14

Tests a posteriori

Test de todos los posibles pares de medias: SNK, Tukey, etc.–”cada maestrillo su librillo” (nosotros ya veremos los nuestros en las prácticas)

¿Pq? - ANOVA te dice q hay diferencias pero no entre quién (e.g. entre qué niveles)

Student-Newman-Keuls (SNK)extensión secuencial del t-test

Page 15: Técnicas estadísticas paramétricas univariantes: ANOVA y su familia Fernando Tuya, Investigador I3 Universidad de Las Palmas de G.C

Incrementar la probabilidad de cometer error de Tipo I

Ho: µ1 = µ2 = µ3

Ho: µ1 = µ2µ1 = µ3µ2 = µ3

a = 0.05

a = 0.05

a = 0.05

a = 0.05

a total = 0.15

Tests a posteriori: “problemilla”

“Inflamos” error Tipo I

Solución: aunque podemos aplicar ajuste (corrección de Bonferroni), una decisión salomónica es reducir α de 0.05 a 0.01

Page 16: Técnicas estadísticas paramétricas univariantes: ANOVA y su familia Fernando Tuya, Investigador I3 Universidad de Las Palmas de G.C

16

Asunciones del ANOVA: test paramétricos

Homogeneidad de varianzas (entre niveles/tratamientos). Hay batería de Tests: Cochran’s, Levene’s . Si no hay: ↑ error tipo I

Peligro¡¡

Page 17: Técnicas estadísticas paramétricas univariantes: ANOVA y su familia Fernando Tuya, Investigador I3 Universidad de Las Palmas de G.C

17

Asunciones del ANOVA

Normalidad (recuerda si n> 30- Teorema Central del Límite - no problema. Realmente, es la asunción menos estricta: ANOVA (diseños balanceados) es robusta a desviaciones de la normalidad

· Independencia Si no hay independencia: muestras son muy similares; error residual pequeño y consecuentemente ↑ error tipo I. En el planteamiento del experimento está la solución: problema biológico no estadístico

Page 18: Técnicas estadísticas paramétricas univariantes: ANOVA y su familia Fernando Tuya, Investigador I3 Universidad de Las Palmas de G.C

18

¿Qué hago si se violan las asunciones del ANOVA

(2) Trasforma datos: raíz, log, doble raíz, arc-sen

(3) Si la trasformación no funciona, pero diseño es balanceado y n> 30 – corre ANOVA y aumenta el nivel de confianza. Juega con el nivel de significación (α); de 0.05 a 0.01; aumentamos nuestra confianza de un 95 a un 99% y así reduzco la P(error tipo I)

(4) Si la trasformación no funciona, pero el diseño es pequeño – alternativa no paramétrica (e.g. K-W, Wilcoxon) –los vemos en Rcom.

(1) “outliers” como causa de la violación de las asunciones; si datos siguen distribución bimodal puedes dividir los datos en 2 niveles

Page 19: Técnicas estadísticas paramétricas univariantes: ANOVA y su familia Fernando Tuya, Investigador I3 Universidad de Las Palmas de G.C

Transformación de datos

Raíz cuadrada

•Poblaciones que siguen una distribución de Poisson: medias y varianzas son iguales

Ö X + 1

Page 20: Técnicas estadísticas paramétricas univariantes: ANOVA y su familia Fernando Tuya, Investigador I3 Universidad de Las Palmas de G.C

Logarítmo

•Muestreos con valores muy altos: medias mayores y varianza mucho mayores (distribución log-normal)

•Medidas de tasas, concentraciones, relaciones,...

•Independiente del tipo de logaritmo usado

•Sumar una constante (1) para aplicar logaritmos por los valores que son 0

log (X+1)Transformación de datos

Page 21: Técnicas estadísticas paramétricas univariantes: ANOVA y su familia Fernando Tuya, Investigador I3 Universidad de Las Palmas de G.C

Arcoseno

•Porcentajes y proporciones (distribución binomial)

•Ej. Porcentaje de cobertura algal

sen-1 Ö X

Transformación de datos

Page 22: Técnicas estadísticas paramétricas univariantes: ANOVA y su familia Fernando Tuya, Investigador I3 Universidad de Las Palmas de G.C

22

Corolario

Procura diseños con n alto y distribución balanceada de muestras

Toma extra muestras

Fuerza siempre que puedas ANOVA frente técnicas no paramétricas: al usar rangos pierdo información. En tal caso, reporta tus conclusiones con la precaución que requiere el análisis

Page 23: Técnicas estadísticas paramétricas univariantes: ANOVA y su familia Fernando Tuya, Investigador I3 Universidad de Las Palmas de G.C

23

ANCOVA

Conceptualmente, mismo fundamentos q ANOVA, pero nos permite incluir una o + covariables, cuyo efecto quiero eliminar para determinar exclusivamente el efecto de ciertos factores sobre dicha variable respuesta.

Forma de eliminar “ruido”, pq eliminamos la varianza debido a las covariables; es decir, a la varianza total le quitamos la varianza debida a la covariable(s); esto nos permite aumentar el poder del análisis

Covariables: variables continuas que influyen en la variable respuesta, pero cuyo efecto no es de interés

Page 24: Técnicas estadísticas paramétricas univariantes: ANOVA y su familia Fernando Tuya, Investigador I3 Universidad de Las Palmas de G.C

24

Ejemplo de ANCOVA

¿Influye el recibir fisioterapia en el número de lesiones de corredores? ¿Depende del nivel de intensidad, p.e. élite, sub-élite y amateurs? ANOVA-2

Pero queremos quitar el posible efecto del peso de los individuos. Establezco el peso como covariable en el análisis.