mic sesión 8b
TRANSCRIPT
MÉTODOS DE INVESTIGACIÓN CUANTITATIVA
Sesión 8b
ANOVA DE UN FACTOR
FÁTIMA PONCE REGALADO 1
2
PUNTOS A TRATAR
Sesión 8b: ANÁLISIS DE VARIANZA (ANOVA)
DE UN FACTOR
Qué es y Cuándo se usa?
Planteamiento de hipótesis
Estadístico F
Ejercicio.
FÁTIMA PONCE REGALADO
3FÁTIMA PONCE REGALADO
INTRODUCCIÓN
Hasta ahora se estudió la teoría general de las pruebas
de hipótesis, analizando el caso en que se seleccionó
una muestra de una población.
Se utilizó la distribución Z (normal estándar) o la
distribución t para determinar si era razonable concluir
que la media poblacional ó la proporción poblacional era
igual a un valor especificado.
Ahora se verá una prueba que compara en forma
simultanea varios promedios para determinar si
provienen de poblaciones iguales (ANOVA).
4FÁTIMA PONCE REGALADO
ANÁLISIS DE VARIANZA (ANOVA)
Prueba estadística empleada cuando se quiere comparar
más de 2 grupos y la variable de estudio es numérica.
Estudia la influencia de un determinado factor o grupo de
factores (variables cualitativas) sobre una variable respuesta
(variable numérica).
Permite hacer inferencias acerca de si nuestras muestras se
tomaron de poblaciones que tienen la misma media.
Por ejemplo, se quisiera comparar: El kilometraje logrado por 4 tipos diferentes de gasolina.
Los ingresos del primer año de los graduados de 5 escuelas de
gestión.
Tiempo para llegar a la universidad debido al tipo de transporte
empleado.
5FÁTIMA PONCE REGALADO
ANOVA DE UN FACTOR ó UNIFACTORIAL
Es el modelo lineal en el que la variable analizada la
hacemos depender de un sólo factor.
De tal manera que las causas de su variabilidad son
englobadas en un componente aleatorio que se denomina
error experimental o muestral.
ANOVA permite decidir si los distintos niveles del factor
establecen diferentes subpoblaciones en la respuesta o,
por el contrario, el comportamiento de ésta es la misma
para todos los niveles y se tiene una única población.
Estudiaremos ANOVA de un factor.
6FÁTIMA PONCE REGALADO
SUPUESTOS DEL ANOVA
Supuestos:
Cada muestra se toma de una población normal.
Muestras son independientes.
C/u de estas poblaciones tiene la misma varianza, 2.
Pero, si los tamaños de muestra son lo suficientemente
grandes, no se requiere el supuesto de normalidad.
Cuando se cumplen estas condiciones, se emplea la
F como la distribución del estadístico de prueba.
7FÁTIMA PONCE REGALADO
Se emplea cuando:
Queremos ver los efectos de una variable cualitativa (ofactor X) sobre una variable cuantitativa Y.
Quisiéramos saber si entre Y e X hay relación o no.
ANOVA DE UN FACTOR
Nota en el curso / cercanía a la pizarra
Tiempo de cura / medicamento utilizado
Productividad del trabajador / turno
Ingreso familiar / categoría de colegio
Monto del préstamo / ubicación de la empresa
Ejemplos:
Y: variable respuesta (numérica)
X: factor (cualitativa)
8FÁTIMA PONCE REGALADO
¿Son independientes Y y X?
¿Hay relación entre Y y X?
¿Hay diferencias significativas en el valor de Y, según que X tome uno u otro valor?
¿Influye X en el valor de Y?
¿Hay diferencias en los valores de Y, entre los distintos grupos determinados por X?
XFactor
Variable independiente
(v. cualitativa)
YVariable respuesta,
Variable dependiente
(v. cuantitativa)
¿QUÉ PREGUNTAS PUEDO HACER SOBRE LA
RELACIÓN DE DOS VARIABLES USANDO ANOVA?
9FÁTIMA PONCE REGALADO
X (factor)
Y (respuesta)
1 2 3
µ1
µ2
µ3
Niveles de factor
Media de Y en cada nivel de factor
GRAFICAMENTE
Y: variable respuesta (numérica)
X: factor (cualitativa) con tres niveles
Muestra agrupadas en los tres niveles
10FÁTIMA PONCE REGALADO
EJEMPLO ANOVA DE UN FACTOR
Imaginen que dicto en un salón a 13 estudiantes y los
separo en 3 grupos bajo el criterio de lejanía de la
pizarra (distancia cercana, mediana, lejana).
El problema que se plantea es analizar si los
distintos niveles del factor bajo estudio
(X=distancia a la pizarra) influyen de igual forma en
la variable respuesta (Y=nota del curso).
Debemos ver si:¿Y, X guardan relación?.
¿Hay diferencias significativas en Y según distintos
valores de X?
11FÁTIMA PONCE REGALADO
X=distancia
Y=nota
1 2 3
µ1
µ2
µ3
µ
Media global
EJEMPLO GRÁFICO
Y: variable respuesta (numérica)
X: factor (cualitativa) con tres niveles
Muestra de 13 observaciones agrupadas en los 3 niveles
12FÁTIMA PONCE REGALADO
H0: µ1= µ2= µ3 (promedios iguales)
H1: No todas las medias son iguales ó Por lo menos
una µi es distinta
Rechazar H0 equivale a
encontrar dependencia
entre X e Y.
¿CUÁL ES LA HIPÓTESIS A EVALUAR?
H0 equivale a decir que:
Y, X son independientes;
Y, X no guardan relación;
X no influye en el valor de Y.
La mejor estrategia para contrastar la H0 es La
Descomposición de la varianza total de los datos.
Si el valor de X no guarda relación con el de Y ¿cómo
deberían ser las Notas promedios µ1, µ2, µ3?: IGUALES.
13FÁTIMA PONCE REGALADO
EJEMPLO Podríamos tener:
PRUEBA ANOVA: Determinar si las medias muestrales
provienen de una sola población o de poblaciones con medias
diferentes.
(a) Medias no son iguales(Hay un efecto del factor en
la nota)
cerca
medio
lejos cerca
medio
lejos
Nota Nota
(b) Medias son iguales (No
hay relación entre el factor
X y la nota Y).
14FÁTIMA PONCE REGALADO
Descomposición de la varianza total (VT) de los datos en 2:
- Variación entre muestras o Inter ó Entre-grupos,
cuantifica la dispersión de las medias de las muestras
con respecto a la media global (SCE).
- Variación dentro de las muestras o Intra-Dentro de los
grupos, cuantifica la dispersión de los valores de cada
muestra con respecto a sus correspondientes medias.
ELEMENTOS DE LA DESCOMPOSICIÓN
DE LA VARIACIÓN
15FÁTIMA PONCE REGALADO
En el ejemplo: El problema es analizar si los distintos
niveles del factor bajo estudio (X= distancia a la pizarra)
influyen de igual forma en la respuesta (Y=nota).
Para resolver el problema se propone descomponer la
varianza de la respuesta (varianza total = SCT) en 2 partes:
La originada por el factor bajo estudio (X) = Variación
Explicada por el factor = (SCE)
La producida por el resto de factores, conocidos o no,
denominado error experimental o en la muestra =
(SCR).
ELEMENTOS DE LA DESCOMPOSICIÓN
DE LA VARIACIÓN
16FÁTIMA PONCE REGALADO
Sean:
Variación Total = SCT: Suma de cuadrados totales.
Variación explicada= SCE: suma de cuadrados explicados por
el factor (por X).
Variación residual= SCR: Suma de cuadrados de los residuos.
Donde:
Residuo o error experimental = σ
Número de niveles o tratamientos del factor = t (en ejemplo=3)
ELEMENTOS DE LA DESCOMPOSICIÓN
DE LA VARIACIÓN
SCT = SCE + SCR
17FÁTIMA PONCE REGALADO
Fuente de
variación
Suma de
cuadrados
Grados de
libertad
Varianzas ó
cuadrados
medios
Cociente
F
Tratamientos
(Entre-
grupos)SCE
t – 1
t = n° de
tratamientos
s2E=SCE/(t-1)
Error
(Dentro del
grupo)
SCR n – t s2R=SCR/(n-t)
Total
(Var. Total) SCT n-1
22ˆ/ˆ RE ss
tntRE Fss ,1
22ˆ/ˆ
TABLA ANOVA
Rechazamos H0 si p-valor de F < nivel
de significancia ().
Efecto del factor
Efecto del error
18FÁTIMA PONCE REGALADO
EJERCICIO
Desde hace algún tiempo las aerolíneas han reducido sus
servicios, como alimentos y bocadillos durante sus vuelos.
Hace poco un grupo de 4 aerolíneas (A,B,C y D) contrató a
una encuestadora para encuestar a sus pasajeros sobre la
adquisición de boletos, abordaje y servicio durante el vuelo,
entre otros, etc.
Hicieron 25 preguntas con diversas respuestas posibles:
excelente (=4), bueno (=3), regular (=2) o deficiente (=1).
Estas respuestas se sumaron, de modo que la calificación
final fue una indicación de la satisfacción con el vuelo. La
calificación mayor posible fue 100.
19FÁTIMA PONCE REGALADO
EJERCICIO
La encuestadora seleccionó y estudio al azar pasajeros de
las 4 aerolíneas:
Hay alguna diferencia en el nivel de satisfacción medio
entre las 4 aerolíneas? Use α = 0.01.
A B C D
94 75 70 68
90 68 73 70
85 77 76 72
80 83 78 65
88 80 74
68 65
65
20FÁTIMA PONCE REGALADO
EJERCICIO
Paso 1: Formule las hipótesis. La hipótesis nula es que
las calificaciones medias son iguales para las 4 aerolíneas.
Paso 2: Seleccione el nivel de significancia: 0.01.
H0: µ1= µ2= µ3 = µ4
H1: No son todas iguales
Paso 3: Determine el estadístico de prueba.
SCE / (t-1) s2E
F = ----------------- = ------SCR / (n-t) s2
R
tntRE Fss ,1
22ˆ/ˆ
21FÁTIMA PONCE REGALADO
EJERCICIO
Paso 4: Formule la regla de decisión. Se necesita el valor
critico.
grados de libertad en el numerador= t – 1 = 4 – 1 = 3
t = numero de tratamientos = 4
grados de libertad en el denominador = n – t = 22-4 =18
n = numero total de observaciones = 22
Paso 5: Tome una decisión.
Es conveniente resumir los cálculos del estadístico F en una
tabla ANOVA.
22FÁTIMA PONCE REGALADO
Ejercicio Empleando Excel
Para emplear ANOVA DE UN FACTOR ir a la opción Datos
y buscar Análisis de datos. Seleccionar Análisis de
varianza de un factor y saldrá esta ventana:
Definir el
alfa
0.01
23FÁTIMA PONCE REGALADO
EJERCICIO
Análisis de varianza de un factor
RESUMEN
Grupos Cuenta Suma Promedio Varianza
A 4 349 87.25 36.916667
B 5 391 78.2 58.7
C 7 510 72.85714286 30.142857
D 6 414 69 13.6
24FÁTIMA PONCE REGALADO
Fest > FcríticoRechazar H0 ó
ANÁLISIS DE VARIANZA
Origen de las
variaciones
Suma de
cuadrados
Grados de
libertad
Promedio de los
cuadrados F Probabilidad
Valor crítico
para F
Entre grupos 890.6837662 3 296.8945887 8.9906433 0.000742769 5.091889521
Dentro de los grupos 594.4071429 18 33.02261905
Total 1485.090909 21
Efecto del factor
Efecto del error
No todas las medias poblacionales son iguales. Las
calificaciones medias no son iguales para las 4 aerolíneas.Hay una diferencia en las medias del tratamiento, no se puede
determinar cuales ni cuantos grupos de tratamientos difieren.
Prob < 0.01 Rechazar H0
25FÁTIMA PONCE REGALADO
ANOVA: ESTADISTICO F
Rechazar H0: Hay
diferencia en las medias
Aceptar H0 : µ1=µ2=µ3=µ4
Valor crítico
F5%(t-1, n-t) =(3,18)= 5.09
=0.01
Festimado= 8.99
prob=0.0007
26FÁTIMA PONCE REGALADO
Levin, R. y Rubin, D. (2010). Cap. 11 (11.4).
McDaniel, Carl y Roger Gates (2010). Cap 8.
BIBLIOGRAFIA