estadÍstica inferencial ii (libro)
Post on 15-Feb-2015
2.642 Views
Preview:
TRANSCRIPT
Estadística Inferencial II Raúl Jiménez González
Instituto Tecnológico de Ensenada
2000
1995
1990
1985
1980
1975
9,5
9,0
8,5
8,0
7,5
7,0
6,5
6,0
Añ
os
Ventas
Estadística Inferencial II
Instituto Tecnológico de Ensenada
Raúl Jiménez González
Agosto de 2012
A mi esposa
Leticia Flores Flores
2 CAPÍTULO 1 Regresión lineal simple y múltiple
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
Contenido CAPÍTULO 1. Regresión lineal simple y múltiple………………………………. 4
1.1. Regresión Lineal simple………………………………………………………. 4
1.1.1. Prueba de hipótesis en la regresión lineal simple…………...……………. 12
1.1.2. Calidad del ajuste en regresión lineal simple……………...……………. .. 19
1.1.3. Estimación y predicción por intervalo en regresión lineal simple……….... 23
1.1.4. Uso de software estadístico………………………………………....……... 25
1.2. Regresión lineal múltiple……………………………………………………… 30
1.2.1. Pruebas de hipótesis en regresión lineal múltiple…………………………. 34
1.2.2. Intervalos de confianza y predicción en regresión múltiple……………...... 37
1.2.3. Uso de un software estadístico………………………………………....….. 40
1.3. Regresión no lineal……………………………………………………………. 43
CAPÍTULO 2. Diseño de experimentos de un factor……………………….…. 45
2.1. Familia de diseños para comparar tratamientos………………………………. 49
2.2. El modelo de efectos fijos……………………………….……………………. 50
2.3. Diseño completamente aleatorio y ANOVA…………………………………. 50
2.4. Comparaciones o pruebas de rangos múltiples……………………………….. 62
2.5. Verificación de los supuestos del Modelo……………………………………. 71
2.6. Uso de un software estadístico………………………………………….…….. 80
CAPÍTULO 3. Diseño de bloques………………………………………………. 84
3.1. Diseños en bloques completos al azar………………………………………… 85
3.2. Diseño en cuadrado latino…………………………………………………….. 95
3.3. Diseño en cuadrado grecolatino…………………………………..………..... 104
3.4. Uso de un software estadístico………………………………………………. 108
CAPÍTULO 4. Conceptos básicos en diseños factoriales………………….…. 112
4.1. Diseños factoriales con dos factores…………………………………………. 114
4.2. Diseños factoriales con tres factores…………………………………………. 123
4.3. Diseño factorial general……………………………………………………… 128
4.4. Modelos de efectos aleatorios………………………………………….…….. 130
4.5. Uso de un software estadístico ………………………………………….…… 134
CAPÍTULO 5. Series de tiempo………………………………………….…….. 138
5.1. Modelo clásico de series de tiempo……………………………………....…... 141
5.2. Análisis de fluctuaciones……………………………………………………... 143
5.3. Análisis de tendencia…………………………………………………………. 146
5.4. Análisis de variaciones cíclicas…………………………………… ……......147
5.5. Medición de variaciones estacionales e irregulares………………………….. 148
5.6. Aplicación de ajustes estacionales………………………………………......... 148
5.7. Pronósticos basados en factores de tendencia y estacionales……………........150
Apéndice. Tablas Estadísticas……………………………………………………..166
Bibliografía……………………………………………………………………....…174
CAPÍTULO 1
Regresión lineal simple y múltiple
1.1. Regresión Lineal simple
1.1.1. Prueba de hipótesis en la regresión lineal simple
1.1.2. Calidad del ajuste en regresión lineal simple
1.1.3. Estimación y predicción por intervalo en regresión lineal simple
1.1.4. Uso de software estadístico
4 CAPÍTULO 1 Regresión lineal simple y múltiple
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
1.1. Regresión Lineal simple
El análisis de regresión se usa con el propósito de predicción. La meta del análisis de
regresión es desarrollar un modelo estadístico que se pueda usar para predecir los
valores de una variable dependiente o de respuesta basados en los valores de al menos
una variable independiente o explicativa. Este capítulo se centra en un modelo de
regresión lineal simple, que usa una variable numérica independiente para predecir
la variable numérica dependiente .
Para establecer una relación cuantitativa entre y es necesario disponer de
cierta información muestral. Esta información consiste de un conjunto de pares de
observaciones de y , donde cada uno de estos pares pertenece a una unidad
elemental particular de la muestra. Por ejemplo, suponga que el rendimiento de un
proceso químico está relacionado con la temperatura de operación, o la experiencia
profesional de los trabajadores y sus respectivos sueldos, las estaturas y pesos de
personas, la producción agraria y la cantidad de fertilizantes utilizados, etc. Si mediante
un modelo matemático es posible describir tal relación, entonces este modelo puede ser
usado para propósitos de predicción, optimización o control
Para ilustrar el concepto, considérense los datos de la tabla 1.1. En esta tabla, se
relaciona la cantidad de fibra (madera) en la pulpa con la resistencia del producto
(papel).
Tabla 1.1 Datos de resistencia de pulpa
Porcentaje de fibra
Resistencia
4 6 8
10 12 14 16 18 20 22 24 26
28 30
134 145 142
149 144 160 156 157 168 166 167 171
174 183
Es claro que la variable de respuesta o variable dependiente es la resistencia, por
eso se denota con . Para tener una idea de la relación que existe entre y , los 14
pares de datos son graficados en un diagrama de dispersión de la figura 1.1. De la
inspección de este diagrama de dispersión se ve que los puntos cercanos siguen una
línea recta, lo que indica que la suposición de linealidad entre las dos variables parece
ser razonable
El diagrama de dispersión es una grafica en la que cada punto trazado representa
un par de valores observados por las variables independiente y dependiente. El valor de
la variable independiente X, se traza en relación con el eje horizontal y el valor de la
variable dependiente Y, en relación con el eje vertical. La naturaleza de la relación entre
dos variables puede tomar muchas formas, que van desde algunas funciones
Regresión lineal simple 5
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
matemáticas sencillas a otras en extremo complicadas. La relación más elemental
consiste en una línea recta o relación lineal.
30252015105
190
180
170
160
150
140
130
Porcentaje de fibra
Re
sist
en
cia
Gráfica de dispersión de Resistencia vs. Porcentaje de fibra
Figura 1.1 Diagrama de dispersión para los datos de resistencia de la pulpa
La relación del modelo matemático adecuado tiene influencia de la distribución
de los valores y en el diagrama de dispersión. Es sencillo ver esto si se examinan
las siguientes graficas (figura 1.2)
Plan A Plan B Plan C
Relación lineal positiva Relación lineal negativa No hay relación entre X y Y
Plan D Plan E Plan F
Relación curvilínea positiva Relación curvilínea en forma de U Relación curvilínea negativa
Figura 1.2 Relación entre dos variables
En la grafica A se observa que los valores de Y, en general, aumentan en forma
lineal cuando se incrementa .
En la grafica B es un ejemplo de una relación lineal negativa. Cuando crece,
se observa que los valores de Y decrecen. Un ejemplo de este tipo de relación puede ser
el precio de un producto específico y la cantidad de ventas.
6 CAPÍTULO 1 Regresión lineal simple y múltiple
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
En la grafica C se muestra un conjunto de datos en el que existe muy poca o
ninguna relación entre y Y. Para cada valor de aparecen valores altos y bajos de Y.
En la grafica D muestran una relación curvilínea entre y Y. Los valores de Y
aumentan cuando crece, pero el incremento disminuye para valores altos de . un
ejemplo de esta relación curvilínea puede ser la edad y el costo de mantenimiento de
una maquina. Cuando la máquina tiene muchos años, el costo de mantenimiento se
eleva con rapidez al principio, pero después de cierto número de años se nivela.
En la grafica E muestra una relación parabólica o en forma de U entre y Y.
Conforme aumenta, al principio Y disminuye; pero si aumenta más, Y no sólo deja
de disminuir sino que aumenta después de su valor mínimo. Un ejemplo tipo de relación
puede ser el número de errores por hora en una tarea y número de horas trabajadas.
Por ultimo en la grafica F indica una relación exponencial o curvilínea negativa
entre y Y. en este caso, Y disminuye con rapidez al principio del incremento de
pero después, cuando aumenta más, la velocidad de disminución es mucho menor. Un
ejemplo de esta relación exponencial puede ser el valor de reventa de un tipo dado de
automóvil y los años que tiene. El primer año el valor baja en forma drástica respeto a
su precio original; sin embargo, la disminución es mucho más lenta en los años
subsecuentes.
El análisis de regresión lineal simple se refiere a encontrar la línea recta que mejor se
ajuste a los datos. El mejor ajuste puede definirse de varias maneras. Quizá la más
sencilla sea encontrar la línea recta para la cual las diferencias entre los valores reales y
los valores pronosticados a partir de la recta ajustada de regresión sean tan pequeñas
como sea posible. Sin embargo, como estas diferencias son positivas para algunas
observaciones y negativas para otras, en términos matemáticos se minimiza la suma de
los cuadrados de las diferencias.
30252015105
190
180
170
160
150
140
130
Porcentaje de fibra
Re
sis
ten
cia
S 3,87648
R-cuad. 93,0%
R-cuad.(ajustado) 92,4%
Gráfica de línea ajustadaResistencia = 130,7 + 1,624 Porcentaje de fibra
Figura 1.3 Línea recta que mejor se ajusta a los datos, donde la
distancia a los puntos es la más pequeña posible
Suponga que las variables y Y están relacionadas linealmente y que para cada
valor de , la variable dependiente, Y, es una variable aleatoria. Es decir, que cada
observación de Y puede ser descrita por el modelo:
(1.1)
Regresión lineal simple 7
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
donde es un error aleatorio con media cero y varianza . También suponga que los
errores aleatorios no están correlacionados. La ecuación (1.1) es conocida como el
modelo de regresión lineal simple. Bajo el supuesto de que este modelo es adecuado y
como el valor esperado del error es cero, , se puede ver que el valor esperado
de la variable Y, para cada valor de , está dado por línea recta
(1.2)
En donde son los parámetros del modelo y son constantes desconocidas.
Por lo tanto, para tener bien especificada la ecuación que relaciona las dos variables será
necesario estimar los dos parámetros, que tienen los siguientes significados:
- Es el punto en el cual la línea recta intercepta o cruza el eje y.
- Es la pendiente de la línea, es decir, es la cantidad en que se incrementa o
disminuye la variable por cada unidad que se incrementa
Un procedimiento para ajustar la mejor recta y, por lo tanto, para estimar
es mediante el método de mínimos cuadrados, el cual consiste en lo siguiente:
si de la ecuación (1.1) despejamos los errores, los elevamos al cuadrado y los sumamos,
obtendremos lo siguiente:
(1.3)
De esta forma, se quieren encontrar los valores de que minimizan la
suma de los errores cuadrados. Es decir, se busca ajustar la recta de manera que la suma
de las distancias en forma vertical de los puntos a la recta se minimice, como se ilustra
en la figura 1.3.
El procedimiento matemático para minimizar los errores de la ecuación (1.3) y
así encontrar los estimadores de mínimos cuadrados de , consiste en derivar a
con respecto a ,
y derivar también a con respecto a ,
se obtiene:
Al igualar a cero las dos ecuaciones y resolverlas en forma simultánea con
respecto a las dos incógnitas ( ), se obtiene la solución única:
(1.4)
(1.5)
donde
8 CAPÍTULO 1 Regresión lineal simple y múltiple
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
(1.6)
(1.7)
son las medias muéstrales de las dos variables, es decir,
De esta forma, para obtener la recta ajustada es necesario aplicar las fórmulas
anteriores, lo cual es muy sencillo, como se muestra en la tabla 1.2 para los datos de la
resistencia de la pulpa.
Tabla 1.2 Procedimiento para realizar los cálculos para la regresión simple para los datos de la resistencia
de la pulpa.
4
6
8
10
12
14
16
18 20
22
24
26
28
30
134
145
142
149
144
160
156
157 168
166
167
171
174
183
16
36
64
100
144
196
256
324 400
484
576
676
784
900
17 956
21 025
20 164
22 201
20 736
25 600
24 336
24 649 28 224
27 556
27 889
27 241
30 276
33 489
536
870
1 136
1 490
1 728
2 240
2 496
2 826 3 360
3 652
4 008
4 446
4 872
5 490
137,2 140,4 143,7 146,9 150,2 153,4 156,7 159,9 163,2 166,4 169,7 172,9 176,2 179,4
-3,2 4,6 -1,7 2,1 -6,2 6,6 -0,7 -2,9 4,8 -0,4 -2,7 -1,9 -2,2 3,6
10,24 21,16 2,89 4,41
38,44 43,56 0,49 8,41
23,04 0,16 7,29 3.61 4,84
12,96 Ʃ
Ʃ Ʃ = 4
956
Ʃ = 353
342
Ʃ = 39
150
Ʃ 2216.6
Regresión lineal simple 9
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
Por lo tanto, la línea recta que mejor explica la relación entre porcentaje de fibra
y resistencia del papel, está dada por
En la figura 1.3 se muestra el ajuste de esta línea. De esta manera, por cada
punto porcentual de incremento en el porcentaje de fibra, se espera un incremento de
resistencia de 1,6242 en promedio. La ecuación (1.8) sirve para estimar la resistencia
promedio esperada para cualquier porcentaje de fibra utilizada.
Nota: La calculadora científica, trae la función de Regresión Lineal, una vez
activada esta función, se procede a capturar por parejas (X, Y) correspondientes sin
olvidar separarlas por una coma entre ambos datos, se manda cada par a memoria, al
finalizar la captura se obtienen los coeficientes correspondientes presionando la inversa
correspondiente de acuerdo al modelo de esta.
Utilizando un paquete computacional el resultado arrojado sería el siguiente:
Resumen de Minitab
Análisis de regresión: Resistencia vs. Porcentaje de fibra
La ecuación de regresión es
Resistencia = 131 + 1,62 Porcentaje de fibra
Coef.
Predictor Coef de EE T P
Constante 130,675 2,418 54,05 0,000
Porcentaje de fibra 1,6242 0,1285 12,64 0,000
Resumen de Excel
Estadísticas de la regresión
Coeficiente de correlación múltiple 0,964432318
Coeficiente de determinación R^2 0,930129695
R^2 ajustado 0,92430717
Error típico 3,876481166
Observaciones 14
ANÁLISIS DE VARIANZA
Grados de libertad Suma de cuadrados Promedio de los cuadrados F Valor crítico de F
Regresión 1 2400,531868 2400,531868 159,7467824 2,70702E-08
Residuos 12 180,3252747 15,02710623
Total 13 2580,857143
Coeficientes Error típico Estadístico t Probabilidad Inferior 95%
Intercepción 130,6747253 2,417790201 54,047173 1,05975E-15 125,406813
Porcentaje de fibra 1,624175824 0,128504099 12,63909737 2,70702E-08 1,344189444
Análisis de los residuales
Observación Pronóstico Resistencia Residuos
1 137,1714286 -3,171428571
2 140,4197802 4,58021978
3 143,6681319 -1,668131868
4 146,9164835 2,083516484
5 150,1648352 -6,164835165
6 153,4131868 6,586813187
7 156,6615385 -0,661538462
8 159,9098901 -2,90989011
9 163,1582418 4,841758242
10 166,4065934 -0,406593407
11 169,6549451 -2,654945055
12 172,9032967 -1,903296703
13 176,1516484 -2,151648352
14 179,4 3,6
10 CAPÍTULO 1 Regresión lineal simple y múltiple
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
Análisis de varianza
Fuente GL SC MC F P
Regresión 1 2400,5 2400,5 159,75 0,000
Error residual 12 180,3 15,0
Total 13 2580,9
Porcentaje Ajuste Residuo
Obs de fibra Resistencia Ajuste SE Residuo estándar
1 4,0 134,00 137,17 1,97 -3,17 -0,95
2 6,0 145,00 140,42 1,75 4,58 1,32
3 8,0 142,00 143,67 1,55 -1,67 -0,47
4 10,0 149,00 146,92 1,37 2,08 0,57
5 12,0 144,00 150,16 1,22 -6,16 -1,68
6 14,0 160,00 153,41 1,11 6,59 1,77
7 16,0 156,00 156,66 1,04 -0,66 -0,18
8 18,0 157,00 159,91 1,04 -2,91 -0,78
9 20,0 168,00 163,16 1,11 4,84 1,30
10 22,0 166,00 166,41 1,22 -0,41 -0,11
11 24,0 167,00 169,65 1,37 -2,65 -0,73
12 26,0 171,00 172,90 1,55 -1,90 -0,54
13 28,0 174,00 176,15 1,75 -2,15 -0,62
14 30,0 183,00 179,40 1,97 3,60 1,08
Tabla 1.4. Formulas básicas para el Análisis de regresión para el modelo
Es el punto en el cual la línea recta intercepta o cruza el eje Y
Es la pendiente de la línea, es decir, es la cantidad en que se incrementa o
disminuye la variable por cada unidad que se incrementa
Ecuación de la regresión lineal estimada
Sumatoria de XY
Sumatoria de XX
Variabilidad total
Media de X
Media de Y
Sumatoria de los cuadrados del error
Suma de cuadrados de la regresión
Estimador insesgado de la varianza
Cuadrado medio del error
Cuadrado medio total
Regresión lineal simple 11
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
=
Error estándar de estimación
Coeficiente de determinación en regresión lineal simple
Estadístico para prueba de hipótesis en regresión lineal simple
Estimación por intervalos para , en regresión lineal simple
Estimación por intervalos para la pendiente en
regresión lineal simple
Estimación para la ordenada al
origen en regresión lineal simple
Ejemplo
Suponga que el gerente de una cadena de servicios de entrega de paquetería desea
desarrollar un modelo para predecir las ventas semanales (en miles de dólares) para las
tiendas individuales basado en el número de clientes que realizan compras. Se
seleccionó una muestra aleatoria entre todas las tiendas de la cadena con los siguientes
resultados.
Tienda Clientes Ventas ($000) Tienda Clientes Ventas ($000) 1
2
3
4 5
6
7
8
9
10
907
926
506
741 789
889
874
510
529
420
11,20
11,05
6,48
9,21 9,42
10,08
9,45
6,73
7,24
6,12
11
12
13
14 15
16
17
18
19
20
679
872
924
607 452
729
794
844
1010
621
7,63
9,43
9,46
7,64 6,92
8,95
9,33
10,23
11,77
7,41
(a) Grafique el diagrama de dispersión.
(b) Suponga una relación lineal y utilice el método de mínimos cuadrados para encontrar
los coeficientes de regresión y
(c) Interprete el significado de la pendiente.
(d) Pronostique las ventas semanales (en miles de dólares) para las tiendas que tienen 600 clientes.
(e) ¿Qué otros factores además del número de clientes pueden afectar las ventas?
12 CAPÍTULO 1 Regresión lineal simple y múltiple
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
Respuestas
a)
1000900800700600500400
12
11
10
9
8
7
6
Clientes
Ve
nta
s
Gráfica de dispersión de Ventas vs. Clientes
b) Los coeficientes son = 2,3086 y = 0,0088
c) Por cada cliente más, se espera un incremento en las ventas de 0,0088612 de miles
de dólares en promedio.
d)
e) Factores tan variados como, atención al cliente, lejanía, falta de estacionamiento etc.,
etc.
Resumen de Excel
Coeficientes Error típico Estadístico t Probabilidad
Intercepción 2,308620077 0,486903934 4,741428269 0,000162977
Clientes 0,008861219 0,000647589 13,68338889 5,93374E-11
1.1.1. Prueba de hipótesis en la regresión lineal simple.
En cualquier análisis de regresión no basta hacer los cálculos que se explicaron antes,
sino que es necesario evaluar qué tan bien el modelo (la línea recta) explica la relación
entre y . Una primera forma de hacer esto es probar una serie hipótesis sobre el
modelo. Para ello es necesario suponer una distribución de probabilidad para el
término de error, Es usual suponer normalidad: se distribuye en forma normal,
independiente, con media cero y varianza .
Por lo general, la hipótesis de mayor interés plantea que la pendiente es
significativamente diferente de cero. Esto se logra al aprobar la siguiente hipótesis
(1.9)
Prueba de hipótesis en regresión lineal simple 13
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
El estadístico de prueba es:
(1.10)
Si la hipótesis nula es verdadera él estadístico (1.10) tiene una distribución -
Student con grados de libertad. Se rechaza si el valor absoluto de este
estadístico es mayor que el correspondiente valor crítico obtenido de tablas, es decir,
se rechaza si:
(1.11)
En caso contrario no se rechaza . No rechazar que , en el caso del
modelo de regresión lineal simple, implica que no existe una relación lineal
significativa entre y ; por tanto, no existe relación entre estas variables o ésta es de
otro tipo.
La suma de cuadrados de los residuos o suma de cuadrados del error ( y se
utiliza para estimar la varianza del error de ajuste de un modelo, y está dada por:
A partir de la ecuación (1.12) se obtiene que el valor esperado de la suma de
cuadrados , del error está dado por:
(1.13)
Por lo tanto, un estimador insesgado de está dado por:
En el caso de los datos de la tabla 1.1, datos de resistencia de la pulpa, el
planteamiento de hipótesis sería el siguiente:
Aplicando el estadístico de prueba
El valor de -Student encontrado en tablas con grados de libertad y un
0,05 de nivel de significancia es
14 CAPÍTULO 1 Regresión lineal simple y múltiple
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
Se rechaza la Hipótesis nula
Dado que el valor absoluto de es significativamente mayor que el valor
encontrado en tablas con un nivel de significancia de 0,05 concluimos que rechazamos
la hipótesis nula por lo tanto si existe una relación entre ambas variables. 0 bien, dado
que el valor-p es menor que el nivel de significancia, se rechaza la hipótesis nula
valor-p .
En ocasiones, en lugar de probar que , puede ser de interés probar que es
igual a cierta constante ( , en este caso en el numerador del estadístico
de la expresión (1,10) se resta , es decir, el estadístico queda de la siguiente
manera , y el criterio de rechazo es el mismo.
Si se utiliza como criterio de rechazo la comparación de la significancia
observada (p-value o valor p) contra la significancia predefinida ( ), entonces se
rechaza si el valor p .
Por otro lado, con respecto del parámetro suele ser de interés probar la
siguiente hipótesis:
(1.15)
El estadístico de prueba es el siguiente:
El cual tiene una distribución -Student con grados de libertad, por lo que
se rechaza si:
o si se utiliza el criterio de la significancia observada se rechaza si el valor-p .
No rechazar que simplemente significa que el punto de corte de la línea recta
pasa por el origen, es decir pasa por (0, 0). En ocasiones, en lugar de probar que
, puede ser de interés probar que es igual a cierta constante ; en
ese caso, en el numerador del estadístico de la expresión (1.16) se resta , es decir, el
estadístico queda de la siguiente manera:
(1.17)
y el criterio de rechazo es el mismo.
En el caso de los datos de la tabla 1.1, datos de resistencia de la pulpa, el
planteamiento de hipótesis sería el siguiente:
Prueba de hipótesis en regresión lineal simple 15
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
Aplicando el estadístico de prueba
El valor de -Student encontrado en tablas con grados de libertad y un 0,05
de nivel de significancia es
Se rechaza la Hipótesis nula
Dado que el valor absoluto de es significativamente mayor que el valor
encontrado en tablas con un nivel de significancia de 0,05 concluimos que rechazamos
la hipótesis nula por lo tanto el punto de corte de la línea recta no pasa por el origen,
es decir, no pasa por (0, 0). O bien, dado que el valor-p es menor que el nivel de
significancia, se rechaza la hipótesis nula valor-p .
La estimación de los parámetros del modelo y las pruebas de hipótesis sobre los
mismos se sintetizan en la siguiente tabla:
Parámetro Estimación Error estándar Estadístico Valor-p
Intercepción
Pendiente
Las pruebas de hipótesis para el ejemplo de las ventas contra clientes, el
resumen que nos arroja Excel y Minitab incluye el cálculo del valor de t y el valor-p,
optando por cualesquiera de ambos estadísticos las hipótesis quedarían de la siguiente
manera:
El valor de -Student encontrado en tablas con grados de libertad y un 0,05
de nivel de significancia es
Se rechaza la Hipótesis nula
16 CAPÍTULO 1 Regresión lineal simple y múltiple
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
Dado que el valor absoluto de es significativamente mayor que el valor
encontrado en tablas con un nivel de significancia de 0,05 concluimos que rechazamos
la hipótesis nula por lo tanto si existe una relación entre ambas variables. 0 bien, dado
que el valor-p es menor que el nivel de significancia, se rechaza la hipótesis nula
valor-p .
en el caso de las hipótesis para la intercepción tenemos:
Se rechaza la Hipótesis nula
Dado que el valor absoluto de es significativamente mayor que el valor
encontrado en tablas con un nivel de significancia de 0,05 concluimos que rechazamos
la hipótesis nula por lo tanto el punto de corte de la línea recta no pasa por el origen,
es decir, no pasa por (0, 0). O bien, dado que el valor-p es menor que el nivel de
significancia, se rechaza la hipótesis nula valor-p .
Resumen de Excel
Coeficientes Error típico Estadístico t Probabilidad
Intercepción 2,308620077 0,486903934 4,741428269 0,000162977
Clientes 0,008861219 0,000647589 13,68338889 5,93374E-11
Ejercicios
1.- ¿Cuál es el propósito general del análisis de regresión?
2.- En el análisis de regresión intervienen dos tipos de variables: las independientes y
las dependientes. Explique con sus palabras y a través de ejemplos, las características de
estos dos tipos de variables.
3.- En el artículo de Concrete Research (Características del concreto cerca de la
superficie: Permeabilidad intrínseca), se presentaron los datos sobre la resistencia a la
compresión y la permeabilidad intrínseca de varias mezclas y curados de concreto.
Las cantidades resumidas son , Ʃ , Ʃ = 23 530, Ʃ , Ʃ
= 157,42, y
Ʃ = 1 697,80. Suponga que las dos variables se relacionan de acuerdo con el modelo
de regresión lineal simple.
a) Calcule las estimaciones de mínimos cuadrados de la pendiente y la ordenada al
origen
b) Use la ecuación de la recta ajustada para predecir la permeabilidad que se observaría
cuando la resistencia a la compresión es = 4,3.
c) Dé una estimación puntual de la permeabilidad media cuando la resistencia a la
compresión es = 3,7.
d) Suponga que el valor observado de la permeabilidad para = 3,7 es = 46,1
Ejercicios 17
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
4.- Se utilizaron métodos de regresión para analizar los datos de un estudio para
investigar la relación entre la temperatura superficial de una carretera (x) y la deflexión
del pavimento (y). Las cantidades resumidas fueron , Ʃ , Ʃ = 8,86,
Ʃ , Ʃ = 143 215,8, Ʃ = 1 083,67.
a) Calcule las estimaciones de mínimos cuadrados de la pendiente y la ordenada al
origen. Grafique la recta de regresión
b) Use la ecuación de la recta ajustada para predecir la deflexión del pavimento que se
observaría cuando la temperatura superficial es de 85 .
c) ¿Cuál es la deflexión media del pavimento cuando la temperatura superficial es
90 ?
d) ¿Qué cambio en la deflexión media del pavimento se esperaría para un cambio de 1
en la temperatura superficial?
5.- Se piensa que el número de libras de vapor consumidas mensualmente por una
planta química se relaciona con la temperatura ambiente promedio (en ) de ese mes.
En la tabla siguiente se muestra la temperatura y el consumo anual:
Mes Temperatura Consumo/1 000
Ene.
Feb.
Mar.
Abr.
May
Jun. Jul.
Ago.
Sep.
Oct.
Nov.
Dic.
21
24
32
47
50
59 68
74
62
50
41
30
185,79
214,47
288,03
424,84
454,58
539,03 621,55
675,06
562,03
452,93
369,95
273,98
a) Suponiendo que un modelo de regresión lineal simple es apropiado, ajuste el
modelo de regresión que relacione el consumo de vapor ( ) con la temperatura
promedio ( ).
b) ¿Cuál es la estimación del consumo esperado de vapor cuando la temperatura
promedio es 55 ?
c) ¿Qué cambio se espera en el consumo de vapor promedio cuando la temperatura
mensual promedio cambia 1 ?
d) Suponga que la temperatura mensual promedio es de 47 . Calcule el vapor
ajustado y el residual correspondiente.
18 CAPÍTULO 1 Regresión lineal simple y múltiple
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
6.- En un artículo de Journal of Environmental Energineering se reportan los resultados de
un estudio sobre la presencia de sodio y cloruros en corrientes superficiales de la parte
central de Rhode Island. Los datos que se presentan a continuación corresponden a la
concentración de cloruros (en mg/l) y al área de carretera de la vertiente (en %).
4,4 6,6 9,7 10,6 10,8 10,9 11,8 12,1 14,3 14,7 15,0 17,3 19,2 23,1 27,4 27,7 31,8 39,5
0,19 0,15 0,57 0,70 0,67 0,63 0,47 0,70 0,60 0,78 0,81 0,78 0,69 1,30 1,05 1,06 1,74 1,62
a) Trace un diagrama de dispersión de los datos. ¿Parecería apropiado un modelo
de regresión lineal simple en este caso?
b) Ajuste el modelo de regresión lineal simple usando el método de mínimos
cuadrados.
c) Estime la concentración de cloruros media de una vertiente que tiene 1% del
área de carretera.
d) Encuentre el valor ajustado que corresponde a = 0,47
7.- Demuestre que en un modelo de regresión lineal simple el punto ( ) se localiza
exactamente sobre la recta de regresión de mínimos cuadrados.
8.- En un artículo de Wear se presentan los datos del desgaste por rozamiento del acero
dulce y la viscosidad del aceite. Los datos representativos, con = viscosidad del aceite
y = volumen del desgaste ( ), son:
240 181 193 155 172 110 113 75 94
1,6 9,4 15,5 20,0 22,0 35,5 43,0 40,5 33,0
a) Construya un diagrama de dispersión de los datos. ¿Parecería plausible un
modelo de regresión lineal simple?
b) Ajuste el modelo de regresión lineal simple usando mínimos cuadrados.
c) Estime el desgaste por rozamiento cuando la viscosidad es = 30.
d) Obtenga el valor ajustado de cuando = 22,0 y calcule el residual
correspondiente.
9.- Considérense los datos del ejercicio 4 para = temperatura superficial de una
carretera y = deflexión del pavimento.
a) Pruebe la significación de la regresión utilizando . Encuentre el valor P para
esta prueba. ¿Qué conclusiones pueden sacarse?
b) Estime
c) Estime los errores estándar de la pendiente y la ordenada al origen.
10.- En un proceso de extracción se estudia la relación entre tiempo de extracción y
rendimiento. Los datos obtenidos se muestran en la siguiente tabla.
Tiempo
(minutos)
10 15 20 8 12 13 15 12 14 20 19 18
Rendimiento
(%)
64 81,7 76,2 68,5 77,9 82,2 74,2 70 76 83,2 85,3
Ejercicios 19
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
a) ¿En este problema cuál variable se considera independiente y cuál dependiente?
b) Mediante un diagrama de dispersión analice la relación entre estas dos variables.
c) Haga un análisis de regresión (ajuste una línea recta a estos datos, aplique
pruebas de hipótesis y verifique residuos).
d) ¿La calidad del ajuste es satisfactoria? Argumente
e) Destaque el valor de la pendiente de la recta e interprételo en términos prácticos.
f) Estime el rendimiento promedio que se espera a un tiempo de extracción de 25
minutos y obtenga un intervalo de confianza para esta estimación.
11.- Considere los datos del ejercicio 5 para = consumo de vapor y = temperatura
promedio.
a) Pruebe la significación de la regresión usando . ¿Cuál es el valor P para esta
prueba? Enuncie las conclusiones que resultan de esta prueba.
b) Estime c) Estime los errores estándar de la pendiente y la ordenada al origen.
d) Pruebe la hipótesis contra usando .
Encuentre el valor P para esta prueba.
e) Pruebe la hipótesis contra usando . Encuentre
el valor P para esta prueba y saque conclusiones.
12.- En el ejercicio 6 se presentan los datos para = concentración de cloruros en
corrientes superficiales y = área de carretera.
a) Pruebe la hipótesis contra usando el procedimiento
indicado con un nivel de significancia del 0,01 ( .
1.1.2. Calidad del ajuste en regresión lineal simple
En la sección anterior estudiamos pruebas de hipótesis para verificar que hay una
relación significativa entre y ; sin embargo, no hemos visto si tal relación permite
hacer estimaciones con una precisión aceptable. Por ejemplo, es de interés saber qué
tanta de la variabilidad presente en fue explicada por el modelo, además si se cumplen
los supuestos de los residuos.
Coeficiente de determinación . Un primer criterio para evaluar la calidad del
ajuste es observar la forma en que el modelo se ajustó a los datos. En el caso de la
regresión lineal simple esto se distingue al observar si los puntos tienden a ajustarse
razonablemente bien a la línea recta (véase la figura 1.3). Pero otro criterio más
cuantitativo es el que proporciona el coeficiente de determinación, el cual está definido por:
(1.17)
Es claro que . En general se interpreta como la proporción de la
variabilidad en los datos ( ) que es explicada por el modelo. En el caso de los datos de
la resistencia de la pulpa (tabla 1.1) tenemos
20 CAPÍTULO 1 Regresión lineal simple y múltiple
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
=
= 2580,86
=
Por lo tanto, podemos decir que 93% de la variación observada en la resistencia
es explicada por el modelo (línea recta), lo cual nos dice que la calidad del ajuste es
satisfactorio, y que por ello, la relación entre es descrita adecuadamente por una
línea recta.
Nota. El resultado arrojado por Excel o Minitab, incluye el análisis de varianza
para el modelo de regresión simple cuyo cuadro sintético es el siguiente:
Fuente de variación Suma de cuadrados Grados de libertad Cuadrado medio Valor-p
Regresión
Error o residual
Total
1
Análisis de varianza en Minitab
Fuente GL SC MC F P
Regresión 1 2400,5 2400,5 159,75 0,000
Error residual 12 180,3 15,0
Total 13 2580,9
S = 3,87648 R-cuad. = 93,0% R-cuad.(ajustado) = 92,4%
Coeficiente de determinación ajustado . Este coeficiente se calcula de la
siguiente manera:
(1.18)
Resumen de Excel
Estadísticas de la regresión
Coeficiente de correlación múltiple 0,964432318
Coeficiente de determinación R^2 0,930129695
R^2 ajustado 0,92430717
Error típico 3,876481166
Observaciones 14
ANÁLISIS DE VARIANZA
Grados de libertad Suma de cuadrados Promedio de los cuadrados F Valor crítico de F
Regresión 1 2400,531868 2400,531868 159,7467824 2,70702E-08
Residuos 12 180,3252747 15,02710623
Total 13 2580,857143
Coeficientes Error típico Estadístico t Probabilidad Inferior 95%
Intercepción 130,6747253 2,417790201 54,047173 1,05975E-15 125,406813
Porcentaje de fibra 1,624175824 0,128504099 12,63909737 2,70702E-08 1,344189444
Análisis de los residuales
Observación Pronóstico Resistencia Residuos
1 137,1714286 -3,171428571
2 140,4197802 4,58021978
3 143,6681319 -1,668131868
4 146,9164835 2,083516484
5 150,1648352 -6,164835165
6 153,4131868 6,586813187
7 156,6615385 -0,661538462
8 159,9098901 -2,90989011
9 163,1582418 4,841758242
10 166,4065934 -0,406593407
11 169,6549451 -2,654945055
12 172,9032967 -1,903296703
13 176,1516484 -2,151648352
14 179,4 3,6
Resumen de Excel
Estadísticas de la regresión
Coeficiente de correlación múltiple 0,964432318
Coeficiente de determinación R^2 0,930129695
R^2 ajustado 0,92430717
Error típico 3,876481166
Observaciones 14
ANÁLISIS DE VARIANZA
Grados de libertad Suma de cuadrados Promedio de los cuadrados F Valor crítico de F
Regresión 1 2400,531868 2400,531868 159,7467824 2,70702E-08
Residuos 12 180,3252747 15,02710623
Total 13 2580,857143
Coeficientes Error típico Estadístico t Probabilidad Inferior 95%
Intercepción 130,6747253 2,417790201 54,047173 1,05975E-15 125,406813
Porcentaje de fibra 1,624175824 0,128504099 12,63909737 2,70702E-08 1,344189444
Análisis de los residuales
Observación Pronóstico Resistencia Residuos
1 137,1714286 -3,171428571
2 140,4197802 4,58021978
3 143,6681319 -1,668131868
4 146,9164835 2,083516484
5 150,1648352 -6,164835165
6 153,4131868 6,586813187
7 156,6615385 -0,661538462
8 159,9098901 -2,90989011
9 163,1582418 4,841758242
10 166,4065934 -0,406593407
11 169,6549451 -2,654945055
12 172,9032967 -1,903296703
13 176,1516484 -2,151648352
14 179,4 3,6
Calidad de ajuste en regresión lineal simple 21
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
donde el cuadrado medio total, , se obtiene al dividir la suma de cuadrados total,
, entre sus grados d libertad. Cuando hay muchos términos en un modelo, el
estadístico se prefiere en lugar de , puesto que este último es engañoso al
incrementarse en forma artificial con cada término que se agrega al modelo, aunque sea
un término que no contribuya en nada a la explicación de la respuesta. En cambio, el
incluso baja de valor cuando el término que se agrega no aporta nada.
Se cumple que . En general, para fines de predicción se
recomienda un coeficiente de determinación ajustado de al menos 0,7.
En el caso de los datos de la resistencia de la pulpa (tabla 1.1), el coeficiente de
determinación ajustado está dado por:
Observe que estos coeficientes son arrojados automáticamente en Excel y
Minitab.
Coeficiente de correlación . Es bien conocido que el coeficiente de correlación,
, mide la intensidad de la relación lineal entre dos variables Si se tiene pares
de datos de la forma ( , entonces este coeficiente se obtiene de la siguiente manera:
(1.19)
Se puede ver que ; si es próximo a , entonces tendremos
una relación lineal negativa fuerte, y si es próximo a cero, entonces diremos que no
hay correlación lineal, y finalmente se es próximo a , entonces tendremos una
relación lineal positiva fuerte. Por ejemplo, para los datos de la resistencia de la
pulpa (tabla 1.1), el coeficiente de correlación es;
lo cual habla de una correlación lineal positiva fuerte.
22 CAPÍTULO 1 Regresión lineal simple y múltiple
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
Error estándar de estimación . Una medición sobre la calidad del ajuste de un
modelo lo da el error estándar de estimación, que es una estimación de la desviación
estándar del error . En el caso de la regresión lineal simple, está dado por:
=
(1.20)
Es claro que a medida que el modelo ajuste mejor, la será menor y en
consecuencia el error estándar de estimación también será menor.
Análisis gráfico de residuos. Como complemento a lo que se ha discutido hasta aquí, un análisis adecuado de los
residuos proporciona información adicional sobre la calidad del ajuste del modelo de
regresión y de esa manera es posible verificar si el modelo es adecuado. Las gráficas
que suelen hacerse para completar el diagnóstico del modelo consisten en:
a) graficar los residuos en papel de probabilidad normal,
b) graficar los residuos contra los predichos.
Por ejemplo, para los datos de la resistencia de la pulpa (tabla 1.2), se construye
la gráfica de probabilidad normal que se muestra en la figura 1.4. En ésta se aprecia
que el supuesto de normalidad sobre los errores se cumple razonablemente bien, ya
que los puntos en esta gráfica tienden a ajustarse a la línea recta.
1050-5-10
99
95
90
80
70
60
50
40
30
20
10
5
1
Residuo
Porc
enta
je
Gráfica de probabilidad normal(la respuesta es Resistencia)
Figura 1.4 Gráfica de probabilidad normal para los residuos de la resistencia de la pulpa
A partir de la tabla 1.2 es fácil obtener la gráfica de residuos contra predichos
que se muestra en la figura 1.5. Si el modelo es adecuado se espera que en esta gráfica
los puntos no sigan ningún patrón y que, por lo tanto, estén distribuidos más o menos
aleatoriamente a lo largo y ancho de la gráfica. Cuando esto ocurre significa que el
modelo se ajusta de igual manera a lo largo de los valores de . Por el contrario, si se
aprecia algún patrón habrá que ver cuál es el tipo de patrón que se observa en la gráfica
y diagnosticar cuál es la falla que registra el modelo
Estimación y predicción por intervalos en regresión lineal simple 23
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
180170160150140
7,5
5,0
2,5
0,0
-2,5
-5,0
Valor ajustado
Re
sid
uo
vs. ajustes(la respuesta es Resistencia)
Figura 1.5 Gráfica de residuos contra estimados o predichos para la resistencia de la pulpa
En particular la figura 1.5 no muestra ninguna anomalía, lo cual es una evidencia
más a favor del modelo de regresión simple para este ejemplo.
1.1.3. Estimación y predicción por intervalo en regresión lineal simple
Una de las aplicaciones más importantes en un análisis de regresión es hacer
estimaciones de la respuesta media para un valor dado de X. En el caso particular de la
regresión lineal simple, sabemos que un estimador puntual de la respuesta media lo da
la recta de regresión:
Además de esto, en ocasiones es de interés obtener una estimación por intervalos
para a partir de cualquier valor de X, para lo cual aplicamos la siguiente ecuación:
(1.21)
A este intervalo se le conoce como intervalo para la recta de regresión. Note que su
amplitud depende del y de la distancia entre y . La amplitud es mínima cuando
= y se incrementa conforme se hace más grande.
Para ilustrar lo anterior consideremos el modelo ajustado a los datos del ejemplo de
la resistencia de la pulpa (tabla 1.1), y obtenemos el intervalo de confianza para la
respuesta media en = 12 (porcentaje de fibra)
Primeramente calculemos el estimador puntual para cuando = 12, está dado
por
y un intervalo de confianza al 95% para
24 CAPÍTULO 1 Regresión lineal simple y múltiple
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
De aquí que el intervalo de confianza para la respuesta media en = 12 está dada
por:
Además de la estimación puntual para la pendiente y la ordenada al origen,
, es posible obtener estimaciones de los intervalos de confianza para estos
parámetros. La anchura de estos intervalos de confianza es una medida de la calidad
global de la recta de regresión. Si los términos del error, del modelo de regresión
tienen una distribución normal e independiente, entonces tienen ambos una distribución
igual a la de una variable aleatoria grados de libertad. Esto lleva a la
siguiente definición de los intervalos de confianza del % para la pendiente y
la ordenada al origen.
(1.22)
(1.23)
En el caso del intervalo de confianza para la pendiente de los datos del
porcentaje de fibra (tabla 1.1) tenemos
Por lo que pendiente de forma puntual es 1,6242, y por intervalos con un 95% de
nivel de confianza tenemos que esta se encuentra entre 1,3442 y 1,9042
Ejercicios
1.- En un artículo se presentaron los datos de la concentración del licor verde ( , y la producción de una máquina papelera ( . Los datos se muestran en la tabla
siguiente
Estimación y predicción por intervalos en regresión lineal simple 25
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
Número de
observación
Concentración
Del licor verde
Producción
(tons
1
2
3
4
5
6
7
8
9 10
11
12
13
40
42
49
46
44
48
46
43
53 52
54
57
58
825
830
890
895
890
910
915
960
990 1010
1012
1030
1050
a) Encuentre un intervalo de confianza de 99% para b) La concentración media de cuando la producción es toneladas
c) Encuentre un intervalo de predicción de 99% para la concentración de
cuando toneladas
2.- Remítase a los datos del ejercicio 3 (de la sección anterior) para
intrínseca del concreto y a la compresión.
Encuentre un intervalo de confianza de 95% para:
a) la pendiente
b) la ordenada al origen
c) la permeabilidad media cuando
d) Encuentre un intervalo de predicción 95% para la permeabilidad cuando
3.- En el ejercicio 4 (de la sección anterior) se presentaron los datos de la temperatura
superficial de una carretera y la deflexión del pavimento . Encuentre un intervalo de
confianza de 99% para:
a) la pendiente
b) la ordenada al origen
c) la deflexión media cuando la temperatura es
d) Encuentre un intervalo de predicción de 99% para la deflexión del pavimento cuando
la temperatura es de .
1.1.4. Uso de un software estadístico
Excel En la hoja de cálculo de Excel se incluye la regresión lineal simple y múltiple; para
ello, es necesario realizar la siguiente secuencia de opciones:
Datos Análisis de datos Regresión
26 CAPÍTULO 1 Regresión lineal simple y múltiple
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
Generalmente Excel no trae instalado la herramienta de análisis de datos esta
debe instalarse con la siguiente secuencia:
1.- En la hoja de cálculo de Excel (pantalla principal) hacer clic con el puntero en el
símbolo del sistema localizado en el extremo superior izquierdo
2.- De la ventana desplegada hacer clic en opciones de Excel (parte inferior)
3.- De la ventana desplegada hacer clic en complementos
Uso de un software estadístico 27
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
4.- De la ventana desplegada hacer clic en ir
5.- De esta ventana activar la casilla de herramientas para análisis (palomearla) y dar
clic en aceptar. De esta manera hemos activado la opción de análisis de datos.
Para capturar la tabla de datos para el análisis de regresión lineal simple o
múltiple, primeramente capturamos los datos en la hoja de cálculo, posteriormente
activamos Datos seguido de Análisis de datos y seleccionamos Regresión
Datos Análisis de datos Regresión
28 CAPÍTULO 1 Regresión lineal simple y múltiple
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
En la ventana de captura se solicitará el rango de celdas donde se encuentran los
datos para la variable dependiente Rango de entrada y para la(s) variable(s)
regresora(s) Rango de entrada
Activamos la casilla de rótulos, por default está indicado en una hoja nueva,
seleccionamos además cualquiera de las opciones de residuos, grafica de residuales, y
curva de regresión ajustada y aceptar.
En Minitab
En Minitab la secuencia de captura para la regresión lineal simple o múltiple en la hoja
de cálculo una vez capturada las columnas de datos seleccionamos Estadísticas luego
Regresión seguida de Regresión nuevamente
Uso de un software estadístico 29
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
de la ventana desplegada en respuesta indicamos la variable de respuesta, en este caso
es resistencia y en predictor indicamos porcentaje de fibra activando también cualquiera
de las opciones posibles, terminando en aceptar.
Nota: De la ventana de captura aparecen automáticamente en el cuadro de la izquierda
la información de la tabla, en respuesta, se indica con un clic del ratón en resistencia y
este automáticamente se manifiesta en el recuadro, en predictores de igual manera se da
un clic en porcentaje de fibra y igualmente se manifiestan en el recuadro.
30 CAPÍTULO 1 Regresión lineal simple y múltiple
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
1.2. Regresión lineal múltiple
En muchas situaciones prácticas existen varias variables independientes que se cree que
influyen o están relacionadas con una variable de respuesta , y por lo tanto será
necesario tomar en cuenta si se quiere predecir o entender mejor el comportamiento de
. Por ejemplo, para explicar o predecir el consumo de electricidad en una casa
habitación tal vez sea necesario considerar el tipo de residencia, el número de personas
que la habitan, la temperatura promedio de la zona, etcétera.
Sea variables independientes o regresoras, y sea una variable
de respuesta, entonces el modelo de regresión lineal múltiple con variables
independientes es el polinomio de primer orden:}
(1.22)
Donde los son los parámetros del modelo que se conocen como coeficientes
de regresión y es el error aleatorio, con media cero, . Si en la
ecuación (1.22) , estamos en el caso de regresión lineal simple y el modelo es una
línea recta; si , tal ecuación representa un plano. En general, la ecuación (1.22)
representa un hiperplano en el espacio de dimensiones generado por las variables
{ }.
El término lineal del modelo de regresión se emplea debido a que la ecuación
(1.22) es función lineal de los parámetros desconocidos La interpretación
de éstos es muy similar a lo ya explicado para el caso de regresión lineal simple: es
la ordenada al origen, y mide el cambio esperado en por cambio unitario en
cuando el resto de las variables regresoras se mantienen fijas o constantes.
Para encontrar los coeficientes de regresión múltiple por el método de mínimos
cuadrados aplicamos el siguiente sistema de ecuaciones normales:
(1.23)
Estas ecuaciones se pueden resolver para , y mediante cualquier
método apropiado para resolver sistemas de ecuaciones lineales
Por ejemplo La siguiente tabla muestra los pesos Y a la libra más cercana, las
estaturas X1 a la pulgada más cercana y las edades X2 al año más cercano de 12
muchachos.
Regresión lineal múltiple 31
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
Tabla 1.5 Peso, estatura y edad
Peso
Estatura
Edad
64
71
53
67
55
58
77
57
56
51
76
68
57
59
49
62
51
50
55
48
52
42
61
57
8
10
6
11
8
7
10
9
10
6
12
9
Para encontrar los coeficientes de regresión ( , y ) múltiple mediante el
método de mínimos cuadrados seria de la siguiente manera
Tabla 1.6 Procedimiento para realizar los cálculos para la regresión múltiple
Y 1X 2X 2Y
2
1X 2
2X YX1 YX 2 21XX
64
71
53
67
55
58
77
57
56
51 76
68
57
59
49
62
51
50
55
48
52
42 61
57
8
10
6
11
8
7
10
9
10
6 12
9
4096
5041
2809
4489
3025
3364
5929
3249
3136
2601 5776
4624
3249
3481
2401
3844
2601
2500
3025
2304
2704
1764 3721
3249
64
100
36
121
64
49
100
81
100
36 144
81
3648
4189
2597
4154
2805
2900
4235
2736
2912
2142 4636
3876
512
710
318
737
440
406
770
513
560
306 912
612
456
590
294
682
408
350
550
432
520
252 732
513
y
753
643
2x
106
2y
48,139
2
1x
34,843
2
2x
976
yx1
40,830
yx2
6,796
21xx
5,779
Al sustituir las sumatorias calculadas en las ecuaciones normales, se obtiene
1x
32 CAPÍTULO 1 Regresión lineal simple y múltiple
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
Resolver este sistema de tres ecuaciones lineales para , y , es por lo
menos tedioso. Es común emplear matrices para simplificar el proceso. Hoy en día, esta
clase de cálculos son realizados por la computadora.
El resultado seria el siguiente , y por lo
tanto la ecuación de regresión es
La solución manual aplicando el sistema de tres ecuaciones lineales con tres
incógnitas (3x3) pudiera ser aplicando el métodos de eliminación de Gauss o bien el
método de Cramer. Para este tipo de planteamiento se recomienda el método de Cramer
el cual consiste en la siguiente secuencia:
Siguiendo la misma secuencia de la multiplicación para el denominador, así
como para y
Sustituyendo los valores tendremos
Regresión lineal múltiple 33
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
753 643 106 753 643
40,830 34,843 5,779 40,830 34,843
6,796 5,779 976 6,796 5,779
12 643 106 12 643
643 34,843 5,779 643 34,843
106 5,779 976 106 5,779
(2.56070963x1010
+ 2.525323601x1010
+ 2.501139642x1010
) – (2.510006097x1010
+ 2.514782127x1010
+ 2.562360144x1010
)
( 408081216 + 393885082 + 393885082 ) – ( 391495948 + 400762092 + 403526224 )
Siguiendo el mismo procedimiento correspondiente para y tenemos los
coeficientes de regresión múltiple
Análisis de regresión: Peso vs. Estatura; Edad en Minitab
La ecuación de regresión es
Peso = 3,7 + 0,855 Estatura + 1,51 Edad
Coef.
Predictor Coef de EE T P
Constante 3,65 16,17 0,23 0,826
Estatura 0,8546 0,4517 1,89 0,091
Edad 1,506 1,414 1,07 0,315
S = 5,36321 R-cuad. = 70,9% R-cuad.(ajustado) = 64,4%
Análisis de varianza
Fuente GL SC MC F P
Regresión 2 629,37 314,69 10,94 0,004
Error residual 9 258,88 28,76
Total 11 888,25
34 CAPÍTULO 1 Regresión lineal simple y múltiple
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
Resultados en Excel
1.2.1. Pruebas de hipótesis en regresión lineal múltiple
Las hipótesis sobre los parámetros del modelo son equivalentes a las realizadas para
regresión lineal simple, pero ahora son más necesarias porque en regresión múltiple
tenemos más parámetros en el modelo; sin embargo, por lo general es necesario evaluar
su verdadera contribución a la explicación de la respuesta. También requerimos de la
suposición de que los errores se distribuyen en forma normal, independientes, con
media cero y varianza . Una consecuencia de esta suposición es que
las observaciones son: .
La hipótesis global más importante sobre un modelo de regresión múltiple
consiste en ver si la regresión es significativa. Esto se logra probando la siguiente
hipótesis:
Aceptar significa que ningún término o variable en el modelo tiene una
contribución significativa al explicar la variable de respuesta . Mientras que rechazar
implica que por lo menos un término en el modelo contribuye de manera
significativa a explicar . El procedimiento para probar esta hipótesis es una
generalización del procedimiento utilizado para probar la hipótesis equivalente en
regresión lineal simple.
Resumen
Estadísticas de la regresión
Coeficiente de correlación múltiple 0,841756673
Coeficiente de determinación R^2 0,708554296
R^2 ajustado 0,643788584
Error típico 5,363214691
Observaciones 12
ANÁLISIS DE VARIANZA
Grados de libertad Suma de cuadrados Promedio de los cuadrados F Valor crítico de F
Regresión 2 629,3733536 314,6866768 10,9402688 0,003895018
Residuos 9 258,8766464 28,76407182
Total 11 888,25
Coeficientes Error típico Estadístico t Probabilidad Inferior 95%
Intercepción 3,651215805 16,16780562 0,22583249 0,82637676 -32,9229014
Estatura 0,854609929 0,451664156 1,892135824 0,0910251 -0,167125373
Edad 1,50633232 1,414265835 1,06509843 0,31457045 -1,692959262
Análisis de los residuales
Observación Pronóstico Peso Residuos
1 64,41464032 -0,414640324
2 69,13652482 1,863475177
3 54,56509625 -1,565096251
4 73,20668693 -6,20668693
5 59,28698075 -4,28698075
6 56,9260385 1,073961499
7 65,71808511 11,28191489
8 58,22948328 -1,229483283
9 63,15425532 -7,154255319
10 48,58282675 2,417173252
11 73,85840932 2,141590679
12 65,92097264 2,079027356
Pruebas de hipótesis en regresión lineal múltiple 35
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
El estadístico de prueba para la significancia del modelo de regresión lineal
múltiple esta dado por:
(1.24)
que bajo tiene una distribución . Así, se rechaza si
o también si
Ejemplo
Se probará la significación de la regresión (con utilizando los datos de los
pesos , estaturas y edades de la tabla 1.5
El valor de calculado por formula nos da un valor de = 10,9402 ,por
comodidad observamos el resumen arrojado por Excel y/o Minitab
10,94
En tanto que el valor de encontrado en tablas cuando tenemos un nivel de
significancia de 0,05 y 2 grados de libertad en el numerador y 9 en el denominador el
cual es igual a 4,26
= =
Se rechaza la Hipótesis nula
Dado que el valor encontrado en formula es mayor al punto crítico en base al
nivel de significancia por lo que rechazamos la hipótesis nula y aceptamos la alterna lo
cual implica que por lo menos un término en el modelo contribuye de manera
significativa a explicar
Tabla 1.7 ANOVA para la significancia del modelo de regresión lineal múltiple
Fuente de
variación
Suma de
cuadrados
Grados de
libertad
Cuadrado
medio
Regresión
Error o residuo
Total
K
n-1
36 CAPÍTULO 1 Regresión lineal simple y múltiple
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
Análisis de varianza en Minitab
Fuente GL SC MC F P
Regresión 2 629,37 314,69 10,94 0,004
Error residual 9 258,88 28,76
Total 11 888,25
Coeficiente de determinación
El que un modelo sea significativo no necesariamente implica que sea bueno en
términos de que explique la variación de los datos. Por ello es importante tener
mediciones adicionales de la calidad del ajuste del modelo, como las gráficas de
residuales y el coeficiente de determinación. Con la información del análisis de varianza
de la tabla 1.7 es muy sencillo calcular el coeficiente de determinación , y el
coeficiente de determinación ajustado :
(1.25)
(1.26)
Ambos coeficientes se interpretan de forma similar al caso de regresión lineal
simple, es decir, como el porcentaje de variabilidad de los datos que son explicados por
el modelo. Se cumple que ; en general, para hablar de un modelo que
tiene un ajuste satisfactorio es necesario que ambos coeficientes tengan valores
superiores a 0,7. Cuando en el modelo hay términos que no contribuyen de manera
significativa a éste, el tiende a ser menor que el . Por lo tanto, es deseable
depurar el modelo y para ello las siguientes pruebas de hipótesis son de mucha utilidad.
Para los datos de la tabla 1.5 tenemos que
Resumen
Estadísticas de la regresión
Coeficiente de correlación múltiple 0,841756673
Coeficiente de determinación R^2 0,708554296
R^2 ajustado 0,643788584
Error típico 5,363214691
Observaciones 12
ANÁLISIS DE VARIANZA
Grados de libertad Suma de cuadrados Promedio de los cuadrados F Valor crítico de F
Regresión 2 629,3733536 314,6866768 10,9402688 0,003895018
Residuos 9 258,8766464 28,76407182
Total 11 888,25
Coeficientes Error típico Estadístico t Probabilidad Inferior 95%
Intercepción 3,651215805 16,16780562 0,22583249 0,82637676 -32,9229014
Estatura 0,854609929 0,451664156 1,892135824 0,0910251 -0,167125373
Edad 1,50633232 1,414265835 1,06509843 0,31457045 -1,692959262
Análisis de los residuales
Observación Pronóstico Peso Residuos
1 64,41464032 -0,414640324
2 69,13652482 1,863475177
3 54,56509625 -1,565096251
4 73,20668693 -6,20668693
5 59,28698075 -4,28698075
6 56,9260385 1,073961499
7 65,71808511 11,28191489
8 58,22948328 -1,229483283
9 63,15425532 -7,154255319
10 48,58282675 2,417173252
11 73,85840932 2,141590679
12 65,92097264 2,079027356
Pruebas de hipótesis en regresión lineal múltiple 37
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
Coeficiente de correlación múltiple
Es la raíz cuadrada del coeficiente de determinación
(1.27)
y es una medida de la intensidad de la relación entre la variable dependiente, , y el
conjunto de variables o términos en el modelo
Error estándar de estimación
Al igual que en regresión lineal simple, el error estándar de estimación proporciona la
medida del error de ajuste de un modelo, éstas tienen una interpretación similar a la que
se dio para el caso de regresión lineal simple. En cuanto al cálculo en el caso múltiple,
el error estándar de estimación,
(1.28)
En el caso del ejemplo de los pesos, estatura y edades tenemos
1.2.2. Intervalos de confianza y predicción en regresión múltiple
En los modelos de regresión múltiple con frecuencia es conveniente construir
estimaciones de intervalos de confianza para los coeficientes de regresión . Por
ejemplo, a partir de la tabla 1.6 es claro que un estimador por intervalos de cada
coeficiente en lo individual está dado por:
(1.29)
Tabla 1.8 Análisis de regresión múltiple
Parámetro Estimación Error estándar Estadístico Valor-p
Intercepción
.
.
.
.
.
.
.
.
38 CAPÍTULO 1 Regresión lineal simple y múltiple
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
También es posible obtener un intervalo de confianza con respecto a la respuesta
media en un punto particular, digamos está dado por:
Ejercicios de regresión lineal múltiple
13.- ¿Por qué se requiere la regresión lineal múltiple?
14.- Se realizo un estudio para investigar la relación de la resistencia al corte del terreno
( ) con la profundidad en pies ( ) y el contenido de humedad . Se hicieron 10
observaciones, obteniéndose las siguientes cantidades resumidas , , , ,
, , ,
, y
a) Establezca las ecuaciones normales de mínimos cuadrados para el modelo
b) Estime los parámetros del modelo del inciso a)
c) ¿Cuál es la resistencia predicha cuando pies y ?
15.- En una empresa dedicada a anodizar artículos de aluminio (baterías de cocina), el
anodizado se logra con una solución hecha a base de ácidos (sulfúrico, cítrico, bórico) y
dicromato de aluminio. En este proceso se controla el pH de la solución, la temperatura,
la corriente y el tiempo de permanencia. Debido al poco grosor del anodizado, han
aumentado las quejas por la escasa resistencia y durabilidad del producto. Para resolver
este problema se decide estudiar, mediante un experimento, la relación del pH y la
temperatura con el grosor del anodizado. Los datos se muestran en la siguiente tabla:
pH Temperatura Espesor
1,2
1,8
1,2
1,8
1,2 1,8
1,2
1,8
1,5
1,5
-8
-8
8
8
-8 -8
8
8
0
0
9
14
10
19
8 12
11
20
14
13
a) ¿Cuáles son las variables independientes y cuál la dependiente? Argumente
Resumen
Estadísticas de la regresión
Coeficiente de correlación múltiple 0,841756673
Coeficiente de determinación R^2 0,708554296
R^2 ajustado 0,643788584
Error típico 5,363214691
Observaciones 12
ANÁLISIS DE VARIANZA
Grados de libertad Suma de cuadrados Promedio de los cuadrados F Valor crítico de F
Regresión 2 629,3733536 314,6866768 10,9402688 0,003895018
Residuos 9 258,8766464 28,76407182
Total 11 888,25
Coeficientes Error típico Estadístico t Probabilidad Inferior 95%
Intercepción 3,651215805 16,16780562 0,22583249 0,82637676 -32,9229014
Estatura 0,854609929 0,451664156 1,892135824 0,0910251 -0,167125373
Edad 1,50633232 1,414265835 1,06509843 0,31457045 -1,692959262
Análisis de los residuales
Observación Pronóstico Peso Residuos
1 64,41464032 -0,414640324
2 69,13652482 1,863475177
3 54,56509625 -1,565096251
4 73,20668693 -6,20668693
5 59,28698075 -4,28698075
6 56,9260385 1,073961499
7 65,71808511 11,28191489
8 58,22948328 -1,229483283
9 63,15425532 -7,154255319
10 48,58282675 2,417173252
11 73,85840932 2,141590679
12 65,92097264 2,079027356
Intervalos de confianza y predicción en regresión múltiple 39
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
b) Ajuste un modelo del tipo y anote la
ecuación del modelo ajustado
c) A partir del modelo ajustado, ¿cuál es el espesor estimado cuando se utiliza un
pH = 2 y una temperatura de 10 grados?
d) ¿El modelo es adecuado? Argumente con base en graficas de residuos, pruebas
de hipótesis y coeficientes de determinación.
16.- Se realizó un experimento para estudiar el sabor del queso panela en función de la
cantidad del cuajo y la sal. La variable de respuesta observada es el sabor promedio
reportado por un grupo de cinco panelistas que probaron todos los quesos y los
calificaron en una escala hedónica. Los datos obtenidos se muestran a continuación:
Sal Cuajo Sabor
6
5,5
4,5
4
4,5
5,5
5
5
0,3
0,387
0,387
0,3
0,213
0,213
0,3
0,3
5,67
7,44
7,33
6,33
7,11
7,22
6,33
6,66
a) Ajuste el modelo
b) ¿El modelo explica la variación observada en el sabor? Argumente con base en la significancia del modelo, los residuales y el coeficiente de determinación.
c) Ajuste un modelo que incluya términos cuadráticos y analice con detalle la calidad del
ajuste aplique las pruebas de hipótesis
d) Compare el error estándar de estimación ( y los coeficientes de determinación
( ) para ambos modelos
e) ¿Cuál modelo prefiere para explicar el sabor?
17.- Se piensa que la energía eléctrica consumida mensualmente por una planta química
se relaciona con la temperatura ambiente promedio ( , el número de días laborales del
mes ( , la pureza promedio del producto y las toneladas del producto producidas
. Se cuenta con los datos del último año, los cuales se presentan en la tabla
siguiente:
240
236
290
274
301
316 300
296
267
276
288
261
25
31
45
60
65
72 80
84
75
60
50
38
24
21
24
25
25
26 25
25
24
25
25
23
91
90
88
87
91
94 87
86
88
91
90
89
100
95
110
88
94
99 97
96
110
105
100
98
a) Ajuste un modelo de regresión lineal múltiple a estos datos
40 CAPÍTULO 1 Regresión lineal simple y múltiple
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
b) Prediga el consumo de electricidad para un mes en el que ,
días y toneladas
c) Calcule para este modelo. Interprete esta cantidad
d) Grafique los residuales contra . Interprete la grafica
1.2.3. Uso de un software estadístico
Para capturar la tabla de datos para el análisis de regresión lineal múltiple,
primeramente capturamos los datos en la hoja de cálculo, posteriormente activamos
Datos seguido de Análisis de datos y seleccionamos Regresión, y aceptar
Datos Análisis de datos Regresión
En la ventana de captura se solicitará el rango de celdas donde se encuentran los
datos para la variable dependiente Rango de entrada y para la(s) variable(s)
regresora(s) Rango de entrada (para los datos de X1 y X2, se sombrean ambos
simultáneamente con el ratón, en este caso a partir de la columna 2)
Uso de software estadístico 41
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
Activamos la casilla de rótulos, por default está indicado en una hoja nueva,
seleccionamos además cualquiera de las opciones de residuos, grafica de residuales, y
curva de regresión ajustada y aceptar y tendremos el resultado.
Utilizando Minitab
En Minitab la secuencia de captura para la regresión lineal simple o múltiple en la hoja
de cálculo una vez capturada las columnas de datos seleccionamos Estadísticas luego
Regresión seguida de Regresión nuevamente
Estadísticas Regresión Regresión
De la ventana desplegada en respuesta indicamos la variable de respuesta, en
este caso es resistencia y en predictor indicamos porcentaje de fibra activando también
cualquiera de las opciones posibles, terminando en aceptar.
Resumen
Estadísticas de la regresión
Coeficiente de correlación múltiple 0,841756673
Coeficiente de determinación R^2 0,708554296
R^2 ajustado 0,643788584
Error típico 5,363214691
Observaciones 12
ANÁLISIS DE VARIANZA
Grados de libertad Suma de cuadrados Promedio de los cuadrados F Valor crítico de F
Regresión 2 629,3733536 314,6866768 10,9402688 0,003895018
Residuos 9 258,8766464 28,76407182
Total 11 888,25
Coeficientes Error típico Estadístico t Probabilidad Inferior 95% Superior 95% Inferior 95,0% Superior 95,0%
Intercepción 3,651215805 16,16780562 0,22583249 0,82637676 -32,92290147 40,22533308 -32,92290147 40,22533308
Estatura 0,854609929 0,451664156 1,892135824 0,0910251 -0,167125376 1,876345234 -0,167125376 1,876345234
Edad 1,50633232 1,414265835 1,06509843 0,31457045 -1,692959268 4,705623908 -1,692959268 4,705623908
42 CAPÍTULO 1 Regresión lineal simple y múltiple
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
Nota: De la ventana de captura aparecen automáticamente en el cuadro de la izquierda
la información de la tabla, en respuesta , se indica con un clic del ratón en peso y este
automáticamente se manifiesta, en predictores de igual manera se da un clic a cada uno
y estos se manifiestan en el recuadro.
Análisis de regresión: Peso vs. Estatura; Edad La ecuación de regresión es
Peso = 3,7 + 0,855 Estatura + 1,51 Edad
Coef.
Predictor Coef de EE T P
Constante 3,65 16,17 0,23 0,826
Estatura 0,8546 0,4517 1,89 0,091
Edad 1,506 1,414 1,07 0,315
S = 5,36321 R-cuad. = 70,9% R-cuad.(ajustado) = 64,4%
Análisis de varianza
Fuente GL SC MC F P
Regresión 2 629,37 314,69 10,94 0,004
Error residual 9 258,88 28,76
Total 11 888,25
Fuente GL SC sec.
Estatura 1 596,74
Edad 1 32,63
Observaciones poco comunes
Ajuste Residuo
Obs Estatura Peso Ajuste SE Residuo estándar
7 55,0 77,00 65,72 1,96 11,28 2,26R
R denota una observación con un residuo estandarizado grande.
Regresión no lineal 43
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
1.3. Regresión no lineal
Si las dos variables X y Y se relacionan según un modelo de línea recta, se habla de
regresión lineal simple
Cuando las variables X y Y se relacionan según una línea curva, se habla de
regresión no lineal o curvilínea. Aquí se puede distinguir entre regresión parabólica,
exponencial, potencial etc.
Supongamos que al hacer la representación gráfica correspondiente la
distribución bidimensional, hemos obtenido la figura 6.1c. Se observa una clara relación
entre las dos variables, pero desde luego, esa relación no es lineal.
Por tanto, debemos buscar la función que ha de describir la dependencia entre
las dos variables.
Nos limitaremos al estudio de las más utilizadas: la función parabólica, la
logarítmica, la exponencial y la potencial.
Parábola de Regresión En muchos casos, es una función de segundo grado la que se ajusta lo suficiente a la
situación real dada.
La expresión general de un polinomio de 2º grado es:
donde a, b y c son los parámetros.
El problema consiste, por tanto, en determinar dichos parámetros para una
distribución dada. Seguiremos para ello, un razonamiento similar al que hicimos en el
caso del modelo de regresión lineal simple, utilizando el procedimiento de ajuste de los
mínimos cuadrados, es decir, haciendo que la suma de los cuadrados de las desviaciones
con respecto a la curva de regresión sea mínima:
donde, siguiendo la notación habitual, yi son los valores observados de la variable
dependiente, e los valores estimados según el modelo; por tanto, podemos escribir D
de la forma:
44 CAPÍTULO 1 Regresión lineal simple y múltiple
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
Para encontrar los valores de a, b y c que hacen mínima la expresión anterior,
deberemos igualar las derivadas parciales de D con respecto a dichos parámetros a cero
y resolver el sistema resultante. Las ecuaciones que forman dicho sistema se conocen
como ecuaciones normales de Gauss (igual que en el caso de la regresión lineal
simple).
Función Exponencial, Potencial y Logarítmica El problema de ajustar un modelo potencial, de la forma y uno exponencial
se reduce al de la función lineal, con solo tomar logaritmos.
Modelo potencial:
Si tomamos logaritmos en la expresión de la función potencial, obtendremos:
Como vemos es la ecuación de una recta: , donde ahora .
De modo que el problema es sencillo, basta con transformar Y en y X en y
ajustar una recta a los valores transformados. El parámetro b del modelo potencial
coincide con el coeficiente de regresión de la recta ajustada a los datos transformados, y
A lo obtenemos mediante el antilog(a).
Modelo exponencial: Tomando logaritmos en la expresión de la función exponencial, obtendremos:
También se trata de la ecuación de una recta , pero ahora
ajustándola a y a X; de modo que, para obtener el parámetro A del modelo
exponencial, basta con hacer antilog(a), y el parámetro B se obtiene tomando antilog(b).
Modelo logarítmico:
La curva logarítmica Y = a + b es también una recta, pero en lugar de estar
referida a las variables originales X e Y, está referida a y a Y.
Hemos visto, cómo, a pesar de ser inicialmente modelos mucho más complejos
que el de una recta, estos tres últimos se reducen al modelo lineal sin más que
transformar adecuadamente los datos de partida.
45
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
Capítulo 2
Diseño de experimentos de un factor
2.1. Familia de diseños para comparar tratamientos
2.2. El modelo de efectos fijos
2.3. Diseño completamente aleatorio y ANOVA
2.4. Comparaciones o pruebas de rangos múltiples
2.5. Verificación de los supuestos del Modelo
2.6. Uso de un software estadístico
46 CAPÍTULO 2 Diseño de experimentos de un factor
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
Competencias
1. Identificar dentro de la familia de los diseños experimentales, aquellos
utilizados en la comparación de tratamientos.
2. Diferenciar los distintos modelos estadísticos y los análisis de varianzas en
experimentos con un sólo factor.
3. Realizar las diversas pruebas de rangos múltiples y la comparación por
contrastes.
4. Verificar los supuestos del modelo estadístico en diseños con un solo factor.
Experimentos con un solo factor
En este tipo de diseño de experimento se considera un sólo factor de interés y
el objetivo es comparar más de dos tratamientos, con el fin de elegir la mejor
alternativa entre las varias que existen, o por lo menos para tener una mejor
comprensión del comportamiento de la variable de interés en cada uno de los distintos
tratamientos.
En esta unidad se presentan los diseños experimentales que se utilizan cuando el
objetivo es comparar más de dos tratamientos. Puede ser de interés comparar tres o más
máquinas, varios proveedores, cuatro procesos, tres materiales, cinco dosis de un
fármaco, etc.
Es obvio que, al hacer tales comparaciones, existe un interés y un objetivo claro.
Por ejemplo, una comparación de cuatro dietas de alimentación en la que se utilizan
ratas de laboratorio, se hace con el fin de estudiar si alguna dieta que se propone es
mejor o igual que las que ya existentes; en este caso, la variable de interés es el peso
promedio alcanzado por cada grupo de animales después de ser alimentado con la dieta
que le toco.
Por lo general, el interés del experimentador está centrado en comparar los
tratamientos en cuanto a sus medias poblacionales, sin olvidar que también es
importante compararlos con respecto a sus varianzas. Así, desde el punto de vista
estadístico, la hipótesis fundamental a probar cuando se comparan varios tratamientos
es:
(2.1)
Con la cual se quiere decidir si los tratamientos son iguales estadísticamente en
cuanto a sus medias, frente a la alternativa de que al menos dos de ellos son diferentes.
La estrategia natural para resolver este problema es obtener una muestra
representativa de mediciones en cada uno de los tratamientos, y construir un estadístico
de prueba para decidir el resultado de dicha comparación
Se podría pensar que una forma de probar la hipótesis nula de la expresión (2.1)
es mediante la prueba T de Student aplicadas a todos los posibles pares de medias; sin
embargo, esta manera de proceder incrementaría de manera considerable el error tipo I
(rechazar siendo verdadera).
Experimentos con un solo factor 47
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
Ejemplo
En el caso de comparar varias máquinas, si cada máquina es manejada por un
operador diferente y se sabe que éste tiene una influencia en el resultado,
entonces, es claro que el factor operador debe tomarse en cuenta si se quiere
comparar a las máquinas de manera justa.
Un operador más hábil puede ver a su máquina (aunque ésta sea la peor) como la
que tiene el mejor desempeño, lo que impide una comparación adecuada de
los equipos. Para evitar este sesgo habría dos maneras de anular el posible
efecto del factor operador:
Utilizando el mismo operador en las cuatro máquinas. Esta estrategia no es
aconsejable, ya que al utilizar el mismo operador, se elimina el efecto
del factor operador, pero restringe la validez de la comparación a dicho
operador, y es posible que el resultado no se mantenga al utilizar otros
operadores.
Cada operador trabaje durante el experimento con cada una de las máquinas,
esta estrategia es más recomendable, ya que al utilizar todos los operadores con
todas las máquinas permite tener resultados de la comparación que son
válidos para todos los operadores. Esta última de manera nulificar el efecto de
operadores, recibe el nombre de Bloqueo.
Factores de bloqueo.
Son factores adicionales al factor de interés que se incorporan de manera explícita
en un experimento comparativo, para estudiar de manera más adecuada y eficaz al
factor de interés.
Observación. Cuando se comparan varias máquinas, manejadas por operadores
diferentes, es pertinente incluir explícitamente al factor operadores (bloques) para lograr
el propósito del estudio. También se podrían controlar el tipo de material, lotes, tipo
de producto, día, turno, etc. Se controlan factores que por conocimiento del
proceso o experiencia previa, se sabe que pueden afectar en forma sensible el resultado
de la comparación
En el campo de la industria es frecuente hacer experimentos o pruebas con la
intención de resolver un problema o comprobar una idea (conjetura, hipótesis); por
ejemplo, hacer algunos cambios en los materiales, métodos o condiciones de operación
de un proceso, probar varias temperaturas en una máquina hasta encontrar la que de el
mejor resultado o crear un nuevo material con la intención de lograr mejoras o eliminar
algún problema.
Sin embargo, es común que estas pruebas o experimentos se hagan sobre la
marcha, con base en el ensayo y error, apelando a la experiencia y a la intuición, en
lugar de seguir un plan experimental adecuado que garantice una buena respuesta a las
interrogantes planteadas. Algo similar ocurre con el análisis de los datos
experimentales, donde más que hacer un análisis riguroso de toda la información
obtenida y tomar en cuenta la variación, se realiza un análisis informal, ¨intuitivo¨ Es tal
el poder de la experimentación que, en ocasiones, se logra mejoras a pesar de que el
experimento se hizo con base en el ensayo y error. Sin embargo, en situaciones de cierta
48 CAPÍTULO 2 Diseño de experimentos de un factor
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
complejidad no es suficiente aplicar este tipo de experimentación, por lo que es mejor
proceder siempre en una forma eficaz que garantice la obtención de las respuestas a las
interrogantes planteadas en un lapso corto de tiempo y utilizando pocos recursos.
El diseño estadístico de experimentos es precisamente la forma más eficaz de
hacer pruebas. El diseño de experimentos consiste en determinar cuáles pruebas se
deben realizar y de qué manera, para obtener datos que, al ser analizados
estadísticamente, proporcionen evidencias objetivas que permitan responder las
interrogantes planteadas, y de esa manera clarificar los aspectos inciertos de un proceso,
resolver un problema o lograr mejoras. Algunos problemas típicos que pueden
resolverse con el diseño y el análisis de experimentos son los siguientes:
1. Comparar a dos o más materiales con el fin de elegir al que mejor cumple los
requerimientos.
2. Comparar varios instrumentos de medición para verificar si trabajan con la
misma precisión y exactitud.
3. Determinar los factores (las x vitales) de un proceso que tienen impacto sobre
una o más características del producto final.
4. Encontrar las condiciones de operación (temperatura, velocidad, humedad, por
ejemplo) donde se reduzcan los defectos o se logre un mejor desempeño del
proceso.
5. Reducir el tiempo de ciclo del proceso.
6. Hacer el proceso insensible o robusto a oscilaciones de variables ambientales.
7. Apoyar el diseño o rediseño de nuevos productos o procesos
8. Ayudar a conocer y caracterizar nuevos materiales.
En general, cuando se requiere mejorar un proceso existen dos maneras básicas
de obtener la información necesaria para ello:
Observar o monitorear vía herramientas estadísticas, hasta obtener señales
útiles que permitan mejorarlo; se dice que ésta es una estrategia pasiva.
La otra manera consiste en experimentar, es decir, hacer cambios
estratégicos y deliberados al proceso para provocar dichas señales útiles.
Al analizar los resultados del experimento se obtienen las pautas a seguir, que
muchas veces se concretan en mejoras sustanciales del proceso. En este sentido,
experimentar es mejor que sentarse a esperar a que el proceso nos indique por sí solo
cómo mejorarlo. El diseño de experimentos es un conjunto de técnicas activas, en el
sentido de que no esperan que el proceso mande las señales útiles, sino que éste se
¨manipulan¨ para que proporcione la información que se requiere para su mejoría.
El saber diseño de experimentos y otras técnicas estadísticas, en combinación
con conocimientos del proceso, sitúan al responsable del mismo como un observador
perceptivo y proactivo que es capaz de proponer mejoras y de observar algo interesante
(oportunidades de mejora) en el proceso y en los datos donde otra persona no ve nada.
Nota. Comentarles la anécdota de las naranjas
Experimentos con un solo factor 49
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
2.1. Familia de diseños para comparar tratamientos.
Los diseños experimentales más utilizados para comparar tratamientos son:
1. Diseño completamente al azar (DCA)
2. Diseño en bloque completamente al azar (DBCA)
3. Diseño en cuadro latino (DCL)
4. Diseño en cuadro grecolatino (DCGL)
La diferencia fundamental entre estos diseños es el número de factores de bloque que
incorporan o controlan de forma explícita durante el experimento. La comparación de
los tratamientos en cuanto a la respuesta media que logran, en cualquiera de estos
diseños, se hace mediante la hipótesis
que se prueba con la técnica estadística llamada Análisis de Varianza (ANOVA)
con uno, dos, tres o cuatro criterios de clasificación, dependiendo del número
de factores de bloques incorporados al diseño.
Diseño Factores de
bloqueo
ANOVA con Modelo estadístico
DCA 0 Un criterio DBCA 1 Dos criterios
DCL 2 Tres criterios
DCGL 3 Cuatro criterios
Y es la variable de salida, la media global, el efecto del i-ésimo tratamiento, error aleatorio, y
, son los efectos de tres factores de bloqueo.
El modelo estadístico que describe el comportamiento de la variable observada
Y en cada diseño, incorpora un término adicional por cada factor de bloqueo
controlado.
De acuerdo con los modelos dados en la tabla, para cada diseño
comparativo se tienen al menos dos fuentes de variabilidad: los tratamientos o niveles
del factor de interés y el error aleatorio. Se agrega una nueva fuente de variabilidad por
cada factor de bloque que se controla directamente. Se observa que los diseños suponen
que no hay efectos de interacción entre los factores, lo cual sería lo deseable
que ocurra; de no ocurrir así, tal efecto se recarga al error y el problema de
comparación no se resuelve con éxito.
Un efecto de interacción entre dos factores hace referencia a que el efecto
de cada factor depende del nivel en que se encuentra el otro.
50 CAPÍTULO 2 Diseño de experimentos de un factor
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
2.2. El modelo de efectos fijos
El modelo de efectos fijos (es cuando se estudian todos los posibles tratamientos) de
análisis de la varianza se aplica a situaciones en las que el experimentador ha sometido
al grupo o material analizado a varios factores, cada uno de los cuales le afecta sólo a la
media, permaneciendo la "variable respuesta" con una distribución normal.
Este modelo se supone cuando el investigador se interesa únicamente por los niveles del
factor presentes en el experimento, por lo que cualquier variación observada en las
puntuaciones se deberá al error experimental.
En caso que los tratamientos tengan efecto, las observaciones se podrán
describir con el modelo estadístico lineal dado por:
(2.2)
donde es el parámetro de escala común a todos los tratamientos, llamado media
global, ; es un parámetro que mide el efecto del tratamiento y es el error
atribuible a la medición . Este modelo implica que en el diseño completamente al
azar actuarían a lo más dos fuentes de variabilidad: Los tratamientos y el error aleatorio.
La media global de la variable de respuesta no se considera una fuente de variabilidad
por ser una constante común a todos los tratamientos, que hace las veces de punto de
referencia con respecto al cual se comparan las respuestas medias de los tratamientos.
Si la respuesta media de un tratamiento particular es ¨muy diferente¨ de la
respuesta media global , es un síntoma de que existe un efecto de dicho tratamiento, ya
que como se verá más adelante, . La diferencia que debe tener las medias
entre sí para concluir que hay un efecto (que los tratamientos son diferentes), nos lo
dice el análisis de varianza (ANOVA).
En la práctica puede suceder que los tratamientos que se desea comparar sean
demasiados como para experimentar con todos. Cuando esto sucede es conveniente
comparar sólo una muestra de la población de tratamientos, de modo que pasa a ser
una variable aleatoria con su propia varianza que deberá estimarse a partir de los
datos. En este capítulo sólo se presenta el caso en que todos los tratamientos que se
tienen se prueban, es decir, se supone una población pequeña de tratamientos, lo cual
hace posible compararlos a todos. En este caso, el modelo dado por la ecuación (2.2) se
llama modelo de efectos fijos.
2.3. Diseño completamente al azar y ANOVA Muchas comparaciones, como las antes mencionadas, se hacen con base en el diseño
completamente al azar (DCA), que es el más simple de todos los diseños que se utilizan
para comparar dos o más tratamientos, dado que sólo consideran dos fuentes de
Diseños completamente al azar y ANOVA 51
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
variabilidad: los tratamientos y el error aleatorio. En la siguiente unidad veremos
diseños que consideran la influencia de otras fuentes de variabilidad (bloques).
Este diseño se llama completamente al azar porque todas las corridas
experimentales se realizan en orden aleatorio completo. De esta manera, si durante el
estudio se hacen en total N pruebas, éstas se corren al azar, de manera que los posibles
efectos ambientales y temporales se vayan repartiendo equitativamente entre los
tratamientos.
Ejemplo 1
Comparación de cuatro métodos de ensamble. Un equipo de mejora investiga el
efecto de cuatro métodos de ensamble A, B, C y D, sobre el tiempo de ensamble en
minutos con un nivel de significancia de 0.05. En primera instancia, la estrategia
experimental es aplicar cuatro veces los cuatro métodos de ensamble en orden
completamente aleatorio (las 16 pruebas en orden aleatorio). Los tiempos de ensamble
obtenidos se muestran en la tabla 2.1. Si se usa el diseño completamente al azar (DCA),
se supone que, además del método de ensamble, no existe ningún otro factor que influya
de manera significativa sobre la variable de respuesta (tiempo de ensamble)
Tabla 2,1 Diseño completamente al azar
para el ejemplo 1
Método de ensamble
A B C D
6
8
7
8
7
9
10
8
11
16
11
13
10
12
11
9
Ejemplo 2
Comparación de cuatro tipos de cuero. Un fabricante de calzado desea mejorar la
calidad de las suelas, las cuales se pueden hacer con uno de los cuatro tipos de cuero A,
B, C y D disponibles en el mercado. Para ello, prueba los cueros con una máquina que
hace pasar los zapatos por una superficie abrasiva; la suela de éstos se desgasta al
pasarla por dicha superficie. Como criterio de desgaste se usa la pérdida de peso
después de un número fijo de ciclos. Se prueban en orden aleatorio 24 zapatos, seis de
cada tipo de cuero. Al hacer las pruebas en orden completamente al azar se evitan
sesgos y las mediciones en un tipo de cuero resultan independientes de las demás. Los
datos (en miligramos) sobre el desgaste de cada tipo de cuero se muestran en la tabla 2.2
Tabla 2,2 Comparación de cuatro tipos de cuero (cuatro tratamientos)
Tipo de cuero Observaciones Promedio
A
B
C
D
264 260 258 241 262 255
208 220 216 200 213 206
220 263 219 225 230 228
217 226 215 227 220 222
256,7
209,8
230,8
220,7
52 CAPÍTULO 2 Diseño de experimentos de un factor
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
El análisis de la varianza de un criterio (ANOVA de un criterio) es una
metodología para analizar la variación entre muestras y la variación al interior de las
mismas con varianzas, en lugar de rangos. Como tal, es un método estadístico útil para
comparar dos o más medias poblacionales.
El objetivo del análisis de varianza en el DCA es probar las hipótesis de
igualdad de los tratamientos con respecto a la media de la correspondiente variable de
respuesta:
Nota: Primeramente explicare el cálculo manual tradicional para ANOVA,
posteriormente el simplificado y más práctico, así como su solución utilizando un
paquete computacional.
El método de ANOVA con un criterio requiere del cálculo de dos estimaciones
independientes para , la varianza poblacional común. Estas dos estimaciones se
denotan por y
.
. Se denomina estimación de la varianza entre muestras (Método entre)
. Se denomina estimación de la varianza al interior de las muestras (Método dentro)
El estadístico entonces resulta
y tiene una distribución muestral que sigue
una distribución F.
Estadístico F para el ANOVA con un criterio
(2,3)
El cual se contrastara con el valor de encontrado en tablas en relación a los
grados de libertad del numerador entre grados de libertad del denominador y con un
nivel de significancia ( ) prefijado.
Se rechaza la si
Se deduce que si es grande, se contradice la hipótesis de que no hay efectos
de tratamientos; en cambio, si es pequeño se confirma la validez de
Método dentro
El método dentro de estimación de la varianza produce una estimación válida sin
importar si la hipótesis nula de las medias poblacionales iguales es cierta. Esto se debe a
que la variabilidad de los valores de la muestra se determina comparando cada elemento
Diseños completamente al azar y ANOVA 53
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
en los datos con la media muestral. Cada valor de la muestra obtenido de la población A
se compara con la media muestral A; cada elemento obtenido de la población B se
compara con la media muestral B, y así sucesivamente. La ecuación para calcular la
estimación de la varianza con el método dentro es:
=
donde: (2,4)
= Estimación de la varianza muestral con el método entre.
= i-ésimo elemento de los datos de grupo j.
= media del grupo j
C = número de grupos
n = número de elementos de la muestra en cada grupo.
El número adecuado de grados de libertad para el método dentro se calcula como
c(n-1) si el número de observaciones en cada grupo es igual. Como a cada elemento del
grupo se le resta la media de ese grupo, sólo (n-1) elementos de cada grupo pueden
variar. Además como se tienen c grupos, c se multiplica por (n-1) para obtener los
grados de libertad para el método dentro.
Grados de libertad para
glw = C(n – 1)
Método entre
El segundo método para estimar la varianza común de la población produce una
estimación válida sólo si la hipótesis nula es cierta. Para entender el método entre
recuerde el teorema del límite central. Este importante teorema en estadística establece
que la distribución de las medias muestrales tiende a una distribución normal conforme
crece el tamaño de la muestra, con una media y una desviación estándar n. Si el
error estándar de la media es n, entonces la varianza de la distribución es igual al
error estándar al cuadrado, 2n.
Esta varianza es una medida de las diferencias entre todas las medias muestrales
que puedan obtenerse de la distribución y la media de la población. La raíz cuadrada de
esta varianza es el error estándar de la media, es decir, la diferencia estándar entre una
media muestral y la media poblacional.
En ANOVA, para estimar la varianza de la distribución muestral de
medias, se debe estimar primero la media poblacional. La media de todos los valores
muestrales proporciona esa estimación. Después, se determina la diferencia entre la
media de cada grupo y esta media poblacional estimada, y estas diferencias se elevan al
cuadrado y se suman. Este valor, con frecuencia se llama la suma de cuadrados entre
(SCb). Esta suma se divide entonces entre el número adecuado de grados de libertad
para obtener la estimación de la varianza de la distribución muestral. La ecuación
siguiente da el cálculo de la estimación de la varianza de la distribución muestral de las
medias:
54 CAPÍTULO 2 Diseño de experimentos de un factor
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
=
donde: (2,5)
= Estimación del método entre de la varianza poblacional común.
= media del grupo j.
= media global (media de todos los valores), usada como estimación de .
C = número de grupos
n = número de elementos de la muestra en cada grupo si el número de
observaciones en cada uno es el mismo.
Grados de libertad para
glb = (C – 1)
Tabla ANOVA
Los resultados del análisis de varianza se presentan en una tabla ANOVA que
resume los valores importantes de la prueba. Esta tabla tiene un formato estándar que
usan los libros y los problemas de computadora que ejecutan ANOVA. La siguiente
tabla muestra la forma general de la tabla ANOVA.
En dicha tabla se resumen los cálculos necesarios para la prueba de igualdad de las
medias poblacionales usando análisis de varianza. Primero se usa el método dentro para
estimar 2. Cada valor de los datos se compara con su propia media, y la suma de las
diferencias al cuadrado se divide entre los grados de libertad c(n-1).
Fuf fFuente de
variación SC GL Estimación de
2
Coeficiente F
Grupos Entre
2 c - 1 / glb S S
/
Grupos Dentro 2 c(n-1)
/ glb
Total ( xij – x ) 2
donde:
= Número de la columna
i = Número de la fila
c = Número de columnas (grupos)
n = Número de elementos en cada grupo (tamaño de la muestra)
La tabla ANOVA contiene columnas con las fuentes de variación, las sumas de
cuadrados, los grados de libertad, las estimaciones de la varianza y el valor F para el
procedimiento de análisis de varianza.
Retomando el problema del efecto de cuatro métodos de ensamble A, B, C y D,
sobre el tiempo de ensamble en minutos tenemos:
Diseños completamente al azar y ANOVA 55
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
Método de ensamble
A B C D
6
8
7
8
7
9
10
8
11
16
11
13
10
12
11
9
Media ( i) 7,25 8,5 12,75 10,5
Media global : = 9,73
C = 4, n = 4
= 4
= +
+
+
Completando la tabla ANOVA, quedando de la siguiente manera
Fuente de
Variación SC gl Estimación de 2 Coeficiente F
---------------------------------------------------------------------------------------------------------- Grupos entre 69,49 3 69,75/3 = 23,25 23,25/2,45 = 9,42 Grupos dentro 29,48 12 29,48/12 = 2,45 ----------------------------------------------------------- ----------------------------------------------- TOTA 98,97 15
Como la hipótesis a probar es
H0: 1 = 2 = 3 = 4
H1: No todas las poblaciones tienen la misma media
El valor de F calculado por tabla cuando tenemos un nivel de significancia de
0,05 y 3 grados de libertad en el numerador y 12 grados de libertad en el denominador
es F0,05 (3,12) = 3,49
Como nuestro estadístico de prueba F (9,42) excede el valor crítico tabulado
(3,49), rechazamos la hipótesis nula y aceptamos la alterna, concluyendo que sí hay
diferencia o efecto de los métodos de ensamble en cuanto a su tiempo promedio.
56 CAPÍTULO 2 Diseño de experimentos de un factor
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
Ahora veremos el procedimiento y notación más comúnmente utilizado para la
solución de ANOVA Tabla 2.3 Diseño completamente al azar (DCA)
Tratamientos
…
.
.
.
…
.
.
.
.
…
Notación de puntos
Sirve para presentar de manera abreviada cantidades numéricas que se pueden calcular a
partir de los datos experimentales donde representa la observación en el
tratamiento , con y . Las cantidades de interés son las
siguientes:
Note que el punto indica la suma sobre el correspondiente subíndice. Así, algunas
relaciones válidas son:
(2.6)
donde es el total de observaciones.
ANOVA
Como ya lo mencionamos el objetivo del análisis de varianza en el DCA es probar la
hipótesis de igualdad de los tratamientos con respecto a la media de correspondiente
variable de respuesta.
Para probar la hipótesis dada por la relación:
mediante la técnica de ANOVA, lo primero es descomponer la variabilidad total de los
datos en sus dos componentes: la variabilidad debida a tratamientos y la que
corresponde al error aleatorio (equivalente al método entre y método dentro), como se
hace a continuación.
Una medida de la variabilidad total presente en las observaciones de la tabla 2.3
es la suma total de cuadrados ( ) dada por:
Diseños completamente al azar y ANOVA 57
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
(2.7)
donde es la suma de los datos en el experimento.
La suma de cuadrados de tratamientos ( ) ésta dado por:
(2.8)
donde apreciamos que la mide la variación o diferencias entre tratamientos, ya
que si éstos son muy diferentes entre sí, entonces la diferencia tenderá a ser
grande en valor absoluto, y con ello también será grande la
La suma de cuadrados del error ( ) ésta dado por:
(2.9)
donde la mide la variación dentro de tratamientos, ya que si hay mucha variación
entre las observaciones de cada tratamiento entonces tenderá a ser grande en
valor absoluto. En forma abreviada, esta descomposición de la suma total de cuadrados
se puede describir como:
(2.10)
La suma de cuadrados divididos entre sus respectivos grados de libertad se
llaman cuadrados medios. Los dos que más interesan son el cuadrado medio de
tratamientos ( ) y el cuadrado medio del error ( , que se denotan por:
(2.11)
(2.12)
Con base en este hecho se construye el estadístico de prueba como sigue: se sabe
que y son independientes, por lo que y son dos
variables son dos variables aleatorias independientes con distribución ji-cuadrada con
y grados de libertad, respectivamente. Entonces, bajo el supuesto de que la
hipótesis es verdadera, el estadístico
(2.13)
sigue una distribución con ( grados de libertad en el numerador y ( )
grados de libertad en el denominador. De la ecuación (2.13) se deduce que si es
grande, se contradice la hipótesis de que no hay efecto de tratamientos; en cambio, si
58 CAPÍTULO 2 Diseño de experimentos de un factor
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
es pequeño se confirma la validez de . Así para un nivel de significancia prefijado,
se rechaza si donde es el percentil ( ) x 100 de
la distribución . También se rechaza si el valor-p , donde el valor-p es el área
bajo la distribución a la derecha del estadístico , es decir, el
)
Toda la información necesaria para calcular el estadístico hasta llegar al
valor-p se escribe en la llamada tabla de análisis de varianza (ANOVA) que se muestra en
la tabla 2.4. En esta tabla, las abreviaturas significan lo siguiente: fuente de
variabilidad (efecto), suma de cuadrados, grados de libertad,
cuadrado medio, estadístico de prueba, valor-p = significancia observada
Tabla 2.4 Tabla de ANOVA para DCA
SC GL CM Valor-p
Tratamientos
Error Total
)
Análisis del ejemplo 1 (comparación de cuatro tipos de métodos de ensamble).
La interrogante que se planteó en el problema de la comparación entre los cuatro tipos
de métodos de ensamble fue: ¿existen diferencias entre el tiempo promedio de los
diferentes métodos de ensamble? La respuesta a esta pregunta es el resultado de
contrastar las hipótesis:
Cálculos manuales
Detalles de los cálculos para el ANOVA en DCA para el tiempo de ensamble Métodos de ensamble Operaciones básicas
Observaciones A B C D 6 7 11 10 8 9 16 12 7 10 11 11 8 8 13 9
=
Suma de los cuadrados de todas las observaciones o datos
=
suma de los datos
total de mediciones
media global
Total por
Tratamiento ( 29 34 51 42
Numero de datos En cada tratamiento ( 4 4 4 4
Media muestral por
Tratamiento ( 7.25 8.50 12.75 10.50
Desviaciones respecto -2.50 -1.25 3.0 0.75
A la media global (
Diseños completamente al azar y ANOVA 59
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
1.- Suma total de cuadrados o variabilidad total de los datos:
= 1620 -
2.- Suma de cuadrados de tratamientos o variabilidad debida a la diferencia entre
métodos de ensamble:
3.- Suma de cuadrados del error o variabilidad dentro de métodos de ensamble:
4.- Cuadrados medios de tratamientos y del error (efecto ponderado de cada fuente de
variación):
5.- Estadístico de prueba:
Con toda esta información se procede a llenar la tabla ANOVA. El valor de la
significancia observada o valor-p es el área bajo la curva de la distribución a la
derecha de , lo cual es difícil de calcular de forma manual. Sin embargo,
cuando esto no sea posible, recordemos que otra forma de rechazar o no una hipótesis es
comparar el estadístico de prueba contra un número crítico de tablas. En el caso de las
tablas de la distribución , en donde se lee que el valor crítico para es
. Como:
entonces se rechaza , con lo cual se concluye que sí hay diferencias o efecto de los
métodos de ensamble en cuanto a su tiempo promedio
Tabla ANOVA
Fuente de
variaciones
SC GL CM Valor
crítico
para F
Tratamientos 69,5 3 23,17 9,42 3,49
Error 29,5 12 2,46
Total 99,0 15
Resultados arrojados en un paquete computacional (Excel y Minitab), para el
ejemplo 1 de los tiempos de ensamble para los cuatro métodos.
60 CAPÍTULO 2 Diseño de experimentos de un factor
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
ANOVA unidireccional: A; B; C; D Minitab Fuente GL SC MC F P
Factor 3 69,50 23,17 9,42 0,002
Error 12 29,50 2,46
Total 15 99,00
S = 1,568 R-cuad. = 70,20% R-cuad.(ajustado) = 62,75%
ICs de 95% individuales para la media
basados en Desv.Est. agrupada
Nivel N Media Desv.Est. --------+---------+---------+---------+-
A 4 7,250 0,957 (------*------)
B 4 8,500 1,291 (------*------)
C 4 12,750 2,363 (------*------)
D 4 10,500 1,291 (------*------)
--------+---------+---------+---------+-
7,5 10,0 12,5 15,0
Desv.Est. agrupada = 1,568
Diagrama de cajas simultáneos
Los diagramas de cajas es una herramienta para describir el comportamiento e unos
datos, y es de suma utilidad para comparar procesos, tratamientos y, en general, para
hacer análisis por estratos (lotes, proveedores, turnos). En el resultado arrojado por
Minitab se observa en la figura (figura 2.1) que el método C parece diferente al los
métodos A y B en cuanto a sus medias; la media del método D también se ve diferente
a la media del método A. Por otra parte, se observa un poco más de variabilidad en el
método C que en todos los demás. Lo que sigue es verificar que lo que se observa en el
diagrama de cajas implica diferencias significativas entre los distintos tratamientos; por
lo tanto, es necesario hacer pruebas estadísticas porque los datos que se analizan en los
diagramas de cajas son muestras.
Diseños completamente al azar y ANOVA 61
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
En general, cuando los diagramas no se traslapan es probable que los
tratamientos correspondientes sean diferentes entre sí, y la probabilidad es mayor en la
medida que los diagramas están basados en más datos. Cuando se traslapan un poco
puede ser que haya o no diferencias significativas, y en cualquier caso es conveniente
utilizar una prueba estadística para determinar cuáles diferencias son significativas.
Estas pruebas se verán en la siguiente sección.
DCBA
17,5
15,0
12,5
10,0
7,5
5,0
Da
tos
Gráfica de caja de A; B; C; D
Figura 2.1 Diagrama de cajas para los métodos de ensamble
Análisis del ejemplo 2 (comparación de cuatro tipos de cuero). La interrogante que se
planteó en el problema de la comparación entre los cuatro tipos de cuero fue: ¿existen
diferencias entre el desgaste promedio de los diferentes tipos de cuero? La respuesta a
esta pregunta es el resultado de contrastar las hipótesis:
En el resultado arrojado por Excel, se muestra el análisis de varianza para este
ejemplo. Como el valor-p = 0,0000 es menor que la significancia prefijada , se
rechaza y se acepta que al menos un par de tipos de cuero tiene un desgaste
promedio diferente
Análisis de varianza de un factor en Excel
RESUMEN
Grupos Cuenta Suma Promedio Varianza
A 6 1540 256,6666667 68,6666667
B 6 1263 210,5 52,7
C 6 1385 230,8333333 266,966667
D 6 1327 221,1666667 22,9666667
ANÁLISIS DE VARIANZA
Origen de las variaciones Suma de cuadrados Grados de libertad Promedio de los cuadrados F Probabilidad Valor crítico para F
Entre grupos 7019,458333 3 2339,819444 22,7553556 1,17615E-06 3,098391224
Dentro de los grupos 2056,5 20 102,825
Total 9075,958333 23
62 CAPÍTULO 2 Diseño de experimentos de un factor
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
ANOVA unidireccional: A; B; C; D Minitab Fuente GL SC MC F P
Factor 3 7019 2340 22,76 0,000
Error 20 2057 103
Total 23 9076
S = 10,14 R-cuad. = 77,34% R-cuad.(ajustado) = 73,94%
ICs de 95% individuales para la media
basados en Desv.Est. agrupada
Nivel N Media Desv.Est. ----+---------+---------+---------+-----
A 6 256,67 8,29 (----*-----)
B 6 210,50 7,26 (-----*----)
C 6 230,83 16,34 (----*-----)
D 6 221,17 4,79 (----*-----)
----+---------+---------+---------+-----
208 224 240 256
Desv.Est. agrupada = 10,14
2.4. Comparaciones o pruebas de rangos múltiples El análisis de varianza es un procedimiento poderoso para probar la homogeneidad de
un conjunto de medias. Sin embargo, si rechazamos la hipótesis nula ( ) y aceptamos
la alterna (que no todas las medias son iguales) aún no sabemos cuáles de las medias
poblacionales son iguales y cuáles son diferentes.
Comparación de parejas de medias de tratamientos.
Cuando no se rechaza la H0: 1 = 2 = 3, el objetivo del experimento está cubierto y
la conclusión es que los tratamientos no son diferentes. Si por el contrario se rechaza
H0, y por consiguiente se acepta la H1: No todas las poblaciones tienen la misma media,
es necesario investigar cuáles tratamientos resultaron diferentes, o cuáles provocan la
diferencia.
Estas interrogantes se responden probando la igualdad de todos los posibles
pares de medias, para lo cual se han propuesto varios métodos, conocidos como
métodos de comparaciones múltiples o pruebas de rango múltiple. La diferencia
primordial entre los métodos radica en la potencia que tienen para detectar las
diferencias entre las medias. Se dice que una prueba es más potente si es capaz de
detectar diferencias más pequeñas.
Hay varios métodos estándar para realizar comparaciones pareadas que apoyen
la credibilidad de la tasa de error tipo I.
Método de la diferencia mínima significativa de Fisher (método LSD).
Una vez que se rechazo en el ANOVA, el problema es probar la igualdad de todos
los posibles pares de medias con la hipótesis:
Comparación o pruebas de rangos múltiples 63
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
para toda . Para tratamientos se tienen en total pares de medias. Por
ejemplo, si existen posibles pares de medias. El estadístico de prueba
para cada una de las hipótesis dadas es la correspondiente diferencia en valor absoluto
entre sus medias muestrales . Se rechaza la hipótesis si ocurre que
(2.14)
donde el valor de se lee en las tablas de la distribución T de student con
grados de libertad que corresponde al error, el es el cuadrado medio del
error y se obtiene de la tabla ANOVA, y son el número de observaciones para los
tratamientos , respectivamente. La LSD se llama diferencia mínima significativa de
Fisher, ya que es la diferencia mínima que debe existir entre dos medias muestrales para
considerar que los tratamientos correspondientes son significativamente diferentes. Así,
cada diferencia de medias muestrales que si el diseño es balanceado, es decir, si
, la diferencia mínima significativa se reduce a:
(2.15)
En caso de rechazar se acepta la hipótesis alternativa la cual nos dice que las
medias de los tratamientos son diferentes. El método LSD tiene una potencia
importante, por lo que en ocasiones declara significativas aun pequeñas diferencias.
Ilustremos esta prueba continuando con el ejemplo 1, en el cual, con el ANOVA
se rechazó la hipótesis nula y se aceptó que al menos un par de medias de tratamientos
(métodos de ensamble) son diferentes entre sí. Para investigar cuáles pares de medias
son estadísticamente diferentes se prueban los seis posibles pares de hipótesis:
(2.16)
Utilizando el método de LSD. EN el ANOVA se observa que los grados de
libertad del error son , y que el cuadrado medio del error es . Si
usamos una significación predefinida de , de la tabla de la distribución T de
64 CAPÍTULO 2 Diseño de experimentos de un factor
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
Student con 12 grados de libertad, se obtiene que , . Como
en cada tratamiento se hicieron pruebas, entonces
La decisión sobre cada una de las seis hipótesis listadas arriba se obtiene al
comparar las correspondientes diferencias de medias muestrales en valor absoluto con el
número LSD = 2,42. Se declaran significativas aquellas diferencias que son mayores a
este número. Los resultados se muestran en la tabla 2,5, de donde se concluye que
mientras que .
Tabla 2,5 Aplicación de la prueba LSD a métodos de ensamble
Diferencia
poblacional
Diferencia muestral
en valor absoluto
Decisión
7,25 - 8,50 = 1.25 2,42
7,25 – 12,75 = 5,50 2,42
7,25 – 10,50 = 3,25 2,42
8,50 – 12,75 = 4,25 2,42
8,50 – 10,50 = 2 2,42
12,75 – 10,50 = 2,25 2,42
No significativo
Significativo
Significativo
Significativo
No significativo
No significativo
En el resultado de comparación de parejas arrojado por minitab, por el método
de LSD, observamos que este nos indica los intervalos de confianza para las
comparaciones de cada par de muestras, por lo que debemos tomar el punto medio de
cada comparación (centro) y contrastarlo con el valor del estadístico t de student
obtenido en tablas (2,42) y tomar la decisión que corresponda
Intervalos de confianza individuales de Fisher(LSD) del 95%
Todas las comparaciones en parejas en Minitab
Se restó A a:
Inferior Centro Superior -------+---------+---------+---------+--
B -1,166 1,250 3,666 (-----*-----)
C 3,084 5,500 7,916 (-----*-----)
D 0,834 3,250 5,666 (-----*-----)
-------+---------+---------+---------+--
-4,0 0,0 4,0 8,0
Se restó B a:
Inferior Centro Superior -------+---------+---------+---------+--
C 1,834 4,250 6,666 (-----*-----)
D -0,416 2,000 4,416 (-----*-----)
-------+---------+---------+---------+--
-4,0 0,0 4,0 8,0
Se restó C a:
Inferior Centro Superior -------+---------+---------+---------+--
D -4,666 -2,250 0,166 (-----*-----)
-------+---------+---------+---------+--
-4,0 0,0 4,0 8,0
Comparación o pruebas de rangos múltiples 65
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
Método de Tukey.
Es el método más conservador para comparar pares de medias de tratamientos, el cual
consiste en comparar las diferencias entre medias muestrales con el valor crítico dado
por:
(2,17)
donde
Es el cuadrado medio del error ( / glb )
Es el número de observaciones por tratamiento
Es el número de tratamientos
Es igual a los grados de libertad para el error
Es el nivel de significancia prefijado
Son puntos porcentuales de la distribución del rango estudentizado,
que se obtienen de la correspondiente tabla
Se declaran significativamente diferentes los pares de medias cuya diferencia
muestral en valor absoluto sea mayor que . A diferencia de los métodos LSD y
Duncan, el método Tukey trabaja con un error muy cercano al declarado por el
experimentador.
Ejemplo. Al aplicar el método de Tukey al ejemplo 1 de los métodos de ensamble, a
partir de la tabla ANOVA correspondiente, se toma la información pertinente y de las
tablas del rango estudentizado (tabla 1) dada en el apéndice.
( / glb ) = 2,45
4
4
12
0,05
en tablas de rango estudentizado corresponde a 4,20
66 CAPÍTULO 2 Diseño de experimentos de un factor
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
sustituyendo en la ecuación tenemos
Que al compararlo con las diferencias de medias muestrales, los resultados sobre
las hipótesis son:
Diferencia poblacional
Diferencia muestral 1,25 3,27 5,50 3,27 3,25 3,27 4,25 3,27 2,00 3,27 2,25 3,27
Decisión No significativo Significativo No significativo Significativo No significativo No significativo
De esta tabla se concluye que , , y .
Observe que esta prueba no encuentra diferencias entre los métodos d ensamble A y D,
la cual si se detecta por otros métodos. Esto es congruente con el hecho de que la prueba
de Tukey es menos potente que la prueba LSD (diferencia mínima significativa)
En el resultado de comparación de parejas arrojado por minitab, por el método
de Tukey, observamos que este nos indica los intervalos de confianza para las
comparaciones de cada par de muestras, por lo que debemos tomar el punto medio de
cada comparación (centro) y contrastarlo con el valor del estadístico de rango
estudentizado obtenido en tablas (4,20) y sustituyendo en la formula obteniendo el valor
de , el cual se contrasta con la diferencia de medias y se tomar la decisión
que corresponda
Intervalos de confianza simultáneos de Tukey del 95%
Todas las comparaciones en parejas en Minitab
Se restó A a:
Inferior Centro Superior -----+---------+---------+---------+----
B -2,043 1,250 4,543 (------*-----)
C 2,207 5,500 8,793 (------*------)
D -0,043 3,250 6,543 (------*-----)
-----+---------+---------+---------+----
-5,0 0,0 5,0 10,0
Se restó B a:
Inferior Centro Superior -----+---------+---------+---------+----
C 0,957 4,250 7,543 (------*-----)
D -1,293 2,000 5,293 (------*------)
-----+---------+---------+---------+----
-5,0 0,0 5,0 10,0
Se restó C a:
Inferior Centro Superior -----+---------+---------+---------+----
D -5,543 -2,250 1,043 (------*-----)
-----+---------+---------+---------+----
-5,0 0,0 5,0 10,0
Comparación o pruebas de rangos múltiples 67
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
Método de Duncan.
En este método para la comparación de medias, si las muestras son de igual tamaño,
los promedios se acomodan en orden ascendente y el error estándar de los promedios
se estima con
(2,18)
Este procedimiento de Duncan también se llama prueba de rango múltiple de
Duncan. Este procedimiento también se basa en la notación general del rango
studentizado. El rango de cualquier subconjunto de medias muestrales debe exceder
cierto valor antes de que se encuentre que cualquiera de las medias es diferente. Este
valor se llama rango de menor significancia para las medias y se denota como
(2,19)
( = muestras)
= Grados de libertad para el error que corresponden a ( )
= Cuadrado medio del error ( / glb )
= Numero de observaciones por tratamiento
= Valores críticos para la prueba de Duncan (obtenidos en tabla)
Los valores de la cantidad , que se denominan rango studentizado de menor
significancia, dependen del nivel de significancia que se desea y el número de grados
de libertad del cuadrado medio del error. Estos valores se pueden obtener de la tabla
valores críticos para la prueba de Duncan (tabla 2)
Las diferencias observadas entre las medias muestrales se comparan con los rangos
(rango de menor significancia) de la siguiente manera:
Primero se comparan la diferencia entre la media más grande y la más pequeña
con el rango
Luego, la diferencia entre la media más grande y la segunda más pequeña se
compara con el rango
Estas comparaciones continúan hasta que la media mayor se haya comparado
con todas las demás.
Enseguida, se compara la diferencia entre la segunda media más grande y la
media menor con el rango
Después la diferencia entre la segunda media más grande y la segunda más
pequeña se compara con el valor de
Y así sucesivamente hasta que se comparan los pares de medias
posibles con el rango que les corresponda
En las comparaciones donde la diferencia observada es mayor que el rango
respectivo, se concluye que esas medias son significativamente diferentes. Si dos
68 CAPÍTULO 2 Diseño de experimentos de un factor
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
medias caen entre otras dos que no son muy diferentes, entonces esas dos medias
poblacionales también se consideran estadísticamente iguales.
Ejemplo. Supongamos que nos interesa probar las seis hipótesis para los cuatro
métodos de ensamble del problema anterior.
= 0,05
= 12
= 2,46
=
= 0,78
= Estos valores se obtienen de la tabla correspondiente
Substituyendo en la ecuación tenemos:
= (3,08)(0,78)
= (3,23)(0,78)
= (3,33)(0,78)
Estos rangos se comparan con las diferencias de medias de acuerdo al método
descrito anteriormente.
Las cuatro medias muestrales acomodadas en orden ascendente son:
de aquí se obtienen las diferencias en el orden dado por el método de Duncan y se van
comparando con el rango correspondiente.
En la siguiente tabla se resumen los resultados
Diferencia poblacional
Diferencia muestral Comparada con su rango
12,75 – 7,25 = 5,5 2,60 = 12,75 – 8,50 = 3,27 2,52 = 12,75 – 10,50 = 2,25 2,40 = 10,50 – 7,25 = 3,25 2,60 = 10,50 – 8,50 = 2,0 2,40 = 8,50 – 7,25 = 1,25 2,40 =
Decisión Significativo Significativo No significativo Significativo No significativo No significativo
Comparación o pruebas de rangos múltiples 69
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
De esta tabla se concluye que , y , mientras que
, y . Que son las mismas conclusiones que se obtuvieron con
el método LSD. En general, las pruebas de Duncan y LSD tienen un desempeño similar.
Método de Dunnet (Comparación de tratamientos con un control).
En muchos problemas científicos y de ingeniería no interesa extraer inferencias con
respecto a todas las posibles comparaciones entre las medias de los tratamientos. En su
lugar, el experimento a menudo dicta la necesidad de comparar de manera simultánea
cada tratamiento con un control. Por ejemplo, al comparar varios medicamentos para el
resfriado es conveniente que uno de los tratamientos sea que los pacientes no utilicen
ningún medicamento, esto sirve como referencia para decidir la posible utilidad de los
medicamentos.
Un procedimiento de prueba desarrollado por C.W. Dunnett determina
diferencias significativas entre cada media del tratamiento y el control, en un solo nivel
de significancia.
Por facilidad, denotemos como tratamiento control al tratamiento.
Hacer comparaciones con respecto al control implica probar las hipótesis dadas
por:
con , donde es el tratamiento control. La hipótesis nula se rechaza
si,
donde
= Media del tratamiento
= Media del tratamiento control
Valor encontrado en tablas de Dunnett
= Grados de libertad del cuadrado medio del error
= Cuadrado medio del error
Donde se encuentra en las tablas (tabla 3) valores críticos para la
prueba de Dunnett; son los grados de libertad del cuadrado medio del error. Se
recomienda que el tamaño de muestra del tratamiento control sea grande, a fin de
estimar su media con mayor precisión.
Ejemplo. Para ilustrar el procedimiento de Dunnett , consideremos los datos
experimentales de la siguiente tabla para la clasificación unilateral donde se estudia el
efecto de tres catalizadores sobre el rendimiento de una reacción. Un cuarto tratamiento,
sin ningún catalizador, se utiliza como control.
70 CAPÍTULO 2 Diseño de experimentos de un factor
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
Rendimiento de la reacción
Control Catalizador 1 Catalizador 2 Catalizador 3
50,7 54,1 52,7 51,2
51,5 53,8 53,9 50,8
49,2 53,1 57,0 49,7
53,1 52,5 54,1 48,0
52,7 54,0 52,5 47,2
= 53,5 54,04 49,38
= 51,44
= = = 2,59
= grados de libertad del erros medio
, como es prueba bilateral =
= 53,5 – 51,44 = 2,06
= 54,04 – 51,44 = 2,6
= 49,38 – 51,44 = 2,06
= 2,59
= 2,59(0,9593) = 2,48
2,06 2,48 Se acepta la hipótesis nula, no hay diferencia significativa de la muestra 1
con la patrón
2,60 2,48 Se rechaza la nula y se acepta la alterna
2,06 2,48 Se acepta la hipótesis nula
RESUMEN
Grupos Cuenta Suma Promedio Varianza
Control 5 257,2 51,44 2,478
Catalizador 1 5 267,5 53,5 0,465
Catalizador 2 5 270,2 54,04 3,238
Catalizador 3 5 246,9 49,38 3,022
ANÁLISIS DE VARIANZA
Origen de las variaciones Suma de cuadrados Grados de libertad Promedio de los cuadrados F Probabilidad Valor crítico para F
Entre grupos 67,786 3 22,59533333 9,82085552 0,000651134 3,238871522
Dentro de los grupos 36,812 16 2,30075
Total 104,598 19
Análisis de varianza de un factor (Resultado de Excel)
Comparación o pruebas de rangos múltiples 71
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
ANOVA unidireccional: Control; Catalizador 1; Catalizador 2; Catalizador 3 Fuente GL SC MC F P
Factor 3 67,79 22,60 9,82 0,001
Error 16 36,81 2,30
Total 19 104,60
Nivel N Media Desv.Est.
Control 5 51,440 1,574
Catalizador 1 5 53,500 0,682
Catalizador 2 5 54,040 1,799
Catalizador 3 5 49,380 1,738
Comparación de Dunnett con un control
nivel de significancia de la familia = 0,05
nivel de significancia individual = 0,0196
Valor crítico = 2,59
Control = Control
Intervalos para media de tratamientos menos media de control
Nivel Inferior Centro Superior
Catalizador 1 -0,427 2,060 4,547
Catalizador 2 0,113 2,600 5,087
Catalizador 3 -4,547 -2,060 0,427
Nivel --------+---------+---------+---------+-
Catalizador 1 (---------*---------)
Catalizador 2 (---------*---------)
Catalizador 3 (---------*---------)
--------+---------+---------+---------+-
-2,5 0,0 2,5 5,0
2.5. Verificación de los supuestos del modelo
La validez de los resultados obtenidos en cualquier análisis de varianza queda
supeditada a que los supuestos del modelo se cumplan. Estos supuestos son:
A) Normalidad
B) Varianza constante (igual varianza de los tratamientos)
C) Independencia
Esto es, la respuesta (Y) se debe distribuir de manera normal, con la misma varianza
en cada tratamiento y las mediciones deben ser independientes. Estos supuestos sobre Y
se traducen en supuestos sobre el termino error ( ) en el modelo
Es una práctica común utilizar la muestra de residuos para comprobar los
supuestos del modelo, ya que si los supuestos se cumplen, los residuos o residuales se
pueden ver como una muestra aleatoria de una distribución normal con media cero y
varianza constante.
72 CAPÍTULO 2 Diseño de experimentos de un factor
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
Los residuos, se definen como la diferencia entre la respuesta observada ( )
y la respuesta predicha por el modelo ( ), lo cual permite hacer un diagnóstico más
directo de la calidad del modelo, ya que su magnitud señala qué tan bien describe a los
datos del modelo. Veamos
Recordemos que el modelo que se espera describa los datos en el DCA está dada por:
donde
( = 1,2, …, = 1,2,…, ) Es el ésimo dato en el tratamiento
Es la media global Es el efecto del tratamiento Representa al error asociado con la observación
Cuando se realiza el ANOVA, y sólo cuando éste resulta significativo, entonces
se procede a estimar el modelo ajustado o modelo de trabajo dado por:
donde
Es la respuesta predicha
Es la media global estimada
Es el efecto estimado del tratamiento
Los gorros indican que son estimadores, es decir, valores calculados a partir de
los datos del experimento. El término del error desaparece del modelo estimado, por el
hecho de que su valor esperado es igual a cero (
Como la media global se estima con .. y el efecto del tratamiento con .., el
modelo ajustado del DCA se puede escribir como:
Para comprobar cada supuesto existen pruebas analíticas y gráficas que veremos
a continuación. Por sencillez, muchas veces se prefieren las pruebas gráficas. Éstas
tienen el inconveniente de que no son exactas, pero aun así , en la mayoría de las
situaciones prácticas proporcionan la evidencia suficiente en contra o a favor de los
supuestos.
Normalidad Un procedimiento gráfico para verificar el cumplimiento del supuesto de normalidad de
los residuos consiste en graficar los residuos en papel o en la gráfica de probabilidad normal
que se incluye casi en todos los paquetes estadísticos. Esta gráfica del tipo tiene
Verificación de los supuestos del modelo 73
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
las escalas de tal manera que si los residuos siguen una distribución normal, al
graficarlos tienden a quedar alineados en una línea recta; por lo tanto, si claramente no
se alinean se concluye que el supuesto de normalidad no es correcto.
Cabe enfatizar el hecho de que el ajuste de los puntos a una recta no tiene que
ser perfecto, dado que el análisis de varianza resiste pequeñas y moderadas desviaciones
al supuesto de normalidad.
Figura 2.2 Grafica de normalidad para los cuatro tipos de cuero
Varianza constante Una forma de verificar el supuesto de varianza constante (o que los tratamientos tienen la
misma varianza) es graficado los predichos contra residuos ( ), por lo general
va en el eje horizontal y los residuos en el eje vertical. Si los puntos en esta gráfica
se distribuyen de manera aleatoria en una banda horizontal (sin ningún patrón claro y
contundente), entonces es señal d que se cumple el supuesto de que los tratamientos
tienen igual varianza. Por el contrario, si se distribuyen con algún patrón claro y
contundente, como por ejemplo una forma de corneta o embudo, entonces es señal de
que no se está cumpliendo el supuesto de varianza constante.
Figura 2.3 Grafica de la varianza constante para los cuatro tipos de cuero
Independencia La suposición de independencia en los residuos puede verificarse si se grafica el orden
en que se colectó un dato contra el residuo correspondiente. De esta manera, si al
graficar en el eje horizontal el tiempo (orden de corrida) y en el eje vertical los residuos,
40200-20
99
90
50
10
1
Residuo
Po
rce
nta
je
250240230220210
30
20
10
0
-10
Valor ajustado
Re
sid
uo
3020100-10
8
6
4
2
0
Residuo
Fre
cu
en
cia
Gráfica de probabilidad normal vs. ajustes
Histograma
Gráficas de residuos para A; B; C; D
40200-20
99
90
50
10
1
Residuo
Po
rce
nta
je
250240230220210
30
20
10
0
-10
Valor ajustado
Re
sid
uo
3020100-10
8
6
4
2
0
Residuo
Fre
cu
en
cia
Gráfica de probabilidad normal vs. ajustes
Histograma
Gráficas de residuos para A; B; C; D
74 CAPÍTULO 2 Diseño de experimentos de un factor
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
se detecta una tendencia o patrón no aleatorio claramente definido, esto es evidencia de
que existe una correlación entre los errores y, por lo tanto, el supuesto de independencia
no se cumple. Si el comportamiento de los puntos es aleatorio dentro de una banda
horizontal, el supuesto se está cumpliendo.
La violación de este supuesto generalmente indica deficiencias en la planeación
y ejecución del experimento; asimismo, puede ser un indicador de que no se aplico en
forma correcta el principio de aleatorización, o de que conforme se fueron realizando las
pruebas experimentales aparecieron factores que afectaron la respuesta observada. Por
ello, en caso de tener problemas con este supuesto, las conclusiones que se obtienen del
análisis son endebles y por ello es mejor revisar lo hecho y tratar de investigar por qué
no se cumplió con ese supuesto de independencia, a fin de reconsiderar la situación.
En el ejemplo para comparar los cuatro tipos de cuero, las gráficas resultantes
figuras 2.2 y 2.3. Se observa el cumplimiento de los supuestos de normalidad y varianza
constante, sin embargo, en las dos gráficas es notorio un punto que se aleja bastante del
resto, el cual es un punto aberrante cuyo origen debe investigarse
Elección del tamaño de la muestra
Una decisión importante en cualquier diseño de experimentos es decidir el número de
replicas que se hará por cada tratamiento (tamaño de muestra). Por lo general, si se
esperan diferencias pequeñas entre tratamientos será necesario un mayor tamaño de
muestra.
Aunque existen varios métodos para estimar el tamaño muestral, muchas veces
tienen poca aplicabilidad porque requieren cierto conocimiento previo sobre la varianza
del error experimental.
Si recurrimos a la experiencia vemos que el número de réplicas en la mayoría de
las situaciones experimentales en las que se involucra un factor varía entre cinco y diez;
incluso, en algún caso puede llegar hasta 30. La tendencia podría inclinarse por un
extremo de este rango e incluso salirse de éste, de acuerdo con las siguientes
consideraciones:
A menor diferencia que se espera en los tratamientos, mayor será la cantidad de
réplicas si se quieren detectar diferencias significativas, y viceversa, es decir, si
se esperan grandes diferencias quizá con pocas replicas sea suficiente
Si se espera mucha variación dentro de cada tratamiento, debido a la variación
de fuentes no controladas como métodos de medición, medio ambiente, materia
prima, etc., entonces se necesitarán más réplicas
Si son varios tratamientos (cuatro o más), entonces éste es un punto favorable
para reducir el número de réplicas.
Además de lo anterior, es preciso considerar los costos y el tiempo global del
experimento. De aquí que si toman en cuenta las consideraciones antes expuestas se
podrá establecer el tamaño de muestra que permita responder en una primera fase las
preguntas más importantes que se plantearon con el experimento
Elección del tamaño de la muestra 75
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
Supongamos que el experimentador ya tiene el número de tratamientos que desea
probar, y que tomando en cuenta las consideraciones antes citadas tiene una propuesta
inicial del número de réplicas por tratamiento que va a utilizar, . También tiene una
idea aproximada del valor de (la desviación estándar del error aleatorio), así como una
idea de la magnitud de las diferencias, , entre tratamientos que le interesa detectar.
Por ejemplo, supongamos que en el caso de los tiempos promedio de los = 4 métodos
de ensamble (del ejemplo 1), tiene idea realizar = 5 pruebas; en cuanto a las
diferencias, le interesa detectar 2 minutos, entre un método y otro, y espera que cada
método tenga una variabilidad intrínseca de = 1,5; esto debido a factores no
controlados (habilidad del operador, cansancio, variabilidad de las partes a ensamblar,
error de medición del tiempo de ensamble, etcétera).
La formula que tentativamente debemos usar para la elección del tamaño de muestra
es:
El valor de arrojado por esta fórmula dará una idea del número de réplicas por
tratamiento, de acuerdo con las consideraciones iniciales que se reflejan a través de , y sobre todo por el número total de corridas experimentales, x
, que es lo que muchas veces interesa más al experimentador debido a los costos y
tiempos. Si está fuera del presupuesto se podrán revisar algunas consideraciones y
quizá pensar en un número menor de tratamientos.
Al aplicar esta expresión al caso de los cuatro métodos del ensamble obtenemos
con un nivel se significancia del 0,05:
= 4
= 5
= 1,5
= 2
= 0,05
=
= 5,1
Por lo tanto se debería utilizar como tamaño de muestra (número de
pruebas por tratamiento).
Ejercicios. 1 Explique en qué consiste y cuándo se debe aplicar el diseño completamente al azar
con un solo criterio de clasificación.
2 Una analista de una cadena de supermercados, quiere saber si las tres tiendas tienen el
mismo promedio en dólares por compra. Se elige una muestra aleatoria de seis compras
en cada tienda. En la siguiente tabla se presenta los datos recolectados de esta muestra
junto con las medias maestrales para cada tienda. Haga las pruebas necesarias con un
nivel de significancia de 0,01. Y concluya con un reporte de todo lo analizado a lo largo
76 CAPÍTULO 2 Diseño de experimentos de un factor
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
de la unidad, en este reporte usted como analista deberá de incluir y describir todo lo
que considere importante para el cliente, es decir la gerencia del supermercado.
Tabla número 1 Datos maestrales para ANOVA (en dólares) para el ejercicio
Tienda 1 Tienda 2 Tienda 3
---------------------------------------------------------------------------
12,05 15,17 9,48
23,94 18,52 6,92
14,63 19,57 10,47
25,78 21,40 7,63
17,52 13,59 11,90
18,45 20,57 5,92
3. Se hace un estudio sobre la efectividad de tres marcas de spray para matar moscas.
Para ello, cada producto se aplica a un grupo de 100 moscas, y se cuentan el número de
moscas muertas expresando en porcentajes. Se hacen seis réplicas y los resultados
obtenidos se muestran a continuación
Número de replicas
Marca de spray 1 2 3 4 5 6
1
2
3
72
55
64
65
59
74
67
68
61
75
70
58
62
53
51
73
50
69
a) Formule la hipótesis adecuada y aplique el método estadístico.
b) Existe diferencia entre la efectividad promedio de los productos en spray.
c) Hay algún spray mejor, Argumente su respuesta.
d) Dé un intervalo al 95% de confianza para la efectividad promedio (porcentaje)
de cada una de las marcas
e) De ser necesario, aplique los métodos de comparación o pruebas de rangos
múltiples.
4. Para estudiar la confiabilidad de ciertos tableros electrónicos para carros, se someten
a un envejecimiento acelerado durante 100 horas a determinada temperatura, y como
variables de interés se mide la intensidad de corriente que circula entre dos puntos,
cuyos valores aumentan con el deterioro. Se probaron 20 módulos repartidos de manera
equitativamente en cinco temperaturas y los resultados obtenidos fueron los siguientes:
15
18
13
12
17
21
11
16
23
19
25
22
28
32
34
31
45
51
57
48
a) Formule la hipótesis y el modelo estadístico para el problema.
b) Realice el análisis de varianza para estos datos, a fin de estudiar si la
temperatura afecta la intensidad de corriente promedio.
Ejercicios 77
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
c) ¿La temperatura afecta la variabilidad de las intensidades? Es decir, verifique si
hay igual varianza entre los diferentes tratamientos.
5. Una compañía farmacéutica desea evaluar el efecto que tiene la cantidad de almidón
en la dureza de las tabletas. Se decidió producir lotes con una cantidad determinada de
almidón, y que las cantidades de almidón a probar fueron 2%, 5% y 10%. La variable de
respuesta sería el promedio de la dureza de 20 tabletas de cada lote. Se hicieron 4
réplicas por tratamiento y se obtuvieron los siguientes resultados:
% de almidón Dureza
2
5
10
4,3 5,2 4,8 4,5
6,5 7,3 6,9 6,1
9,0 7,8 8,5 8,1
a) ¿Hay evidencia suficiente de que el almidón influye en la dureza de las tabletas?
Halle el ANOVA.
b) Realice los análisis complementarios necesarios.
c) Si se desea maximizar la dureza de las tabletas, ¿qué recomendaría al fabricante?
d) Verifique los supuestos del modelo
6.- Un químico del departamento de desarrollo de un laboratorio farmacéutico desea
conocer cómo influye el tipo de aglutinante utilizado en tabletas de ampicilina de
500 mg en el porcentaje de friabilidad; para ello, se eligen los siguientes
aglutinantes: polivinilpirrolidona (PVP), carboximetilcelulosa sódica (CMC) y
grenetina (Gre). Los resultados del diseño experimental son los siguientes.
Aglutinante % de friabilidad
PVP
CMC
Gre
0,485 0,250 0,073 0,205 0,0161
9,64 9,37 9,53 9,86 9,79
0,289 0,275 0,612 0,152 0,137
a) Especifique el nombre del diseño experimental
b) ¿Sospecha que hay algún efecto significativo del tipo de aglutinante sobre la
variable de respuesta?
c) Escriba las hipótesis para probar la igualdad de medias y el modelo estadístico.
d) Realice el análisis adecuado para probar las hipótesis e intérprete los resultados.
e) Revise los supuestos, ¿hay algún problema?
7. En el siguiente experimento biológico se usan cuatro concentraciones de cierto
químico para reforzar el crecimiento en centímetros de cierto tipo de planta con el
tiempo. Se utilizan cinco plantas en cada concentración y se mide el crecimiento de
cada planta. Se toman los siguientes datos de crecimiento. También se aplica un control
(ningún químico)
78 CAPÍTULO 2 Diseño de experimentos de un factor
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
concentración
Control 1 2 3 4
6,8
7,3
6,3
6,9
7,1
8,2
8,7
9,4
9,2
8,6
7,7
8,4
8,6
8,1
8,0
6,9
5,8
7,2
6,8
7,4
5,9
6,1
6,9
5,7
6,1
Utilice la prueba bilateral de Duncan en el nivel de significancia de 0,05 para comparar
de manera simultánea las concentraciones con el control.
8. En un experimento en el que se investigó la cantidad de radón liberado en las
duchas. Se usó agua enriquecida con radón, y se probaron seis diámetros diferentes de
los orificios de las regaderas. Los datos del experimento se presentan en la siguiente
tabla.
Diámetro de
Los orificios
Radón liberado (%)
0,37
0,51
0,71
1,02
1,40
1,99
80 83 83 85
75 75 79 79
74 73 76 77
67 72 74 74
62 62 67 69
60 61 64 66
a) ¿El tamaño de los orificios afecta el porcentaje promedio de radón liberado? Use
b) Encuentre el valor P para el estadístico F del inciso a)
c) Analice los residuales de este experimento.
d) Encuentre un intervalo de confianza de 95% para el porcentaje promedio de
radón liberado cuando el diámetro de los orificios es 1,40
f) Use los diversos métodos de comparación o pruebas de rangos múltiples.
9.- Se describe un experimento para determinar el efecto de los vacíos de aire sobre la
resistencia porcentual conservada del asfalto. Para los fines del experimento, los vacíos
de aire se controlan en tres niveles: bajo (2-4%), medio (4-6%) y alto (6-8%). Los datos
se presentan en la tabla siguiente:
Nivel del
vacío de aire
Resistencia conservada (%)
Bajo
Medio
Alto
106 90 103 90 79 88 92 95
80 69 94 91 70 83 87 83
78 80 62 69 76 85 69 85
a) ¿Los diferentes niveles de los vacíos de aire afectan de manera significativa a la
resistencia conservada promedio? Use .
b) Encuentre el valor P para el estadístico F del inciso a)
c) Analice los residuales de este experimento.
d) Encuentre un intervalo de confianza del 95% para la resistencia conservada
promedio cuando hay un nivel alto de vacíos de aire.
Ejercicios 79
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
e) Aplique el método de la LSD. Usando , ¿cuáles medias de los
tratamientos son diferentes?
10.- Se investigaron cuatro métodos diferentes para preparar el compuesto
superconductor . Los autores sostienen que la presencia de oxígeno durante el
proceso de preparación afecta la temperatura de transición de superconducción del
material. Los métodos de preparación 1 y 2 usan técnicas que están diseñadas para
eliminar la presencia de oxígeno, mientras que los métodos 3 y 4 permiten la presencia
de oxígeno. Se hicieron cinco observaciones de (en ) para cada método, y los
resultados son los siguientes:
Método de
preparación
Temperatura de transición ( )
1
2
3
4
14,8 14,8 14,7 14,8 14,9
14,6 15,0 14,9 14,8 14,7
12,7 11,6 12,4 12,7 12,1
14,2 14,4 14,4 12,2 11,7
a) ¿Hay evidencia que apoye la afirmación de que la presencia de oxígeno durante
la preparación afecta la temperatura de transición media? Use .
b) ¿Cuál es el valor P para la prueba F del inciso anterior
c) Analice los residuales de este experimento.
d) Aplique el método de la LSD en el experimento. ¿Qué métodos de preparación
difieren se ?
11. Ejercicio. Se utilizan cuatro laboratorios para realizar análisis químicos. Muestras
del mismo material se mandan a los laboratorios para su análisis como parte del estudio
para determinar si, en promedio, dan los mismos resultados. Los resultados analíticos
para los cuatro laboratorios son los siguientes:
Laboratorios
A B C D
58,7 62,7 55,9 60,7
61,4 64,5 56.1 60,3
60,9 63,1 57,3 60,9
59,1 59,2 55,2 61,4
58,2 60,3 58,1 62,3
Realice una prueba de rango múltiple de LSD, Tukey y Duncan con un nivel de
significancia de 0,05 y 0,01, para determinar cuáles laboratorios difieren, en promedio,
en sus análisis
80 CAPÍTULO 2 Diseño de experimentos de un factor
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
2.6. Uso de un software estadístico
Excel a) En una hoja de Excel capturar primeramente la tabla de datos
b) En la misma hoja de cálculo seleccionar del cintillo superior Datos, luego
Análisis de datos
c) Seleccionar análisis de varianza de un factor en la ventana desplegada
d) En rango de entrada (en ventana de captura) seleccionar todos los grupos,
incluyendo su rótulo (sombrearlos con el mouse), automáticamente se incluyen.
e) En el siguiente recuadro seleccionar si nuestros datos están ordenados en filia o
columnas, además indicar si tenemos rótulos en los encabezados, e indicar que
los resultados los arroje en una hoja nueva
Uso de software estadístico 81
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
Nota: Si no aparece Análisis de datos en la parte superior derecha de la hoja de cálculo,
se deberá de activar de la siguiente manera:
En el símbolo del sistema en la parte superior izquierda de los encabezados dar
clic.
En la ventana desplegada seleccionar opciones de Excel en la parte inferior
dando un clic.
De la ventana desplegada señalar en el menú del lado izquierdo complementos
De la ventana desplegada en el lado derecho, señalar en la parte inferior de la
misma ir con un clic.
De la ventana desplegada palomear el recuadro de herramientas para análisis,
y aceptar
Nota como no está instalada esta herramienta el sistema nos preguntara si
queremos instalarla a lo que indicaremos que si, y la instalara en un par de
minutos.
Minitab En la hoja de cálculo que despliega Minitab capturar nuestra tabla de datos
indicando sus correspondientes rótulos en la primer fila que no está numerada
En el cintillo superior indicar con el mouse Estadísticas
Del menú desplegado seleccionar ANOVA, en el menú desplegado seleccionar
Un solo factor (Desapilado) y dar clic con el mouse
En ventana de captura desplegada (Análisis de varianza- Un solo factor), en la
parte izquierda aparecerán automáticamente los grupos de tabla de datos
En el cuadro superior derecho (Respuestas (en columnas separadas)) indicar
separando por un espacio (sin comas) los nombres de las columnas que
generalmente son letras, esto también se logra dando doble clic en cada letra del
cuadro de la izquierda, automáticamente son capturadas
En nivel de confianza por default es 95%
82 CAPÍTULO 2 Diseño de experimentos de un factor
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
Señalar Aceptar y nos arrojara el resultado ANOVA en la parte superior de la
hoja de calculo
Si queremos hacer comparaciones de rango múltiples, entonces señalamos de la
ventana anterior comparaciones dando un clic.
En la ventana desplegada señalaremos las comparaciones que queramos, y en
control nivel del grupo indicamos la A, y damos clic en aceptar
Uso de software estadístico 83
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
Si queremos las graficas del supuesto del modelo entonces, damos clic a
gráficas (antepenúltima ventana) y señalamos tres en uno y damos clic en
aceptar
84
Capítulo 3
Diseño de bloques
3.1. Diseños en bloques completos al azar.
3.2. Diseño en cuadrado latino.
3.3. Diseño en cuadrado grecolatino.
3.4. Uso de un software estadístico.
Diseño en bloques completos al azar 85
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
Competencias a desarrollar
Identificar las características generales y los usos que se le dan a los diseños en
bloques.
Explicar la definición del diseño en bloques completos al azar, así como su
hipótesis, modelo estadístico y análisis de varianza.
Describir la selección y la aleatorización del diseño en cuadro latino y su
diferencia con el diseño en cuadro grecolatino
3. 1. Diseños en bloques completos al azar.
Cuando se quieren comparar ciertos tratamientos o estudiar el efecto de un factor, es
deseable que las posibles diferencias se deban principalmente al factor de interés y no a
otros factores que no se consideran en el estudio. Cuando esto no ocurre y existen otros
factores que no se controlan o nulifican para hacer la comparación, las conclusiones
podrían ser afectadas sensiblemente.
Por ejemplo, supongamos que se quieren comparar varias máquinas, si cada máquina es
manejada por un operador diferente y se sabe que éste tiene una influencia en el
resultado, entonces es claro que el factor operador debe tomarse en cuenta si se quiere
comparar a las máquinas de manera justa.
Un operador más hábil puede hacer ver a su máquina (aunque ésta sea la peor)
como la que tiene el mejor desempeño, lo cual impide hacer una comparación adecuada
de los equipos.
Para evitar este sesgo hay dos maneras de anular el posible efecto del factor
operador: la manera lógica es utilizar el mismo operador en las cuatro maquinas; sin
embargo, tal estrategia no siempre es aconsejable, ya que utilizar el mismo sujeto
elimina el efecto del factor operador pero restringe la validez de la comparación con
dicho operador, y es posible que el resultado no se mantenga al utilizar a otros
operadores. La otra forma de anular el efecto operador en la comparación consiste en
que cada operador trabaje durante el experimento con cada una de las máquinas. Esta
estrategia es la más recomendable, ya que utilizar a todos los operadores con todas las
máquinas permite tener resultados de la comparación que son válidos para todos los
operadores. Esta forma de nulificar el efecto de operadores, recibe el nombre de
bloqueo.
Factores de bloque A los factores adicionales al factor de interés que se incorporan de manera explícita en
un experimento comparativo se les llama factores de bloque. Éstos tienen la
particularidad de que no se incluyen en el experimento porque interese analizar su
efecto, sino como un medio para estudiar de manera adecuada y eficaz al factor de
interés.
Los factores de bloque entran al estudio en un nivel de importancia secundaria
con respecto al factor de interés y, en este sentido, se puede afirmar que se estudia un
solo factor, porque es uno el factor de interés.
86 CAPÍTULO 3 Diseño de bloques
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
En un diseño en bloques completos al azar (DBCA) se consideran tres fuentes de
variabilidad:
El factor de tratamientos
El factor de bloque
El error aleatorio
es decir, se tienen tres posibles ¨culpables¨ de la variabilidad presente en los datos. La
palabra completo en el nombre del diseño se debe a que en cada bloque se prueban
todos los tratamientos, o sea, los bloques están completos. La aleatorización se hace
dentro de cada bloque; por lo tanto, no se realiza de manera total como en el diseño
completamente al azar.
Los factores de bloqueo que aparecen en la práctica son: Turno, lote, día, tipo de
material, línea de producción, operador, maquina, método, etc.
Supongamos una situación experimental con k tratamientos y b bloques. El
aspecto de los datos para este caso se muestra en la tabla 3,1. Considerando una
repetición en cada combinación de tratamiento y bloque.
Tabla 3.1 Arreglo de los datos en un diseño en bloques completos al azar
Tratamiento Bloque
…
1
2
3
.
k
.
.
.
…
.
.
.
.
…
Modelo estadístico
Cuando se decide utilizar un DBCA, el experimentador piensa que cada medición será
el resultado del efecto del tratamiento donde se encuentre, del efecto al que pertenece y
de cierto error que se espera sea aleatorio. El modelo estadístico para este diseño está
dado por:
donde
Es la medición que corresponde al tratamiento y al bloque
Es la media global poblacional
Es el efecto debido al tratamiento Es el efecto debido al bloque
Es el error aleatorio atribuible a la medición
Diseño en bloques completos al azar 87
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
Hipótesis a probar
La hipótesis de interés es la misma para todos los diseños comparativos, y está pada
por:
que también se puede expresar como
En cualquiera de estas hipótesis la afirmación a probar es que la respuesta media
poblacional lograda con cada tratamiento es la misma para los tratamientos y que, por
lo tanto, cada respuesta media es igual a la media global poblacional . De manera
alternativa, es posible afirmar que todos los efectos de tratamiento sobre la variable de
respuesta son nulos, porque cuando el efecto , entonces necesariamente
la respuesta media del tratamiento es igual a la media global ( ).
Análisis de varianza
La hipótesis dada se prueba con un análisis de varianza con dos criterios de
clasificación, porque se controlan dos fuentes de variación: el factor de tratamientos y el
factor de bloque. En la tabla 3.2 se muestra el aspecto del ANOVA para diseño DBCA.
Tabla 3.2 ANOVA para un diseño en bloques completos al azar Fuentes de
variabilidad
Suma de
cuadrados
Grado de
libertad
Cuadrado
medio Valor-p
Tratamientos
Bloques
Error
Total
SCTRAT
SCB
SCE
SCT
K – 1
b – 1
(k – 1)(b – 1)
N - 1
CMTRAT
CMB
CME
Los cálculos necesarios pueden ser manuales, pero siempre es más práctico
hacerlos con un software estadístico, porque además proporciona muchas otras opciones
gráficas y tabulares útiles (no sólo el ANOVA). Utilizando la notación de puntos, las
fórmulas más prácticas para calcular las sumas de cuadrados son:
88 CAPÍTULO 3 Diseño de bloques
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
y la del error se obtiene por sustracción como:
Ejemplo
En el ejemplo donde se planteo la comparación de los cuatro métodos de ensamble,
ahora se va a controlar activamente en el experimento a los operadores que realizaran el
ensamble, lo que da lugar al siguiente diseño en bloques completamente al azar.
Método Operador
1 2 3 4
A
B
C
D
6
7
10
10
9
10
16
13
7
11
11
11
8
8
14
9
Recordemos que la variable de respuesta son los minutos en que se realiza el
ensamble. Para comparar los cuatro métodos se plantea la hipótesis:
=
la cual se prueba mediante el análisis de varianza dado en la siguiente tabla( Excel y
Minitab)
Nota: para capturar la tabla en Excel se sombrea totalmente, tal y como está indicada la
tabla anterior, en la herramienta de Análisis de varianza de dos factores con una sola
muestra por grupo)
RESUMEN Cuenta Suma Promedio Varianza
A 4 30 7,5 1,66666667
B 4 36 9 3,33333333
C 4 51 12,75 7,58333333
D 4 43 10,75 2,91666667
Operador 4 33 8,25 4,25
4 48 12 10
4 40 10 4
4 39 9,75 8,25
ANÁLISIS DE VARIANZA
Origen de las variaciones Suma de cuadrados Grados de libertad Promedio de los cuadrados F Probabilidad Valor crítico para F
Filas 61,5 3 20,5 10,25 0,002919257 3,862548358
Columnas 28,5 3 9,5 4,75 0,029845948 3,862548358
Error 18 9 2
Total 108 15
Análisis de varianza de dos factores con una sola muestra por grupo
Diseño en bloques completos al azar 89
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
De esta tabla se observa que para los métodos se obtuvo un valor-p = 0,003
, por lo que se rechaza la de que el tiempo medio poblacional de los
métodos de ensamble son iguales, y se acepta que al menos dos de los métodos son
diferentes en cuanto al tiempo medio que se requiere.
De la misma manera para operadores, como su valor-p = 0,030 , el
factor de bloque (operadores) también afecta, es decir, existen diferencias entre los
operadores en cuanto al tiempo promedio.
Resultados arrojados en Minitab 15
ANOVA de dos factores: Dato vs. Método; Operador
Fuente GL SC MC F P
Método 3 61,5 20,5 10,25 0,003
Operador 3 28,5 9,5 4,75 0,030
Error 9 18,0 2,0
Total 15 108,0
S = 1,414 R-cuad. = 83,33% R-cuad.(ajustado) = 72,22%
Calculo manual para Diseño de bloque
ANOVA para el diseño bloque
Fuente de
variaciones
SC GL CM F Valor
crítico
para F
Tratamientos
Bloque
Error
Total
90 CAPÍTULO 3 Diseño de bloques
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
1.- Suma de cuadrados de tratamientos o variabilidad debida a la diferencia entre las
marcas de llantas, bloque 1 y bloque 2
2.- Suma total de cuadrados o variabilidad total de los datos
3.- Suma de cuadrados del error o variabilidad dentro de métodos de ensamble
4.- Cuadrados medios de tratamientos, del bloque, y del error
5- Estadístico de prueba
Concentrado en tabla
ANOVA
Suma de
cuadrados
Grados de
libertad
Promedio de
los cuadrados F
Valor
crítico
para F
61,5 3 20,5 10,25
3,8625483
28,5 3 9,5 4,75
3,8625486
18 9 2
108 15
Diseño en bloques completos al azar 91
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
Comparación de parejas de medias de tratamiento en el DBCA.
Cuando se rechaza la hipótesis de igualdad de los cuatro tratamientos, es natural
preguntarse cuáles de ellos son diferentes entre sí. Para averiguarlo se utiliza alguna de
las pruebas que se estudiaron en la sección ¨Comparaciones o pruebas de rangos
múltiples¨ del capítulo anterior. Por ejemplo, recordemos que la Diferencia mínima
significativa (LSD) para dos tratamientos, en un DCA está dada por
Entonces, en bloque esta expresión se transforma en
donde b es el número de bloques, que hace las veces de número de réplicas, y (k-1)(b-1)
son los grados de libertad del
De aquí que en el ejemplo de los cuatro métodos de ensamble tenemos que
= = 2,26 (valor buscado en tablas de T
de estudent)
Al comparar esta diferencia mínima significativa con los datos se obtiene la siguiente
tabla:
Diferencia poblacional
Diferencia muestral
-1,5 2,26
-5,25 2,26
-3,25 2,26
-3,75 2,26
-1,75 2,26
2,00 2,26
Decisión
No significativo
Significativo
Significativo
Significativo
No significativo
No significativo
Ejercicios
1.- ¿En qué situaciones se aplica un diseño en bloques completos al azar? ¿En qué
diferentes los factores de tratamiento y de bloque?
2.- Se hace un estudio sobre la efectividad de tres marcas de atomizador para matar
moscas. Para ello, cada producto se aplica a un grupo de 100 moscas, y se cuenta el
número de moscas muertas expresando en porcentajes. Se hicieron seis replicas, pero
en días diferentes; por ello, se sospecha que puede haber algún efecto importante debido
a esta fuente de variación. Los datos obtenidos se muestran a continuación.
92 CAPÍTULO 3 Diseño de bloques
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
Marca del atomizador Número de replicas (día)
A
B
C
72
55
64
65
59
74
67
68
61
75
70
58
62
53
51
73
50
69
a) Suponiendo un DBCA, formule las hipótesis adecuadas y el modelo estadístico.
b) ¿Existe diferencia entre la efectividad promedio de los atomizadores?
c) ¿Hay algún atomizador mejor? Argumente su respuesta
d) ¿Hay diferencias significativas en los resultados de diferentes días en que se
realizó el experimento? Argumente su respuesta
ANOVA de dos factores: datos vs. Spray, replicas Minitab
Fuente GL SC MC F P
Spray 2 296,33 148,167 2,88 0,103
replicas 5 281,33 56,267 1,09 0,421
Error 10 514,33 51,433
Total 17 1092,00
a)
=
a) No existe diferencias entre la efectividad de los spray
b) No existe evidencia estadísticas para suponer lo que existe algún spray mejor
que el otro
c) =
En el ANOVA para los diferentes días de los spray se acepta la hipótesis nula
de que no importa el día, es decir son iguales
3.- A continuación se muestran los datos para un diseño en bloque al azar
Tratamiento Bloque
1 2 3 4
A
B
C
3
7
4
4
9
6
2
3
3
6
10
7
ANÁLISIS DE VARIANZA
Origen de las variaciones Suma de cuadrados Grados de libertad Promedio de los cuadrados F Probabilidad Valor crítico para F
Filas 296,3333333 2 148,1666667 2,88075178 0,102804418 4,102821015
Columnas 281,3333333 5 56,26666667 1,09397278 0,420717751 3,325834529
Error 514,3333333 10 51,43333333
Total 1092 17
Diseño en bloques completos al azar 93
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
a) Obtenga la tabla de análisis de varianza y anote los principales conclusiones
b) Obtenga la diferencia mínima significativa (LSD) para comparar tratamientos en
este diseño en bloque.
a) valor-p = 0,0057 , por lo que se rechaza la , es decir existe
diferencia entre los tratamientos
valor-p = 0,0032 , el factor de bloque (tratamientos) también afecta, es
decir, existen diferencias entre el bloque, por lo que se rechaza la
b) = =
c)
=
Diferencia poblacional
Diferencia muestral
-3,5 1,65
-1,25 1,65
2,25 1,65
Decisión
Significativo
No Significativo
Significativo
5.- En una empresa lechera se tienen varios silos para almacenar leche (cisternas de 60
000 L). Un aspecto crítico para que se conserve la leche es la temperatura de
almacenamiento. Se sospecha que en algunos silos hay problemas, por ello, durante
cinco días se decide registrar la temperatura a cierta hora crítica. Obviamente la
temperatura de un día a otro es una fuente de variabilidad que podría impactar la
variabilidad total.
RESUMEN Cuenta Suma Promedio Varianza
A 4 15 3,75 2,916666667
B 4 29 7,25 9,583333333
C 4 20 5 3,333333333
Tratamiento 3 14 4,666666667 4,333333333
3 19 6,333333333 6,333333333
3 8 2,666666667 0,333333333
3 23 7,666666667 4,333333333
ANÁLISIS DE VARIANZA
Origen de las variaciones Suma de cuadrados Grados de libertad Promedio de los cuadrados F Probabilidad Valor crítico para F
Filas 25,16666667 2 12,58333333 13,72727273 0,005768838 5,14325285
Columnas 42 3 14 15,27272727 0,003244859 4,757062664
Error 5,5 6 0,916666667
Total 72,66666667 11
Análisis de varianza de dos factores con una sola muestra por grupo
94 CAPÍTULO 3 Diseño de bloques
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
Día
Silo Lunes Martes Miércoles Jueves Viernes
A
B
C
D
E
4,0
5,0
4,5
2,5
4,0
4,0
6,0
4,0
4,0
4,0
5,0
2,0
3,5
6,5
3,5
0,5
4,0
2,0
4,5
2,0
3,0
4,0
3,0
4,0
4,0
a) En este problema, ¿cuál es el factor de tratamiento u cuál el factor de bloque?
b) Suponga un DBCA, formule las hipótesis adecuadas y el modelo estadístico.
c) ¿Hay diferencia entre los silos?
d) ¿La temperatura de un día a otro es diferente?
e) Revise residuos, ¿hay algún problema evidente?
6.- Se diseño un experimento para estudiar el rendimiento de cuatro detergentes. Las
siguientes lecturas de ¨blancura¨ se obtuvieron con un equipo especial diseñado para 12
cargas de lavado, distribuidas en tres modelos de lavadoras:
Detergente Lavadora 1 Lavadora 2 Lavadora 3
A
B
C
D
45
47
50
42
43
44
49
37
51
52
57
49
a) Señale el nombre del diseño experimental utilizado
b) Formule la hipótesis que se quiere probar en este problema
c) Realice el análisis estadístico más apropiado para estos datos y obtenga
conclusiones.
7.- Se realizo un experimento para determinar el efecto de cuatro sustancias químicas
diferentes sobre la resistencia de una tela. Estas sustancias químicas se usan como parte
del proceso de acabado del planchado permanente. Se seleccionaron cinco muestras de
tela, y se corrió un diseño de bloques completos aleatorizados para probar cada tipo de
sustancia química sobre cada muestra de tela en orden aleatorio. Se probarán las
diferencias de las medias utilizadas en el análisis de varianza con
Muestra de tela
Sustancia
Química
1 2 3 4 5
1
2
3
4
1,3
2,2
1,8
3,9
1,6
2,4
1,7
4,4
0,5
0,4
0,6
2,0
1,2
2,0
1,5
4,1
1,1
1,8
1,3
3,4
a) Señale el nombre del diseño experimental utilizado
b) Formule la hipótesis que se quiere probar en este problema
c) Realice el análisis estadístico más apropiado para estos datos y obtenga
conclusiones.
Diseño en bloques completos al azar 95
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
3.2. Diseño en cuadrado latino
En el diseño en cuadro latino (DCL) se controlan dos factores de bloque y se estudia un
factor de tratamientos, por lo que se tienen cuatro fuentes de variabilidad que pueden
afectar la respuesta observada, estas son:
Los tratamientos
El factor de bloque I (renglones)
El factor de bloque II (columnas)
El error aleatorio
Se llama cuadro latino por dos razones: es un cuadro debido a que tiene la
restricción adicional de que los tres factores involucrados se prueban en la misma
cantidad de niveles, y es latino porque se utilizan letras latinas para denotar a los
tratamientos o niveles del factor de interés. Sean A, B, C, …, K, los k tratamientos a
comparar, por lo tanto ambos factores de bloques tienen también k niveles cada uno. El
aspecto de los datos se muestra en la siguiente tabla.
Bloque II (columnas)
1 2 3 … k
Bloque I
(renglones)
1
2
3
.
.
k
A = Y111
B = Y221
C = Y331
.
.
K = Ykk1
B = Y212
C = Y322
D = Y432
.
.
A = Y1k2
C = Y313
D = Y423
E = Y533
.
.
B = Y2k3
…
…
…
…
K = YK1K
A = Y12K
B = Y23K
.
.
J = YJkK
Ahora se necesitan al menos tres subíndices, por ejemplo, la respuesta Y313 se
generó en el tratamiento tres (C), en el primer nivel del factor renglón y en el tercer
nivel del factor columna.
El modelo estadístico para describir el comportamiento de las observaciones está
dado por
donde es la observación del tratamiento , en el nivel , del factor renglón y en el
nivel del factor columna; es el error atribuible a dicha observación. De acuerdo
con este modelo, la variabilidad total presente en los datos se puede descomponer como
y los grados de libertad correspondientes son
El ANOVA para el diseño en cuadro latino se muestra en la tabla 3.4. En él se
prueba la hipótesis sobre los efectos de tratamiento del factor renglón y del factor
96 CAPÍTULO 3 Diseño de bloques
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
columna. Otra vez, la hipótesis fundamental es la de los tratamientos; las otras dos
proporcionan un adicional al objetivo inicial y permiten comprobar la relevancia de
controlar los factores de bloque.
Tabla 3.4 ANOVA para el cuadro latino
Fuentes de
variabilidad
Suma de
cuadrados
Grado de
libertad
Cuadrado
medio Valor-p
Tratamientos
Renglones
Columnas
Error
Total
SCTRAT
SCB1
SCB2
SCE
SCT
k – 1
k – 1
k – 1
(k – 2)(k – 1)
k2 - 1
CMTRAT
CMB1
CMB2
CME
Selección y aleatorización de un cuadro latino. No cualquier arreglo de letras latinas
en forma de cuadro es cuadro latino, la regla fundamental es que cada letra debe
aparecer sólo una vez en cada renglón y en cada columna. Un cuadro latino estándar es
aquel en el que en la primera columna y en el primer renglón aparecen las letras en
orden alfabético. Por ejemplo, un cuadro latino estándar de tamaño cuatro está dado por:
A B C D
B C D A
C D A B
D A B C
Existen además los siguientes tres cuadros latinos de dimensión cuatro:
y
Para cuatro tratamientos se pueden construir un total de 576 cuadros latinos de
los cuales cuatro son estándar. La selección del diseño debería ser elegir uno al azar de
los 576 posibles; no obstante, es prácticamente imposible construirlos a todos para
seleccionar uno al azar. Sin embargo, ocurre que dado un cuadro latino, cualquier
intercambio de columnas o de renglones es también cuadro latino, por eso la estrategia
de selección y aleatorización recomendada en la práctica es la siguiente:
A B C D
B A D C
C D B A
D C A B
A B C D
B D A C
C A D B
D C B A
A B C D
B A D C
C D A B
D C B A
Diseño en cuadro latino 97
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
Se construye el cuadro latino estándar más sencillo.
Se aleatoriza el orden de los renglones (o columnas) y posteriormente se
aleatoriza el orden de las columnas (o renglones).
Por último, los tratamientos a comparar se asignan en forma aleatoria a
las letras latinas.
El cuadro latino tiene dos restricciones a la aleatorización debido a los dos
factores de bloque, lo que implica que a la hora de correr el experimento no hay ningún
margen de aleatorización. Es decir, se puede correr por columna o por renglón según
convenga. Lo que no es correcto es hacer todas las pruebas de un tratamiento, y luego
todas las de otro, y así sucesivamente, puesto que se puede introducir ruido adicional
debido a factores no controlables que cambian con el tiempo.
Ejemplo.
Comparación de cuatro marcas de llantas. Una compañía de mensajería está
interesada en determinar cuál marca de llantas tiene mayor duración en términos del
desgaste. Para ello se planea un experimento en cuadro latino, en el que se comparan las
cuatro marcas de llantas sometiéndolas a una prueba de 32 000 kilómetros de recorrido,
utilizando cuatro diferentes tipos de auto y las cuatro posiciones posibles de las llantas
en el auto. Así, el factor de interés es el tipo de llantas o marca, y se controlan dos
factores de bloque: el tipo de carro y la posición de la llanta en el auto. Estos factores de
bloque se controlan ya que, por experiencia, se sabe que el tipo de carro y la posición
de la llanta tienen efecto en el desgaste de la misma.
La elección del cuadro latino a utilizar se hace antes de obtener los datos. Para
ello, a partir de un cuadro latino inicial se aleatorizan las columnas y los renglones;
después, las diferentes marcas de llantas se asignan de manera aleatoria a las letras
latinas que denotan los niveles del factor de interés
Posición Carro
1 2 3 4
1
2
3
4
C = 12
B = 14
A = 17
D = 13
D = 11
C = 12
B = 14
A = 14
A = 13
D = 11
C = 10
B = 13
B = 8
A = 3
D = 9
C = 9
Las pruebas se hacen al mismo tiempo con choferes, a quienes se les instruye
para que manejen de manera similar sobre el mismo terreno para los cuatro
automóviles. Al hacer las pruebas de los cuatro autos al mismo tiempo se evita el efecto
del ambiente en el desgaste; asimismo, el conductor y el tipo de terreno podrían influir,
pero se considera suficiente mantenerlos lo más homogéneo posible durante el
experimento. El diseño y los datos observados se muestran en la tabla anterior. Se
mide la diferencia máxima entre el grosor de la llanta nueva y el grosor de la llanta
después de recorrido los 32 000 kilómetros. Obviamente, a mayor diferencia en grosor
mayor desgaste. Las unidades de medición son milésimas de pulgada
98 CAPÍTULO 3 Diseño de bloques
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
ANOVA resultante
Fuente de
variabilidad
Suma de
cuadrados
Grados de
libertad
Promedio de los
cuadrados F Valor-p
Valor crítico
para F
Marca 5,6875 3 10 0,37 0,775 4,76
Posición 16,1875 3 2,0625 1,07 0,431 4,76
Carro 103,6875 3 12,8958 6,83 0,023 4,76
Error 30,375 6 0,895833
Total 155,9375 15
Se observa que nuestro punto critico tanto para la posición, el tipo de carro y las
marcas es de 4,76. Concluimos que en las marcas y posición no existe evidencia de que
esta influya por lo que se acepta la hipótesis nula de que son iguales a un nivel de
significancia de = 0,05. En cuanto al tipo de carro observamos que este si influye en
el desgaste de las llantas por lo que rechazamos la hipótesis nula
Resultado arrojado en Minitab
Modelo lineal general: Desgaste vs. Posición, Carro, Marcas
Factor Tipo Niveles Valores
Posición fijo 4 1, 2, 3, 4
Carro fijo 4 1, 2, 3, 4
Marcas fijo 4 A, B, C, D
Fuente GL SC sec. SC ajust. MC ajust. F P
Posición 3 16,188 16,187 5,396 1,07 0,431
Carro 3 103,688 103,688 34,563 6,83 0,023
Marcas 3 5,687 5,687 1,896 0,37 0,775
Error 6 30,375 30,375 5,062
Total 15 155,938
Calculo manual para ANOVA de cuadro latino
Fuente de
variaciones
SC GL CM F Valor
crítico
para F
Tratamientos
Bloque 1
(filas)
Bloque 2
(columnas)
Error
Total
Diseño en cuadro latino 99
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
Sumas básicas para el cálculo manual
Posición, carro y marca Operaciones básicas
C = 12 D = 11 A = 13 B = 8
B = 14 C = 12 D = 11 A = 3
A = 17 B = 14 C = 10 D = 9
D = 13 A = 14 B = 13 C = 9
Suma de los cuadrados de los tratamientos
Suma de los cuadrados de filas (bloque 1)
Suma de los cuadrados de las columnas (bloque 2)
suma
de los datos
total de medición
media global
Suma total por Tratamiento ( Sumatoria de las letras A,B,C y D correspondientes
47 49 43 44
Suma total por fila Bloque 1 ( 44 40 50 49
Suma total por columna Bloque II
( 56 51 47 29
1.- Suma de cuadrados de tratamientos o variabilidad debida a la diferencia entre las
marcas de llantas, bloque 1 y bloque 2
2.- Suma total de cuadrados o variabilidad total de los datos
3.- Suma de cuadrados del error o variabilidad dentro de métodos de ensamble
4.- Cuadrados medios de tratamientos, del bloque 1, del bloque 2 y del error
100 CAPÍTULO 3 Diseño de bloques
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
5- Estadístico de prueba
ANOVA para el diseño del cuadro latino
Fuente de
variaciones
SC GL CM F Valor crítico
para F
Tratamientos 5,68 3 1,89 0,37 4,76
Renglones
(Bloque 1)
16,19 3 5,39 1,06 4,76
Columnas
(Bloque2)
103,69 3 34,56 6,83 4,76
Error 30,37 6 5,06
Comprobación de supuestos. Como se comentó antes, la validez del análisis de
varianza recae en tres supuestos que siempre deben verificarse:
Normalidad
Varianza constante
Independencia de los residuos
Además de la ausencia de observaciones atípicas o aberrantes. Como se observa en
la figura 3.6, el supuesto de normalidad se cumple al caer los residuos o puntos ¨más o
menos en línea recta¨ (Grafica de probabilidad normal). También se cumple el supuesto
de varianza constante de acuerdo a la grafica de residuos vs valor ajustado, y en la
grafica de residuos vs orden de observación, en la que los residuos se ubican
aleatoriamente dentro de una banda horizontal; su dispersión vertical es la misma a lo
Diseño en cuadro latino 101
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
largo de los gráficos. No se comprobó el supuesto de independencia porque no se
conoce el orden en que se realizaron las mediciones del desgaste.
Figura 3.6 Gráficas de residuos para la verificación de supuestos
420-2-4
99
90
50
10
1
Residuo
Por
cent
aje
15,012,510,07,55,0
1
0
-1
-2
-3
Valor ajustado
Res
iduo
10-1-2-3
4
3
2
1
0
Residuo
Frec
uenc
ia
16151413121110987654321
1
0
-1
-2
-3
Orden de observación
Res
iduo
Gráfica de probabilidad normal vs. ajustes
Histograma vs. orden
Gráficas de residuos para Desgaste
Ejercicios
1.- Las letras A, B, C y D representan cuatro variedades de trigo; los renglones
representan cuatro diferentes fertilizantes; y las columnas 4 anos diferentes. Los datos
de la siguiente tabla son los rendimientos para las cuatro variedades de trigo, medidas
en kilogramos por parcela. Se supone que las diversas fuentes de variación no
interactúan. Utilice un nivel de significancia de 0.05 para probar la ; no hay
diferencia en los rendimientos promedio de las cuatro variedades de trigo
Rendimiento del trigo (kg por parcela)
Modelo lineal general: Rendimiento vs. Fertilizante, Ano, Trigo
Factor Tipo Niveles Valores
Fertilizante fijo 4 1, 2, 3, 4
Ano fijo 4 1, 2, 3, 4
Trigo fijo 4 A, B, C, D
Fuente GL SC sec. SC ajust. MC ajust. F P
Fertilizantes 1981 1982 1983 1984
Fertilizante 1 A
70
B
75
C
68
D
81
Fertilizante 2 D
66
A
59
B
55
C
63
Fertilizante 3 C
59
D
66
A
39
B
42
Fertilizante 4 B
41
C
57
D
39
A
55
102 CAPÍTULO 3 Diseño de bloques
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
Fertilizante 3 1557,19 1557,19 519,06 11,92 0,006
Ano 3 417,69 417,69 139,23 3,20 0,105
Trigo 3 263,69 263,69 87,90 2,02 0,213
Error 6 261,37 261,37 43,56
Total 15 2499,94
La variabilidad debida al fertilizante, años y tipos de tratamiento. La = 2,02 es
sobre 3 y 6 grados de libertad El valor p de aproximadamente 0,2 es en realidad
demasiado grande para concluir que las variedades de trigo afectan de manera
significativa el rendimiento.
2.- El departamento de matemáticas de una universidad desea evaluar las capacidades
de enseñanza de cuatro profesores. A fin de eliminar cualquier efecto debido a los
diferentes cursos de matemáticas y los diferentes horarios, se decide realizar un
experimento con el uso de un diseño de cuadros latinos en que las letras A, B, C y D
representan a los cuatro diferentes profesores. Cada profesor ensena una sección de cada
de cuatro diferentes cursos programados en cada uno de los cuatro diferentes horarios
durante el día. Los datos muestran las calificaciones asignadas por estos profesores a 16
estudiantes de aproximadamente igual capacidad. Utilice un nivel de significancia de
0,05 para probar la hipótesis de que los diferentes profesores no tienen efecto en las
calificaciones.
Horario Curso
Álgebra Geometría Estadística Cálculo
1
2
3
4
A 84
B 91
C 59
D 75
B 79
C 82
D 70
A 91
C 63
D 80
A 77
B 75
D 97
A 93
B 80
C 68
3.- Una empresa fabricante quiere investigar los efectos de cinco aditivos de color en el
tiempo de fraguado de una mezcla de concreto nueva. Las variaciones en el tiempo de
fraguado se pueden esperar de los cambios diarios en la temperatura y humedad y
también de los diferentes trabajadores que preparan los moldes de prueba. Para eliminar
estas fuentes externas de variación se utiliza un diseño de cuadro latino de 5 x 5 en el
que las letras A, B, C, D y E representan los cinco aditivos. Los tiempos de fraguado, en
horas, para los 25 moldes. El nivel de significancia de 0,05, ¿Podemos decir que los
aditivos de color tienen algún efecto en el tiempo de fraguado de la mezcla de concreto?
Día
Trabajador 1 2 3 4 5
1
2
3
4
5
D 10,7
E 11,3
A 11,8
B 14,1
C 14,5
E 10,3
C 10,5
B 10,9
A 11,6
D 11,5
B 11,2
D 12,0
C 10,5
E 11.0
A 11,5
A 10,9
B 11,5
D 11,3
C 11,7
E 12,7
C 10,5
A 10,3
E 7,5
D 11,5
B 10,9
4.- Se quiere estudiar el efecto de cinco diferentes catalizadores (A, B, C, D y E) sobre
el tiempo de reacción de un proceso químico. Cada lote de material sólo permite cinco
Diseño en cuadro latino 103
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
corridas y cada corrida requiere aproximadamente 1,5 horas por lo que sólo se pueden
realizar cinco corridas diarias. El experimentador decide correr los experimentos con un
diseño en cuadro latino para controlar activamente a los lotes y días. Los datos
obtenidos son:
Día
Lote 1 2 3 4 5
1
2
3
4
5
A 8
C 11
B 4
D 6
E 4
B 7
E 2
A 9
C 8
D 2
D 1
A 7
C 10
E 6
B 3
C 7
D 3
E 1
B 6
A 8
E 3
B 8
D 5
A 10
C 8
a) ¿Cómo se aleatoriza el experimento?
b) Anote la ecuación del modelo y las hipótesis estadísticas correspondientes
c) ¿Existen diferencias entre los tratamientos? ¿Cuáles tratamientos son diferentes
entre si?
d) Verifique los supuestos del modelo, considerando que los datos se obtuvieron
columna por columna, día a día
5.- Se comprueba el peso en gramos de un material de tres proveedores: A, B y C, por
tres diferentes inspectores: I, II y III, utilizando tres diferentes escalas: 1,2 y 3. El
experimento se lleva a cabo como el siguiente cuadro latino:
Escala
Inspector 1 2 3
I
II
III
A 16
B 15
C 13
B 10
C 9
A 11
C 11
A 14
B 13
a) ¿Hay diferencias entre los proveedores?
b) ¿Hay diferencias entre los inspectores y entre las escalas?
c) Si el peso debe ser 15 g, ¿cuál proveedor es mejor?
d) Si algún factor de bloque es no significativo, elimínelo y haga el análisis
adecuado
6.- Cuando se comparan varios fertilizantes o diferentes variedades de cierto cultivo, es
típico que se deba considerar el gradiente de fertilidad del suelo (factor columna) o los
efectos residuales de cultivos previos (factor renglón). Considerando estos factores de
bloque, Gómez y Gómez (1984) plantean un experimento en cuadro latino para
comparar, en cuanto a rendimiento en toneladas por hectárea, tres variedades de maíz
hibrido (A, B, C) y una variedad control (D). Para ello, se utiliza un campo agrícola
cuadrado de 16 hectáreas, dividido en parcelas de una hectárea. Los datos de
rendimiento obtenidos en cada parcela se muestran a continuación:
104 CAPÍTULO 3 Diseño de bloques
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
Ren Col 1 2 3 4
1
2
3
4
B 1,640
C 1,475
A 1,670
D 1,565
D 1,210
A 1,185
C 0,710
B 1,290
C 1,425
D 1,400
B 1,665
A 1,655
A 1,345
B 1,290
D 1,180
C 0,660
a) ¿Existen diferencias en los rendimientos de las diferentes variedades de maíz?
b) ¿Cuál de los factores de bloque tuvo efectos?
c) ¿Se habrían detectado las mismas diferencias en los tratamientos con un diseño
completamente al azar?
d) ¿Y con un diseño en bloques completos al azar?
3.3. Diseño en cuadrado grecolatino
Con el diseño en cuadro grecolatino (DCGL) se controlan tres factores de bloque,
además del factor de tratamiento. Se llama cuadro grecolatino porque los cuatro factores
involucrados se prueban en la misma cantidad de niveles, de aquí que se pueda escribir
como un cuadro (ver tabla 3.5); además, se utilizan letras latinas para denotar a los
tratamientos y letras griegas para nombrar a los niveles del tercer factor de bloque.
Tabla 3.5 Diseño en cuadro grecolatino
Columnas
1 2 3 4
Ren
glo
nes
1
2
3
4
A
B
C
D
B
A
D
C
C
D
A
B
D
C
B
A
Al igual que en el cuadro latino, cada letra (latinas y griegas) debe aparecer sólo
una vez en cada renglón y en cada columna. Además, cada par de letras debe aparecer
sólo una
vez en todo el arreglo. El modelo estadístico que describe a las mediciones en un
cuadro grecolatino está dado por
donde es la observación o respuesta que se encuentra en el tratamiento ( -ésima
letra latina), en el renglón , en la columna y en la -ésima letra griega; es el efecto
del tratamiento , es el efecto del renglón , representa el efecto de la columna y
representa el efecto de la -ésima letra griega, que son los niveles del tercer factor
de bloque; el término representa el error aleatorio atribuible a la medición .
Es importante no confundir las letras griegas del modelo que representan efectos, con
las letras griegas en el diseño que simbolizan a los niveles del tercer factor de bloque.
La variabilidad total presente en los datos se puede partir de la manera usual como
Diseño en cuadro grecolatino 105
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
donde las sumas , miden la variabilidad debida a los factores de
bloque renglón, columna y de letras griegas, respectivamente. Para tratamientos, los
grados de libertad correspondientes a cada suma son
Un bosquejo del análisis de varianza se muestra en la tabla 3.6, en la cual se
prueban las hipótesis de igualdad de letras latinas (tratamientos), de renglones, de
columnas y de letras griegas
Tabla 3.6 ANOVA para el diseño en cuadro grecolatino Fuente de
variabilidad
Suma de cuadrados Grados de libertad
Tratamientos
(letras latinas)
Factor de bloque I
(renglones)
Factor de bloque II
(columnas)
Factor d bloque III
(letras griegas)
Error
Total
k-1
k-1
k-1
k-1
(k-3)(k-1)
Ejemplo
En el caso del ejemplo donde se comparan los cuatro métodos de ensamble y se tiene el
factor de bloque operador, se podrían tener dos factores de bloque adicionales:
Orden en el que se hace el ensamble
Lugar donde se hace
De acuerdo con esto, el diseño en cuadro grecolatino se observa en la siguiente
tabla.
106 CAPÍTULO 3 Diseño de bloques
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
Tabla 3.7 Diseño en cuadro grecolatino para métodos de ensamble
Operador
1 2 3 4
Ord
en d
el
ensa
mble
1
2
3
4
C = 10
B
A
D
B
C
D
A
D
A
B
C
A
D
C
B
Tabla 3,8 ANOVA para el diseño en cuadro grecolatino
Fuente Suma de
cuadrados
Gl Cuadrado
medio
Razón F Valor-p F critica
Método
Operador
Orden
Lugar
Residual
Total
83,5
18,5
9,5
2,0
3,5
117,0
3
3
3
3
3
15
27,8333
6,16667
3,16667
0,666667
1,16667
23,86
5,29
2,71
0,57
0,0135
0,1024
0,2170
0,6714
9,28
Resultado arrojado en Minitab Modelo lineal general: promedio vs. Método; operador; orden; lugar Factor Tipo Niveles Valores
Método fijo 4 1; 2; 3; 4
operador fijo 4 1; 2; 3; 4
orden fijo 4 1; 2; 3; 4
lugar fijo 4 1; 2; 3; 4
Fuente GL SC sec. SC ajust. MC ajust. F P
Método 3 9,500 9,500 3,167 2,71 0,217
operador 3 18,500 18,500 6,167 5,29 0,102
orden 3 83,500 83,500 27,833 23,86 0,014
lugar 3 2,000 2,000 0,667 0,57 0,671
Error 3 3,500 3,500 1,167
Total 15 117,000
S = 1,08012 R-cuad. = 97,01% R-cuad.(ajustado) = 85,04%
El análisis de varianza para el ejemplo se aprecia que el único efecto
significativo son los tratamientos (métodos), y ninguno de los factores de bloque tiene
un efecto significativo sobre el tiempo de ensamble. El factor operador tiene un valor-p
bajo, lo cual indica que podría tener un efecto significativo; sin embargo, en este
experimento fue imposible detectarlo. Si contrastamos con respecto a F critica para los
cuatro casos F en tablas es F = 9,28, por lo cual se rechaza la hipótesis nula para
método, en cuanto para operador, orden y lugar se acepta.
Diseño en cuadro grecolatino 107
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
Ejercicios.
1.- Una compañía distribuidora ubicada en los suburbios está interesada en estudiar la
diferencia en costos (tiempo y gasolina) entre las cuatro rutas (A, B, C, D) que llegan a
la zona comercial, más importante para ellos, en el otro extremo de la ciudad. Deciden
correr un experimento en cuadro grecolatino controlando los factores de bloque chofer,
marca de vehículo ( ) y día de la semana. El experimento se repite en dos
semanas diferentes, en las cuales no hay días festivos ni quincenas. Los costos
observados en pesos se muestran en la siguiente tabla:
Chofer/día Lunes Martes Miércoles Jueves
Carlos
Enrique
Genaro
Luis
825, 750
650, 725
700, 675
475, 480
585, 610
540, 560
650, 740
560, 615
550, 580
580, 635
635, 540
650, 725
580, 650
850, 770
450, 550
670, 730
a) Haga el análisis de varianza de este experimento
b) Realice las pruebas de comparaciones múltiples para los factores significativos
c) Represente los tratamientos y factores de bloque usando gráficas de medias y
diagrama de dispersión.
d) ¿Cuál es la mejor ruta? ¿Cuál es la peor?
e) ¿Hay diferencias significativas entre los choferes? ¿Y entre el tipo o marca de
unidad?
2.- El rendimiento de un proceso químico se midió utilizando cinco lotes de materia
prima, cinco concentraciones del ácido, cinco tiempos de procesamiento (A, B, C, D y
E) y cinco concentraciones del catalizador ( , ). Se usó el cuadrado grecolatino
siguiente. Analizar los datos de este experimento (utilizar = 0,05) y sacar
conclusiones.
Concentración de ácido
Lote 1 2 3 4 5
1
2
3
4
5
A 26
B 18
C, 20
D 15
E, 10
B, 16
C 21
D, 12
E 15
A, 24
C, 19
D, 18
E 16
A 22
B, 17
D 16
E, 11
A, 25
B 14
C, 17
E, 13
A, 21
B 13
C 17
D, 14
108 CAPÍTULO 3 Diseño de bloques
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
3.4. Uso de un software estadístico
Para capturar los datos en Minitab para el diseño de bloques se sigue la siguiente
secuencia:
Primeramente en la hoja de cálculo de Minitab, se capturan los datos en las
columnas uno dos y tres de la siguiente manera:
a) En la columna uno se captura el método u tratamiento indicando de que
método se trata y cuantas repeticiones hay del mismo, repitiendo el mismo
número 1, 1, 1, 1, 2, 2, 2, 2, 3, 3, 3, 3, 4, 4, 4, 4
b) En la segunda columna se anota el operador, en la posición que le
corresponde. 1, 2, 3, 4, 1, 2, 3, 4, 1, 2, 3, 4, 1, 2, 3, 4
c) En la tercera columna se anota el dato numérico de la tabla de datos, es decir
el tiempo promedio para este caso.
6, 9, 7, 8, 7, 10, 11, 8, 10, 16, 11, 14, 10, 13, 11, 9
d) En el cuadro de captura será en ANOVA de dos factores, en la ventana de
captura se anotara en Respuestas el nombre de la tercer columna, en este
caso dato, en el cuadro del factor fila se anota el nombre de la primera
columna que corresponde al método o tratamiento, en el factor columna se
anota el nombre del factor bloque que en este caso es operador
Nota, recordar que esto se hace en el cuadro principal de la izquierda dando dos clics
con el ratón.
e) Indicar aceptar y obtendremos el resultado.
Para capturar los datos en Minitab para el cuadro latino (ANOVA de dos
factores) se sigue la siguiente secuencia:
Primeramente en la hoja de cálculo de Minitab, se capturan los datos en las columnas
uno dos tres y cuatro de la siguiente manera:
Uso de software estadístico 109
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
f) En la columna uno, se captura la posición (para el problema de comparación
de llantas) indicando cuantas repeticiones hay de ese número repitiendo el
mismo número 1, 1, 1, 1, 2, 2, 2, 2, 3, 3, 3, 3, 4, 4, 4
g) En la segunda columna se anota el carro, tal y como se indica en el diseño
del cuadro. 1, 2, 3, 4, 1, 2, 3, 4, 1, 2, 3, 4, 1, 2, 3, 4
h) En la tercera columna se anota la letra que corresponde a la marca de las
llantas en la secuencia que le corresponda según los números de la columna
anterior,
C, D, A, B, B, C, D, A, A, B, C, D, D, A, B, C
i) En la cuarta columna se anota los valores correspondientes a la respuesta, es
decir, el desgaste. 12, 11, 13, 8, 14, 12, 11, 3, 17, 14, 10, 9, 13, 14, 13, 9
j) Ahora en Estadísticas de Minitab, seleccionar ANOVA, luego Modelo
linear general.
k) En respuesta seleccionar la columna cuatro (desgaste) dando dos clic con el
ratón, luego en Modelo, indicar con dos clic del ratón, carro, marca y
desgaste (recordar que esto se hace en el cuadro principal de la izquierda
quedando de manera continua sin comas, pero con su espacio de separación)
l) En factores aleatorios se deja en blanco, y se indica aceptar, y obtendremos
el resultado
Para capturar los datos en Minitab para el cuadro grecolatino (ANOVA de tres
factores de bloque) se sigue la siguiente secuencia:
Primeramente en la hoja de cálculo de Minitab, se capturan los datos en las columnas
uno dos tres, cuatro y cinco de la siguiente manera:
a) En la columna uno se captura la tratamiento o método, indicando con un
número cuantas repeticiones hay de ese tratamiento, repitiendo el mismo
número 1, 1, 1, 1, 2, 2, 2, 2, 3, 3, 3, 3, 4, 4, 4, 4
b) En la segunda columna se anota el operador (para el ejemplo de referencia), es
decir si es repetición 1, 2, 3, 4, 1, 2, 3, 4, 1, 2, 3, 4, 1, 2, 3, 4
110 CAPÍTULO 3 Diseño de bloques
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
c) En la tercera columna se anota el número que representa a la letra latina como
se colocaron el diseño del cuadro (para este caso el orden de las cuatro letras
iníciales fue C, B, D, y A (C = 1, B = 2, D = 3 y A = 4)). Anotando el número
que represente a cada letra indicada en el cuadro. 1, 2, 3 ,4, 2, 1, 4, 3, 4, 3, 2, 1,
3, 4, 1, 2
d) En la cuarta columna se anota el número que representa a la letra griega como
se colocaron el diseño del cuadro (para este caso el orden de las cuatro letras
iníciales fue , , , y ( = 1, = 2, , = 3 y = 4)). Anotando el
número que represente a cada letra indicada en el cuadro.
1, 2, 3, 4, 4, 3, 2, 1, 3, 4, 1, 2, 2, 1, 4, 3
e) En la quinta columna se anota los valores correspondientes a la respuesta, es
decir, el tiempo o promedio (para este ejemplo), siendo:
10, 10, 12, 7, 8, 15, 7, 14, 6, 14, 11, 13, 11, 8, 10, 8
f) Ahora en Estadísticas de Minitab, seleccionar ANOVA, luego Modelo linear
general.
g) En respuesta seleccionar la columna quinta (tiempo o promedio) dando dos clic
con el ratón, luego en Modelo, indicar con dos clic del ratón, método, operador,
orden y lugar (recordar que esto se hace en el cuadro principal de la izquierda)
h) En factores aleatorios se deja en blanco, y se indica aceptar, y obtendremos el
resultado
Uso de software estadístico 111
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
———— 15/11/2011 11:26:49 ————————————————————
Modelo lineal general: promedio vs. Método; operador; orden; lugar Factor Tipo Niveles Valores
Metodo fijo 4 1; 2; 3; 4
operador fijo 4 1; 2; 3; 4
orden fijo 4 1; 2; 3; 4
lugar fijo 4 1; 2; 3; 4
Análisis de varianza para promedio, utilizando SC ajustada para pruebas
Fuente GL SC sec. SC ajust. MC ajust. F P
Metodo 3 9,500 9,500 3,167 2,71 0,217
operador 3 18,500 18,500 6,167 5,29 0,102
orden 3 83,500 83,500 27,833 23,86 0,014
lugar 3 2,000 2,000 0,667 0,57 0,671
Error 3 3,500 3,500 1,167
Total 15 117,000
S = 1,08012 R-cuad. = 97,01% R-cuad.(ajustado) = 85,04%
112 CAPÍTULO 4 Diseños factoriales
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
CAPÍTULO 4
Conceptos básicos en diseños factoriales
4.1. Diseños factoriales con dos factores
4.2. Diseños factoriales con tres factores
4.3. Diseño factorial general
4.4. Modelos de efectos aleatorios
4.5. Uso de un software estadístico
Diseños factoriales 113
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
Competencias
Explicar cuando un diseño de experimentos es un diseño factorial, describiendo los
conceptos básicos que estos involucran y mostrado cómo se hace tal experimentación.
Desarrollar los diseños factoriales de dos y tres factores. Conocer el diseño factorial
general y diferenciar los modelos de efectos fijos con los modelos de efectos aleatorios.
Interpretar correctamente los análisis gráficos y el análisis de varianza en los diseños
factoriales.
Conceptos básicos en diseños factoriales
Es frecuente que en muchos procesos existan varios factores de los que es necesario
investigar de manera simultánea su influencia sobre una o varias variables de respuesta,
donde cada factor tiene la misma importancia a priori desde el momento que se decide
estudiarlo, y es poco justificable suponer de antemano que los factores no interactúan
entre sí. Los diseños experimentales que permiten estudiar de manera simultánea el
efecto de varios factores son los llamados diseños factoriales.
El objetivo de un diseño factorial es estudiar el efecto de varios factores sobre
una o varias respuestas o características de calidad y determinar una combinación de
niveles de los factores en la cual el desempeño del proceso sea mejor que en las
condiciones de operación actuales; es decir, encontrar nuevas condiciones de operación
del proceso que eliminen o disminuyan ciertos problema de calidad en la variable de
salida.
Los factores pueden ser de tipo cualitativo (máquinas, tipos de material,
operador, la presencia o ausencia de una operación previa, etc.), o de tipo cuantitativo
(temperatura, humedad, velocidad, presión, etc.). Para poder estudiar la manera en que
incluye cada factor sobre la variable respuesta, es necesario elegir al menos dos niveles
de prueba para cada uno de ellos (tres máquinas, dos operadores, tres velocidades, dos
temperaturas, etc.). Con el diseño factorial completa se corren aleatoriamente en el
proceso todas las posibles combinaciones que pueden formarse con los niveles
seleccionados.
Un diseño de experimentos factorial o arreglo factorial es el conjunto de puntos
experimentales o tratamientos que pueden formarse considerando todas las posibles
combinaciones de los niveles de los factores. Por ejemplo, con k = 2 factores, ambos
con dos niveles de prueba, se forma el diseño factorial , que consiste de
cuatro combinaciones o puntos experimentales.
Considerando otra vez k = 2 factores, pero ahora uno con tres niveles y el otro
con dos niveles, se pueden construir 3 x 2 combinaciones que dan lugar al diseño
factorial 3 x 2. Observe que en el nombre del diseño factorial va implícita el número de
tratamientos que lo componen. Para obtener el número de corridas experimentales se
multiplica el número de tratamientos por el número de réplicas, donde una réplica se
lleva a cabo cada vez que se repite el arreglo completo.
Más en general, la familia de diseños factoriales consiste de k factores, todos
con dos niveles de prueba; y la familia de diseños factoriales consiste de k factores
114 CAPÍTULO 4 Diseños factoriales
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
cada uno con tres niveles de prueba. Es claro que si los k factores no tienen la misma
cantidad de niveles, entonces no se puede factorizar de esta forma, y debe escribirse el
producto de manera más explícita: por ejemplo con k = 3 factores, el primero con cuatro
niveles y los dos restantes con dos niveles, se tiene el diseño factorial
, que consiste de 16 combinaciones de niveles diferentes.
4.1. Diseños factoriales con dos factores
El experimento factorial más sencillo es en el que intervienen solamente dos factores,
por ejemplo, A y B. Hay niveles del factor A y niveles del factor B. El experimento
tiene réplicas y cada réplica contiene todas las combinaciones de tratamientos .
Considere los factores A y B con y ( ) niveles de prueba,
respectivamente. Con ellos se puede construir el arreglo o diseño factorial , que
consiste de tratamientos. Se llama réplica cada repetición completa del arreglo
factorial. Los diseños factoriales que involucran menos de cuatro factores se corren
replicados para poder tener la potencia necesaria en las pruebas estadísticas sobre los
efecto de interés, de tal forma que si se hacen réplicas, el número total de corridas
experimentales es ( ).
Efecto principal y efecto de interacción
El efecto de un factor se define como el cambio observado en la variable de respuesta
debido a un cambio de nivel de tal factor. En particular, los efectos principales son los
cambios en la media de la variable de respuesta que se deben a la acción individual de
cada factor. En términos matemáticos, el efecto principal de un factor con dos niveles es
la diferencia entre la respuesta media observada cuando tal factor estuvo en su primer
nivel, y la respuesta media observada cuando el factor estuvo en su segundo nivel.
Ejemplo
Diseño factorial . Suponga que en un proceso de fermentación tequilera, se tienen
dos factores A: tipo de levadura y B: temperatura, cada uno con dos niveles denotados por
respectivamente. La respuesta de interés es el
rendimiento del proceso de fermentación. En la tabla 4.1 se muestran los cuatro
tratamientos o puntos del diseño factorial , y entre paréntesis se ha indicado cada
nivel con los códigos (1, -1). En el experimento original cada tratamiento se corrió tres
veces (tres réplicas), lo cual da un total de 12 corridas del proceso pero, por simplicidad,
en la última columna de la tabla 4.1 sólo se anotaron los resultados de la primera
réplica.
Tabla 4.1 Diseño factorial
A: Levadura B: Temperatura Y: Rendimiento
28
41
63
45
Para los datos de la tabla 4.1, los efectos principales están dados por
Diseños factoriales con dos factores 115
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
Efecto A =
Efecto B =
por lo que en términos absolutos el efecto principal de B es mayor. Por otra parte, se
dice que dos factores interactúan entre sí o tienen un efecto de interacción sobre la
variable de respuesta, cuando el efecto de un factor depende del nivel en que se
encuentra el otro. Por ejemplo, los factores A y B interactúan si el efecto de A es muy
diferente en cada nivel de B, o viceversa. Ahora veamos esto con los datos de la tabla
4.1: el efecto de A cuando B es baja está determinado por
Efecto A (con B bajo) = 41 - 28 = 13
y cuando la temperatura es alta, el efecto de A es
Efecto A (con B alta) = 45 - 63 = 13
Como estos dos efectos de A en función del nivel de B son muy diferentes,
entonces es evidencia de que la elección más conveniente del nivel de A depende del
nivel en que esté B, y viceversa. Es decir, eso es evidencia de que los factores de A y B
interactúan sobre Y. En la práctica, el cálculo del efecto A en cada nivel de B no se
hace, y más bien se calcula el efecto global de la interacción de los dos factores, que se
denotan por AB y se calculan como la diferencia entre la respuesta media cuando ambos
factores se encuentran en el m ismo nivel: (-1, -1); (1, 1), y la respuesta media cuando
los factores se encuentran en niveles opuestos: (-1, 1) (1, -1). Para el ejemplo, el efecto
de interacción levadura x temperatura está dado por
Los valores absolutos (sin importar el signo) de los efectos principales y del
efecto de interacción son una medida de importancia de su efecto sobre la variable de
respuesta. Sin embargo, como se tienen estimaciones muestrales, para saber si los
efectos son estadísticamente significativos (diferentes de coro) se requiere el análisis de
varianza (ANOVA).
Modelo estadístico
Con un diseño factorial se pueden estudiar los dos efectos individuales y el efecto
de interacción de ambos factores. En términos estadísticos, lo que se afirma es que el
comportamiento de la respuesta Y en el experimento con k réplicas se podría describir
mediante el modelo de efectos:
donde es la media general, es el efecto debido al i-ésimo nivel del factor es el
efecto del j-ésimo nivel del factor B, representa al efecto de interacción en la
116 CAPÍTULO 4 Diseños factoriales
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
combinación es el error aleatorio que supone sigue una distribución con media
cero y varianza constante y son independientes entre sí. Para que la
estimación de los parámetros en este modelo sea única, se introducen las restricciones:
Es decir, los efectos dados en el modelo son desviaciones respecto de la media
global. Puede usarse el análisis de varianza para probar hipótesis relativas a los efectos
principales de los factores A y B y la interacción AB.
En este modelo, las hipótesis de interés para los tres efectos son:
Estas hipótesis se prueban mediante la técnica de análisis de varianza que para
un diseño factorial con réplicas resulta de descomponer la variación total como,
donde los respectivos grados de libertad de cada una de ellas son:
El factor en los grados de libertad de la suma de cuadrados del error
( ) señala que se necesitan al menos dos réplicas del experimento para calcular ese
componente y, por ende, para construir una tabla de ANOVA. Recordemos que las
sumas de cuadrados divididas entre sus correspondientes grados de libertad se llama
cuadrados medios . Al dividir éstos entre el cuadrado medio del error se
obtienen estadísticos de prueba con distribución F. Toda esta información se sintetiza
en la siguiente tabla:
ANOVA para el diseño factorial FV SC GL CM Valor-p
Efecto A
Efecto B
Efecto AB
Error
Total
Si el valor-p es menor al nivel de significancia prefijado, se rechaza la
hipótesis nula y se concluye que el correspondiente efecto está activo o influye en la
variable de respuesta.
Diseños factoriales con dos factores 117
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
Recordemos la notación de puntos para representar sumas y medias:
Con esta notación la suma de cuadrados totales es:
donde N = es el total de observaciones en el experimento. Las sumas de cuadrados
de efectos son:
y al final, al restar éstas del total, se obtiene la suma de cuadrados del error como:
Ejemplo
Consideremos un experimento en el que se quiere estudiar el efecto de los factores A:
profundidad de corte sobre el acabado de un metal y B: velocidad de alimentación.
Aunque los factores son de naturaleza continua, en este proceso sólo se puede trabajar
en 4 y 3 niveles, respectivamente. Por ello, se decide correr un factorial completo 4 x 3
con tres réplicas, que permitirá obtener toda la información relevante en relación al
efecto de esos factores sobre el acabado. Al aleatorizar las 36 pruebas se obtienen los
datos de la siguiente tabla:
118 CAPÍTULO 4 Diseños factoriales
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
Datos del experimento factorial 4 x 3 B: velocidad
A:
P
rofu
ndid
ad
0,20 0,25 0,30 Total 0,15 74
64 198
60
92
86 266
88
99
98 299
102
763
0,18 79
68 220
73
98
104 290
88
104
99 298
95
808
0,21 82 88 262
92
99 108 302
95
108 110 317
99
881
0,24 99
104 299
96
104
110 313
99
114
111 332
107
944
Total 979 1 171 1 246
El acabado ( ) está en unidades de gramos e interesa minimizar su valor
De acuerdo a esto para obtener el ANOVA para el ejemplo, calculemos los
totales necesarios. De donde:
La suma de cuadrados totales y la suma de cuadrados del error están dadas por
Con esta información se construye el análisis de varianza de la tabla 4.2. Del
ANOVA se concluye que los tres efectos A: velocidad, B: profundidad y AB están
activos o influyen en el acabado. Dado que el efecto de integración AB resulta
significativo, prácticamente toda la información relevante del experimento se aprecia en
su representación gráfica (figura 4.1). Nótese que aparecen tantas líneas como niveles
tenga el factor que se dibuja en la parte de arriba, que en este caso es la profundidad
con sus cuatro niveles que se denotan con la escala de -1 a 1. La significancia de la
interacción detectada por el ANOVA se observa en el hecho de que las líneas en la
figura 5.1 tienen pendientes relativamente diferentes. Como lo que interesa es
minimizar la variable de respuesta, se observa que a mayor velocidad y profundidad hay
una tendencia a obtener peores acabados. Además se ve que cuando se tiene velocidad
Diseños factoriales con dos factores 119
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
alta ( ) el efecto de profundidad es menor (véase la dispersión de las líneas en la
figura cuando la velocidad es alta). Por lo tanto, las condiciones de operación o
tratamiento que convienen es profundidad y velocidad bajas ( ).
El ANOVA de la tabla 5.2 se dice que no está desglosado, ya que cuando en un
experimento hay factores cuantitativos con más de dos niveles, el ANOVA se puede
desglosar para estudiar con mayor detalle en el efecto de tal factor.
Tabla 5.2 ANOVA para el ejemplo
FV SC GL CM Valor-p
B: velocidad
A: profundidad
AB
Error
Total
3 160.5
2 125,10
557,07
689,33
6 532,0
2
3
6
24
35
1 580,25
708,37
92,84
28,72
55,02
24,66
3,23
0,0000
0,0000
0,0180
El planteamiento de hipótesis quedaría de la siguiente manera:
Con su nivel de significancia como con sus grados de libertad respectivamente
tenemos que el valor de F crítica es: y
Se concluye que
Se rechaza
Se rechaza
Se acepta
Resultado arrojado en Minitab para el ejemplo anterior Factores: 2 Réplicas: 3
Corridas base: 12 Total de corridas: 36
Bloques base: 1 Total de bloques: 1
Número de niveles: 4; 3
Modelo lineal general: RESPUESTA vs. PRFUNDIDAD; VELOCIDAD Factor Tipo Niveles Valores
PRFUNDIDAD A fijo 4 0.15; 0.18; 0.21; 0.24
VELOCIDAD B fijo 3 0.20; 0.25; 0.30
Análisis de varianza para RESPUESTA, utilizando SC ajustada para pruebas
Fuente GL SC sec. SC ajust. MC ajust. F P
PRFUNDIDAD A 3 2125,11 2125,11 708,37 24,66 0,000
VELOCIDAD B 2 3160,50 3160,50 1580,25 55,02 0,000
PRF.*VEL. AB 6 557,06 557,06 92,84 3,23 0,018
Error 24 689,33 689,33 28,72
Total 35 6532,00
120 CAPÍTULO 4 Diseños factoriales
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
Comparación de medias
Las comparaciones de medias se introdujeron en la sección ´´Diseño completamente al
azar y ANOVA´´ del capítulo 2, para después de un ANOVA en el que se rechaza ,
investigar cuáles medias causa las diferencias detectadas. El ANOVA sólo indica que al
menos un par de niveles del factor significativo son diferentes entre sí, pero no dice
cuáles son. Por facilidad, denotemos los cuatro niveles de la profundidad (A) del
ejemplo anterior como así como los tres niveles de la velocidad (B)
como Entonces es, los seis pares de hipótesis para comparar las medias del
factor A son:
mientras que para el factor B se tienen los tres pares de hipótesis,
Para probar estas hipótesis con el método LSD habría que calcular las
diferencias muestrales en el valor absoluto y compararlas con la diferencia mínima
significativa. Cabe aclarar que este análisis es engañoso cuando el efecto de interacción
es significativo. Por ello, y sólo por ilustrar el método, se prueban las hipótesis del
factor A ignorando por el momento la interacción. La diferencia mínima significativa
para comparar los niveles del factor A, está dada por:
Donde es el punto porcentual 100( de la distribución T de
Student, los grados de libertad del cuadrado medio del error, y son el
total de observaciones en los niveles del factor A, que están comparando. De esta
manera, en el ejemplo, como es un diseño balanceado = = 9; entonces,
Comparación de medias 121
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
De los totales marginales dados en el renglón inferior de la tabla donde se
representan los datos del experimento factorial 4 x 3, se obtienen las medias del factor
A, al dividir entre 9, que son el número de mediciones involucradas en cada total. Así,
las seis posibles diferencias muestrales en valor absoluto resultan ser:
donde sólo la primer diferencia resulta no significativa, es decir, se acepta
; en cambio, en las cinco comparaciones restantes se rechaza .
Ejercicios
1.- La pintura tapaporo de aviones se aplica en superficies de aluminio utilizando dos
métodos: por inmersión y por aspersión. El objeto de la pintura tapaporo es mejorar la
adherencia de la pintura, y en algunas partes puede aplicarse utilizando cualquiera de los
dos métodos. Al grupo de ingenieros responsable del proceso de esta operación le
interesa saber si tres pinturas tapaporo diferentes difieren en sus propiedades de
adherencia. Se realizó un experimento factorial para investigar el efecto que tiene el tipo
de pintura tapaporo y el método de aplicación sobre la adherencia de la pintura. Se
pintaron tres ejemplares de prueba con cada pintura utilizando cada uno de los métodos
de aplicación, se aplico la pintura final, y se midió la fuerza de adherencia. Probemos la
hipótesis apropiada y saquemos conclusiones
Tipo de
tapaporo
Inmersión Aspersión
1
2
3
4.0, 4,5 4.3 12.8
5.6, 4.9, 5.4 15.9
3.8, 3.7, 4.0 11.5
5.4, 4.9, 5.6 15.9
5.8, 6.1, 6.3 18.2
5.5, 5.0, 5.0 15.5
28.7
34.1
27.0
40.2 49.6 89.8 =
Resultado en Minitab Diseño factorial de múltiples niveles Factores: 2 Réplicas: 3
Corridas base: 6 Total de corridas: 18
Bloques base: 1 Total de bloques: 1
Número de niveles: 3; 2
Modelo lineal general: Respuesta vs. Tapaporo; Adherencia Factor Tipo Niveles Valores
Tapaporo fijo 3 1; 2; 3
122 CAPÍTULO 4 Diseños factoriales
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
Adherencia fijo 2 Inmersión; Aspersión
Análisis de varianza para Respuesta, utilizando SC ajustada para pruebas
Fuente GL SC sec. SC ajust. MC ajust. F P
Tapaporo 2 4,5811 4,5811 2,2906 27,86 0,000
Adherencia 1 4,9089 4,9089 4,9089 59,70 0,000
Tapaporo*Adherencia 2 0,2411 0,2411 0,1206 1,47 0,269
Error 12 0,9867 0,9867 0,0822
Total 17 10,7178
S = 0,286744 R-cuad. = 90,79% R-cuad.(ajustado) = 86,96%
Dado que utilizamos un = 0.05 y puesto que el valor de tanto para el factor
A (tipo de pintura) como para el factor B(tipo de aplicación), con su nivel de
significancia como con sus grados de libertad respectivamente tenemos y . Se concluye que los efectos principales del tipo de pintura
tapaporo y del método de aplicación afectan la fuerza de adherencia. Además, puesto
que 1,5 , no hay indicios de interacción entre estos factores. En la
última columna del ANOVA se muestra el valor P para cada cociente F. Obsérvese que
los valores P de los dos estadísticos de prueba para los efectos principales son
considerablemente menores que 0,05 mientras que el valor P para el estadístico de
prueba de la interacción es mayor que 0,05.
Se rechaza
Se rechaza
Se acepta
2.- Se presentan los resultados de un experimento en el que interviene una batería de
almacenamiento usada en el mecanismo de lanzamiento de un misil tierra-aire para
cargar al hombro. Pueden usarse tres tipos de materiales para hacer las placas de la
batería. El objetivo es diseñar una batería que se mantenga relativamente sin
alteraciones por la temperatura ambiente. La respuesta de salida de la batería es la vida
efectiva en horas. Se seleccionan tres niveles de temperatura y se corre un experimento
factorial con cuatro replicas. Los datos son los siguientes:
Material Temperatura ( Baja Media Alta
1 130
74
155
180
34
80
40
75
20
82
70
58
2 150
159
188
126
136
106
122
115
25
58
70
45
3 138
168
110
160
174
150
120
139
96
82
104
60
a) Pruebe las hipótesis apropiadas y saque conclusiones utilizando el análisis de
Ejercicios 123
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
b) varianza con = 0.05
c) Analice gráficamente la interacción
d) Analice los residuales de este experimento
3.- En un artículo se describe un experimento para investigar el efecto de dos factores
(tipo de cristal y tipo de fósforo) sobre la brillantez de un cinescopio. La variable de
respuesta media es la corriente (en microamperes) necesaria para obtener un nivel
especifico de brillantez. Los datos se presentan en la siguiente tabla:
Tipo de
cristal
Tipo de fósforo
1 2 3
1 280
290
285
300
310
295
290
285
290
2 230
235
240
260
240
235
220
225
230
a) Enuncie las hipótesis de interés en este experimento
b) Pruebe las hipótesis anteriores y saque conclusiones utilizando análisis de
varianza con = 0.05
c) Analice los residuales de este experimento
4.- Se condujo un experimento para determinar si la temperatura del fuego o la posición
en el horno afectan la densidad de endurecimiento de un ánodo de carbono. Los datos
son los siguientes:
Posición Temperatura ( )
800 825 850
1 570
565
583
1 063
1 080
1 043
565
510
590
2 528
547
521
988
1 026
1 004
526
538
532
a) Enuncie las hipótesis de interés
b) Pruebe las hipótesis anteriores utilizando el análisis de varianza con = 0.05.
¿A qué conclusiones se llega?
c) Utilizando el método de la LSD de Fisher, investigar las diferencias entre la
media de la densidad del endurecimiento de los ánodos en los tres diferentes
niveles de temperatura
4.2. Diseños factoriales con tres factores
Cuando se quiere investigar la influencia de tres factores (A, B y C) sobre una o más
variables de respuesta, y el número de niveles de prueba en cada uno de los factores es
a, b y c, respectivamente, se puede construir el arreglo factorial , que consiste
de tratamientos o puntos experimentales. Entre los arreglos de este tipo que se
utilizan con frecuencia en aplicaciones diversas se encuentran: el factorial , el
124 CAPÍTULO 4 Diseños factoriales
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
factorial y los factoriales mixtos con no más de cuatro niveles en dos de los factores,
por ejemplo, el factorial 4 x 3 x 2 y el factorial 4 x 4 x 2, por mencionar dos de ellos.
Hipótesis de interés
El estudio factorial de tres factores (A, B y C) permite investigar los efectos: A, B, C,
AB, AC, BC y ABC, donde el nivel de desglose o detalle con el que pueden estudiarse
depende del número de niveles utilizando en cada factor. Por ejemplo, si un factor se
prueba en dos niveles, todo su efecto marginal (individual) es lineal, o sea que su efecto
individual no se puede descomponer; pero, si tuviera tres niveles su efecto marginal se
puede descomponer en una parte lineal y otra cuadrática pura.
En resumen, se tienen siete efectos de interés sin considerar desglose, y con ellos
se pueden plantar las siete hipótesis nulas
cada una aparejada con su correspondiente hipótesis alternativa. El ANOVA para probar
estas hipótesis se muestran en la siguiente tabla.
ANOVA para el diseño a x b x c
FV SC GL CM Valor-p
Efecto A
Efecto B
Efecto C
Efecto AB
Efecto AC
Efecto BC
Efecto ABC
Error
Total
Al efecto cuyo valor-p sea menor al valor especificado para alfa, se declara
estadísticamente significativo o se dice que está activo. Las sumas de cuadrados son
muy similares a las obtenidas para dos factores; habrá que considerar un subíndice
adicional para el tercer factor, y comenzando otra vea, por la suma total de cuadrados,
éstas resultan ser:
donde N = es el total de observaciones en el experimento. Las sumas de cuadrados
Diseños factoriales con tres factores 125
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
de efectos son:
Al restar éstas del total, la suma de cuadrados del error resulta ser
cuyos respectivos grados de libertad se dan en la tabla anterior. Una vez hecho el
ANOVA, se procede a interpretar los efectos activos, y luego (aunque no
necesariamente después) a diagnosticar la calidad del modelo.
Ejemplo
El experimento. Se desea investigar el efecto del tipo de suspensión (A), abertura de
malla (B) y temperatura de ciclaje (C) en el volumen de sedimentación Y(%) de una
suspensión. Para ello se decide correr un experimento factorial 3 x 2 x 2 con seis
réplicas, y las observaciones obtenidas en las 72 corridas experimentales se muestran en
la siguiente tabla:
60, 75, 75
86, 70, 70
67, 73, 73
67, 68, 68
62, 68, 65
76, 65, 65
71, 80, 80
72, 80, 80
76, 71, 75
70, 68, 73
75, 75, 75
75, 75, 77
55, 53, 53
55, 55, 55
52, 52, 57
52, 54, 54
44, 44, 45
48, 48, 45
60, 60, 60
67, 67, 65
52, 51, 50
52, 48, 54
56, 55, 57
59, 50, 55
Los niveles de prueba para cada factor, tanto en unidades originales como en
unidades codificadas, se muestran en la siguiente tabla
126 CAPÍTULO 4 Diseños factoriales
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
Factor U. originales U. codificadas
Bajo Medio Alto Bajo Medio Alto
A: Tipo de suspensión
B: Abertura de malla
C: Temperatura
40
0
-
-
60
30
-1
-1
-1
0
-
-
1
1
1
El análisis de varianza para este ejemplo se muestra en la siguiente tabla. De
aquí se concluye que no influyen los efectos ABC, AC ni A, dado que su valor-p es
mayor que . Por otra parte, se encuentran activos los efectos B, C, AB y en
menor medida BC. Éstos son los cuatro efectos que se deben interpretar. Los efectos
que no influyeron se pueden eliminar mandándolos al término error. El ANOVA
simplificado, pero con el efecto A note que el en ambos ANOVAS es
prácticamente igual. En general se recomienda interpretar sólo los efectos significativos.
Diseño factorial de múltiples niveles Factores: 3 Réplicas: 6
Corridas base: 12 Total de corridas: 72
Bloques base: 1 Total de bloques: 1
Número de niveles: 3; 2; 2
Modelo lineal general: Respuesta vs. Suspensión; Abertura de malla; ... Factor Tipo Niveles Valores
Suspensión fijo 3 A1; A2; A3
Abertura de malla fijo 2 B1; B2
temperatura fijo 2 C1; C2
Análisis de varianza para Respuesta, utilizando SC ajustada para pruebas
Fuente GL SC sec. SC ajust. MC ajust. F P
Suspensión 2 13,86 13,86 6,93 0,49 0,613
Abertura de malla 1 480,50 480,50 480,50 34,25 0,000
temperatura 1 6086,72 6086,72 6086,72 433,90 0,000
Suspensión*Abertura de malla 2 788,25 788,25 394,13 28,10 0,000
Suspensión*temperatura 2 40,86 40,86 20,43 1,46 0,241
Abertura de malla*temperatura 1 56,89 56,89 56,89 4,06 0,049
Suspensión*Abertura de malla* 2 31,03 31,03 15,51 1,11 0,338
temperatura
Error 60 841,67 841,67 14,03
Total 71 8339,78
S = 3,74537 R-cuad. = 89,91% R-cuad.(ajustado) = 88,06%
Observaciones inusuales de Respuesta
Residuo
Obs Respuesta Ajuste Ajuste SE Residuo estándar
23 60,0000 72,6667 1,5290 -12,6667 -3,70 R
36 76,0000 66,8333 1,5290 9,1667 2,68 R
52 86,0000 72,6667 1,5290 13,3333 3,90 R
R denota una observación con un residuo estandarizado grande.
Diseños factoriales con tres factores 127
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
Dado que utilizamos un = 0.05 y puesto que el valor de , con su nivel de
significancia como con sus grados de libertad en tablas respectivamente tenemos
y .
; Se acepta
; Se rechaza
; Se rechaza
, Se rechaza
; Se acepta
, Se rechaza
Ejercicios
1.- Se investigan el porcentaje de la concentración de madera dura en la pulpa cruda, la
libertad de orientación de la fibra o lof, y el tiempo de cocción de la pulpa en cuanto a
sus efectos sobre la resistencia del papel. En la siguiente tabla se muestran los datos de
un experimento factorial con tres factores.
Porcentaje de la 1.5 horas de tiempo de cocción 2.0 horas de tiempo de cocción
Concentración de lof lof
Madera dura 350 500 650 350 500 650 10 96.6 97.9 99.4 98.4 99.6 1000.6
96.0 96.0 99.8 98.6 100.4 100.9
15 98.5 96.0 98.4 97.5 98.7 99.0
97.2 96.9 97.6 98.1 96.0 99.0
20 97.5 95.6 97.4 97.6 97.0 98.5 96.6 96.2 98.1 98.4 97.8 99.8
a) Analice los datos usando el análisis de varianza bajo el supuesto de que todos
los factores son fijos. Use
b) Encuentre los valores de P de los cocientes F del inciso a
2.- El departamento de control de calidad de una planta de acabados textiles estudia los
efectos de varios factores sobre el teñido de una tela combinada de algodón y fibra
sintética que se usa para hacer camisas. Se seleccionan tres operadores, tres duraciones
del ciclo y dos temperaturas, y tres ejemplares de prueba pequeños de tela se tiñeron
bajo cada conjunto de condiciones. La tela terminada se comparó con un patrón y se
asigno una puntuación numérica. Los resultados se presentan en la tabla siguiente
Temperatura
300 350 Operador Operador
Duración del ciclo 1 2 3 1 2 3
40 23 27 31 24 38 34
24 28 32 23 36 36
25 26 28 28 35 39
50 36 34 33 37 34 34
35 38 34 39 38 36
36 39 35 35 36 31
60 28 35 26 26 36 28
24 35 27 29 37 26
27 34 25 25 34 34
128 CAPÍTULO 4 Diseños factoriales
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
a) Enuncie y pruebe las hipótesis apropiadas usando el análisis de varianza con
3.- Un ingeniero mecánico estudia la rugosidad superficial de una pieza producida en
una operación de corte de metal. Son de interés tres factores: la rapidez de alimentación
(A), la profundidad del corte (B) y el ángulo de la herramienta (C). A los tres factores se
les ha asignado dos niveles, y se corren dos réplicas de un diseño factorial
Rapidez de
alimentación
Profundidad del corte
0.025 pulgada 0.04 pulgada
Ángulo de la herramienta
15 25 15 25 30 pulg/min 9
7 11 10
9 11
10 8
30 pulg/min 10
12
10
13
12
15
16
14
a) Analice los datos usando el análisis de varianza bajo el supuesto de que todos
los factores son fijos. Use
b) Encuentre los valores de P de los cocientes F del inciso a
4.3. Diseño factorial general
Lo que se ha dicho para los dos diseños factoriales con 2 y 3 factores puede extenderse
fácilmente para cuando se tienen más factores. Considerarse factores A, B, C,…, K
con niveles respectivamente, donde la letra K denota al -ésimo o último
factor del conjunto a estudiar, no necesariamente el undécimo, que es el lugar de esta
letra en el alfabeto. Con estos niveles y factores se puede construir el diseño factorial
general que consiste de tratamientos o puntos de prueba.
Con este diseño se pueden estudiar efectos principales, interacciones
dobles, interacciones triples, y así sucesivamente hasta la
única interacción de los factores (ABC…K). El cálculo del número de interacciones
de cierta cantidad de factores se hace mediante la operación ¨combinaciones de en
¨
que cuenta el número de diferentes maneras de seleccionar
factores de los , donde =
Por ejemplo, el diseño factorial tiene cinco efectos principales, 10
interacciones dobles, 10 interacciones triples, cinco interacciones cuádruples y una
interacción quíntuple, lo cual da un total de 31 efectos. Por su parte, el factorial
también tiene este mismo número de efectos, pero al contar con tres niveles en cada
factor, cada efecto principal se puede descomponer en su parte lineal y cuadrática. Cabe
destacar que mientras el diseño factorial tiene 32 tratamientos, el factorial tiene
243, una cantidad de tratamientos difícil de manejar. Aun si pudiera correrse, representa
una opción muy ineficaz; además, existen arreglos experimentales más pequeños y
eficientes.
Diseño factorial general 129
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
De acuerdo con lo antes dicho, en el factorial general se pueden
plantear hipótesis que se prueban mediante el análisis de varianza. Si se tienen
réplicas. Las primeras tres columnas de este ANOVA se muestran en la siguiente tabla
ANOVA para el diseño factorial general
FV SC GL
Error
Total
La suma de cuadrados totales está dada por:
donde N = es el total de observaciones en el experimento. Las sumas de
cuadrados de efectos son:
130 CAPÍTULO 4 Diseños factoriales
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
Al final, la suma de cuadrados del error se calcula por sustracción,
En el ANOVA para el factorial general se observa la necesidad de
contar con al menos dos réplicas del experimento para calcular la suma de cuadrados del
error ( ), y completar toda la tabla ANOVA. Sin embargo, esta necesidad de réplicas
( , que se ha mencionado,. Es para el caso irreal de que interesan los
efectos. Pero resulta que, con excepción del factorial , en un factorial completo
prácticamente nunca interesan todos sus posibles efectos, puesto que en términos
generales sólo algunos de ellos están activos. El principio de Pareto, que en este contexto
también se llama principio de esparcidad de efectos, dice que la mayoría de la
variabilidad observada se debe a unos pocos de los efectos posibles; por lo común se
debe a algunos efectos principales e interacciones dobles.
4.4. Modelos de efectos aleatorios
Hasta aquí los modelos de efectos que se han utilizado son modelos de efectos o
factores fijos, lo cual significa que todos los niveles de prueba en cada factor son todos
los disponibles para ese factor, o bien, se estudian todos los niveles de interés en ese
factor; es en este sentido que los niveles están fijos. Éste es el caso, por ejemplo, cuando
en el factor operador se toman los tres únicos operadores como los niveles de prueba, o
cuando los niveles del factor máquinas son las cuatro máquinas existentes. O bien,
cuando se comparan tres tipos de material porque son los que interesa comprar aunque
existan otros materiales de ese tipo. Con factores fijos, las conclusiones obtenidas sólo
son validas para los niveles de prueba que se estudian en el experimento.
En ocasiones, los niveles de prueba son una muestra aleatoria de la población de
niveles posibles. En este caso es más apropiado utilizar un modelo de efectos o factores
aleatorios. Un ejemplo de esta situación es cuando se prueban cinco instrumentos de
medición, pero la población de los mismos es de 100 instrumentos; obviamente, no es
posible experimentar con todos los equipos. Entonces se experimenta sólo con cinco de
ellos elegidos al azar, y las conclusiones obtenidas se infieren como válidas para la
población entera de instrumentos.
La aplicación de un modelo de efectos aleatorios conlleva la necesidad de
considerar la incertidumbre asociada con la elección aleatoria de los niveles de prueba.
Es decir, ya no tiene sentido, para un factor A, preocuparse por el efecto del nivel
Modelo de efectos aleatorios 131
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
como en efectos fijos. Lo que ahora (con efectos aleatorios) tiene sentido es hablar de la
varianza con la que el factor aleatorio contribuye a la variación total; es decir, es preciso
estimar dicha varianza y probar si su contribución a la variabilidad total es significativa.
El caso de dos factores aleatorios.
Si se consideran dos factores aleatorios A y B, de los cuales se prueban niveles
elegidos de una población grande de niveles, entonces si los tratamientos se
replican veces, el modelo de efectos aleatorios es
donde es la media general, es el efecto debido al nivel del factor A,
es el efecto del nivel del factor B, representa al efecto de interacción
en la combinación y es el error aleatorio que se supone sigue una distribución
normal con media cero y varianza constante, y son independientes entre sí. El
aspecto de este modelo es igual al de efectos fijos, pero el hecho de que los efectos sean
aleatorios implica que no tiene sentido probar hipótesis directamente sobre tales efectos
(medidas), sino que ahora el interés se enfoca en estudiar la varianza de dichos efectos.
Para ello, se supone que los términos son variables aleatorias
independientes normales, con media cero y varianzas ,
, , y ,
respectivamente.
De esta manera, si se calcula la varianza en ambos lados del modelo anterior, se
obtiene el modelo de componentes de varianza dado por:
+
+ +
donde ,
, son las contribuciones de cada efecto a la variación total y se llaman
componentes de varianza; es el componente de varianza debido al error aleatorio.
Las hipótesis de interés son
Los cálculos necesarios para probar estas hipótesis involucran las mismas sumas
de cuadrados del modelo de efectos fijos (diseños factoriales con dos factores), de las
cuales se obtienen los correspondientes cuadrados medios. Para obtener los estadísticos
de prueba apropiados debe tomarse en cuenta que los valores esperados de los
cuadrados medios son
132 CAPÍTULO 4 Diseños factoriales
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
de tal forma que para probar la hipótesis mencionadas, los estadísticos de prueba
apropiados en el ANOVA son
respectivamente. Observe que en el modelo de efectos aleatorios los cuadrados medios
de los efectos principales se comparan con el cuadrado medio de la interacción, y no
con el cuadrado medio del error, como se hace en el modelo de efectos fijos. En caso de
rechazar alguna de las hipótesis sobre las varianzas, se concluye que el efecto
correspondiente contribuye de manera significativa a la variación de la respuesta. La
conclusión práctica no consiste en determinar el mejor tratamiento, sino que
generalmente se traduce en tomar medidas para que la contribución del componente de
varianza se reduzca.
Al resolver las ecuaciones dadas por los valores esperados de cuadrados medios
para los componentes de varianza, se obtienen estimadores de éstos en función de los
cuadrados medios del error, esto es,
Ejemplo
En una compañía dedicada a la fabricación de bombas y válvulas, algunos componentes
críticos tienen tolerancias muy estrechas que son difíciles de cumplir. De aquí que sea
necesario estimar el error de medición con el fin de ver la posibilidad de reducirlo para
cumplir con las especificaciones. El ancho de una pieza particular es una característica
de calidad crítica, cuyas especificaciones son 69 0,4mm. Se eligen dos inspectores al
azar y siete piezas para correr un experimento, a fin de estimar la contribución de los
inspectores, de las piezas y del error aleatorio (repetibilidad) en la variabilidad total
observada. El experimento utilizado se muestra en la siguiente tabla:
Modelo de efectos aleatorios 133
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
Número de
piezas
Inspector Z Inspector W
1 2 1 2
1
2
3
4
5
6
7
69,38 69,60
39,72 69,80
69,58 69,70
69,50 69,50
69,48 69,40
69,56 69,40
69,90 70,02
69,62 69,52
69,78 69,90
69,70 69,92
69,46 69,50
69,50 69,42
69,68 69,64
69,94 69,88
Nótese que cada inspector mide dos veces cada pieza. Sean los inspectores el
factor A y las piezas el factor B, el primero con dos niveles y el segundo con siete
niveles, en ambos casos seleccionados al azar. El modelo de componentes de varianza
propuesto para describir estos datos es donde es el componente de varianza de los
inspectores, es el componente debido a las piezas,
es el componente de
interacción de ambos factores y es el componente aleatorio.
Interesa probar las hipótesis:
y estimar los componentes de varianza. El ANOVA para probar estas hipótesis se
muestran en la siguiente tabla.
FV SC GL CM Valor-p
A: Insp.
B: Pieza
AB
Error
Total
0,00036
0,7516
0,0313
0,097
0,8803
1
6
6
14
27
0,00036
0,1252
0,0052
0,0069
0,069
24,07
0,75
0,8043
0,0000
0,6169
Las tres primeras columnas se obtienen igual que el modelo de efectos fijos,
pero las dos últimas deben corregirse de acuerdo con el estadístico de prueba apropiado
para un modelo de efectos aleatorios ( y
). Los valor-p indican que la variabilidad de las piezas es
estadísticamente diferente a cero, mientras que la variabilidad de los inspectores y de la
interacción inspector x pieza no es significativa (es igual a cero). Desde el punto de
vista del objetivo del experimento, los resultados del ANOVA son los deseados: la
reproducibilidad ( +
) es estadísticamente igual a cero, es decir, los inspectores no
afectan el proceso de medición. La estimación de los componentes de varianza, a partir
de los cuadros medios, queda como:
134 CAPÍTULO 4 Diseños factoriales
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
De aquí se concluye que la reproducibilidad ( +
) no tiene
contribución y la repetibilidad expresada como 5.15 es igual a 0,428. Si este valor se
compara con la tolerancia de 0.8, se encuentra que ocupa 53% de ésta, cuando lo
deseable es que este porcentaje sea menor al 10%, por lo que el instrumento es
inadecuado para discriminar entre piezas buenas y malas.
4.5. Uso de un software estadístico
Utilizando Minitab
1. El primer paso consisten en seleccionar la opción Estadísticas del Menú Principal de
Minitab y, dentro de esa opción, seleccionar la opción DOE luego Factorial y Crear
diseño factorial como se presenta en la siguiente Figura.
2. Como consecuencia de la acción anterior le debe aparecer la siguiente pantalla
<<Crear diseño factorial>>. El paso en esta pantalla será seleccionar en Tipo de
diseño la casilla de Diseño factorial completo general luego escoger el número de
factores considerados en el experimento (en nuestro ejemplo son dos factores: A y B),
por tanto en la casilla <<Número de factores>> usted deberá tener el número 2. Luego
Uso de software 135
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
debe oprimir el botón de la opción <<Diseños>> para poder escoger su diseño, número
de repeticiones y otras opciones.
3. En la siguiente ventana escribir el nombre de nuestros factores A y B, además de
indicar el numero de niveles para ambos (4 y 3 respectivamente), también indicará que
realizamos tres repeticiones por tratamiento, para esto en la casilla <<Número de
replicas>>, usted deberá tener el valor de 3. Finalice esta pantalla oprimiendo
<<Aceptar>>. Esto lo devolverá a la pantalla anterior <<Crear diseño factorial>>.
4. De vuelta en la pantalla <<Crear diseño factorial>>. Seleccionar factores y
aparecerá una siguiente ventana.
En la casilla <<Tipo>> seleccionar texto para ambos factores, <<Valores de nivel>> ,
indicar los valores correspondientes tanto para el factor A así como para el factor B,
luego indicar aceptar, lo que lo llevara nuevamente a la pantalla <<Crear diseño
factorial>>.
5. De vuelta a la pantalla <<Crear diseño factorial>> oprima <<Aceptar>>.
MINITAB le creará la siguiente pantalla. Minitab crea las columnas de los
tratamientos, lo único que usted tiene que ingresar a MINITAB es una columna
con la respuesta del experimento. Proceda entonces a ingresar los datos en la columna
C7
136 CAPÍTULO 4 Diseños factoriales
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
6. Una vez capturados los datos (estos datos deberán corresponder al factor A con
respecto a factor B de acuerdo a la tabla original) en su correspondiente renglón. El
siguiente paso es regresar al paso 1.
sólo que esta vez seleccionaría la secuencia: <<Estadísticas>> seguida de <<DOE>>,
<<Factorial>> y <<Analizar diseño factorial>>.
Uso de software 137
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
Esta acción resultará en la pantalla donde sólo es necesario indicar la columna de
la variable de respuesta <<Respuesta>> seguido de aceptar y MINITAB le ofrecerá el
resultado correspondiente.
Para capturar los datos en Minitab, de tres factores, es idéntico al de dos
factores, solo que en la ventana correspondiente indicar que se trata de tres factores, y
se aplica la misma secuencia.
138 CAPÍTULO 5 Series de tiempo
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
CAPÍTULO 5
Series de tiempo
5.1. Modelo clásico de series de tiempo
5.2. Análisis de fluctuaciones
5.3. Análisis de tendencia
5.4. Análisis de variaciones cíclicas
5.5. Medición de variaciones estacionales e irregulares
5.6. Aplicación de ajustes estacionales
5.7. Pronósticos basados en factores de tendencia y estacionales.
Series de tiempo 139
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
Series de tiempo
oda institución, ya sea la familia, la empresa o el gobierno, tienen que hacer planes
para el futuro si ha de sobrevivir y progresar. Hoy en día diversas instituciones
requieren conocer el comportamiento futuro de ciertos fenómenos con el fin de
planificar, prever o prevenir.
Debido a que las condiciones económicas y comerciales varían en el tiempo, los
líderes de los negocios deben encontrar formas de mantenerse al día respecto a los
efectos que esos cambios tendrán en sus operaciones. Una técnica que pueden usar los
líderes de negocios como ayuda en la planeación de las necesidades operativas en lo
futuro es el pronóstico. Aunque se han desarrollado numerosos métodos para
pronosticar, todos tienen un objetivo común, predecir los eventos futuros de manera que
las proyecciones se puedan incorporar en el proceso de toma de decisiones.
Suponga que necesitamos hacer pronósticos trimestrales para el volumen de
ventas de determinado producto durante el próximo año. Los programas de producción,
las compras de materias primas, las políticas de inventarios y las cuotas de venta serán
afectados, todos, por esos pronósticos. Entonces, los malos pronósticos darán como
resultado una mala planeación y, en consecuencia, aumentarán los costos de la empresa.
¿Cómo se hace para elaborar los pronósticos trimestrales del volumen de ventas?
Desde luego que se deben considerar los datos reales de ventas del producto en
periodos pasados. Con tales datos históricos podemos identificar el nivel general de
ventas y cualquier tendencia, como aumento o disminución en el volumen a través del
tiempo. Por ejemplo, un examen más detallado de los datos puede revelar un
comportamiento estacional, como el de los picos que se presentan en el tercer trimestre
de cada año y los mínimos durante el primer trimestre. Al repasar los datos históricos se
puede, con frecuencia, adquirir una mejor comprensión de la tendencia de las ventas en
el pasado para poder pronosticar las ventas del producto en el futuro de una mejor
manera.
Las ventas históricas forman una serie de tiempo que es un conjunto de
observaciones de una variable medida en puntos o periodos sucesivos en el tiempo.
En esencia, existen dos enfoques de pronósticos: cualitativo y cuantitativo.
Los métodos de pronóstico cualitativos son importantes en especial cuando no
se dispone de datos históricos, como sería el caso de un departamento de finanzas que
desea pronosticar los ingresos de una compañía nueva. Los métodos de pronóstico
cualitativos se consideran altamente subjetivos o basados en la opinión. Incluyen el
método de elaboración de escenarios, la opinión de expertos y la técnica Delphi.
Método Delphi. El método délfico, desarrollado en principio por un grupo de
investigación de la Rand Corporation. Trata de determinar pronósticos mediante
¨consenso de grupo¨. En forma normal, a los miembros de un equipo de expertos, todos
ellos separados físicamente y desconocidos entre sí, se les pide contestar una serie de
cuestionarios. Se tabulan las respuestas del primer cuestionario y éstas se usan para
preparar un segundo cuestionario que contiene la información y las opiniones de todo el
grupo. A continuación se pide a cada encuestado reconsiderar y, posiblemente, corregir
sus respuestas anteriores a la vista de la información obtenida con el grupo.
T
140 CAPÍTULO 5 Series de tiempo
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
Este proceso continua hasta que el coordinador siente que ha alcanzado
cierto nivel de consenso. El objetivo del método délfico no es llegar al resultado de una
sola respuesta, sino producir un conjunto compacto de opiniones dentro del cual esté la
mayoría de los expertos.
Opinión de expertos. Con frecuencia, los pronósticos se basan en el juicio de un
solo experto, o representan el consenso de un grupo de expertos. Por ejemplo, cada año
se reúne un grupo de expertos en Merrill Lynch con el fin de pronosticar el nivel del
promedio industrial Dow Jones y la tasa prima para el siguiente año. Al hacerlo, los
expertos se basan, de manera individual en información que cree que influye en el
mercado accionario y las tasas de interés, a continuación combinan sus conclusiones en
forma de un pronóstico. No se usa modelo formal alguno, y es improbable que dos
expertos cualesquiera visualicen de la misma forma la misma observación.
La opinión de expertos es un método de pronóstico que se recomienda
normalmente cuando es probable que las condiciones en el pasado no rijan en el futuro.
Aunque no se usa modelo cuantitativo formal, el juicio experto ha producido buenos
pronósticos en muchos casos.
Elaboración de escenarios. Este método consiste en desarrollar un escenario
conceptual del futuro, basado en un conjunto bien definido de supuestos. Los distintos
conjuntos de supuestos producen diferentes escenarios. La tarea de quien toma
decisiones es decidir lo probable que es cada escenario y, a continuación, tomar las
decisiones pertinentes.
Por otro lado, los métodos de pronóstico cuantitativo utilizan los datos
históricos. La meta es estudiar lo que ocurrió en el pasado para entender mejor la
estructura fundamental de los datos y proporcionar los medios necesarios para predecir
los sucesos futuros.
Los métodos de pronóstico cuantitativos se dividen en dos tipos: series de
tiempo y causales.
Los métodos de pronóstico de series de tiempo implican la proyección de los
valores futuros de una variable basada por completo en las observaciones pasadas y
presentes de esa variable.
Series de tiempo. Una serie de tiempo es un conjunto de valores numéricos
obtenidos en periodos iguales en el tiempo
Los métodos de pronóstico causales comprenden la determinación de factores
relacionados con la variable que se predice, e incluyen análisis con variables retrasadas,
modelado econométrico, análisis de indicador líder, índice de difusión y otros
medidores económicos más allá del alcance de este libro. La figura 5.1 representa una
perspectiva de los métodos de pronóstico.
Series de tiempo 141
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
Figura 5.1 Clasificación de los métodos de pronósticos
5.1. Modelo clásico de series de tiempo
La suposición fundamental del análisis de series de tiempo es que los factores que han
influido en los patrones de actividad en el pasado y el presente tendrán más o menos la
misma influencia en lo futuro. Entonces la meta principal del análisis de series de
tiempo es: identificar y aislar estos factores de influencia con el fin de realizar
predicciones (pronosticar), así como fines administrativos de planeación y control.
Para conseguir estas metas, se han desarrollado muchos modelos matemáticos
que exploran las fluctuaciones entre los factores que componen una serie de tiempo. Tal
vez el más esencial sea el modelo multiplicativo clásico para datos registrados cada
año, trimestre o mes. En principio, el modelo multiplicativo clásico se usará para
pronosticar. Otras aplicaciones incluyen un análisis detallado de los componentes
particulares mediante la descomposición de las series de tiempo. Por ejemplo, con
frecuencia los economistas estudian una serie de tiempo anual, trimestral o mensual
para filtrar el componente cíclico y evaluar su movimiento respecto a la actividad
económica general. No obstante, las aplicaciones de la descomposición de una serie de
tiempo están fuera de los objetivos de este libro.
Para exponer el modelo multiplicativo clásico de series de tiempo, en la figura
5.2 se presentan los ingresos brutos reales de Eastman Kodak Company de 1975 a 1998.
Si se intenta observar las características de esta serie de tiempo, es evidente que los
ingresos reales muestran una propensión a aumentar en este periodo de 24 años. Esta
inclinación global a largo plazo o impresión de un movimiento hacia arriba o hacia
abajo se conoce como tendencia
Método de pronostico
Cuantitativos
Causales Serie temporal
Suavizamiento
Proyección de tendencia
Proyección de tendencia ajustada por
influencia estacional
Cualitativos
142 CAPÍTULO 5 Series de tiempo
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
Figura 5.2 Gráfica de ingresos netos reales (en miles de millones de dólares) de Eastman Kodak Company
(1975-1998)
Sin embargo, la tendencia no es el único factor componente que influye en estos
datos en particular o en otra serie de tiempo anual. Otros dos factores, el componente
cíclico y el componente irregular, están presentes en los datos.
El componente cíclico describe la oscilación o movimiento hacia arriba o hacia
abajo en una serie de tiempo. Los movimientos cíclicos varían en longitud, en general,
duran de 2 a 10 años; difieren en intensidad o amplitud, y a menudo se relacionan con
los ciclos de los negocios. En algunos años los valores serán más altos que los
pronosticados por una sencilla recta de tendencia lineal (es decir, se encuentran en o
cerca de un pico) de un ciclo); en otros años los valores serán menores que el pronóstico
de una recta de tendencia (esto es, están en o cerca del fondo o depresión de un ciclo).
Cualquier dato observado que no siga la tendencia curva modificada por el componente
cíclico es un indicio del componente aleatorio o irregular. Cuando los datos se
registran por mes o trimestre, se considera un componente adicional llamado factor
estacional junto con los componentes de tendencia, cíclico e irregular.
Los tres o cuatro componentes que influyen en una serie de tiempo económica o
de negocios se resumen en la tabla 5.1. El modelo multiplicativo clásico de series de
tiempo establece que todo valor observado en una serie de tiempo es el producto de
estos factores de influencia; es decir, cuando los datos se obtienen cada año, una
observación registrada en el año se puede expresar por la ecuación (5.1)
Modelo multiplicativo clásico de series de tiempo para datos anuales
(5.1)
donde, en el año i
= valor del componente de tendencia
= valor del componente cíclico
= valor del componente irregular
Modelo clásico 143
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
Cuando los datos se obtienen por trimestre o por mes, una observación registrada en el periodo puede estar dada por la ecuación (5.2)
Tabla 5.1 Factores que influyen en datos de series de tiempo.
Componentes Clasificación
del
componente
Definición Razón de la
influencia
Duración
Tendencias
Estacional
Cíclico
Irregular
Sistemático
Sistemático
Sistemático
No sistemático
Patrón de movimiento
global o persistente, a
largo plazo hacia
arriba o hacia abajo. Fluctuación más o menos
regular que ocurre en
cada periodo de 12 meses
cada año.
Oscilación o movimiento
repetitivo arriba o abajo
en cuatro 4 etapas;
pico(prosperidad),
contracción (recesión),
fondo (depresión) y
expansión (recuperación)
Fluctuación errática o residual en una serie que
está presente después de
tomar en cuenta los
efectos sistemáticos (de
tendencia, estacional y
cíclica)
Cambios en tecnología,
población, riqueza,
Valores.
Condiciones de clima,
costumbres sociales y
religiosas.
Interacción de
numerosas
combinaciones de
factores que influyen en
la economía
Variaciones aleatorias en los datos o debidas a
eventos no previstos
como huelgas,
huracanes,
inundaciones,
asesinatos políticos, tec.
Varios años
Dentro de 12
meses (o datos
menstruales o
trimestrales).
De 2 a 10 años
con diferente
intensidad en el
ciclo completo
Corta duración y sin repetición.
5.2. Análisis de fluctuaciones
El primer paso en un análisis de series de tiempo, consiste en graficar los datos y
observar sus tendencias en el tiempo. Primero debe determinarse si parece haber un
movimiento hacia arriba o hacia abajo a largo plazo en la serie (una tendencia) o si la
serie parece oscilar alrededor de una recta horizontal en el tiempo. En este caso (es
decir, no hay tendencia positiva o negativa a largo plazo), puede emplearse el método de
promedios móviles o el de suavización exponencial para “emparejar” la serie y
Modelo multiplicativo clásico de series de tiempo para datos con
Componente estacional
(5.2)
donde
= valores respectivos del componente de tendencia, cíclico e
irregular en el periodo = valor del componente estacional en el periodo
144 CAPÍTULO 5 Series de tiempo
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
proporcionar un panorama global a largo plazo. Por otro lado, si de hecho existe una
tendencia, se pueden aplicar varios métodos de pronóstico de series de tiempo al
manejar datos anuales, y otro método para los datos de series de tiempo mensual o
trimestral.
El patrón o comportamiento de los datos en una serie de tiempo tiene diversos
componentes. El supuesto usual es que se combinan cuatro componentes separados: la
tendencia, el cíclico, el estacional y el irregular para definir valores específicos de la
serie de tiempo. Examinaremos cada uno de estos componentes.
El gráfico de la serie permitirá:
a) Detectar Outlier: se refiere a puntos de la serie que se escapan de lo normal. Un
outliers es una observación de la serie que corresponde a un comportamiento anormal
del fenómeno (sin incidencias futuras) o a un error de medición. Se debe determinar
desde fuera si un punto dado es outlier o no. Si se concluye que lo es, se debe omitir o
reemplazar por otro valor antes de analizar la serie.
Por ejemplo, en un estudio de la producción diaria en una fábrica se presentó la
siguiente situación ver figura 5.3:
Figura 5.3 Producción diaria
Los dos puntos enmarcados en una flecha parecen corresponder a un
comportamiento anormal de la serie. Al investigar estos dos puntos se vio que
correspondían a dos días de paro, lo que naturalmente afectó la producción en esos días.
El problema fue solucionado eliminando las observaciones e interpolando.
b) Permite detectar tendencia: la tendencia representa el comportamiento
predominante de la serie. Esta puede ser definida vagamente como el cambio
de la media a lo largo de un periodo.
c) Variación estacional: la variación estacional representa un movimiento periódico de
la serie de tiempo. La duración de la unidad del periodo es generalmente menor que un
Análisis de fluctuaciones 145
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
año. Puede ser un trimestre, un mes o un día, etc.
Matemáticamente, podemos decir que la serie representa variación
estacional si existe un número s tal que x(t) = x(t + ks).
Las principales fuerzas que causan una variación estacional son las
condiciones del tiempo, como por ejemplo:
1) en invierno las ventas de helado
2) en verano la venta de lana
3) exportación de fruta en marzo.
Todos estos fenómenos presentan un comportamiento estacional (anual,
semanal, etc.)
d) Variaciones irregulares (componente aleatoria): los movimientos irregulares (al
azar) representan todos los tipos de movimientos de una serie de tiempo que no sea
tendencia, variaciones estacionales y fluctuaciones cíclicas.
Un modelo clásico para una serie de tiempo, supone que una serie x(1), ..., x(n)
puede ser expresada como suma o producto de tres componentes: tendencia,
estacionalidad y un término de error aleatorio.
Existen tres modelos de series de tiempos, que generalmente se
aceptan como buenas aproximaciones a las verdaderas relaciones, entre los
componentes de los datos observados. Estos son:
1. Aditivo: X(t) = T(t) + E(t) + A(t)
2. Multiplicativo: X(t) = T(t) · E(t) · A(t)
3. Mixto: X(t) = T(t) · E(t) + A(t)
donde:
X(t) serie observada en instante t
T(t) componente de tendencia
E(t) componente estacional
A(t) componente aleatoria (accidental)
Una suposición usual es que A(t) sea una componente aleatoria o ruido blanco
con media cero y varianza constante.
Un modelo aditivo (1), es adecuado, por ejemplo, cuando E(t) no depende de
otras componentes, como T(t), sí por el contrario la estacionalidad varía con la
tendencia, el modelo más adecuado es un modelo multiplicativo (2). Es claro que el
modelo 2 puede ser transformado en aditivo, tomando logaritmos. El problema que se
presenta, es modelar adecuadamente las componentes de la serie.
146 CAPÍTULO 5 Series de tiempo
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
5.3. Análisis de tendencia
En el análisis de serie de tiempo, las mediciones pueden efectuarse cada hora, día,
semana, mes o año o en cualquier otro intervalo regular periódico. Aunque los datos de
serie de tiempo presentan, por lo general, fluctuaciones aleatorias, esta serie puede
mostrar también desplazamientos o movimientos graduales hacia valores relativamente
mayores o menores a lo largo de un lapso importante de tiempo. El desplazamiento
gradual de la serie de tiempo se llama tendencia de esa serie; este desplazamiento o
tendencia es, por lo común, el resultado de factores a largo plazo, como cambios en la
población, características demográficas de la misma, la tecnología y/o las preferencias
del consumidor.
Por ejemplo, un fabricante de bicicletas podría detectar cierta variabilidad, de
año a año, en la cantidad de bicicletas vendidas. Sin embargo, al revisar las ventas
durante los últimos 10 años, puede encontrar que hay un aumento gradual en el volumen
anual de ventas. Suponga que sus ventas fueron:
Año 1 2 3 4 5 6 7 8 9 10
Ventas (miles) 21,6 22,9 25,5 21,9 23,9 27,5 31,5 29,7 28,6 31,4
Este crecimiento anual de las ventas a través del tiempo muestra una tendencia
creciente de la serie de tiempo. La figura 5.4 presenta una recta que puede ser una buena
aproximación a la tendencia de las ventas de bicicletas. Aunque esa tendencia parece ser
lineal y aumentar con el tiempo a veces, en una serie de tiempo, la tendencia se puede
describir mejor mediante otros patrones.
Figura 5.4 Tendencia lineal de las ventas de bicicletas
Si al graficar nuestros datos observamos de manera clara la tendencia lineal a
largo plazo (no importando si es positiva o negativa), entonces estaremos en la posición
de pronosticar con un buen nivel de confianza, con alguno de los métodos que se
indicaran más adelante.
La figura 5.5 muestra otros patrones posibles de tendencia. La sección A
representa una tendencia no lineal; en este caso, la serie de tiempo crece poco al
principio; luego tiene un crecimiento rápido y, finalmente, se nivela.
0
5
10
15
20
25
30
35
0 2 4 6 8 10 12
Ve
nta
(mile
s)
Año
Análisis de tendencia 147
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
Esa tendencia podría ser una buena aproximación de las ventas de un producto,
desde su introducción, pasando por un periodo de crecimiento y llegando a una etapa de
saturación del mercado. La tendencia lineal decreciente en la sección B se aplica a una
serie de tiempo que tenga una disminución continua a través del tiempo. La recta
horizontal de la sección C representa una serie de tiempo que no tiene aumento o
disminución consistentes a través del tiempo y que, en consecuencia, no tiene tendencia.
Figura 5.5 Ejemplos de algunos posibles patrones de tendencia en series de tiempo
A B C
5.4. Análisis de variaciones cíclicas
Aunque una serie de tiempo puede presentar una tendencia a través de periodos grandes,
sus valores no caerán con exactitud sobre la línea de tendencia. De hecho, con
frecuencia estas series temporales presentan secuencias alternas de puntos abajo y arriba
de la línea de tendencia. Toda secuencia recurrente de puntos arriba y debajo de la línea
de tendencia, que dura más de un año, se puede atribuir a un componente cíclico de la
serie. La figura 5.6 es la gráfica de una serie de tiempo con un componente cíclico
obvio. Las observaciones se hicieron con intervalos de un año.
Figura 5.6 Componente de tendencia y cíclico de una serie de tiempo con datos anuales
Los ciclos aparecen como series de Observaciones sobre y debajo
V de la línea de tendencia
o
l
u
m
e
n Línea de tendencia
Tiempo
Muchas series se tiempo presentan comportamiento cíclico con tramos regulares
de observaciones abajo y arriba de la línea de tendencia. En general, este
comportamiento de la serie se debe a movimientos cíclicos de la economía a través de
varios años. Por ejemplo, los periodos de inflación moderada seguidos de periodos de
148 CAPÍTULO 5 Series de tiempo
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
inflación rápida pueden determinar series de tiempo que se alternan abajo y arriba de
una línea de tendencia ascendente en general (como la serie de tiempo de los costos de
vivienda). Diversas series de tiempo de principios de la década de los ochenta
presentaron este comportamiento
5.5. Medición de variaciones estacionales e irregulares
Mientras que la tendencia y los componentes cíclicos de una serie de tiempo se
identifican analizando los movimientos de datos históricos a través de varios años, hay
muchas series de tiempo que muestran un patrón regular dentro de un periodo de un
año. Por ejemplo, un fabricante de albercas inflables espera poca actividad de ventas
durante los meses de otoño e invierno, y ventas máximas en los de primavera y verano.
Los fabricantes de equipo para la nieve y de ropa de abrigo esperan un comportamiento
anual opuesto al del fabricante de albercas. No es de sorprender que el componente de la
serie de tiempo que representa la variabilidad en los datos, debida a influencias de las
estaciones, se llama componente estacional. Aunque uno suele imaginarse que un
movimiento estacional de una serie de tiempo sucede dentro de un año, también se
puede usar para representar cualquier patrón regularmente repetitivo cuya duración sea
menor de un año. Por ejemplo, los datos diarios de intensidad de tráfico muestran un
comportamiento “estacional” dentro del mismo día, así se tiene que el flujo máximo se
presenta durante las horas de aglomeración, el moderado durante el resto del día y al
caer la noche, y el mínimo a partir de la medianoche hasta temprano por la mañana.
El componente irregular de la serie de tiempo es el factor residual, “mil usos”,
que explica las desviaciones de la serie de tiempo real respecto a los factores
determinados por los efectos de la tendencia y los componentes cíclicos y estacionales.
Se debe a factores a corto plazo, imprevisibles y no recurrentes que afecta a la serie de
tiempo. Como este componente explica la variabilidad aleatoria de la serie, es
impredecible; de esta manera, no se puede esperar predecir su impacto sobre la serie de
tiempo
5.6. Aplicación de ajustes estacionales
Una aplicación frecuente de índices estacionales es la de ajustar datos de serie de tiempo
observados para eliminar la influencia del componente estacional en ellos; se llaman datos con
ajuste estacional. Los ajustes estacionales son particularmente pertinentes cuando se desea
comparar datos de diferentes meses para determinar si ha tenido lugar un incremento
(o decremento) en relación con las expectativas estacionales. Los valores de serie de tiempo
mensuales (o trimestrales) observados se ajustan respecto de la influencia estacional dividiendo
cada valor entre el índice mensual (o trimestral) de ese mes. El resultado se multiplica luego
por 100 para mantener la posición decimal de los datos originales. La serie que resultante se
llama ventas desestacionalizadas o ventas ajustadas estacionalmente.
Suavización 149
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
La razón para desestacionalizar las series de ventas es similar las fluctuaciones
estaciónales a fin de estudiar la tendencia y el ciclo. Para ilustrar el procedimiento, los
totales trimestrales de ventas de la empresa
Tabla 5.2 Ajuste para datos trimestrales Año Trimestre Ventas Índice
estacional
Ventas
desestacionalizadas
1996 Invierno
Primavera Verano
Otoño
6,7
4,6 10,0
12,7
0,765
0,575 1,141
1,519
8,76
8,00 8,76
8,36
1997 Invierno
Primavera
Verano
Otoño
6,5
4,6
9,8
13,6
0,765
0,575
1,141
1,519
8,50
8,00
8,59
8,95
1998 Invierno
Primavera
Verano
Otoño
6,9
5,0
10,4
14.1
0,765
0,575
1,141
1,519
9,02
8,70
9,11
9,28
1999 Invierno
Primavera
Verano
Otoño
7,0
5,5
10,8
15,0
0,765
0,575
1,141
1,519
9,15
9,57
9,46
9,88
2000 Invierno Primavera
Verano
Otoño
7,1 5,7
11,1
14,5
0,765 0,575
1,141
1,519
9,28 9,92
9,72
9,55
2001 Invierno
Primavera
Verano
Otoño
8,0
6,2
11,4
14,9
0,765
0,575
1,141
1,519
10,46
10,79
9,99
9,81
A fin de eliminar el efecto de la variación estacional, la cantidad estacional, la
cantidad de ventas para cada trimestre (que contiene efectos de tendencia, cíclicos,
irregulares y estaciónales) se divide entre el índice estacional de ese trimestre; esto es,
TSCI/S.
Por ejemplo, las ventas reales para el primer trimestre de 1996 fueron 6.7
millones de dólares, el índice estacional par el trimestre de invierno es 76.5 el índice
76.5 indica que las ventas en el primer trimestre normalmente se encuentran 23.5%
abajo del promedio de un trimestre normal. Dividiendo las ventas reales $6.7 millones
entre 76.5 y multiplicando el resultado por 100 se encuentra el valor de las ventas
desestacionalizadas del primer trimestre de 1996. El valor es $8758170 que se obtuvo
de ($6700000/76.5)100.
Este proceso se repite con los demás trimestres en la columna 3 de la tabla 5.2 y
los resultados se dan en millones de dólares. Puesto que la componente estacionalizadas
contiene solo las componentes de tendencia (T), ciclo © e irregular (I). Al revisar las
ventas desestacionalizadas. Es claro que la eliminación del factor estacional permite
considerar la tendencia general a largo plazo de las ventas. También se podrá determinar
la ecuación de regresión de los datos de tendencia y usarla para pronosticar ventas
futuras.
150 CAPÍTULO 5 Series de tiempo
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
5.7. Pronósticos basados en factores de tendencia y estacionales.
Como lo indicamos anteriormente el primer pasó en un análisis de series de tiempo,
consiste en graficar los datos y observar sus tendencias en el tiempo. Primero debe
determinarse si parece haber un movimiento hacia arriba o hacia abajo a largo plazo en
la serie (una tendencia) o si la serie parece oscilar alrededor de una recta horizontal en el
tiempo. En este caso (es decir, no hay tendencia positiva o negativa a largo plazo), se
recomienda antes de aplicar alguno de los métodos de pronostico ¨suavizar¨ nuestros
datos a fin de que la tendencia se observe de manera clara.
Los métodos que pueden emplearse para suavizar nuestros datos usualmente son:
a) El método de promedios móviles
b) El método de suavización exponencial
El objetivo de ambos métodos es el de “emparejar” la serie y proporcionar un
panorama global a largo plazo. Por otro lado, si de hecho existe una tendencia, se
pueden aplicar varios métodos de pronóstico de series de tiempo al manejar datos
anuales, y otro método para los datos de series de tiempo mensual o trimestral, los
cuales se verán posteriormente.
Suavización de una serie de tiempo anual
La tabla 5.3 presenta las ventas mundiales de una fábrica (en millones de unidades) de
automóviles, camiones y autobuses hechos por General Motors Corporation (GM). Para
un periodo de 24 años, de 1975 a 1998, y la figura 5.7 es una gráfica de serie de tiempo
de estos datos. Al examinar este tipo de datos anuales, la impresión visual de las
tendencias globales a largo plazo o movimientos de tendencia en la serie quedan veladas
por la cantidad de variación de un año a otro. Entonces se vuelve difícil juzgar si en esta
serie en realidad existe un efecto de tendencia positivo o negativo a largo plazo.
Tabla 5.3 Ventas de fábrica (en millones de unidades) Para la General Motors Corporation (1975-1998)
Año Ventas de fábrica Año Ventas de fábrica Año Ventas de fábrica
1975 6.6 1983 7.8 1991 7.4 1976 8.6 1984 8.3 1992 7.7
1977 9.1 1985 9.3 1993 7.8
1978 9.5 1986 8.6 1994 8.4 1979 9.0 1987 7.8 1995 8.3
1980 7.1 1988 8.1 1996 8.4
1981 6.8 1989 7.9 1997 8.8
1982 6.2 1990 7.5 1998 8.1
En situaciones como éstas, se pueden usar el método de promedios móviles o la
suavización exponencial para suavizar o emparejar la serie de tiempo y proporcionar
un panorama global del patrón de movimiento de los datos en el tiempo.
Suavización 151
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
Figura 5.7 Gráfica de las ventas de fábrica (en millones de unidades)
Para la General Motors Corporation (1975-1998)
Promedios móviles
El método de promedios móviles para suavizar una serie de tiempo es muy subjetivo y
dependiente de L, la longitud del periodo seleccionado para calcular los promedios. Para
eliminar las fluctuaciones cíclicas, el periodo elegido debe ser un valor entero que
corresponda a (o sea múltiplo de) la longitud promedio estimada de un ciclo en una
serie. Los promedios móviles para un promedio determinado de longitud L consiste en
una serie de promedios aritméticos en el tiempo tales que cada uno se calcula a partir de
una secuencia de L valores observados. Estos promedios móviles se representan por el
símbolo PM (L)
A manera de ejemplo, suponga que se desea calcular promedios móviles de 5 años de
una serie que contiene n = 11 años. Como L = 5, los promedios móviles de 5 años
consisten en una serie de medidas obtenidas en el tiempo al promediar secuencias
consecutivas de cinco valores observados. El primer promedio móvil de 5 años se
calcula con la suma de los valores para los primeros 5 años en la serie, dividida entre 5.
PM (5) = 5
54321 YYYYY
El segundo promedio móvil de 5 años se calcula con la suma de los valores de los años
2 a 6 en la serie, dividida entre 5
PM (5) = 5
65432 YYYYY
Este proceso continúa hasta calcular el último promedio móvil de 5 años con la suma de
los valores de los últimos 5 años en la serie (años del 7 al 11), dividida entre 5.
PM (5) = 5
1110987 YYYYY
Cuando se trata de una serie de tiempo anual, L, la longitud del periodo elegido
para construir los promedios móviles, debe ser un número de años impar. Al seguir esta
regla se observa que no se pueden obtener promedios móviles para los primeros (L –
Ventas de fabrica para General Motors
0
2
4
6
8
10
1970 1980 1990 2000
Año
Un
idad
es (m
illo
nes
)
152 CAPÍTULO 5 Series de tiempo
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
1)/2 años o los últimos (L -1)/2 años en la serie. Entonces, para un promedio móvil de 5
años, no es posible hacer cálculos para los primeros 2 años o los últimos 2 años de la
serie.
Al graficar los promedios móviles, cada valor calculado se coloca en el año a la
mitad de la secuencia de años usada para calcularlos. Si n = 11 y L = 5, el primer
promedio móvil se centra en el tercer año, el segundo promedio móvil se centra en el
cuarto año y el último en el noveno año. Esto se ilustra en el siguiente ejemplo:
Suponga que los siguientes datos representan los ingresos totales (en millones de
dólares constantes de 1995) de una agencia donde se rentan automóviles, en un intervalo
de 11 años de 1987 a 1997:
4.0 5.0 7.0 6.0 8.0 9.0 5.0 2.0 3.5 5.5 6.5
Calcule los promedios móviles de 5 años para esta serie de tiempo anual.
Solución
El primer promedio móvil de 5 años es
PM (5) = 0.65
0.30
5
0.80.60.70.50.4
Es decir, para calcular un promedio móvil de 5 años, primero se obtiene la suma de los
cinco años y se divide entre 5. Después el promedio se centra en el valor medio, el
tercer año de esta serie de tiempo. Los siguientes valores quedan de la siguiente manera:
PM (5) = 0.75
0.35
5
0.90.80.60.70.5
PM (5) = 0.75
0.35
5
0.50.90.80.60.7
PM (5) = 0.65
0.30
5
0.20.50.90.80.6
PM (5) = 5.55
5.27
5
5.30.20.50.90.8
PM (5) = 0.55
0.25
5
5.55.30.20.50.9
PM (5) = 5.45
5.22
5
5.65.55.30.20.5
Estos promedios móviles se centran en sus respectivos valores medios, el quinto, sexto
y séptimo años de la serie de tiempo. Se observa que al obtener promedios móviles de 5
años, no se pueden calcular los valores para los primeros dos y los últimos dos valores
de la serie de tiempo.
Suavización 153
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
En la práctica, al obtener promedios móviles se debe usar un programa de computadora
como Microsoft Excel o Minitab para evitar los cálculos tediosos. La tabla 5.4 y 5.5
presenta las ventas anuales de la fábrica (General Motors) que ampara el periodo de 24
años de 1975 a 1998 junto con los cálculos para los promedios móviles de 3 y 7 años.
La gráfica de las dos series construidas se presenta en la figura 5.8 y 5.9 con los datos
originales.
Se observa en la tabla 5.4 que al obtener los promedios móviles de 3 años, no se pueden
calcular valores para el primero o el último valor en la serie de tiempo.
Tabla 5.4 promedios móviles de 3 y 7 años obtenida con Microsoft Excel
Figura 5.8 Gráfica de promedios móviles de 3 y 7 año
Año Ventas PM 3 años PM 7 años
1975 6,6 #N/A #N/A
1976 8,6 8,1 #N/A
1977 9,1 9,06666667 #N/A
1978 9,5 9,2 8,1
1979 9 8,53333333 8,04285714
1980 7,1 7,63333333 7,92857143
1981 6,8 6,7 7,81428571
1982 6,2 6,93333333 7,78571429
1983 7,8 7,43333333 7,72857143
1984 8,3 8,46666667 7,82857143
1985 9,3 8,73333333 8,01428571
1986 8,6 8,56666667 8,25714286
1987 7,8 8,16666667 8,21428571
1988 8,1 7,93333333 8,08571429
1989 7,9 7,83333333 7,85714286
1990 7,5 7,6 7,74285714
1991 7,4 7,53333333 7,82857143
1992 7,7 7,63333333 7,85714286
1993 7,8 7,96666667 7,92857143
1994 8,4 8,16666667 8,11428571
1995 8,3 8,36666667 8,21428571
1996 8,4 8,5 #N/A
1997 8,8 8,43333333 #N/A
1998 8,1 #N/A #N/A
0
2
4
6
8
10
1975
1978
1981
1984
1987
1990
1993
1996
VENTASPM 3 añosPM 7 años
154 CAPÍTULO 5 Series de tiempo
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
Tabla 5.5 promedios móviles de 3 y 7 años obtenida con Minitab
Tiempo Ventas MA 3 años MA 7 años
1975 6,6 * *
1976 8,6 8,10000 *
1977 9,1 9,06667 *
1978 9,5 9,20000 8,10000
1979 9,0 8,53333 8,04286
1980 7,1 7,63333 7,92857
1981 6,8 6,70000 7,81429
1982 6,2 6,93333 7,78571
1983 7,8 7,43333 7,72857
1984 8,3 8,46667 7,82857
1985 9,3 8,73333 8,01429
1986 8,6 8,56667 8,25714
1987 7,8 8,16667 8,21429
1988 8,1 7,93333 8,08571
1989 7,9 7,83333 7,85714
1990 7,5 7,60000 7,74286
1991 7,4 7,53333 7,82857
1992 7,7 7,63333 7,85714
1993 7,8 7,96667 7,92857
1994 8,4 8,16667 8,11429
1995 8,3 8,36667 8,21429
1996 8,4 8,50000 *
1997 8,8 8,43333 *
1998 8,1 * *
Figura 5.9 Gráfica de promedios móviles de 3 y 7 años en Minitab
200019951990198519801975
9,5
9,0
8,5
8,0
7,5
7,0
6,5
6,0
Año
Dat
os Y
Ventas
PM 3 Años
PM 7 Años
Variable
Gráfica de dispersión de Ventas; PM 3 Años; PM 7 Años vs. Año
Suavización exponencial
La suavización exponencial es otra técnica que se usa para alisar una serie de tiempo y
proporcionar una visualización global de los movimientos a largo plazo de los datos.
Además, se puede usar el método de suavización exponencial para obtener pronósticos a
corto plazo (un periodo futuro) para series de tiempo.
El método de suavización exponencial obtiene su nombre del hecho de que
proporciona un promedio móvil con ponderación exponencial a través de la serie de
tiempo. En toda la serie, cada cálculo de suavización o pronóstico depende de todos los
valores observados anteriores. Ésta es otra ventaja respecto al método de pronósticos
móviles, que no toma en cuenta todos los valores observados de esta manera. Con la
Suavización 155
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
suavización exponencial, los pesos asignados a los valores observados decrecen en el
tiempo, de manera que al hacer un cálculo, el valor observado más reciente recibe el
peso más alto, el valor observado anterior tiene el siguiente peso más alto, y así
sucesivamente, por lo que el valor observado inicial tiene la menor ponderación.
Aunque la magnitud de los cálculos involucrados puede parecer enorme, la suavización
exponencial al igual que los métodos de promedios móviles está disponible entre los
procedimientos de Microsoft Excel y Minitab.
Si se centra la atención en los aspectos de suavización de la técnica (más que en
el aspecto del pronóstico), las fórmulas desarrolladas para suavizar exponencialmente
una serie en un periodo dado i se basa en sólo tres términos: el valor observado actual
en la serie de tiempo , valor con suavización exponencial calculado anterior 1iE y un
peso subjetivo asignado o coeficiente de suavización W. Así, para alisar una serie en
cualquier periodo , se tiene la siguiente expresión.
Obtención de un valor que tiene suavización exponencial en el periodo
donde
EI = valor de la serie suavizada exponencialmente que se calcula en el periodo EI – 1 = valor de la serie suavizada exponencialmente que se calcula en el periodo – 1
Yi = valor observado de la serie de tiempo en el periodo W = peso subjetivo asignado o coeficiente de suavización (donde 0 < W < 1)
E1 = Y1
La elección del coeficiente de suavización o peso que se asigna a la serie de
tiempo es crítica porque afectará en forma directa los resultados. Es desafortunado que
esta selección sea subjetiva. Si se desea sólo suavizar una serie con la eliminación de la
variación cíclica y la irregular, debe elegirse un valor pequeño para W (cercano a 0).
Por otro lado, si la meta es pronosticar, debe elegirse un valor grande para W (más
cercano a 1). En el primer caso, se podrán observar las tendencias globales a largo plazo
de la serie; en el último caso, es posible predecir direcciones futuras a corto plazo de
manera más adecuada.
Los cálculos de la suavización exponencial se ilustra para un coeficiente de
suavización de W = 0.25. Como punto de partida, se utiliza el valor observado inicial
(tabla 5.3), Y1975 = 6.6 como el primer valor de suavización (E1975 = 6.6) Después, con
el valor observado de la serie de tiempo para el año 1976 (Y1976 = 8.6), se suaviza la
serie para el año de 1976 con el cálculo
1)1( iii EWYWE
E1976 = WY1976 + (1 – W)E1975 = (0.25)(8.6) + (0.75)(6.6) = 7.10 millones
E1977 = WY1977 + (1 – W)E1976 = (0.25)(9.1) + (0.75)(7.1) = 7.6
E1978 = WY1978 + (1 – W)E1977 = (0.25)(9.5) + (0.75)(7.6) = 8.08
156 CAPÍTULO 5 Series de tiempo
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
Este proceso continúa hasta obtener los valores de la suavización exponencial
para los 24 años en la serie de las ventas anuales de la fábrica (General Motors), como
se muestra en la tabla 5.6 y 5.7, y las figuras 5.10 y 5.11
Tabla 5.6 Serie suavizada exponencialmente de las ventas de GM
obtenida con Microsoft Excel
Año
Ventas
SE
(W=0.25)
SE
(W=0.50)
1975 6,6 6,6 6,6
1976 8,6 7,1 7,6
1977 9,1 7,6 8,35
1978 9,5 8,075 8,925
1979 9 8,30625 8,9625
1980 7,1 8,0046875 8,03125
1981 6,8 7,70351563 7,415625
1982 6,2 7,32763672 6,8078125
1983 7,8 7,44572754 7,30390625
1984 8,3 7,65929565 7,80195313
1985 9,3 8,06947174 8,55097656
1986 8,6 8,20210381 8,57548828
1987 7,8 8,10157785 8,18774414
1988 8,1 8,10118339 8,14387207
1989 7,9 8,05088754 8,02193604
1990 7,5 7,91316566 7,76096802
1991 7,4 7,78487424 7,58048401
1992 7,7 7,76365568 7,640242
1993 7,8 7,77274176 7,720121
1994 8,4 7,92955632 8,0600605
1995 8,3 8,02216724 8,18003025
1996 8,4 8,11662543 8,29001513
1997 8,8 8,28746907 8,54500756
1998 8,1
Figura 5.10 Gráfica de una serie suavizada exponencialmente
(W = 0.50 y W = 0.25) para las ventas de GM
Suavización 157
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
Tabla 5.7 Serie suavizada exponencialmente de las ventas de GM
obtenida con Minitab
Año Ventas Suavizar 0,25 Suavizar 0,50
1975 6,6 6,60000 6,60000
1976 8,6 7,10000 7,60000
1977 9,1 7,60000 8,35000
1978 9,5 8,07500 8,92500
1979 9,0 8,30625 8,96250
1980 7,1 8,00469 8,03125
1981 6,8 7,70352 7,41563 1982 6,2 7,32764 6,80781
1983 7,8 7,44573 7,30391
1984 8,3 7,65930 7,80195
1985 9,3 8,06947 8,55098
1986 8,6 8,20210 8,57549
1987 7,8 8,10158 8,18774
1988 8,1 8,10118 8,14387
1989 7,9 8,05089 8,02194
1990 7,5 7,91317 7,76097
1991 7,4 7,78487 7,58048
1992 7,7 7,76366 7,64024 1993 7,8 7,77274 7,72012
1994 8,4 7,92956 8,06006
1995 8,3 8,02217 8,18003
1996 8,4 8,11663 8,29002
1997 8,8 8,28747 8,54501
1998 8,1 8,24060 8,32250
Figura 5.11 Gráfica de una serie suavizada exponencialmente (W = 0.50 y W = 0.25) para las ventas de
GM en Minitab
200019951990198519801975
9,5
9,0
8,5
8,0
7,5
7,0
6,5
6,0
Año
Dato
s Y
Ventas
Suavizar 0,25
Suavizar 0,50
Variable
Gráfica de dispersión de Ventas; Suavizar 0,25; Suavizar 0,50 vs. Año
Proyección de tendencias Para pronosticar una serie de tiempo que tiene una tendencia lineal a largo plazo. El tipo
de serie de tiempo para el cual se aplica el método de proyección de tendencias presenta
un aumento o disminución consistentes a través del tiempo; y no es estable como para
aplicar los métodos de suavizamiento analizados en la sección anterior.
158 CAPÍTULO 5 Series de tiempo
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
Veamos la serie de tiempo de ventas de bicicletas de determinado fabricante
durante los últimos 10 años, que se muestran en la tabla 5.8 y en la figura 5.12. Observe
que en el primer año se vendieron 21 600 bicicletas, en el segundo, 22 900, y así
sucesivamente. En el décimo año, el más reciente, se vendieron 31 400 bicicletas.
Aunque la figura 5.12 muestra algo de movimiento hacia arriba y hacia abajo durante
los 10 años, parece que la serie de tiempo tiene una tendencia general de aumento o
crecimiento
Tabla 5.8 Serie de tiempo de venta de bicicletas
Año
(t)
Ventas
(miles)
1
2
3
4
5
6
7
8
9 10
21,6
22,9
25,5
21,9
23,9
27,5
31,5
29,7
28,6 31,4
Figura 5.12 Serie de tiempo de venta de bicicletas
En este caso no se trata de que el componente de tendencia de una serie de
tiempo siga cada aumento y disminución; más bien ese componente debe reflejar el
desplazamiento gradual, que para este caso es el crecimiento, de los valores de la serie
de tiempo.
10987654321
32
30
28
26
24
22
Año
ve
nta
s
Gráfica de series de tiempo de ventas
Proyección de tendencias 159
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
Después de examinar los datos de la serie de tiempo en la tabla 5.8 y en la
gráfica de la figura 5.12 concordamos que con una tendencia líneas, como la que
muestra la figura 5.13, se obtiene una descripción razonable del movimiento en la serie
a largo plazo.
Vamos a emplear los datos de ventas de bicicletas para ilustrar los cálculos del
análisis de regresión, a fin de identificar una tendencia lineal. Recuerde que en la
descripción de la regresión lineal simple, describimos cómo se aplica el método de
mínimos cuadrados para determinar la mejor relación lineal entre dos variables; tal
metodología es la que usaremos para definir la línea de tendencia para la serie de tiempo
de ventas de bicicletas. En forma específica, aplicaremos el análisis de regresión para
estimar la relación entre el tiempo y el volumen de ventas.
Figura 5.13 Tendencias de las ventas de bicicletas, representada por una función lineal
10987654321
32
30
28
26
24
22
20
Año
ve
nta
s
MAPE 5,06814
MAD 1,32000
MSD 3,07000
Medidas de exactitud
Actual
Ajustes
Variable
Gráfica de análisis de tendencia de ventasModelo de tendencia lineal
Yt = 20,40 + 1,10*t
La ecuación de regresión que describe una relación lineal entre una variable
independiente, , y una variable dependiente, , es
Para enfatizar que el tiempo es la variable independiente en los pronósticos,
usaremos en la ecuación en lugar de ; además, usaremos en lugar de . Así para
una tendencia lineal, el volumen estimado de ventas, expresado en función del tiempo,
se puede escribir como sigue:
donde
= valor de la tendencia de la serie de tiempo en el periodo = ordenada al origen e la línea de tendencia
= pendiente de la línea de tendencia
= tiempo
En esta ecuación igualaremos = 1 para el tiempo en que se obtiene el primer
dato de la serie de tiempo, = 2 para el tiempo del segundo dato y así sucesivamente.
160 CAPÍTULO 5 Series de tiempo
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
Observe que, para la serie de tiempo de ventas de bicicletas, = 1 correspondiente
al valor más antiguo de esa serie y = 10 al más reciente.
Las fórmulas para calcular los coeficientes estimados de regresión, y , en
la ecuación que se muestra a continuación.
donde
= valor de la serie de tiempo en el periodo = número de periodos
= valor promedio de la serie de tiempo,
= valor promedio de
Con las ecuaciones anteriores y los datos de las ventas de bicicletas de la tabla
5.8 podemos calcular como sigue:
t 1
2
3 4
5
6
7
8
9
10
21,6
22,9
25,5 21,9
23,9
27,5
31,5
29,7
28,6
31,4
21,6
45,8
76,5 87,6
119,5
165,0
220,5
237,6
257,4
314,0
1
4
9 16
25
36
49
64
81
100
55 264,5 1545,5 385
=
=
Por consiguiente,
Proyección de tendencias 161
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
Es la ecuación del componente de tendencia lineal para la serie de tiempo de
ventas de bicicletas.
La pendiente 1,1 indica que, durante los últimos 10 años, la empresa ha tenido
un crecimiento promedio de ventas igual a 1100 unidades anuales, aproximadamente. Si
suponemos que la tendencia en los 10 años pasados es un buen indicador del futuro,
aplicamos la ecuación para proyectar el componente de tendencia de la serie de tiempo.
Por ejemplo, al sustituir = 11 en esa ecuación, se obtiene la proyección de tenencia
para el año próximo,
Así sólo con el componente de tendencia pronosticaríamos ventas de 32 500
bicicletas para el próximo año.
Utilice Microsoft Excel o Minitab para resolver los siguientes problemas
Ejercicios
1.- En la compañía Pérez, los porcentajes mensuales de los embarques recibidos durante
los últimos 12 meses fueron
80, 82, 84, 83, 83, 84, 85, 84, 82, 83, 84 y 83
a) Compare el pronóstico con promedios móviles de tres meses con uno de
suavizamiento exponencial con ¿Con cuál se obtienen mejores
pronósticos?
2.- La siguiente serie de tiempo representa las ventas de un producto durante los últimos
12 meses.
Mes 1 2 3 4 5 6 7 8 9 10 11 12
Ventas 10535 120 105 90 120 145 140 100 80 100 110
a) Use con para calcular los valores de suavizamiento exponencial de la
serie de tiempo
b) Use una constante de suavizamiento igual a 0,5 para calcular los valores de
suavizamiento exponencial. ¿Cuál de las constantes 0,3 o 0,5, parece producir
los mejores pronósticos
Resumen de Excel donde observamos los coeficientes
Estadísticas de la regresión
Coeficiente de correlación múltiple 0,874526167
Coeficiente de determinación R^2 0,764796016
R^2 ajustado 0,735395518
Error típico 1,958953802
Observaciones 10
ANÁLISIS DE VARIANZA
Grados de libertad Suma de cuadrados Promedio de los cuadrados F Valor crítico de F
Regresión 1 99,825 99,825 26,0130293 0,000929509
Residuos 8 30,7 3,8375
Total 9 130,525
Coeficientes Error típico Estadístico t Probabilidad Inferior 95%
Intercepción 20,4 1,338220211 15,24412786 3,3999E-07 17,31405866
Año 1,1 0,215673715 5,100296983 0,00092951 0,602655521
162 CAPÍTULO 5 Series de tiempo
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
3.- Los datos que siguen representan el número anual de empleados (en miles) de una
compañía petrolera para los años 1978 a 1997.
Número de empleados (en miles)
Año Número Año Número Año Número
1978 1.45 1985 2.04 1992 1.65
1979 1.55 1986 2.06 1993 1.73
1980 1.61 1987 1.80 1994 1.88
1981 1.60 1988 1.73 1995 2.00
1982 1.74 1989 1.77 1996 2.08
1983 1.92 1990 1.90 1997 1.88
1984 1.95 1991 1.82
a) Grafique los datos en un diagrama
b) Ajuste un promedio móvil de 3 años a los datos y grafique los resultados en el
diagrama
c) Utilice un coeficiente de suavización W = 0.50, aplique la suavización exponencial a
la serie y grafique los resultados en el diagrama
4.- Los siguientes datos representan las ventas anuales (en millones de dólares) de una
compañía que procesa alimentos para los años 1972 a 1997
Ventas anuales (millones de dólares)
Año Ventas Año Ventas Año Ventas
1972 41.6 1981 53.2 1990 36.4
1973 48.0 1982 53.3 1991 38.4
1974 51.7 1983 51.6 1992 42.6
1975 55.9 1984 49.0 1993 34.8
1976 51.8 1985 38.6 1994 28.4
1977 57.0 1986 37.3 1995 23.9
1978 64.4 1987 43.8 1996 27.8
1979 60.8 1988 41.7 1997 42.1
1980 56.3 1989 38.3
a) Grafique los datos en un diagrama
b) Ajuste un promedio móvil de 7 años a los datos y grafique los resultados en el
diagrama
c) Utilice un coeficiente de suavización W = 0.25, aplique la suavización exponencial a
la serie y grafique los resultados en el diagrama
Ejercicios 163
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
5.- Los datos de inscripciones, en miles, en una universidad estatal durante los últimos
seis años son los siguientes:
Año 1 2 3 4 5 6
Inscripción 20,5 20,2 19,5 19,0 19,1 18,8
Deduzca una ecuación del componente de tendencia lineal en esta serie de
tiempo. Haga comentarios acerca de lo que sucede con la inscripción en esta institución.
6.- Al final de la década de los noventa, muchas empresas trataron de reducir su tamaño
para disminuir sus costos. Uno de los resultados de esas medidas de recorte de costos
fue una disminución en el porcentaje de empleos gerenciales en la industria privada. Los
siguientes datos corresponden al porcentaje de mujeres gerentes, de 1990 1 1995
Año 1990 1991 1992 1993 1994 1995
Porcentaje 7,45 7,53 7,52 7,65 7,62 7,73
a) Deduzca una ecuación de tendencia lineal para esta serie de tiempo.
b) Use la ecuación de la tendencia para estimar el porcentaje de mujeres gerentes
para 1996 y 1997
7.- ACT Networks. Inc., desarrolla, fabrica y vende productos para acceso a redes de
banda ancha. Los siguientes datos son las ventas anuales de 1992 a 1997
Año 1992 1993 1994 1995 1996 1997
Ventas
(millones)
5,4 6,2 12,7 20,6 28,4 44,9
a) Deduzca una ecuación de tendencia lineal para esta serie de tiempo
b) ¿Cuál es el aumento promedio de ventas anuales en esta empresa
c) Use la ecuación de tendencia para pronosticar las ventas en 1998
Caso a resolver 1 Pronóstico de ventas de alimentos y bebidas
El restaurante Vintage está en la isla Captiva, lugar de descanso cerca de Fort Myers,
Florida. El restaurante, cuya dueña y operadora es Karen Payne, acaba de completar su
tercer año de funcionamiento. Karen, durante ese lapso, ha tratado de ganarse una
reputación como establecimiento de alta calidad que se especializa en mariscos. Sus
esfuerzos han tenido éxito y su restaurante ha llegado a ser uno de los mejores y de
mayor crecimiento en la isla.
Karen ve que, para planear el crecimiento futuro del restaurante, necesita
desarrollar un sistema que le permita pronosticar las ventas de alimentos y bebidas cada
mes, hasta con un año de anticipación. Cuenta con los siguientes datos sobre las ventas
totales de alimentos y bebidas (en miles de dólares) durante los tres años de
funcionamiento.
164 CAPÍTULO 5 Series de tiempo
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
Mes Primer año Segundo año Tercer año
Enero
Febrero
Marzo
Abril
Mayo
Junio
Julio
Agosto
Septiembre
Octubre
Noviembre
Diciembre
242
235
232
178
184
140
145
152
110
130
152
206
263
238
247
193
193
149
157
161
122
130
167
230
282
255
265
205
210
160
166
174
126
148
173
235
Analice los datos de ventas del restaurant. Prepare un informe a Karen que contenga
lo que encontró, sus pronósticos y recomendaciones. Dicho informe debe incluir:
a) Una gráfica de la serie de tiempo
b) Un análisis de influencias estacionales sobre los datos. Indique los índices
estacionales para cada mes y haga comentarios acerca de los meses con ventas
altas y bajas. ¿Tiene sentido intuitivo esos índices estacionales? Describa por
qué.
c) Un pronóstico de ventas desde enero hasta diciembre del cuarto año.
d) Recomendaciones sobre cuándo se debe actualizar el sistema que ha preparado,
para tomar en cuenta nuevos datos de ventas
e) Todos los cálculos detallados de su análisis aparecen en el apéndice de su
informe.
Suponga que las ventas en enero del cuarto año fueron de 295 000 dólares. ¿Cuál
fue su error de pronóstico? Si es grande, Karen se quedará confundida por la diferencia
entre su pronóstico y el valor real de las ventas. ¿Qué puede hacer para resolver la
incertidumbre en el procedimiento de pronóstico?
Caso a resolver 2 Pronóstico de ventas perdidas
La tienda de departamentos Carlson sufrió graves daños cuando pasó un huracán el 31
de agosto de 2000. Estuvo cerrada durante cuatro meses (de septiembre a diciembre de
2000), y ahora tiene una dificultad con su aseguradora acerca de la cantidad de ventas
perdidas, mientras estuvo cerrada. Se deben resolver dos asuntos clave: 1) la cantidad de
ventas de Carlson si no la hubiera dañado el huracán, y 2) si Carlson tiene derecho a una
compensación por ventas adicionales a causa de mayor actividad después de la
tormenta. A su condado llegaron más de 8000 millones de dólares en fondos federales
para desastres y seguros, lo cual ocasionó un aumento en las ventas de las tiendas de
departamento y de muchos otros negocios.
La siguiente tabla muestra los datos del departamento de comercio de Estados
Unidos sobre las ventas totales durante los 48 meses anteriores a la tormenta, en todas
las tiendas de departamentos en el condado, y también las ventas totales durante los
cuatro meses en que Carlson estuvo cerrada. Los administradores de Carlson le pidieron
Ejercicios 165
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
analizar estos datos y preparar estimados de las ventas perdidas en sus almacenes
durante los meses de septiembre a diciembre de 2000. También le pidieron determinar si
es posible alegar exceso de ventas relacionado con el huracán, durante el mismo
periodo. Si se puede presentar ese argumento. Carlson tiene derecho a compensaciones
por exceso sobre las ventas ordinarias.
Mes 1996 1997 1998 1999 2000
Enero
Febrero
Marzo
Abril
Mayo
Junio
Julio
Agosto
Septiembre
Octubre
Noviembre
Diciembre
1,71
1,90
2,74
4,20
1,45
1,80
2,03
1,99
2,32
2,20
1,13
2,43
1,90
2,13
2,56
4,16
2,31
1,89
2,02
2,23
2,39
2,14
2,27
2,21
1,89
2,29
2,83
4,04
2,31
1,99
2,42
2,45
2,57
2,42
2,40
2,50
2,09
2,54
2,97
4,35
2,56
2,28
2,69
2,48
2,73
2,37
2,31
2,23
Prepare un informe a los gerentes de Carlson que resuma lo que encontró, sus
pronósticos y recomendaciones. Éste debe incluir:
a) Un estimado de ventas si no hubiera habido huracán.
b) Un estimado de ventas en tiendas de departamentos de todo el condado, si no
hubiera habido huracán
c) Un estimado de ventas perdidas de Carlson, de septiembre a diciembre de 200
166
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
Apéndice
Tablas
167
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
Distribución T de Student
Grados de
libertad
0,25 0,2 0,15 0,1 0,05 0,025 0,01 0,005
1
2
3
4 5
6
7 8
9
10 11
12
13
14 15
16
17 18
19
20
21 22
23
24 25
26
27 28
29
30
1,000 1,376 1,963 3,078 6,314 12,706 31,821 63,656
0,816 1,061 1,386 1,886 2,920 4,303 6,965 9,925
0,765 0,978 1,250 1,638 2,353 3,182 4,541 5,841
0,741 0,941 1,190 1,533 2,132 2,776 3,747 4,604 0,727 0,920 1,156 1,476 2,015 2,571 3,365 4,032
0,718 0,906 1,134 1,440 1,943 2,447 3,143 3,707
0,711 0,896 1,119 1,415 1,895 2,365 2,998 3,499 0,706 0,889 1,108 1,397 1,860 2,306 2,896 3,355
0,703 0,883 1,100 1,383 1,833 2,262 2,821 3,250
0,700 0,879 1,093 1,372 1,812 2,228 2,764 3,169 0,697 0,876 1,088 1,363 1,796 2,201 2,718 3,106
0,695 0,873 1,083 1,356 1,782 2,179 2,681 3,055
0,694 0,870 1,079 1,350 1,771 2,160 2,650 3,012
0,692 0,868 1,076 1,345 1,761 2,145 2,624 2,977 0,691 0,866 1,074 1,341 1,753 2,131 2,602 2,947
0,690 0,865 1,071 1,337 1,746 2,120 2,583 2,921
0,689 0,863 1,069 1,333 1,740 2,110 2,567 2,898 0,688 0,862 1,067 1,330 1,734 2,101 2,552 2,878
0,688 0,861 1,066 1,328 1,729 2,093 2,539 2,861
0,687 0,860 1,064 1,325 1,725 2,086 2,528 2,845
0,686 0,859 1,063 1,323 1,721 2,080 2,518 2,831 0,686 0,858 1,061 1,321 1,717 2,074 2,508 2,819
0,685 0,858 1,060 1,319 1,714 2,069 2,500 2,807
0,685 0,857 1,059 1,318 1,711 2,064 2,492 2,797 0,684 0,856 1,058 1,316 1,708 2,060 2,485 2,787
0,684 0,856 1,058 1,315 1,706 2,056 2,479 2,779
0,684 0,855 1,057 1,314 1,703 2,052 2,473 2,771 0,683 0,855 1,056 1,313 1,701 2,048 2,467 2,763
0,683 0,854 1,055 1,311 1,699 2,045 2,462 2,756
0,683 0,854 1,055 1,310 1,697 2,042 2,457 2,750
168
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
Distribución normal estándar
0 Z
Z 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0 1.1
1.2
1.3
1.4
1.5
1.6
1.7
1.8
1.9
2.0 2.1
2.2
2.3
2.4
2.5
2.6
2.7
2.8
2.9
3.0 3.1
3.2
3.3
3.4
3.5
3.6
3.7
3.8
3.9
0.0000 0.0040 0.0080 0.0120 0.0160 0.0199 0.0239 0.0279 0.0319 0.0359
0.0398 0.0438 0.0478 0.0517 0.0557 0.0596 0.0636 0.0675 0.0714 0.0753
0.0793 0.0832 0.0871 0.0910 0.0948 0.0987 0.1026 0.1064 0.1103 0.1141
0.1179 0.1217 0.1255 0.1293 0.1331 0.1368 0.1406 0.1443 0.1480 0.1517
0.1915 0.1850 0.1985 0.2019 0.2054 0.2088 0.2123 0.2157 0.2190 0.2224
0.1915 0.1950 0.1985 0.2019 0.2054 0.2088 0.2123 0.2157 0.2190 0.2224
0.2257 0.2291 0.2324 0.2357 0.2389 0.2422 0.2454 0.2486 0.2518 0.2549
0.2580 0.2612 0.2642 0.2673 0.2704 0.2734 0.2764 0.2794 0.2823 0.2852
0.2881 0.2910 0.2939 0.2967 0.2995 0.3023 0.3051 0.3078 0.3106 0.3133
0.3159 0.3186 0.3212 0.3238 0.3264 0.3289 0.3315 0.3340 0.3365 0.3389
0.3413 0.3438 0.3461 0.3485 0.3508 0.3531 0.3554 0.3577 0.3599 0.3621 0.3643 0.3665 0.3686 0.3708 0.3729 0.3749 0.3770 0.3790 0.3810 0.3830
0.3849 0.3869 0.3888 0.3907 0.3925 0.3944 0.3962 3.3980 0.3997 0.4015
0.4032 0.4049 0.4066 0.4082 0.4099 0.4115 0.4131 0.4147 0.4162 0.4177
0.4192 0.4207 0.4222 0.4236 0.4251 0.4265 0.4279 0.4292 0.4306 0.4319
0.4332 0.4345 0.4357 0.4370 0.4382 0.4394 0.4406 0.4418 0.4429 0.4441
0.4452 0.4463 0.4474 0.4484 0.4495 0.4505 0.4515 0.4525 0.4535 0.4545
0.4554 0.4564 0.4573 0.4582 0.4591 0.4599 0.4608 0.4616 0.4625 0.4633
0.4641 0.4649 0.4656 0.4664 0.4671 0.4678 0.4686 0.4693 0.4699 0.4706
0.4713 0.4719 0.4726 0.4732 0.4738 0.4744 0.4750 0.4756 0.4761 0.4767
0.4772 0.4778 0.4783 0.4788 0.4793 0.4798 0.4803 0.4808 0.4812 0.4817 0.4821 0.4826 0.4830 0.4834 0.4838 0.4842 0.4846 0.4850 0.4854 0.4857
0.4861 0.4864 0.4868 0.4871 0.4875 0.4878 0.4881 0.4884 0.4887 0.4890
0.4893 0.4896 0.4898 0.4901 0.4904 0.4906 0.4909 0.4911 0.4913 0.4916
0.4918 0.4920 0.4922 0.4925 0.4927 0.4929 0.4931 0.4932 0.4934 0.4936
0.4938 0.4940 0.4941 0.4943 0.4945 0.4946 0.4948 0.4949 0.4951 0.4952
0.4953 0.4955 0.4956 0.4957 0.4959 0.4960 0.4961 0.4962 0.4963 0.4964
0.4956 0.4966 0.4967 0.4968 0.4969 0.4970 0.4971 0.4972 0.4973 0.4974
0.4974 0.4975 0.4976 0.4977 0.4977 0.4978 0.4979 0.4979 0.4980 0.4981
0.4981 0.4982 0.4982 0.4983 0.4984 0.4984 0.4985 0.4985 0.4986 0.4986
0.4986 0.4986 0.4987 0.4987 0.4988 0.4988 0.4988 0.4989 0.4989 0.4990 0.4990 0.4990 0.4991 0.4991 0.4991 0.4991 0.4992 0.4992 0.4992 0.4992
0.4993 0.4993 0.4993 0.4993 0.4994 0.4994 0.4994 0.4994 0.4994 0.4995
0.4995 0.4995 0.4995 0.4995 0.4995 0.4996 0.4996 0.4996 0.4996 0.4996
0.4996 0.4996 0.4996 0.4997 0.4997 0.4997 0.4997 0.4997 0.4997 0.4997
0.4997 0.4997 0.4997 0.4997 0.4998 0.4998 0.4998 0.4998 0.4998 0.4998
0.4998 0.4998 0.4998 0.4998 0.4998 0.4998 0.4998 0.4998 0.4998 0.4998
0.4998 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999
0.4999 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999
0.4999 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999
169
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
Distribución normal para una cola
Z 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
0.0
0.1
0.2 0.3
0.4
0.5 0.6
0.7
0.8 0.9
1.0
1.1
1.2 1.3
1.4
1.5 1.6
1.7
1.8 1.9
2.0
2.1
2.2 2.3
2.4
2.5 2.6
2.7
2.8
2.9 3.0
0.5000 0.5039 0.5079 0.5119 0.5159 0.5199 0.5239 0.5279 0.5318 0.5358
0.5398 0.5437 0.5477 0.5517 0.5556 0.5596 0.5635 0.5674 0.5714 0.5753
0.5792 0.5831 0.5870 0.5909 0.5948 0.5987 0.6025 0.6064 0.6102 0.6140 0.6179 0.6217 0.6255 0.6293 0.6330 0.6368 0.6405 0.6443 0.6480 0.6517
0.6554 0.6590 0.6627 0.6664 0.6700 0.6736 0.6772 0.6808 0.6843 0.6879
0.6914 0.6949 0.6984 0.7019 0.7054 0.7088 0.7122 0.7156 0.7190 0.7224 0.7257 0.7290 0.7323 0.7356 0.7389 0.7421 0.7453 0.7485 0.7517 0.7549
0.7580 0.7611 0.7642 0.7673 0.7703 0.7733 0.7763 0.7793 0.7823 0.7852
0.7881 0.7910 0.7938 0.7967 0.7995 0.8023 0.8051 0.8078 0.8105 0.8132 0.8159 0.8185 0.8212 0.8238 0.8263 0.8289 0.8314 0.8339 0.8364 0.8389
0.8413 0.8437 0.8461 0.8484 0.8508 0.8531 0.8554 0.8576 0.8599 0.8621
0.8643 0.8665 0.8686 0.8707 0.8728 0.8749 0.8769 0.8790 0.8810 0.8829
0.8849 0.8868 0.8887 0.8906 0.8925 0.8943 0.8961 0.8979 0.8997 0.9014 0.9032 0.9049 0.9065 0.9082 0.9098 0.9114 0.9130 0.9146 0.9162 0.9177
0.9192 0.9207 0.9221 0.9236 0.9250 0.9264 0.9278 0.9292 0.9305 0.9318
0.9331 0.9344 0.9357 0.9369 0.9382 0.9394 0.9406 0.9417 0.9429 0.9440 0.9452 0.9463 0.9473 0.9484 0.9494 0.9505 0.9515 0.9525 0.9535 0.9544
0.9554 0.9563 0.9572 0.9581 0.9590 0.9599 0.9607 0.9616 0.9624 0.9632
0.9640 0.9648 0.9656 0.9663 0.9671 0.9678 0.9685 0.9692 0.9699 0.9706 0.9712 0.9719 0.9725 0.9731 0.9738 0.9744 0.9750 0.9755 0.9761 0.9767
0.9772 0.9777 0.9783 0.9788 0.9793 0.9798 0.9803 0.9807 0.9812 0.9816
0.9821 0.9825 0.9829 0.9834 0.9838 0.9842 0.9846 0.9849 0.9853 0.9857
0.9860 0.9864 0.9867 0.9871 0.9874 0.9877 0.9880 0.9883 0.9886 0.9889 0.9892 0.9895 0.9898 0.9900 0.9903 0.9906 0.9908 0.9911 0.9913 0.9915
0.9918 0.9920 0.9922 0.9924 0.9926 0.9928 0.9930 0.9932 0.9934 0.9936
0.9937 0.9939 0.9941 0.9942 0.9944 0.9946 0.9947 0.9949 0.9950 0.9952 0.9953 0.9954 0.9956 0.9957 0.9958 0.9959 0.9960 0.9962 0.9963 0.9964
0.9965 0.9966 0.9967 0.9968 0.9969 0.9970 0.9971 0.9971 0.9972 0.9973
0.9974 0.9975 0.9975 0.9976 0.9977 0.9978 0.9978 0.9979 0.9980 0.9980
0.9981 0.9981 0.9982 0.9983 0.9983 0.9984 0.9984 0.9985 0.9985 0.9986 0.9986 0.9986 0.9987 0.9987 0.9988 0.9988 0.9988 0.9989 0.9989 0.9990
170
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
Valores Críticos de la Distribución Chi-Cuadrado.
FUNCION DE DISTRIBUCION 0.005 0.010 0.025 0.050 0.100 0.900 0.950 0.975 0.990 0.995
G R
A D
O S
D
E L
I B
E R
T A
D
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
0.000039 0.000157 0.000982 0.003932 0.0158 2.71 3.84 5.02 6.63 7.88
0.0100 0.0201 0.0506 0.10 0.21 4.61 5.99 7.38 9.21 10.60
0.0717 0.11 0.22 0.35 0.58 6.25 7.81 9.35 11.34 12.84 0.21 0.30 0.48 0.71 1.06 7.78 9.49 11.14 13.28 14.86 0.41 0.55 0.83 1.15 1.61 9.24 11.07 12.83 15.09 16.75 0.68 0.87 1.24 1.64 2.20 10.64 12.59 14.45 16.81 18.55 0.99 1.24 1.69 2.17 2.83 12.02 14.07 16.01 18.48 20.28 1.34 1.65 2.18 2.73 3.49 13.36 15.51 17.53 20.09 21.95 1.73 2.09 2.70 3.33 4.17 14.68 16.92 19.02 21.67 23.59 2.16 2.56 3.25 3.94 4.87 15.99 18.31 20.48 23.21 25.19 2.60 3.05 3.82 4.57 5.58 17.28 19.68 21.92 24.72 26.76 3.07 3.57 4.40 5.23 6.30 18.55 21.03 23.34 26.22 28.30 3.57 4.11 5.01 5.89 7.04 19.81 22.36 24.74 27.69 29.82 4.07 4.66 5.63 6.57 7.79 21.06 23.68 26.12 29.14 31.32 4.60 5.23 6.26 7.26 8.55 22.31 25.00 27.49 30.58 32.80 5.14 5.81 6.91 7.96 9.31 23.54 26.30 28.85 32.00 34.27 5.70 6.41 7.56 8.67 10.09 24.77 27.59 30.19 33.41 35.72 6.26 7.01 8.23 9.39 10.86 25.99 28.87 31.53 34.81 37.16 6.84 7.63 8.91 10.12 11.65 27.20 30.14 32.85 36.19 38.58 7.43 8.26 9.59 10.85 12.44 28.41 31.41 34.17 37.57 40.00 8.03 8.90 10.28 11.59 13.24 29.62 32.67 35.48 38.93 41.40 8.64 9.54 10.98 12.34 14.04 30.81 33.92 36.78 40.29 42.80 9.26 10.20 11.69 13.09 14.85 32.01 35.17 38.08 41.64 44.18 9.89 10.86 12.40 13.85 15.66 33.20 36.42 39.36 42.98 45.56 10.52 11.52 13.12 14.61 16.47 34.38 37.65 40.65 44.31 46.93 11.16 12.20 13.84 15.38 17.29 35.56 38.89 41.92 45.64 48.29 11.81 12.88 14.57 16.15 18.11 36.74 40.11 43.19 46.96 49.64 12.46 13.56 15.31 16.93 18.94 37.92 41.34 44.46 48.28 50.99 13.12 14.26 16.05 17.71 19.77 39.09 42.56 45.72 49.59 52.34 13.79 14.95 16.79 18.49 20.60 40.26 43.77 46.98 50.89 53.67
171
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
Valores Críticos de la Distribución F - Función de Distribución = 0.90.
GRADOS DE LIBERTAD DEL NUMERADOR
1 2 3 4 5 6 7 8 9 10
1
G 2
R 3
A 4
D 5
O
S 6
7
D 8
E 9
10
L
I 11
B 12
E 13
R 14
T 15
A
D 16
17
D 18
E 19
L 20
D 21
E 22
N 23
O 24
M 25
I
A 26
D 27
O 28
R 29
30
40
60
90
120
39.86 49.50 53.59 55.83 57.24 58.20 58.91 59.44 59.86 60.19
8.53 9.00 9.16 9.24 9.29 9.33 9.35 9.37 9.38 9.39
5.54 5.46 5.39 5.34 5.31 5.28 5.27 5.25 5.24 5.23
4.54 4.32 4.19 4.11 4.05 4.01 3.98 3.95 3.94 3.92
4.06 3.78 3.62 3.52 3.45 3.40 3.37 3.34 3.32 3.30
3.78 3.46 3.29 3.18 3.11 3.05 3.01 2.98 2.96 2.94
3.59 3.26 3.07 2.96 2.88 2.83 2.78 2.75 2.72 2.70
3.46 3.11 2.92 2.81 2.73 2.67 2.62 2.59 2.56 2.54
3.36 3.01 2.81 2.69 2.61 2.55 2.51 2.47 2.44 2.42
3.29 2.92 2.73 2.61 2.52 2.46 2.41 2.38 2.35 2.32
3.23 2.86 2.66 2.54 2.45 2.39 2.34 2.30 2.27 2.25
3.18 2.81 2.61 2.48 2.39 2.33 2.28 2.24 2.21 2.19
3.14 2.76 2.56 2.43 2.35 2.28 2.23 2.20 2.16 2.14
3.10 2.73 2.52 2.39 2.31 2.24 2.19 2.15 2.12 2.10
3.07 2.70 2.49 2.36 2.27 2.21 2.16 2.12 2.09 2.06
3.05 2.67 2.46 2.33 2.24 2.18 2.13 2.09 2.06 2.03
3.03 2.64 2.44 2.31 2.22 2.15 2.10 2.06 2.03 2.00
3.01 2.62 2.42 2.29 2.20 2.13 2.08 2.04 2.00 1.98
2.99 2.61 2.40 2.27 2.18 2.11 2.06 2.02 1.98 1.96
2.97 2.59 2.38 2.25 2.16 2.09 2.04 2.00 1.96 1.94
2.96 2.57 2.36 2.23 2.14 2.08 2.02 1.98 1.95 1.92
2.95 2.56 2.35 2.22 2.13 2.06 2.01 1.97 1.93 1.90
2.94 2.55 2.34 2.21 2.11 2.05 1.99 1.95 1.92 1.89
2.93 2.54 2.33 2.19 2.10 2.04 1.98 1.94 1.91 1.88
2.92 2.53 2.32 2.18 2.09 2.02 1.97 1.93 1.89 1.87
2.91 2.52 2.31 2.17 2.08 2.01 1.96 1.92 1.88 1.86
2.90 2.51 2.30 2.17 2.07 2.00 1.95 1.91 1.87 1.85
2.89 2.50 2.29 2.16 2.06 2.00 1.94 1.90 1.87 1.84
2.89 2.50 2.28 2.15 2.06 1.99 1.93 1.89 1.86 1.83
2.88 2.49 2.28 2.14 2.05 1.98 1.93 1.88 1.85 1.82
2.84 2.44 2.23 2.09 2.00 1.93 1.87 1.83 1.79 1.76
2.79 2.39 2.18 2.04 1.95 1.87 1.82 1.77 1.74 1.71
2.76 2.36 2.15 2.01 1.91 1.84 1.78 1.74 1.70 1.67
2.75 2.35 2.13 1.99 1.90 1.82 1.77 1.72 1.68 1.65
172
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
Valores Críticos de la Distribución F - Función de Distribución = 0.95.
GRADOS DE LIBERTAD DEL NUMERADOR
1 2 3 4 5 6 7 8 9 10
1
G 2
R 3
A 4
D 5
O
S 6
7
D 8
E 9
10
L
I 11
B 12
E 13
R 14
T 15
A
D 16
17
D 18
E 19
L 20
D 21
E 22
N 23
O 24
M 25
I
A 26
D 27
O 28
R 29
30
40
60
90
120
161.45 199.50 215.71 224.58 230.16 233.99 236.77 238.88 240.54 241.88
18.51 19.00 19.16 19.25 19.30 19.33 19.35 19.37 19.38 19.40
10.13 9.55 9.28 9.12 9.01 8.94 8.89 8.85 8.81 8.79
7.71 6.94 6.59 6.39 6.26 6.16 6.09 6.04 6.00 5.96
6.61 5.79 5.41 5.19 5.05 4.95 4.88 4.82 4.77 4.74
5.99 5.14 4.76 4.53 4.39 4.28 4.21 4.15 4.10 4.06
5.59 4.74 4.35 4.12 3.97 3.87 3.79 3.73 3.68 3.64
5.32 4.46 4.07 3.84 3.69 3.58 3.50 3.44 3.39 3.35
5.12 4.26 3.86 3.63 3.48 3.37 3.29 3.23 3.18 3.14
4.96 4.10 3.71 3.48 3.33 3.22 3.14 3.07 3.02 2.98
4.84 3.98 3.59 3.36 3.20 3.09 3.01 2.95 2.90 2.85
4.75 3.89 3.49 3.26 3.11 3.00 2.91 2.85 2.80 2.75
4.67 3.81 3.41 3.18 3.03 2.92 2.83 2.77 2.71 2.67
4.60 3.74 3.34 3.11 2.96 2.85 2.76 2.70 2.65 2.60
4.54 3.68 3.29 3.06 2.90 2.79 2.71 2.64 2.59 2.54
4.49 3.63 3.24 3.01 2.85 2.74 2.66 2.59 2.54 2.49
4.45 3.59 3.20 2.96 2.81 2.70 2.61 2.55 2.49 2.45
4.41 3.55 3.16 2.93 2.77 2.66 2.58 2.51 2.46 2.41
4.38 3.52 3.13 2.90 2.74 2.63 2.54 2.48 2.42 2.38
4.35 3.49 3.10 2.87 2.71 2.60 2.51 2.45 2.39 2.35
4.32 3.47 3.07 2.84 2.68 2.57 2.49 2.42 2.37 2.32
4.30 3.44 3.05 2.82 2.66 2.55 2.46 2.40 2.34 2.30
4.28 3.42 3.03 2.80 2.64 2.53 2.44 2.37 2.32 2.27
4.26 3.40 3.01 2.78 2.62 2.51 2.42 2.36 2.30 2.25
4.24 3.39 2.99 2.76 2.60 2.49 2.40 2.34 2.28 2.24
4.23 3.37 2.98 2.74 2.59 2.47 2.39 2.32 2.27 2.22
4.21 3.35 2.96 2.73 2.57 2.46 2.37 2.31 2.25 2.20
4.20 3.34 2.95 2.71 2.56 2.45 2.36 2.29 2.24 2.19
4.18 3.33 2.93 2.70 2.55 2.43 2.35 2.28 2.22 2.18
4.17 3.32 2.92 2.69 2.53 2.42 2.33 2.27 2.21 2.16
4.08 3.23 2.84 2.61 2.45 2.34 2.25 2.18 2.12 2.08
4.00 3.15 2.76 2.53 2.37 2.25 2.17 2.10 2.04 1.99
3.95 3.10 2.71 2.47 2.32 2.20 2.11 2.04 1.99 1.94
3.92 3.07 2.68 2.45 2.29 2.18 2.09 2.02 1.96 1.91
173
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
Valores Críticos de la Distribución F - Función de Distribución = 0.99.
GRADOS DE LIBERTAD DEL NUMERADOR
1 2 3 4 5 6 7 8 9 10
G
R
A
D
O
S
D
E
L
I
B
E
R
T
A
D
D
E
L
D
E
N
O
M
I
A
D
O
R
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
40
60
90
120
4052 5000 5403 5625 5764 5859 5928 5981 6022 6056
98.50 99.00 99.17 99.25 99.30 99.33 99.36 99.37 99.39 99.40
34.12 30.82 29.46 28.71 28.24 27.91 27.67 27.49 27.35 27.23
21.20 18.00 16.69 15.98 15.52 15.21 14.98 14.80 14.66 14.55
16.26 13.27 12.06 11.39 10.97 10.67 10.46 10.29 10.16 10.05
13.75 10.92 9.78 9.15 8.75 8.47 8.26 8.10 7.98 7.87
12.25 9.55 8.45 7.85 7.46 7.19 6.99 6.84 6.72 6.62
11.26 8.65 7.59 7.01 6.63 6.37 6.18 6.03 5.91 5.81
10.56 8.02 6.99 6.42 6.06 5.80 5.61 5.47 5.35 5.26
10.04 7.56 6.55 5.99 5.64 5.39 5.20 5.06 4.94 4.85
9.65 7.21 6.22 5.67 5.32 5.07 4.89 4.74 4.63 4.54
9.33 6.93 5.95 5.41 5.06 4.82 4.64 4.50 4.39 4.30
9.07 6.70 5.74 5.21 4.86 4.62 4.44 4.30 4.19 4.10
8.86 6.51 5.56 5.04 4.69 4.46 4.28 4.14 4.03 3.94
8.68 6.36 5.42 4.89 4.56 4.32 4.14 4.00 3.89 3.80
8.53 6.23 5.29 4.77 4.44 4.20 4.03 3.89 3.78 3.69
8.40 6.11 5.18 4.67 4.34 4.10 3.93 3.79 3.68 3.59
8.29 6.01 5.09 4.58 4.25 4.01 3.84 3.71 3.60 3.51
8.18 5.93 5.01 4.50 4.17 3.94 3.77 3.63 3.52 3.43
8.10 5.85 4.94 4.43 4.10 3.87 3.70 3.56 3.46 3.37
8.02 5.78 4.87 4.37 4.04 3.81 3.64 3.51 3.40 3.31
7.95 5.72 4.82 4.31 3.99 3.76 3.59 3.45 3.35 3.26
7.88 5.66 4.76 4.26 3.94 3.71 3.54 3.41 3.30 3.21
7.82 5.61 4.72 4.22 3.90 3.67 3.50 3.36 3.26 3.17
7.77 5.57 4.68 4.18 3.85 3.63 3.46 3.32 3.22 3.13
7.72 5.53 4.64 4.14 3.82 3.59 3.42 3.29 3.18 3.09
7.68 5.49 4.60 4.11 3.78 3.56 3.39 3.26 3.15 3.06
7.64 5.45 4.57 4.07 3.75 3.53 3.36 3.23 3.12 3.03
7.60 5.42 4.54 4.04 3.73 3.50 3.33 3.20 3.09 3.00
7.56 5.39 4.51 4.02 3.70 3.47 3.30 3.17 3.07 2.98
7.31 5.18 4.31 3.83 3.51 3.29 3.12 2.99 2.89 2.80
7.08 4.98 4.13 3.65 3.34 3.12 2.95 2.82 2.72 2.63
6.93 4.85 4.01 3.53 3.23 3.01 2.84 2.72 2.61 2.52
6.85 4.79 3.95 3.48 3.17 2.96 2.79 2.66 2.56 2.47
174
Instituto Tecnológico de Ensenada Biol. Raúl Jiménez González
Bibliografía
GUTIERREZ, P. H y DE LA VARA, S. R. 2008. Segunda edición. Análisis y Diseño
de Experimentos. Mc Graw Hill.
MONTGOMERY, C.D.; G.C, RUNGER. 2010. Segunda edición. Probabilidad y
Estadística. LIMUSA WILEY
MONTGOMERY, C.D. Diseño y Análisis de Experimentos. Segunda edición.
LIMUSA WILEY
WALPOLE, R.; MAYERS, R.H.; MAYERS, S.L. 1998. Sexta edición. Probabilidad y
Estadística Para Ingenieros. Pearson Education
ANDERSON, D.R.; SWEENEY, D.J.; WILLIAMS, T.A.2005. Octava edición.
Estadística para Administración y Economía. MATH LEARNING
BERENSON, M.L.; LEVINE, D.M.; KREHBIEL, T.C. 2001. Segunda edición.
Estadística para Administración. Prentice Hall.
Ensenada Baja California agosto de 2012
top related