analissi varianza

32
Universidad Alas Peruanas Control Inferencia Estadística-Ing. E.Montenegro Escuela Profesional de Ingeniería Industrial y Sistemas IV Ciclo / 2011 1 PRUEBA DE BARTLETT Esta prueba se emplea para determinar si las varianzas de k poblaciones son iguales o no. La prueba es muy sensible a la normalidad: si los datos no son normales, la prueba ofrece resultados significativos cuando en realidad no lo son. Se basa en un estadístico cuya distribución muestral proporciona valores críticos exactos cuando los tamaños de las muestras son iguales. Estos valores críticos se pueden utilizar para dar aproximaciones muy exactas a los valores críticos para tamaños diferentes de muestra. Hipótesis: diferente es una menos Al : H . .......... : H 2 i 2 k 2 2 2 1 1 0 σ σ = = σ = σ  Ejemplo : Tres proveedores diferentes proporcionan piezas en lotes de 500. Para comparar la calidad de los lotes se toman muestras aleatorias de seis lotes de cada proveedor y se examinan para determinar el número de piezas no conformes. Los resultados fueron: Proveedor:  A : 28 37 34 29 31 33 B : 22 27 29 20 18 30 C : 33 29 39 33 37 38  Al nivel del 1%, ¿podemos afirmar que ex iste diferencia significativa entre las varianzas? Solución: k = 3 6 n n n 3 2 1  = = =  N = 18 2 . 11 S 2 A  =  07 . 25 S 2 B  =  57 . 14 S 2 C  =  1. Hipótesis: diferente es una menos  Al  H  H i a C  B  A 2 2 2 2 0 : : σ  σ  σ  σ   = =  

Upload: walter-alderete

Post on 05-Jul-2015

319 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: analissi varianza

5/5/2018 analissi varianza - slidepdf.com

http://slidepdf.com/reader/full/analissi-varianza 1/32

Universidad Alas Peruanas Control Inferencia Estadística-Ing. E.MontenegroEscuela Profesional de Ingeniería Industrial y Sistemas IV Ciclo / 2011

1

PRUEBA DE BARTLETT

Esta prueba se emplea para determinar si las varianzas de k poblaciones son iguales o no. Laprueba es muy sensible a la normalidad: si los datos no son normales, la prueba ofreceresultados significativos cuando en realidad no lo son.

Se basa en un estadístico cuya distribución muestral proporciona valores críticos exactoscuando los tamaños de las muestras son iguales. Estos valores críticos se pueden utilizar paradar aproximaciones muy exactas a los valores críticos para tamaños diferentes de muestra.

Hipótesis:

diferenteesunamenosAl:H

...........:H

2i

2k

22

21

1

0

σ

σ==σ=σ 

E j emp l o 1 :

Tres proveedores diferentes proporcionan piezas en lotes de 500. Para comparar la calidad delos lotes se toman muestras aleatorias de seis lotes de cada proveedor y se examinan paradeterminar el número de piezas no conformes. Los resultados fueron:

Proveedor:  A : 28 37 34 29 31 33B : 22 27 29 20 18 30C : 33 29 39 33 37 38

 Al nivel del 1%, ¿podemos afirmar que existe diferencia significativa entre las varianzas?

Solución:

k = 3 6nnn 321 === N = 18

2.11S2A =   07.25S2

B =   57.14S2C =  

1. Hipótesis:

diferenteesunamenos Al H 

 H 

ia

C  B A

2

222

0

:

:

σ  

σ  σ  σ   == 

Page 2: analissi varianza

5/5/2018 analissi varianza - slidepdf.com

http://slidepdf.com/reader/full/analissi-varianza 2/32

Universidad Alas Peruanas Control Inferencia Estadística-Ing. E.MontenegroEscuela Profesional de Ingeniería Industrial y Sistemas IV Ciclo / 2011

2

Prueba de varianzas iguales: RPTA vs. FACTOR1

Intervalos de confianza de Bonferroni de 95% para desviaciones estándares

FACTOR1 N Inferior Desv.Est. Superior

A 6 1,89912 3,34664 10,4554

B 6 2,84114 5,00666 15,6415

C 6 2,16583 3,81663 11,9237

Prueba de Bartlett (distribución normal)

Estadística de prueba = 0,80. valor p = 0,671 

Prueba de Levene (cualquier distribución continua)

Estadística de prueba = 1,69. valor p = 0,218

C

B

 A

1614121086420

      F      A      C      T      O      R      1

Interva los de confianza de Bonferroni de 95% para Desv.Est.

Estadística de prueba 0,80

 Valor P 0,671

Estadística de prueba 1,69

 Valor P 0,218

Prueba d e Bartlett

Prueba de Levene

Prueba de igualdad de varianzas para RP TA 

 

4. Decisión:

01.0671,0:_ => α  pValor  Entonces, aceptar 0H  

5. Conclusión:

Se acepta que las Varianzas son iguales

Page 3: analissi varianza

5/5/2018 analissi varianza - slidepdf.com

http://slidepdf.com/reader/full/analissi-varianza 3/32

Universidad Alas Peruanas Control Inferencia Estadística-Ing. E.MontenegroEscuela Profesional de Ingeniería Industrial y Sistemas IV Ciclo / 2011

3

 ANALI SIS DE VARIANZA DE UN FACTOR (Diseño Completamente aleatoriazado-DCA)

En el análisis de varianza (ANOVA) se requiere comparar 3 o más medias poblacionales paradeterminar si pueden ser iguales. Para emplear ANOVA, se supone lo siguiente:

•  Las poblaciones siguen una distribución normal•  Las poblaciones tienen desviaciones estándar iguales (σ) •  Las poblaciones son independientes

Cuando se cumpla estas 3 condiciones, F, se emplea como la distribución del estadístico deprueba.

La razón de realizar la prueba ANOVA es evitar la acumulación del error tipo I, por ejemplo situviera que evaluar si 4 grupos tienen la misma media tendría que realizar 6 pruebas tipo “t” entre ellas para ver si existe igualdad pero el error pasaría de 0.05 en cada prueba a 0.265 enconjunto con lo cual sería demasiado error por lo que el método alternativo es el ANOVA ya que

permite comparar medias en forma simultanea y evita acumular error tipo I.

 ANOVA se desarrolló para aplicaciones en agricultura y aún se emplean muchos de los términosrelacionados con este contexto. En particular, con el término tratamiento se identifican apoblaciones diferentes que se examinan.

La prueba ANOVA

Como se desea determinar si varias medias muestrales provienen de una sola población o depoblaciones con medias diferentes. En realidad, estas medias muestrales se comparan mediantesus varianzas. La estrategia es estimar la varianza de la población de 2 formas y despuésdeterminar a razón de dichos estimados son iguales, y se concluye que las medias

poblacionales no son iguales. La distribución “F” sirve como un árbitro al indicar en quéinstancia la razón de las varianzas muestrales es mucho mayor que 1 para haber ocurrido porcasualidad.

 VARIACIÓN TOTAL.- Sumas de las diferencias elevadas al cuadrado entre cada observación y lamedia global.

Una vez determinada la variación total, luego se divide esta variación total en 2 componentes:la que se debe a los tratamientos y la que es aleatoria. Para encontrar estos 2 componentes, sedetermina la media de cada tratamiento. La primera fuente de variación se debe a lostratamientos.

 VARIACIÓN DE TRATAMIENTO.- Sumas de las diferencias elevadas al cuadrado entre la media

de cada tratamiento y la media total o global.

Si existe una variación considerable entre las medias de los tratamientos, es lógico que estetérmino sea grande. Si las medias de los tratamientos son similares, este término será un valorbajo. El valor más bajo posible es cero. Esto ocurrirá cuando todas las medias de lostratamientos sean iguales.

 A la otra fuente de variación se le conoce como componente aleatoria o componente de error

 VARIACIÓN ALEATORIA.- Suma de las diferencias elevadas al cuadrado entre cada observacióny su media de tratamiento.

El estadístico de prueba que es la razón de los 2 estimados de la varianza poblacional, sedetermina a partir de la siguiente ecuación:

Page 4: analissi varianza

5/5/2018 analissi varianza - slidepdf.com

http://slidepdf.com/reader/full/analissi-varianza 4/32

Universidad Alas Peruanas Control Inferencia Estadística-Ing. E.MontenegroEscuela Profesional de Ingeniería Industrial y Sistemas IV Ciclo / 2011

4

F= (Estimado de la varianza poblacional basado en las diferencias entre las medias muestrales)  (Estimado de la varianza poblacional basado en la variación dentro de la muestra)

Ejemplo.- Desde hace un tiempo la aerolínea ha reducido sus servicios durante los vuelos y seempezó a cobrar un precio adicional por algunos servicios (como llevar sobrepeso, etc) Hace

poco un grupo de 4 aerolíneas contrató a Una consultora para encuesta a los pasajeros sobre laadquisición de boletos, abordaje, servicio durante el vuelo, manejo del equipaje, comunicacióndel piloto, etc. Se hicieron 25 preguntas con diversas respuestas posibles: excelente (4), bueno(3), regular (2) o deficiente(1). Estas respuestas se sumaron, de modo que la calificación finalfue una indicación de la satisfacción con el vuelo. Entre mayor calificación mayor el nivel desatisfacción con el servicio. La calificación mayor posible fue 100.

La consultora seleccionó y estudió al azar pasajeros de las 4 aerolíneas. A continuación semuestra la información ¿Hay alguna diferencia en el nivel de satisfacción medio entre las 4aerolíneas? use un nivel de significación de 0.01

Eastern TWA American AirLines Panam

94 75 70 6890 68 73 7085 77 76 7280 83 78 65

88 80 7468 6565

SOLUCION

Realice los siguientes pasos:Paso 1.- Formular las hipótesis nula y alternativa

Ho: µ 1 = µ 2= µ 3= µHa: No todas las calificaciones medias son iguales

Si no se rechaza la hipótesis nula, se concluye que no hay diferencia en las calificacionesmedias para las cuatro aerolíneas. Si rechaza Ho, concluye que hay una diferencia en al menosun par de calificaciones medias.

Paso 2.- Selecciones un nivel de significancia.- Seleccionemos para este ejemplo 0.01

Paso 3.- Determine el estadístico de prueba.- El estadístico de prueba sigue una distribución F

Paso 4.- Formule la regla de decisión.- Para determinar la regla de decisión, se necesita unvalor crítico. El valor crítico para el estadístico F se determina los grados de libertad delnumerador y el denominador

Paso 5.- Seleccione la muestra, realice los cálculos y tome una decisión.- Es convenienteresumir los cálculos estadísticos F en una tabla ANOVA (algunos autores la llaman ANVA) elformato es el que sigue que aparece en la mayoría de paquetes estadísticos.

TABLA ANOVAFuente de Variación

Suma decuadrados

Grados delibertad

MediaCuadrática

F

Tratamientos SST K-1 SST/(K-1)=MSTMST/MSEError SSE n-k SSE/(n-k)=MSE

Total SS Total n-1

Page 5: analissi varianza

5/5/2018 analissi varianza - slidepdf.com

http://slidepdf.com/reader/full/analissi-varianza 5/32

Universidad Alas Peruanas Control Inferencia Estadística-Ing. E.MontenegroEscuela Profesional de Ingeniería Industrial y Sistemas IV Ciclo / 2011

5

Hay 3 valores o suma de cuadrados, para calcular el estadístico de prueba F. Estos valores sedeterminan al obtener SS total y SSE y después SST mediante la diferencia. El término SS totales la variación total, SST es la variación debida a los tratamientos y SSE es la variación dentrode los tratamientos o error aleatorio.

En general el proceso se inicia al determinar SST total: la suma de las diferencias elevadas alcuadrado entre cada observación y la media global. La fórmula para determinar SS total es:

∑ −= 2)( G X  X SStotal  

Donde:X es cada observación de la muestraXG

 es la media global o total

Enseguida se determina SSE o la suma de los errores elevados al cuadrado: la suma de lasdiferencias elevadas al cuadrado entre cada observación y su respectiva media de tratamiento.La fórmula para encontrar SSE es:

∑ −= 2)( c X  X SSE   

Donde:

Xc

 es la media muestral para el tratamiento c.

  A continuación se presentan los cálculos detallados de SStotal y SSE para este ejemplo, elprimer paso es calcular la media global o total. Hay 22 observaciones y el total es de 1664 portanto, la media total es 75.64

64.7522

1664==G X   

Eastern TWA American AirLines

Panam Total

94 75 70 6890 68 73 7085 77 76 7280 83 78 65

88 80 7468 6565

Total de la

columna349 391 510 414 1664

n 4 5 7 6 22

Media 87.25 78.20 72.86 69.00 75.64

Luego se encuentra la desviación de cada observación a la media total se elevan al cuadradoestas desviaciones y se suma este resultado para las 22 observaciones. Por ejemplo (94-75.64)=18.36…Los cálculos son los siguientes:

Page 6: analissi varianza

5/5/2018 analissi varianza - slidepdf.com

http://slidepdf.com/reader/full/analissi-varianza 6/32

Universidad Alas Peruanas Control Inferencia Estadística-Ing. E.MontenegroEscuela Profesional de Ingeniería Industrial y Sistemas IV Ciclo / 2011

6

Eastern TWA American AirLines

Panam

18.36 -0.64 -5.64 -7.6414.36 -7.64 -2.64 -5.64

9.36 1.36 0.36 -3.644.36 7.36 2.36 -10.6412.36 4.36 -1.64

-7.64 -10.64-10.64

Después se eleva al cuadrado cada uno de estas diferencias y se suman todos los valores. Elvalor SS total es 1485.1

Eastern TWA American AirLines

Panam Total

337.22 0.40 31.77 58.31

206.31 58.31 6.95 31.7787.68 1.86 0.13 13.2219.04 54.22 5.59 113.13

152.86 19.04 2.6858.31 113.13113.13

Total de lacolumna

650.3 267.7 234.9 332.2 1485.1

Para calcular el término SSE se encuentra la desviación entre cada observación y su media detratamiento. En el ejemplo la media del primer tratamiento es 87.25 determinada Xe=349/4. Elprimer pasajero califico a Eastern con 94 por tanto (X-Xe)=94-87.25=6.75, para TWA se resta(75-78.20)=-3.2 y así sucesivamente se completa la siguiente tabla:

Eastern TWA American AirLines

Panam

6.75 -3.20 -2.86 -12.75 -10.20 0.14 1-2.25 -1.20 3.14 3-7.25 4.80 5.14 -4

9.80 7.14 5-4.86 -4-7.86

Luego cada uno de estos valores se eleva al cuadrado y después se suman las 22observaciones. Los valores se muestran en la siguiente tabla:

Eastern TWA American AirLines

Panam Total

45.56 10.24 8.16 17.56 104.04 0.02 15.06 1.44 9.88 952.56 23.04 26.45 160.00 96.04 51.02 250.00 0.00 23.59 160.00 0.00 61.73

Total 110.75 234.80 180.86 68 594.41

Page 7: analissi varianza

5/5/2018 analissi varianza - slidepdf.com

http://slidepdf.com/reader/full/analissi-varianza 7/32

Universidad Alas Peruanas Control Inferencia Estadística-Ing. E.MontenegroEscuela Profesional de Ingeniería Industrial y Sistemas IV Ciclo / 2011

7

Por tanto, el valor SSE es 594.41. Es decir,

41.594)(2 =−∑ c X  X   

Por último, se determina SST, la suma de los cuadrados debida a los tratamientos con la resta:

SST=SStotal-SSE

En este ejemplo:SST = SStotal – SSE =1485.10-594.41=890.69

Para determinar el valor calculado de F, consulte la tabla ANOVA donde K=4 (aerolíneas)n= 22 observaciones reemplazando

TABLA ANOVAFuente de Variación

Suma decuadrados

Grados delibertad

MediaCuadrática

F

Tratamientos SST K-1 SST/(K-1)=MST MST/MSEError SSE n-k SSE/(n-k)=MSETotal SS Total n-1

TABLA ANOVAFuente de Variación

Suma decuadrados

Grados delibertad

Media Cuadrática F

Tratamientos 890.69 3 890.69/3=296.90296.90/33.02=8.99Error 594.41 18 594.41/18=33.02

Total 1485.10 21

Como el valor calculado de F es 8.99, el cual es mayor que el valor crítico de 5.09 por lo tanto,la hipótesis nula se rechaza. La conclusión es que no todas las medias poblacionales soniguales. Las calificaciones medias no son iguales para las 4 aerolíneas. Es probable que lascalificaciones de los pasajeros se relaciones con una aerolínea en particular. En este punto sóloes posible concluir que hay diferencia en las medias de tratamiento. No se puede determinarcuáles ni cuántos grupos de tratamientos difieren.

UTILIZANDO EXCEL

Page 8: analissi varianza

5/5/2018 analissi varianza - slidepdf.com

http://slidepdf.com/reader/full/analissi-varianza 8/32

Universidad Alas Peruanas Control Inferencia Estadística-Ing. E.MontenegroEscuela Profesional de Ingeniería Industrial y Sistemas IV Ciclo / 2011

8

Análisis de varianza de un factor

RESUMEN

Grupos Cuenta Suma Promedio Varianza

Eastern 4 349 87.25 36.92TWA 5 391 78.2 58.7

American AirLine 7 510 72.86 30.14

Panam 6 414 69 13.6

ANÁLISIS DE VARIANZA

Origen de las

variaciones

Suma de

cuadrados

Grados de

libertad 

Promedio de los

cuadradosF Probabilidad  

Valor crítico

 para F 

Entre grupos 890.68 3 296.89 8.99 0.0007 3.16

Dentro de los

grupos 594.41 18 33.02

Total 1485.09 21  

Utilizando MegaStat

Page 9: analissi varianza

5/5/2018 analissi varianza - slidepdf.com

http://slidepdf.com/reader/full/analissi-varianza 9/32

Universidad Alas Peruanas Control Inferencia Estadística-Ing. E.MontenegroEscuela Profesional de Ingeniería Industrial y Sistemas IV Ciclo / 2011

9

One factor ANOVA

  Mean n Std. Dev  

87.3 4 6.08 Eastern

78.2 5 7.66 TWA

72.9 7 5.49 American AirLines

69.0 6 3.69 Panam75.6 22 8.41 Total

 ANOVA table

Source SS df MS F p-value  

Treatment 890.68 3 296.895 8.99 .0007Error 594.41 18 33.023Total 1,485.09 21

 

MINITAB

Page 10: analissi varianza

5/5/2018 analissi varianza - slidepdf.com

http://slidepdf.com/reader/full/analissi-varianza 10/32

Universidad Alas Peruanas Control Inferencia Estadística-Ing. E.MontenegroEscuela Profesional de Ingeniería Industrial y Sistemas IV Ciclo / 2011

10

One-way ANOVA: Eastern, TWA, American AirLines, Panam

Source DF SS MS F P

Factor 3 890.7 296.9 8.99 0.001

Error 18 594.4 33.0

Total 21 1485.1

S = 5.747 R-Sq = 59.98% R-Sq(adj) = 53.30%

Ejercicios Propuestos:

1.- Un inversionista en bienes raíces considera invertir en un centro comercial en los afueras deuna ciudad, para lo cual evalúa 3 terrenos. El ingreso familiar en el área circundante al centrocomercial propuesto tiene una importancia particular. Se selecciona una muestra aleatoria decuatro familias ceca de cada centro comercial propuesto. A continuación se presentan losresultados de la muestra. Con un nivel de significancia de 0.05 ¿El inversionista puede concluirque hay una diferencia en el ingreso medio?

Terrenos en miles de dólares

Terreno A Terreno B Terreno C

64 74 75

68 71 80

70 69 76

60 70 78

2.- El gerente de una compañía de software desea estudiar el número de horas que losdirectivos de diversas empresas utilizan sus computadoras de escritorio. El gerente seleccionóuna muestra de 5 ejecutivos de cada una de las 3 industrias. Con un nivel de significancia de0.05 ¿Puede el Gerente concluir que hay una diferencia en el número medio de horas porsemana utilizando las computadoras en la industria?Bancaria Detallista De seguros

12 8 10

10 8 8

10 6 6

12 8 8

10 10 10

INFERENCIAS SOBRE PARES DE MEDIAS DE TRATAMIENTO

Suponga que realiza el procedimiento ANOVA y se toma la decisión de rechazar la hipótesis

nula. Esto permite concluir que no todas las medias de tratamiento son iguales. Algunas vecesesta conclusión sería satisfactoria pero en otros casos se desea conocer cuáles medias detratamiento difieren. En el Ejemplo Resuelto anterior se concluyó que existe una diferencia

Page 11: analissi varianza

5/5/2018 analissi varianza - slidepdf.com

http://slidepdf.com/reader/full/analissi-varianza 11/32

Universidad Alas Peruanas Control Inferencia Estadística-Ing. E.MontenegroEscuela Profesional de Ingeniería Industrial y Sistemas IV Ciclo / 2011

11

entre las calificaciones promedios de los pasajeros, se acepto la hipótesis alternativa. Si lascalificaciones de los pasajeros difieren la pregunta es: ¿Entre grupos difieren las medias detratamiento?Existen varios métodos para responder esta pregunta. El más simple es emplear intervalos deconfianza. La distribución “t” nos puede servir de ayuda. Recordar que una de las suposiciones

de ANOVA es que las varianzas poblacionales son las mismas para todos los tratamientos. Estevalor común de la población es el error medio cuadrático MSE y se determina medianteMSE=SSE/(n-k)Un intervalo de confianza para la diferencia entre 2 poblaciones se obtiene mediante:

Donde:X1

Xes la media de la primera muestra

2

t se obtiene con n-k grados de libertades la media de la segunda muestra

MSE: es el error medio cuadrático obtenido de la tabla ANOVA [SSE/(n-k)]

n1n número de observaciones de la primera muestra2

¿Cómo se decide si hay diferencias en las medias de tratamiento?número de observaciones de la primera muestra

Si el intervalo de confianza incluye a “0” no hay diferencia entre las medias detratamiento Por otro lado si los limites tienen el mism o signo indica que las mediasde tratamiento difieren

En el ejemplo queremos hallar que el intervalo con un nivel de confianza de 95%:Eastern su media es 87.25Panam su media es 69T= 2.101 (t con n-k grados de libertad, 22-4=18)MSE=de la tabla del ANOVA =594.4/18=33n1

n=4

2=6

Como el intervalo de confianza de 95% varía de 10.46 hasta 26.04 tienen el mismo signo sonpositivos de aquí se puede concluir que estas medias de tratamiento difieren de manerasignificativa.

También se puede obtener estos resultados desde el minitab como se observa a continuación:

Level N Mean StDev

Eastern 4 87.250 6.076

TWA 5 78.200 7.662

American AirLines 7 72.857 5.490

Panam 6 69.000 3.688

Individual 95% CIs For Mean Based on Pooled StDev

Level +---------+---------+---------+---------

Eastern (------*-------)

TWA (------*-----)

American AirLines (-----*-----)

Panam (-----*-----)

+---------+---------+---------+---------

64.0 72.0 80.0 88.0

Page 12: analissi varianza

5/5/2018 analissi varianza - slidepdf.com

http://slidepdf.com/reader/full/analissi-varianza 12/32

Universidad Alas Peruanas Control Inferencia Estadística-Ing. E.MontenegroEscuela Profesional de Ingeniería Industrial y Sistemas IV Ciclo / 2011

12

Donde se observa que el (*) es la media del tratamiento y los paréntesis son los extremos delintervalo de confianza Donde hay intersección esas medias no van a diferir significativamentepero donde no hay intersección si van a diferir como es el caso de Eastern y Panam y el Easterncon American airlines tampoco hay intersección.

Ejercicios Propuestos3.- Los siguientes datos son las pensiones de 3 universidades por semestres (en miles dedólares) de una muestra de univesidades privadas en EEUU. Con un nivel de significancia de0.05 ¿Se puede concluir que hay una diferencia en las pensiones medias de las 3universidades?

Universidades

A B C

10 8 7

11 9 8

12 10 6

10 8 7

12 6

a)  Formule las hipótesis nula y alternativab)  Cuál es la regla de decisiónc)  Elabore una tabla ANOVA ¿Cuál es el estadístico de prueba?d)  ¿Cuál es su decisión respecto a la hipótesis nula?e)  ¿Puede existir una diferencia significativa entre las pensiones media entre la universidad

 A en comparación con la C? Si la hay desarrolle un intervalo de confianza de 95% paraesa diferencia.

4.- Con la siguiente información muestral, compruebe la hipótesis de que las medias de

tratamiento son iguales con un nivel de significación 0.05

Tratamiento 1 Tratamiento 2 Tratamiento 3

8 3 3

11 2 4

10 1 5

3 4

2

a)  Formule las hipótesis nula y alternativa

b)  Cuál es la regla de decisiónc)  Elabore una tabla ANOVAd)  ¿Cuál es su decisión respecto a la hipótesis nula?e)  Si se rechaza Ho, ¿Puede concluir que el tratamiento 1 y 2 difieren? Utilice el nivel de

confianza de 95%5.- Con la siguiente información muestral, compruebe la hipótesis de que las medias detratamiento son iguales con un nivel de significación 0.05

Page 13: analissi varianza

5/5/2018 analissi varianza - slidepdf.com

http://slidepdf.com/reader/full/analissi-varianza 13/32

Universidad Alas Peruanas Control Inferencia Estadística-Ing. E.MontenegroEscuela Profesional de Ingeniería Industrial y Sistemas IV Ciclo / 2011

13

Tratamiento 1 Tratamiento 2 Tratamiento 3

3 9 6

2 6 3

5 5 5

1 6 5

3 8 5

1 5 4

4 1

7 5

6

4  

a)  Formule las hipótesis nula y alternativab)  Cuál es la regla de decisión

c) 

Elabore una tabla ANOVAd)  ¿Cuál es su decisión respecto a la hipótesis nula?e)  Si se rechaza Ho, ¿Puede concluir que el tratamiento 2 y 3 difieren? Utilice el nivel de

confianza de 95%

Page 14: analissi varianza

5/5/2018 analissi varianza - slidepdf.com

http://slidepdf.com/reader/full/analissi-varianza 14/32

Universidad Alas Peruanas Control Inferencia Estadística-Ing. E.MontenegroEscuela Profesional de Ingeniería Industrial y Sistemas IV Ciclo / 2011

14

 ANALI SIS DE VARI ANZA DE 2 VIAS (Diseño Bloque Completamente Aleatorio-DBCA)

En el ejemplo anterior de las aerolíneas se pudieron considerar otros factores de variación, porejemplo la estación del año, el número de pasajeros, etc. El beneficio de considerar otrosfactores es que se reduce la varianza del error, es decir si se reduce el denominador estadístico

F (al reducir la varianza del error o de manera más directa el término SSE) el valor F serámayor, ocasionando el rechazo de la hipótesis de medias de tratamiento iguales. En otraspalabras, si se puede explicar más la variación, habrá menos error.

Ejemplo:

Supongamos que una línea de buses considera ampliar su servicio al cono norte de Lima desdela plaza 2 de mayo al Centro Comercial Megaplaza, se considera 4 rutas: Ruta1, Ruta2, Ruta3 yRuta4.El Ing. Transporte realizó varias pruebas para determinar si había una diferencia en los tiemposde recorrido medios por las 4 rutas. Como habrá muchos conductores distintos, la prueba sediseñó para que cada conductor manejará a lo largo de las 4 rutas. A continuación se presenta

el tiempo del recorrido, en minutos, de cada combinación conductor-ruta

Tiempo recorrido al cono norte desde el centro de LimaConductor Ruta 1 Ruta 2 Ruta 3 Ruta 4Daniel 18 17 21 22Sergio 16 23 23 22Orlando 21 21 26 22William 23 22 29 25Fernando 25 24 28 28

Con un nivel de significancia de 0.05 ¿Hay alguna diferencia en el tiempo de recorrido medio alo largo de las 4 rutas? Se elimina el efecto de los conductores ¿Hay alguna diferencia en el

tiempo de recorrido medio?

Solución

Para iniciar se realiza una prueba de hipótesis con ANOVA de tratamientos es decirconsiderando sólo las 4 rutas. Se asume que la variación de los tiempos del recorrido se debe alos tratamientos o es aleatoria. La hipótesis nula y alternativa para comparar el tiempo derecorrido medio por las 4 rutas son:

Ho: µ1= µ2= µ3= µH1: No todas las medias de tratamiento son iguales

Hay 4 rutas por tanto, los grados de libertad del numerador son K-1=4-1=3. Hay 20observaciones, por consiguiente, los grados de libertad en el denominador son n-k=20-4=16Con lo que el valor crítico “F” para un nivel de significancia de 0.05 es:

Page 15: analissi varianza

5/5/2018 analissi varianza - slidepdf.com

http://slidepdf.com/reader/full/analissi-varianza 15/32

Universidad Alas Peruanas Control Inferencia Estadística-Ing. E.MontenegroEscuela Profesional de Ingeniería Industrial y Sistemas IV Ciclo / 2011

15

0.8

0.7

0.6

0.5

0.4

0.3

0.2

0.1

0.0

X

      D     e     n     s      i      t     y

3.24

0.05

0

Distribution PlotF, df1=3, df2=16

 

Para realizar los cálculos utilizamos Excel donde se observa que el valor calculado de F es

2.482, por lo que la decisión es no rechazar la hipótesis nula. Concluye que no hay diferenciaen el tiempo de recorrido medio a lo largo de las 4 rutas. No hay una razón para seleccionaruna de las rutas como la más rápida que las demás.

Análisis de varianza de un factor

RESUMENGrupos Cuenta Suma Promedio Varianza  

Ruta 1 5 103 20.6 13.3Ruta 2 5 107 21.4 7.3Ruta 3 5 127 25.4 11.3

Ruta 4 5 119 23.8 7.2

ANÁLISIS DE VARIANZA

Origen de las 

variaciones 

Suma de 

cuadrados 

Grados de 

libertad 

Promedio 

de los 

cuadrados 

F Probabilidad  Valor crítico 

para F 

Entre grupos 72.8 3 24.27 2.483 0.10 3.24Dentro de los grupos 156.4 16 9.78

Total 229.2 19  

De la salida en pantalla de Excel , los tiempos de recorrido medios a los largo de las rutasfueron ruta1 20.6 min, ruta2 21.4 min, ruta3 25.4 min, ruta4 23.8min. Se concluye que esrazonable atribuir estas diferencias a la casualidad. De la tabla ANOVA se observa que SST es72.8, SSE es 156.4 y SS total es 229.2

En el ejemplo anterior se consideró la variación debida a los tratamientos (rutas) y se tomótoda variación restante como aleatoria. Si se pudiera considerar el efecto de los diversosconductores, esto permitiría reducir el término SSE, lo cual generaría un valor mayor de F, a lasegunda variable de tratamiento en este caso los conductores, se le conoce como VARIABLE DEBLOQUE.

 VARIABLE DE BLOQUE .- Una segunda variable de tratamiento que cuando se incluye en elanálisis ANOVA, tendrá el efecto de reducir el término SSE.

Page 16: analissi varianza

5/5/2018 analissi varianza - slidepdf.com

http://slidepdf.com/reader/full/analissi-varianza 16/32

Universidad Alas Peruanas Control Inferencia Estadística-Ing. E.MontenegroEscuela Profesional de Ingeniería Industrial y Sistemas IV Ciclo / 2011

16

En este caso se asignan los conductores como la variable de bloque y al eliminar el efecto delos conductores del término SSE cambiará la razón F para la variable de tratamiento. Para locual es necesario determinar la suma de los cuadrados de los bloques:

∑−= 2

)( Gb X  X K SSB  

Donde:K: Es el número de tratamientosb: es el número de bloquesXb

X: Media muestral del bloque b

G

 : Media global

Calculamos las medias de cada bloque:

Conductor Ruta 1 Ruta 2 Ruta 3 Ruta 4 Suma

Conductores

Medias de los

conductores

Daniel 18 17 21 22 78 19,50Sergio 16 23 23 22 84 21,00Orlando 21 21 26 22 90 22,50William 23 22 29 25 99 24,75Fernando 25 24 28 28 105 26,25

Tiempo recorrido al cono norte desde el centro de Lima

Con estos datos reemplazamos en la fórmula

( ) ( ) ( ) ( ) ( )[ ]7.119

8.2225.268.2275.248.225.228.22218.225.194

)(

22222

2

=

−+−+−+−+−=

−= ∑

SSB

SSB

 X  X K SSB Gb

 

Se utiliza el mismo formato en la tabla ANOVA de 2 vías, como en el caso de una vía, exceptoque hay una fila adicional para la variable de bloque. SStotal y SST se calcula como en el DCA ycon SSB se puede determinar con la fórmula anterior y el término SSE se calcula mediante unaresta:

SSBSST SStotalSSE  −−=  

Los valores para los varios componentes de la Tabla ANOVA se calcula como sigue:

TABLA ANOVAFuente de Variación

Suma decuadrados

Grados delibertad

Media Cuadrática F

Tratamientos SST K-1 SST/(K-1)=MST MST/MSEBloques SSB b-1 SSB/(b-1)=MSB MSB/MSE

Error SSE (K-1)(b-1) SSE/(k-1)(b-1)=MSETotal SS Total n-1

Entonces en el ejemplo se obtiene:

7.367.1198.722.229 =−−=−−= SSBSST SStotalSSE   

Page 17: analissi varianza

5/5/2018 analissi varianza - slidepdf.com

http://slidepdf.com/reader/full/analissi-varianza 17/32

Universidad Alas Peruanas Control Inferencia Estadística-Ing. E.MontenegroEscuela Profesional de Ingeniería Industrial y Sistemas IV Ciclo / 2011

17

Completando el cuadro ANOVA:K=4 tratamientos (rutas)B=5 bloques (conductores)

TABLA ANOVA

Fuente de Variación

Suma decuadrados

Grados delibertad

Media Cuadrática F

Tratamientos 72.8 3 72.8/3=24.27 24.27/3.06=7.93  Bloques 119.7 4 119.7/4=29.93 29.93/3.06=9.78  Error 36.7 12 36.7/12=3.06  Total 229.2 19

En este punto hay un desacuerdo. Si el objetivo de la variable de bloque fue solo reducir lavariación del error, no se debe realizar una prueba de hipótesis para la diferencia en las mediasde los bloques. Es decir, si el objetivo era reducir e término MSE, no se debe probar unahipótesis respecto de la variable de bloque. Por otro lado, quizá se desee dar a los bloques lamisma condición que a los tratamientos y realizar la prueba de hipótesis. En este último caso

cuando los bloques son lo bastante importante para considerarse un segundo factor, se conocecomo un EXPERI MENTO DE 2 FACTORES. En muchos casos, la decisión no es clara. En esteejemplo lo importante es la diferencia en el tiempo de recorrido de los diversos conductores,por lo que se realizará la prueba de hipótesis. Los 2 conjuntos de hipótesis son:

1.-Ho: Las medias de tratamiento son iguales (μ 1= μ2= μ3= μ4

Ha: Las medias de tratamiento no son iguales)

2.-Ho: Las medias de los bloques son iguales (μ 1= μ2= μ3= μ4= μ5

Ha: Las medias de los bloques no son iguales)

Primero se pondrá a prueba la hipótesis respecto de las medias de tratamiento. Hay k-1=4-1=3grados de libertad en el numerados y (b-1)(k-1)= (5-1)(4-1)=12 grados de libertad en eldenominador. Con el nivel de significancia de 0.05, el valor crítico de F (3,12) = 3.49. Como elestadístico de prueba es:

93.706.3

7.24===

 MSE 

 MST F   

Cae en la región de rechazo. Se concluye que el tiempo recorrido medio no es el mismo paratodas las rutas. Sería recomendable que se realizarán algunas pruebas para determinar cuálesmedias de tratamiento difieren.

Enseguida se prueba si el tiempo de recorrido es el mismo para los diversos conductores. Losgrados d elibertad para el numerado son b-1=5-1=4 gl. Los grados de libertad para eldenominador son los mismos que antes (b-1)(k-1)= (5-1)(4-1)=12 el F teórico es F(4,12)=3.26, para el nivel de significancia de 0.05

Como el F de prueba es

78.906.3

93.29===

 MSE 

 MSBF   

Se rechaza la hipótesis nula y se acepta la hipótesis alternativa. El tiempo medio no es el mismopara los conductores. Así se puede concluir, con base en los resultados de la muestra, que hayuna diferencia en las rutas y en los conductores.

Page 18: analissi varianza

5/5/2018 analissi varianza - slidepdf.com

http://slidepdf.com/reader/full/analissi-varianza 18/32

Universidad Alas Peruanas Control Inferencia Estadística-Ing. E.MontenegroEscuela Profesional de Ingeniería Industrial y Sistemas IV Ciclo / 2011

18

Cálculo en Excel ANOVA de 2 factores

Análisis de varianza de dos factores con una sola muestra por grupo

RESUMEN Cuenta Suma Promedio Varianza  Daniel 4 78 19,5 5,6667Sergio 4 84 21 11,3333Orlando 4 90 22,5 5,6667William 4 99 24,75 9,5833Fernando 4 105 26,25 4,25

Ruta 1 5 103 20,6 13,3Ruta 2 5 107 21,4 7,3Ruta 3 5 127 25,4 11,3Ruta 4 5 119 23,8 7,2

ANÁLISIS DE VARIANZA

Origen de las 

variaciones 

Suma de 

cuadrados 

Grados de 

libertad 

Promedio de los 

cuadrados 

F Probabilidad  Valor crítico 

para F 

Filas 119,7 4 29,93 9,78 0,001 3,26Columnas 72,8 3 24,27 7,93 0,004 3,49Error 36,7 12 3,06

Total 229,2 19  

Como se observa los resultados son los mismos además se observa el dato de los valores p. Elvalor p para la hipótesis nula respecto a los conductores es 0.001 y 0.004 para las rutas. Estosvalores p confirman que las hipótesis nula para tratamientos y bloques se deberán rechazardebido a que el valor p es menor que el nivel de significancia.

Ejercicios Propuestos

1.- Shampoo Sedal vende 3 tipos de champú para cabello seco, normal y graso. En la tablasiguiente se presentan las ventas, en millones de dólares, de los últimos 5 meses. Con un nivelde significancia de 0.05, compruebe si las ventas medias difieren para los 3 tipos de champú osegún el mes.

 Ventas (millones de dólares)Mes Seco Normal GrasoJunio 7 9 12Julio 11 12 14

  Agosto 13 11 8Setiembre 8 9 7Octubre 9 10 13

2.- Metal Mecánica ABC opera las 24 horas al día 5 días de la semana. Los trabajadoresalternan turnos cada semana. La gerencia desea saber si hay una diferencia en el número deunidades producidas cuando los empleados trabajan en varios turnos. Se selecciona unamuestra de 5 trabajadores y se registran las unidades producidas en cada turno. Con un nivelde significancia de 0.05 ¿Puede concluir que hay una diferencia en la tasa de producción mediapor turno o por empleado?

Page 19: analissi varianza

5/5/2018 analissi varianza - slidepdf.com

http://slidepdf.com/reader/full/analissi-varianza 19/32

Universidad Alas Peruanas Control Inferencia Estadística-Ing. E.MontenegroEscuela Profesional de Ingeniería Industrial y Sistemas IV Ciclo / 2011

19

Unidades ProducidasEmpleado mañana tarde Noche

  Acosta 31 25 35Gonzáles 33 26 33Pérez 28 24 30Suárez 30 29 28

  Valverde 28 26 27

3.- En el área de Lima Sur hay 3 hospitales. Los siguientes datos muestran el número decirugías realizadas a pacientes externos en cada hospital durante la semana pasada. Con unnivel de significancia de 0.05 ¿Puede concluir que hay una diferencia en el número medio decirugías realizadas por hospital o por día de la semana?

Número de Cirugías realizadasDía Hospital A Hospital B Hospital CLunes 14 18 24Martes 20 24 14Miércoles 16 22 14Jueves 18 20 22

  Viernes 20 28 24

 ANOVA de 2 vías con I nteracción

Cuando se emplea ANOVA de 2 vías para estudiar la interacción, en lugar de emplear lostérminos tratamientos y bloques, ahora a las 2 variables se les denominan factores . Por tanto,en este método hay un factor, la ruta y otro factor, el conductor además de la interacción entreambos factores. Es decir, hay un efecto para las rutas, para el conductor y para la interacciónde conductores y rutas.

La interacción tiene lugar si la combinación de 2 factores ejerce algún efecto sobre la variableen estudio, además de hacerlo en cada factor por sí mismo. A la variable en estudio se le llamavariable de RESPUESTA. Un ejemplo cotidiano de interacción es el efecto de la dieta yejercicio sobre el peso. En general, se acepta que el peso de una persona (la variable derespuesta) se controla con 2 factores, dieta y ejercicio. Las investigaciones demuestran que sólouna dieta afecta al peso, y también que el solo ejercicio tiene un efecto sobre el peso. Sinembargo, el método recomendado para controlar el peso se fundamenta en el efectocombinado o en la interacción entre dieta y ejercicio.

Interacción.- El efecto de un factor sobre una variable de respuesta difiere según el valor deotro factor.

Nota importante.-Para medir los efectos de interacción es necesario tener al menos 2observaciones en cada celda.

Graficas de interacciónUna manera de estudiar la interacción es el graficar medias de factores en una gráficadenominada de interacción. Considere el ejemplo del conductor de autobús en el ejemploanterior. Por ejemplo se desea estudiar el tiempo de recorrido medio de rutas y condicionesdistintos. Para completar el estudio, también debe explorar la posible interacción entre elconductor y la ruta. El trazo de la gráfica inicia con la colocación de los puntos que representanlos tiempos de recorrido medios de cada ruta para cada conductor y la conexión de talespuntos. Se calculan los tiempos de recorrido medios contra la ruta. Este proceso se repite con

cada conductor. La siguiente es la gráfica de interacción.

Page 20: analissi varianza

5/5/2018 analissi varianza - slidepdf.com

http://slidepdf.com/reader/full/analissi-varianza 20/32

Universidad Alas Peruanas Control Inferencia Estadística-Ing. E.MontenegroEscuela Profesional de Ingeniería Industrial y Sistemas IV Ciclo / 2011

20

Conductor Ruta 1 Ruta 2 Ruta 3 Ruta 4Daniel 20 19 18 14

Daniel 21 22 15 17

Daniel 22 25 21 20

Sergio 24 24 19 20

Sergio 23 22 15 24

Sergio 22 20 14 25

Orlando 25 23 19 23

Orlando 29 23 21 21

Orlando 24 20 23 19

William 30 26 24 20

William 28 25 20 24

William 29 24 25 22

Fernando 28 28 27 24

Fernando 28 30 25 24

Fernando 28 26 23 24

Tiempo recorrido al cono norte desde el centro deLima

Conductor Ruta 1 Ruta 2 Ruta 3 Ruta 4Daniel 21.0 22.0 18.0 17.0Sergio 23.0 22.0 16.0 23.0Orlando 26.0 22.0 21.0 21.0William 29.0 25.0 23.0 22.0Fernando 28.0 28.0 25.0 24.0

Gráfica de interacción (medias de los datos) para eltiempo de recorrido

15.0

17.5

20.0

22.5

25.0

27.5

30.0

Ruta 1 Ruta 2 Ruta 3 Ruta 4

Daniel Sergio Orlando William Fernando

 

Page 21: analissi varianza

5/5/2018 analissi varianza - slidepdf.com

http://slidepdf.com/reader/full/analissi-varianza 21/32

Universidad Alas Peruanas Control Inferencia Estadística-Ing. E.MontenegroEscuela Profesional de Ingeniería Industrial y Sistemas IV Ciclo / 2011

21

Con esta gráfica se comprende mejor la interacción entre los efectos de los conductores y lasrutas sobre el tiempo de recorrido. Si los segmentos de recta de los conductores son casiparalelos, tal vez no haya interacción. Por otro lado, si los segmentos de recta no parecenser paralelos o cruzarse, esto sugiere una interacción entre los factores . En la gráficaanterior se sugiere una interacción porque:•  Los segmentos de recta de Fernando y William se cruzan entre sí •  El segmento de recta de Sergio de la de la ruta 3 a ruta 4 cruza 3 segmentos de recta

Estas observaciones sugieren una interacción entre el conductor y la ruta.

Prueba de H ipótesis para detectar interacción

Hay que agregar otra fuente de variación, la interacción. Sin embargo, a fin de estimar la sumade “error” de los cuadrados, son necesarias al menos 2 mediciones para cada combinaciónconductor/ruta. Entonces, se replica el experimento. Ahora hay 3 observaciones por cadacombinación conductor/ruta. Con la media de 3 tiempos de recorrido por cada combinación seobtiene una medida más confiable del tiempo de recorrido medio. Los resultados de la

duplicación del experimento aparecen en la tabla:

Conductor Ruta 1 Ruta 2 Ruta 3 Ruta 4Daniel 20 19 18 14

Daniel 21 22 15 17

Daniel 22 25 21 20

Sergio 24 24 19 20

Sergio 23 22 15 24

Sergio 22 20 14 25

Orlando 25 23 19 23

Orlando 29 23 21 21

Orlando 24 20 23 19

William 30 26 24 20

William 28 25 20 24

William 29 24 25 22

Fernando 28 28 27 24

Fernando 28 30 25 24

Fernando 28 26 23 24

 Ahora ANOVA tiene 3 conjuntos de hipótesis que se deben probar:

1.- Ho: No hay interacción entre conductores y rutasHa: Hay interacción entre conductores y rutas

2.- Ho: Las medias de los conductores son igualesHa: Las medias de los conductores no son iguales

3.- Ho: Las medias de las rutas son igualesHa: Las medias de las rutas no son iguales

Observe que se identifica el efecto del conductor como FACTOR A y el de la ruta comoFACTOR B

Cada hipótesis se prueba con el estadístico F. Es factible utilizar una regla de decisión para cadauna de las pruebas anteriores o emplear valores p para cada prueba. En este caso se aplicará el

nivel de significancia 0.05 para compararlo con el valor p generado por el software estadístico.Por tanto, se rechazaran las diversas hipótesis nulas si el valor p es menor que 0.05. En lugarde calcular la suma cuadrática del tratamiento y los bloques, se calcula la suma cuadrática de

Page 22: analissi varianza

5/5/2018 analissi varianza - slidepdf.com

http://slidepdf.com/reader/full/analissi-varianza 22/32

Universidad Alas Peruanas Control Inferencia Estadística-Ing. E.MontenegroEscuela Profesional de Ingeniería Industrial y Sistemas IV Ciclo / 2011

22

los factores e interacciones. Los cálculos para la suma cuadrática de los factores y lasinteracciones. Los cálculos para la suma cuadrática de los factores son muy similares a loscálculos de SST y SSB calculados antes. La suma cuadrática debida a una posible intyeracciónes:

∑∑ −−−−−= 2)..()1)(1( G X  j X i X ij X bK SSI   

Donde:i: Es un subíndice o identificación que representa una ruta

 j: Es un subíndice o identificación que representa un conductork: es el número de niveles del factor A (efecto de la ruta)b: es el número de niveles del factor B (efecto del conductor)n: es el número de observacionesX ij

X: Es el tiempo de recorrido medio en la ruta i por conductor j

i.

X.: Es el tiempo de recorrido medio en la ruta i

 j

X: Es el tiempo de recorrido medio para el conductor j

G

 : Media global

Una vez que se tiene SSI, SSE se determina como:

SSI SSFactorBSSFactorASStotalSSE  −−−=  

La Tabla ANOVA completa con interacciones es:

TABLA ANOVAFuente de Variación

Suma decuadrados

Grados delibertad

Media Cuadrática F

Ruta Factor A: SSA K-1 SSA/(K-1)=MSA MSA/MSEConductor Factor B: SSB b-1 SSB/(b-1)=MSB MSB/MSEInteracción SSI (K-1)(b-1) SSI/(K-1)(b-1)=MSI MSI/MSE

Error SSE n-kb SSE/(n-kb)=MSETotal SS Total n-1

La salida resultante en Excel muestra la estadística descriptiva resumida por cada conductor yuna tabla ANOVA

Page 23: analissi varianza

5/5/2018 analissi varianza - slidepdf.com

http://slidepdf.com/reader/full/analissi-varianza 23/32

Universidad Alas Peruanas Control Inferencia Estadística-Ing. E.MontenegroEscuela Profesional de Ingeniería Industrial y Sistemas IV Ciclo / 2011

23

Análisis de varianza de dos factores con varias muestras por grupo

RESUMEN Ruta 1 Ruta 2 Ruta 3 Ruta 4 TotalDaniel 

Cuenta 3 3 3 3 12Suma 63 66 54 51 234

Promedio 21 22 18 17 19.5Varianza 1 9 9 9 9.7

Sergio 

Cuenta 3 3 3 3 12Suma 69 66 48 69 252Promedio 23 22 16 23 21Varianza 1 4 7 7 12.7

Orlando 

Cuenta 3 3 3 3 12Suma 78 66 63 63 270Promedio 26 22 21 21 22.5Varianza 7 3 4 4 7.9

William 

Cuenta 3 3 3 3 12Suma 87 75 69 66 297Promedio 29 25 23 22 24.75Varianza 1 1 7 4 10.20

Fernando 

Cuenta 3 3 3 3 12Suma 84 84 75 72 315Promedio 28 28 25 24 26.25Varianza 0 4 4 0 4.93

Total 

Cuenta 15 15 15 15Suma 381 357 309 321Promedio 25.4 23.8 20.6 21.4Varianza 11.1 9.2 15.8 9.7

ANÁLISIS DE VARIANZAOrigen de 

las 

variaciones 

Suma de 

cuadrados 

Grados de 

libertad 

Promedio 

de los 

cuadrados F Probabilidad  

Valor crítico 

para F 

Muestra 359.10 4 89.78 20.88 0.000 2.61Columnas 218.40 3 72.80 16.93 0.000 2.84Interacción 110.10 12 9.17 2.13 0.036 2.00Dentro delgrupo 172.00 40 4.30

Total 859.60 59

 Donde el valor p para interacciones es 0.036, es menor que nuestro nivel de significancia de0.05. Por tanto, la decisión es rechazar la hipótesis nula de no interacción y concluir que lacombinación de ruta y conductor tiene un efecto significativo en la variable de respuesta, quees el tiempo de recorrido.

Los efectos de la interacción proporcionan información acerca de los efectos combinados de lasvariables. Si está presente la interacción, se deberá efectuar una prueba ANOVA de una víapara probar diferencias en las medias del factor por cada nivel del otro factor. Este análisisrequiere tiempo y esfuerzo pero los resultados son muy interesantes. El análisis se continúa con

una ANOVA de una vía por cada conductor para probar la hipótesis Ho. Los tiempos derecorrido de las rutas son iguales. Los resultados son los siguientes:

Page 24: analissi varianza

5/5/2018 analissi varianza - slidepdf.com

http://slidepdf.com/reader/full/analissi-varianza 24/32

Universidad Alas Peruanas Control Inferencia Estadística-Ing. E.MontenegroEscuela Profesional de Ingeniería Industrial y Sistemas IV Ciclo / 2011

24

Origen de 

las 

variaciones 

Suma de 

cuadrados 

Grados de 

libertad 

Promedio de 

los 

cuadrados F Probabilidad  

Valor crítico 

para F 

Entre grupos 51 3 17 2.43 0.14 4.066Dentro de los

grupos 56 8 7

Total 107 11

Origen de 

las 

variaciones 

Suma de 

cuadrados 

Grados de 

libertad 

Promedio de 

los 

cuadrados F Probabilidad  

Valor crítico 

para F 

Entre grupos 51 3 17 3.78 0.059 4.066Dentro de los

grupos 36 8 4.5

Total 87 11

Origen de 

las 

variaciones 

Suma de 

cuadrados 

Grados de 

libertad 

Promedio de 

los 

cuadrados F Probabilidad  

Valor crítico 

para F 

Entre grupos 102 3 34 7.16 0.012 4.066Dentro de los

grupos 38 8 4.75

Total 140 11

Origen de 

las 

variaciones 

Suma de 

cuadrados 

Grados de 

libertad 

Promedio de 

los 

cuadrados F Probabilidad  

Valor crítico 

para F 

Entre grupos 38.25 3 12.75 6.38 0.016 4.066Dentro de los

grupos 16 8 2

Total 54.25 11

Origen de 

las 

variaciones 

Suma de 

cuadrados 

Grados de 

libertad 

Promedio de 

los 

cuadrados F Probabilidad  

Valor crítico 

para F 

Entre grupos 86.25 3 28.75 8.85 0.006 4.066Dentro de los

grupos 26 8 3.25

Total 112.25 11

William Ho: Los tiempos de recorrido de las rutas son iguales

Daniel Ho: Los tiempos de recorrido de las rutas son iguales

Orlando Ho: Los tiempos de recorrido de las rutas son iguales

Sergio Ho: Los tiempos de recorrido de las rutas son iguales

Fernando Ho: Los tiempos de recorrido de las rutas son iguales

 Recuerde los resultados de ANOVA de 2 vías sin iteración en ese análisis, los resultadosmostraron en forma clara que el factor “ruta” tenía un efecto significativo en el tiempo derecorrido. Sin embargo, ahora que se incluye el efecto interacción, los resultados muestran quela conclusión generalmente no es verdadera. Al revisar los anteriores valores p de las 5 tablas

 ANOVA de una vía se rechaza la hipótesis nula si el valor p es menor que 0.05. Se sabe que lostiempos de recorrido medios de las rutas son distintos para los 3 conductores. Fernando, Sergioy William. Sin embargo para Daniel y Orlando sus tiempos de recorrido medios de las rutas nodifieren de manera significativa.

  Ahora que se conoce esta nueva e interesante información, se quiere saber porqué existenestas diferencias. Se requerirá una investigación más profunda de los hábitos de conducción delos 5 conductores.

En resumen, la presentación de ANOVA de 2 vías con interacción demuestra el poder delanálisis estadístico. En este análisis se demostró el efecto combinado del conductor y la ruta

Page 25: analissi varianza

5/5/2018 analissi varianza - slidepdf.com

http://slidepdf.com/reader/full/analissi-varianza 25/32

Universidad Alas Peruanas Control Inferencia Estadística-Ing. E.MontenegroEscuela Profesional de Ingeniería Industrial y Sistemas IV Ciclo / 2011

25

sobre el tiempo de recorrido y también que los distintos conductores, en efecto, se comportande manera diferente cuando recorren sus rutas. Conocer los efectos de la interacción es muyimportante en muchas aplicaciones.

1.- Considere los siguientes datos muestrales para un experimento para un experimento ANOVAde 2 factores:

Ejercicios Propuestos

FACTOR A

Nivel I Nivel II Nivel III

Factor B

Nivel I

23 20 11

21 32 20

25 26 20

Nivel II

13 20 11

32 17 23

17 15 8

Utilice el nivel de significancia 0.05 para responder las siguientes preguntas:a)  Hay alguna diferencia en las medias del Factor A?

b)  Hay alguna diferencia en el factor B?c)  Los factores A y B tienen interacción significativa?

2.- El distribuidor del periódico ABC considera 3 tipos de máquinas expendedoras o  “anaquetas”. La gerencia desea saber si las máquinas diferentes afectan las ventas. Losanaqueles se designan como J-100, D-320 y UV-57. La gerencia también desea saber si laubicación de los anaqueles ya sea dentro o fuera de los supermercados afecta las ventas. Acada una de las 6 tiendas similares les asignan de forma aleatoria una combinación de máquinay ubicación. Los siguientes datos muestran el número de periódicos vendidos durante 4 días.

Ubicación/Máquina J-100 D-320 UV-57

Dentro 33,40,30,31 29,28,33,33 47,39,39,45

Fuera 43,36,41,40 48,45,40,44 37,32,36,35

a)  Trace la gráfica de interacción. Con base en sus observaciones. ¿Hay algún efecto deinteracción? A partir de la gráfica, describa el efecto de interacción entre la máquina y suposición

b)  Utilice el nivel de significancia 0.05 para probar los efectos de posición, máquina einteracción sobre las ventas.

c)  Compare las ventas medias dentro y fuera para cada máquina. Cuál es su conclusión?

3.- Una compañía importante esta organizada en 3 áreas funcionales: Producción, Marketing eInvestigación&Desarrollo. Los empleados afirman que la compañía les paga a las mujeresmenos que a los hombres en puestos similares. La compañía hizo una selección aleatoria de 4

hombres y 4 mujeres en cada área y registró sus salarios semanales en dólares.

Area/genero Femenino Masculina

Producción 1016;1007;875;968 978;1056;982;748

Marketing 1045;895;848;904 1154;1091;878;876

I&D 770;733;844;771 926;1055;1066;1088

a)  Dibuje la gráfica de interacción. Con base en sus observaciones. ¿Hay algún efecto deinteracción? A partir de la gráfica, describa el efecto de interacción entre el género y elárea sobre el salario

b)  Utilice el nivel de significancia 0.05 para probar los efectos de género, área e interacciónsobre el salario.

c)  Compare las ventas medias de hombres y mujeres por cada área. Cuál es su conclusión,que le recomendaría a la compañía?

Page 26: analissi varianza

5/5/2018 analissi varianza - slidepdf.com

http://slidepdf.com/reader/full/analissi-varianza 26/32

Universidad Alas Peruanas Control Inferencia Estadística-Ing. E.MontenegroEscuela Profesional de Ingeniería Industrial y Sistemas IV Ciclo / 2011

26

DISEÑO DE EXPERIM ENTOS

La experimentación es el procedimiento apropiado para investigar cualquier fenómeno en el queexiste incertidumbre. Los investigadores realizan experimentos virtualmente en todos loscampos del saber, por lo general para descubrir algo acerca de un proceso o sistema enparticular.

Experimento

Es cualquier proceso o actividad que origina un resultado o una observación. Un experimento seefectúa para establecer las condiciones óptimas en las cuales se desarrolla un proceso, con elobjeto de comparar entre sí los efectos de las distintas condiciones en las que se realiza unfenómeno. Los experimentos son una parte natural de la ingeniería y de los procesos de tomade decisiones científicos.

Diseño del experimento

Este término se utiliza para planear un experimento de manera que se pueda obtener lainformación pertinente a un determinado problema que se investiga y así tomar decisionescorrectas. El diseño adecuado del experimento es una etapa fundamental de laexperimentación, que permite el suministro correcto de datos a posteriori, lo que a su vezconducirán a un análisis objetivo y con deducciones válidas del problema.

Un experimento diseñado no es más que una prueba o una serie de pruebas en las que seinducen cambios deliberados en las variables de entrada de un proceso o sistema, de maneraque sea posible observar e identificar las causas de los cambios en la respuesta de salida.

 Análisis de un experimento

Un experimento se analiza efectuando su análisis de varianza.

 Variable independiente

Es aquella que el investigador desea medir su efecto y está bajo control.

Ejemplo: 

Consideremos un experimento diseñado para adquirir información acerca de la efectividad de

dos diferentes métodos de enseñanza de Estadística. El experimentador tiene bajo control laselección de los diferentes métodos que va a utilizar en dicho experimento, entonces el métodoes la variable independiente.

 Variable dependien te (respuesta o endógena)

Es toda aquella variable que es explicada por el modelo y refleja el efecto de las variablesindependientes.

Ejemplo:  

La efectividad en el aprendizaje de estadística.

Page 27: analissi varianza

5/5/2018 analissi varianza - slidepdf.com

http://slidepdf.com/reader/full/analissi-varianza 27/32

Universidad Alas Peruanas Control Inferencia Estadística-Ing. E.MontenegroEscuela Profesional de Ingeniería Industrial y Sistemas IV Ciclo / 2011

27

 Variables exógenas

Son todas aquellas variables que explican a la variable dependiente en menor escala que lasvariables independientes. Generalmente no tiene ninguna importancia para el investigador. El

investigador deberá controlar estas variables puesto que ocasionan en el experimentovariaciones que no resultan convenientes.

Cuando se controla dos o más variables exógenas generalmente el método más adecuado es elanálisis de covarianza. Las dificultades aumentan a medida que aumentan las variablesexógenas.

Ejemplo: 

Las inasistencias, la atención.

Factor o tratamiento

Los tratamientos son los diferentes procedimientos, procesos, factores o materiales cuyosefectos van a ser medidos y comparados. El tratamiento establece un conjunto de condicionesexperimentales que deben imponerse a una unidad experimental dentro de un diseñoseleccionado.

Se emplea como sinónimo de variable independiente. Es decir son todas aquellas variablescuyos efectos se desean medir. Pueden ser cuantitativas o cualitativas.

Ejemplo :

Los diferentes métodos de enseñanza.

Niveles de factor o tratamiento

Son las diferentes categorías lógicas o intensidades de cada factor investigado.

Unidad experimental

Es la entidad más pequeña a la que se aplica un tratamiento. Son los objetos sobre los cualesse hacen mediciones y se analiza la variable que se investiga.

Ejemplo:  Los alumnos.

 Aleatorización

Es la asignación aleatoria de los tratamientos en estudio a las unidades experimentales con elpropósito de asegurar que un determinado tratamiento no presente sesgo. Por otro lado laaleatorización hace válidos los procesos de inferencia y las pruebas estadísticas.

Error experimental

Es la medida de la variabilidad de respuesta que presentan las unidades experimentales al serexpuestas al mismo nivel de tratamiento.Las principales fuentes del error experimental son: Las diferencias inherentes en las unidades

experimentales y la ausencia de uniformidad que se puede presentar en el procedimientoexperimental.

Page 28: analissi varianza

5/5/2018 analissi varianza - slidepdf.com

http://slidepdf.com/reader/full/analissi-varianza 28/32

Universidad Alas Peruanas Control Inferencia Estadística-Ing. E.MontenegroEscuela Profesional de Ingeniería Industrial y Sistemas IV Ciclo / 2011

28

Repetición

Es la reproducción o réplica del experimento básico (asignación de un tratamiento a una unidadexperimental). Las principales razones por las cuales es deseable la repetición son: primero

porque proporciona una estimación del error experimental, siendo tal estimación confiable amediada que aumenta el número de repeticiones, y segundo permite estimaciones más precisasdel tratamiento en estudio.

Propósito de un Diseño Experimental

Proporcionar métodos que permitan obtener la mayor cantidad de información válida acerca deuna investigación, teniendo en cuenta el factor costo y el uso adecuado del material disponiblemediante métodos que permitan disminuir el error experimental.

PRUEBA DE TUKEY 

Cuando un investigador ha efectuado un análisis de varianza y acepta la hipótesis alternativa,se interesa generalmente por obtener más información a partir de los datos. Casi siempre quese puede concluir, con base en la prueba F, que no todas las medias son iguales, resultaconveniente poder determinar dónde se presentan las diferencias, es decir se averiguará quépares de medias muestrales de los tratamientos son diferentes. Estas comparaciones que sehacen después del análisis inicial de varianza se denominan comparaciones a posteriori o post hoc.

Tukey propuso un método para hacer todas las comparaciones pareadas entre medias. Coneste método se calcula un solo valor con el que se comparan todas las diferencias.

 Valor Crítico:

kN,k,q  −α  

Estadística de Prueba:

Para ni iguales:

n

CME

 x xq 

ji −=  

Para ni diferentes:

 

 

 

 +

−=

 ji

 ji

n1

n1

2CME

 x xq   

Decisión:

Si la estadística de prueba es mayor que el valor crítico, entonces:  ji μμ ≠  

E j emp l o 1 :

Un ingeniero de control de calidad de una compañía fabricante de equipos

electrónicos de audio se encuentra inspeccionando un nuevo tipo de bateríaque tal vez pueda utilizar. Un lote de 20 baterías fue dividido aleatoriamente en

Page 29: analissi varianza

5/5/2018 analissi varianza - slidepdf.com

http://slidepdf.com/reader/full/analissi-varianza 29/32

Universidad Alas Peruanas Control Inferencia Estadística-Ing. E.MontenegroEscuela Profesional de Ingeniería Industrial y Sistemas IV Ciclo / 2011

29

cuatro grupos (de modo que había cinco baterías en cada uno). Cada grupo debaterías fue sometido a un nivel particular de presión: baja, normal, alta y muyalta. Las baterías se probaron simultáneamente bajo estos niveles de presión yse registraron los tiempos de falla (en horas).

Baja : 8.0 8.1 9.2 9.4 11.7Normal : 7.6 8.2 9.8 10.9 12.3  Alta : 6.0 6.3 7.1 7.7 8.9Muy Alta : 5.1 5.6 5.9 6.7 7.8

Se afirma que existe diferencia altamente significativa solamente entre el grupo de baterías conpresión baja y el grupo de baterías con presión muy alta, ¿Está usted de acuerdo? Explique porqué sí o por qué no.

Solución:

grupos4k = N = 20 datos

1: Baja 2: Normal 3: Alta 4: Muy Alta

8.0 7.6 6.0 5.18.1 8.2 6.3 5.69.2 9.8 7.1 5.99.4 10.9 7.7 6.7

11.7 12.3 8.9 7.84.46 T .1 =   8.48 T  .2 =   0.36 T  .3 =   1.31. T 4 =  

5n1 =   5n2 =   5n3 =   5n4 =  

28.9 x1 =   76.9 x2 =   20.7 x3 =   6.22 x4 =  

23.2S21 =   71.3S22 =   35.1S2

3 =   12.1S24 =  

∑ == 30.162X T   ji   ∑ = 15.1393X2 ji

 

1ero.- Se realizará la prueba de Bartlett para verificar si las varianzas poblacionales de loscuatro grupos son iguales.

1. Hipótesis:

Page 30: analissi varianza

5/5/2018 analissi varianza - slidepdf.com

http://slidepdf.com/reader/full/analissi-varianza 30/32

Universidad Alas Peruanas Control Inferencia Estadística-Ing. E.MontenegroEscuela Profesional de Ingeniería Industrial y Sistemas IV Ciclo / 2011

30

NORMAL

MUY ALTA

BAJA

 ALTA

876543210

      F      A      C      T      O      R

Inte rv alos de confianza de Bonferroni de 95% para Desv .Est .

Estadística de prueba 1,62

 Valor P 0,654

Estadística de prueba 0,70

 Valor P 0,568

Prueba de Bartlett

Prueba de Levene

Prueba de igualdad de vari anzas para RP TA 

diferenteesunamenosAl:H

:H

2i1

24

23

22

210

σ

σ=σ=σ=σ 

Prueba de varianzas iguales: RPTA vs. FACTOR

Intervalos de confianza de Bonferroni de 95% para desviaciones estándares

FACTOR N Inferior Desv.Est. Superior

ALTA 5 0,61338 1,16190 4,82042

BAJA 5 0,78781 1,49231 6,19124

MUY ALTA 5 0,55794 1,05688 4,38475

NORMAL 5 1,01724 1,92691 7,99430

Prueba de Bartlett (distribución normal)

Estadística de prueba = 1,62; valor p = 0,654

Prueba de Levene (cualquier distribución continua)Estadística de prueba = 0,70; valor p = 0,568

valor p = 0,654 > ALFA Entonces, aceptar 0H  

2do.- Al verificarse el supuesto de homogeneidad de varianzas, entonces se comprobará siexiste o no diferencia entre los promedios poblacionales de los cuatro grupos.

1. Hipótesis:

diferenteesiμunmenosAl:H

μμμμ:H

1

43210 === 

Page 31: analissi varianza

5/5/2018 analissi varianza - slidepdf.com

http://slidepdf.com/reader/full/analissi-varianza 31/32

Universidad Alas Peruanas Control Inferencia Estadística-Ing. E.MontenegroEscuela Profesional de Ingeniería Industrial y Sistemas IV Ciclo / 2011

31

2. Valor crítico: kN,1k,α1F −−−  

29.5F 16,3,99.0 =  

3. Estadística de prueba:

CME

)tr(CMF =  

Tabla de Análisis de Varianza (ANOVA)

Fuente de Variación Grados deLibertad

Suma deCuadrados

CuadradoMedio

F

Tratamientos 3 42.46 14.15

6.74Error 16 33.63 2.10Total 19 76.09

Suma de cuadrados del total:

∑ =−=−= 76.0920

162.301393.15

N

 T XSCT 

222  

Suma de cuadrados de tratamientos:

N

 T 

n

 T ) Tr(SC

2

i

2i −= ∑  

20

162.30

5

31.1

5

36.0

5

48.8

5

46.4 22222−

+++=  

= 42.46

Suma de cuadrados del error:

33.6342.4676.09

 Tr)(SCSCT SCE

=−=

−= 

4. Decisión: 10 HAceptar yHRechazarRR6.74F ⇒∈=  

5. Conclusión:

Con una confianza del 99% podemos afirmar que los tiempos promedio de falla de lasbaterías se diferencian entre sí.

3ero.- Como se aceptó H1

 

entonces deberá realizarse la prueba de Tukey para determinarentre qué promedios existe tal diferencia.

1.   Valor crítico:

=− = 16,4,0.01kN,k,α q q  5.19

2.  Estadística de Prueba:

Page 32: analissi varianza

5/5/2018 analissi varianza - slidepdf.com

http://slidepdf.com/reader/full/analissi-varianza 32/32

Universidad Alas Peruanas Control Inferencia Estadística-Ing. E.MontenegroEscuela Profesional de Ingeniería Industrial y Sistemas IV Ciclo / 2011

32

5

10.2

 x x

n

CME

 x xq 

 ji ji −−= =  

Los promedios son:

76.9 x2 =   28.9 x1 =   20.7 x3 =   6.22 x4 =  

Realizando las comparaciones múltiples:

12

1219.574.0

5

10.2

28.976.9

n

CME

 x xq  µ=µ⇒<

−−= ==  

32

32

19.594.3

5

10.2

20.776.9

n

CME

 x x

q  µ=µ⇒<

−−

= ==  

42

4219.545.5

5

10.2

22.676.9

n

CME

 x xq  µ≠µ⇒>

−−= ==  

31

3119.52.3

5

10.2

20.728.9

n

CME

 x xq  µ=µ⇒<

−−= ==  

41

4119.571.4

5

10.2

22.628.9

n

CME

 x xq  µ=µ⇒<

−−= ==  

43

4319.551.1

5

10.2

22.620.7

n

CME

 x xq  µ=µ⇒<

−−= ==  

Con una confianza del 99% podemos concluir que los únicos promedios que difieren son:42 y µµ